亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在大量文本數據中篩選并總結關鍵信息對于醫生如何分配他們的時間構成了巨大的負擔。雖然大型語言模型(LLMs)在自然語言處理(NLP)任務中展現了巨大的潛力,但它們在多樣的臨床總結任務中的有效性尚未被嚴格檢驗。在這項工作中,我們使用領域適應方法對八個LLMs進行了調整,這些模型覆蓋了六個數據集和四個不同的總結任務:放射科報告、患者問題、進展注釋和醫患對話。我們全面的量化評估揭示了模型和適應方法之間的權衡,以及最新進展在LLMs上可能不會帶來改進結果的情況。進一步,在與六名醫生進行的臨床閱讀研究中,我們描述了最佳適應的LLM生成的摘要在完整性和準確性方面優于人工摘要。我們接下來的定性分析描繪了LLMs和人類專家共同面臨的挑戰。最后,我們將傳統的量化NLP指標與閱讀研究分數進行了相關性分析,以增強我們對這些指標如何與醫生偏好一致的理解。我們的研究標志著LLMs在多個臨床文本總結任務中首次超過人類專家的證據。這意味著將LLMs整合到臨床工作流程中可能減輕文檔負擔,使醫生能夠更多地專注于個性化患者護理和醫學中其他不可替代的人類方面。

付費5元查看完整內容

相關內容

醫學領域的人工智能是使用機器學習模型搜索醫療數據,發現洞察,從而幫助改善健康狀況和患者體驗。 得益于近年來計算機科學和信息技術的發展,人工智能 (AI) 正迅速成為現代醫學中不可或缺的一部分。 由人工智能支持的人工智能算法和其他應用程序正在為臨床和研究領域的醫學專業人員提供支持。

近期,預訓練的基礎模型在多個領域都實現了顯著的進步。但在分子機器學習中,由于數據集經常是手工策劃的,通常比較小,因此缺乏帶標簽特征的數據集和管理這些數據集的代碼庫,這都限制了基礎模型的發展。在這項工作中,我們介紹了七個按大小劃分為三個明確類別的新數據集:ToyMix、LargeMix 和 UltraLarge。這些數據集在監督標簽的規模和多樣性上都為分子學習設定了新的標準。它們涵蓋了近1億分子和超過3000個稀疏定義的任務,總計超過130億個量子和生物性質的獨立標簽。相比之下,我們的數據集包含的數據點是廣泛使用的 OGB-LSC PCQM4Mv2 數據集的300倍,和僅限于量子的 QM1B 數據集的13倍。此外,為了支持基于我們提出的數據集的基礎模型的發展,我們展示了Graphium圖機器學習庫,它簡化了為多任務和多層次分子數據集構建和訓練分子機器學習模型的過程。最后,我們提供了一系列基線結果,作為在這些數據集上進行多任務和多層次訓練的起點。從經驗上看,我們觀察到,在資源有限的生物數據集上的性能通過在大量的量子數據上進行訓練也得到了提高。這表明在多任務和多層次訓練的基礎模型上,并對資源受限的下游任務進行微調,可能有潛力。

//www.zhuanzhi.ai/paper/8bd15b3e2a1a4aa7b8d48bdab77042c3

圖形和幾何深度學習模型已經成為近年來機器學習在藥物發現中成功的關鍵組成部分(Gasteiger et al.; Masters et al., 2023; Rampá?ek et al., 2022; Ying et al., 2021)。這些方法在分子表示學習(2D (Rampá?ek et al., 2022)、3D (Gasteiger et al.; 2021) 和 4D (Wu et al., 2022) 的情況下)、活性和性質預測 (Huang et al., 2021)、力場開發 (Batatia et al., 2022)、分子生成 (Bilodeau et al., 2022) 以及原子相互作用的建模 (Corso et al., 2022) 中展現了相當的性能。和其他深度學習方法一樣,它們需要大量的訓練數據來實現高模型精度。然而,在當前的治療文獻中,大多數訓練數據集的樣本都是有限的 (Huang et al., 2021)。令人心動的是,自監督學習和自然語言處理 (NLP) (Brown et al., 2020a; Liu et al., 2023b) 和計算機視覺 (CV) (Dosovitskiy et al.) 中的基礎模型的最新進展已經極大地提高了深度學習的數據效率。事實上,通過預先投資于使用大量數據預訓練大模型,一次性的成本,事實證明,學到的歸納偏見降低了下游任務的數據需求。

繼這些成功之后,許多研究已經探討了大型分子圖神經網絡的預訓練及其在低數據分子建模中的益處 (Lin et al., 2022; Méndez-Lucio et al., 2022; Zhou et al., 2023)。然而,由于大型帶標簽的分子數據集的稀缺,這些研究只能利用自監督技術,如對比學習、自動編碼器或去噪任務 (Hu et al., 2020a; Xia et al., 2023)。通過從這些模型中微調的低數據建模努力,迄今為止,只實現了自監督模型在NLP和CV中所取得的部分進展 (Sun et al., 2022)。這部分是由于分子和它們的構象體作為圖形的未確定性解釋的,因為它們的行為是環境依賴的,并主要由量子物理規定。例如,眾所周知,結構相似的分子可能具有完全不同的生物活性,這被稱為活性斷層,這限制了僅基于結構信息的圖形建模 (van Tilborg et al., 2022)。我們認為,為分子建模構建有效的基礎模型需要使用量子力學 (QM) 描述和生物環境依賴數據的監督訓練。

**貢獻 **

本研究以三種方式推進了分子研究首先,我們引入了一個新的多任務數據集家族,這些數據集的規模比當前的技術水平要大得多其次,我們描述了一個名為Graphium的圖機器學習庫,以便在這些大型數據集上進行高效訓練。第三,我們實現了一系列基線模型,支持在多種任務集合上進行訓練的價值數據集我們引入了三個大型且精心策劃的多標簽數據集,這些數據集覆蓋了近1億個分子和超過3000個稀疏定義的任務,總計超過130億個單獨的標簽,目前是其種類中最大的。這些數據集是為基礎模型的監督訓練而設計的,通過結合表示量子和生物屬性的標簽,這些屬性是通過模擬和濕實驗室實驗獲得的。這些標簽也是多層次的,包括節點級和圖級任務。標簽的多樣性促進了高效的遷移學習,并使得在廣泛的下游分子建模任務中提高基礎模型的泛化能力成為可能。為了創建這些全面的數據集,我們仔細策劃并增強了現有數據,加入了額外的信息。因此,我們的收藏中的每一個分子都伴隨著其量子力學 (QM) 屬性和/或生物活動的描述。QM屬性涵蓋能量、電子和幾何方面,使用各種先進的方法計算,包括像B3LYP (Nakata & Shimazaki, 2017) 這樣的密度泛函理論 (DFT) 方法,以及像PM6 (Nakata et al., 2020) 這樣的半經驗方法。在生物活性方面,我們的數據集包括從劑量反應生物測定、基因表達譜分析和毒理學譜分析獲得的分子簽名,如圖1所示。聯合建模量子和生物效應促進了描述分子的復雜環境依賴屬性的能力,這些屬性從通常有限的實驗數據集中提取是不可行的。

**Graphium庫 **我們開發了一個名為Graphium的綜合圖機器學習庫,以便在這些廣泛的多任務數據集上進行高效訓練。這個新穎的庫簡化了建立和訓練分子圖基礎模型的過程,通過結合特征集合和復雜的特征相互作用。通過將特征(位置和結構)和表示視為基本的構建模塊,并實現最先進的GNN層,Graphium克服了現有框架帶來的挑戰,這些框架主要是為具有有限節點、邊和圖特征之間相互作用的順序樣本而設計的。此外,通過提供諸如數據集組合、缺失數據處理和聯合訓練等功能,Graphium處理了在大型數據集合上訓練模型的關鍵且通常復雜的工程,以簡單且高度可定制的方式。

**基線結果 **我們在單數據集和多數據集情境中訓練了一系列模型,用于所提出的數據集混合。這些結果提供了堅實的基線,可以幫助指導這些數據集的未來用戶,但也給出了在這種多數據集范式中訓練的價值的一些指示。具體來說,這些模型的結果顯示,與大型數據集結合訓練可以顯著提高低資源任務的訓練效果。總之,我們的研究介紹了迄今為止最大的2D分子數據集,專門設計用于訓練可以有效理解分子的量子屬性和生物適應性的基礎模型,因此可以微調到廣泛的下游任務。此外,我們開發了Graphium庫,簡化了這些模型的訓練過程,并展示了一系列基線結果,突顯了所提出的數據集和庫的有效性。

構建數據集

而不是提出一個單一任務數據集,我們提出一個數據集的集合或“混合”,使得在與量子化學和生物化學有關的任務中實現多任務學習,并建立基礎模型。數據集在圖1中進行了可視化,并在表1中補充了統計數據。有關數據集許可證和可用性的詳細信息,請參見附錄B.2和可復制性部分,有關數據集的深入了解,請參見附錄D。 首先,我們提出一個較小的TOYMIX數據集,以便快速迭代架構,同時也提供有價值的見解。其次,我們提議LARGEMIX,一個精心策劃的數據集混合,包含數百萬化學化合物的數據,有數千個生物或量子標簽。最后,我們提出超大的PM6_83M數據集,它以超過120億個為8300萬分子定義的標簽,推動了數據集規模的極限。在以下部分,將詳細描述這三個數據集類別。

Graphium庫

藥物發現是一個擁有豐富、多面的數據集的領域。數據通常是天然的多任務,包含在各種級別的標簽信息,從節點和邊緣到節點對和整個圖形。因此,在這樣復雜的數據集上訓練模型需要一種共同學習多個任務級別的策略,這是一個獨特的挑戰。為了利用這些數據集混合中所包含的豐富信息,并從它們的規模中受益,需要專門的軟件來促進以多任務方式進行有效的培訓。為此,我們引入了Graphium庫,它是專門為分子領域內的大規模多任務和多級機器學習模型而設計的。

Graphium庫的關鍵特性在此總結,詳細信息可在附錄E中找到,文本中指出了相關部分。整個培訓程序在模塊化配置文件中定義,例如這允許用戶交換架構、數據集或指標以進行快速實驗。Graphium庫的核心新特性是多級多任務學習,它便于通過模塊化的數據加載、任務頭和損失函數,在多個具有不同和稀疏標簽的數據集上訓練模型。更多細節可以在附錄E.1中找到。靈活和模塊化的建模在附錄E.2中詳細說明。位置編碼方法,為子圖內的位置提供節點級別的信息,對于許多先進的分子模型是不可分割的。Graphium中提供了關鍵方法,包括隨機漫步和拉普拉斯特征向量,這在附錄E.3中詳細說明。標簽標準化(附錄E.4)、排名分類損失(附錄E.5)和缺失數據的處理(附錄E.6)是該庫的重要細節,有助于結合多個數據來源在一系列任務上,以及數據集中不可避免的稀疏性。為了使大型模型的培訓資源高效,很多注意力都集中在對小型模型調整模型參數并將這些應用到大型模型上。其中一個名為μP的方法在Yang等人(2022)中引入,包括在Graphium中,以減少超參數調優的成本。附錄E.7中提供了更多細節。該庫支持CPU、GPU和IPU [§E.8]硬件以加速訓練。進一步的庫優化在附錄E.9中詳細說明。

基線模型的實驗

為了在具有數千個標簽的多任務設置中展示Graphium庫的能力,我們使用3種流行的GNNs,即GCN (Kipf & Welling, 2017)、GIN (Xu等,2019) 和 GINE (Hu等,2020a),使用簡單的超參數掃描運行了一套標準基線。對每個模型進行了基本的超參數掃描,并使用多個隨機種子進行初始化,為將來的實驗提供了一個性能基線進行評估。

除了與數據集一起提供的節點特征(和GINE的邊緣特征)外,我們還使用圖的Laplacian的前8個特征值和特征向量作為節點級PE。結合特征值和特征向量,并使用MLP進行嵌入,提供了一個由圖的頻譜屬性所決定的PE (Kreuzer等,2021)。我們進一步使用隨機行走返回概率(即,隨機行走在特定節點開始并在k∈N步后返回到所述節點的概率),再次,與MLP編碼器結合使用 (Dwivedi等,2021)。這可以指示分子內部的循環的存在,這在某些分子任務的背景下可能是有信息的,例如,在ZINC數據集上對溶解度(logP)得分進行回歸 (Dwivedi等,2020)。

結論

在這項工作中,我們提出了一個前所未有的分子數據集合,為有監督的學習提供了大量的數據點,從而顯著增強了藥物發現領域研究的可用資源。這些數據集自然地具有多任務和多級的特點,為機器學習模型帶來了獨特的挑戰。為了促進對這些復雜數據集的研究,我們推出了Graphium庫,一個專為處理和高效加載大規模分子數據并在各種任務級別上進行多任務學習的框架。該庫利用我們的數據集所呈現的獨特特點和屬性,為分子學習的大型基礎模型的訓練提供了支持。 此外,我們提供了一些關于我們提出的數據集的基線結果,并顯示小型生物數據集在接受大量量子數據的訓練時的性能會得到提高。我們假設這種改進的泛化將幫助基礎模型在微調到藥物發現中常遇到的低資源下游任務時表現良好。

付費5元查看完整內容

我們引入了一個解釋黑盒機器學習(ML)模型的框架,發現深度神經網絡的一個失敗模式是過度解釋,并討論如何應用ML方法進行治療設計,包括面向所有變種的COVID-19疫苗。盡管ML模型被廣泛部署并經常獲得比傳統方法更高的準確性,但深度學習模型在功能上很復雜且難以解釋,限制了它們在高風險環境中的應用。除了更安全的部署外,模型解釋還有助于科學發現,經過驗證的基于實驗數據訓練的ML模型可以用來揭示生物機制或通過生物上真實的目標函數設計治療方法,如疫苗的人群覆蓋。對于解釋黑盒ML模型,我們引入了一個與模型無關、忠實于基礎函數并且概念上直觀的方法,稱為“**足夠的輸入子集”(SIS)**方法。

我們用SIS在自然語言、計算機視覺和計算生物學環境中演示了ML模型的解釋。使用SIS框架,我們發現了深度神經網絡的一個新的失敗模式——過度解釋,這可能會妨礙在實際環境中的泛化能力。我們認為過度解釋是由于訓練數據集中存在退化信號引起的。接下來,使用已與實驗性免疫原性數據校準的ML模型,我們開發了一個用于計算設計穩健肽疫苗的靈活框架。我們的框架優化了每個人群中的??次覆蓋率,以激活更廣泛的T細胞免疫反應,考慮到個體之間肽免疫原性的差異,并減少由突變導致的疫苗逃逸的機會。使用這個框架,我們設計了對SARS-CoV-2的疫苗,其人群覆蓋率優于已發布的基線并在關注的變種中得到保留。我們通過我們的疫苗在體內對COVID-19進行的動物挑戰研究驗證了這種方法。這篇論文展示了模型解釋如何使ML方法能夠在生物環境中忠實部署的不同方式。

付費5元查看完整內容

雖然監督學習引發了深度學習的繁榮,但它有一些關鍵的缺點:(1)它需要大量昂貴的標記數據,(2)它從頭開始解決任務,而不是像人類那樣利用從先前經驗中獲得的知識和技能。預訓練已成為一種替代和有效的范式,以克服這些缺點,其中模型首先使用容易獲得的數據進行訓練,然后用于解決感興趣的下游任務,標記數據比監督學習少得多。使用未標記數據進行預訓練,即自監督學習,尤其具有革命性,在不同領域取得了成功:文本、視覺、語音等。這就提出了一個有趣且具有挑戰性的問題: 為什么對未標記數據進行預訓練應該有助于看似不相關的下游任務?

//dataspace.princeton.edu/handle/88435/dsp01t435gh21h **本文提出了一些工作,提出并建立了一個理論框架,以研究為什么自監督學習對下游任務有益。**該框架適用于對比學習、自回歸語言建模和基于自我預測的方法。該框架的核心思想是預訓練有助于學習數據的低維表示,這隨后有助于用線性分類器解決感興趣的下游任務,需要較少的標記數據。一個常見的主題是形式化用于構建自監督學習任務的無標記數據分布的理想屬性。在適當的形式化下,可以表明,近似最小化正確的預訓練目標可以提取在無標記數據分布中隱式編碼的下游信號。最后表明,該信號可以用線性分類器從學習到的表示中解碼,從而為跨任務的"技能和知識"遷移提供了一種形式化。

**引言 **

**在尋求設計智能體和數據驅動的問題解決方案的過程中,機器學習和人工智能領域在過去十年中取得了巨大的進步。**隨著在具有挑戰性的監督學習基準上的初步成功,如ImageNet [Deng等人,2009],深度學習的創新隨后導致模型在不同領域的許多此類基準上具有超人的性能。訓練這種特定于任務的模型當然令人印象深刻,并具有巨大的實用價值。然而,它有一個重要的限制,即需要大量的標記或標注數據集,而這通常是昂貴的。此外,從智能的角度來看,人們希望有更通用的模型,就像人類一樣[Ahn和Brewer, 1993],可以從以前的經驗中學習,將它們總結為技能或概念,并利用這些技能或概念來解決新任務,很少或沒有演示。畢竟,在沒有明確監督的情況下,嬰兒通過觀察和互動來學習很多東西。這些局限性啟發了預訓練的另一種范式。 ******本文的重點是使用通常大量可用的未標記數據進行預訓練。使用未標記數據的想法一直是機器學習的興趣點,特別是通過無監督學習和半監督學習。**使用深度學習對其進行的現代適應通常稱為自監督學習(SSL),并已經開始通過對比學習和語言建模等思想改變機器學習和人工智能的格局。自監督學習的思想是僅使用未標記的數據構建某些任務,并訓練模型在構建的任務上表現良好。這類任務通常需要模型通過從觀察到的或保留的部分預測輸入的未觀察到的或隱藏的部分(或屬性)來編碼數據的結構屬性[LeCun和Misra, 2021]。自監督學習在許多感興趣的下游任務上顯示出了通用性和實用性,通常比從頭解決任務具有更好的樣本效率,從而使我們離通用智能體的目標更近了一步。事實上,最近,像GPT-3 [Brown等人,2020]等大型語言模型已經展示了大規模出現的令人著迷的"突發行為",引發了人們對自監督預訓練想法的更多興趣。 盡管自監督學習在經驗上取得了成功,并繼續顯示出巨大的前景,但除了粗略的直覺之外,仍然缺乏對其工作原理的良好理論理解。這些令人印象深刻的成功提出了有趣的問題,因為先驗不清楚為什么在一個任務上訓練的模型應該有助于另一個看似不相關的任務,即為什么在任務a上訓練應該有助于任務b。雖然對SSL(和一般的深度學習)的完整理論理解是具有挑戰性和難以實現的,但在任何抽象層次上理解這種現象都可能有助于開發更有原則的算法。本文的研究動機是:為什么在自監督學習任務上進行訓練(使用大量未標記數據)有助于解決數據稀缺的下游任務?如何將“知識和技能”的遷移正式化? 雖然有大量關于監督學習的文獻,但來自SSL任務→下游任務的泛化與監督學習中來自訓練集→測試集的泛化有本質的不同。對于分類下游任務的監督學習,例如,從未知分布中采樣的在輸入-標簽對的訓練集上訓練的模型,可以直接用于對從相同分布中采樣的未見過的測試集的評估。這個基本的分布建立了從訓練集到測試集的聯系。然而,從SSL任務→下游任務的概念連接就不那么清晰了,因為SSL任務中使用的未標記數據沒有關于下游標簽的明確信號。這意味著在SSL任務上預訓練的模型(例如,從其余部分預測輸入的一部分)不能直接用于下游任務(例如,從輸入預測類別標簽)。因此,“知識和技能”的遷移需要使用一些標記數據進行額外的訓練步驟,理想情況下比從頭開始監督學習所需的少。對SSL任務→下游任務泛化的任何理論理解都需要解決這些問題:“未標記數據的內在作用是什么?以及“如何將預訓練模型用于下游任務?”本文針對分類的下游任務,通過對無標簽數據進行分布假設,并利用表示學習的思想,研究這些問題: (a)(分布假設)未標記的數據分布隱含地包含有關感興趣的下游分類任務的信息。

(b)(表示學習)在適當的SSL任務上預訓練的模型可以通過學習到的表示對該信號進行編碼,這些表示隨后可以用線性分類器解決下游分類任務。

點(a)表明,未標記的某些結構屬性隱式地為我們提供了有關后續下游任務的提示,而自監督學習可以幫助從數據中梳理出這個信號。點(b)提出了一種簡單且經驗上有效的方法來使用預訓練模型,利用模型的學習表示。本文識別并在數學上量化了未標記數據的分布屬性,對于不同的SSL方法,如對比學習、語言建模和自我預測,可以證明可以學習到良好的表示。在下一節中,我們將深入研究表示學習的思想,并形式化解釋為什么自監督學習有助于下游任務。

付費5元查看完整內容

盡管在深度學習方面已經取得了巨大的實踐進展,但我們對是什么使深度學習工作得很好以及為什么這樣做缺乏清晰的理論理解。在本文中,我們采用“自然科學”的方法來構建深度學習的理論。我們首先確定在跨越各種不同背景的實際深度網絡中出現的各種經驗屬性。然后,我們討論了這些實證發現可以如何用來通知理論。具體而言,我們證明:(1)與監督學習相比,經過自監督學習訓練的先進深度網絡盡管過度參數化,但在特定條件下仍能實現有限的泛化差距。(2)具有相似性能和架構的模型通常會收斂到相似的內部表示,即使它們的訓練方法有很大的不同(例如:監督學習和自監督學習)(3)插值分類器服從一種分布泛化形式——它們從訓練分布中收斂到一種條件采樣器類型。(4)深度網絡的數據擴展特性對訓練數據集的結構和噪聲水平的變化具有魯棒性。

//dash.harvard.edu/handle/1/37372168

我們的發現強調,盡管缺乏最壞情況的保證,深度網絡隱含地以可預測的、結構化的方式運行,從而為未來的理論分析奠定了基礎。

付費5元查看完整內容

COVID-19大流行的例子表明,我們的健康和福祉取決于一個難以衡量的社會因素和個人行為網絡。我的研究旨在建立能夠影響這種社會挑戰的計算方法。這一努力需要新的算法和數據驅動的范式,涵蓋收集昂貴數據、學習模型以理解和預測交互作用以及優化干預中有限資源的使用的整個過程。針對這些需求,本文提出了機器學習、優化和社交網絡交叉的方法學發展,這些方面的發展是由在艾滋病毒預防、結核病治療和COVID-19反應方面的實地合作所推動的。這些項目產生了已部署的應用程序和策略影響。一個例子是在無家可歸的青年中開發一項預防艾滋病毒的人工智能增強干預措施。該系統在一項涉及700多名青年的實地測試中進行了評估,發現它顯著降低了艾滋病毒的關鍵風險行為。

//dash.harvard.edu/handle/1/37370083

付費5元查看完整內容

在本文中,我們開發并分析了三種不同機器學習環境下的魯棒性算法。在論文的第一部分,我們介紹了隱藏分層的問題——當一個分類模型在數據的某些未標記子類上表現不佳時——并提出了一種檢測和緩解這個問題的方法。以前的工作研究了如何在已知子類標簽的情況下處理這個問題。基于經驗觀察,未標記的子類通常在深度神經網絡的特征空間中是可分離的,我們轉而使用聚類技術估計數據的子類標簽。然后,我們使用估計的子類標簽作為分布魯棒優化目標中的一種噪聲監督形式,以便訓練一個對子類間變化更魯棒的模型。我們在幾個魯棒的圖像分類基準上證明了我們的方法的有效性。我們簡要討論了以下幾種替代方法:1)使用有限數量的子類標簽來進一步提高性能,2) 使用對比學習來學習不太容易受隱藏分層影響的表示。在論文的第二部分,我們研究了結構化分布漂移下的分類模型評價問題。給定來自“源”分布的標記樣本和來自“目標”分布的未標記樣本,重要性加權是執行這種評估的標準方法;然而,重要性加權在高維設置中會遇到困難,當源分布中不包含目標分布的支持時,重要性加權就會失敗。我們表明,人們可以通過對分布轉移性質的一些預見來回避這些問題;具體來說,我們提出了一種使用用戶定義的“切片函數”(旨在捕獲可能的分布偏移軸的二進制函數)來估計目標分布上的性能的算法。我們從理論上描述了我們的方法對切片函數中的噪聲和不完全性的魯棒性,并在各種分類任務上驗證了它的有效性。在論文的第三部分,我們提出了一種加速梯度法來有效地最小化一類光滑結構非凸函數,我們稱之為“類凸”函數。該算法是經典凸函數加速梯度下降法的推廣,對迭代間可能存在的非凸性具有較強的魯棒性。我們提供了一階求值次數的上界和下界,我們的算法需要找到一個近似最優,這表明我們的算法具有最優復雜度到對數因子

//searchworks.stanford.edu/view/14172616

付費5元查看完整內容

最近的GPT-3模型僅利用自然語言提示和一些任務演示作為輸入上下文,就實現了顯著的少樣本學習性能。受該工作的發現啟發,作者在一個更實際的場景中研究了少次學習,我們使用更小的語言模型,以便在微調時更具有計算效率。我們提出了LM-BFF——更好的面向語言模型的少樣本微調,這是一套簡單且互補的技術,用于在少量帶注釋的示例上微調語言模型。我們的方法包括:(1)基于提示的微調,以及一個自動化提示生成的新管道;(2)動態和有選擇地將演示整合到每個上下文中的精煉策略。最后,我們提出了一個系統的評價,以分析在一系列的自然語言處理任務的少數射擊性能,包括分類和回歸。我們的實驗表明,在這種低資源設置下,我們的方法結合起來顯著優于標準微調程序,實現了高達30%的絕對改進,在所有任務中平均達到11%。我們的方法對任務資源和領域專家知識做了最小的假設,因此構成了一個強大的任務不可知的方法,用于少樣本學習。

//www.zhuanzhi.ai/paper/8e74c666bc3760903ca59fe301bf7493

付費5元查看完整內容

在充分利用大量未標記數據的同時,從少量帶標記的樣例中學習的一種模式是,先進行無監督的預訓練,然后進行有監督的微調。盡管與計算機視覺半監督學習的常見方法相比,這種范式以任務無關的方式使用未標記數據,但我們證明它對于ImageNet上的半監督學習非常有效。我們方法的一個關鍵要素是在訓練前和微調期間使用大的(深度和廣度的)網絡。我們發現,標簽越少,這種方法(使用未標記數據的任務無關性)從更大的網絡中獲益越多。經過微調后,通過第二次使用未標記的例子,將大的網絡進一步改進,并以特定任務的方式將其精簡為分類精度損失很小的小網絡。本文提出的半監督學習算法可歸納為三個步驟: 使用SimCLRv2對一個大的ResNet模型進行無監督的預訓練,對少量帶標記的樣例進行有監督的微調,以及對未帶標記的樣例進行精化和傳遞特定任務的知識。使用ResNet-50,該程序僅使用1%的標簽(每個類別≤13張標記圖像),就實現了73.9%的ImageNet top-1精度,比以前的最先進的標簽效率提高了10倍。對于10%的標簽,ResNet-50用我們的方法訓練達到77.5%的top-1準確性,優于所有標簽的標準監督訓練。

//www.zhuanzhi.ai/paper/0c81b63b2aaae1ae2cc1a9b0fbb382b2

付費5元查看完整內容

由于語料庫的缺乏,在自然語言處理(NLP)的神經注意機制中整合人類凝視數據作為監督信號方面的進展有限。我們提出了一種新的混合文本顯著性模型(TSM),這是第一次將閱讀的認知模型與明確的人類注視監督結合在一個單一的機器學習框架中。在四個不同的語料庫上,我們證明了我們的混合TSM持續時間預測與人類凝視地面真相高度相關。我們進一步提出了一種新的聯合建模方法,將TSM預測集成到為特定上游NLP任務而設計的網絡的注意層中,而不需要任何特定任務的人類凝視數據。我們證明,在BLEU-4中,我們的聯合模型在Quora問題對語料庫上的釋義生成比目前的水平高出10%以上,并且在具有挑戰性的谷歌句子壓縮語料庫上實現了最先進的句子壓縮性能。因此,我們的工作引入了一種連接數據驅動和認知模型的實用方法,并展示了一種將人類注視引導的神經注意整合到NLP任務中的新方法。

//arxiv.org/abs/2010.07891

付費5元查看完整內容

由于硬件資源有限,訓練深度學習模型的目標通常是在訓練和推理的時間和記憶約束下使準確性最大化。在這種情況下,我們研究了模型大小的影響,重點研究了受計算限制的NLP任務的Transformer模型:自我監督的預訓練和高資源機器翻譯。我們首先表明,盡管較小的Transformer模型在每次迭代中執行得更快,但是更廣泛和更深入的模型在更少的步驟中收斂。此外,這種收斂速度通常超過使用大型模型的額外計算開銷。因此,最具計算效率的訓練策略是反直覺地訓練非常大的模型,但是在少量的迭代之后停止。

這導致大型Transformer 模型的訓練效率與小型Transformer 模型的推理效率之間存在明顯的權衡。然而,我們證明大型模型比小型模型對量化和剪枝等壓縮技術有更強的魯棒性。因此,我們可以同時利用兩個方面的優勢:高度壓縮的大型模型比輕度壓縮的小型模型獲得更高的精度。

付費5元查看完整內容
北京阿比特科技有限公司