亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

遷移學習是一種機器學習(ML)范式,通過利用其他任務中的“知識”來提高對目標任務的性能。這項技術已成為推動機器學習模型能力邊界擴展的關鍵動力。當前的公式相對簡單——在大量遷移任務數據上訓練一個大型模型;然后將所學的模型零樣本或經過適應性調整后應用于目標下游任務。這篇論文認識到,這些強大的模型并不是在真空中開發的,而是需要大量資源來訓練和部署。因此,有許多突出的問題和研究社區被現狀所忽視。在這篇論文的第一部分中,我們將專注于數據高效遷移學習的訓練時間問題。我們將從一個常見的ML情境出發,論證利用目標下游任務的高級知識來指導遷移學習的不同維度。我們將這種方法稱為終任務感知遷移學習。接下來,我們將提出一組新的終任務感知優化算法,這些算法通過偏向數據高效的解決方案來引導學習軌跡,并在終任務上具有較強的泛化能力。我們將以提供一種自動化方法結束這一部分,該方法可以在僅有終任務數據且數據量有限的情況下,構建并搜索與任務相關的遷移目標。 在論文的第二部分中,我們將開發計算和內存高效的遷移學習算法。我們的目標是基于一個已經在遷移任務(或任務集)上預訓練的通用大型模型,提供一個小型且高效但仍具有良好性能的任務特定模型,以供部署。我們將以結構化剪枝為主要技術,研究在兩種資源受限情況下的剪枝:(1)有限的任務數據,在這種情況下,我們將利用額外的遷移任務來學習剪枝結構,在相同的任務性能下,產生計算和內存更高效的模型;(2)內存受限的環境中,許多經典的剪枝技術因需要基于梯度的優化而導致內存開銷過大,從而失效。 本論文的結論部分將通過基于我們的既往工作,提出更多未來在資源高效遷移學習領域的研究方向,并建議一些新的研究分支。 機器學習(ML)模型變得越來越強大,導致它們在許多任務領域(Gururangan等,2020a;Liu等,2022)、數據模態(Team等,2023;McKinzie等,2024)和最終用戶應用(Bommasani等,2021;Maslej等,2023)中的廣泛采用。可以說,這一驚人增長速度的關鍵驅動力之一是遷移學習。在遷移學習中,我們通過利用來自不同但希望相關任務的知識,來提高對目標任務(或任務集)的性能(Bozinovski和Fulgosi,1976;Pratt,1992;Ruder等,2019)。我們希望解決的許多終任務數據有限,或者過于復雜,無法通過實際數量的監督樣本直接指定或學習。遷移學習不僅通過提供代理數據,還通過利用這些任務與選定遷移任務之間的結構關系,使我們能夠高效學習復雜任務(Thrun和Schwartz,1994;Baxter,2000)。 盡管取得了成功,現代實現形式的遷移學習可能資源消耗過大。例如,普遍的預訓練后適應范式1。在這種方法中,越來越大的模型首先在越來越多的數據上進行訓練,這些模型最終通過微調(Devlin等,2018;Abnar等,2021)、提示(Brown等,2020a;Liu等,2023)或基于人類反饋的強化學習(RLHF)(Christiano等,2017)適應于大量下游任務。GPT-4(Achiam等,2023)作為這一范式下的一個流行模型,據傳其參數數量超過1.7萬億2,估計訓練時使用了超過10萬億個標記;總共超過1e25次浮點運算(當時約為1億美元)。盡管這些巨大的訓練成本通常被認為可以通過未來的多個終任務攤銷,但如此龐大的模型在部署時會帶來顯著的內存、延遲、計算和能源負擔,從而引發了對資源節約程度的真正質疑。 本論文致力于探索資源高效的遷移學習技術。我們認識到,不僅存在廣泛的資源受限的ML實踐者,還有許多任務在訓練和部署時都有內在的資源限制(例如,在邊緣設備上執行的任務往往受到內存限制)。即使對于有能力訓練和使用大型模型的機構,資源高效的遷移學習也可以帶來顯著的財務節省,并減少通過二氧化碳排放對環境造成的壓力(Ligozat等,2022)。 本論文關注三個主要的資源維度:數據、計算和內存,以及它們在訓練和部署時的使用。我們的目標是在訓練和測試時實現資源高效的前提下,生成表現出色的模型(包括任務特定的指標,如準確率或F1)。我們將利用的一個基礎性見解是,ML實踐者通常對模型將用于的終任務有一定程度的先驗意識。這種終任務感知使我們能夠做出明智的設計決策,從而在資源節約的情況下生成高效且強大的模型。簡而言之,本論文基于以下問題陳述: 給定一個特定的終任務T?,我們如何通過利用一組遷移任務Taux,在資源高效的情況下生成滿足T?各種性能標準的模型? 終任務感知遷移學習的概念本身并不新穎。以往的工作已經在解決復雜規劃問題(Stone和Veloso,1994)、提高支持向量機性能(Wu和Dietterich,2004)和構建貝葉斯線性回歸的先驗(Raina等,2006)等方面探索了不對稱遷移。我們感興趣的是擴展現有文獻,并開發適應于新的、深度學習主導的時代(LeCun等,2015;Goodfellow等,2016)的新方法。與以往的工作不同,我們不僅關注提高任務指標,如準確率或困惑度,我們還關注在資源高效的情況下實現這些改進。下面,我們將提供本論文中不同工作部分的高層次概述,并說明它們與我們定義的目標的關系。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

圖結構數據在各個領域中廣泛存在,表示實體之間有價值的關系信息。然而,大多數深度學習技術,如卷積神經網絡(CNN)和循環神經網絡(RNN),都是針對網格結構數據設計的,難以處理圖數據。這引發了對使用圖神經網絡(GNNs)進行圖表示學習的日益興趣。GNNs通常通過消息傳遞將圖結構融入神經網絡層中。然而,圖神經網絡仍面臨諸多挑戰,如缺乏嚴格的基準、模型表達能力的局限性和較差的可擴展性。 本論文旨在通過解決這些關鍵問題,推動圖表示學習的發展。首先,它開發了全面的基準,用于標準化評估GNNs。這包括中等規模的任務,涵蓋社交網絡、計算機視覺和組合優化等領域中節點、邊和圖分類的監督和半監督學習。論文還引入了一個專門設計的全新基準,用于測試大規模圖中長距離交互建模的能力。

其次,論文致力于開發新的GNN架構,以提高圖上的學習表現和泛化能力。它通過引入圖形領域的歸納偏差(如利用稀疏性和設計Laplacian位置編碼)將Transformer網絡擴展到圖結構數據領域。另一種技術通過使用具有信息量的圖擴散特征,在GNN中分別學習結構和位置表示。這顯著增強了模型的能力。

最后,論文解決了圖模型(尤其是圖Transformer)在大規模圖上擴展的問題。它研究了設計原則,如整合高效的局部和全局圖表示。基于此,提出了一個可擴展的圖Transformer框架。該框架通過引入新穎的鄰域采樣和全局注意機制,捕捉大規模圖中的局部結構和全局依賴關系。

總體而言,通過嚴格的基準測試、富有表現力的架構和可擴展的模型,本論文在多個方面對推動圖結構數據上的深度學習做出了重要貢獻。這些技術為GNN在處理復雜關系數據的實際應用中鋪平了道路。

付費5元查看完整內容

大型語言模型(LLMs)在幫助人們獲取信息方面越來越重要,從“世界上最大的冰蓋在哪里”這樣簡單的事實性問題到需要獲取實時信息和推理的復雜問題,如“計劃一次邁阿密的度假”。有兩種處理需要事實知識的問題的范式:參數化方法將知識存儲在LLMs的參數中,并通過提示來引出這些知識;非參數化方法將知識檢索外包給外部的非參數化數據存儲。在本論文中,我們旨在研究、比較并增強這兩種范式的能力。 由于LLMs通過在多樣的語料庫上進行預訓練,已經在其參數中積累了大量知識,因此可以在被提示提問時直接生成答案。在論文的第一部分中,我們重點關注利用LLMs參數中包含的事實性知識的參數化方法。我們首先研究通過組合從不同提示中得出的多種預測來提取更多知識的方法。然后,我們校準LLMs,使其在回答超出其知識范圍的問題時變得更加可信。我們發現,即使LLMs完全記住文檔并能夠逐字復述它們,仍然常常無法回答有關這些文檔的問題。為了增強LLMs從文檔中吸收知識的能力,我們提出了在預訓練文檔之前進行問題回答任務教學的預指令調整方法。

參數化方法提供了一個簡單的接口,但它們存在幻覺問題,并且無法訪問實時的外部信息。在論文的第二部分中,我們重點關注通過非參數化數據存儲擴展LLMs的非參數化方法,這通常由一個文檔語料庫和一個檢索器構建。標準的檢索增強生成(RAG)流程包括基于嵌入的檢索器和基于LLM的生成器,通常需要單獨的訓練程序,并且往往受限于檢索器的性能。我們引入了一種將檢索與生成融合在單個變換器中的端到端解決方案,并直接使用注意力機制進行檢索。為了解決需要詳細回答的復雜問題,我們引入了Active RAG,它在生成過程中動態和主動地檢索信息。最后,我們通過比較和調和兩種范式并提供對未來方向的見解來總結我們的研究。

付費5元查看完整內容

當前流行的機器學習范式涉及對每一個新任務使用靜態數據集訓練一個獨立模型。與之相反,人類會隨時間積累知識,終身學習范式旨在通過使系統能夠持續地從一系列任務中學習,并保留過去的知識以實現未來學習的高效性,來模擬這一過程。這種范式還提供了諸如避免定期模型訓練、潛在地減少計算和能源需求、以及促進環保的綠色人工智能等優勢。在現代機器學習中,盡管深度神經網絡功能強大,但面臨如災難性遺忘(在新任務學習中丟失先前任務的知識)和負面干擾(先前學到的知識阻礙新任務學習)等挑戰。這些問題源于穩定性-可塑性困境,這需要在保留過去知識(穩定性)與獲取新知識(可塑性)之間找到正確的平衡。高效的終身學習系統必須解決這一困境,以及其他考慮,如支持在線數據流、利用小型且固定的內存緩沖容量(如果有的話)和從未標記的數據流中學習。

在本文中,我們從生物學習過程和深度學習的最新進展中獲得靈感,以實現高效的終身學習系統。我們提出將歸納偏置注入數據驅動機器學習的三個主要組成部分:模型(架構與初始化)、訓練(目標與優化)和數據。本論文分為三個部分,每個部分對應以上一個組件。在第一部分中,我們探索了預訓練初始化的角色,揭示了它們與隨機初始化相比在減輕遺忘方面的隱性優勢。接下來,我們設計了一個參數高效的專家架構,該架構動態擴展學習容量以解決穩定性-可塑性困境。在第二部分中,我們展示了針對平坦極小值的顯式優化如何改善網絡穩定性,并引入了一個元學習目標以平衡穩定性與可塑性。第三部分深入探討了終身半監督學習,通過復習偽標記數據來解決穩定性-可塑性困境。我們以從終身學習的角度檢驗預訓練結束,展示通過將上述策略應用于模型的(持續)預訓練,如何增強其性能。

在過去的十年中,訓練硬件的進步和大數據集的可用性使得深度神經網絡在機器學習領域取得了顯著進展。這些網絡在許多自然語言處理和計算機視覺任務中達到或超過了人類水平的表現,例如機器翻譯(Lepikhin et al., 2021)、問答(Du et al., 2022; Chowdhery et al., 2023)、開放式對話生成(Ouyang et al., 2022)、對象檢測和圖像生成(Lu et al., 2023),這些評估是基于獨立同分布(i.i.d)的保留數據進行的。然而,當這些網絡應用于數據分布隨時間變化的現實情況時,它們的表現往往會變差(Lazaridou et al., 2021)。它們失敗的主要原因是當前的機器學習方法專注于孤立學習(Chen and Liu, 2018),即使用靜態數據集為每個新任務或一組相關任務訓練一個單獨的網絡。一種保持這些網絡更新的方法是每當新信息變得可用時就從頭開始重新訓練它們。然而,先前訓練所用的數據可能因隱私或存儲限制而只是暫時可用(Farquhar and Gal, 2018)。此外,重新訓練方法可能在計算上昂貴,數據效率低,且耗時長,尤其是對于大型網絡。例如,GPT-3(Brown et al., 2020),一個具有175B參數的自回歸語言模型,訓練了499B個標記,使用的計算量相當于3.14e23次浮點操作,如果在單個NVIDIA Tesla V100 GPU上訓練,將需要355年和460萬美元的成本。另一種方法是連續地隨著新信息的到來更新網絡。然而,深度神經網絡和一般的參數模型容易發生災難性遺忘(McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999)現象。在這種現象中,網絡在新信息被整合進系統時會忘記或覆蓋之前學到的知識。此外,這些網絡可能會經歷負面干擾(Pan and Yang, 2009; Weiss et al., 2016)現象,即先前學到的知識可能會妨礙新事物的有效學習,從而增加了數據需求。這兩種現象都源于穩定性-可塑性困境(Mermillod et al., 2013)。穩定性與保留過去的知識有關,可塑性與學習新知識有關。需要一種平衡,因為過多的穩定性會阻礙新知識的獲取,而過多的可塑性會導致忘記以前的知識。這一困境使得當前網絡難以更新其知識,并有效地適應新任務的增量學習。

與此相反,我們人類的學習方式則大不相同。我們通過在一生中獲取和更新知識來學習,保留以前學到的知識,并利用它來促進新概念和技能的有效學習。受到這種人類學習過程的啟發,終身學習(Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018)或增量學習(Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001)或永不停止的學習(Mitchell et al., 2018)或連續學習(Parisi et al., 2019)范式旨在開發能夠從持續的數據流中學習的系統,理想情況下保留過去的知識,用新信息更新它,并利用它進行后續學習。此外,研究人員也認識到終身學習能力對于實現人工通用智能的進展至關重要(Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019)。除了與生物學習相似之外,終身學習范式還有潛力通過消除過度模型重新訓練來減少能源浪費,并實現環保和可持續的綠色人工智能(Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020)。終身學習范式還與其他知識轉移相關的范式有關,如轉移學習(Pan and Yang, 2009)和多任務學習(Caruana, 1997)。與這兩個范式不同的是,終身學習范式更為通用;它假設對任務的順序訪問,旨在改善對先前任務的表現(理想情況下是積極的后向轉移或消極的遺忘)和新任務的表現(積極的前向轉移)。當前的轉移學習范式主要關注從以前的任務到新任務的單向知識轉移,即使這可能損害先前學到的任務的表現。另一方面,多任務學習假設同時訪問所有任務的數據,并通過使任務之間的知識共享來改善所有任務的表現。此外,即使在單任務學習設置中,神經網絡也顯示出經歷災難性遺忘的情況(Toneva et al., 2019),這突出了終身學習范式不僅限于多任務場景。即使是任務的概念在終身學習范式中也非常開放。例如,考慮一個終身COVID-19命名實體識別(NER)標記器。任務有三種不同的表現形式 - (i)分類任務,如實體塊、實體檢測、實體鏈接、共指解析和關系提取,(ii)針對2020、2021、2022、2023年COVID-19研究文章的不同領域的NER,(iii)針對COVID-19變種如COVID-Alpha、COVID-Beta、COVID-Omicron的演化類別的NER。這些表現形式對應于終身學習的三個突出場景:任務、領域和類別增量學習(Van de Ven and Tolias, 2019)。除了解決災難性遺忘之外,終身學習系統還有幾個其他目標(Biesialska et al., 2020)。人類能夠迅速從持續的對話中學習新信息,而不需要明確的主題邊界(Chen and Liu, 2018)。我們有選擇地保留過去的經驗在我們有限的記憶容量中以防止遺忘,并在需要時稀疏地回放它們(Ratcliff, 1990; McGaugh, 2000)。此外,我們經常從環境中以無監督的方式學習,而不是依賴于明確的監督(Aljundi, 2019)。相比之下,當前的終身學習系統(Biesialska et al., 2020)需要明確的任務邊界,它們依賴于大內存容量,因此數據效率低,且在計算上昂貴,因為它們需要對標記數據進行多次傳遞。為了更有效地模仿人類學習,有必要開發在更現實的假設下運行且在數據、記憶和計算上更高效的終身學習系統(Farquhar and Gal, 2018)。 在本論文中,我們的目標是設計高效的終身學習系統,這些系統可以減輕之前學到的知識的災難性遺忘,并通過在現實假設下運行來促進未來的學習。受到生物學習過程和深度學習的最新進展的啟發,我們提議將適當的歸納偏見注入數據驅動機器學習的三個主要組成部分:模型、訓練和數據。通過這樣做,我們還希望提高終身學習系統在數據、內存和計算需求方面的效率。

付費5元查看完整內容

語言是民主化土地和文化邊界的通道。在人工智能(AI)系統中,橋接不同語言之間的差距是最大的挑戰之一。目前AI系統的成功主要由監督學習范式所主導,其中基于梯度的學習算法(例如SGD、Adam)被設計用來優化復雜的高維平面。這些算法從通常為特定任務(如產品評論、情感分析)收集的統計觀察中學習。使用任務依賴樣本使學習過程變得繁瑣,因為它需要手動注釋數據。相反,如果沒有足夠的樣本來代表分布,深度學習模型往往因缺乏魯棒性而受到影響。由于隨機性的自然難題,數據收集過程中并非所有觀察集都被觀察到,從而在學習算法中創造了分布外(OOD)問題。

在尋找一種通用的任務不可知分布時,可以將跨多個領域的大量文本集合視為-標準自然文本分布(SNTD)。傳統自然語言處理(NLP)中遷移學習的一般想法是利用SNTD知識進行任何其他任務依賴訓練。學習SNTD,接著用較少量的注釋數據進行任務適應方法,已在各種監督NLP任務中取得了最先進(SOTA)結果。然而,每個任務的每種語言的注釋數據都是罕見的。

在語言模型中,有許多種分布差異。分布差異被編碼進語言模型的最常見方式之一是當模型用單語文本訓練并學習分離時。然后,這些語言模型產生的詞嵌入被用作預訓練的嵌入向量,以適應下游任務。我們提出對抗性訓練,將兩個單語分布投射到相同空間中,然后通過帶參數共享的增強微調提高模型的魯棒性。通過將單語言分布投射到相同的跨語言空間中,使語言分布相互了解。這些投射分布在潛在空間中在語義上相互了解。因此,當我們訓練一個分布時,另一個分布會自動適應訓練數據,使知識轉移(交換)變得更容易。此外,我們提出的新型自我訓練架構大幅提高了跨語言轉移。

接下來,我們關注聯合訓練的多語言語言模型,其中沒有主導的分布差異。在多語言模型中,我們更加關注下游任務的適應。我們發現,使用從預訓練語言模型中生成的偽增強數據的半監督學習可以大大提高下游任務的性能。最后,我們介紹了一種新穎的數據增強框架,它使用原始訓練數據的鄰近(相鄰)樣本,而不顯式使用任何平行文本語料庫或機器翻譯系統。我們提出的方法同時進行自我訓練、數據增強和無監督樣本選擇。它還為不同領域樣本提出了課程策略。通過對三種不同的跨語言任務進行廣泛的實驗,我們展示了我們所提方法的有效性。

雖然以上所有工作都集中在提高多語言任務適應性而無需監督,但我們進一步研究了添加少量樣本如何影響多語言任務適應性。為此,我們利用每種語言中少量的支持樣本,提出了一種推斷時轉導的最近鄰基方法,該方法利用查詢樣本的熵進行預測。我們展示了我們提出的方法在完全模型/完全頭部微調以及跨任務微調方面的性能優于其他方法。我們還展示了在完整推理預測的計算成本方面的顯著性能提升(37~x)。然而,隨著語言模型的增大,尤其是對于多任務,進行高效推理變得越來越困難。

聯合優化的多語言分布有助于將知識從資源豐富的語言轉移到資源較少的語言。在研究轉導最近鄰推理時,我們觀察到語言模型極易受到任務分布的影響。除非我們使用極大的語言模型(>100B),否則用于特定任務適應的模型不能用于其他任務。在這篇論文中,我們最終提出的方法解決了這個問題,通過多任務提示學習。 多任務提示學習可以通過同時對多個任務和領域進行泛化來幫助泛化,從而增強去除下游任務的分布差異的潛力。我們提出了一種半參數提示調整方法,用于多任務提示學習。我們提出方法的新穎組成部分是一個記憶庫,根據離散提示從中檢索記憶提示。我們在8個不同領域的31個不同任務上進行的廣泛實驗表明了我們所提方法的有效性。

本篇論文旨在探索語言模型在多種語言、任務和領域中的適應性。它從基本的多語言適應問題開始,從那里擴展到關于不同資源可用性的多種OOD案例,涉及多種語言、任務和領域。

付費5元查看完整內容

導語

圖學習(Graph Learning)是一種研究和應用圖結構數據的機器學習方法。在圖學習中,數據被表征為由節點和邊組成的圖形,其中節點表示實體或對象,邊表示它們之間的關系或連接。因此圖學習特別適用于復雜系統的多尺度分析、建模與仿真研究,揭示復雜系統中的模式、規律和動態變化。圖學習常用的技術包括圖卷積網絡、圖注意力網絡、圖神經網絡等,這些方法通過在圖上進行信息傳播和聚合,從而實現對節點和邊的特征提取和學習。近年來,隨著語音、文本、圖像等多種模態的數據大量積累,多模態機器學習和深度學習技術正在快速發展,并在圖結構數據中取得了成功。哈佛大學生物信息學的學者在Nature Machine Intelligence發表綜述文章,提出了一體化的多模態圖學習框架,并從圖像處理、自然語言處理和自然科學三個應用領域進行梳理和展望。**************************

研究領域:圖學習,多模態,復雜系統,圖卷積網絡,圖神經網絡 Yasha Ektefaie, George Dasoulas, Ayush Noori, Maha Farhat & Marinka Zitnik **| 作者劉培源 | 譯者

論文題目:Nature Machine Intelligence Multimodal learning with graphs論文地址://www.nature.com/articles/s42256-023-00624-6

目錄****

一、引言

二、圖神經網絡用于多模態圖學習

三、針對圖像的多模態圖學習

四、針對語言數據集的多模態圖學習

五、多模態圖學習應用于科學發現

六、展望****

針對圖的人工智能方法,在建模復雜系統方面取得了顯著的成功,其應用范圍涵蓋了生物學中的動態網絡到物理學中的相互作用粒子系統。然而,日益異質化的圖數據集需要采用多模態方法,以結合不同的歸納偏置(inductive bias)。所謂歸納偏置,在機器學習中指的是學習算法對某些類型假設的偏好或傾向,它幫助算法從給定的訓練數據中進行推斷。這種偏置可以基于算法設計者的先驗知識,也可以是對問題空間結構的一種假設。

在多模態數據集上進行學習具有挑戰性,因為歸納偏置可能因數據模態而異,并且圖可能并未在輸入中明確給出。為了應對這些挑戰,圖人工智能方法結合不同的模態,通過幾何關系來利用跨模態依賴關系。多樣化的數據集通過圖進行整合,并被送入復雜的多模態架構中,這些架構被定義為圖片密集型、知識基礎型與語言密集型模型。借助以上分類,我們引入了一種多模態圖學習的框架,利用它研究現有方法,并提供設計新模型的指導原則。

一、引言

基于圖(Graph)的深度學習技術,在生物學、化學、物理學和社會科學領域取得了突破。圖神經網絡的主要用途是基于神經消息傳遞策略,學習包括節點、邊、子圖和整個圖的各種圖組件的表征。圖神經網絡學習到的表征,可用于下游任務,包括通過半監督學習進行標簽預測、自監督學習以及圖設計和生成。在大多數現有應用中,數據集明確描述了以節點、邊和附加信息表示的圖,這些信息代表上下文知識,例如節點、邊和圖的屬性。

建模復雜系統需要以不同視角、不同尺度或通過多種模態(如圖像、傳感器讀數、語言序列和簡潔的數學陳述)觀測相同對象的數據。多模態學習(Multimodal learning)研究如何優化這些異構的復雜觀測量,以創建廣泛適用、對基礎數據分布的變化具有魯棒性,并能用更少標記數據進行訓練的學習系統。雖然多模態學習已經在單模態方法失效的情況下取得成功,但它還面臨著在更大范圍人工智能場景中應用的挑戰。這些挑戰包括找到適用于機器學習分析的表征方法,以及融合來自不同模態的組合信息以創建預測模型。這些挑戰已被證明是困難的。例如,多模態方法往往只關注在模型訓練過程中最有幫助的一部分模態,而忽視了可能具有信息價值的其它模態——該缺陷被稱為“模態崩潰”(modality collapse)。此外,與“假設每個對象必須存在于所有模態中”的一般觀點相反,由于數據收集和測量技術的限制,在每個模態中都出現的對象集可能很少——該缺陷被稱為“缺失模態”(missing modalities)。由于不同的模態可以導致復雜的關系依賴,簡單的模態融合無法充分利用多模態數據集。圖學習的模型通過將不同模態的數據點連接為最優定義的圖中的邊,并構建適用于各種任務的學習系統,來對上述數據系統進行建模。

我們在此探討一種所謂“多模態圖學習”(multimodal graph learning,MGL)的技術框架。多模態圖學習提供了一個框架,可以涵蓋現有算法,并幫助開發利用圖進行多模態學習的新方法。該框架允許學習融合后圖的表征,并研究如何應對前述的模態崩潰和缺失模態的挑戰。我們將多模態圖學習框架應用于廣泛的領域,從計算機視覺和語言處理到自然科學(圖1)。本文考慮將圖像密集型圖(image-intensive graphs,IIGs)用于圖像和視頻推理,語言密集型圖(language-intensive graphs,LIGs)用于處理自然和生物序列,以及知識密集型圖(knowledge-intensive graphs,KIGs)用于輔助科學發現。

圖1 以圖為中心的多模態學習。左側顯示了不同的數據模態。右側顯示了多模態圖學習在機器學習任務中的價值。多模態圖學習作為一個統一的框架,通過計算機視覺、自然語言處理和自然科學中的學習系統,實現了多模態圖神經架構。

二、圖神經網絡用于多模態圖學習

深度學習已經為多模態學習開創了諸多融合方法。例如,循環神經網絡(RNN)與卷積神經網絡(CNN)的結構成功地相結合,用于視頻描述問題中聲音和圖像信息的融合。最近,生成模型在語言相關及基于物理的多模態數據上也被證明非常精確。這些模型基于編碼器-解碼器框架,在編碼器中,組合后的架構同時接受訓練(每個架構專門用于一種模態),而解碼器則從各個架構中聚集信息。當模態之間復雜的關系形成網絡結構時,圖神經網絡(graph neural networks,GNNs)提供了一種富有表現力且靈活的策略,以利用多模態數據集中的相互依賴關系。

圖神經網絡在多模態學習中的應用頗具吸引力,因其能靈活地建模不同數據類型內部及跨類型的相互作用。然而,通過圖學習進行數據融合需要構建網絡拓撲,并在圖上實施推理算法。我們提出了一種方法論,它根據給定的多模態輸入數據,生成可用于下游任務的輸出表征,這就是一體化的多模態圖學習。多模態圖學習框架可以視為由四個相互連接、形成端到端流程的學習組件構成的架構。在圖2a和2b中,突出展示了傳統單模態架構組合處理多模態數據與我們提出的一體化多模態架構之間的差異。

圖2 多模態圖學習的架構。a,多模態學習的常規方法是組合不同的單模態架構,每個架構均針對一種特定的數據模態進行優化。b,相較之下,一體化的多模態架構考慮了每種數據模態特有的歸納偏置,并以端到端方式優化模型參數,從而實現表征層面上的數據融合。c,多模態圖學習包含四個組件:實體識別、拓撲發現、信息傳播和表征混合。這些組件被劃分為兩個階段:“結構學習”(structure learning)以及“基于結構的學習”(learning on the structure)。

多模態圖學習的前兩個組件,即實體識別和拓撲發現,可以歸為結構學習階段(圖2c)。

(一)組件一:實體識別

多模態圖學習的第一個組件用于識別各種數據模態中的相關實體,并將它們投影到共享的命名空間中。例如,在精準醫學中,患者的狀態可能通過匹配的病理切片和臨床筆記來描述,從而產生具有圖像和語言信息的患者節點。在計算機視覺的另一個示例中(圖3),實體識別涉及在圖像中定義超像素。

圖3 將多模態圖學習應用于圖像領域。a,圖像理解中的模態識別,其中節點表示由SLIC(簡單線性迭代聚類)分割算法生成的感興趣區域,又稱之為超像素。b,圖像降噪中的拓撲發現,其中圖像塊(節點)與其他非局部相似塊相連。c、人-物互動中的拓撲發現,其中創建了兩個圖。一個以人為中心的圖,將身體部位映射到其解剖學上的相鄰位置,?一個圖基于相對于圖像中其他物體的距離,互動連接各身體部位。d、人-物互動中的信息傳播,其中基于空間關系的圖通過修改消息傳遞,以結合邊的特征,從而對齊圖像中物體的相對方向。

(二)組件二:拓撲發現

在定義了問題的實體之后,第二個組件開始探索跨模態節點之間的相互作用和相互作用類型。相互作用通常是明確給出的,因此可視為圖是預先給定的,該組件負責將已有的圖結構與其他模態結構相結合(例如,在圖5c中,“拓撲發現”部分對應于將蛋白質表面信息與蛋白質結構本身相結合)。當數據沒有預設網絡結構時,揭示拓撲組件會基于顯式特征(例如,空間和視覺特征)或隱式特征(例如,表示中的相似性)來探索可能的鄰接矩陣。對于后一種情況,自然語言處理領域的案例是考慮從表達詞之間關系的文本輸入來構建圖(圖4b)。

圖4 多模態圖學習在語言數據集上的應用。a,文本輸入中的不同上下文背景層次,從句子到文檔以及每個上下文層次中識別的單個組件。這是多模態圖學習框架第一個組件“實體識別”的例子。b,從文本輸入構建語言密集圖的簡化構造,這是多模態圖學習框架中“拓撲發現”組件的應用。c和d是“基于領域的情感分析”(ABSA)示例,旨在為給定方面的句子給出情感打分,分為正面、負面或中性。通過在句子內按所在領域分組(c)或對句子和領域之間的關系進行建模(d),這些方法整合了與基于領域的情感分析相關的歸納偏置,并在多模態圖學習的第三個組件“信息傳遞”方面進行了創新。 在圖被指定或經由自適應優化之后(多模態圖學習中的結構學習階段;圖2c),可以使用各種策略來在圖上進行學習。最后兩個多模態圖學習組件,合稱為“基于結構的學習”階段(圖2c),描述了這些策略。

(三)組件三:信息傳播

第三個組件使用卷積或消息傳遞,基于圖的鄰接關系學習節點表征。在多個鄰接矩陣的情況下,該方法使用獨立的傳播模型或假設超圖形式,將鄰接矩陣與單個傳播模型融合。

(四)組件四:混合表征

最后一個組件會根據下游任務的需要,對學習到的節點級別的表征進行轉換。信息傳播模型會輸出節點的表征,這些表征可以根據最終表征層次(例如,圖一級或子圖一級的標簽)進行混合和組合。流行的混合策略包括簡單的聚合操作(如求和或平均)或者更為復雜的、含有神經網絡架構的函數。圖2c展示了所有多模態圖學習組件,從多模態輸入數據到為下游任務優化的表征。

三、針對圖像的多模態圖學習

圖像密集型圖(image intensive graph,IIGs)是一種多模態圖,其中的節點代表視覺特征,而邊代表圖像特征間的空間聯系。結構圖像學習包括創建圖像密集型圖,以編碼與圖像相關的幾何先驗條件,如平移不變性和尺度分離等。平移不變性描述了卷積神經網絡的輸出隨輸入圖像位移而無變化的特性,這是通過具有共享權重的卷積濾波器實現的。相反,尺度分離則指出如何分解跨尺度特征間的長距離相互作用,重點關注可以傳播至更粗粒度尺度的局部相互作用。例如,在卷積神經網絡中,池化層緊接在卷積層后面以實現尺度分離。另外,圖神經網絡能夠模擬對圖像相關任務而言至關重要的任意形狀的長程依賴性,例如在圖像分割、圖像恢復或人-物體交互等任務中。

(一)視覺理解

視覺理解仍是視覺分析的核心,而多模態圖學習在圖像分類、分割和增強等方面已被證實具有顯著效用。圖像分類的任務是識別出圖像中存在的各類對象。相比之下,圖像分割則將一幅圖像劃分為若干部分,并將每個部分歸入一個特定類別。最后,圖像恢復和去噪則將低質量的圖片轉化為高清晰度的版本。完成這些任務所需的信息包括對象、片段和圖像塊,以及它們周圍的長程上下文信息。 圖像密集型圖的構建(對應于多模態圖學習的組件1和2)起始于簡單線性迭代聚類等分割算法,以確定具有意義的區域(如圖3a)。這些區域決定了用于抽取特征圖和各區域視覺特征概要的節點,其屬性由如FCN-16或VGG19等卷積神經網絡初始化。此外,節點不僅與其在卷積神經網絡學習特征空間中的k個最近鄰節點相連(如圖3b),也和空間相鄰的區域相連,或和基于預先設置的節點間相似性閾值所確定的任意數量的鄰居節點相連。 一旦完成多模態圖學習的結構學習階段,基于圖卷積和圖注意力的傳播模型(即多模態圖學習的組件3)就會根據已學習到的注意力分數,來衡量圖中節點鄰居的權重。另外,圖降噪網絡、內部圖神經網絡以及殘差圖卷積網絡這樣的方法會考慮邊相似性,以表示出圖像區域間的相對距離。

(二)視覺推理

視覺推理的深度超越了單純識別視覺元素,它通過詢問圖像中實體間的關系來展開推理。這些關系可能涉及人與物品的相互作用,如人-物交互,或者更廣義地,涉及視覺、語義和數字實體的交互,如在視覺問題回答中所見。

在人-物交互中,多模態圖學習方法識別出兩個實體,即人體部位(如手、臉等)與物體(如沖浪板、自行車等),它們在全連接、二分的圖中或在部分連接的拓撲結構中進行交互。而在視覺問答任務中,多模態圖學習方法構建了一種新的拓撲結構,該結構涵蓋了視覺、語義和數字圖之間的互聯。這些實體,包括由提取器(如Faster R-CNN)識別出的視覺對象,以及由光學字符識別和數字文本識別出的場景文本。這些實體間的相互作用是基于空間定位來定義的:相互靠近的實體會通過邊來連接。

基于上述結構的學習(多模態圖學習組件3),區分了在同類型實體間與不同類型實體間傳播信息的方式。在人-物交互中,相同種類實體(即,類內神經信息)通過遵循邊并應用圖注意力定義的轉換來交換知識,該轉換根據節點潛在向量的相似度對神經信息進行加權。相反,不同類型實體間的信息(即,類間神經信息)則通過圖解析神經網絡進行傳播,其中權重是自適應學習得到的。模型可能具有多個通道,用于推理同類別實體并跨類別共享信息。例如,在人-物交互中,關系解析神經網絡使用雙通道模型,在最終預測前執行人和物品為中心的消息傳遞(圖3c)。視覺問答任務也采用了相同的策略,其中視覺、語義和數字通道在通過視覺-語義聚合和語義-數字聚合共享信息之前進行獨立的消息傳遞。其他神經架構也可以作為基于圖的通道的替代方案。

四、針對語言數據集的多模態圖學習

語言模型憑借其生成上下文語言嵌入的能力,已廣泛地改變了我們對自然語言的分析方式。然而,除了詞匯之外,語言的結構還存在于句子層面(句法樹、依存解析)、段落層面(句間關系)以及文檔層面(段落間鏈接)。Transformer這類主流的語言模型,能夠捕獲此類結構,但它對計算和數據有著嚴格的需求。多模態圖學習方法通過將語言結構融入模型來緩解這些問題。具體來說,這些方法依賴于語言密集型圖(language intensive graph,LIGs),在這些顯式或隱式的圖中,節點代表由語言依賴關系所連接的語義特征。

(一)創建語言密集型圖

在最高抽象層次上,語言數據集可以被看作是由一組文檔組成的語料庫,然后是單個文檔、一組句子、一組實體,最后是單個詞語(圖4a)。多模態圖學習可以通過構建語言密集型圖來考慮這些不同層次的上下文信息。選擇要包含的上下文以及如何創建語言密集型圖以表征上下文,取決于特定任務的需求。我們將描述用于文本分類和關系抽取的步驟,因為這些任務是大多數語言分析的基礎。 在文本分類任務中,模型需要根據詞語(標記)的用法和含義,為一段文字賦予相應的標簽。詞語之間的圖結構由它們在文檔中的相對位置或者共同出現的關系所決定。關系抽取則尋求在文本中識別詞語間的關系,這一能力對于其他語言處理任務(問答、摘要和知識圖譜推理等)非常重要。為了捕捉句子的語義,詞語實體間的結構基于底層的依賴關系樹。除了詞語以外,還包括用其他實體來捕捉跨句子的拓撲結構信息(圖4a、b)。

(二)學習語言密集型圖

一旦語言密集型圖構建完成,我們需要設計一個模型,使其能在此圖上進行學習,并融入與特定語言任務相關的歸納偏置。我們以“基于領域的情感分析(ABSA)”為例,來揭示如何在語言密集型圖上進行學習。基于領域的情感分析是將文本的情緒(正向或負向)關聯到某個詞、詞組或者某個主題上。為了執行基于領域的情感分析任務,模型必須理解句法結構,并探尋文本中主題詞與其他詞之間的長距離關系。為了在遠距離的詞之間傳遞信息,特定領域的圖神經網絡會在語言密集型圖中屏蔽非主題詞匯,實現長距離信息傳遞。它們還對查詢詞和主題詞的潛在表征,進行元素級別相乘(兩個矩陣或向量在相同位置的元素相乘,形成新的矩陣或向量)或門控處理(神經網絡中控制信息流動的一種機制,以“門”來控制信息被保留或遺忘的程度)。為了讓圖包含句法結構信息,圖神經網絡通過類型特定的信息傳遞來區分依賴樹中不同類型的關系(圖4c)。 對文檔進行情感分析時,鄰近或相似句子的情感極其重要。合作圖注意力網絡(cooperative graph attention networks)通過兩個基于圖模型塊——內部和外部模塊(圖4d)之間的協作來實現這一點。這些模塊捕捉了句子與具有相同主題的其他句子的關系(領域內部),以及與文檔中含有不同主題的鄰近句子的關系(領域外部)。內部和外部模塊的輸出在交互模塊中混合,通過一系列隱藏層進行傳遞。最后,通過學習得到的注意力權重將每個隱藏層間的中間表示融合,形成最終的句子表示(多模態圖學習組件4)。

五、多模態圖學習應用于科學發現

除了在計算機視覺和語言建模中的應用,圖在自然科學中的應用也越來越多。我們將這些圖稱為知識密集型圖(knowledge intensive graph,KIGs),因為它們融入了與特定任務相關的歸納偏置,或者在其結構中編碼了科學知識。 (一)物理學中的多模態圖學習

在粒子物理學中,圖神經網絡已被用于識別導致粒子噴射的源頭粒子,這些粒子噴射是由高能粒子碰撞產生并四散飛濺出來的。在這些圖中,節點代表粒子,并與其k個最近鄰節點相連。多輪消息傳遞過后,聚合得到的節點表示被用于識別源頭粒子。 物理啟發的圖神經網絡已經嶄露頭角,用于模擬由多尺度過程主導的物理系統。傳統方法無法勝任這樣的任務。一個典型的目標是從現有的實驗數據中發現隱藏的物理規律。圖神經網絡通過利用物理定律從現有的實驗數據和信息進行訓練,然后在時空域中的特定點上進行評估。這種物理啟發式架構將多模態數據與數學模型相結合。例如,圖神經網絡可以將底層動力學的微分算子表示為節點和邊上的函數。圖神經網絡還可以表示物體之間的物理相互作用,例如流體中的粒子、機器人的關節和電力網絡中的節點。初始節點表征描述了這些粒子的初始狀態和全局常數,如重力。邊表示相對粒子速度。消息傳遞首先更新邊的表征,并計算系統內受力的影響。然后使用更新后的邊表征來更新節點表征,并計算粒子受力后的新狀態(圖5a)。這種消息傳遞策略推進了“針對圖像的多模態圖學習”,并且還被用于解決組合算法(Bellman-Ford和Prim算法)和芯片布局,以設計計算機芯片的物理布局。

圖5 多模態圖學習在自然科學中的應用。a,物理啟發的神經消息傳遞網絡,通過粒子間相互作用和其他力更新系統中粒子的狀態,在物理相互作用中傳播信息。b,分子推斷中的信息傳播,利用全局注意機制模擬兩個分子中原子之間的潛在相互作?,以預測兩個分子是否會發生反應。c,蛋白質建模中的拓撲結構發現,利用多尺度圖表示將蛋白質的?級、二級和三級結構與分?超像素中的更高層級蛋白質模體相結合,以表示一個蛋白質。這種魯棒的拓撲結構為蛋白質-配體結合親和力預測等任務提供了更好的預測能力。

(二)化學中的多模態圖學習

在化學中,多模態圖學習可以通過對由化學鍵連接的原子所構成的分子圖進行消息傳遞操作,來預測分子的內部和相互作用性質。目前的研究工作除了考慮二維分子細節外,還將三維空間的分子信息納入其中。當這些信息不可用時,多模態圖學習除了考慮粒狀原子表征,還會考慮立體化學特征來聚合神經信息,并將分子建模為化學亞結構的集合。 立體異構體是那些具有相同圖連通性,但空間排列不同的分子。這意味著,無論原子在三維空間中的取向如何,分子圖中的聚合函數都進行相同的聚合。這可能導致性能下降,因為立體異構體可能具有不同的性質。為解決這一問題,研究者提出了置換和置換-連接兩種聚集方式。它們通過計算手性群的所有排列的加權和,來更新該群內部每個原子。盡管每種排列中鄰居身份相同,但空間排列各異。通過對每種排列進行加權,置換和置換-連接通過修改底層圖中信息的傳播方式(多模態圖學習組件3),成功將這種歸納偏置編碼進來。 此外,多模態圖學習可以幫助確定分子通過反應生成的化學產物。例如,為預測兩個分子是否會發生反應,量子化學增強的圖神經網絡(QM-GNN),使用化學信息的初始表示來表示每個反應物的分子圖。經過多輪消息傳遞后,原子表征通過全局注意力機制得以更新(圖5b)。該注意力機制揭示了一種新穎的拓撲結構,在此結構中,原子能與其他分子中的原子進行互動。它融合一個化學原則:粒子間的分子相互作用會影響化學反應本身。最后的表征與如原子電荷和鍵長等描述符結合,并用于預測。這種方法將圖神經網絡中關于分子的結構性知識與相關的化學知識整合在一起,使得其能在小型訓練數據集上進行準確預測。融合圖神經網絡輸出以包含領域知識,展示了多模態圖學習中混合模塊的作用。分子圖學習為虛擬藥物篩選、分子生成與設計以及藥物靶點識別創造了新的機會。

**(三)生物學的多模態圖學習

不只是針對單個分子,多模態圖學習還能助力理解跨多個尺度的復雜結構的特性,其中最相關的就是蛋白質。在氨基酸序列尺度上,標志性任務是從氨基酸序列預測3D結構。AlphaFold構建了一個知識密集型圖,節點為源于序列同源性的氨基酸表征。為了在這個圖中傳播信息,AlphaFold引入了三角乘法更新和三角自注意力更新。這些三角形式的修改整合了歸納偏置,即學習表征必須遵守距離的三角不等式以代表3D結構。多模態圖學習等創新使得AlphaFold能從氨基酸序列預測3D蛋白質結構。

除了3D結構之外,蛋白質表面分子在細胞功能和疾病中發揮著關鍵作用,因此對蛋白質的幾何與物理屬性進行建模至關重要。例如,MaSIF(一個預測蛋白質相互作用的多模態圖模型)通過將分子表面描述為多模態圖,來訓練一個圖神經網絡,從而預測蛋白質相互作用。節點的初始表征基于幾何和化學特性。接下來,每個節點定義的高斯核(Gaussian kernels,基于數據點相似性、用于處理和編碼信息的神經網絡函數)用于信息傳播,從而編碼分子表面復雜的幾何形狀,并擴展了卷積的概念。最終的表征可以被用于預測蛋白質間相互作用、蛋白質復合物的結構配置以及蛋白質與配體的結合。

六、展望

多模態圖學習是一個新興領域,其應用遍布自然科學、視覺和語言領域。我們預計,全面的多模態圖架構及其在自然科學與醫學領域的新應用,將推動多模態圖學習的發展。同時,我們還概述了在何時多模態圖學習會顯得價值不大或無用、需要改進以解決由于多模態歸納偏置或明確缺乏圖式所引發的挑戰等問題。**

(一)全面的多模態圖架構

**現行主流方法主要采用針對各類數據模態量身打造的領域專用架構。然而,通用架構的先進性提供了一種表征策略,能夠考慮到各模態之間的依賴性,不論它們是以圖像、語言序列、圖形或是表格數據集的形式呈現。更進一步,多模態圖學習架構支持更為復雜的圖結構,如超圖和異質圖。 這個架構也為基于圖的多模態學習的新應用鋪平了道路。例如,知識蒸餾(knowledge distillation)旨在保持性能不變的同時,將知識從一個大型“教師”模型轉移到一個較小的“學生”模型,且使用更少的資源。知識密集型圖可以用來設計更高效的知識蒸餾損失函數。在另一個案例中,可見神經網絡(visible neural network)將架構設定為節點對應于細胞系統不同尺度(如分子、通路)的概念,從小型復合物到廣泛的信號通路,基于生物關系進行連接,并用于前向和反向傳播。通過整合這樣的歸納偏置,模型可以以數據高效方式進行訓練,因為它們無需重新發明相關基本原理,而是從一開始就了解這些原理,因此需要更少的訓練數據。將算法設計與領域知識相協調也有助于提高模型的可解釋性。 (二)全面的多模態圖架構

在缺乏先驗知識或關系結構的領域,現有方法的應用受到限制。例如,在化學反應預測、噴射流源頭粒子分類、物理交互模擬以及蛋白質-配體建模等任務中,任務相關的相互作用并非預先給定,意味著這些方法必須自動捕捉到新穎的、未明確指定的且相關的相互作用。有些應用采用節點特征相似性,在每層之后動態構造局部鄰接關系,以發掘新的相互作用。然而,由于信息僅在緊密連接的節點間傳遞,這種方式無法捕獲遠距離節點間的新穎相互作用。解決此限制的方法是引入帶有誘導稀疏性的注意力層來發現。在沒有強關聯結構的應用中,如分子屬性預測、粒子分類和文本分類,節點特征通常比任何編碼結構具有更高的預測價值。因此,其他一些方法已被證實在性能上超越了基于圖的方法。 (三)在自然科學和醫學領域的開創性應用

深度學習在自然科學中的應用揭示了圖形表征在建模小至大型分子結構上的強大能力。整合不同類型的數據,能夠在模擬大規模的物理、化學或生物現象時,架構起分子與有機體層面之間的橋梁。近年來學界推出的知識圖譜應用,已經引入到精準醫療,以及在基因組、藥物和臨床中進行預測。多尺度學習系統正日益成為蛋白質結構預測、蛋白質性質預測以及生物分子相互作用建模等領域的重要工具。這些方法能夠通過建模預設的圖結構或修改消息傳遞算法,來整合物理關系的數學描述、知識圖譜、先驗分布和約束條件。當這類信息存在時,多模態學習可以增強視覺系統中圖像去噪、圖像修復以及人-物交互等方面的性能。

圖神經網絡與組合優化讀書會

現實世界中大量問題的解決依賴于算法的設計與求解。傳統算法由人類專家設計,而隨著人工智能技術不斷發展,算法自動學習算法的案例日益增多,如以神經網絡為代表的的人工智能算法,這是算法神經化求解的緣由。在算法神經化求解方向上,圖神經網絡是一個強有力的工具,能夠充分利用圖結構的特性,實現對高復雜度算法的高效近似求解。基于圖神經網絡的復雜系統優化與控制將會是大模型熱潮之后新的未來方向。

付費5元查看完整內容

強化學習(RL)為基于學習的控制提供了一個形式化的框架。通過嘗試學習能優化用戶指定的獎勵函數的行為策略,RL方法已經能夠獲得新穎的決策策略,即使在動態非常復雜,所有可能結果的空間巨大(例如,機器人操作、芯片地板規劃)的情況下,這些策略也可以勝過最好的人類。但與標準機器學習(ML)在現實世界的應用相比,RL的適用性有限。為什么呢?RL的核心問題在于,它嚴重依賴于執行大量試錯的主動數據收集來學習策略。不幸的是,在現實世界中,主動數據收集通常非常昂貴(例如,進行藥物設計的實驗室實驗)和/或危險(例如,機器人在人們周圍操作),且準確的模擬器很難構建。總的來說,這意味著,盡管RL具有廣泛解鎖現實世界決策問題中的ML的潛力,但我們無法通過當前的RL技術實現這一潛力。

為了實現RL的這種潛力,在這篇論文中,我們開發了一個旨在使用靜態數據集經驗學習策略的替代范式。這種“數據集驅動”的范式擴大了RL在存在歷史數據集或可以通過特定領域策略收集的決策問題中的適用性。它還將現代有監督和無監督ML方法的可擴展性和可靠性帶入了RL。話雖如此,實例化這一范式是具有挑戰性的,因為它需要將從數據集中的靜態學習與RL的傳統主動性相協調,這導致了分布偏移、泛化和優化的挑戰。在理論上和實證上理解這些挑戰后,我們為應對這些挑戰開發了算法思想,并討論了幾種擴展,將這些思想轉化為實際方法,可以在大型和多樣化的數據集上訓練現代高容量神經網絡函數逼近器。最后,我們展示了這些技術如何使我們能夠為真實的機器人和視頻游戲預訓練通用策略,并實現快速高效的硬件加速器設計。

付費5元查看完整內容

序列決策是機器學習應用的一種自然模型,學習器必須實時進行在線決策,同時從序列數據中學習,以便在未來做出更好的決策。經典工作專注于基于隨機或對抗性數據分布的問題變體,或基于對學習器決策的反饋,這些決策可能是部分的或完整的。隨著大型在線市場的迅速崛起,序列學習方法越來越多地部署在復雜的多智能體系統中,智能體可以根據自己的個人目標進行戰略性優化。這為序列決策問題增加了一個新的維度,在這個維度中,學習器必須考慮到它正在學習的智能體的戰略行為,這些智能體可能希望引導其未來的決策朝著有利于自己的方向發展。本文旨在從系統設計者的角度設計有效的在線決策算法,系統設計者的目標是在具有有限反饋的戰略智能體環境中學習,以及戰略智能體的目標是優化個人目標

在論文的第一部分中,我們專注于重復拍賣,并設計了拍賣者可以在戰略投標人存在的情況下有效學習的機制,反之,解決智能體如何在重復拍賣中投標或使用數據中毒攻擊來最大化他們自己的目標。在第二部分中,我們考慮在線學習環境,其中關于學習者決策的反饋是昂貴的。本文提出一種在線學習算法,受主動學習技術的啟發,可以快速前進隊列中信息量更大的一小部分示例。這允許學習器獲得與最優在線算法相同的性能,但僅通過查詢非常小的分數的反饋。最后,在論文的第三部分,我們考慮了一個新的隨機多臂匪徒學習目標,它促進了個人和群體機會的擇優公平。//smartech.gatech.edu/handle/1853/70199

付費5元查看完整內容

圖神經網絡(GNNs)利用各種方法將卷積的概念推廣到圖中,已被廣泛應用于許多學習任務,包括物理系統建模,尋找分子表示來估計量子化學計算等。大多數現有的GNNs通過將網絡設想為一個消息傳遞方案來解決置換不變性,其中每個節點求和來自其鄰居的特征向量。我們認為該方案對GNN的表示能力施加了限制,使得每個節點在被求和聚合后失去了它們的身份。因此,我們提出了一種新的通用架構,稱為協變成分網絡(CCNs),其中節點特征由高階張量表示,并根據其接受野對稱群的特定表示進行協變/等價變換。實驗表明,CCNs在標準圖學習基準和估計密度泛函理論(DFT)計算的分子性質方面優于競爭方法。這種新穎的機器學習方法允許科學家有效地提取化學知識,并探索日益增長的化學數據。

從多尺度角度理解圖對于捕獲分子、蛋白質、基因組等的大規模結構至關重要。為此,我們引入了多分辨率等變圖變分自編碼器(MGVAE),這是第一個以多分辨率和等變方式學習和生成圖的分層生成模型。MGVAE建立在多分辨率圖網絡(MGN)之上,該體系結構顯式地學習頂點的多級硬聚類,從而形成真正的多分辨率層次結構。然后,MGVAE采用層次變分自編碼器模型,在給定潛在分布層次的情況下,隨機生成多個分辨率層次的圖。我們提出的框架實現了幾個生成任務,包括通用圖生成、分子生成、無監督分子表示學習、引用圖鏈接預測和基于圖的圖像生成。MGVAE的未來應用范圍從先導優化增強最有前途的化合物在藥物發現到尋找穩定的晶體結構在材料科學。

//people.cs.uchicago.edu/~hytruongson/PhD-Thesis.pdf 一般來說,我們希望學習由每個原子的一組電荷-位置對指定的分子數據。這個問題對旋轉和平移是不變的。我們使用協變激活來“烘焙”這些對稱性,同時保留局部幾何信息。我們提出協變分子神經網絡(Cormorant),一種旋轉協變神經網絡結構,用于學習復雜多體物理系統的行為和特性。我們將這些網絡應用到分子系統中,有兩個目標:學習用于分子動力學模擬的原子勢能面,以及學習通過密度泛函理論計算的分子基態性質。我們的網絡的一些關鍵特征是:(a)每個神經元明確地對應于原子的一個子集;(b)每個神經元的激活與旋轉協變,確保整個網絡完全旋轉不變。此外,我們的網絡中的非線性是基于張量乘積和Clebsch-Gordan分解,允許網絡完全在傅里葉空間中運行。Cormorant在從MD-17數據集的構象幾何圖形中學習分子勢能面方面明顯優于其他算法,在學習GDB-9數據集上分子的幾何、能量、電子和熱力學性質方面與其他方法具有競爭力。

多分辨率矩陣分解(MMF)在快速矩陣分解算法中是不尋常的,因為它不做低秩的假設。這使得MMF特別適合于建模具有復雜的多尺度或層次結構的某些類型的圖。雖然MMF有望產生一個有用的小波基,但找到因式分解本身是困難的,現有的貪婪方法往往是脆弱的。因此,我們提出了MMF的“可學習”版本,該版本結合強化學習和通過反向傳播誤差的Stiefel流形優化,仔細優化了因式分解。基于MMF在分解歸一化圖拉普拉斯時產生的小波基,利用稀疏小波變換定義的圖卷積,構造譜域小波網絡學習圖。我們已經證明,由我們的可學習MMF產生的小波基遠遠優于先前的MMF算法,相應的小波網絡在引用圖的標準節點分類和分子圖分類上產生了最先進的結果。這對于理解和可視化復雜的層級結構(如社會網絡和生物數據)是一個很有前途的方向。

付費5元查看完整內容

深度度量學習(Deep Metric Learning, DML)提出學習度量空間,將語義相似性編碼為嵌入空間距離。這些空間應該可以轉移到訓練期間看到的類別之外。通常,DML方法使用任務網絡來解決在二元類分配上定義的對比排序任務。然而,這種方法忽略了實際類之間的高級語義關系。這導致學習后的嵌入空間編碼不完整的語義上下文,并歪曲類之間的語義關系,影響了學習后的度量空間的泛化性。為了解決這一問題**,我們提出了一種視覺相似度學習的語言指導目標**。利用專家類名和偽類名的語言嵌入,我們根據有意義的語言語義對視覺表示空間進行上下文化和重新對齊,以獲得更好的語義一致性。大量的實驗和消融為我們提出的方法提供了強大的動力,并顯示語言指導為DML提供了顯著的、模型無關的改進,在所有基準上實現了具有競爭力的和最先進的結果。代碼可在//github.com/ExplainableML/LanguageGuidance_for_DML獲得。

付費5元查看完整內容

多任務學習(Multi-task learning, MTL)旨在通過對多個相關任務的聯合學習來提高任務的泛化能力。作為對比,除了聯合訓練方案,現代元學習允許在測試階段進行一些不可見的、標簽有限的任務,希望能夠快速適應它們。盡管MTL和元學習在問題表述上存在細微的差異,但兩種學習范式都認為,現有訓練任務之間的共享結構可以導致更好的泛化和適應性。本文通過理論分析和實證調查,進一步了解了這兩種學習模式之間的密切聯系。理論上,我們首先證明了MTL與一類基于梯度的元學習(GBML)算法具有相同的優化公式。然后我們證明了對于具有足夠深度的過參數化神經網絡,MTL和GBML學習到的預測函數是接近的。特別是,這一結果表明,這兩個模型給出的預測是相似的,在相同的看不見的任務。通過實證,我們證實了我們的理論發現,通過適當的實現,MTL可以在一組少樣本分類基準上與先進的GBML算法相媲美。由于現有的GBML算法經常涉及代價高昂的二階兩級優化,我們的一階MTL方法在大型數據集(如微型imagenet)上快了一個數量級。我們相信,這項工作可以幫助彌合這兩種學習模式之間的差距,并提供一個計算效率高的替代GBML,也支持快速任務適應。

//www.zhuanzhi.ai/paper/5d6fac14a84a1a6163d80eb46284b0af

付費5元查看完整內容
北京阿比特科技有限公司