大型語言模型(LLMs)在幫助人們獲取信息方面越來越重要,從“世界上最大的冰蓋在哪里”這樣簡單的事實性問題到需要獲取實時信息和推理的復雜問題,如“計劃一次邁阿密的度假”。有兩種處理需要事實知識的問題的范式:參數化方法將知識存儲在LLMs的參數中,并通過提示來引出這些知識;非參數化方法將知識檢索外包給外部的非參數化數據存儲。在本論文中,我們旨在研究、比較并增強這兩種范式的能力。 由于LLMs通過在多樣的語料庫上進行預訓練,已經在其參數中積累了大量知識,因此可以在被提示提問時直接生成答案。在論文的第一部分中,我們重點關注利用LLMs參數中包含的事實性知識的參數化方法。我們首先研究通過組合從不同提示中得出的多種預測來提取更多知識的方法。然后,我們校準LLMs,使其在回答超出其知識范圍的問題時變得更加可信。我們發現,即使LLMs完全記住文檔并能夠逐字復述它們,仍然常常無法回答有關這些文檔的問題。為了增強LLMs從文檔中吸收知識的能力,我們提出了在預訓練文檔之前進行問題回答任務教學的預指令調整方法。
參數化方法提供了一個簡單的接口,但它們存在幻覺問題,并且無法訪問實時的外部信息。在論文的第二部分中,我們重點關注通過非參數化數據存儲擴展LLMs的非參數化方法,這通常由一個文檔語料庫和一個檢索器構建。標準的檢索增強生成(RAG)流程包括基于嵌入的檢索器和基于LLM的生成器,通常需要單獨的訓練程序,并且往往受限于檢索器的性能。我們引入了一種將檢索與生成融合在單個變換器中的端到端解決方案,并直接使用注意力機制進行檢索。為了解決需要詳細回答的復雜問題,我們引入了Active RAG,它在生成過程中動態和主動地檢索信息。最后,我們通過比較和調和兩種范式并提供對未來方向的見解來總結我們的研究。
作為人工智能領域最先進的技術之一,檢索增強生成(RAG) 技術能夠提供可靠且最新的外部知識,為眾多任務帶來了巨大的便利。特別是在AI生成內容(AIGC)時代,RAG強大的檢索能力可以提供額外的知識,幫助現有的生成式AI生成高質量的輸出。最近,大型語言模型(LLMs)在語言理解和生成方面展現了革命性的能力,但它們仍面臨固有的局限性,如幻覺和過時的內部知識。鑒于RAG在提供最新且有用的輔助信息方面的強大能力,檢索增強的大型語言模型(RA-LLMs) 應運而生,利用外部的權威知識庫,而不是單純依賴模型的內部知識,從而增強LLMs的生成質量。
在本教程中,我們全面回顧了現有的關于檢索增強大型語言模型(RA-LLMs)的研究工作,涵蓋了三個主要技術視角:架構、訓練策略和應用。作為基礎知識,我們簡要介紹了LLMs的基本原理及其最近的進展。接著,為了展示RAG對LLMs的實際意義,我們按應用領域對主流相關工作進行分類,詳細說明了每個領域面臨的挑戰及RA-LLMs的對應能力。最后,為了提供更深刻的見解,我們討論了當前的局限性以及未來研究的幾個有前景的方向。
我們的綜述論文:《RAG-Meets-LLMs: 邁向檢索增強的大型語言模型》
圖結構無處不在,從電子商務到知識圖譜,抽象出個體數據實體之間的交互。運行在圖結構數據上的各種實際應用程序需要為圖的每個部分——節點、邊、子圖和整個圖——提供有效的表示,以編碼其基本特征。近年來,圖上的深度學習(Deep Learning on Graphs,DLG)通過學習圖表示,在各個領域取得了突破性進展,成功捕捉了圖中潛在的歸納偏差。然而,這些突破性的DLG算法在應用于實際場景時,有時會面臨一些局限性。首先,由于只要在存在實體交互的領域中都可以構建圖,因此實際中的圖往往是多樣化的。因此,每一個新的應用程序都需要領域專家的參與和繁瑣的超參數調優工作,以找到最優的DLG算法。其次,實際中的圖的規模不斷擴大,甚至達到數十億節點,同時還伴隨著未過濾的噪聲。這要求在實現DLG應用之前進行冗余的預處理,例如圖采樣和噪聲過濾。接下來,實際中的圖大多是專有的,而許多DLG算法往往假設它們可以完全訪問外部圖,以學習其分布或提取知識,進而轉移到其他圖。最后,語言和視覺領域的單模態基礎模型的出現,促進了多種模態的集成,導致了帶有多種模態的節點和邊的多模態圖的形成。然而,在多模態圖上進行學習,同時利用每種模態的基礎模型的生成能力,仍然是DLG中的一個開放性問題。在本論文中,我提出從四個維度使DLG更加實用:1)自動化,2)可擴展性,3)隱私性,4)多模態性。首先,我們在消息傳遞框架下自動化算法搜索和超參數調優。然后,我們提出對每個節點的鄰域進行采樣,以調節計算成本,同時自適應地過濾掉針對目標任務的噪聲鄰居,以應對可擴展性問題。針對隱私問題,我們重新定義了包括圖生成和遷移學習在內的傳統問題定義,使其意識到實際圖的專有性和隱私受限的特點。最后,我提出了一種新的多模態圖學習算法,該算法建立在單模態基礎模型之上,并基于多模態鄰居信息生成內容。隨著人類收集的數據在規模和多樣性上的增加,個體元素之間的關系在規模和復雜性上呈指數級增長。通過使DLG更加可擴展、隱私認證和多模態,我們希望能夠更好地處理這些關系,并對廣泛的領域產生積極的影響。
//ra.adm.cs.cmu.edu/anon/2024/abstracts/24-139.html
在計算機視覺和自然語言處理領域取得的近期成功中,現實世界數據的一個關鍵方面——關系信息——在AI模型中仍然未得到充分探索。傳統模型主要在訓練和推理過程中單獨處理單個數據實體,例如一張圖片或一句話。相反,許多現實世界的應用本質上涉及富含關系結構的數據,這些數據自然可以表示為圖,其中節點代表數據實體,邊則編碼了它們之間的關系。通過理解圖中每個數據實體的關系,我們能夠全面了解它與其他實體的相關性或聯系。例如,在電子商務中,一個產品的上下文不僅僅通過其描述來解讀,還可以通過電子商務圖中相鄰節點的用戶評論、商家信息或共同購買的產品來分析。圖上的深度學習(Deep Learning on Graphs,DLG)提出了多種深度學習方法,通過捕捉圖中的潛在歸納偏差來學習節點、邊、子圖和圖的有效表示【20,75】。DLG在多個領域取得了突破,從傳統的圖應用,如電子商務/社交平臺中的產品/好友推薦【88,176】、社交網絡中的虛假信息檢測【10】、金融交易網絡中的欺詐檢測【156】等,到新興的圖應用,包括導航應用中的ETA預測【29】、流行病學中的疫情預測【22,112】以及生物學中的藥物開發【70】。
DLG旨在通過圖結構和鄰域信息學習理解這個相互關聯的世界,并改進對每個數據實體的理解。然而,當我們嘗試在實踐中實現DLG時,會面臨源自現實世界圖特征的諸多挑戰。
鑒于超參數調優、可擴展性、隱私性和多模態等四個阻礙DLG廣泛應用于現實世界中的挑戰,我定義了新的問題,旨在解決這些挑戰,并提出了可以在現實世界圖上部署的實用解決方案。
遷移學習是一種機器學習(ML)范式,通過利用其他任務中的“知識”來提高對目標任務的性能。這項技術已成為推動機器學習模型能力邊界擴展的關鍵動力。當前的公式相對簡單——在大量遷移任務數據上訓練一個大型模型;然后將所學的模型零樣本或經過適應性調整后應用于目標下游任務。這篇論文認識到,這些強大的模型并不是在真空中開發的,而是需要大量資源來訓練和部署。因此,有許多突出的問題和研究社區被現狀所忽視。在這篇論文的第一部分中,我們將專注于數據高效遷移學習的訓練時間問題。我們將從一個常見的ML情境出發,論證利用目標下游任務的高級知識來指導遷移學習的不同維度。我們將這種方法稱為終任務感知遷移學習。接下來,我們將提出一組新的終任務感知優化算法,這些算法通過偏向數據高效的解決方案來引導學習軌跡,并在終任務上具有較強的泛化能力。我們將以提供一種自動化方法結束這一部分,該方法可以在僅有終任務數據且數據量有限的情況下,構建并搜索與任務相關的遷移目標。 在論文的第二部分中,我們將開發計算和內存高效的遷移學習算法。我們的目標是基于一個已經在遷移任務(或任務集)上預訓練的通用大型模型,提供一個小型且高效但仍具有良好性能的任務特定模型,以供部署。我們將以結構化剪枝為主要技術,研究在兩種資源受限情況下的剪枝:(1)有限的任務數據,在這種情況下,我們將利用額外的遷移任務來學習剪枝結構,在相同的任務性能下,產生計算和內存更高效的模型;(2)內存受限的環境中,許多經典的剪枝技術因需要基于梯度的優化而導致內存開銷過大,從而失效。 本論文的結論部分將通過基于我們的既往工作,提出更多未來在資源高效遷移學習領域的研究方向,并建議一些新的研究分支。 機器學習(ML)模型變得越來越強大,導致它們在許多任務領域(Gururangan等,2020a;Liu等,2022)、數據模態(Team等,2023;McKinzie等,2024)和最終用戶應用(Bommasani等,2021;Maslej等,2023)中的廣泛采用。可以說,這一驚人增長速度的關鍵驅動力之一是遷移學習。在遷移學習中,我們通過利用來自不同但希望相關任務的知識,來提高對目標任務(或任務集)的性能(Bozinovski和Fulgosi,1976;Pratt,1992;Ruder等,2019)。我們希望解決的許多終任務數據有限,或者過于復雜,無法通過實際數量的監督樣本直接指定或學習。遷移學習不僅通過提供代理數據,還通過利用這些任務與選定遷移任務之間的結構關系,使我們能夠高效學習復雜任務(Thrun和Schwartz,1994;Baxter,2000)。 盡管取得了成功,現代實現形式的遷移學習可能資源消耗過大。例如,普遍的預訓練后適應范式1。在這種方法中,越來越大的模型首先在越來越多的數據上進行訓練,這些模型最終通過微調(Devlin等,2018;Abnar等,2021)、提示(Brown等,2020a;Liu等,2023)或基于人類反饋的強化學習(RLHF)(Christiano等,2017)適應于大量下游任務。GPT-4(Achiam等,2023)作為這一范式下的一個流行模型,據傳其參數數量超過1.7萬億2,估計訓練時使用了超過10萬億個標記;總共超過1e25次浮點運算(當時約為1億美元)。盡管這些巨大的訓練成本通常被認為可以通過未來的多個終任務攤銷,但如此龐大的模型在部署時會帶來顯著的內存、延遲、計算和能源負擔,從而引發了對資源節約程度的真正質疑。 本論文致力于探索資源高效的遷移學習技術。我們認識到,不僅存在廣泛的資源受限的ML實踐者,還有許多任務在訓練和部署時都有內在的資源限制(例如,在邊緣設備上執行的任務往往受到內存限制)。即使對于有能力訓練和使用大型模型的機構,資源高效的遷移學習也可以帶來顯著的財務節省,并減少通過二氧化碳排放對環境造成的壓力(Ligozat等,2022)。 本論文關注三個主要的資源維度:數據、計算和內存,以及它們在訓練和部署時的使用。我們的目標是在訓練和測試時實現資源高效的前提下,生成表現出色的模型(包括任務特定的指標,如準確率或F1)。我們將利用的一個基礎性見解是,ML實踐者通常對模型將用于的終任務有一定程度的先驗意識。這種終任務感知使我們能夠做出明智的設計決策,從而在資源節約的情況下生成高效且強大的模型。簡而言之,本論文基于以下問題陳述: 給定一個特定的終任務T?,我們如何通過利用一組遷移任務Taux,在資源高效的情況下生成滿足T?各種性能標準的模型? 終任務感知遷移學習的概念本身并不新穎。以往的工作已經在解決復雜規劃問題(Stone和Veloso,1994)、提高支持向量機性能(Wu和Dietterich,2004)和構建貝葉斯線性回歸的先驗(Raina等,2006)等方面探索了不對稱遷移。我們感興趣的是擴展現有文獻,并開發適應于新的、深度學習主導的時代(LeCun等,2015;Goodfellow等,2016)的新方法。與以往的工作不同,我們不僅關注提高任務指標,如準確率或困惑度,我們還關注在資源高效的情況下實現這些改進。下面,我們將提供本論文中不同工作部分的高層次概述,并說明它們與我們定義的目標的關系。
優化算法是機器學習和統計推斷的基石。隨著大規模數據集的出現,計算挑戰日益增加,迫使人們追求更高效的算法。現代優化技術通常針對特定的機器學習問題進行定制,這些方法利用問題的獨特結構特征,使其比當前應用于這些問題的方法效率更高。另一個關鍵方面是理解所得到估計量的估計精度。在某些情況下,盡管在訓練集上實現精確優化可能不切實際,但某些簡單而有效的啟發式方法在適當的統計框架內可以表現出令人贊嘆的估計精度。 在本文中,我們從優化和統計的角度研究了幾種大規模算法。第2章和第3章研究了兩種針對結構約束的連續優化算法。第2章集中討論了具有圓柱形約束的無界約束的一種廣義Frank-Wolfe方法。第3章則研究了具有少量極點的多面體約束的類似坐標下降(CD)方法。這兩種方法由于對問題結構的敏感性而表現出最先進的性能。 第4章研究了一種帶有解釋器-響應對之間可能存在不匹配的線性回歸變體。我們研究了一種簡單且高效的啟發式方法,并在統計環境中對其估計誤差進行了嚴格分析。 第5章和第6章研究了兩種決策樹算法。第5章研究了最優決策樹的計算,并引入了一種新的分支定界方法,用于具有一般連續特征的最優決策樹。第6章則轉向在足夠雜質減少條件下對CART算法的分析。我們為滿足該條件的信號函數證明了嚴格的誤差界,并討論了一些滿足該條件的函數類。 第7章研究了一種具有形狀約束的密度估計問題。我們提出了一種立方-牛頓法框架用于計算,并研究了有限混合的逼近性質。
近年來,自然語言生成的許多工作依賴于深度學習,通常使用帶有軟注意機制的神經網絡從數據中選擇顯著方面,然后構建流暢的自然語言文本。然而,在對數據的自然描述中,人類通常會提到更高級別的模式,這可能需要對數據進行復雜的計算。在許多情況下,僅使用軟注意機制的神經模型難以提取這些模式。此外,用戶可能會發現這些模型難以解釋和控制。在本論文中,我提出了一種通過在數據和文本上引入某些類型的離散層級操作的方法,以實現基礎自然語言生成。與僅使用注意力機制相比,這種層級操作可以更好地對數據中的復雜模式建模,揭示可解釋的中間計算,并實現可控的生成。
在論文的前半部分,我將討論在不同的基礎自然語言生成任務中向神經模型添加特定的離散層級操作,如圖像和表格標題生成、對話響應生成以及構建多跳問題回答的推理鏈。這些任務涵蓋了各種數據模態(包括圖像、表格數據、數值數據和知識庫)。在論文的后半部分,我將描述用于文本解碼器中的內容規劃的層級方法,研究詩歌生成中的押韻模式以及用于連貫敘事文本生成的離散計劃。
與機器學習系統不同,人類可以從少數示例中學習新概念,并有效適應變化的環境。機器學習系統通常需要大量數據來學習類似的概念或適應變化。這是因為它們缺乏領域特定的先驗知識(也稱為歸納偏差)。為了應對這些缺點,元學習旨在通過數據驅動的方式獲得領域特定的歸納偏差,通常是從一組相關數據集中獲得。文獻中的大多數現有元學習方法依賴于豐富的領域或問題特定的數據集。然而,在實踐中,我們通常只能獲取有限數量的此類數據集。因此,在本論文中,我們探討了如何僅從少量數據集中成功進行元學習。為了解決這個問題,我們開發了一個理論框架來理解元學習中的泛化。在此基礎上,我們提出了一類可擴展的算法,這些算法通過原理性的元級正則化來進行元學習先驗,防止數據集的過擬合。然后,我們研究了確保元學習先驗提供可靠不確定性估計的方法,使其適用于交互學習。為此,我們提出了一種在函數空間中的正則化方案,并證明所得到的元學習方法在貝葉斯優化中顯著提高了效率。隨后,我們將該方法擴展到安全約束設置中。此外,我們引入了一種基于模型的元強化學習方法,用于有效地適應控制策略的變化動態。最后,我們提出了一種新的元學習框架,該框架直接逼近數據生成的隨機過程。由于它完全在函數空間中進行元學習,因此不會受到神經網絡高維參數空間中先驗問題的影響。在整個論文中,我們通過醫療保健、分子生物學和自動化機器學習(AutoML)以及機器人控制等實際應用,實驗證明了我們提出的方法的實際有效性。
科學應用(如個性化(精準)醫學)需要因果機制的統計保證,然而在許多情況下,僅有復雜的觀察數據可用。這些數據通常具有復雜的底層交互。機器學習的最新進展使得建模這些系統成為可能,但其固有的偏見和黑箱特性給推斷帶來了挑戰。半參數方法能夠利用這些強大的非參數回歸過程,為數據生成過程中的有趣參數成分提供有效的統計分析。
本論文由三章組成。第一章總結了半參數和因果推斷的文獻,特別關注雙重穩健方法和條件獨立性測試。在第二章中,我們探討了平均部分效應的雙重穩健估計——線性模型中線性系數的推廣和因果效應的局部度量。這個框架涉及兩個插件擾動函數估計,并相互權衡其誤差。第一個擾動函數是條件期望函數,其估計要求可微分。我們建議將不必可微分的任意插件機器學習回歸與高斯核卷積,并證明在一系列核帶寬下,我們可以在對回歸均方誤差沒有漸近成本的情況下實現半參數效率界限。第二個擾動函數是預測變量的對數密度導數,稱為得分函數。這個得分函數不依賴于給定預測變量的響應的條件分布。得分估計僅在單變量情況下研究得較多。我們建議使用位置尺度模型將多變量得分估計問題減少到條件均值和方差估計加上單變量得分估計。這使得可以使用任意機器學習回歸。模擬結果證實了我們方法的理想特性,并在R包drape(雙重穩健平均部分效應)中提供了代碼,代碼可在//github.com/harveyklyne/drape獲得。
在第三章中,我們考慮在給定第三個連續變量Z的情況下測試兩個離散隨機變量X和Y的條件獨立性。條件獨立性測試構成了基于約束的因果結構學習的基礎,但已證明任何對所有原假設分布控制尺寸的測試在對抗任何備擇假設時都沒有檢驗力。因此,必須限制原假設空間,便于以機器學習方法的性能來做。以前的工作還對X和Y做了強結構假設。一個不做這些假設的雙重穩健方法是使用任意機器學習方法計算廣義協方差測量,將條件相關性的測試簡化為測試一個漸近高斯向量的均值是否為零。這個向量通常是高維的,天真的測試缺乏檢驗力。我們建議貪婪地合并底層離散變量的標簽,以最大化觀察到的條件相關性,從而以自適應方式揭示額外結構。我們的測試使用一種新穎的雙重引導校準。我們展示了一種以計算有效方式執行此過程的算法。模擬結果證實,在具有低維結構的高維設置中,我們能夠提高檢驗力,同時保持期望的尺寸控制。代碼在R包catci(CATegorical Conditional Independence)中提供,代碼可在
當前流行的機器學習范式涉及對每一個新任務使用靜態數據集訓練一個獨立模型。與之相反,人類會隨時間積累知識,終身學習范式旨在通過使系統能夠持續地從一系列任務中學習,并保留過去的知識以實現未來學習的高效性,來模擬這一過程。這種范式還提供了諸如避免定期模型訓練、潛在地減少計算和能源需求、以及促進環保的綠色人工智能等優勢。在現代機器學習中,盡管深度神經網絡功能強大,但面臨如災難性遺忘(在新任務學習中丟失先前任務的知識)和負面干擾(先前學到的知識阻礙新任務學習)等挑戰。這些問題源于穩定性-可塑性困境,這需要在保留過去知識(穩定性)與獲取新知識(可塑性)之間找到正確的平衡。高效的終身學習系統必須解決這一困境,以及其他考慮,如支持在線數據流、利用小型且固定的內存緩沖容量(如果有的話)和從未標記的數據流中學習。
在本文中,我們從生物學習過程和深度學習的最新進展中獲得靈感,以實現高效的終身學習系統。我們提出將歸納偏置注入數據驅動機器學習的三個主要組成部分:模型(架構與初始化)、訓練(目標與優化)和數據。本論文分為三個部分,每個部分對應以上一個組件。在第一部分中,我們探索了預訓練初始化的角色,揭示了它們與隨機初始化相比在減輕遺忘方面的隱性優勢。接下來,我們設計了一個參數高效的專家架構,該架構動態擴展學習容量以解決穩定性-可塑性困境。在第二部分中,我們展示了針對平坦極小值的顯式優化如何改善網絡穩定性,并引入了一個元學習目標以平衡穩定性與可塑性。第三部分深入探討了終身半監督學習,通過復習偽標記數據來解決穩定性-可塑性困境。我們以從終身學習的角度檢驗預訓練結束,展示通過將上述策略應用于模型的(持續)預訓練,如何增強其性能。
在過去的十年中,訓練硬件的進步和大數據集的可用性使得深度神經網絡在機器學習領域取得了顯著進展。這些網絡在許多自然語言處理和計算機視覺任務中達到或超過了人類水平的表現,例如機器翻譯(Lepikhin et al., 2021)、問答(Du et al., 2022; Chowdhery et al., 2023)、開放式對話生成(Ouyang et al., 2022)、對象檢測和圖像生成(Lu et al., 2023),這些評估是基于獨立同分布(i.i.d)的保留數據進行的。然而,當這些網絡應用于數據分布隨時間變化的現實情況時,它們的表現往往會變差(Lazaridou et al., 2021)。它們失敗的主要原因是當前的機器學習方法專注于孤立學習(Chen and Liu, 2018),即使用靜態數據集為每個新任務或一組相關任務訓練一個單獨的網絡。一種保持這些網絡更新的方法是每當新信息變得可用時就從頭開始重新訓練它們。然而,先前訓練所用的數據可能因隱私或存儲限制而只是暫時可用(Farquhar and Gal, 2018)。此外,重新訓練方法可能在計算上昂貴,數據效率低,且耗時長,尤其是對于大型網絡。例如,GPT-3(Brown et al., 2020),一個具有175B參數的自回歸語言模型,訓練了499B個標記,使用的計算量相當于3.14e23次浮點操作,如果在單個NVIDIA Tesla V100 GPU上訓練,將需要355年和460萬美元的成本。另一種方法是連續地隨著新信息的到來更新網絡。然而,深度神經網絡和一般的參數模型容易發生災難性遺忘(McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999)現象。在這種現象中,網絡在新信息被整合進系統時會忘記或覆蓋之前學到的知識。此外,這些網絡可能會經歷負面干擾(Pan and Yang, 2009; Weiss et al., 2016)現象,即先前學到的知識可能會妨礙新事物的有效學習,從而增加了數據需求。這兩種現象都源于穩定性-可塑性困境(Mermillod et al., 2013)。穩定性與保留過去的知識有關,可塑性與學習新知識有關。需要一種平衡,因為過多的穩定性會阻礙新知識的獲取,而過多的可塑性會導致忘記以前的知識。這一困境使得當前網絡難以更新其知識,并有效地適應新任務的增量學習。
與此相反,我們人類的學習方式則大不相同。我們通過在一生中獲取和更新知識來學習,保留以前學到的知識,并利用它來促進新概念和技能的有效學習。受到這種人類學習過程的啟發,終身學習(Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018)或增量學習(Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001)或永不停止的學習(Mitchell et al., 2018)或連續學習(Parisi et al., 2019)范式旨在開發能夠從持續的數據流中學習的系統,理想情況下保留過去的知識,用新信息更新它,并利用它進行后續學習。此外,研究人員也認識到終身學習能力對于實現人工通用智能的進展至關重要(Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019)。除了與生物學習相似之外,終身學習范式還有潛力通過消除過度模型重新訓練來減少能源浪費,并實現環保和可持續的綠色人工智能(Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020)。終身學習范式還與其他知識轉移相關的范式有關,如轉移學習(Pan and Yang, 2009)和多任務學習(Caruana, 1997)。與這兩個范式不同的是,終身學習范式更為通用;它假設對任務的順序訪問,旨在改善對先前任務的表現(理想情況下是積極的后向轉移或消極的遺忘)和新任務的表現(積極的前向轉移)。當前的轉移學習范式主要關注從以前的任務到新任務的單向知識轉移,即使這可能損害先前學到的任務的表現。另一方面,多任務學習假設同時訪問所有任務的數據,并通過使任務之間的知識共享來改善所有任務的表現。此外,即使在單任務學習設置中,神經網絡也顯示出經歷災難性遺忘的情況(Toneva et al., 2019),這突出了終身學習范式不僅限于多任務場景。即使是任務的概念在終身學習范式中也非常開放。例如,考慮一個終身COVID-19命名實體識別(NER)標記器。任務有三種不同的表現形式 - (i)分類任務,如實體塊、實體檢測、實體鏈接、共指解析和關系提取,(ii)針對2020、2021、2022、2023年COVID-19研究文章的不同領域的NER,(iii)針對COVID-19變種如COVID-Alpha、COVID-Beta、COVID-Omicron的演化類別的NER。這些表現形式對應于終身學習的三個突出場景:任務、領域和類別增量學習(Van de Ven and Tolias, 2019)。除了解決災難性遺忘之外,終身學習系統還有幾個其他目標(Biesialska et al., 2020)。人類能夠迅速從持續的對話中學習新信息,而不需要明確的主題邊界(Chen and Liu, 2018)。我們有選擇地保留過去的經驗在我們有限的記憶容量中以防止遺忘,并在需要時稀疏地回放它們(Ratcliff, 1990; McGaugh, 2000)。此外,我們經常從環境中以無監督的方式學習,而不是依賴于明確的監督(Aljundi, 2019)。相比之下,當前的終身學習系統(Biesialska et al., 2020)需要明確的任務邊界,它們依賴于大內存容量,因此數據效率低,且在計算上昂貴,因為它們需要對標記數據進行多次傳遞。為了更有效地模仿人類學習,有必要開發在更現實的假設下運行且在數據、記憶和計算上更高效的終身學習系統(Farquhar and Gal, 2018)。 在本論文中,我們的目標是設計高效的終身學習系統,這些系統可以減輕之前學到的知識的災難性遺忘,并通過在現實假設下運行來促進未來的學習。受到生物學習過程和深度學習的最新進展的啟發,我們提議將適當的歸納偏見注入數據驅動機器學習的三個主要組成部分:模型、訓練和數據。通過這樣做,我們還希望提高終身學習系統在數據、內存和計算需求方面的效率。
在許多實際情況中(例如,學術網絡、社交平臺),不同類型的實體不僅與文本關聯,而且還通過各種關系相互連接,這可以被抽象為文本屬性異構圖(TAHGs)。當前的語言模型(LMs)預訓練任務主要集中在分開學習每個實體的文本信息,并忽視了捕捉TAHGs中實體之間的拓撲關系的重要方面。在這篇論文中,我們提出了一個新的針對LMs的預訓練框架,明確地考慮TAHGs中的拓撲和異構信息。首先,我們定義了一個上下文圖為特定順序內的目標節點的鄰域,并提議一個拓撲意識的預訓練任務,通過聯合優化LM和一個輔助的異構圖神經網絡來預測參與上下文圖的節點。其次,基于觀察到一些節點文本豐富,而其他節點文本很少的現象,我們設計了一種文本增強策略,通過其鄰居的文本來豐富沒有文本的節點,以處理不平衡問題。我們在三個來自不同領域的數據集上進行鏈接預測和節點分類任務。實驗結果證明了我們的方法相對于現有方法的優越性和每種設計的合理性。我們的代碼可在以下鏈接找到://github.com/Hope-Rita/THLM。
這篇論文研究了通過試錯學習教導自主智能體完成任務的算法。通常,這個問題被描述為一個強化學習(RL)問題,其中智能體試圖最大化用戶提供的獎勵函數。這里研究的算法采取了不同的方法,大部分避免使用獎勵函數,而是直接從數據中學習實現期望的結果。這種方法允許用戶使用來自監督學習和非監督學習的算法工具,同時也為非專家用戶提供了一個教導智能體新任務的界面。這些方法的設計中的主要挑戰是預測期望結果的概率,尤其是當這些結果在未來的數百步中才發生,特別是在使用離策略數據時。為此,這篇論文的第一部分基于遞歸分類開發了一種算法,該算法通過時間差分更新估計未來狀態的概率(第2章)。這種方法直接適用于具有連續狀態和動作的環境,不需要任何手工制作的距離度量,并導致了一個比之前的方法更高效的面向目標的RL算法。然后,我們將這個想法推廣到可以通過多種方式解決的任務,允許更靈活的任務規范,并提供更廣泛的泛化能力。
將控制問題以期望的結果來描述提供了一個簡單的機制來指定任務是什么,但它沒有為如何解決任務留下任何余地,這引發了一個問題:這些方法是否僅限于簡單任務。為了解決這個限制,我們考慮推斷復雜任務解決方案的結構。由于第一部分介紹的算法在本質上是概率性的,所以很容易將這種結構作為一個未觀察到的潛在變量納入其中。這些新算法推斷這種任務結構;在這樣做的過程中,它們將控制問題分解為一系列更容易的問題,從而加速學習。
我們首先討論以目標為條件的設置,這種推斷觀點導致了一個簡單且理論上有正當理由的方法,將面向目標的RL集成到傳統的規劃流程中(第4章)。RL被用來估計距離并學習一個局部策略,而觀察(如,圖像)上的圖搜索確定了通往目標的高級路徑。這種方法顯著優于標準的目標條件RL算法。接著,我們考慮一種不同的方式來構造任務解決方案:作為一個學習過的動態模型和策略的組合(第5章)。結果是一個基于模型的RL算法,其中模型和策略使用相同的目標聯合優化,這是預期回報的下界。
這篇論文基于初步論文提案中提出的工作在兩個主要方向上進行了深入。首先,我們探討了遞歸分類的幾何解釋(第2章),在表示學習和強化學習之間建立了緊密的聯系(第3章)。這種聯系使我們能夠將遞歸分類擴展到通過有限數量的獎勵標記狀態后設定的任務,并使我們能夠將這些方法應用到基于真實世界圖像的機器人操作任務上。其次,我們擴展了RL的潛在變量觀點(第4章和第5章)以在學習的表示上執行推斷(第5.6節)。這種擴展使我們的方法能夠擴展到更高維度的任務,并提供了大量的計算加速。