構建能與世界互動的自主代理是人工智能(AI)的核心。本論文引入了“語言代理”,這是一類新的代理,它們利用大型語言模型(LLMs)進行推理以采取行動,標志著與傳統通過廣泛規則設計或學習的代理的一種轉變。它分為三個部分開發:
第一部分通過介紹基于與大規模、真實世界計算環境(如互聯網或代碼接口)的互動的一組新的AI問題和基準,激發了對語言代理的需求。這些“數字自動化”任務為減輕繁瑣的勞動和改善我們的生活提供了巨大的價值,但對于以前的代理或LLM方法在開放式自然語言和長期決策方面提出了重大挑戰,這需要新的方法論。 第二部分為語言代理奠定了方法論基礎,其核心思想是應用LLM推理來實現多功能和可泛化的代理行動和計劃,這也通過外部反饋和內部控制增強了LLM的推理,使其更加扎根和深思熟慮。我們展示了語言代理能解決多種語言和代理任務(特別是在第一部分提出的數字自動化任務),并在先前基于LLM的方法和傳統代理上取得了顯著的改進。 第三部分綜合了第一部分和第二部分的洞察,并概述了一個有原則的語言代理框架。該框架提供了模塊化抽象,以組織各種基于LLM的方法作為代理,理解它們與人類認知的差距,并激發并開發新方法,朝向通用目的的自主代理。從基礎的經驗任務和方法到統一的概念框架,本論文建立了語言代理作為AI研究前沿的一個獨特且嚴謹定義的領域的研究。
構建能與各種環境互動的自主代理是人工智能(AI)的核心問題[266]。從高層次上來說,這篇論文提出了一種全新的代理類型和一種全新的環境類型(圖1.1): ? 現有的代理要么主要遵循特定領域的規則來行動(基于規則的代理,如DeepBlue [38]、Eliza [272]或Shaky the robot [229]),要么主要在特定領域數據上進行訓練以行動(基于學習的代理,如AlphaGo [281]、Atari DQN [206]或用于手部操控的ADR [8])。本論文介紹了語言代理,這些代理利用語言模型進行推理以行動,這減輕了構建傳統代理所需的密集型特定領域努力,并且在各種領域中實現了少量樣本的泛化。這代表了構建通用自主代理目標的一個重大步驟。 ? 現有代理要么與人類或物理世界互動(實用但不可擴展),要么與游戲或模擬互動(可擴展但不實用)。這篇論文引入了數字自動化,一種新型任務,其中代理與大規模真實世界數字環境(如互聯網)互動。這為代理在開放式行動和長期視野上做出決策提供了新的挑戰,同時也提供了巨大的機會來減輕我們的數字勞動并發現新知識。 傳統代理和環境有什么問題?在傳統基于規則或基于學習的代理可能也能感知和用語言行動的情況下,“語言代理”的定義是什么?為什么我們必須轉向大規模真實世界數字環境來進一步發展,而不是使用傳統的代理測試床如游戲?我將簡要使用文本冒險游戲領域來闡述這些點并激發論文的其余部分。
大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。
我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。
過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。
在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。
從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。
隨著大型語言模型在近年來能力的大幅提升,提高我們對其輸出的控制能力變得越發重要。在本論文中,我討論了我開發的幾種控制方案,范圍從純推理時控制到基于微調的對齊方法。我首先將討論適用于非結構化自然語言生成的高度通用方法,包括一種稱為FUDGE的推理時控制方案以及一種基于強化學習的微調方法,稱為RLCD。接下來,我將討論更專門的方法,這些方法可以用于更結構化領域的控制,如分子設計、程序合成和語義解析。最后,我將展示如何將這些想法與通過提示進行的結構化規劃結合使用,以將我們的控制擴展到更長的輸出——在自動故事生成應用中范圍達到數千詞。
近期大型語言模型(LLMs)的發展顯著推進了在廣泛自然語言任務上的最新技術水平。然而,雖然這類模型能夠生成流暢的文本,但在推理時要充分控制它們的行為可能很困難。例如,開箱即用的預訓練語言模型頻繁地生成帶有偏見或有害的文本,這可能是因為在它們的預訓練數據中大量存在這類文本。
因此,控制生成——在推理時控制模型的行為,以產生符合期望的軟性或硬性約束的輸出——是確保在現實世界設置中道德使用這些強大技術的必要條件。實際上,去除問題偏見只是控制生成廣泛應用領域中的一個例子。控制生成的應用范圍從維持期望的風格或正式程度,到保持對參考文檔或現實世界事實的忠實,甚至非語言任務(使用模型處理非語言領域),如設計具有理想藥物屬性的分子。
因此,近年來已經投入了大量努力來開發控制語言模型輸出的方法。這些努力包括僅在推理時操作的各種方法,以及依賴于修改底層模型分布的方法,無論是通過微調還是通過強化學習。
盡管如此,控制LLMs的任務非常復雜,隨著時間的推移只會變得更加困難:語言模型在能力上持續改進的同時變得越來越不可解釋,我們對最強大的模型的訪問權限更加有限,這些模型越來越多地隱藏在私有APIs后面,而我們要求的控制目標變得越來越困難。為了詳細說明后一點:僅僅兩三年前,我們可能滿足于簡單地控制輸出段落的一般主題,這些段落僅幾十個令牌長,但今天一個主要挑戰是在可能跨越數千甚至數萬個令牌的輸出段落上控制事實準確性,既要考慮提供的上下文也要考慮現實世界的知識。 在本論文中,我將討論我開發的幾種方法,這些方法在許多不同的設置中解決了控制生成的問題。 自然語言的控制首先,在第二章,我將討論用于非結構化自然語言的一般控制方法,包括純推理時控制以及基于強化學習的微調。
對于純推理時控制,我提出了一種用于控制文本生成的靈活且模塊化的方法——生成未來判別器(FUDGE)。給定一個現有的基礎語言模型(LM)用于從感興趣的分布中生成文本,FUDGE允許在僅需要訪問基礎LM的輸出邏輯的情況下,基于期望的屬性a(例如,正式程度)進行條件化。FUDGE學習一個在部分序列上操作的屬性預測器,并使用此預測器的輸出來調整基礎LM的原始概率。我們展示了FUDGE模型對應于基礎LM給定屬性a的條件分布的貝葉斯分解。此外,FUDGE可以輕松地組合多個期望屬性的預測器。我們在三個任務上評估了FUDGE——詩句完成、語言生成中的主題控制以及機器翻譯中的正式性變化——并在所有三個任務中觀察到提升。 與純推理時控制相比,微調(包括基于RL的方法)需要并利用對基礎語言模型更大的訪問權限。雖然在前期需要額外的培訓或微調模型的成本,但它們可以通過從微調模型中進行普通采樣來減少推理時的成本(與可能需要更昂貴的解碼程序來啟用控制的推理時控制方法相比)。
基于RL的微調方法最近變得越來越受歡迎。在本論文中,我將提出一種RL方法,名為對比蒸餾的強化學習(RLCD),它不使用人類反饋就可以使語言模型遵循用自然語言表達的原則(例如,更無害)。RLCD從兩個對比的模型輸出中創建偏好對,一個使用正面提示來鼓勵遵循給定原則,另一個使用負面提示來鼓勵違反它們。使用兩個不同的提示會導致模型輸出在平均上更加分化,從而在沒有人類注釋的情況下產生更清晰的偏好標簽。然后我們使用偏好對來訓練一個偏好模型,進而用強化學習改善一個基礎未對齊的語言模型。經驗上,RLCD在三個不同的對齊任務——無害性、有幫助性和故事大綱生成——上優于RLAIF和上下文蒸餾基線,并在用于模擬偏好數據的7B和30B模型規模上均有表現。 針對結構化領域的控制接下來,在第三章,我將討論我為將控制擴展到結構化領域而進行的幾項工作。這一部分的大部分內容將聚焦于我開發的一種方法——隨機迭代目標增強,我們將其應用于分子設計和程序合成等多個領域。 例如,在分子設計任務的背景下:分子設計中的生成模型傾向于是參數豐富、對數據需求高的神經模型,因為它們必須生成復雜的結構化對象作為輸出。由于缺乏足夠的訓練數據,估計這樣的模型可能具有挑戰性。通過隨機迭代目標增強,我們提出了一種用于迭代創建額外分子目標的自訓練方法。我們首先將生成模型與一個簡單的屬性預測器一起進行預訓練。然后將屬性預測器用作似然模型,用于從生成模型中篩選候選結構。額外的目標通過隨機EM迭代的過程中迭代產生,并用于最大化候選結構被接受的對數似然。由于生成模型在預訓練后已經相當合理,因此一個簡單的拒絕(重加權)采樣器就足以抽取后驗樣本。我們展示了在無條件和條件分子設計上相比于強基線的顯著提升。特別是,我們的方法在條件分子設計中的絕對增益超過了先前最先進技術10%。最后,我們展示了我們的方法在其他領域(如程序合成)也是有用的。
在本節的最后,我還將簡要討論我在這一領域與他人合作的一些其他項目,涉及其他結構化領域(如語義解析和填字游戲)的控制生成方法。
長篇故事生成最后,在第四章,我將應用諸如FUDGE之類的可控生成思想于生成更長長度的高質量語言模型輸出——在故事生成領域達到數千詞——的任務。
首先,在我關于遞歸重新提示和修訂(Re3)的工作中,我們考慮了自動生成超過兩千詞的更長故事的問題。與之前關于更短故事的工作相比,長距離情節連貫性和相關性在這里是更為核心的挑戰。我們提出了遞歸重新提示和修訂框架來解決這些挑戰,通過(a)提示一個通用語言模型構建一個結構化的總體計劃,以及(b)通過重復地將來自計劃和當前故事狀態的上下文信息注入語言模型提示來生成故事段落。然后我們通過(c)對不同續篇進行重新排序以保持情節連貫性和前提相關性,最后(d)編輯最佳續篇以保證事實一致性進行修訂。與直接從相同基礎模型生成的類似長度故事相比,人類評估員判斷Re3的故事在擁有連貫的總體情節方面(絕對增加14%)和與給定初始前提相關方面(增加20%)顯著更多。
然后,我們通過提出詳細大綱控制(DOC)框架來進一步改進我們在Re3中的先前工作,該框架用于在自動生成數千詞長的故事時改善長距離情節連貫性。DOC由兩個互補的組件組成:一個詳細的大綱制作者和一個詳細的控制器。詳細的大綱制作者創建一個更詳細、分層結構化的大綱,將創造性負擔從主要起草過程轉移到規劃階段。詳細的控制器確保在生成過程中仍然尊重更詳細的大綱,通過控制故事段落與大綱細節保持一致。在自動生成故事的人類評估中,DOC在情節連貫性(22.5%的絕對增益)、大綱相關性(28.2%)和有趣性(20.7%)上顯著優于Re3。人類還判斷DOC在交互式生成設置中的可控性要高得多。
最后,我將討論幾項最近和正在進行的工作,這些工作進一步探索了長篇故事生成的不同方面,如個性化、節奏和事實一致性,以及使用更新的LLMs來提高計算效率的一些改進。
自然現象的不可約復雜性促使圖神經網絡成為執行圖結構數據上表示學習任務的標準模型。盡管它們捕捉局部與全局模式的能力十分出色,但與長距離和高階依賴相關的問題為這些模型帶來了相當大的挑戰。本工作通過首先識別負面影響圖神經網絡在學習強依賴于長距離交互事件的表示時性能的各個方面,來應對這些挑戰。特別是,當圖神經網絡需要在遠距離節點之間聚合消息時,消息傳遞機制會將指數級增長的信息量過度壓縮到靜態向量中。 值得注意的是,對于某些類別的圖(即路徑、樹、網格、環形和梯形),底層的連通性允許消息沿著邊緣傳遞,而不會遇到來自其他路徑的顯著干擾,從而將信息的增長量控制在線性級別上。 當底層圖不屬于上述類別時,會出現過度壓縮現象,因為信息的傳播發生在通過邊緣相連的節點之間,這導致了計算圖反映節點的連通性。這一現象導致節點對來自圖遠端的信息變得不敏感。為了提供一種緩解此類瓶頸的新架構設計視角,一個統一的理論框架揭示了網絡的寬度、深度和圖拓撲對消息傳遞神經網絡中過度壓縮現象的影響。 然后,論文轉向通過拓撲神經網絡利用高階交互。憑借多關系歸納偏見,拓撲神經網絡通過更高維度的結構傳遞消息,有效地提供信息流的快捷方式或額外路線。通過這種構建,底層的計算圖不再與輸入圖結構耦合,從而緩解了上述瓶頸,同時也考慮了高階交互。受到圖注意力網絡中開發的掩蔽自監督學習機制以及由單純形和胞腔復合體提供的豐富連通性的啟發,提出了兩種不同的注意力架構:單純形注意力網絡和胞腔注意力網絡。 這些架構背后的理念是利用特定排列的節點組內單純形或胞腔復合體提供的擴展鄰域概念。特別是,這些拓撲注意力網絡利用底層復合體的上下鄰接性來設計能夠衡量來自不同區域信息重要性的各向異性聚合。通過這樣做,它們捕捉到傳統圖神經網絡可能錯過的依賴關系。 最后,通過增強的細胞同構網絡引入了一個高階結構之間的通信方案,它通過讓一個胞腔復合體的所有細胞從它們的下層鄰域接收消息來增強拓撲消息傳遞方案。這種升級使得在胞腔復合體內的節點組之間,特別是以環狀結構排列的,能夠直接互動。這種增強的方案為高階和長距離交互提供了更全面的表示,展示了在大規模和長距離基準測試上的非常高性能。 在深度學習的不斷演進的景觀中,數據中存在的關系模式已變得至關重要,用以解決圖結構數據的表示學習任務。本論文從這一視角出發,探索了拓撲神經網絡的領域,強調了代數拓撲學領域的概念與在離散拓撲空間上執行表示學習任務之間的協同作用。本工作的目標結構旨在確保在理解高階交互及其在推進神經架構方面的角色上具有深度和廣度。
具體而言,本論文的目標是:
這篇論文的目標是通過交互學習來提高AI代理的知識表示能力,使其能夠有效地規劃并適應環境中的變化。論文的貢獻橫跨三個主題:學習和利用選擇性注意力、時間抽象和可供性;目標是獲得促進規劃、超出分布泛化和快速適應的知識表示。 本工作的一個中心假設是,橋接狀態和行動對于強化學習(RL)代理發展廣泛智能行為是關鍵。我們首先關注利用計算模型來模擬人類視覺注意力,然后引入興趣函數來學習專業化的、可復用的技能,以便快速適應和泛化到新的獎勵動態中。接著,我們為RL代理發展了一個可供性的理論,并形式化了時間抽象的部分選項模型,旨在加快規劃和更好的泛化。 展望持續性RL的目標,我們回顧了這個問題的現有定義,提出了一種方法的分類,并提供了文獻中使用的基準和理解代理性能的重要指標的概述。最后,我們研究了在線元強化學習設置下模型不確定性下的規劃問題,并展示了規劃視界依賴于任務數量、每個任務的樣本數量和底層任務相似性的概念。
這篇論文的目標是為發展能夠處理所觀察數據(“看”)、學習表示知識(“思”)并利用獲得的信息進行規劃(“行”)的人工智能(AI)系統貢獻力量,這些系統具有隨時間適應變化的能力。這類代理的應用包括:通過表示為時間上抽象的行為(跨多個時間步發生,例如“螺絲緊固件-一起”)的自動化倉庫裝配、在日常任務中為人類提供個人助理,這些任務需要抽象行動(例如“開門”)、通過跨多個時間步的推理來促進各種面向用戶服務的自動化控制,如網頁導航(例如“預訂票”)、輔助技術,能夠在不同情況下確定行動的可能性(即可供性),以在變化的環境中實現高級目標,如用于醫院中的機器人導航等。 在這篇論文中,我們在強化學習(RL)(Sutton和Barto,1998b)的背景下追求這一目標,RL是一個框架,它使得一個交互式的決策代理能夠學習如何在處理不確定性和有限的環境數據時實現目標。RL范式源自于實驗心理學中的動物學習,并從神經科學中汲取了想法。例如,研究人員提供了關于人類能夠選擇性地關注視覺輸入的某些部分(Borji等,2012;Judd等,2009)、收集相關信息,并順序地結合觀察結果以在不同的時間尺度上構建表示(Hayhoe和Ballard,2005;Zhang等,2019b),這可以指導感知和行動(Dayan等,2000;Kahneman,1973)。值得注意的是,在所有這些案例中,對狀態和行動的良好理解都是至關重要的。為了提高RL代理在現實世界問題中的適用性和可擴展性,關鍵是要在狀態和行動之間架起橋梁,以促進快速適應、健壯的泛化以及更高效地學習模型的更快規劃。 雖然在推進RL的最新技術方面取得了巨大進展(Silver等,2016;Vinyals等,2019),但大多數當前方法缺乏對世界的基本理解以及與人類相比,持續學習和適應的能力(Mitchell,2021)。在這篇論文中,我們認為,選擇性注意、時間抽象和可供性都是使代理不僅能夠獲得技能,而且能夠在非平穩性面前繼續適應和學習的必要組成部分。
為了激發選擇性注意的需求,我們首先探索知道在圖像中何處尋找(“看”)是否允許RL代理在執行任務時對干擾因素保持魯棒性,尤其是面對非平穩性時。此外,大量證據表明,使人類能夠適應變化并隨時間改進的核心要素包括跨多個時間尺度使用抽象表示(Collins, 2018; Eckstein和Collins, 2018)、選擇性時間注意(Zhang等,2019b)和層次化組織的行為(Botvinick等,2009)。我們通過定義具有興趣函數的時間抽象行動為RL代理實現這一直覺;我們的實驗顯示,專業化是學習可重用、可解釋技能的關鍵,這些技能使RL代理能夠快速適應獎勵中的非平穩性。 用于形式化注意力概念以建立抽象的自然框架是可供性理論(Gibson, 1977)。在心理學文獻中(Chemero, 2003; Heft, 1989),可供性被視為代理-環境互動的屬性。在這篇論文中,我們為RL代理定義了可供性,并展示了知道可供性的模型可以導致更快的規劃和更好的泛化。此外,具身認知和感知的理論表明,人類能夠以不同時間尺度的內部模型的形式表示知識(Pezzulo和Cisek, 2016)。我們以時間抽象的部分模型的形式闡述了這一洞見,這些模型利用了時間抽象和可供性,并且從理論上和實證上展示了它們可以提高學習和規劃的效率。 最后,為了更接近現實世界的設置,我們研究了在線學習問題的表述,沒有關于任務之間相似性或代理可能遇到的任務數量的先驗知識。隨著代理對其環境的基本結構獲得更多知識,它應該能夠以更長的規劃視界和更高的確定性提前規劃。我們將規劃與在線學習之間的鴻溝橋接起來,以顯示跨任務的元學習模型可以直接導致有效規劃視界的適應。 總之,這篇論文的重點是通過超越狀態抽象的知識表示來橋接狀態和行動,并共同考慮行為(動作),朝著使持續RL代理能力成為目標。這篇論文提出了學習專業化時間抽象表示的新方法,將學習植根于直觀的可供性理論,并學習具有不斷增長的視界的規劃以實現持續適應。
為了發展廣泛的智能行為,這項工作的中心假設是,橋接狀態和行動對于表示知識、利用它進行規劃并能夠隨時間適應環境變化至關重要。在這篇論文中,我們展示了如何通過選擇性注意在原始行為和時間上抽象的行為的表示中橋接狀態和行動,以快速適應非平穩性,并引入了表示世界動態的新方法,以促進更快的規劃和更好的泛化。最后,我們探索在線學習設置中的規劃,以顯示元學習一個世界模型可以進一步改進理論和實證結果,導致能夠規劃越來越長視界的代理。圖1.1提供了本論文的概述。
如今,語言的人工神經網絡模型主要以提供強大的AI技術支撐而被人們所熟知和贊賞。這篇論文采取了不同的視角。通過一系列關于語言理解和產出的研究,它探討了人工神經網絡——除了在無數AI應用中發揮作用外——是否能作為準確的計算模擬人類語言使用的工具,從而成為語言科學的新核心方法論。 人類使用諸如言語、手勢和身體動作等行為來在彼此之間傳遞信息。他們使用語言行為來傳達知識、計劃、情感、價值觀等,更廣泛地說,是為了在世界中實現目標,即改變他們所處環境的狀態。例如,人類使用語言來更新其他人的信念、協調他們的活動,并共同完成任務。對我來說,能夠描述人類如何學習和運用這種能力是科學探究最令人興奮的目標。
指導我的研究的終極動機——其中很大一部分,截至今天,已在這篇論文中描述——是逆向工程人類通過語言行為交換信息的能力。我相信,實現這一目標將與創建一個能像人類一樣使用語言并作為語言使用的計算理論模型的創造相一致。這一研究領域的見解和朝這一理想模型的進步——一個可控但完全自主的、在情境中基礎的語言代理——將為更忠實地再現人類語言行為的語言技術的發展提供信息和刺激。 走向這個目標的道路漫長,而博士生的生活太短暫,無法走完。但我可以滿懷喜悅地說,現在我有了一張地圖和大致的路線。回顧過去和展望未來,這對我來說是我博士學習最令人興奮和寶貴的成果。不管怎樣,成為并作為一名科學家是一種服務形式,而我所服務的社群,無論是廣泛定義的還是更狹隘的界定,完全對我的內在斗爭、緊張和學習成果漠不關心——這也是合理的。地圖可能不完美,路線當然是暫時的,我所邁出的步伐有時搖搖晃晃,但它們是我對“社群”的貢獻,我將在這篇論文中自豪地概述它們。我希望能回顧這些頁面時,看到一個更精細的路線,更多的步數,以及相同的成就感。
最近的努力已經將大型語言模型(LLMs)與外部資源(例如,互聯網)或內部控制流(例如,提示鏈接)結合起來,用于需要定位或推理的任務。然而,這些努力大都是零散的,缺乏構建一個完整的語言智能體的系統框架。為了應對這一挑戰,我們借鑒了符號人工智能中智能體設計的豐富歷史,為新一波的認知語言智能體開發了一個藍圖。我們首先展示LLMs具有與生產系統相同的許多屬性,而最近為改進其定位或推理所做的努力反映了圍繞生產系統構建的認知架構的發展。接著,我們提出了“語言智能體的認知架構”(CoALA) ,這是一個概念框架,用于系統化地將基于LLM的推理、定位、學習和決策作為框架中語言智能體的實例化方法。最后,我們使用CoALA框架來突出顯示缺口,并提出實際的方向,以便在未來培養更有能力的語言智能體。
知識圖譜嵌入是監督學習模型,學習帶標簽、有向多圖的節點和邊的向量表示。我們描述了它們的設計原理,并解釋了為什么它們在圖表示學習和更廣泛的NLP社區中受到越來越多的關注。我們強調了它們的局限性、開放的研究方向和真實世界的用例。除了理論概述之外,我們還提供了一個handson會議,在那里我們展示了如何在實踐中使用這些模型。
強化學習(RL)為數據驅動決策提供了一個通用框架。然而,正是這種通用性使得這種方法適用于廣泛的問題,也導致了眾所周知的效率低下。在這篇論文中,我們考慮了有趣的決策類所共有的不同屬性,這些屬性可以用來設計計算效率和數據效率都很高的學習算法。具體來說,這項工作研究了決策問題的各個方面的低秩結構和經典確定性規劃的效果稀疏性,以及基于端到端模型的方法所依賴的性能。我們首先展示了后繼表示中的低秩結構如何使高效在線學習算法的設計成為可能。類似地,我們展示了如何在Bellman算子中找到相同的結構,我們使用Bellman算子來制定最小二乘時間差分學習算法的有效變體。我們進一步探索狀態特征中的低秩結構,以學習完全允許在低維空間中進行高效規劃的有效轉換模型。然后,我們進一步了解基于模型的端到端方法,以便更好地理解它們的屬性。我們通過約束優化和隱式微分的視角來研究這類方法。通過隱式視角,我們得到了這些方法的屬性,這些屬性使我們能夠確定它們執行良好的條件。在本文的最后,探索了如何利用經典規劃問題的效果的稀疏性來定義一般的領域無關啟發式方法,通過使用基于潛在的獎勵塑造和提升函數近似,可以用來大大加快領域相關啟發式方法的學習。
//dspace.mit.edu/handle/1721.1/144562
這篇論文表明,通過神經符號模型的視角來看待智能系統比傳統的深度學習方法有幾個好處。神經符號模型包含符號程序性構造,如循環、條件和連續的神經成分。符號部分使模型具有可解釋性、泛化性和穩健性,而神經部分處理智能系統的復雜性。具體而言,本文提出了兩類神經符號模型——狀態機和神經符號transformers,并以基于強化學習的自主系統和多機器人系統為例對它們進行了評估。這些案例研究表明,學習的神經符號模型是人類可讀的,可以外推到看不見的場景,并可以處理規范中的穩健目標。為了有效地學習這些神經符號模型,我們引入了利用機器學習和程序合成的最新技術的神經符號學習算法。
//dspace.mit.edu/handle/1721.1/143249
近年來,我們已經看到了預訓練神經網絡來學習可遷移到視覺和NLP中看不見的下游任務的表征的巨大好處。然而,這種學習范式在諸如設計優化或控制等決策方面的研究還不多。在這篇論文中,我們概述了兩個問題設置,可以受益于在決策制定的背景下的預訓練。首先,我們描述了一個用于自動化設計優化的設置,特別是電路設計優化,在該設置中,特定領域的先驗數據可以有效地提高基于模型的優化方法的樣本效率。本文對如何提高基于模型的進化算法和貝葉斯優化方法的樣本效率提出了新的思路,并進行了實證和理論分析。在第二個問題設置中,我們將討論如何從大型任務無關數據集中利用無監督的預訓練來提取行為表征,并進行少量的模仿學習。我們發現,當新任務的例子演示稀缺時,預訓練agent提取技能是使他們準備進行少樣本模仿的一個實用方向。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-35.html