這篇博士論文解決了大型語言模型(LLMs)的兩個重要挑戰:魯棒性和可擴展性。首先,我們通過學習代碼表示的視角來提高大型語言模型的魯棒性。我在這里強調我們在ContraCode上的工作,該模型學習了對保留標簽編輯具有魯棒性的代碼表示。其次,我們從系統角度解決可擴展性挑戰。我們提出了Checkmate,這是一個通過最優再物化超越GPU內存容量限制來支持模型訓練的系統。此外,Skyplane,一種優化云對象存儲之間大批量數據傳輸的系統,使得在云端訓練更大的預訓練數據集成為可能。總的來說,這些貢獻為提高大型語言模型的魯棒性和可擴展性提供了一條路徑。
在1945年,Vannevar Bush設想出了一種名為memex的假想設備,該設備能夠存儲和索引人類的所有知識,使用戶能夠通過"全新形式的百科全書"查詢和導航知識。盡管Bush設想的memex是一種基于機械微膠片的設備,但他的遠見遠超出了該設備的物理形態。他預見了深度語言理解、知識存儲和推理系統的發展。大型語言模型(LLMs)通過學習可以查詢和推理的語言表示,已經朝這個方向取得了重大進展。不同于以往的語言模型,這些神經網絡在大量數據上進行訓練,以預測單詞并理解語言。他們在某些基準測試上達到了人類水平的表現,但也面臨著限制其廣泛部署的重大挑戰。具體來說,大型語言模型在兩個維度上面臨重要難關:魯棒性和可擴展性。大型語言模型的魯棒性是一個多面的挑戰。雖然大型語言模型在理解和生成文本方面取得了顯著進步,但他們仍然在處理幻覺、對輸入擾動的敏感性和組合泛化上存在困難。另一方面,可擴展性是一個關于規模和計算資源的挑戰。對于大型語言模型,交叉熵損失隨著模型規模、數據集規模和用于訓練的計算量的增加而呈冪律增長。在這篇博士論文中,我為持續改進大型語言模型的魯棒性和可擴展性做出了貢獻。
第二章:增強大型語言模型的魯棒性
在第二章中,我們研究了提高大型語言模型魯棒性的策略。這個討論的一個核心問題是語言建模目標是否會導致學習魯棒的語義表示,或者僅僅是基于局部上下文預測標記。為了回答這個問題,我們轉向源代碼的情境,其中程序的語義是由其執行定義的。我們探索了對比預訓練任務ContraCode,它學習代碼的功能而不是形式。ContraCode預訓練一個神經網絡,區分功能上類似的程序變體與眾多非等效的干擾項。這種策略在JavaScript總結和TypeScript類型推斷精度上顯示出改善。我們還介紹了一個新的零射擊JavaScript代碼克隆檢測數據集,結果表明與其他方法相比,ContraCode更具魯棒性和語義意義。
第三章:解決大型語言模型的可擴展性挑戰
在第三章中,我們開始解決大型語言模型的可擴展性挑戰,首先考察了在訓練大型模型過程中出現的"內存壁"問題。在這里,我們介紹了Checkmate,一個在DNN訓練中優化計算時間和內存需求之間權衡的系統。Checkmate解決了張量重制化優化問題,這是先前檢查點策略的一種推廣。它使用現成的MILP求解器確定最優的重制化計劃,并加速了數百萬次的訓練迭代。該系統可以擴展到復雜、現實的架構,并且是硬件感知的,使用基于特定加速器的配置文件成本模型。Checkmate使得能夠訓練實際網絡,其輸入最大可達5.1倍。
第四章:大型預訓練數據集的管理
在第四章中,我們探討了大型預訓練數據集的管理,這也是可擴展性挑戰的另一個方面。具體而言,我們研究了如何在云端目標之間收集和移動這些數據集。我們介紹了Skyplane,一個使用云感知網絡覆蓋來進行云對象存儲間批量數據傳輸的系統。它使用混合整數線性規劃來確定數據傳輸的最優覆蓋路徑和資源分配,從而優化價格和性能的平衡。Skyplane在單一云中的傳輸性能比公共云傳輸服務高出4.6倍,跨云傳輸性能高出5.0
隨著機器學習系統被部署到現實世界中的安全關鍵應用中,確保這些系統的魯棒性和可信度變得越來越重要。當深度神經網絡脆弱的本質被發現時,機器學習魯棒性的研究引起了大量的關注。對這種行為的迷戀和擔憂導致了對對抗魯棒性的大量研究,這種研究考察的是模型在最壞情況下的擾動輸入(即對抗性樣本)上的性能。在這篇論文的第一章中,我們展示了對抗性訓練方法在開發經驗魯棒深度網絡方面的改進。首先,我們顯示,通過某些修改,使用快速梯度符號方法的對抗性訓練可以產生比以前認為可能的更魯棒的模型,同時保持相比于其他對抗性訓練方法的更低的訓練成本。然后,我們討論我們在對抗性訓練過程中發現的過擬合的有害影響,并顯示,通過使用基于驗證的早期停止,可以極大地提高對抗性訓練模型的魯棒測試性能。對更自然、非對抗性魯棒性設置的日益關注已經導致研究者們以模型在隨機采樣輸入腐敗的平均性能來衡量魯棒性,這也是標準數據增強策略的基礎。在這篇論文的第二章中,我們將平均和最壞情況下的魯棒性的看似獨立的概念,在一個統一的框架下進行概括,這使我們能夠在廣泛的魯棒性水平上評估模型。對于實際使用,我們介紹了一種基于路徑采樣的方法,用于精確地近似這種中間魯棒性目標。我們使用這個度量來分析并比較深度網絡在零射擊和微調設置中,以更好地理解大規模預訓練和微調對魯棒性的影響。我們表明,我們也可以使用這個目標來訓練模型到中間級別的魯棒性,并進一步探索更有效的訓練方法,以彌補平均和最壞情況下的魯棒性之間的差距。
基礎模型正在迅速從實驗室起源轉向現實世界的部署和使用。在這篇論文中,我討論了兩個相互關聯的研究線,它們致力于彌合這個鴻溝,以便基礎模型能夠在現實世界的環境中,如工程、醫學或科學等領域中,得到有效的應用。第一種研究是使模型更加領域無關:盡管訓練基礎模型的技術是為語言和視覺領域開發的,但我們證明了簡單的技術可以將這些方法推廣到至少十二個不同的領域。第二個研究是使模型在任務模糊性的情況下更有用,也就是說用戶希望完成的任務可能模糊或未完全明確,這在現實世界環境中往往是常態。在這里,我們展示了如何衡量和提高基礎模型在任務模糊性下的性能,并探索了模型本身如何幫助澄清用戶意圖的過程。我們在討論未來的方向和更廣闊的挑戰及機遇前景時結束。
通用機器學習模型已經到來。盡管它們常常不完美、不可靠、不值得信賴或存在偏見,但現在存在的機器學習模型能夠通過自然語言或圖像示例快速學習一系列新任務。使用這些模型的一般公式有兩個步驟。首先,對模型進行大量廣泛的數據訓練,如從互聯網上策略性地抓取的圖像或文本,然后將其適應于所需的任務,例如,通過一組輸入輸出示例的自然語言指令。對于這種范例,已經創造了基礎模型這個術語,因為第一階段的訓練產生了一個模型,可以作為這些許多下游用例的集中基礎[Bommasani等人,2021]。
支撐這些模型的進步源自于各大研究實驗室的廣泛進展——太多以至于無法一一列舉。一些重要的例子包括構建和策劃大規模數據集(例如,C4 [Raffel et al., 2020],ImageNet [Deng et al., 2009a]),為評估模型構建下游任務和基準測試(例如,GLUE [Wang et al., 2018a],SQuAD [Rajpurkar et al., 2016],ImageNet [Deng et al., 2009a]),為專用機器學習加速器開發硬件和軟件堆棧(例如,CUDA [Catanzaro et al., 2008, Garland et al., 2008],AlexNet [Krizhevsky, 2009a],TPUs [Jouppi et al., 2017]),訓練神經網絡的編程抽象(例如,Torch [Collobert et al., 2011],Theano [Team et al., 2016],TensorFlow [Abadi et al., 2016],PyTorch [Paszke et al., 2019],JAX [Frostig et al., 2018]),可擴展的機器學習架構(例如,ResNets [He et al., 2016],Transformers [Vaswani et al., 2017b]),優化器和分布式訓練的改進(例如,Adam [Kingma and Ba, 2014],Megatron [Shoeybi et al., 2019]),當然還有大規模無監督預訓練和遷移學習(例如,BERT [Devlin et al., 2018],GPT-3 [Brown et al., 2020])。
問題回答(QA)在自然語言處理(NLP)中是一個非常具有挑戰性的任務,因為它需要理解問題,找到與問題相關的信息,并執行各種推理步驟以預測答案。人們每天提出的問題與許多類型的推理相關。在這篇論文中,我們討論了在問題回答(QA)中處理具有挑戰性的推理任務的幾種方法。在問題回答(QA)中常見的推理任務包括單跳和多跳關系跟蹤、交集和并集、否定和約束驗證。在論文的第一部分,我們使用結構化或半結構化查詢研究了在符號知識庫(KBs)上的這些推理任務。我們首先提出了一種用于符號空間推理的神經查詢語言,然后討論了將其擴展到嵌入空間以實現更好泛化的可能性。由于符號KBs通常不完整,我們還提出了一種從文本構建虛擬KBs(VKBs)的方法,該方法支持大多數作為符號KBs的推理任務。由于大多數NLP系統都是基于語言模型(LMs)構建的,所以在論文的下一部分,我們提出了將推理方法整合到語言模型(LMs)中的方法,以提高LMs在執行更具挑戰性的QA任務的推理步驟的能力。整合改進了LMs對事實知識的忠實性,也使得可以更新LMs學習的知識,以進行無需任何額外訓練或微調的更新預測。這些提出的方法適用于符號KBs和虛擬KBs。然而,前面討論的推理任務主要關注精確定義的問題,即存在單一正確答案的問題。
在論文的最后一部分,我們研究了帶有模糊問題的QA任務,即從問題中缺少重要信息,根據問題的解釋可能有多個答案。我們為這個任務開發了一個新的數據集,并展示了它對當前的QA系統的挑戰。我們為新的數據集提出了改進的方法,該方法根據對回答問題的文檔的分析,確定哪些條件可以消除問題的歧義。最后,我們考慮了這個任務的“開放”版本,即未提供答案文檔。
構建理解自然語言的智能系統是自然語言處理(NLP)社區長期以來的目標。自然語言在日常生活中被用于交流和儲存關于世界的知識。然而,由于詞匯和語法的多樣性以及自然語言中豐富的語義信息,開發理解自然語言的機器學習技術是具有挑戰性的。完全理解自然語言可能還需要對文檔的語義進行推理,或者對文檔的問題進行推理。我們專注于NLP中的知識密集型任務,如信息檢索(IR)和問題回答(QA),這些任務需要理解關于世界的事實知識。知識密集型任務測試NLP系統從大量知識中找到相關信息并據此進行預測的能力。例如,可以從維基百科的一段文字中找到“CMU的位置”的答案,例如“卡內基梅隆大學(CMU)是位于賓夕法尼亞州匹茲堡的一所私立研究型大學”。一些其他的查詢可能需要多于一份的信息,例如“CMU附近的科技公司”,這需要首先找到CMU的位置,然后在同一個城市找到公司,再通過“科技”公司的限制進行篩選。我們將理解查詢的意圖,定位相關信息,并聚合多份信息來預測答案的能力稱為“推理”。在知識密集型NLP任務中涉及到各種類型的推理程序。
在這篇論文中,我們考慮了在問題回答(QA)任務中常見的幾種推理類型: 1. 關系追蹤。關系追蹤,如“CMU的部門”,是QA中最常見的問題類型。它從一個主題實體x開始,如“CMU”,然后跟蹤一個關系r,如“有部門”,以找到答案。我們可以用一階邏輯來寫關系追蹤問題,如Y = {y | has department(CMU, y)},其中has department(·, ·)是一個謂詞,關系為“X的部門”和“CMU”是主題實體。Y是那些可以用提供或檢索的信息來驗證has department(CMU, y)的答案y的集合,如Y = {MLD, LTI, CSD, . . . }。 1. 多跳關系追蹤。如果問題需要多于一步的推理,關系追蹤可以被鏈接。例如,“CMU的部門授予的學位”需要找到CMU的學術部門,然后找到這些部門授予的學位,即Y = {y | ? z, has department(CMU, z) ∧ degree(z, y)},其中最終答案y ∈ Y取決于中間輸出z。 1. 交集和并集。另外兩種常見的推理類型是交集和并集,例如“有CMU或UPitt校區的城市”。為了回答這個問題,我們聯合了CMU的位置和UPitt的位置,即Y = {y | locate(CMU, y) ∨ locate(UPitt, y)}。 1. 約束。有些問題需要滿足一些指定約束的答案,例如“有CMU校區提供金融學位的城市”。我們通過約束過濾位置集合,即Y = {y | locate(CMU, y) ∧ filter(y, “finance degrees”)}。 1. 歸納推理。在歸納中,推理過程是根據一些預先確定的規則對一組觀察結果進行解釋。解釋只得到了觀察結果的部分支持,因此,它做出了一些假設。我們考慮在回答模糊問題的情境中的歸納推理任務,其中問題提供的信息(有時與提問的場景配對)被視為觀察。由于問題是模糊的,即回答問題的重要信息缺失,規則只被部分滿足。因此,可能有多個答案,有些答案在某些條件下才是正確的。我們說,給定提供的信息,可能的答案和它們的條件的組合是解釋。
回答模糊問題的任務是找到一組關于用戶意圖的合理假設,以解決歧義,即如果將假設作為約束添加到問題中,問題將有唯一的答案。例如,如果我們假設“校園”意味著“主校園”,那么“CMU的校園”這個問題的答案就是“匹茲堡”。
我們在實踐中部署高性能神經網絡時面臨許多挑戰。這些挑戰主要是由于神經網絡的規模,既適用于訓練也適用于推理。因此,壓縮神經網絡以使其訓練和運行更高效至關重要,并自神經網絡發展初期以來一直是研究的平行方向。深度學習中的兩種主要壓縮技術是剪枝和量化,它們是本論文的重點。本論文探討了如何利用高階梯度(元梯度)的信息來改進深度學習壓縮。我們首先發現剪枝公式中的一個根本性限制:盡管許多方法(如基于顯著性的剪枝)在剪枝后進行訓練或微調階段,但參數顯著性只關注參數的一個快照,而沒有考慮到參數的可訓練性。我們展示了如何使用元梯度作為更具信息量的信號,在初始化時找到更好的可訓練子網絡。接下來,我們研究量化神經網絡,并展示了如何在正則化方案中使用元梯度來學習具有對訓練后量化固有魯棒性的模型。最后,我們研究雙重壓縮問題,即使用神經網絡壓縮數據源。我們從圖像開始,提出了一種簡單的無自編碼器架構,其中我們存儲神經網絡的權重而非圖像像素的RGB值。然后,我們使用元梯度來元學習一個基礎網絡,以攤銷每個輸入訓練一個網絡的成本。我們學習壓縮的一個顯著優勢是它變得對數據類型不可知,并且我們展示了在2D圖像之外的各種數據類型上的結果。重要的是,我們評估了標準DNN壓縮技術(如量化)在這種新型神經網絡中的實用性。
1. 引言
近年來,深度學習的成功是由于幾個幾乎同時發生的突破和范式轉變而成為可能:訓練中采用反向傳播,卷積神經網絡的進步,大規模數據集的可用性,至關重要的是,由于GPU演變為通用、高度并行、多線程的計算平臺,計算能力的大幅提高。隨著算法和計算能力的不斷進步,訓練可以利用大量數據并在廣泛應用中做出非常有價值的預測的大型神經網絡現在已經是我們力所能及的事情。
然而,隨著我們進入一個希望在生活中越來越多的方面使用高性能神經網絡的時代,在實踐中部署它們面臨許多挑戰。這些挑戰主要是由于神經網絡的規模。現在,神經網絡很容易擁有數百萬或數十億個參數,并且沒有跡象表明我們的速度正在放緩,特別是在一些應用程序,如自然語言處理,我們還沒有看到縮放定律的結束。這可以在圖1.1中看到,它顯示了在兩個特定的視覺和自然語言處理任務中模型大小和性能的趨勢。 神經網絡的規模帶來的挑戰適用于訓練和推理。在推理方面,人們越來越希望在設備上私下運行模型。一些示例應用程序是語音到文本識別和自動字幕,其中模型必須在設備上實時運行。需要運行此類應用程序的設備通常是手機、嵌入式系統和物聯網設備,這些正是在內存、計算、延遲和能耗方面具有最嚴格要求的平臺類型。 除了推理之外,訓練也會受到神經網絡和數據集規模較大的阻礙。首先,與推理相比,訓練需要更多的內存。這是因為在訓練過程中,我們需要保留網絡生成的中間值,以便完成反向傳播。這也使得并行化變得困難,因為我們無法進行新的前向傳遞,直到梯度找到它們自己的路回到第一層。其次,訓練大型神經網絡比較小的模型更脆弱和不穩定。Zhang et al.(2022)最近發布了一個1750億參數的語言模型,除了模型參數,他們還包括訓練日志,這表明訓練如此大的模型涉及大量的工程。我們將在后續章節中看到,這對需要重新培訓或針對特定平臺的高效方法具有深遠影響。
因此,壓縮神經網絡以使其更有效地訓練和運行是至關重要的,自神經網絡發展早期以來一直是一個平行的研究方向(LeCun等人,1990a;Hassibi等人,1993b)。在介紹各種用于提高神經網絡效率的方法之前,有必要快速回顧一下在這個過程中我們關心的主要指標(Reagen等人,2017;Sze等人,2020):
準確性或模型性能。這個指標決定了我們在不影響模型性能的情況下提高模型效率的成功程度。準確率對于類平衡分類任務來說是一個合適的度量指標,本文中的大多數實驗都是這樣的,在其他任務中,準確率可以用其他指標來代替,以提高模型的性能。
能耗和動力。能耗指的是每單位能量可以處理的數據量,在使用電池供電的設備上運行時,能耗變得至關重要。它是決定裝置形狀因素的一個主要因素。另一方面,功率消耗是單位時間內消耗的能量,它決定了設備的冷卻要求。它與移動設備和服務器安裝都相關。
存儲和內存。需要更多的存儲和內存是神經網絡規模帶來的第一個挑戰。它是決定模型所需硅芯片面積的一個主要因素。
吞吐量和延遲;除了存儲權重和中間值之外,我們還需要足夠快地移動數據。延遲衡量的是這個要求,定義為從輸入數據到達模型到輸出結果的時間。它決定了模型是否可以實時運行,這在許多應用中至關重要,如機器人,自動駕駛和游戲。
要使神經網絡對這些指標有效,需要在每個堆棧級別進行優化。棧的一端是用于訓練和運行模型的硬件平臺。半導體制造工藝的不斷進步導致了更密集的晶體管,從而產生了更強大和更節能的芯片,但深度學習工作負載尤其影響了CPU和GPU的硬件設計,并產生了專門針對神經網絡的定制加速器。
本文的主要貢獻是研究了元梯度在各種壓縮任務中的應用。本文主要關注視覺應用中的神經網絡,并解決以下中心問題: 高階梯度的信息可以通過量化和修剪來改進深度神經網絡的壓縮嗎? 除了研究神經網絡的壓縮外,我們還研究了對偶壓縮問題,即用神經網絡壓縮數據,并解決以下問題:神經網絡的參數可以用于存儲和壓縮數據嗎?如果是,量化和剪枝技術是否仍然適用于此設置?
除了提供必要背景材料的第2章和總結工作的第6章外,本文的主要材料分為三章(如圖1.2所示),每一章都專注于一個壓縮任務。
**近年來,隨著用戶生成的多模態數據的爆炸式增長,學習多模態表示已經使許多新穎的視覺語言應用成為可能。**雖然全球大約有6500種語言,但大多數視覺語言模型及其數據集都是基于英語的。不幸的是,這種限制阻礙了當前的模型造福于更廣泛的非英語社區。因此,開發基于英語的視覺語言模型泛化到非英語語言的方法是迫切而有益的。我的論文工作在這一挑戰的多個方面取得了進展,通過探索學習多語言多模態表示的新興趨勢,促進了對各種語言的圖像、視頻和文本等異構內容的建模和推理。在本文的第一部分中,我指出了現有英語圖像表示學習的局限性,為廣義多語言多模態表示學習鋪平了道路。雖然之前的工作主要是將整個圖像與相應的英文標題相關聯,但我認為這種對應應該更加精細,甚至是多語言的。結果表明,基于注意力和面向對象的多語言多模態表示學習方法可以有效地改進跨模態搜索和多模態機器翻譯等終端任務。**本文的第二部分研究了視覺-語言模型的跨語言泛化。本文解決了大規模任務無關的多語言多模態預訓練中的可擴展性挑戰,以及在對最終任務進行微調時缺乏注釋的挑戰。**為了用有噪聲的百萬規模的未經整理的教學視頻及其各種語言的轉錄進行學習,我分析了多模態自監督學習中理想的支持集大小,并提出了一個重建目標來緩解這種瓶頸。此外,我探索了多語言多模態預訓練并構建了Multi-HowTo100M數據集,該數據集由1.2億個視頻片段及其在9種語言中的轉錄組成,以改善視覺-語言模型的零樣本跨語言遷移。最后,在特定任務的微調中,利用自動視覺語義來學習稀疏的英語視覺注釋。當非英語標注稀缺或不可用時,本文研究了視覺旋轉監督和無監督多模態機器翻譯,將英語視覺數據翻譯為非英語視覺數據,以進行多語言多模態微調。本文的工作為增強視覺-語言模型的跨語言泛化能力帶來了顯著的突破。我相信所提出的方法和釋放的資源將是邁向多語言視覺-語言模型的關鍵一步。
**深度神經網絡(dnn)在人工智能(AI)的廣泛應用中蓬勃發展。深度神經網絡的普遍采用可以歸因于其對不同任務的高度可定制性。**事實上,研究人員已經為不同的應用設計了DNNs的變種,例如,用于視覺識別的卷積神經網絡(CNNs)、用于圖像合成的生成對抗網絡(GANs)、用于時間序列處理的循環神經網絡(RNNs)等。所有這些變體都具有高度不同的網絡拓撲和訓練目標。
//dataspace.princeton.edu/handle/88435/dsp01zk51vm00t
盡管DNNs取得了成功,但人們越來越關注DNNs的效率。當前的DNN資源匱乏,為它們在資源有限的邊緣設備上部署設置了困難的障礙。然而,深度神經網絡應用的廣泛性增加了發現高效的不同變體深度神經網絡的難度。由于這種關鍵的多樣性,很難產生一種通用方法來獲得高效的DNN,并在不同的應用程序中具有令人滿意的性能。
本文通過一個簡單而直觀而有效的概念,解決了不同領域的深度神經網絡高效設計的挑戰:深度神經網絡本身是為不同的學習目標定制的,提高其效率的方法也應該是定制的。有了這個概念,本文提出設計高效CNN、GANs和RNN的方法。本文首先提出了一種CNN壓縮算法——類判別壓縮(CDC),與CNN的類判別訓練目標無縫契合,并在不損失精度的情況下為ImageNet上的ResNet50提供了1.8倍的加速。對CNN壓縮的通道剪枝進行了深入研究。在分類精度目標的驅動下,本文提出一種進化框架,以自動發現優于手動設計的可遷移剪枝函數。本文進一步研究了GAN圖像合成的另一種應用。GAN被訓練成合成真實的內容,從而提出了一種內容感知的GAN壓縮方法,將最先進的模型加速了11倍,而圖像質量損失可以忽略不計。最后,我們將研究擴展到系統設計領域,我們的目標是通過構建高效的RNN數據預取器來緩解內存墻。本文提出一種多架構協同設計策略,將最先進的神經預取器速度提高15倍,性能甚至更好。
在許多現實世界的應用中,多主體決策是一個普遍存在的問題,如自動駕駛、多人視頻游戲和機器人團隊運動。多智能體學習的主要挑戰包括其他智能體行為的不確定性,以及由聯合觀察、行動和策略空間的高維性導致的維數災難。由于未知的智能體意圖和意外的、可能的對抗性行為,這些挑戰在對抗性場景中進一步加劇。本文提出了魯棒和可擴展的多智能體學習方法,目標是高效地構建可以在對抗性場景中魯棒運行的自主智能體。通過觀察智能體的行為準確推斷其意圖的能力是魯棒決策的關鍵。在這種情況下,一個挑戰是對手實際行為的高度不確定性,包括潛在的欺騙,這可能與先驗行為模型有很大的不同。捕捉自我主體和對手之間的交互以及對雙方主體可用信息的推理,對于建模這種欺騙行為至關重要。本文采用博弈論對手建模方法解決了這一意圖識別問題,該方法基于一種新的多樣性驅動的信念空間集合訓練技術,用于實現對欺騙的魯棒性**。為了將集成方法擴展到具有多個智能體的場景,本文提出了一種可擴展的多智能體學習技術,該技術通過稀疏注意力機制促進了接近最優的聯合策略學習。該機制的結果是集中的參數更新,這大大提高了采樣效率**。此外,本文還提出了一種新的隱式集成訓練方法,該方法利用多任務學習和深度生成策略分布,以較低的計算和內存成本獲得更好的魯棒性。將魯棒的意圖識別和可擴展的多智能體學習結合起來,可以實現魯棒的、可擴展的離線策略學習。然而,完全自主的智能體還需要能夠不斷地從新的環境和對等智能體中學習(并適應)。因此,本文還提出了一種安全的適應方法,既能適應新的對手,又能在對抗場景中對任何可能的對手剝削保持低可利用性。本文的貢獻有助于構建自主代理,使其能夠在具有不確定性的競爭多智能體場景下做出魯棒的決策,并通過計算效率學習安全地適應以前未見的對等智能體。
作者Jacob Andreas是自然語言處理的研究者,研究興趣為用語言作為更有效學習的支架和理解模型行為的探針,以及結合深度表示和離散組合性優點的結構化神經方法。近期公開發布了他的博士論文。
博士論文介紹:
本文探討了語言結構在結構和參數化中用于語言處理和其他應用的機器學習模型的方法。作者將該模型應用于問答系統,指令跟蹤,圖像分類等多種任務。
作者首先介紹一類稱為神經模塊網絡(NMN)的模型,并介紹它們在自然語言問答中的應用。NMN旨在實現同時利用深層網絡的表征能力和構成問題的語言結構。我們的方法將問題分解為語言子結構,并使用這些子結構動態地從可重復使用的模塊庫構建網絡。由此產生的復合網絡是共同訓練的。作者并在含有圖像和結構化知識庫的問答數據集上的方法評估模型。隨后,作者將這種思想轉移到策略學習中,研究在面對不同但相似的問題時,怎么組合策略。