機器學習在過去十年取得了重大進展。其最成功的范式是深度神經網絡,由連續表示層組成,其參數通過梯度下降在大規模數據集上進行優化。
深度神經網絡在許多任務上取得了卓越的性能,如物體識別、語言理解和自動駕駛。然而,他們仍然在推理任務中掙扎,這些任務通常需要操作符號并將多個步驟組合起來,例如,求解數學方程或編寫計算機程序。在這篇論文中,我們的目標是彌合這一差距,并教機器以精確、系統、可解釋和魯棒的方式進行推理,以應對現實環境中的模糊性。**本文采用神經符號方法,結合機器學習和符號推理的互補優勢。符號推理具有精確性和系統性。**但它已被限制在可嚴格形式化的領域。相比之下,主要的機器學習方法很靈活,但眾所周知難以解釋,需要大量數據,并且無法在訓練分布之外進行泛化。集成兩種方法的優勢對于構建具有精確和系統泛化能力的靈活推理機至關重要。具體而言,本文從兩個角度研究了神經符號推理。首先,將機器學習應用于與符號推理相關的任務,如自動定理證明(第2章)。其次,將符號推理啟發的歸納偏差引入機器學習模型,以提高其可解釋性、泛化性和數據效率(第3章和第4章)。結果強調了(1)神經符號模型架構,(2)在適當的抽象水平上進行推理,以及(3)明確的、推理的組合表示,如符號證明。 //dataspace.princeton.edu/handle/88435/dsp015q47rr958
//dataspace.princeton.edu/handle/88435/dsp01v979v6238 強化學習在過去幾年里獲得了極大的興趣,主要是由于實際成功和在各個領域的新應用。然而,我們對這些強化學習技術的理論理解與其經驗上的成功之間仍然存在差距。本文從主要的理論角度研究強化學習,并為1)帶約束的強化學習和2)帶函數逼近的強化學習這兩個具有挑戰性的情況設計了可證明有效的算法,從而加深了我們的理解。 1)在標準強化學習中,學習智能體尋求優化整體獎勵。然而,期望行為的許多關鍵方面更自然地表示為約束。提出了一種算法方案,可以處理具有一般凸約束的強化學習任務,改進了之前局限于線性約束或缺乏理論保證的工作。其次,專注于樣本高效的探索,開發了第一個可證明有效的表格式偶發約束強化學習算法,具有處理凸約束和背包設置的能力。最后,在無獎勵強化學習最新進展的激勵下,本文提出了一種簡單的元算法,在給定任何無獎勵強化學習oracle的情況下,約束強化學習問題可以直接解決,而樣本復雜度的開銷可以忽略不計。 2)尋找能夠支持樣本高效學習的最小結構假設是強化學習最重要的研究方向之一。本文通過引入一種新的復雜性度量——bellman Eluder (BE)維度,推進了對這一基本問題的理解。低BE維的強化學習問題家族非常豐富,包含了絕大多數現有的可處理的強化學習問題。本文進一步設計了一個新的基于優化的算法——GOLF,并針對幾個著名的低BE維問題子類提供了匹配或改進現有最佳結果的遺憾和樣本復雜度結果。為了實現更具挑戰性的部分可觀察強化學習,研究了部分可觀察馬爾可夫決策過程(POMDPs)的一個新的子類,其潛狀態可以用短長度m的最近歷史來解碼。結果表明,短期記憶對這些環境中的強化學習足夠了。
**近年來,深度學習在許多領域得到了快速發展。這些成功啟發了在安全領域使用深度學習。**然而,當深度學習遇到安全性時,至少有兩個主要挑戰。首先,攻擊數據的可用性是個問題。在有限的攻擊數據下構建一個良好的模型是具有挑戰性的。其次,深度學習系統本身容易受到各種攻擊,這在使用深度學習提高計算機系統安全性時帶來了新的問題。為了解決第一個挑戰,本文展示了如何使用深度學習技術來提高有限或沒有攻擊數據的計算機系統的安全性。為了解決第二個挑戰,我們展示了如何保護深度學習系統的安全性和隱私性。 **具體而言,在本文的第一部分中,我們考慮了一個沒有攻擊數據的實際場景,即異常檢測。**本文提出了一種新的方法——重構誤差分布(RED),用于實時異常檢測。本文的關鍵見解是,計算機系統的正常行為可以通過時間深度學習模型捕獲。偏離正常行為表示異常。實驗表明,所提方法可以在電網控制器系統和通用云計算服務器中實時、高精度地檢測攻擊。論文的第二部分主要研究深度學習的安全與隱私保護問題。在機器學習即服務(MLaaS)系統中,可以通過一種精心設計的輸入,即敏感樣本,動態檢查云中的深度學習模型的完整性。在另一個場景中,例如邊緣-云系統中的分布式學習,我們證明了云中的攻擊者可以在攻擊者能力不斷減弱的情況下高保真地重構邊緣設備的輸入數據。本文還提出了一種新的防御方法來應對這些攻擊。 綜上所述,我們希望本文的工作能為利用深度學習提高安全性提供啟發,并有助于提高深度學習系統的安全性。
為自動駕駛汽車等自動系統設計控制策略是復雜的。為此,研究人員越來越多地使用強化學習(RL)來設計策略。然而,對于安全攸關系統而言,保障其在實際訓練和部署過程中的安全運行是一個尚未解決的問題。此外,當前的強化學習方法需要精確的模擬器(模型)來學習策略,這在現實世界的應用中很少出現這種情況。**本文介紹了一個安全的強化學習框架,提供了安全保證,并開發了一種學習系統動力學的受限學習方法。本文開發了一種安全的強化學習算法,在滿足安全約束的同時優化任務獎勵。在提供基線策略時,考慮安全強化學習問題的一種變體。**基線策略可以產生于演示數據,可以為學習提供有用的線索,但不能保證滿足安全約束。本文提出一種策略優化算法來解決該問題。將一種安全的強化學習算法應用于腿部運動,以展示其在現實世界的適用性。本文提出一種算法,在使機器人遠離不安全狀態的安全恢復策略和優化的學習器策略之間進行切換,以完成任務。進一步利用系統動力學的知識來確定策略的切換。結果表明,我們可以在不摔倒的情況下在現實世界中學習腿部運動技能。重新審視了已知系統動力學的假設,并開發了一種從觀察中進行系統辨識的方法。知道系統的參數可以提高模擬的質量,從而最小化策略的意外行為。最后,雖然safe RL在許多應用中都有很大的前景,但目前的方法需要領域專業知識來指定約束。本文引入了一個新的基準,在自由格式的文本中指定約束。本文開發了一個模型,可以解釋和遵守這種文本約束。我們證明該方法比基線獲得了更高的回報和更少的約束違背。
深度神經網絡與強化學習(RL)的結合在解決其他棘手的學習任務方面顯示出巨大的前景。**然而,深度強化學習的實際演示仍然很少。將深度強化學習用于給定任務的挑戰可以分為兩類,大致上是“從經驗中學習什么?”和“從什么經驗中學習?”在本文中,我描述了解決第二類問題的工作。**具體來說,采樣包含與學習任務相關信息的動作、狀態和軌跡的問題。我從算法設計和任務復雜性的三個層次來研究這個挑戰,從算法組件到打破常見RL慣例的混合組合算法。在第一章中,我描述了穩定高效的動作采樣工作,以優化連續值動作的Q函數。通過將基于樣本的優化器與神經網絡近似相結合,可以獲得訓練、計算效率和精確推理的穩定性。在第二章中,我描述了在獎勵感知探索方面的工作,即發現常見采樣方法不足的理想行為。教師"探索"智能體發現狀態和軌跡,使學生"利用"智能體從這些經驗中學習到的數量最大化,并能使學生智能體解決其他不可能的困難任務。在第三章中,我描述了將強化學習與啟發式搜索相結合的工作,用于遷移模型已知的任務領域,但狀態空間的組合數學對于傳統搜索來說是難以解決的。通過將深度Q學習與最佳優先樹搜索算法相結合,可以用比普通搜索算法或僅使用強化學習更少的樣本來找到程序合成問題的解決方案。最后,總結了這項工作的主要收獲,并討論了強化學習中高效采樣的擴展和未來方向。
//dataspace.princeton.edu/handle/88435/dsp01x346d733f
深度強化學習的最新進展已經證明了其在解決現實問題方面的巨大潛力。然而,有兩個問題阻礙了強化學習的應用:效率和效果。**本文研究如何通過設計基于深度模型的算法來提高強化學習的效率和效果。****對動力學模型的訪問使算法能夠進行規劃,這是順序決策的關鍵。本文主要圍繞在線強化學習、神經網絡在深度強化學習中的表達能力、離線強化學習和安全強化學習四個主題展開研究。**對于在線強化學習,本文提出了一個具有理論保證的算法框架,利用在學習環境中學習到的策略在真實環境中可以獲得的性能下界。通過實驗驗證了所提方法的有效性。對于深度強化學習中神經網絡的表達能力,證明了在某些情況下,基于模型的方法比無模型的方法需要更少的表示能力來近似接近最優的策略,并根據經驗表明,這在模擬機器人環境中可能是一個問題,基于模型的規劃器可以幫助。對于離線強化學習,設計了一種算法,使策略能夠保持在提供的專家演示集附近,以減少分布偏移,還進行了實驗,證明了所提出方法在提高模擬環境中機械臂操縱任務成功率的有效性。對于安全強化學習,提出了一種用學到的動力學模型來證明安全狀態的方法,實驗表明,該方法可以在一組簡單但具有挑戰性的任務中學習一個不錯的策略,沒有一次安全違規,而基線算法有數百次安全違規。 //dataspace.princeton.edu/handle/88435/dsp013197xq26c
強化學習(RL)能夠在不需要學習領域動態模型的情況下求解領域。當與神經網絡作為函數逼近器相結合時,RL系統可以解決復雜問題。然而,由于這些特性,驗證和預測RL智能體的行為變得困難;一個博學的策略傳達的是“做什么”,而不是“為什么”。本文專注于對深度強化學習進行解釋,總結可用于下游分析的行為及其原因。具體來說,我們將重點放在從與環境的有限的已知交互集合中獲得最終策略的設置上。我們將現有的解釋方法分為兩個方向:
1. 方法是解釋單一動作行為還是策略級行為
2. 一種方法是否根據狀態特征或過去的經驗提供解釋
在這種分類下,有四種類型的解釋方法,它們能夠回答關于智能體的不同問題。我們將介紹創建這些類型的解釋的方法。此外,我們引入了一個統一的解釋結構,它是所有四種類型的組合。這種結構能夠獲得關于智能體已經學習到什么以及它為什么這樣做的進一步信息。
首先,我們介紹了CUSTARD,這是我們用狀態特征解釋單一動作行為的方法。CUSTARD的解釋是策略的決策樹表示。與生成這種決策樹的現有方法不同,CUSTARD在訓練后直接學習樹而不近似策略,并且與現有的RL技術兼容。
然后我們介紹了APG-Gen,這是我們根據狀態特征創建策略級行為解釋的方法。APG-Gen在抽象狀態上生成馬爾可夫鏈,從而能夠預測未來的行動和未來狀態的各個方面。APG-Gen只查詢智能體的Q值,對智能體的決策過程不做任何假設。
我們將這兩種方法集成起來,生成統一解釋樹(UET)。UET是一棵從狀態直接映射到操作和抽象狀態的樹,因此在狀態特征方面統一了單個操作和策略級行為解釋。
我們擴展了在深度神經網絡中尋找重要訓練點的現有工作。我們的方法,MRPS,根據過去的經驗來解釋單一動作行為。MRPS可以為點集找到重要值,并考慮特征的大小,從而產生更有意義的重要值。最后,我們找到UET中任何節點的過去經驗集的重要值。此外,我們還介紹了計算UET節點的近似和精確影響的方法。由于UET既傳達單一行為又傳達策略級行為,因此這些重要性和影響值根據過去的經驗解釋了這兩個級別的行為。我們的整體解決方案支持識別UET的部分,如果從智能體使用的集合中刪除或添加特定的經驗,則該部分將發生更改。
這篇論文表明,通過神經符號模型的視角來看待智能系統比傳統的深度學習方法有幾個好處。神經符號模型包含符號程序性構造,如循環、條件和連續的神經成分。符號部分使模型具有可解釋性、泛化性和穩健性,而神經部分處理智能系統的復雜性。具體而言,本文提出了兩類神經符號模型——狀態機和神經符號transformers,并以基于強化學習的自主系統和多機器人系統為例對它們進行了評估。這些案例研究表明,學習的神經符號模型是人類可讀的,可以外推到看不見的場景,并可以處理規范中的穩健目標。為了有效地學習這些神經符號模型,我們引入了利用機器學習和程序合成的最新技術的神經符號學習算法。
//dspace.mit.edu/handle/1721.1/143249
人工智能(AI)的幾個主要創新(如卷積神經網絡,經驗回放)是基于關于大腦的發現。然而,基礎的大腦研究結果花了很多年才首次得到鞏固,并花了更多時間轉移到人工智能上。此外,這些發現是在非人類物種中使用侵入性方法得出的。對于人類特有的大腦功能,如理解復雜的語言,沒有合適的動物可以作為模型生物,因此,機械性的理解離我們更遠。
在這篇論文中,我們提出了一個數據驅動的框架,通過建立人們理解語言的大腦記錄和自然語言處理(NLP)計算機系統之間的直接聯系來規避這些限制。我們提出的證據表明,這種聯系對神經語言學和NLP都有好處。具體來說,這個框架可以利用最近在NLP的神經網絡方面取得的成功,來實現對大腦中依賴上下文和任務的科學發現,并且我們提出了第一個證據,表明對人們閱讀的大腦活動測量可以用來提高一個流行的深度神經網絡語言模型的泛化性能。這些調查還有助于認知建模方面的進展,這些進展可能在語言研究之外還有用。總之,這篇論文涉及多學科的調查,對認知神經科學、神經語言學和自然語言處理做出了貢獻。
人腦是一個了不起的信息處理系統,能夠從少數例子中學習,在學習新的事實和技能的同時保留以前學到的事實和技能,并理解任何長度、任何語言的文本。長期以來,它一直是人工智能(AI)和機器學習(ML)領域的靈感來源。例如,早期視覺系統中細胞感受野和信息處理層次的發現(Hubel等人,1968年)導致了卷積神經網絡的發明(Fukushima等人,1982年),徹底改變了計算機視覺,而發現在海馬體中回放先前的經驗有助于記憶鞏固(McNaughton,1983年)激發了經驗回放的發展(McClelland等人,1992年)(也見(Lin,1992年)),在DeepMind的AlphaGo(Silver等人,2016年)首次戰勝人類圍棋世界冠軍后,它已成為深度強化學習的主力。在這些案例中,關于大腦功能的基本發現花了很多年才首次鞏固,而要轉移到人工智能上則需要更多的時間(例如,視覺系統的發現花了10年才鞏固,而要轉移到人工智能上又需要10年以上)。此外,這些發現是在非人類物種中使用侵入性方法得出的。對于人類特有的大腦功能,如理解復雜的語言,沒有合適的動物可以作為模型生物體,因此,機械性的理解就更遙遠了。
在這篇論文中,我們提出了一個數據驅動的框架,通過在大腦和自然語言處理(NLP)計算機系統之間建立直接聯系來規避這些限制。我們在圖1.1中對這個數據驅動的框架的基礎進行了可視化。我們提出的證據表明,這種數據驅動的連接對神經語言學和NLP都有好處。具體來說,我們表明這個框架可以利用最近在NLP的神經網絡方面取得的成功,來實現對大腦中依賴語境和任務的科學發現,并提出了第一個證據,表明對人們閱讀的大腦活動測量可以用來提高一個流行的深度神經網絡語言模型的泛化性能。
圖1.1: 我們的數據驅動方法的可視化。我們首先將自然文本,如一本書的一章,逐字逐句地呈現給一個人,同時她的大腦活動被大腦成像設備,如fMRI記錄下來。我們將相同的文本作為輸入給自然語言處理(NLP)計算機系統,如BERT(Devlin等人,2018)。接下來,我們從NLP系統的特定中間層提取該文本的表征,我們觀察由同一文本引起的大腦記錄。最后,我們計算這兩個文本表征之間的一致性--一個來自NLP系統,一個來自大腦記錄。大腦記錄和NLP系統之間的一致性是通過學習一個函數f來估計的,該函數預測每個大腦源(如體素、傳感器-時間點等)的活動是NLP系統對所呈現文本的表述函數。這個函數通常被建模為一個線性函數,并使用標準的機器學習技術學習。關于這種方法的更多細節,請參考第三章。
當閱讀 "獎杯不適合放在棕色的手提箱里,因為它太大了 "這個句子時,盡管有一個模棱兩可的代詞 "它",它既可以指獎杯,也可以指手提箱,但我們還是能理解這個句子的意思(Levesque等人,2012)。我們知道所指的是獎杯。如果這個句子是 "獎杯不適合放在棕色的手提箱里,因為它太小了",那么我們就會推斷出所指的是手提箱。大腦是如何處理這些句子并將現實世界的意義賦予它們的?為了解決這個問題,有一些基本的初步問題需要回答,即哪些信息在大腦中的什么地方和什么時候被處理,以了解這些信息是如何在不同的位置和時間點上被聚合的。
利用記錄語言處理過程中人腦活動的神經影像設備,神經科學家在回答 "什么"、"哪里 "和 "什么時候 "的問題上取得了進展。例如,研究人員發現,單個單詞的含義分布在大腦皮層中,但在不同的人中是一致的(Mitchell, Shinkareva等人, 2008; Wehbe, Murphy等人, 2014; Huth, Heer等人, 2016年),一組被稱為 "語言網絡 "的大腦區域支持語言理解(Fedorenko, Hsieh等人, 2010; Fedorenko and ThompsonSchill, 2014),以及一個詞的意思在第一次閱讀后的200到600ms之間被處理(Salmelin, 2007; Skeide等人)。然而,在語言理解過程中,大腦是如何在不同的位置和時間點上匯總信息的,仍然空白。
同時,自然語言處理(NLP)領域創造了一些計算系統,這些系統以特定的方式匯總單詞的含義,以執行特定的語言任務,如預測句子中即將出現的單詞。然而,目前還不清楚這些計算系統是否真正理解句子的含義,以及NLP系統的 "如何 "與大腦的 "如何 "是否相同。在這篇論文中,我們認為,盡管NLP系統與人腦不同,但神經語言學可以從使用NLP系統作為人腦在語言理解過程中如何聚集信息的模型生物中獲益。模型生物體使研究特定的大腦功能更加容易,因為它們允許直接干預,而由于道德或實際原因,在人類身上很難做到這一點。例如,大鼠被用作研究空間表征的神經成分的模型生物,因為它們的探索行為和它們的尺寸,可以在自由行為中進行神經記錄(Yartsev,2017)。但是,是什么讓一個特定的生物體成為特定功能的好模型?我們認為,一個好的模型生物體要滿足三個特性。1)它執行特定的功能,2)它提供了一個比直接在人腦中研究該功能更容易的平臺,以及3)模型生物體中的功能可以與人腦中的類似功能相關。
在這篇論文中,我們提供了證據,證明NLP系統滿足了大腦中語言理解的良好模型生物的第二和第三屬性。第二個屬性可以說是NLP系統對神經語言學最重要的好處--能夠對NLP系統進行具體干預,并觀察這些干預如何影響其與大腦的一致性。就像在動物模型生物體中一樣,研究人員可以在NLP系統中消減現有的信息通路或引入新的信息通路。這些干預措施允許研究人員對NLP系統中包含的信息進行因果推斷,而這在對真實大腦的非侵入性神經科學研究中是不可能的。在這篇論文中,我們提供了一個使用NLP系統中的干預措施來研究超詞義神經基礎的研究案例:語言的多詞義是超越單個詞的意義的。為了測量干預前和干預后NLP系統與大腦的一致性,我們表明我們可以使用編碼模型,這些模型被訓練來預測大腦記錄,作為從NLP系統獲得的文本表征的函數。編碼模型提供了一種方法,將來自NLP系統的文字表征與人們理解語言的大腦記錄聯系起來,從而滿足了一個好的模型生物體的第三個屬性。
一個好的模型生物體的第一個屬性是什么?一個好的大腦語言理解模型生物體必須理解語言。一個NLP系統真的能理解語言嗎?為了回答這個問題,我們可以研究量化語言理解的不同方法,并觀察到NLP系統在其中一些指標上表現良好,但在其他指標上則不然。例如,一個NLP系統非常善于預測句子中即將出現的單詞,但可能會錯誤地得出結論,"我把沉重的桌子放在書上,它就壞了 "這個句子中的 "它 "指的是 "桌子 "而不是 "書"(Trichelair等人,2018),因為它大概已經知道桌子壞了比書壞了更經常出現在上下文中。這種超越詞語關聯的推理困難是NLP系統目前面臨的挑戰。同樣,如果我們在NLP系統中逐句輸入一本書的章節,NLP系統的內部狀態就會偏向于最近處理的文本(Goodfellow等人,2016)。越往后的章節,NLP系統的記憶就越差(Khandelwal等人,2018;Dai等人,2019)。這是一個問題,因為理解現實的語言需要我們有時解決長期的依賴關系。評估NLP系統編碼長范圍語境的能力,以及提高這種能力,是一個活躍的研究領域。
與NLP系統形成鮮明對比的是,一個人在閱讀一本書的一章時,會記住該章最開始的信息(例如有助于理解人物之間關系的背景信息)。因此,我們提出的一個關鍵問題是:我們能否利用我們擁有的唯一能真正理解語言的處理系統--人腦--來評估,甚至可能改進這些NLP系統能夠編碼的信息?為了探究語言理解過程中人腦中的信息,我們沿用了幾十年的神經科學工作,使用腦成像設備(fMRI和MEG)對人們逐字閱讀文本時的大腦活動進行采樣。然后我們在NLP系統中進行不同的干預,觀察其與大腦記錄的一致性如何變化。我們觀察到,一個特定的干預措施,即強迫NLP系統在匯總所有單詞的含義時給予同等的權重,改善了與大腦記錄的一致性,也改善了NLP系統在新數據分布上的表現。這是第一個證據,表明人們理解語言的大腦記錄可以用來改善流行的神經網絡NLP系統的泛化性能。
雖然NLP系統還不能完美地理解語言,但在過去的三年里,它們在語言理解的許多相關指標方面有了明顯的改善。重要的是,NLP系統不是一成不變的,未來能夠導致對語言的理解更像人類的改進,將導致更好的模型生物體。鼓勵在NLP系統中進行更像人類語言理解的未來工作可能會研究顯性記憶模塊在整合和保持語言信息中的作用,并可能整合來自多種感官模式的信息,如視覺和聽覺。
這篇論文是圍繞著以下論述展開的:在大腦中的語言處理和機器中的語言處理之間建立數據驅動的聯系可以改善提升。1)通過計算建模,我們對大腦中語言處理的機械理解;2)通過轉移大腦的洞察力,提高自然語言處理模型的泛化性能。
第二章詳細介紹了以前的相關神經語言學發現,論文中使用的腦成像記錄模式和數據集,以及多個論文章節中通用的NLP系統。
第三章詳細介紹了現有的訓練編碼模型的方法,這些模型被用來建立大腦中的語言和機器中的語言之間的數據驅動的聯系,并測量它們的一致性。進一步討論了編碼模型的局限性,特別是在作為復雜表征函數進行訓練時,如從NLP系統中獲得的表征。最后,它提出了兩個新的衡量標準,能夠對大腦中的信息處理進行更精確的科學推斷,并在兩個自然的fMRI數據集中對其進行驗證。
第四章為論文的第一個論述提供了支持,通過對NLP系統的干預來研究語言的多詞意義的神經基礎,這超出了單個詞的意義,我們稱之為超詞意義(Toneva, Mitchell等人, 2020)。我們對NLP系統進行干預,將這種超詞義從單個詞的意義中分離出來。通過使用fMRI記錄,我們發現被認為是處理詞匯層面意義的樞紐也保持著超詞的意義,這表明詞匯和組合語義的共同基底。然而,令人驚訝的是,我們發現超詞意義很難在腦電圖中檢測到。相反,腦電圖的記錄被最近閱讀的單個單詞所特有的信息所顯著預測。fMRI和MEG結果之間的差異表明,超詞意義的處理可能是基于神經機制,與同步細胞發射無關,就像MEG信號一樣。
第五章還為計算模型如何能導致大腦中語言的科學發現提供了支持。在這一章中,我們通過預測毫秒級分辨率的腦電活動作為名詞語義和任務的函數來研究問題任務對具體名詞處理的影響(Toneva, Stretcu等人, 2020)。這項工作提供了第一個預測大腦記錄作為觀察到的刺激物和問題任務的功能方法。使用我們提出的方法,我們表明,納入任務語義(即提出的具體問題)大大改善了對腦電圖記錄的預測,跨參與者。這種改善發生在參與者第一次看到這個詞之后的475-550ms,這相當于被認為是一個詞的語義處理的結束時間。這些結果表明,只有一個詞的語義處理的結束時間是依賴于任務的。
第六章為論文的第二個論述提供支持。在這一章中,我們開發了一種方法,利用先前的神經語言學證據來評估NLP模型的表征中是否存在特定大腦相關信息(Toneva and Wehbe, 2019)。該方法在神經成像設備和NLP模型中向人逐字呈現相同的文本,并測量網絡衍生的表征與相關腦區大腦記錄的吻合程度。這項工作表明,我們可以使用這種方法和功能磁共振成像捕捉到的大腦活動快照,來揭示4個流行的預訓練NLP模型得出的表征中有多少上下文被編碼。我們進一步表明,改變一個最先進的預訓練模型以更好地預測fMRI記錄也大大改善了其對新數據分布的概括性能。這些結果是第一個證據,表明人們閱讀的fMRI記錄可以用來改善神經網絡NLP模型。
本論文的貢獻可以概括為以下幾點。
第三章:我們從概念上分解了兩個腦源、實驗刺激和所選刺激表征之間共享變異可能的基本關系。
第三章:我們提出了常用方法在區分這些不同關系方面的局限性,并提出了兩種可以區分它們的新方法,利用模擬數據和兩個自然實驗的fMRI數據提供證據。
第四章:我們介紹了一種基于計算模型的新方法,該方法對NLP系統進行干預,以便將整體的意義與部分的意義分開來捕捉。這種方法允許以以前不可能的方式研究大腦中復雜和組成的多詞含義。
第四章:我們確定了在腦電圖中可檢測到的信息類型的潛在限制。雖然高時間成像分辨率是達到理解語言處理的機械水平的關鍵,但我們的研究結果表明,要檢測長距離的語境信息,可能需要使用除MEG以外的其他模式。
第五章:我們提供了第一個可以預測大腦記錄的方法,作為觀察到的刺激物和問題任務的函數。這很重要,因為它不僅會鼓勵神經科學家制定關于問題對刺激物處理的影響的機械性計算假說,而且會使神經科學家通過評估這些假說與大腦記錄的吻合程度來檢驗這些不同假說。
第五章:我們表明,整合了任務和刺激表征的模型比不考慮任務語義的模型具有明顯更高的預測性能,并將任務語義的影響主要定位在刺激呈現后475-650ms的時間窗口。
第六章:我們提出了一種解釋NLP表征的新方法,并發現轉化器的中間層比其他層更善于預測大腦活動,而且轉化器-XL的性能不會隨著上下文的增加而降低,與其他流行的測試模型'不同。我們發現,在BERT的早期層中用統一的注意力取代預訓練的注意力會導致對大腦活動的更好預測。
第六章:我們表明,當BERT被改變以更好地與大腦記錄保持一致時(通過在早期層用均勻的注意力取代預訓練的注意力),它也能在探測其句法理解的NLP任務中表現得更好(Marvin等人,2018)。這些結果是第一個證據,證明人們閱讀的fMRI記錄可以用來改善神經網絡NLP模型。
在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。
本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。
我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。
強化學習定義了僅通過行動和觀察來學習做出好的決策的代理所面臨的問題。為了成為有效的問題解決器,這些代理必須能有效地探索廣闊的世界,從延遲的反饋中分配信用,并歸納出新的經驗,同時要利用有限的數據、計算資源和感知帶寬。抽象對所有這些努力都是必要的。通過抽象,代理可以形成其環境的簡潔模型,以支持一個理性的、自適應的決策者所需要的許多實踐。在這篇論文中,我提出了強化學習中的抽象理論。首先,我提出了執行抽象過程的函數的三個要求:它們應該1)保持近似最優行為的表示,2) 有效地被學習和構造,3) 更低的規劃或學習時間。然后,我提出了一套新的算法和分析,闡明了代理如何根據這些需求學習抽象。總的來說,這些結果提供了一條通向發現和使用抽象的部分路徑,將有效強化學習的復雜性降到最低。
強化學習問題如下。RL代理通過以下兩個離散步驟的無限重復與環境進行交互:
論文余下組織如下: 第1部分。在第2章中,我提供了關于RL(2.1節)以及狀態抽象(2.2節)和動作抽象(2.3節)的必要背景知識。
第2部分。下一部分將專注于狀態抽象。我提出了新的算法和三個緊密相連的分析集,每一個目標是發現滿足引入的需求的狀態抽象。在第3章中,我開發了一個形式化的框架來推理狀態抽象,以保持近似最優的行為。這個框架由定理3.1總結,它強調了值保持狀態抽象的四個充分條件。然后,在第4章中,我將這一分析擴展到終身RL設置,在終身RL設置中,代理必須不斷地與不同的任務交互并解決不同的任務。本章的主要觀點是介紹了用于終身學習設置的PAC狀態抽象,以及澄清如何有效計算它們的結果。定理4.4說明了保證這些抽象保持良好行為的意義,定理4.5說明了有多少以前已解決的任務足以計算PAC狀態抽象。我著重介紹了模擬實驗的結果,這些結果說明了所介紹的狀態抽象類型在加速學習和計劃方面的效用。最后,第五章介紹了信息論工具對狀態抽象的作用。我提出了狀態抽象和率失真理論[283,43]和信息瓶頸方法[318]之間的緊密聯系,并利用這種聯系設計新的算法,以高效地構建狀態抽象,優雅地在壓縮和良好行為表示之間進行權衡。我以各種方式擴展了這個算法框架,說明了它發現狀態抽象的能力,這些狀態抽象提供了良好行為的樣本高效學習。
第3部分。然后我轉向行動抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了尋找盡可能快地做出計劃的抽象動作的問題——主要結果表明,這個問題通常是NP困難的(在適當簡化的假設下),甚至在多項式時間內很難近似。然后,在第7章中,我解決了在規劃中伴隨高層次行為構建預測模型的問題。這樣的模型使代理能夠估計在給定狀態下執行行為的結果。在本章中,我將介紹并分析一個用于這些高級行為的新模型,并證明在溫和的假設下,這個簡單的替代仍然是有用的。我提供的經驗證據表明,新的預測模型可以作為其更復雜的對等物的適當替代者。最后,在第8章中,我探討了抽象行動改善探索過程的潛力。我描述了Jinnai等人開發的一種算法[145],該算法基于構建可以輕松到達環境所有部分的抽象行動的概念,并證明該算法可以加速對基準任務的探索。
第4部分。最后,我轉向狀態動作抽象的聯合過程。在第9章中,我介紹了一個將狀態和動作抽象結合在一起的簡單機制。使用這個方案,然后我證明了哪些狀態和動作抽象的組合可以在任何有限的MDP中保持良好的行為策略的表示,定理9.1總結了這一點。接下來,我將研究這些聯合抽象的反復應用,作為構建分層抽象的機制。在對層次結構和底層狀態動作抽象的溫和假設下,我證明了這些層次結構也可以保持全局近最優行為策略的表示,如定理9.3所述。然后,我將在第十章中總結我的思考和今后的方向。
總的來說,這些結果闡明了強化學習的抽象理論。圖1.4展示了本文的可視化概述。