目前流行的機器學習范式涉及針對每個新任務訓練一個單獨的模型,給定一個靜態數據集。與此相反,人類隨著時間的推移積累知識,而終身學習范式試圖通過使系統能夠持續從任務流中學習來模仿這一過程,保留過去的知識以實現高效的未來學習。這一范式還提供了諸如避免周期性模型訓練、潛在減少計算和能源需求以及促進環保的綠色AI等優勢。在現代機器學習中,深度神經網絡雖然強大,但面臨著災難性遺忘(在新任務學習過程中丟失之前任務的知識)和負面干擾(先前學到的知識阻礙新任務學習)等挑戰。這些問題源于穩定性-可塑性困境,需要找到保留過去知識(穩定性)與獲取新知識(可塑性)之間的正確平衡。高效的終身學習系統必須解決這一困境,以及其他考慮因素,如支持在線數據流,利用小型和固定的內存緩沖容量(如果有的話),以及從未標記的數據流中學習。在這篇論文中,我們從生物學習過程和深度學習的最新進展中汲取靈感,以實現高效的終身學習系統。我們提出將歸納偏置注入數據驅動機器學習的三個主要組成部分:模型(架構和初始化)、訓練(目標和優化)和數據。本論文分為三個部分,每部分對應上述的一個組成部分。在第一部分,我們探討了預訓練初始化的作用,揭示了與隨機初始化相比,它們對遺忘的隱性緩解。接下來,我們設計了一個參數高效的專家架構,動態擴展學習能力以解決穩定性-可塑性困境。在第二部分,我們展示了針對平坦極小值的顯式優化如何提高網絡穩定性,并引入了一個用于穩定性-可塑性平衡的元學習目標。第三部分深入探討了終身半監督學習,通過復習偽標簽數據解決穩定性-可塑性困境。我們以從終身學習的角度審視預訓練作為結論,通過將上述策略應用于模型的(持續)預訓練,展示了增強效果。
在過去的十年中,訓練硬件的進步和大型數據集的可用性使深度神經網絡在機器學習領域取得了重大進展。這些網絡在多項自然語言處理和計算機視覺任務中達到或超過了人類水平的表現,例如機器翻譯(Lepikhin et al., 2021)、問題回答(Du et al., 2022; Chowdhery et al., 2023)、開放式對話生成(Ouyang et al., 2022)、對象檢測和圖像生成(Lu et al., 2023),當評估獨立同分布(i.i.d)的保留數據時。然而,當這些網絡應用于數據分布隨時間變化的真實情況時,它們的表現往往會變差(Lazaridou et al., 2021)。它們失敗的主要原因是,當前的機器學習方法集中于孤立學習(Chen and Liu, 2018),即使用靜態數據集為每個新任務或一組相關任務訓練一個單獨的網絡。一種使這些網絡保持最新的方法是,每次有新信息可用時就從頭開始重新訓練它們。然而,由于隱私或存儲限制,之前用于訓練的數據可能只是暫時可用(Farquhar and Gal, 2018)。此外,重新訓練方法可能在計算上昂貴、數據效率低下且耗時,特別是對于大型網絡。例如,GPT-3(Brown et al., 2020),一個具有1750億參數的自回歸語言模型,訓練了4990億個標記,使用的計算量相當于3.14e 23浮點運算,并且在單個NVIDIA Tesla V100 GPU上的訓練需要355年和460萬美元。另一種方法是,隨著新信息的持續到來,不斷更新網絡。然而,深度神經網絡和一般的參數模型容易發生災難性遺忘現象(McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999)。在這種現象中,網絡在將新信息納入系統時,忘記或覆蓋之前學到的知識。此外,這些網絡可能會經歷負面干擾現象(Pan and Yang, 2009; Weiss et al., 2016),在此現象中,之前學到的知識可能會阻礙新事物的有效學習,導致數據需求增加。這兩種現象源于穩定性-可塑性困境(Mermillod et al., 2013)。穩定性涉及保留過去的知識,可塑性涉及學習新知識。需要平衡,因為過多的穩定性會阻礙新知識的獲取,過多的可塑性會導致忘記之前的知識。這個困境使得當前網絡難以更新其知識,并有效地適應新任務的增量學習。 與此相反,我們人類的學習方式大不相同。我們通過在一生中獲取和更新知識來學習,保留之前學到的知識,并利用它來有效地學習新的概念和技能。受到這種人類學習過程的啟發,終身學習(Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018)或增量學習(Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001)或永不停歇的學習(Mitchell et al., 2018)或持續學習(Parisi et al., 2019)范式旨在開發能夠從持續數據流中學習的系統,理想情況下保留過去的知識,用新信息更新它,并利用它進行后續學習。此外,研究人員已經認識到終身學習能力對于實現人工通用智能的進展至關重要(Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019)。除了與生物學習相似之外,終身學習范式還有潛力通過避免過度模型重新訓練來減少能源浪費,并實現環保和可持續的綠色AI(Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020)。
終身學習范式還與其他知識轉移相關的范式有關,如遷移學習(Pan and Yang, 2009)和多任務學習(Caruana, 1997)。與這兩個范式不同,終身學習范式更為通用;假設順序訪問任務,它旨在改善對之前任務(理想情況下是積極的向后轉移或負面遺忘)和新任務(積極的向前轉移)的表現。當代遷移學習范式主要集中于從之前的任務向新任務進行單向知識轉移,以提高新任務的表現,即使這會損害之前學到任務的表現。另一方面,多任務學習假設同時訪問所有任務的數據,并通過使它們之間的知識共享來提高所有任務的表現。此外,即使在單任務學習設置中,神經網絡也被證明會經歷災難性遺忘(Toneva et al., 2019),強調終身學習范式不僅限于多任務場景。甚至在終身學習范式中,任務的概念也非常開放。例如,考慮一個終身COVID-19命名實體識別(NER)標記器。任務有三種不同的表現形式 - (i)分類任務,如實體塊分割、實體檢測、實體鏈接、共指解析和關系提取,(ii)針對2020、2021、2022、2023年COVID-19研究文章不斷變化的領域的NER(iii)針對COVID-Alpha、COVID-Beta、COVID-Omicron等COVID-19變種的演化類別的NER。這些表現形式對應于終身學習中的三個突出場景:任務、領域和類增量學習(Van de Ven and Tolias, 2019)。
除了解決災難性遺忘之外,終身學習系統還有幾個其他目標(Biesialska et al., 2020)。人類可以迅速從持續的對話中學習新信息,而不需要明確的話題邊界(Chen and Liu, 2018)。我們有選擇地保留過去的經驗在我們有限的記憶容量中以防止遺忘,并在需要時稀疏地回放它們(Ratcliff, 1990; McGaugh, 2000)。此外,我們經常以非監督的方式從我們的環境中學習,而不是依賴于明確的監督(Aljundi, 2019)。相比之下,當前的終身學習系統(Biesialska et al., 2020)需要明確的任務邊界,它們依賴于大容量記憶,因此在數據上效率低下,并且因為它們需要對標記數據進行多次傳遞而在計算上昂貴。為了更有效地模仿人類學習,有必要開發在更現實的假設下運行并且在數據、記憶和計算上都高效的終身學習系統(Farquhar and Gal, 2018)。
新型機器學習方法是科學和工程變革的核心。概率模型已成為知識發現的基礎學習模型。作為替代模型,它們允許在有限的預算下進行高效的黑箱優化或積極學習復雜系統的行為。另一個重要的用例是使用概率模型作為生成模型,生成具有所需屬性的新設計,或從物理系統的平衡分布中生成樣本。但是,為了充分發揮概率模型在知識發現中的潛力,必須開發既能應對不斷增長的數據大小和復雜性,又能讓領域專家容易解讀的模型。
在這篇論文中,我從開發一種新方法開始,該方法解決了貝葉斯優化中的概率替代模型的稀疏解識別問題。稀疏解的發現不僅增強了解決方案對人類的可解釋性,以便理解系統行為,還便于使用較少的參數更輕松地部署和維護。
接下來,我介紹了一種利用深度學習增強高斯過程推斷可擴展性的新方法。高斯過程被廣泛用作知識發現中的概率替代模型,但由于在GP回歸中識別核超參數的高成本,其實際使用受到限制,涉及到昂貴的邊緣可能性。我展示了如何通過使用“攤銷”超參數推斷來繞過昂貴的邊緣可能性的需求。這是通過訓練一個單一的神經網絡實現的,該網絡消耗一組數據并產生一個估計的核函數,用于不同的任務。
最后,我介紹了邊緣化模型,這是一種新的高維離散數據生成模型,在科學發現中無處不在。通過使用神經網絡對所有誘導的邊緣分布進行明確的建模,邊緣化模型提供了可擴展和靈活的生成建模與合理的可能性。直接建模邊緣使得邊緣推斷效率高,能夠對給定的(非規范化)概率函數進行任意階的生成模型的可擴展訓練,克服了以前具有精確可能性的方法的主要限制。
概率模型作為建模數據分布的原則機器學習方法,最近開始在促進科學探索和發現中起到重要作用。替代模型在科學、工程、機器人學和許多其他領域都是寶貴的工具,其中它們模擬復雜的系統行為。利用概率代理模型提供的不確定性量化,可以設計自動算法通過與系統主動交互來有效地完成給定用例的目標。一個主要的用例是優化,例如通過實驗測試確定電池正極的最佳材料組成。在這種情況下,使用概率模型進行貝葉斯優化(Shahriari等,2015b),根據實驗結果了解和迭代微調組成和性能之間的關系。同時,基于替代模型的不確定性量化,策略性地選擇下一個實驗條件,平衡對新組成的探索與對已知性能良好的組成的利用,從而加速最佳組成的發現。
主動學習提供了另一個主要的用例,例如在訓練替代模型準確模擬分子動力學(Vandermause等,2020)。該過程從基于有限數據的初始概率模型開始,然后通過主動查詢系統獲取額外的標記數據來系統地加強。選擇最具信息性的樣本進行標記是由替代模型的固有不確定性估計指導的,從而得到一個準確的模型,標記工作量最小。
除替代模型外,概率生成模型在跨多個領域建模復雜數據分布方面也取得了顯著進展,包括自然語言建模(Brown等,2020)、圖像生成(Song和Ermon,2019; Ho等,2020)、音頻合成(Huang等,2018)和科學發現應用(Wang等,2022; Schneuing等,2022)。在訓練科學發現的生成模型時,有兩個主要設置。第一個設置是最大似然訓練,目標是訓練生成模型以最大化訓練數據的似然。這種設置通常用于圖像生成、自然語言建模和藥物設計等任務,目標是生成與訓練數據分布非常相似的數據。第二個設置是分布匹配,目標是將生成分布與目標密度對齊。這種設置在圖像和語言方面研究較少,但在如采樣晶格模型和估計分子或材料的平衡性質等應用中經常使用,其中需要從物理系統的熱力學平衡分布中生成樣本。
在這篇論文中,我提出了新方法來解決知識發現背景下概率模型的解釋性和可擴展性挑戰。在深入研究所提議的方法的細節之前,我為替代模型和生成模型的現有文獻提供了簡短的概述。 本章的其余部分組織如下:第1.1.1節首先簡要介紹了高斯過程,這是一種在科學發現中使用的流行的概率替代模型。然后在第1.1.2節中,我回顧了貝葉斯優化的基本方法論方面。第1.2節簡要概述了關于生成模型的現有文獻,重點關注科學發現中的應用。最后,在第1.3節中,我總結了整個論文的大綱。
強化學習(RL)在具有明確定義的獎勵函數的應用中取得了顯著的成功,例如最大化視頻游戲中的得分或優化算法的運行時間。然而,在許多現實世界的應用中,并沒有明確定義的獎勵功能。相反,基于人類反饋的強化學習(RLHF)允許RL代理從人類提供的數據中學習,例如軌跡的評估或排名。在許多應用中,人類反饋的收集成本很高;因此,從有限的數據中學習魯棒的策略至關重要。
在這篇論文中,我們提出了新的算法來增強RLHF的樣本效率和魯棒性。首先,我們提出了主動學習算法,通過選擇用戶標記的最具信息性的數據點和根據關于用戶偏好的不確定性來探索環境,從而提高RLHF的樣本效率。我們的方法為RLHF的主動學習提供了概念上的清晰性,并提供了理論樣本復雜性的結果,受到多臂老虎機和貝葉斯優化的啟發。此外,我們在模擬中提供了大量的實證評估,證明了RLHF的主動學習的好處。 其次,我們將RLHF擴展到從人類偏好中學習約束,而不是或者除了獎勵。我們認為,在安全關鍵的應用中,約束是人類偏好的一種特別自然的表示。我們開發了算法,從未知獎勵的示范中有效地學習約束,并從人類反饋中主動學習約束。我們的結果表明,將人類偏好表示為約束可以導致更安全的策略,并擴展了RLHF的潛在應用。 所提出的獎勵和約束學習算法為未來的研究提供了基礎,以增強RLHF的效率、安全性和適用性。
強化學習(RL; [1])旨在構建從經驗中學習的AI系統。一個RL代理與環境互動,并通過試錯,由獎勵信號引導,改善其行為。RL代理已經在許多令人印象深刻的任務上取得了成功,包括玩復雜的棋盤游戲(例如,國際象棋[2]、圍棋[3]和斯特拉戈[4])、視頻游戲(例如,Dota[5]和星際爭霸[6]),以及優化數據中心冷卻[7]、視頻壓縮[8]和排序算法[9]。所有這些應用都有一個明確定義和可測量的獎勵信號,例如,游戲是否贏得或算法使用了多少時間或內存。 然而,在許多實際任務中指定獎勵函數可能是具有挑戰性的[10]。例如,考慮為自動駕駛設計一個獎勵函數。人們在駕駛時考慮了許多不同的目標,包括安全、舒適和效率。自動駕駛的獎勵函數必須考慮所有這些因素,同時還要為代理提供足夠密集的信號進行學習。Knox等人[11]發現,自動駕駛文獻中提出的許多獎勵函數未通過基本的一致性檢查,例如,錯過了重要的屬性,有漏洞代理可以利用,或有可以導致不安全行為的獎勵塑造條款。 基于人類反饋的強化學習(RLHF; [12])解決了設計獎勵函數的困難。在RLHF中,代理不僅僅依賴預定義的獎勵函數,而是使用人類反饋,例如評估或對代理在之前情境中的行為進行排名(圖1.1)。RLHF提供了一種更直觀和靈活的方式教RL代理復雜的行為,并承諾使RL適用于更廣泛的任務。
最近,在自然語言處理中,RLHF顯示出特別的成功,其中獎勵函數很難指定。基于大型語言模型,使用RLHF訓練的代理可以總結文本[13],遵循指示[14],或充當完整的對話代理[15]。盡管有潛力,但RLHF在多個方面面臨挑戰(參見Casper等人的綜述[16])。這些挑戰包括建模和算法設計的考慮(參見例如[17]),以及以人為中心的因素(參見例如[18])。在這篇論文中,我們關注與RLHF的樣本效率和魯棒性相關的算法挑戰。 高質量的人類反饋是昂貴的,且當前方法需要大量反饋才能穩健地學習。人類的反饋對于學習過程是非常有價值的[13],但提供此反饋所需的時間、努力和專長往往是禁止的[19]。因此,我們考慮的第一個挑戰是如何從有限的人類反饋中最大化價值。當前的RLHF方法為單一(學習到的)獎勵函數進行優化,而人們通常有多個目標和偏好[20]。此外,一些偏好可能作為代理行為的約束,而不是獎勵函數中的附加條款。例如,我們可以設計一個自動駕駛的獎勵函數,同時測量安全性、舒適性和效率。然而,我們通常不想優化所有這些目標,而是在確保其他目標滿足的同時優化一個目標。例如,我們可能希望在駕駛安全的同時盡快到達目的地。約束可以是人類偏好的自然表示的觀察激發了我們考慮的第二個挑戰:如何從人類反饋中學習約束。 我們現在到達了我們在這篇論文中研究的兩個主要研究問題:
? 我們如何使RLHF更加樣本高效? ? 我們如何從人類反饋中學習約束?
解決第一個研究問題的主要方法是主動學習[21],即選擇人類標記的最具信息性的數據點。先前的工作通常將標準的主動學習方法適應于RLHF(例如[22])。然而,RL的情況與監督學習有兩個方面的不同。首先,在RL中,我們不想很好地近似“真實”的獎勵函數,而是找到一個好的策略,使情況更像貝葉斯優化而不是主動學習。其次,在RL中,我們必須探索環境以收集供人類標記的數據,這在監督學習中是不必要的。這些差異激勵我們為RLHF的主動學習定義替代目標,受到多臂老虎機和貝葉斯優化的工作的啟發。
在許多安全關鍵的強化學習應用中,如機器人技術,約束是至關重要的。我們認為,在這樣的領域中,我們應該從人類反饋中學習約束模型,而不僅僅是學習獎勵模型。為了實現這一點,我們開發了算法來有效地學習約束,從而解答了我們的第二個研究問題。首先,我們專注于從帶有未知獎勵的示范中學習約束。其次,我們結合這種方法和主動學習來開發一種算法,從人類反饋中主動學習約束。
通過改進我們用來從人類反饋中學習獎勵和約束的算法,我們可以擴大RLHF的可能應用范圍。而且,學習更好的獎勵和約束模型可能導致更魯棒、可靠和安全的AI系統,能夠處理復雜的任務。這篇論文中提出的算法可以為未來關于使RLHF變得更加高效和安全的研究和開發提供基礎。
本論文分為兩部分。第一部分關注學習獎勵模型。我們提出了一種針對主動獎勵學習的通用方法,該方法專注于學習一個好的策略,而不僅僅是減少近似誤差(第3章),以及一種主動探索環境以收集數據并向專家查詢的方法(第4章)。第二部分關注學習約束模型。我們認為約束可能是學習人類偏好的特別有用的表示,并提出了從一組帶有未知獎勵的示范中學習約束的方法(第5章),以及從關于軌跡安全性的反饋中主動學習約束的方法(第6章)。 圖1.1概述了我們的貢獻如何與典型的RLHF設置的不同部分相關。在以下內容中,我們總結了各章節的貢獻。
在自然語言處理(NLP)中,許多任務涉及結構化預測:預測由一組相互依賴的變量組成的結構化輸出。這允許從非結構化的原始文本中提取有用的信息,這對于人類和機器的下游任務和分析都有益處。為了獲得自動化模型,主要范式是以數據驅動的監督學習方式進行。在這個范式中,主要的瓶頸是手動注釋數據的可用性,這通常是昂貴且耗時的。此外,我們通常希望將模型擴展到各種新場景,比如不同的領域或語言。如果訓練實例不足以涵蓋目標場景,模型性能可能會顯著下降,而在所有這些新情況下注釋大量數據實例是昂貴且低效的。 為了減輕這個問題并減少結構化預測模型對大量注釋的依賴,我們需要考慮模型和數據兩個方面,這是數據驅動機器學習的主要驅動力。與這些核心方面相關,我們探討了三個方向。首先,我們研究模型設計中的結構化建模,其中涉及如何對復雜的結構化輸出進行建模和預測。這對于結構化預測任務特別重要,因為這些任務通常具有大的輸出空間。此外,在模型和數據的交互方面,我們研究了遷移學習,其中利用相關數據來幫助低資源的目標任務。在這種情況下,如何設計更不受源數據和目標數據之間差異影響的模型對于遷移的成功也至關重要。最后,我們探討主動學習,重點關注數據本身。當資源有限時,很難獲得大量注釋的實例,但注釋一小部分實例是可行的。通過選擇信息量豐富的實例集的策略,可能只需要較少的手動注釋就可以實現令人滿意的性能。
這篇論文包括三個部分,對應這三個方向。在第一部分中,我們研究了深度神經模型中結構化輸出建模的影響。我們發現,結構化建模在句子級別的完全匹配和更高效的模型方面帶來了好處。我們進一步將分析擴展到低資源情景,并研究結構約束與訓練數據規模之間的交互作用。在第二部分中,我們研究了一系列相關的結構化任務,并發現來自相關數據的監督,例如來自相同任務但不同語言(跨語言學習)以及來自相關任務(多任務學習)的監督,可以是有益的,尤其是在利用那些對源數據和目標數據差異關注較少的模型時。最后,在第三部分中,我們對NLP中的結構化預測進行了系統的主動學習研究。特別是,我們分析了使用部分結構進行注釋和學習的有效性,這可以提高主動學習的數據效率。此外,我們展示了將主動學習與使用主動學習數據池中未標記實例的自訓練相結合,可以帶來進一步的改進。
強化學習(RL)為基于學習的控制提供了一個形式化的框架。通過嘗試學習能優化用戶指定的獎勵函數的行為策略,RL方法已經能夠獲得新穎的決策策略,即使在動態非常復雜,所有可能結果的空間巨大(例如,機器人操作、芯片地板規劃)的情況下,這些策略也可以勝過最好的人類。但與標準機器學習(ML)在現實世界的應用相比,RL的適用性有限。為什么呢?RL的核心問題在于,它嚴重依賴于執行大量試錯的主動數據收集來學習策略。不幸的是,在現實世界中,主動數據收集通常非常昂貴(例如,進行藥物設計的實驗室實驗)和/或危險(例如,機器人在人們周圍操作),且準確的模擬器很難構建。總的來說,這意味著,盡管RL具有廣泛解鎖現實世界決策問題中的ML的潛力,但我們無法通過當前的RL技術實現這一潛力。
為了實現RL的這種潛力,在這篇論文中,我們開發了一個旨在使用靜態數據集經驗學習策略的替代范式。這種“數據集驅動”的范式擴大了RL在存在歷史數據集或可以通過特定領域策略收集的決策問題中的適用性。它還將現代有監督和無監督ML方法的可擴展性和可靠性帶入了RL。話雖如此,實例化這一范式是具有挑戰性的,因為它需要將從數據集中的靜態學習與RL的傳統主動性相協調,這導致了分布偏移、泛化和優化的挑戰。在理論上和實證上理解這些挑戰后,我們為應對這些挑戰開發了算法思想,并討論了幾種擴展,將這些思想轉化為實際方法,可以在大型和多樣化的數據集上訓練現代高容量神經網絡函數逼近器。最后,我們展示了這些技術如何使我們能夠為真實的機器人和視頻游戲預訓練通用策略,并實現快速高效的硬件加速器設計。
新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。
時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?
由于自動駕駛的復雜性和安全性關鍵性,最近的工作通常在為推進自動駕駛研究而設計的模擬器上測試他們的想法。盡管將自動駕駛建模為軌跡優化問題很方便,但這些方法中很少有借助在線強化學習(RL)來解決具有挑戰性的駕駛場景。這主要是因為經典的在線RL算法最初是為諸如Atari游戲之類的玩具問題設計的,這些問題可以在幾個小時內解決。相比之下,由于模擬耗時和問題本身的難度,使用這些在線強化學習方法可能需要幾周或幾個月的時間才能在自動駕駛任務上獲得令人滿意的結果。因此,一個有前途的自動駕駛在線強化學習流程應該是效率驅動的。
本文研究了由于昂貴的模擬成本,直接將通用單智能體或分布式RL算法應用于CARLA自動駕駛管道的低效性。本文提出兩種異步分布式強化學習方法,多并行SAC (off-policy)和多并行PPO (on-policy),致力于通過一個專門的分布式框架來加速CARLA模擬器上的在線強化學習訓練,該框架建立進程間和進程內并行。所提出的分布式多智能體強化學習算法在各種CARLA自動駕駛任務上以更短和合理的時間實現了最先進的性能。
自動駕駛的許多進展都集中在模塊化方法上,其中整個任務被劃分為多個子任務,如感知、規劃和控制[12,46,54,61,63,94]。雖然這種范式在典型的trac場景中表現良好,但在沒有為邊緣情況精心設計的特殊程序的情況下,它很難處理分布外駕駛情況。為了應對這個問題,強化學習(RL)受到了關注,因為自動駕駛可以自然地視為一個軌跡優化問題,我們需要對駕駛過程進行最優控制。經驗證據表明,強化學習方法能夠以高度自動化的方式實現這一目標,而不需要手動處理具有挑戰性的長尾和罕見情況。它們的成功已經在許多決策任務中得到了證明,例如玩策略游戲或操縱機器人[8,60,74,78,79,81,88]。
長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。
//www.repository.cam.ac.uk/handle/1810/304385
其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。
機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。
首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。
然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。
最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。
傳統的機器學習范式在單個任務上訓練特定任務模型,已經在許多領域(如計算機視覺和自然語言處理)取得了最先進的性能。為了使機器學習模型具有更廣泛的適用性,遷移學習旨在適應從源任務中學習到的知識,以提高在其他目標任務中的表現。然而,現有的遷移學習范式還有待進一步研究,因此我們對其潛在的局限性、潛在的機制以及實現更智能遷移的解決方案的認識有限。特別是,當知識從一個不太相關的來源轉移時,可能會對目標性能造成負面影響,這種現象稱為負轉移。然而,負遷移的原因尚不明確,負遷移如何影響模型的泛化和樣本效率也不清楚。在這篇論文中,我們的目標是徹底描述和解決機器學習模型中的負遷移,我們仔細研究了流行的視覺和自然語言處理設置中的負遷移,收集了其原因的見解,并提出了提高泛化和樣本效率的解決方案。本文由三個部分組成。第一部分對當前遷移學習模型中的負遷移現象進行了系統的分析。我們在領域適應和多語言自然語言處理模型中正式描述了其條件,并證明任務沖突是負遷移的一個關鍵因素。在第二部分,我們提出了各種對齊方法,通過更好的對齊表示和梯度解決上述任務沖突,增強可轉移模型的泛化。最后,在第三部分,我們探索了有效樣本遷移學習算法,使用較少的訓練和/或校準數據來緩解負遷移。本文的主要貢獻包括對遷移學習中的負遷移問題提出了新的見解,提出了一系列實用的方法和算法,提高了模型的泛化和效率。
//www.lti.cs.cmu.edu/sites/default/files/wang%2C%20zirui%20-%20final%20thesis.pdf
深度學習方法是最近計算機視覺快速發展的基礎。然而,這些方法往往需要昂貴的標記數據。特定于任務的模型,如分類器,并不是為了最大限度地學習一般的內部表示。此外,這些模型不能模擬數據生成過程來合成新樣本,也不能修改輸入樣本。無監督深度生成模型有可能避免這些問題。
然而,兩個主要的生成模型家族,生成對抗網絡(GAN)和變分自編碼器(VAE),都有各自的特點問題。基于GAN的模型在架構上相對復雜,有一個識別器網絡,但通常沒有編碼器來接受輸入。此外,GAN訓練通常是不穩定的,并且容易忽略訓練分配的部分(“模式崩潰”或“模式下降”)。另一方面,VAEs往往高估分布的某些區域的方差,導致生成的圖像模糊。
這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。
這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。
這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。
最后,使用高斯過程框架,圖像編碼器-解碼器設置從單個圖像擴展到圖像序列,包括視頻和攝像機運行。為此,輔助圖像元數據在生成模型的潛在空間中以非參數先驗的形式被利用。這允許平滑和自由插值圖像序列。在此過程中,高斯過程和計算機視覺方法之間提供了一個優雅的連接,這意味著將兩者結合起來具有深遠的意義。