在近年來,模仿學習(IL)領域取得了顯著進展,研究人員已將這種機器學習技術應用于機器人學、自動駕駛汽車、醫療保健和游戲玩法等多個領域。每個領域都通過開發和應用新方法解決特定于其領域的獨特問題,為該領域的進步做出了貢獻。在本論文中,我們重點關注在兩個具有獨特挑戰的領域中的IL應用。 第一個應用涉及學習模仿混合整數線性規劃(MILP)求解器的高精度啟發式算法,盡管準確,但由于計算效率低下而不實用。第二個應用涉及開發一個IL框架,通過使用新開發的主動接觸追蹤(PCT)框架,通過智能手機應用準確預測個體的傳染性,克服了傳統接觸追蹤方法的限制。
我們基于可管理環境(例如,模擬器)的動態設計IL框架,目的是將學習的模型轉移到更大的未見環境。這些框架的開發需要考慮和解決幾個挑戰。這些挑戰包括納入領域特定的歸納偏見,確保模型對分布偏移的魯棒性,以及設計適合部署的輕量級模型。通過解決這些挑戰,我們希望不僅為IL的進步做出貢獻,還為應用它的領域帶來新的和改進的解決方案。
為了模仿混合整數線性規劃(MILP)求解器的專家啟發式,我們識別并解決了現有模仿學習(IL)框架的兩個主要缺點。首先,我們提出的圖神經網絡(GNNs)在計算上開銷巨大但非常精確,而它們的運行性能在缺少GPU的情況下會降低。這種情況可能出現,因為MILP求解器只能在CPU上運行。為了解決這個問題,我們提出了新的架構,這些架構在GNNs的表現力和多線性感知器的低成本計算之間進行了權衡,同時提出了訓練協議,使模型能夠抵抗分布的變化。使用這些技術訓練的模型實現了高達26%的運行時間改進。第二個問題是無法捕捉觀測之間的依賴性以訓練GNNs。我們的研究揭示了專家啟發式中經常出現的“回顧”現象,即在子節點處的最佳決策往往是父節點的次佳決策。為了將這一現象納入損失函數中,我們提出了一種新的損失函數,更準確地模仿了這種啟發式,使模型的運行時間提高了高達15%。
最終,在 COVID-19 大流行期間,世界各國面臨一個難題,即是要開放經濟還是優先保護生命。作為回應,數字接觸追蹤應用程序應運而生。然而,為了避免侵犯用戶隱私,大多數應用依賴于一個具有有限智能的隔離與否界面,無法精確了解通知接收者的風險級別。這種方法導致了警報疲勞,使用戶更不可能遵循推薦。為了解決這些問題,同時保持用戶隱私和復雜的風險評估模型,我們提出了主動接觸追蹤(PCT)框架。我們的框架重新利用用戶通信來傳遞關于估計風險的信息,即“風險消息”。這些消息,連同個人信息(例如,醫療歷史或癥狀),用于風險估計模型,以輸出發送給其他用戶的風險消息。根據估計的風險,向用戶顯示分級通知(例如,小心行事或避免不必要的行為)。使用基于代理的模型(ABM)和一個簡單的可解釋的基于規則的模型,我們證明了基于規則的 PCT 在經濟-公共健康權衡方面優于現有應用。
在后續工作中,我們轉向深度學習來設計風險估計模型。雖然強化學習本來是理想的選擇,但計算成本高昂的ABM(代理基模型)排除了其使用。因此,我們采用了模仿學習框架來訓練深度學習模型,具體來說,我們提出了幾種集合變換器的變體。我們還使用了領域隨機化,通過使用ABM的幾種隨機實例收集觀測數據,以確保模型對嵌入ABM中的假設保持魯棒性。此外,我們使用迭代訓練以確保模型對自我引起的分布轉移保持魯棒性。總體來說,我們展示了基于深度學習的PCT(預測性控制技術)優于基于規則的PCT。為了完成我們的提議,我們建議一個迭代過程,用于應用部署和ABM校準,以彌合從ABM到實際部署的差距。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
人類智能的一個重要方面是能夠從簡單的想法中組合出越來越復雜的概念,從而實現快速學習和知識的適應。盡管目前的AI系統表現出色,但在這一領域卻有所欠缺,通常無法解決超出其訓練分布范圍的任務。本論文的工作旨在通過將組合性納入深度神經網絡來彌補這一差距,從而增強它們解決新穎和復雜任務的能力,例如根據復雜的規范生成2D圖像和3D資產,或使仿人代理執行多種家庭活動。這篇論文的影響深遠,因為組合性在生物學、機器人技術和藝術制作等領域有眾多應用。通過顯著提高AI系統的組合性能力,這項研究將為不同研究領域中更高效的數據和更強大的模型鋪平道路。
"組合性是現代AI系統所缺少的人類智能的一個關鍵方面。構建概念的能力:結合模式、思想和子目標來構建對世界的結構化表示,然后通過操縱個別組成部分來推理世界,體現在關鍵的認知能力中。人類可以將個別觀察結果融入復雜的知識和信念結構中,對復雜計劃進行小范圍的針對性調整,想象基本情景的替代方案,并創造出受現有作品啟發的新技術或藝術。此類組合能力在AI系統中基本上尚未實現,但實現這一點可能是解鎖主要AI能力(如持續學習、可控和穩健行為、高級規劃、反事實推理和更強大的泛化)的關鍵之一。 本論文專注于開發表現出組合能力的神經網絡,以解決廣泛的任務,如圖像生成、問題回答、數學推理、機器人操控和體現決策。目標是使網絡能夠解決在訓練過程中未曝露的概念、目標或技能組合的任務。 我們對組合AI的研究涵蓋以下兩個軸心:先驗知識和組合結構。先驗知識描述了模型在培訓過程中學習的基本概念和能力集合。在大量數據上訓練的大型深度學習模型[131, 125, 13]包含豐富的先驗知識,但它們缺乏實現組合性的另一個關鍵組成部分——組合結構。為了構建組合結構,我們提出了組合算子來組合基本概念。將組合算子應用于預訓練模型,使我們能夠顯著提高AI系統的組合生成能力。
本論文的前兩部分介紹了如何構建組合結構。第一部分:構思概念和目標:我們開發了可以組合概念或目標以產生高度可控和復雜、細致行為的神經網絡。第二部分:模型組合:我們組合來自不同領域的預訓練模型,以在沒有任何訓練或微調的情況下產生強大的跨模態能力。在第三部分:轉移組合性中,我們介紹了如何通過從預訓練模型轉移知識來以數據高效的方式實現先驗知識。"
盡管形式各異的視覺數據(如圖片和視頻)的呈指數級增長,為我們解釋周圍環境提供了前所未有的機會,自然語言依然是我們傳遞知識和信息的主要方式。因此,目前迫切需要構建一個框架來實現不同模態信息之間的交互。在這篇論文中,我研究了實現多模態信息有效交互的三個方向。第一個方向關注于構建具有相似語義意義信息的一致性表示。更具體地說,在高維語義空間中,相似信息的表示應該在適當的范圍內彼此接近,不論它們的模態如何。第二個方向是實現圖像視覺屬性與相應語義詞之間的有效關聯,這首先要求網絡能夠識別圖像和文本中的不同語義信息,然后允許它們進行交互。第三個方向是構建一個輕量級架構的模型,用于處理來自多個域的輸入。這是因為當網絡涉及多模態信息時,可能需要大量增加可訓練參數的數量,其目的是允許網絡全面學習捕捉具有域間差異的信息之間的相關性。需要大量計算資源的要求可能會極大地阻礙框架的部署,這對于現實世界應用中的實現來說是不切實際的。這些方向的貢獻如下。
首先,為了有一個一致的表示,生成網絡采用了對比學習和聚類學習,其中對比學習可以最大化由給定數據集提供的成對實例之間的互信息,而聚類學習可以將具有相似語義意義的實例分組到同一個簇中,并將不同的實例推得彼此遠離。通過這樣做,可以構建一個結構化的聯合語義空間,在這個空間內,具有相似語義意義的實例可以在適當的范圍內緊密地聚集在一起,以確保不論其模態如何,都能有一個一致的表示。
其次,為了實現多模態信息之間的有效關聯,提出了三種不同的方法,有效地將圖像視覺屬性與相應的語義文本描述相關聯,使網絡學習理解文本和圖像信息的語義意義,然后實現有效的交互。更特別的是,為了探索相關性,我首先研究了基于單詞級別注意力的連接,并輔以補充的單詞級別鑒別器,其中注意力允許網絡學習識別與相應語義詞對齊的特定圖像視覺屬性,而補充的單詞級別鑒別器提供細粒度的訓練反饋,以允許網絡正確捕捉這種關聯。然后,介紹了文本-圖像仿射組合,采用仿射變換將文本和圖像特征結合在生成過程中,使網絡具有區域選擇效應,有選擇地將文本所需的圖像屬性融合到生成流程中,并保留與文本無關的內容。此外,提出了一種半參數的記憶驅動方法,它結合了參數技術和非參數技術的優點。非參數組成部分是一個存儲庫,由訓練數據集構建而成的預處理信息庫,而參數組成部分是一個神經網絡。通過這樣做,參數方法可以實現高度表達模型的端到端訓練的好處,非參數技術允許網絡在推理時充分利用大型數據集。
第三,提出了兩種解決方案來減輕由于不同模態輸入而需要的網絡計算資源成本,允許網絡在各個領域中輕松實施。更具體地說,我們改進了條件GAN中生成器和鑒別器的能力,以避免盲目增加網絡的可訓練參數數量,并構建了一個單向鑒別器,將兩個訓練目標(即獲得更好的圖像質量和文本-圖像語義對齊)結合到一個方向(即提高融合特征的質量)中,以減少條件GAN中的冗余。這項工作為構建一個輕量級框架鋪平了道路,該框架旨在實現多模態信息之間的有效交互,并且也可以輕松部署在各種真實世界的應用中。
引言
視覺感知是人類解釋周圍環境的最重要能力之一。每天,人類消耗的視覺信息量令人難以置信,他們觀看視頻、拍照、欣賞繪畫以及在社交媒體上分享。例如,YouTube每天幾乎有50億視頻被觀看;僅Instagram每天就有超過9500萬照片被上傳。如此大量的視覺數據的可用性為研究人員提供了前所未有的機會來構建各種視覺解釋和合成方法,如(1)物體/場景分類(He等,2016年;Simonyan和Zisserman,2014年;Szegedy等,2015年,2016年;Zhou等,2014年b),(2)物體檢測(Girshick等,2014年;Long等,2015年;Ren等,2015年;Ronneberger等,2015年;Howard等,2017年;Redmon等,2016年),(3)圖像描述(Donahue等,2015年;Xu等,2015年),(4)視覺問題回答(Andreas等,2016年;Johnson等,2017年;Lu等,2016年;Nam等,2017年;Antol等,2015年;Anderson等,2018年;Yang等,2016年),(5)文本到圖像生成(Reed等,2016年b;Xu等,2018年;Zhang等,2017年a,2018年a),(6)圖像到圖像翻譯(Isola等,2017年;Park等,2019年;Wang等,2018年;Zhu等,2017年),(7)文本引導的圖像操作(Dong等,2017年;Li等,2020年a,c;Nam等,2018年),(8)故事可視化(Li等,2019年c;Song等,2020年;Maharana等,2021年;Maharana和Bansal,2021年)等等。這些方法旨在實現多模態表征之間的跨域轉換,例如,將非視覺數據(如自然語言描述或場景圖)轉換成視覺信息(如視頻或圖像),反之亦然,并旨在實現它們之間的有效交互。 在這篇論文中,我專注于探索實現多模態信息(例如,語言和視覺信息)之間有效交互的原則,包括(1)如何在一個聯合語義空間中為這些信息構建一致的表示,(2)如何有效地連接并融合來自不同模態的特征,以及(3)如何減輕計算需求以實現有效的交互。我的研究可以在許多領域啟用無數潛在的應用,包括設計、視頻游戲、藝術、建筑和醫學診斷等等。
為了實現多模態信息之間的有效交互,首先,重要的是對具有相似語義含義的信息有一個一致的表征。這是因為來自不同領域的信息可能有它們自己的表征形式,因此,在一個高維語義空間中,這些特征的位置可能會彼此相距甚遠,即使它們表達的是相似的語義含義。即使是來自同一領域的信息也會發生這種情況(Mikolov等人,2013年),例如,對于意思相同但使用同義詞的兩個句子,比如“貓”和“小貓”,它們在語義空間中的表征可能不會完全相同。當特征的維度增加時,這種情況可能會變得更糟,這是由維度的詛咒(Bellman,1966年)引起的:隨著特征或維度的數量增長,我們需要準確概括的數據量呈指數增長。所以,一個問題出現了:如何為具有相似語義含義的同一領域或不同領域的信息構建一致的表征?這一點很重要,因為具有一致的表征意味著具有相似語義含義的信息可以在高維語義空間中有固定且接近的位置,因此即使來自不同模態的信息也可以在空間中的適當范圍內容易地從一個轉換到另一個,這與本論文實現多模態信息之間有效交互的目標是一致的。
為了考慮實例之間的相似性,我們首先從對比學習中尋求幫助,對比學習是自監督表征學習的一個強大方案(Oord等人,2018年;He等人,2020年;Chen等人,2020年;Zhang等人,2021年),它可以通過對比正樣本對和負樣本對來強化不同增強下的表征一致性。然而,對比學習并沒有考慮樣本的語義信息和語義相似性,它簡單地將兩個樣本視為正樣本對,只要它們位于將通過網絡傳播的訓練樣例的相同位置(即在同一個批次中),并且當它們在不同的批次中時視為負樣本對,而不考慮它們的語義信息。通過這種做法,學到的表征可能會受到相當大的影響。例如,簡單采用對比學習可能會將具有相似語義含義但在不同批次中的實例推得相距甚遠,從而可能破壞它們之間的語義一致性。
為了考慮樣本之間的相似性,聚類算法(Alwassel等人,2020年;Asano等人,2020年;Caron等人,2020年;Li等人,2020年d)可以補救上述問題,聚類算法將相似的實例(即具有相似語義含義的實例)分組到同一個簇中,并將不同的實例推到不同的簇中。因此,對比學習和聚類學習互為補充,采用對比學習可以讓我們更好地探索跨模態的互信息,并且使用聚類學習將具有相似語義含義的信息分組到同一個簇中,從而實現一致的表征。更多細節將在第三章中呈現。
在為具有相似語義含義的同一或不同模態信息建立了一致的表征之后,另一個問題出現了:如何實現這些信息之間的有效交互?更具體地說,如何有效地構建圖像中的視覺特征與句子中相應的語義詞之間的連接?這是因為機器需要理解給定文本描述的語義含義,并且識別特定的圖像區域,然后它才能生成具有文本要求的對象和屬性的圖像,或者修改特定的圖像區域以匹配給定的文本描述。
為了實現不同模態信息之間的有效交互,提出了三種方法:(1)基于詞級注意的連接,輔以補充的詞級鑒別器提供細粒度的訓練反饋,(2)文本-圖像仿射組合模塊,以及(3)基于記憶的方法。這些方法使網絡能夠有效地將圖像區域的視覺屬性與相應的語義詞聯系起來。更多細節將在第四章中呈現。
在有了一個框架以實現多模態信息之間的有效交互之后,又出現了一個問題:這個框架能否在大多數設備中輕松部署?更具體地說,有可能開發一個不依賴昂貴計算資源的框架嗎?這主要是因為,當一個網絡涉及到不同模態的信息時,可能需要大量增加可訓練參數的數量,這旨在讓網絡能夠全面學習捕捉多模態信息之間的相關性,并彌合領域差距。需要大量計算資源的要求可能會大大阻礙這個框架的部署,這對于實際應用中的實現來說是不切實際的。為了解決這些問題,我們提出提高基于GAN網絡的生成器和鑒別器的能力,并重新思考條件GAN中鑒別器的架構,而不是盲目地通過增加大量的可訓練參數來增加網絡的特征維度。更多細節將在第五章中呈現。
深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。
首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。
接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。
最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。
盡管神經網絡在各種應用中的高度公開化的成就備受矚目,但它們尚未在安全關鍵的應用中得到廣泛部署。實際上,關于深度學習系統的魯棒性、公平性、隱私性和可解釋性存在基本的疑慮。在這篇論文中,我們致力于通過提出有關神經網絡驗證和訓練的貢獻,提高對深度學習系統的信任。首先,通過為流行的網絡松弛設計雙重求解器,我們提供了快速且可擴展的神經網絡輸出邊界。具體來說,我們提出了兩種求解元素激活函數凸殼的求解器,以及基于ReLU激活與前線性層組合凸殼的兩種算法。我們展示了這些方法比現有求解器明顯快,并且改善了以往雙重算法的速度-精度權衡。為了有效地利用它們進行正式的神經網絡驗證,我們圍繞邊界算法設計了一個大規模并行的分枝定界框架。我們的貢獻,作為OVAL驗證框架的一部分,已經公開發布,它們改善了現有網絡驗證器的可擴展性,并對更近期的算法開發產生了影響。其次,我們提出了一種直觀且經濟的算法,通過分枝定界來訓練神經網絡以進行可驗證性。我們的方法被證明可以在驗證對小的敵對性擾動的魯棒性方面達到最先進的性能,同時比之前的算法降低了訓練成本。最后,我們進行了全面的實驗評估,評估了一次訓練網絡執行多個任務的專門訓練方案,顯示它們與簡單基線的性能相當。我們對我們的驚人結果提供了部分解釋,旨在進一步激發對深度多任務學習理解的研究。
在過去的幾年里,神經網絡在各種備受關注的應用中取得了顯著的性能,從蛋白質折疊(Senior等人,2020;Jumper等人,2021)到快速矩陣乘法(Fawzi等人,2022)。由于這些成就的宣傳,基于神經網絡的系統現在常常出現在主流信息媒體中(Geddes,2022;Larousserie,2022;Iannaccone,2022),這導致了媒體曝光率的持續增加。直接的結果是,人們對機器學習算法的可信度產生了極大的興趣(Varshney,2022)。特別的,人們的努力已經朝著確保神經網絡的公平性(Du等人,2020),可解釋性(Angelov和Soares,2020),魯棒性(Carlini和Wagner,2017)和隱私性(Abadi等人,2016)方向發展。深度學習在計算機視覺方面的進展(Krizhevsky等人,2012;Voulodimos等人,2018)尤其迅速,其中已經在標準化任務上取得了超過人類的性能(O’Mahony等人,2019)。然而,對敵對性例子的發現(Szegedy等人,2014;Goodfellow等人,2015),即人類無法察覺的擾動可以顯著改變網絡預測,對這種進步的基礎產生了嚴重的質疑。因此,越來越多的注意力開始致力于提供關于神經網絡行為的正式保證(Liu等人,2021b)。此外,人們注意到深度學習的實踐常常基于民間觀察和固定的流程,而不是對正在使用的復雜算法的嚴謹理解(Sculley等人,2018;Hutson,2018)。幸運的是,有許多工作試圖提供對預先存在的算法的全面評估(Greff等人,2017;Lucic等人,2018),常常揭示了更簡單基線的競爭性能(Brockschmidt,2020;Narang等人,2021)。 在這篇論文中,我們通過開發或為神經網絡驗證和訓練的高效算法提供支持,向可信任的深度學習邁進一步。在概述這篇論文中提出的各項貢獻(§1.4)之前,我們現在將介紹神經網絡驗證(§1.2)以及我們感興趣的背景下的神經網絡訓練(§1.3)。
醫學影像是醫療健康中的重要工具,放射科醫生經過高度培訓,能夠在醫學圖像中檢測和描述疾病。然而,僅依賴人類的分析有其局限性:它可能耗時、變化大且難以擴展。自動化部分醫學圖像分析流程可以克服這些局限性,以支持和擴展臨床醫生和放射科醫生的能力。在本文中,我們將重點研究深度學習在自動化醫學圖像分析中可能起到的轉變性角色。我們將分割視為基于深度學習的圖像分析的關鍵工具,并展示了如何在沒有大量手動注釋訓練數據集的情況下,分割神經網絡可以在許多醫學圖像分析任務上實現高性能。
我們首先描述了兩種在標簽數據有限的情況下訓練醫學圖像分割神經網絡的方法。在我們的第一種方法中,我們將弱監督適應于分割。在我們的第二種方法中,我們將數據增強、一致性正則化和偽標簽融合在一個統一的半監督流程中。這些方法將多種有限標簽訓練方法融入到同一框架中,利用每種方法的優點實現高性能,同時保持標簽負擔低。接下來,我們評估了在多機構、多掃描儀、多疾病數據集上使用有限標簽數據訓練的網絡在臨床相關指標上的表現。我們發現,我們的半監督網絡在某些泛化任務上比全監督網絡(訓練數據標簽多100倍以上)表現更好,與人類注釋者的一致性更強。然而,我們發現了標簽效率方法表現不佳的數據子集。我們提出了一種針對我們半監督流程的主動學習擴展,以解決這些錯誤模式,使困難數據切片上的半監督性能提高18.5%。通過這種評估,我們了解了如何使用有限標簽數據訓練的網絡在臨床任務上的表現,它們與使用豐富標簽數據訓練的網絡的比較,以及如何減輕錯誤模式。
最后,我們將標簽高效的分割模型應用到更廣泛的醫學圖像分析任務中。具體來說,我們展示了分割如何以及為什么可以使醫學圖像分類受益。我們首先分析了為什么在同一數據集和任務上,分割模型和分類模型可能達到不同的性能。然后,我們實現了使用分割模型對醫學圖像進行分類的方法,我們稱之為"以分割為分類",并將這些方法與三個回顧性數據集上的傳統分類進行比較。最后,我們利用我們的分析和實驗總結了與標準分類相比,使用"以分割為分類"的優點,包括:改善樣本效率,能夠在標簽圖像更少的情況下(少一個數量級)提高性能,在低發病率類別和某些罕見子組中(最高提高161.1%的召回率);提高對假相關的魯棒性(最高提高44.8%的魯棒AUROC);以及提高模型的可解釋性,評估和錯誤分析。這些結果表明,利用分割模型可以在常見設置中導致更高質量的醫學圖像分類器。總的來說,本文聚焦于將分割作為支持自動化醫學圖像分析的關鍵工具,并展示了如何訓練分割網絡,在沒有大量標簽負擔的情況下,在許多圖像分析任務上實現高性能。
具有從過去的經驗中學習并根據環境或背景調整行為以實現特定目標的能力,是真正智能實體的特征。為了實現這一目標,開發高效、穩健和可靠的學習算法是研究的活躍領域,也是實現人工通用智能的重要步驟。在本論文中,我們研究了在兩種不同背景下進行最優決策的學習算法,第一部分是強化學習,第二部分是拍賣設計。
強化學習(RL)是機器學習的一個領域,關注的是智能體應該如何在環境中行動以最大化其隨時間累積的獎勵。在第二章中,受統計物理學的啟發,我們開發了一種新穎的強化學習方法,這種方法不僅學習具有增強期望屬性的最優策略,而且為最大熵強化學習帶來了新的見解。在第三章中,我們使用貝葉斯觀點來解決強化學習中的泛化問題。我們展示了環境動態的不完美知識實際上將一個完全觀察到的馬爾可夫決策過程(MDP)轉變為一個部分觀察到的馬爾可夫決策過程(POMDP),我們稱之為認知POMDP。根據這個觀察,我們開發了一種新的策略學習算法LEEP,它具有改進的泛化屬性。
拍賣是組織購買和銷售產品與服務的過程,具有很大的實際意義。設計一個激勵兼容、個體理性的拍賣以最大化收入是一個具有挑戰性且難以解決的問題。最近,有人提出了一種基于深度學習的方法,從數據中學習最優拍賣。盡管取得了成功,但這種方法存在一些局限性,包括樣本效率低、難以泛化到新的拍賣以及訓練困難。在第四章中,我們構建了一種保持對稱性的神經網絡結構,稱為EquivariantNet,適用于匿名拍賣。EquivariantNet不僅樣本效率更高,而且能夠學習到在其他設置中泛化性能良好的拍賣規則。在第五章中,我們將拍賣學習問題提出為一個雙人博弈的新穎表述。由此產生的學習算法ALGNet更容易訓練,更可靠,更適合非平穩設置。
深度強化學習的最新進展已經證明了其在解決現實問題方面的巨大潛力。然而,有兩個問題阻礙了強化學習的應用:效率和效果。**本文研究如何通過設計基于深度模型的算法來提高強化學習的效率和效果。****對動力學模型的訪問使算法能夠進行規劃,這是順序決策的關鍵。本文主要圍繞在線強化學習、神經網絡在深度強化學習中的表達能力、離線強化學習和安全強化學習四個主題展開研究。**對于在線強化學習,本文提出了一個具有理論保證的算法框架,利用在學習環境中學習到的策略在真實環境中可以獲得的性能下界。通過實驗驗證了所提方法的有效性。對于深度強化學習中神經網絡的表達能力,證明了在某些情況下,基于模型的方法比無模型的方法需要更少的表示能力來近似接近最優的策略,并根據經驗表明,這在模擬機器人環境中可能是一個問題,基于模型的規劃器可以幫助。對于離線強化學習,設計了一種算法,使策略能夠保持在提供的專家演示集附近,以減少分布偏移,還進行了實驗,證明了所提出方法在提高模擬環境中機械臂操縱任務成功率的有效性。對于安全強化學習,提出了一種用學到的動力學模型來證明安全狀態的方法,實驗表明,該方法可以在一組簡單但具有挑戰性的任務中學習一個不錯的策略,沒有一次安全違規,而基線算法有數百次安全違規。 //dataspace.princeton.edu/handle/88435/dsp013197xq26c
在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。
//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。
隨著我們構建能夠與周圍真實世界互動的新人工智能技術,從多種模態學習的問題占據了中心舞臺。從醫療保健、教育到通信等應用,越來越多地依賴多種模態已被證明是更準確地感知和處理我們周圍世界的一個獨特因素。在這篇論文中,我們關注在現實世界中學習多模態表示的問題。我們概述了多模態機器學習的三個主要挑戰,并采取具體步驟來解決它們。首先,我們解決了局部融合的挑戰,重點是學習跨模態動力學,包括語言、視覺和聽覺(我們周圍最常見的三種模態)之間的單模態、雙模態和三模態交互作用。隨后,我們躍進到時間融合,其中局部融合挑戰擴展到時間域。時間融合需要模式之間的對齊,這和學習跨模式動力學一樣重要。隨后,第三個挑戰涉及的事實是,在現實世界中,多模態數據幾乎總是部分可見的。我們擴展了變分推理(VI)的功能,以處理甚至是最極端的缺失率和缺失模式的情況。在本文深入研究這些挑戰的過程中,我們對多模態機器學習做出了算法、理論和經驗貢獻。
本論文研究了語言、視覺和聲學模態的多模態學習面臨的三大挑戰: 局部融合挑戰涉及模態間復雜的跨模態交互建模。 時間融合挑戰涉及建模可能存在于順序模式之間的異步數據 丟失數據挑戰涉及建模真實世界部分可觀測的多模態數據