深度神經網絡因其強大的性能,越來越多地應用于計算機視覺任務。然而,它們的訓練需要大規模的標注數據集,而這些數據集的準備工作耗時費力。半監督學習(SSL)通過結合標注數據和未標注數據進行學習,提供了一種解決方案。雖然大多數最先進的SSL方法采用確定性方法,但對其概率模型的探索仍然有限。研究這一領域非常重要,因為概率模型可以提供不確定性估計,這在實際應用中至關重要。例如,由于未標注數據中的潛在偽標簽錯誤,SSL訓練的模型可能不如監督學習訓練的模型,且這些模型在實踐中更容易做出錯誤預測。特別是在醫學圖像分析和自動駕駛等關鍵領域,決策者必須了解模型的局限性以及何時可能出現錯誤預測,這些洞察通常由不確定性估計提供。此外,當使用未標注樣本進行訓練時,不確定性還可以作為過濾不可靠偽標簽的標準,從而有可能提高深度模型的性能。本論文進一步探索了SSL的概率模型。借助廣泛使用的貝葉斯近似工具——蒙特卡洛(MC) dropout,我提出了一種新的概率框架,即生成貝葉斯深度學習(GBDL)架構,用于半監督醫學圖像分割。這種方法不僅緩解了以往方法中潛在的過擬合問題,而且在四項評估指標上都取得了優異的結果。與其經驗設計的前輩不同,GBDL以完整的貝葉斯公式為基礎,提供了理論上的概率基礎。鑒于MC dropout的局限性,我引入了NP-Match,這是一種用于大規模半監督圖像分類的新概率方法。我們通過在不同挑戰性環境下(如標準、不平衡和多標簽半監督圖像分類)的大量實驗,評估了NP-Match的泛化能力。實驗結果表明,NP-Match不僅與先前最先進的方法競爭力強,而且比基于MC dropout的模型更快地估計不確定性,從而提高了訓練和測試的效率。最后,我提出了NP-SemiSeg,一種用于半監督語義分割的新概率模型。這個靈活的模型可以與各種現有分割框架集成,以進行預測和估計不確定性。實驗表明,NP-SemiSeg在準確性、不確定性量化和速度方面都優于MC dropout。
深度概率模型在高維、多模態數據合成和密度估計任務中已成為最新的技術前沿。通過將抽象的概率公式與神經網絡的表達能力和可擴展性相結合,深度概率模型已成為機器學習工具箱中的基本組成部分。然而,這些模型仍然存在一些局限性。例如,深度概率模型通常局限于基于梯度的訓練,因此難以結合非可微操作;它們的訓練和采樣成本較高;并且深度概率模型往往沒有利用先驗的幾何和特定問題的結構知識。 本論文由四部分研究工作組成,通過基于最優傳輸的仿真方法推動深度概率模型領域的發展。首先,使用Sinkhorn算法的正則化最優傳輸,我們提供了一個理論上有依據且可微的粒子濾波中重新采樣的近似方法。這使得人們能夠通過端到端可微粒子濾波對狀態空間模型(一類序列概率模型)進行基于梯度的訓練。接下來,我們探討了Sinkhorn算法的初始化策略以解決速度問題。我們展示了精心的初始化可以顯著加速Sinkhorn算法。這在可微排序、變分自編碼器潛在空間中的聚類以及粒子濾波中都有應用。 剩下的兩項工作通過薛定諤橋對基于擴散的生成模型領域作出了貢獻。首先,我們將擴散模型與薛定諤橋聯系起來,稱之為擴散薛定諤橋。這一方法論實現了加速采樣、數據到數據的仿真以及一種計算高維連續狀態空間問題的正則化最優傳輸的新方法。最后,我們將擴散薛定諤橋擴展到黎曼流形設置。這使得人們能夠結合先驗的幾何知識,從而實現對黎曼流形值數據的擴散模型的更高效的訓練和推理。這在氣候和地球科學中有應用。 觀察到的現象通常具有高維度、分布上多模態,并且來自于尚未完全理解的隨機復雜系統。科學家的職責是更好地理解我們周圍物理和社會世界中的這些觀察現象。對統計機器學習研究人員特別感興趣的是開發數據驅動的模型來模擬和預測感興趣的隨機量及其相互作用。此類數據驅動的機器學習方法通常包括利用大型數據集和富有表現力的模型參數化來彌合領域知識與經驗證據之間的差距。 隨著技術的進步,我們現在能夠捕獲、存儲和訪問大量且不斷增加的數據。結合現代計算資源,廣大數據可用于從業者訓練大型且靈活的神經網絡參數化模型。富有表現力的神經網絡與理論上有依據的統計方法之間的協同作用,提供了一種原則性的、可擴展的方式來準確表示感興趣的隨機量之間復雜關系。深度概率模型正位于此交匯點,并已成功應用于多個領域,包括:視覺和語言的經典機器學習任務;時間序列、預測或密度估計的統計推斷問題;以及自然科學應用。盡管進展迅速,但仍有許多未解決的挑戰。深度概率模型在訓練和部署方面都資源昂貴。如何高效地訓練和模擬概率模型尚不明確,尤其是對于迭代擴散模型。也不總是清楚如何將現有的特定問題知識或結構融入深度概率模型中。從直觀和實驗上來看,結合現有知識可以開發出更有效的損失目標和更高效的模型,從而減少學習高性能模型所需的數據量和參數量。最終,結合領域知識可以減少神經網絡需要通過從數據中學習來彌合的差距。在將涉及非可微操作(如排序、聚類或重采樣)的理論上有依據的統計方法與通常限于基于梯度訓練的深度網絡的表現力相結合方面,也存在許多挑戰。 本論文通過引入基于最優傳輸和仿真方法的新方法,對深度概率模型的發展作出了貢獻。 貢獻
本文包括多項研究成果,可大致分為兩個部分。論文的前半部分使用離散的熵正則化最優傳輸(OT)推導出新穎且改進的深度概率模型訓練方案。論文的后半部分探索了熵正則化最優傳輸在連續狀態空間和擴散模型中的新方法,通過擴散Schr?dinger橋和黎曼擴展來實現。 仿真方法。仿真是一個廣泛使用的術語,通常與蒙特卡羅(Monte Carlo)互換使用。在本研究中,仿真是指對隨機過程的評估,包括:蒙特卡羅積分、馬爾可夫鏈蒙特卡羅、概率模型以及簡單的隨機變量實現。本文中仿真將用于兩個上下文。首先,仿真在蒙特卡羅積分的意義上使用,指的是近似那些通常表現為不可解積分的損失。其次,運行概率模型的生成過程也稱為仿真。在某些方法中,從概率模型進行仿真直接用于近似訓練損失,例如GANs。然而,其他可擴展方法如擴散模型在訓練和部署期間有不同的仿真過程。 可微分粒子濾波。本文的第一篇文章【19】詳細介紹于第三章,考慮利用Sinkhorn算法實現端到端可微分粒子濾波。這允許訓練神經網絡參數化的狀態空間模型,從而以原則性的方式利用問題的序列結構以及神經網絡的表達能力。粒子濾波是一類蒙特卡羅方法,用于在狀態空間模型中執行狀態推斷和似然估計【30】。給定按時間t ∈ {1, . . . , T}索引的順序未觀察到的潛在狀態(Xt)t和觀測值(Yt)t,狀態空間模型是一個順序概率模型,其特征在于潛在狀態的轉移模型,表示為密度fθ(xt|xt?1),以及觀測模型gθ(yt|xt)。這在包括機器人技術、計量經濟學和流行病學在內的科學領域中有應用【18, 29, 31, 33】。粒子濾波提供了觀測值的漸近無偏對數似然估計log p(y1:T),可用于以原則性的方式學習轉移和觀測模型的參數。 粒子濾波包括三個主要操作的順序應用:
圖是簡單而強大的數據結構,通過節點和邊描述實體及其相互關系,使其成為模擬各種實際對象(從分子到社會或生物網絡)的流行候選者。由于其適用于各種建模場景,基于圖形狀數據的機器學習在過去幾年中已成為一個重要的研究領域。雖然與機器學習模型結合時非常強大,但圖在提出獨特挑戰方面也具有其特性,這些模型需要能夠適應不僅數據高度多樣化,而且圖域也可能在大小、連通性模式及其與節點特征的交互等方面變化。在這項工作中,我假設高斯過程——一類貝葉斯非參數模型,特別適合于圖域上的數據建模。 為了證明這一假設,我通過推導適用于圖數據的高斯過程模型來展示貝葉斯非參數建模的優點,這些模型適用于圖機器學習中三個最重要的任務:鏈接預測、圖級預測和節點級預測。結果模型展示了許多優勢,包括良好的模型擬合和由于其非參數性質而對過擬合的強大抵抗力,以及校準良好的不確定性估計。此外,高斯過程優化超參數的能力允許設計適應圖特定特征的模型,例如圖信號的平滑性和多尺度結構或特征的局部性。這些提議模型的優勢,特別是與一系列基線模型相比的競爭性能,已在廣泛的實際數據集上的大量實驗中得到證實。
深度神經網絡越來越多地被用于計算機視覺任務,這得益于它們的強大性能。然而,它們的訓練需要大規模的標記數據集,這些數據集的準備工作非常耗時。半監督學習(SSL)通過從標記和未標記數據的混合中學習提供了一個解決方案。雖然大多數最先進的SSL方法遵循確定性方法,但對其概率對應物的探索仍然有限。這一研究領域非常重要,因為概率模型可以提供對現實世界應用至關重要的不確定性估計。例如,由于未標記數據中潛在的偽標簽錯誤,接受SSL訓練的模型可能不及接受監督學習訓練的模型,這些模型在實踐中更可能做出錯誤的預測。特別是在醫學圖像分析和自動駕駛等關鍵領域,決策者必須了解模型的局限性以及可能發生錯誤預測的時機,這些洞察通常由不確定性估計提供。此外,當使用未標記樣本進行訓練時,不確定性還可以作為過濾不可靠偽標簽的標準,從而可能提高深度模型的性能。本論文進一步探索了SSL的概率模型。依靠廣泛使用的貝葉斯近似工具——蒙特卡洛(MC)dropout,我提出了一個新的概率框架,即生成式貝葉斯深度學習(GBDL)架構,用于半監督醫學圖像分割。這種方法不僅緩解了以前方法中發現的潛在過擬合問題,而且在四個評估指標中都取得了更優的結果。與其經驗設計的前身不同,GBDL由完整的貝葉斯公式支撐,提供了理論上的概率基礎。承認MC dropout的局限性,我引入了NP-Match,一種新的大規模半監督圖像分類的概率方法。通過在不同的挑戰性設置中進行廣泛的實驗,包括標準的、不平衡的和多標簽的半監督圖像分類,我們評估了NP-Match的泛化能力。根據實驗結果,NP-Match不僅與以前的最先進方法相比有優勢,而且比基于MC-dropout的模型更快地估計不確定性,從而提高了訓練和測試的效率。最后,我提出了NP-SemiSeg,一種新的半監督語義分割的概率模型。這種靈活的模型可以與各種現有的分割框架集成,以進行預測和估計不確定性。實驗表明,NP-SemiSeg在準確性、不確定性量化和速度方面都超過了MC dropout。
深度學習在過去的十年里引領了革命性的進展,它在各種任務的前沿,包括計算機視覺、自然語言處理和強化學習等領域取得了非凡的成就。然而,眾所周知,通過最大似然估計訓練的深度模型往往過于自信,并給出校準不良的預測。貝葉斯深度學習試圖通過在模型參數上放置先驗,然后與似然結合來執行后驗推斷來解決這個問題。不幸的是,對于深度模型來說,真實的后驗是難以處理的,迫使用戶不得不求助于近似。在這篇論文中,我們探討了作為近似的變分推斷的使用,因為它在同時近似后驗和提供邊緣似然的下界方面是獨一無二的。如果這個下界足夠緊,就可以用來優化超參數和促進模型選擇。然而,這種能力在貝葉斯神經網絡中很少被充分利用,可能是因為實踐中通常使用的近似后驗缺乏有效限制邊緣似然的靈活性。因此,我們探索了深度模型的貝葉斯學習的三個方面。首先,我們的調查從詢問是否有必要對盡可能多的參數進行推斷開始,或者是否合理地將許多參數作為超參數,我們通過邊緣似然來優化它們。這將帶來顯著的計算節省;然而,我們觀察到這可能導致病態行為和嚴重的過擬合,表明盡可能“完全貝葉斯”是更好的選擇。我們繼續我們的論文,提出了一種變分后驗,它為貝葉斯神經網絡和深度高斯過程中的推斷提供了統一的視角,我們展示了它有足夠的靈活性來利用添加的先驗超參數。最后,我們展示了如何在某些深度高斯過程模型中通過從后驗中解析去除對稱性,并對格拉姆矩陣而不是特征進行推斷來改進變分推斷。雖然我們沒有直接調查我們的改進在模型選擇中的使用,但我們希望我們的貢獻將為將來充分實現變分推斷的承諾提供一個跳板。
近年來,機器學習在許多應用中證明了其極高的用途性。然而,這些成功故事很多都源于在與訓練數據非常相似的數據上評估算法。當應用于新的數據分布時,機器學習算法已被證明會失敗。鑒于現實世界數據的非平穩和異構性質,我們需要更好地掌握算法在分布外(out-of-distribution)的泛化能力,以便算法能被廣泛部署和信任。我的論文提出了三個研究課題,旨在調查和發展分布外泛化的領域。這些研究努力的中心目標是產生新的工具,如算法、理論結果、實驗結果和數據集,以提高在數據分布發生變化時機器學習方法的理解和性能。貫穿這三個機器學習場景的高級思想是模塊性——由組合在一起形成一個整體的獨立部分的質量。模塊化方法被假設為引導機器學習方法遠離僵化的記憶示例,走向更靈活和“更智能”的支持泛化的學習。
在我的第一項貢獻中,我從多個訓練分布的學習角度來接近論文目標。對這一研究方向的貢獻有兩方面。首先,我呈現了一組新的標準化任務,用于評估和比較分布外泛化算法。其次,我陳述了一系列新的理論結果,填補了數據中心和算法方法之間在分布外泛化方面的現有差距。這些理論發現引導了一組關于如何采用算法方法的新的實用建議。
在第二項貢獻中,我處理了監督圖像識別中的泛化問題。在這一背景下,我首先調查了多級特征聚合對泛化的影響,并證明了使用其中一種考慮的方法進行增強可以持續提高性能。其次,我提出了一組簡單的圖像數據集,可作為評估和比較圖像分類方法在分布外泛化方面的墊腳石。最后,我深入研究了多個神經網絡通信以解決共享任務的學習場景。這項工作以兩種方式支持論文目標。首先,我提出了一個新的環境,圖引用游戲(graph referential games),并在數據表示和相應的數據表示學習方法對分布外泛化的影響上提出了結果。這些結果連接了之前不相連的圖表示學習和新興通信領域。其次,我解決了基于現實圖像的群體通信這一具有挑戰性的領域。這篇論文中的數據集、算法、定理和實驗結果代表了在機器學習中理解和改進分布外泛化方面的幾個步驟。它們為研究人員提供了旨在促進這一領域研究的新工具和結果,其中一些已被證明對研究社群有用。最后,這項工作提出了機器學習的多個分布學習、圖像分類和多代理通信子領域中重要的未來方向。
//www.repository.cam.ac.uk/items/8680585b-87ca-4196-987f-c4d379259092
記憶與學習是否相同?阿根廷作家豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)的短篇小說《記憶者富內斯》(Funes the Memorious,由James E. Irby翻譯成英文[71,第59–66頁])描述了一個名叫富內斯的男孩,在頭部受傷后獲得了完美的記憶。他開始詳細地記住他一生的每一個時刻。同時,他失去了泛化的能力:他的記憶彼此是孤立的。例如,他從不同的角度看到同一只狗,卻只把同一只狗的不同側面視為獨立的信息。他甚至不了解自己的身體是什么樣的(‘每次看到鏡中的自己的臉,看到自己的手,都讓他感到驚訝’),這導致了一個結論:‘思考就是忘記一個差異,進行泛化,進行抽象。在富內斯過于充實的世界里,只有細節。’""與富內斯相似,具有數百萬參數的現代神經網絡已被證明會記住訓練樣本,這可能導致一系列問題,例如:(1)對噪聲數據的高度敏感性[150, 221],(2)易受對抗性攻擊的影響[271, 87, 269, 287],(3)與人類學習相比樣本效率低[302, 303, 275],以及(4)對新數據的泛化能力差[62],即使新數據樣本直觀地與模型已經訓練過的數據有相似之處[61, 251]。這些問題可能出現在應用現代機器學習的任何領域。它們可能導致機器學習系統在使用過程中產生不透明的故障模式,從而導致對機器學習系統的信任度下降[297]。"
"標準機器學習方法中缺少對分布外泛化(Out-of-distribution generalisation)的能力。這些方法得到了統計學習理論[279]的支持,該理論證明了使用基于平均值的優化(經驗風險最小化[279])以及使用測試集估計泛化誤差的做法是合理的。然而,這一理論假設訓練(過去)和測試(未來)數據是獨立同分布的。在應用機器學習的許多實際領域中,這一假設是不正確的:現實世界的數據是異構的,其分布通常會隨時間變化。分布變化的實際來源包括機器學習系統用戶特性的變化,或一個有實體的代理(embodied agent)所處環境的變化。另一個常見的分布變化例子是由于語言(包括在線使用的語言)動態性而產生的。自然語言的不斷演變已被證明會改變語言模型的困惑度(perplexity),當這些模型在數月內多次應用時[164]。背景章節的第2.4節更多地涵蓋了分布變化的類型和相應的例子。由于這些變化,即使在常用的分布內測試集上達到接近100%的準確率也不總是能預示未來的性能,這一點已被眾多論文所證明[137, 15, 61, 235, 204, 62]。"
"在機器學習領域,關于分布外泛化(OOD generalisation)的主題實質上與機器學習本身一樣廣泛和復雜,并且在研究社群中同樣容易受到瞬息萬變的趨勢和不同觀點的影響。在我看來,面對分布變化提高泛化能力是必要的,原因如下: ? 工程原因 — 提高樣本效率,并在沒有數千個訓練樣本的低資源領域提高性能[110]; ? 科學原因 — 深入了解神經網絡是如何學習的,并可能讓機器學習更接近人類學習; ? 商業原因 — 在目前由人類執行的越來越復雜的任務中使用神經網絡; ? 社會原因 — 通過控制簡單性偏見[246]來消除機器學習系統的偏見。
利用數據中的‘捷徑’可能會導致不公平的解決方案(例如,這可以在招聘工具中利用性別信息時看到[59])。在我的博士研究期間,我一直在問自己:致力于分布外泛化的機器學習研究社群最需要什么樣的工具?這篇論文旨在以新數據集、新理論結果、新測試平臺、新實驗結果和新算法的形式提供這樣的工具。這些研究努力的具體成果總結在圖1.1中。"
導致這篇論文的研究工作涉及機器學習的三個子領域:多分布學習(第3章)、圖像分類(第4章)和多智能體通信(第5章)。這種廣泛的視角使我能夠收集更多證據來支持中心假設,并探討研究問題(第1.2節)。同時,本論文中介紹的工具旨在對我在博士研究期間有幸與之合作和學習的幾個機器學習社群有所用處:(1)不變學習和群體魯棒性社群(第3章),(2)視覺社群(第4章),以及(3)新興通信社群(第5章)。所有這些社群都在獨立地研究機器學習中的分布外泛化,正如我在背景章節(第2章)以及各自貢獻章節中所回顧的。本論文聯系了我在研究中涉足的之前是分離的社群,例如圖神經網絡[141]與新興通信[43](第5章),以及面向群體魯棒性的數據導向方法[36]與分布魯棒優化[21](第3章)。"
表示學習已經成為一種多功能工具,能夠利用使用數字技術獲得的大量數據集。該方法的廣泛適用性源于其作為子系統使用的靈活性和在模型架構中納入先驗的可擴展性。數據內部的直觀依賴關系,如像素主要對其鄰近的上下文做出貢獻,可以被形式化和嵌入,以提高泛化,并允許具有很大能力的模型避免過擬合。元學習也被應用于將這些系統擴展到低數據設置,通過將特定任務視為更普遍問題的實現而不損失性能。本文考慮如何利用這些方法的基本兼容性。本工作的主要論點是,歸納偏差提供的計算的清晰度可以用于改進元學習架構,并直接構建元學習器過去經驗和解決問題能力到新任務的遷移。通過融合這些方法開發的方法可以在廣泛的設置和領域中提高與基線模型相比的性能。融合有三種實現方式。第一個將復合分類確定為一種自然設置,并展示了如何使用注意力下數據點的自組織來增強元學習分類器。第二種使用顯式關系推理來調節和重組神經模塊,以在測試時快速準確地適應。自適應神經過程來捕獲關系和時間依賴,以提高預測和不確定性估計的準確性和一致性。在驗證本文的激勵假設時,這些貢獻在其他領域中發現了最先進的應用,包括小樣本圖像分類、粒子控制系統的相互作用的無監督恢復、蛋白質-蛋白質相互作用位點預測以及動力系統的識別和演化。通過這樣做,這項工作有助于使機器智能應用于更廣泛、更精細的問題范圍——作為所考慮問題的解決方案,作為進一步應用的架構模板,以及作為未來研究的方向。
深度學習為我們提供了越來越復雜的神經網絡,可以通過梯度上升來調整,以最大化某些目標。貝葉斯統計為我們提供了一種原則性和統一的方法來指定統計模型和執行推斷。將這兩種方法配對的一種有效方法產生了深度生成模型(DGM),其中概率模型中統計參數之間的映射本身使用神經網絡進行參數化。在本文中,我們研究了這種方法可以用于解決機器學習中的各種問題的方法,以及由此產生的模型的屬性。在這篇論文中,有三個反復出現的主題,魯棒性,結構和層次,貫穿始終。
首先研究如何構建一個深度生成模型,以在一種稱為半無監督學習的新學習機制中進行學習。這是半監督學習的一個極端情況,對于某些類別的數據,沒有給定的標記示例。在學習將數據劃分為不同的成分,不同的基礎真值類時,模型必須能夠在未標記的類上進行聚類,并在給出了一些標記示例的類上進行半監督學習。本文展示了如何在一系列標準數據集上實現這一點。
從處理一個離散潛變量聚類分配開始,研究具有離散潛變量層次結構的模型。我們提出了一種新的方法來參數化這種類型的模型中的潛在變量,放松的責任向量量化,可以訓練非常深的潛在變量層的層次結構。該方法在一系列標準數據集上,對端到端的分層離散DGM進行訓練,在最大化數據證據(訓練和測試集)的下界方面取得了最先進的結果。在這樣做的過程中,這些模型有助于縮小具有離散潛在的分層DGM和具有連續潛在的分層DGM之間的差距,并提供極其穩定的訓練。
然后我們切換到另一個問題,如何構建一個模型,以有效地從高維數據中學習統計獨立的潛在表示。本文提出一種分層方法,使用雙射函數flow來產生一個中間表示,然后由高度約束的線性獨立成分分析(ICA)模型起作用。與其他方法相比,這導致了在各種玩具和真實數據集上的優越性能。
然后,研究迄今為止未考慮的問題,即如何使DGM對對抗性攻擊具有魯棒性。對這些模型的潛空間進行正則化可以可靠地誘導魯棒性,并通過將這種正則化應用于分層的DGM來獲得更魯棒的模型。最后,從理論角度研究了DGM算法的魯棒性問題。我們定義r-魯棒性,DGM魯棒性的新標準,然后得出該標準上的間隔,在該間隔內的模型可以說是魯棒的。與潛空間被正則化的各種DGM的最佳模型的新理論相結合,這種間隔的形式有助于了解這種正則化如何提高魯棒性。
**本文提出的工作表明,深度學習和貝葉斯統計的結合是多么有效,并提供了對他們的組合所產生的模型本質的見解。**這為這兩個方向開辟了新的研究——為建立在所提出工作之上的新模型,也為研究深度生成模型的理論工作開辟了新途徑。
//ora.ox.ac.uk/objects/uuid:fa76ad20-30bb-48a3-8ae4-56da578a1767
關系數據在現代計算中無處不在,并驅動跨多個領域的幾個關鍵應用程序,如信息檢索、問題回答、推薦系統和藥物發現。因此,人工智能(AI)的一個主要研究問題是建立以有效和可靠的方式利用關系數據的模型,同時注入相關的歸納偏差和對輸入噪聲的魯棒性。近年來,圖神經網絡(GNNs)和淺節點嵌入模型等神經模型在關系結構的學習表示方面取得了重大突破。然而,這些系統的能力和局限性還沒有被完全理解,在賦予這些模型可靠性保證、豐富它們的關系歸納偏差以及將它們應用于更具挑戰性的問題設置方面仍存在一些挑戰。在這篇論文中,我們研究了關系數據的學習和推理。更具體地說,我們從理論上和實證上分析了現有模型的性質和局限性,并提出了改進關系歸納偏差和表征能力的新方法。
//ora.ox.ac.uk/objects/uuid:da7744ad-effd-4fc9-b7ab-a00b03a86a53
1. 引言以神經網絡為動力的深度學習系統已經在各種具有挑戰性的任務上取得了突破性的成果,如計算機視覺[96]和機器翻譯[160]。深度學習模型在最少人為干預的情況下從數據中學習模式,并在其訓練集之外進行經驗歸納。因此,在多個領域應用深度學習系統的興趣越來越大。沿著這些思路,近年來一個突出的研究前沿是將深度學習應用到關系數據中。從根本上說,關系數據將信息表示為一組通過語義意義關系連接的實體。例如,可以將在線市場上的產品、賣家和用戶表示為實體,并將交易描述為跨上述三種實體類型的三元關系,例如,Alice從Charlie那里購買了一個球。關系數據的一個流行的特例是圖結構,其中關系最多是二進制的。在這種情況下,關系可以被視為定義(標記)圖實體之間的邊,這些實體本身構成了圖節點。關系表示非常通用,并且出現在各種應用程序領域中。例如,社交網絡中的用戶根據他們的互動(友誼、關注、點贊)成對連接,可以被視為一個圖結構。這同樣適用于引文網絡中的論文[153,154]及其引文連接,以及分子,其中原子可以被視為實體,它們的鍵可以表示為二進制關系。事實上,關系數據封裝了幾個傳統數據域。例如,圖像是網格形狀的圖形的一種特殊情況,其中相鄰的像素由一條邊連接,序列是一系列實體,這些實體的邊連接著連續的實體。鑒于關系數據的普遍存在和圖結構的普遍存在,構建強大的關系機器學習模型是一個重要的研究問題,其分支涉及多個任務,如信息檢索[182]、問題回答[20]、推薦系統[173]和藥物發現[60]。廣義上講,機器學習任務可以分為三大類:
1. 節點級的任務。給定一個帶有未標記或部分標記節點的輸入圖,節點級任務旨在預測節點屬性,例如,對于沒有預標記屬性的節點,預測一個類或一個值。例如,在引用網絡中,論文(輸入圖中的實體)具有內容特征,并且通過二元引用關系與其他論文相連,預測論文的主題就是一個節點分類任務。
2. Graph-level任務。給定一個輸入圖,圖級任務尋求基于節點特征、邊和整體輸入圖結構預測全局圖屬性,如類或值。這些任務在分子圖中非常突出,包括幾個圖性質預測問題,如毒性分類和零點振動能(ZPVE)回歸[140]。
3.Edge-level任務。給定一個輸入圖,邊級任務旨在預測現有邊的未知邊屬性,或者更常見的是,基于現有邊和節點特征預測圖中缺失的邊。對于后一種情況,當輸入圖是單關系圖時,該問題稱為鏈接預測,如引用網絡,當輸入圖是多關系圖時,該問題稱為知識圖譜補全(KGC)。在本文中,我們研究了關系數據(圖結構和更一般的關系數據)的學習和推理,并提出了幾個模型和框架,以理論分析和結果支持,以提高該領域模型的關系歸納偏差和表示能力。更具體地說,我們系統地研究現有模型,證明它們的理論屬性和結果,并提出擴展和新模型,以(i)可證明地捕獲和/或強加豐富的關系歸納偏差,(ii)更好地理解現有模型的表現力和表征局限性,以及(iii)將現有模型和方法擴展到與推理和推理相關的新穎的、具有挑戰性的應用領域。
長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。
//www.repository.cam.ac.uk/handle/1810/304385
其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。
深度學習的出現為許多基本的計算機視覺任務帶來了巨大的進展,如分類、檢測和分割,這些任務描述了圖像和視頻中物體的類別和位置。在監督學習方面也做了很多工作--教機器使用人類注釋的標簽來解決這些任務。然而,機器只知道某些物體的名稱和位置是不夠的;許多任務需要對復雜的物理世界有更深入的了解--例如,物體與周圍環境的互動(通常通過創造陰影、反射、表面變形和其他視覺效果)。此外,在嚴重依賴人類監督的情況下,訓練模型來解決這些任務,成本很高,而且不切實際,難以推廣。因此,本論文探索了兩個方向:首先,我們的目標是超越分割,解決一個全新的任務:將物體與其相關的視覺效果(如陰影、反射或附著的物體)分組;其次,我們以自我監督的方式解決視頻物體分割的基本任務,而不依賴任何人類注釋。
//ora.ox.ac.uk/objects/uuid:6c722b16-1a13-4ae1-aebb-fb7026820a64
為了將物體與其相關的視覺效果自動分組,我們采用了一種分層的方法:我們的目標是將視頻分解成特定的物體層,其中包含所有與物體一起移動的元素。這些層的一個應用是,它們可以以新的方式重新組合,以產生一個高度真實的、經過改變的原始視頻版本(例如,刪除或復制物體,或改變其運動的時間)。這里的關鍵是利用卷積神經網絡的自然屬性來獲得輸入視頻的分層分解。我們設計了一個神經網絡,通過對視頻的過度擬合,為視頻輸出層。我們首先介紹了一種針對人類的方法,然后展示了如何將其適應于任意的物體類別,如動物或汽車。我們的第二個任務是視頻物體分割:為視頻中的物體產生像素級的標簽(段)。我們以前的工作是在單個視頻上進行優化,而在這里,我們采取了一種數據驅動的方法,以自我監督的方式對大量的視頻語料庫進行訓練。我們考慮了兩種不同的任務設置:(1)半監督物體分割,即為單一幀提供初始物體掩碼,該方法必須將該掩碼傳播到其余幀;(2)移動物體發現,即不提供掩碼,該方法必須分割突出的移動物體。我們探討了兩種不同的輸入流。RGB和光流,并討論它們與人類視覺系統的聯系。