我們周圍的物質世界極其復雜,幾個世紀以來,我們一直試圖對其運作方式有更深入的了解。因此,建立能夠預測多物理系統(如復雜血流、混沌振蕩器和量子力學系統)長期動力學的模型仍然是科學領域的一個關鍵挑戰。雖然傳統和計算工具在解決這一開放問題方面有了顯著的改進,但它們仍面臨許多挑戰,計算資源仍然密集,而且容易產生嚴重的錯誤積累。現在,現代機器學習技術,加上大量的傳感器數據,正在推動這個方向取得重大進展,幫助我們從潛在的物理過程中發現復雜的關系。該領域的一個新興領域是混合物理信息機器學習,將物理系統的部分先驗知識集成到機器學習管道中,以提高預測性能和數據效率。在這篇論文中,我們研究了如何使用現有的關于物理世界的知識來改進和增強神經網絡的預測性能。首先,我們展示了旨在保持結構、連通性和能量(如圖、積分器和哈密頓量)的學習偏差可以有效地結合起來,從稀疏、噪聲數據中學習復雜多體節能系統的動力學。其次,通過在神經網絡中嵌入廣義的port- hamilton形式,從數據中準確地恢復不可逆物理系統的動力學。此外,我們強調了我們的模型如何通過設計從稀疏數據中發現潛在的力和阻尼項,以及重建混沌系統的Poincaré部分。最后,我們展示了基于物理的神經網絡可以有效地用于高效和準確的遷移學習——在大量研究良好的微分方程上保持高保真的同時,實現數量級的加速。總的來說,這些創新展示了科學機器學習的一個新方向——將現有知識與機器學習方法相結合。由此自然產生了許多好處,包括(1)準確的學習和長期預測(2)數據效率(3)可靠性和(4)可伸縮性。這種混合模型對于開發能夠建模和預測復雜的多保真度、多尺度物理過程的魯棒機器學習方法至關重要。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。
在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。
//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。
自深度學習革命以來,機器學習文獻中的一個總體趨勢是大型深度模型將持續優于小型淺模型。然而,這種趨勢也帶來了計算需求不斷增加的缺點,最近許多最先進的成果所需的資源遠遠超出了頂級行業實驗室的范圍。這些問題引發了關于機器學習研究民主化的非常現實的擔憂,如果不加以解決,最終可能會導致更多的權力和財富集中在今天能夠向其人工智能研究項目投資巨額資金的機構中。
遷移學習技術是這些問題的潛在解決方案,它允許大型的、通用的模型經過一次訓練,然后在各種情況下重用,只需要最少的計算來適應它們。本文探索了遷移學習的新算法和應用,包括分層強化學習、生成式建模和計算社會科學等領域。在分層強化學習領域內,本文提出一種算法,允許在選項之間遷移(即在不同的選項之間遷移)。例如,時間上抽象的動作),用于獨立但相似的任務。在生成建模領域,我們提出了一種算法,可以在新的數據上重用現有的可逆生成模型,而不產生任何額外的訓練成本。最后,在計算社會科學領域,本文表明,可以從人類設計的模型中遷移知識,以檢測針對排名算法的惡意活動。
在這篇論文中提出的所有算法之間的共同線索是它們本質上是貝葉斯的。我們認為,貝葉斯范式自然適合于遷移學習應用,因為貝葉斯先驗可以作為適應性強的通用模型,通過推理過程可以轉換為特定任務的后驗。
構建高性能的端到端機器學習系統主要包括開發機器學習模型和為感興趣的應用程序收集高質量的訓練數據(假設一個人可以訪問正確的硬件)。盡管在過去幾年里,隨著開源平臺的興起,機器學習模型變得越來越商品化,但管理高質量的標記訓練數據集對許多現實世界的應用來說仍然是昂貴的或不可行的。因此,我們在本文中主要關注數據,特別是如何** (1)通過注入領域特定的先驗知識或利用已為不同任務創建的現有軟件系統和數據集,使用數據高效的機器學習方法減少對標記數據的依賴,(2)有效管理訓練數據并構建相關工具,以最大化數據的效用,(3)通過將數據的結構與嵌入空間的幾何形狀進行匹配,提高嵌入所實現的數據表示的質量**。
我們首先描述了我們在構建數據高效的機器學習方法方面的工作,通過物理驅動的一致性訓練增強、尺度等變展開神經網絡和使用未經訓練的神經網絡弱監督來加速磁共振成像(MRI)重建。然后,我們描述了我們在構建用于自然語言理解的數據高效機器學習方法方面的工作。特別地,我們討論了一種監督對比學習方法用于預訓練的語言模型微調和一種大規模數據增強方法來檢索領域數據。與有效管理訓練數據相關,我們討論了我們提出的用于類表單文檔gather的信息提取系統,并重點討論了訓練數據管理和相關工具中經常被忽略的方面。我們強調了有效管理訓練數據的重要性,表明它至少與機器學習模型在真實數據集的下游提取性能方面的進展一樣關鍵。最后,為了改進各種類型數據的嵌入表示,我們研究了具有異質曲率的空間。我們展示了混合曲率表示為圖和詞嵌入提供了更高質量的表示。此外,我們還研究了如何將Wikidata知識圖譜中的實體嵌入到一個抽象的文本摘要模型中,以增強其真實性。
盡管最近在深度學習方面取得了進展,但大多數方法仍然采用豎井式的解決方案,即為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實世界的問題需要同時解決許多任務。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,對其進行定位,估計其距離和軌跡等,以便在其周圍環境中安全導航。類似地,用于商業應用的圖像識別系統應該能夠標記產品、檢索類似的商品、提出個性化的建議等,以便為客戶提供盡可能好的服務。這類問題促使研究人員建立多任務學習模型。多任務學習的核心思想是并行學習多個任務,同時共享學習到的表示。與單任務情況相比,多任務網絡具有許多實際的優點,單任務情況下,每個單獨的任務由自己的網絡單獨解決。首先,由于層的共享,產生的內存占用大大減少。其次,由于它們避免在共享層中重復計算特征,每個任務一次,它們顯示出提高的推理速度。第三,如果相關的任務共享互補信息,或者作為一個正則化器,它們有可能提高性能。
在構建多任務學習模型時,我們面臨著兩個重要的挑戰。首先,我們需要想出能夠處理多個任務的神經網絡架構。其次,我們需要為共同學習任務制定新的訓練方案。特別是,由于我們并行地優化多個目標,一個或多個任務可能會開始主導權重更新過程,從而阻礙模型學習其他任務。在這份手稿中,我們在視覺場景理解的背景下鉆研了這兩個問題。我們提出了兩種新的模型類型來解決體系結構問題。首先,我們探索了分支多任務網絡,其中神經網絡的更深層次逐漸成長為更具體的任務。我們介紹了一種有原則的方法來自動構建這樣的分支多任務網絡。構造過程將可以用一組相似特征來解決的任務組合在一起,同時在任務相似性和網絡復雜性之間進行權衡。通過這種方式,我們的方法生成的模型可以在性能和計算資源量之間做出更好的權衡。
其次,我們提出了一種新的神經網絡結構,用于聯合處理多個密集的預測任務。其關鍵思想是從多個尺度上對其他任務的預測中提取有用信息,從而提高對每個任務的預測。包含多個尺度的動機是基于這樣的觀察:在某個尺度上具有高相似性的任務不能保證在其他尺度上保持這種行為,反之亦然。在密集標記的兩個流行基準上進行的廣泛實驗表明,與之前的工作不同,我們的模型提供了多任務學習的全部潛力,即更小的內存占用,減少的計算數量,以及更好的性能w.r.t.單任務學習。此外,我們還考慮了多任務學習優化問題。我們首先分析幾種平衡任務學習的現有技術。令人驚訝的是,我們發現了這些工作之間的一些差異。我們假設,這可能是由于多任務學習缺乏標準化的基準,不同的基準受益于特定的策略。基于這個結果,我們然后分離最有希望的元素,并提出一組啟發式方法來平衡任務。啟發式具有實際性質,并在不同的基準測試中產生更魯棒的性能。
在最后一章中,我們從另一個角度來考慮場景理解的問題。文獻中描述的許多模型都受益于有監督的預訓練。在這種情況下,在轉移到感興趣的任務之前,模型首先在一個更大的帶注釋的數據集(如ImageNet)上進行預訓練。這使得模型能夠很好地執行,即使是在只有少量標記示例的數據集上。不幸的是,有監督的預訓練依賴于帶注釋的數據集本身,這限制了它的適用性。為了解決這個問題,研究人員開始探索自監督學習方法。我們以對比學習為基礎來回顧最近流行的作品。首先,我們展示了現有的方法,如MoCo可以在不同的數據集上獲得穩健的結果,包括以場景為中心的數據、長尾數據和特定領域的數據。其次,我們通過增加額外的不變性來改進學習的表示。這一結果直接有利于許多下游任務,如語義分割、檢測等。最后,我們證明了通過自監督學習所獲得的改進也可以轉化為多任務學習網絡。綜上所述,本文提出了幾個重要的貢獻,以改進多任務學習模型的視覺場景理解。創新集中在改進神經網絡結構、優化過程和訓練前方面。所有方法都經過了各種基準測試。該代碼公開發布://github.com/SimonVandenhende。
近年來,深度學習已經將自己定位為機器學習最有前途的方向之一。然而,深度神經網絡在不確定性估計、模型選擇、先驗知識的整合等方面存在許多不足。幸運的是,所有這些問題都可以在貝葉斯深度學習框架內克服,使用貝葉斯神經網絡、變分自編碼器或深度神經網絡高斯過程等模型。不幸的是,這需要使用近似推理過程和先驗分布的規范。在這篇論文中,我們展示了這些模型中先驗規范不僅僅是一個麻煩,而是一個寶貴的機會,可以將領域知識和歸納偏見加入到學習算法中,從而提升全新應用的性能。為此,我們對相關文獻進行了全面的回顧,并進一步貢獻了不同的原創研究成果。
具體地說,我們證明了變分自編碼器中的高斯過程先驗可以改進時間序列的表示學習,并允許對缺失數據進行有效的插補,同時還可以提供校準的不確定性估計。我們還表明,通過使用變分高斯-馬爾可夫過程,這是可能的,在沒有顯著的額外計算成本。此外,我們表明,在變分自編碼器中使用自組織映射作為結構歸納偏差,可以提高學習表示的可解釋性,并使有效的潛在聚類。這些聚類表示可以作為潛在時間序列模型的輸入,從而準確地預測未來的狀態。在貝葉斯神經網絡中,我們證明了常用的各向同性高斯先驗不僅會導致次優性能,而且在某些情況下還會產生所謂的冷后驗效應,即經過緩和的后驗比真正的貝葉斯后驗表現更好。相反,我們提出了具有重尾性和空間相關性的備選先驗,可以提高性能,緩解冷后驗效應。最后,當沒有先驗知識可用時,我們表明先驗分布可以在元學習環境中從相關任務中學習。在深度神經網絡高斯過程的情況下,我們表明元學習的均值函數和核函數的先驗改進預測性能和不確定性估計。
我們希望本文將為貝葉斯深度學習框架奠定基礎,在該框架中,先驗分布的選擇將被視為建模任務的關鍵部分,手工設計和元學習的先驗將在任務之間自由共享,以實現貝葉斯深度學習。
//www.research-collection.ethz.ch/handle/20.500.11850/523269
在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。
本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。
我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。
在過去的幾年中,深度學習和醫學的交叉領域取得了快速的發展,特別是在醫學圖像的解譯方面。在本文中,我描述了三個關鍵方向,為醫學圖像解釋的深度學習技術的發展提出了挑戰和機遇。首先,我討論了專家級醫學圖像解譯算法的發展,重點是用于低標記醫學數據設置的遷移學習和自監督學習算法。其次,我討論了高質量數據集的設計和管理以及它們在推進算法發展中的作用,重點是使用有限的手動注釋的高質量標記。第三,我討論了真實世界的評估醫學圖像算法的研究,系統地分析了在臨床相關分布變化下的性能。總之,這篇論文總結了關鍵貢獻和見解,在這些方向與關鍵應用跨醫學專業。
向量嵌入模型是現代機器學習知識表示和推理方法的基石。這些方法旨在通過在低維向量空間中學習概念和其他領域對象的表示,將語義問題轉化為幾何問題。本著這種精神,這項工作提倡基于密度和區域的表示學習。將領域元素作為幾何對象嵌入到單點之外,使我們能夠自然地表示廣度和一詞多義,進行不對稱比較,回答復雜的查詢,并在標記數據稀缺時提供強烈的歸納偏見。我們提出了一個使用高斯密度的詞表示模型,實現了概念之間的不對稱隱含判斷,以及一個基于軸對齊超矩形表示(盒)格的加權傳遞關系和多元離散數據的概率模型。我們將探討這些嵌入方法在不同的稀疏性、邊緣權值、相關性和獨立結構的適用性,以及表示的擴展和不同的優化策略。我們從理論上研究了盒格的表示能力,并提出了擴展模型來解決在建模困難的分布和圖方面的不足。
空間數據的精確統計分析在許多應用中都很重要。如果不能正確地解釋空間自相關,可能會導致錯誤的結論。與此同時,空間數據集不斷增長的規模帶來了巨大的計算挑戰,因為許多空間分析的標準方法都被限制在幾千個數據點上。
在本論文中,我們探討了高斯馬爾可夫隨機場(GMRFs)如何用于可擴展的空間數據分析。GMRFs與常用的高斯過程密切相關,但具有稀疏性,這使得它們在計算時間和內存方面都很便宜。貝葉斯框架使GMRF作為一個空間先驗,包含了在空間上平滑變化的假設,并給出了一個原則的方法來估計參數和傳播不確定性。
我們開發了一種新的算法,可以將GMRF先驗應用于功能磁共振成像(fMRI)數據中固有的大腦活動,并進行數百萬次觀察。我們表明,我們的方法比以前的工作更快,更準確。提出了一種對后驗不確定性進行估計的逆精度矩陣(即協方差矩陣)中選定元素的近似方法。此外,我們在GMRFs和deep convolutional neural networks之間建立了一個鏈接,這個鏈接已經成功應用于無數的機器學習圖像任務中,形成了一個deep GMRF模型。最后,我們展示了GMRFs如何用于實時機器人搜索和救援行動,以建模受傷人員的空間分布。
//liu.diva-portal.org/smash/record.jsf?pid=diva2%3A1433819&dswid=-2934
空間統計處理描述存在于跨空間測量的數據中的統計模式。以空間位置作為參考的數據在廣泛的領域中是常見的和自然產生的。許多應用是在地理范圍內進行的,例如描述動植物的分布、疾病的傳播或城市中房價的變化。空間數據的一個重要方面是,附近的測量結果往往比距離較遠的更相似,這可以被描述為空間自相關。同一物種的植物更經常發現彼此接近,和房子往往賣類似的價格在同一地區的其他房子,而不是在其他地區的房子。在分析空間數據時,正確地考慮這些依賴關系是得出正確結論和做出可信預測的關鍵。
本文的目的是為了使貝葉斯分析能夠應用于醫學圖像等大尺度空間數據的空間先驗。許多應用需要分層的、結構化的、靈活的貝葉斯空間模型來恰當地描述數據,正確地傳播不確定性,并得出正確的結論。我們通過開發貝葉斯推理的快速算法來解決這個問題,并在幾個應用中展示了它們的性能。
論文分為兩個部分,第一部分是對研究領域的基本介紹,第二部分是研究論文的集合。本章以對這些文章的總結結束。在第二章中,我們回顧了貝葉斯和空間統計模型,特別關注了GMRFs。第三章介紹了貝葉斯推理的方法。第四章介紹了fMRI數據的統計分析,特別是空間先驗。第五章總結了本文的研究成果,并對未來的研究方向進行了展望。