多任務學習對于機器學習的實際應用至關重要。現代方法以算法復雜性為特征,往往并無充分的理由,導致解決方案不切實際。相比之下,這篇論文證明了一種極簡主義的替代方案是可行的,展示了簡單方法的吸引力。"為深度多任務學習的統一標量化辯護"激勵了本論文的其余部分,證明在公平的比較下,沒有更復雜的多任務優化器超過簡單的每任務梯度求和方法。此外,它從正則化的角度提出了一種新的看待多任務優化器的方式。本論文的其余部分關注深度強化學習,這是一個用于順序決策的通用框架。特別是,我們關注當觀察(輸入到模型的)被表示為圖(即,相互連接的節點的集合)時的設定。在"將GNNs擴展到高維連續控制"和"形態在基于圖的不兼容控制中的作用"中,我們通過將觀察集元素表示為圖并部署圖神經網絡(包括變換器)來學習一個針對不同形態的代理的單一控制策略。在前一章中,我們設計了一種簡單的方法來擴展圖網絡,通過凍結網絡的一部分來穩定學習并防止過擬合。在后一章中,我們顯示圖連接性可能對下游任務來說并不是最優的,證明了在沒有圖連接性信息的情況下,限制較少的變換器表現顯著更好。最后,在"對SAT求解器的可推廣分支啟發式"中,我們將多任務強化學習應用于布爾滿足性,這是學術界和工業應用中的基本問題。我們證明了,配備了圖神經網絡進行函數逼近的Q-learning(一種強化學習算法的基礎)可以學習一種可推廣的分支啟發式。我們希望我們的發現將推動該領域的進一步發展:創建更復雜的基準,增加對任務相似性和模型容量的假設,以及探索其他目標函數,而不是專注于跨任務的平均性能。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
在過去的10年里,深度神經網絡在許多監督學習任務上的性能有了巨大的提升。在此期間,這些模型多次在許多經典的機器視覺和自然語言處理基準上重新定義了最高水平。深度神經網絡也被應用到許多實際應用中,包括聊天機器人、藝術生成、語音激活的虛擬助手、監控和醫療診斷系統。這些模型性能的大部分提升可以歸因于規模的增加,這反過來又提高了計算和能源成本。在這篇論文中,我們詳細介紹了如何降低在各種環境下部署深度神經網絡的成本的方法。我們首先關注訓練效率,為此,我們提出了兩種優化技術,這兩種技術可以在沒有大量調整的情況下產生高精度的模型。這些優化器只有一個固定的最大步長超參數需要交叉驗證,并且我們證明他們在廣泛的設置中都優于其他可比較的方法。這些方法不需要繁重的找到好的學習率調度的過程,這通常需要訓練同一網絡的許多版本,因此它們減少了所需的計算。第一個優化器是一種為插值設置設計的新穎的束方法。第二個展示了Polyak式步長與在線估計最優損失值在非插值設置中的有效性。
接下來,我們將注意力轉向訓練具有二進制參數和激活的高效二進制網絡。在正確的實施下,全二進制網絡在推理時間上具有高效率,因為它們可以用更便宜的位運算替換大部分操作。這使得它們非常適合輕量級或嵌入式應用。由于這些模型的離散性質,傳統的訓練方法不可行。我們提出了一種簡單而有效的替代方案,用于優化這些模型的現有技術。
許多目前自動化的順序決策問題,例如制造業或推薦系統中的問題,都是在幾乎沒有不確定性或零災難風險的環境中運行的。隨著公司和研究人員試圖在較少約束的環境中部署自主系統,賦予序列決策算法對不確定性和風險進行推理的能力變得越來越重要。在本文中,我們將討論序列決策的規劃和強化學習(RL)方法。在規劃設置中,假設提供了一個環境模型,并在該模型中優化策略。強化學習依賴于廣泛的隨機探索,因此通常需要一個模擬器來進行訓練。在現實世界的許多領域,不可能構建一個完全準確的模型或模擬器。因此,由于對環境的不完全了解,任何策略的執行都不可避免地具有不確定性。此外,在隨機領域中,由于環境固有的隨機性,任何給定運行的結果也是不確定的。這兩種不確定性的來源通常分別被歸類為認知的不確定性和偶然的不確定性。本文的首要目標是幫助開發算法,以減輕序列決策問題中的兩種不確定性來源。
本文為這一目標做出了一些貢獻,重點是基于模型的算法。本文從考慮馬爾可夫決策過程(MDP)完全已知的最簡單情況開始,提出了一種優化風險規避目標的方法,同時將優化期望值作為次要目標。對于本文的其余部分,我們不再假設MDP是完全指定的。考慮MDP上不確定性的幾種不同表示,包括a)候選MDP的不確定性集合,b) MDP的先驗分布,以及c)與MDP交互的固定數據集。在設置a)中,提出了一種新的方法來近似最小化最大遺憾目標,并在所有候選MDP中找到一個低次優的單一策略。在b)中,我們建議在貝葉斯自適應MDP中優化風險規避,以在單一框架下避免認知和偶然不確定性帶來的風險。在c)中,離線強化學習設置,本文提出兩種算法來克服由于只能訪問固定數據集而產生的不確定性。第一種方法提出了一種可擴展的算法來解決離線強化學習的魯棒MDP公式,第二種方法基于風險敏感優化。在最后一章中,我們考慮一種從演示中學習的交互式表述。在這個問題上,有必要對當前政策執行的不確定性進行推理,有選擇地選擇何時要求進行示威。實驗證明,所提出的算法可以在許多不同的領域中產生風險敏感或魯棒的行為。
**在機器學習技術不斷加速發展的今天,數據在構建智能模型、模擬現象、預測值、做出決策等方面起著至關重要的作用。**在越來越多的應用中,數據以網絡的形式出現。網絡數據固有的圖結構推動了圖表示學習領域的發展。它的作用范圍包括為圖及其組件(即節點和邊)生成有意義的表示。隨著消息傳遞框架在圖上的成功應用,即圖神經網絡,加速了圖表示學習的研究。學習圖上的信息和表達性表示在廣泛的現實世界應用中發揮著關鍵作用,從電信和社會網絡、城市設計、化學和生物學。本文研究了圖神經網絡更具表現力的各個方面,提出了新的方法來提高它們在標準圖學習任務中的性能。本論文的主要分支包括:圖表示的普適性,圖神經網絡感受野的增加,穩定的更深層次圖學習模型的設計,以及標準消息傳遞框架的替代方案。進行了理論和實驗研究,展示了所提出的方法如何成為設計更強大的圖學習模型的有價值和有效的工具。 **在論文的第一部分中,我們研究了圖表示質量作為辨別能力的函數,即,我們如何容易地區分非同構的圖。**首先,我們證明了標準的消息傳遞方案是不通用的,因為簡單的聚合器無法分離具有歧義的節點(相似的屬性向量和鄰域結構)。基于發現的局限性,我們提出了一個簡單的著色方案,可以提供普遍的表示,理論保證和實驗驗證的性能優勢。其次,超越了標準的消息傳遞范式,我們提出了一種將圖語料庫作為一個整體來處理的方法,而不是檢查圖對。為此,我們學習了每個圖的軟排列矩陣,并將所有圖投影到公共向量空間中,在圖分類任務中實現了穩定的性能。
//hal.inria.fr/tel-03666690/ **在論文的第二部分中,我們主要關注的是圖神經網絡的感受野,即一個節點有多少信息來更新其表示。**首先,研究了編碼鄰接信息的標準算子的譜特性,即圖移位算子。本文提出一種新的參數算子族,可以在整個訓練過程中自適應,并為依賴數據的鄰域表示提供一個靈活的框架。這種方法的合并對節點分類和圖分類任務都有很大的影響。研究了如何在節點表示中考慮k跳鄰域信息以輸出更強大的圖神經網絡模型。結果證明,該模型能夠識別結構特性,如連通性和無三角形性。在論文的第三部分,我們解決了長程交互的問題,即位于圖中較遠部分的節點可以相互影響。在這樣的問題中,我們要么需要設計更深層次的模型,要么需要重新表述圖中如何定義鄰近度。首先,研究了更深層次的注意力模型設計,以圖注意力為重點;通過引入一種新的歸一化來校準模型的梯度流,該歸一化可實現Lipschitz連續性。其次,提出一種基于局部熵測度的數據增強方法,利用包含結構信息的信息來豐富節點屬性;
深度學習為我們提供了越來越復雜的神經網絡,可以通過梯度上升來調整,以最大化某些目標。貝葉斯統計為我們提供了一種原則性和統一的方法來指定統計模型和執行推斷。將這兩種方法配對的一種有效方法產生了深度生成模型(DGM),其中概率模型中統計參數之間的映射本身使用神經網絡進行參數化。在本文中,我們研究了這種方法可以用于解決機器學習中的各種問題的方法,以及由此產生的模型的屬性。在這篇論文中,有三個反復出現的主題,魯棒性,結構和層次,貫穿始終。
首先研究如何構建一個深度生成模型,以在一種稱為半無監督學習的新學習機制中進行學習。這是半監督學習的一個極端情況,對于某些類別的數據,沒有給定的標記示例。在學習將數據劃分為不同的成分,不同的基礎真值類時,模型必須能夠在未標記的類上進行聚類,并在給出了一些標記示例的類上進行半監督學習。本文展示了如何在一系列標準數據集上實現這一點。
從處理一個離散潛變量聚類分配開始,研究具有離散潛變量層次結構的模型。我們提出了一種新的方法來參數化這種類型的模型中的潛在變量,放松的責任向量量化,可以訓練非常深的潛在變量層的層次結構。該方法在一系列標準數據集上,對端到端的分層離散DGM進行訓練,在最大化數據證據(訓練和測試集)的下界方面取得了最先進的結果。在這樣做的過程中,這些模型有助于縮小具有離散潛在的分層DGM和具有連續潛在的分層DGM之間的差距,并提供極其穩定的訓練。
然后我們切換到另一個問題,如何構建一個模型,以有效地從高維數據中學習統計獨立的潛在表示。本文提出一種分層方法,使用雙射函數flow來產生一個中間表示,然后由高度約束的線性獨立成分分析(ICA)模型起作用。與其他方法相比,這導致了在各種玩具和真實數據集上的優越性能。
然后,研究迄今為止未考慮的問題,即如何使DGM對對抗性攻擊具有魯棒性。對這些模型的潛空間進行正則化可以可靠地誘導魯棒性,并通過將這種正則化應用于分層的DGM來獲得更魯棒的模型。最后,從理論角度研究了DGM算法的魯棒性問題。我們定義r-魯棒性,DGM魯棒性的新標準,然后得出該標準上的間隔,在該間隔內的模型可以說是魯棒的。與潛空間被正則化的各種DGM的最佳模型的新理論相結合,這種間隔的形式有助于了解這種正則化如何提高魯棒性。
**本文提出的工作表明,深度學習和貝葉斯統計的結合是多么有效,并提供了對他們的組合所產生的模型本質的見解。**這為這兩個方向開辟了新的研究——為建立在所提出工作之上的新模型,也為研究深度生成模型的理論工作開辟了新途徑。
//ora.ox.ac.uk/objects/uuid:fa76ad20-30bb-48a3-8ae4-56da578a1767
設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。
我們周圍的物質世界極其復雜,幾個世紀以來,我們一直試圖對其運作方式有更深入的了解。因此,建立能夠預測多物理系統(如復雜血流、混沌振蕩器和量子力學系統)長期動力學的模型仍然是科學領域的一個關鍵挑戰。雖然傳統和計算工具在解決這一開放問題方面有了顯著的改進,但它們仍面臨許多挑戰,計算資源仍然密集,而且容易產生嚴重的錯誤積累。現在,現代機器學習技術,加上大量的傳感器數據,正在推動這個方向取得重大進展,幫助我們從潛在的物理過程中發現復雜的關系。該領域的一個新興領域是混合物理信息機器學習,將物理系統的部分先驗知識集成到機器學習管道中,以提高預測性能和數據效率。在這篇論文中,我們研究了如何使用現有的關于物理世界的知識來改進和增強神經網絡的預測性能。首先,我們展示了旨在保持結構、連通性和能量(如圖、積分器和哈密頓量)的學習偏差可以有效地結合起來,從稀疏、噪聲數據中學習復雜多體節能系統的動力學。其次,通過在神經網絡中嵌入廣義的port- hamilton形式,從數據中準確地恢復不可逆物理系統的動力學。此外,我們強調了我們的模型如何通過設計從稀疏數據中發現潛在的力和阻尼項,以及重建混沌系統的Poincaré部分。最后,我們展示了基于物理的神經網絡可以有效地用于高效和準確的遷移學習——在大量研究良好的微分方程上保持高保真的同時,實現數量級的加速。總的來說,這些創新展示了科學機器學習的一個新方向——將現有知識與機器學習方法相結合。由此自然產生了許多好處,包括(1)準確的學習和長期預測(2)數據效率(3)可靠性和(4)可伸縮性。這種混合模型對于開發能夠建模和預測復雜的多保真度、多尺度物理過程的魯棒機器學習方法至關重要。
在本文中,我們的目標是改進深度強化學習中的泛化。對任何類型的學習來說,泛化都是一項基本挑戰,它決定了如何將已獲得的知識轉移到新的、以前從未見過的情況中。本文專注于強化學習,這是一個描述人工智能體如何學習與環境交互以實現目標的框架。近年來,利用神經網絡表示智能體取得了顯著的成功,并極大地擴展了其可能的應用范圍。本文的目標是通過允許這些智能體更快地學習,學習更好的解決方案,并對以前未見過的情況做出魯棒的反應,從而提高它們的性能。在這個探索中,我們探索了一系列不同的方法和途徑。我們專注于將額外的結構,也稱為歸納偏差,納入主體。專注于特定的,但廣泛適用的問題領域,我們可以開發專門的架構,從而大大提高性能。在第3章中,我們關注的是部分可觀察環境,在這種環境中,智能體每時每刻都不能完全訪問所有與任務相關的信息。在第4章中,我們將注意力轉向多任務和遷移學習,并設計了一種新的訓練方法,允許訓練分層結構的智能體。我們的方法優化了單個解決方案的可重用性,大大提高了傳輸設置中的性能。
//ora.ox.ac.uk/objects/uuid:9fdfadb0-e527-4421-9a22-8466c9fed9c8 在本文的第二部分中,我們將注意力轉向正則化,這是另一種形式的歸納偏差,作為提高深度智能體泛化的方法。在第五章中,我們首先探討了強化學習(RL)中的隨機正則化。雖然這些技術已被證明在監督學習中非常有效,但我們強調并克服了將它們直接應用到在線RL算法中的困難,這是RL中最強大和應用最廣泛的學習類型之一。在第6章中,我們通過探索訓練數據中的瞬態非平穩性如何干擾神經網絡的隨機梯度訓練,并使其偏向較差的解,在更基本的水平上研究了深度rl中的泛化。許多先進的RL算法將這些類型的非平穩性引入到訓練中,甚至在平穩環境中,通過使用持續改進的數據收集策略。我們提出了一個新的框架,以減少經過訓練的策略所經歷的非平穩性,從而允許改進的泛化。
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。