在更廣泛的背景下,元學習關注的是一個智能體如何了解自己的學習過程,從而改進其學習過程。學習如何學習不僅對人類有益,而且也顯示出對改進機器學習方式的巨大好處。在機器學習的背景下,元學習使模型能夠通過選擇影響學習的適當元參數來改進其學習過程。具體到深度學習,元參數通常描述模型訓練的細節,但也可以包括模型本身的描述——即架構。元學習通常是以特定目標為導向的,例如嘗試改善泛化能力或從少數幾個例子中學習新概念的能力。元學習可以很強大,但它有一個主要缺點:通常計算成本高昂。如果能夠減輕這些成本,元學習將更容易被新的人工智能模型開發者訪問,使他們能夠實現更偉大的目標或節省資源。因此,我們研究的一個關鍵重點是顯著提高元學習的效率。我們發展了兩種方法:EvoGrad和PASHA,兩者在兩種常見場景中顯著提高了元學習效率。EvoGrad允許我們高效地優化大量可微分的元參數值,而PASHA則能夠高效地優化數量較少的任何類型的元參數。
//era.ed.ac.uk/handle/1842/41452 元學習是一個可以應用于解決各種問題的工具。最常見的應用是從少量例子中學習新概念(少樣本學習),但也存在其他應用。為了展示元學習在神經網絡背景下可以產生的實際影響,我們使用元學習作為兩個選定問題的新解決方案:更準確的不確定性量化(校準)和通用少樣本學習。這兩個都是實際重要的問題,通過使用元學習方法,我們可以獲得比使用現有方法獲得的更好的解決方案。校準對神經網絡的安全關鍵應用至關重要,而通用少樣本學習測試了模型在諸如識別、分割和關鍵點估計等多樣化任務上的少樣本學習能力的泛化能力。 更高效的算法以及新的應用使得元學習領域能夠對深度學習的更廣泛領域產生更顯著的影響,并有潛力解決之前過于具有挑戰性的問題。最終,這兩者都使我們能夠更好地利用人工智能呈現的機會。
物理信息化機器學習(PIML)已成為科學機器學習研究的前沿,其主要動力是系統地將機器學習(ML)方法與通常以物理監督形式存在的先驗領域知識結合起來。不確定性量化(UQ)是許多科學用例中的一個重要目標,其中獲得可靠的機器學習模型預測和評估與之相關的潛在風險至關重要。在這篇論文中,我們在提高PIML的不確定性量化方面提出了三個關鍵領域的新方法。首先,我們提議通過在神經網絡的架構修改中顯式地融入物理先驗,以單調性約束的形式來量化不確定性。其次,我們展示了一個更通用的框架,用于量化PIML的不確定性,該框架與通用形式的物理監督(如偏微分方程和封閉形式方程)兼容。最后,我們研究了物理信息化神經網絡(PINNs)中基于物理的損失的限制,并開發了一個有效的采樣策略來緩解失敗模式。
人工智能系統開發具備高級推理能力是一個持續存在且長期的研究問題。傳統上,解決這一挑戰的主要策略涉及采用符號方法,其中知識通過符號明確表示,并通過明確編程的規則來實現。然而,隨著機器學習的出現,系統向能夠自主從數據中學習、需要最小人類指導的方向發生了范式轉移。鑒于這一轉變,近年來,越來越多的興趣和努力被投入到賦予神經網絡推理能力上,以彌合數據驅動學習與邏輯推理之間的差距。在這一背景下,神經算法推理(NAR)作為一個有希望的研究領域脫穎而出,旨在將算法的結構化和基于規則的推理與神經網絡的自適應學習能力整合起來,通常通過讓神經模型模仿經典算法來實現。在這篇論文中,我們對這一研究領域提供了理論和實踐上的貢獻。我們探索了神經網絡與熱帶代數之間的聯系,推導出與算法執行對齊的強大架構。此外,我們討論并展示了這樣的神經推理器學習和操縱復雜的算法和組合優化概念的能力,如強對偶性原理。最后,在我們的實證努力中,我們驗證了NAR網絡在不同實際場景中的實際用途。這包括任務多樣化,如規劃問題、大規模邊緣分類任務以及學習NP-hard組合問題的多項式時間近似算法。通過這一探索,我們旨在展示在機器學習模型中整合算法推理潛力。
//arxiv.org/abs/2402.13744 本論文旨在探索神經算法推理器的潛力,特別是關于它們學習執行經典算法的能力以及使用訓練有素的算法推理器作為相關下游任務的歸納先驗的有效性。 本論文的主要貢獻旨在解決這兩個研究問題,特別是在圖的背景下,鑒于許多感興趣的經典算法是為結構化數據開發和設計的(Cormen et al., 2009)。此外,我們將尋求從理論和實證的視角提供前述問題的證據。 為了解決關于經典算法可學習性的問題,我們提出了一個理論框架,將圖、神經網絡和熱帶代數(Landolfi et al., 2023)之間的聯系繪制出來。在這個設置中,將建立算法(特別是動態規劃算法)與神經網絡之間的等價性。我們還將展示如何基于這種聯系派生出適合學習算法的強大神經網絡架構。 跳出動態規劃算法的背景,我們提議通過對偶性學習算法(Numeroso et al., 2023),有效地展示我們如何借鑒與算法相關的各個領域的概念,如組合優化,以增強將算法推理編碼到神經網絡中的程度。這一貢獻也作為使用算法作為歸納先驗可以幫助更準確地解決標準機器學習任務的第一個實際示例。 在此基礎上,我們提出了兩個更多的貢獻:一個學習規劃問題一致性啟發式函數的算法推理器(Numeroso et al., 2022);以及一個關于將算法知識轉移到NP-hard組合優化問題的有效性的廣泛研究(Georgiev et al., 2023)。 此外,作為一個附加目標,本論文還努力作為神經算法推理世界的入門指南,特別是通過其第三章,為那些不熟悉NAR的人量身定做。
在過去的二十年中,數字技術的進步使得在廣泛領域內使用機器學習進行數據驅動的決策成為可能。最近的研究強調,使用機器學習進行決策需要因果推斷。具體來說,目的是學習治療(例如,決策、干預、行動)對感興趣單元(例如,患者、內容和客戶)的因果效應的異質性,以便能夠優化治療分配。這激發了因果機器學習的研究,它將機器學習與因果推斷結合起來,以改善治療效果估計并優化治療分配。這篇論文開發了用于數字健康、數字媒體和數字平臺領域中的個性化、推薦和目標定位的數據驅動決策相關的因果機器學習方法。 在第二章中,我們將因果樹和因果森林從異質性治療效果估計適應到個性化序列化治療決策估計。這些方法控制了非線性和隨時間變化的混雜因素,對于錯誤規范具有魯棒性,并解釋了哪些患者信息預測了治療效益。我們使用模擬研究以及對重癥監護病房真實世界數據的應用來評估我們的方法。我們的方法在優化長期結果方面優于最先進的基準和醫療實踐。我們的工作因此展示了因果機器學習在數字醫療保健中的價值。 在第三章中,我們提出了一個政策學習框架,用于指導數字出版商如何優化其分發渠道(例如,網站首頁、推特頁面、電子郵件通訊)上向用戶推薦的內容。我們展示了反事實政策是如何從歷史數據中非參數地識別出來的,以及最優政策如何選擇具有最大異質性治療效應的內容。我們提出了一個計算效率高的估算算法和工具,用于解釋哪些內容最適合推薦。通過與一家國際報紙的合作,我們展示了最優政策如何優于標準基準和編輯過去的決策。總體而言,我們的工作展示了因果機器學習如何改進內容推薦。
在第四章中,我們開發了一個框架,用于確保在針對客戶目標的異質性治療效應的機器學習預測中的公平性。受數字平臺面臨的現實世界約束的啟發,我們將問題定義為檢測機器學習模型是否存在偏見,如果存在,如何為新用戶最好地緩解它。我們提供了關于檢測的理論保證,并呈現了緩解的最優策略。我們使用來自全球旅行平臺 Booking.com 的大規模數據,實證展示了我們的框架。我們的框架為確保因果機器學習中的公平性提供了一條前進的道路。
總結來說,這篇論文展示了因果機器學習如何在數字化轉型的應用領域中進行評估和優化,以實現數據驅動的決策。我們的方法解決了實踐中算法決策常見的挑戰,即效率、可解釋性和公平性。因此,我們旨在促進因果機器學習在實踐和應用研究中的數據驅動決策的采用。
卷積神經網絡和循環神經網絡的進步導致了對圖像和文本等規則網格數據域的學習的顯著改進。然而,許多現實世界的數據集,例如社會網絡、引文網絡、分子、點云和3D網格,并不位于這樣一個簡單的網格中。此類數據結構不規則或非歐氏,關系信息復雜。圖機器學習特別是圖神經網絡(Graph Neural Networks, GNNs)為處理此類不規則數據和建模實體之間的關系提供了潛力,正引領機器學習領域進入一個新時代。然而,由于梯度消失、過擬合和過平滑等挑戰性問題,之前最先進的(SOTA) GNN限于淺層架構。大多數SOTA GNN深度不超過3或4層,限制了GNN的表達性,使其在大規模圖上的學習效果不佳。為了解決這一挑戰,本文討論了構建大規模高效圖機器學習模型的方法,以學習結構化表示,并將其應用于工程和科學。本文將介紹如何通過引入架構設計使GNN深入,以及如何通過新的神經架構搜索算法自動搜索GNN架構。
卷積神經網絡(CNN)[102]已經非常成功地解決了各種計算機視覺任務,如目標分類和檢測、語義分割、活動理解等。它們出色性能的一個關鍵促成因素是訓練非常深的網絡的能力。盡管在許多任務中取得了巨大的成功,但CNN不能直接應用于非網格數據和關系數據,而這在許多現實世界的應用中普遍存在。圖神經網絡(GNNs)[169]提供了一種替代方案,允許將非網格數據或關系數據作為神經網絡的輸入。最近的工作表明,由于GNN在圖上學習表示的能力,它可以在跨領域的各種任務上取得優異的結果。具體來說,GNNs可以在引文網絡中的學術論文分類[95]、量子化學中的分子性質預測[60]、生物圖中的蛋白質相互作用預測[68]和計算機視覺中的點云學習[201]等任務中取得令人印象深刻的結果。雖然GNN已經取得了令人鼓舞的結果,但它們僅限于層數相對較少的架構,主要是由于訓練[109]期間梯度消失[77]、小數據集上的過擬合[189]和堆疊過多層時的過平滑[114]。然而,這一限制使得GNN難以在大規模圖上學習有代表性的特征,從而限制了深度GNN的代表性能力。為了構建大規模、高效的圖神經網絡,本文研究了以下幾個重要方面: (1) 如何使訓練非常深的圖神經網絡成為可能; (2) 在設計GNN模型時如何減少架構工程。
本論文旨在解決圖神經網絡(GNN)架構中的核心問題之一。具體來說,論文研究了訓練和設計非常深層次的GNN模型的技術,并將這些深層GNN模型應用于跨領域的各種大規模應用。我們首先提出了用于訓練深層GNN的跳躍連接和擴張卷積。然后,我們討論了消息聚合函數在訓練深層GNN時的影響,并提出了可微分的消息聚合函數。為了使訓練更深層次的GNN成為可能,我們研究了可逆連接、組卷積、權重綁定和平衡模型等技術,這些技術使得可以訓練具有1000多層的GNN。最后,我們開發了一種新穎的神經架構搜索算法,以實現自動設計有效和高效的GNN架構。
在第2章中,我們研究了如何將跳躍連接和擴張卷積等概念從卷積神經網絡(CNNs)應用到GNNs,以成功訓練非常深層的GNNs。我們通過實驗在各種數據集和任務上展示了使用深層GNNs(最多112層)的好處。具體而言,我們在點云的部分分割和語義分割以及生物蛋白質-蛋白質相互作用圖中的蛋白質功能節點分類方面取得了非常有希望的性能。通過徹底的消融研究和分析,我們證明了跳躍連接和擴張卷積對于減輕訓練深層GNN的困難是有效的。本章內容基于我們的研究成果[109, 107]。
在第3章中,我們研究了適當選擇聚合函數對深層模型的影響。我們發現,當應用于不同數據集時,GNN對于聚合函數的選擇(例如均值、最大值和總和)非常敏感。我們系統地研究并提出通過引入一種名為廣義聚合函數的新類聚合函數來緩解這個問題。所提出的函數超出了常用的聚合函數,可以適用于各種新的排列不變函數。廣義聚合函數是完全可微分的,其參數可以端到端地學習,以產生適合每個任務的合適聚合函數。我們展示,配備了所提出的聚合函數的深層殘差GNN在Open Graph Benchmark(OGB)[84]上的多個任務和領域的基準測試中優于現有技術。本章內容基于我們的研究成果[111]。
在第4章中,我們研究了可逆連接、組卷積、權重綁定和平衡模型,以提高GNN的內存和參數效率。我們發現,可逆連接與深度網絡架構相結合,使得能夠訓練過度參數化的GNN,這些GNN在多個數據集上顯著優于現有方法。我們的模型RevGNN-Deep(每層1001層,每個通道80個)和RevGNN-Wide(每層448層,每個通道224個)都是在一臺普通GPU上訓練的,它們在ogbn-proteins數據集上實現了ROC-AUC為87.74±0.13和88.24±0.15的性能。據我們所知,RevGNN-Deep是文獻中最深的GNN,層次數相差一個數量級。本章內容基于我們的研究成果[108]。
在第5章中,我們旨在實現GNN架構的自動設計。最近在自動神經架構搜索(NAS)方面的進展顯示出很大的潛力。然而,我們發現在最終評估中,發現的架構經常無法泛化。為了緩解這個常見問題,我們引入了順序貪婪架構搜索(SGAS),一種新穎的神經架構搜索算法。通過將搜索過程分為子問題,SGAS以貪婪方式選擇和修剪候選操作。我們首先在CNN搜索空間上研究SGAS,然后應用到GNN搜索空間。廣泛的實驗證明,SGAS能夠以最小的計算成本找到用于圖像分類、點云分類和生物蛋白質-蛋白質相互作用圖中節點分類等任務的最先進架構。本章內容基于我們的研究成果[110]。
在第6章中,我們引入了LC-NAS,以進一步自動化SGAS的延遲優化,并將其應用于GNN搜索空間,以搜索在點云任務上的架構,并限制目標延遲。我們提出了一種用于在架構搜索中準確性和延遲之間權衡的新型延遲約束形式。我們的流水線使我們能夠找到延遲接近特定目標值的最佳架構,這在最終任務需要部署在有限硬件設置中時非常關鍵。廣泛的實驗表明,LC-NAS能夠以最小的計算成本找到點云分類和部分分割的最先進架構。本章內容基于我們的研究成果[112]。
在第7章中,我們總結了本論文的重要發現,并討論了深度圖神經網絡的未來方向。
在機器學習(ML)中,一個關鍵的挑戰是設計能夠從圖中高效學習的模型。這些圖由帶有屬性的節點組成,并具有一個編碼它們關系的預定結構。圖表示學習(GRL)旨在將這兩個異質性源編碼為一個向量圖嵌入,以便進行下游任務。在這個領域,最優傳輸(OT)在將圖視為離散概率分布的意義上提供了有意義的比較。本論文通過OT的視角關注GRL,兩個概念都在專門章節中介紹。現代的有監督GRL主要依賴圖神經網絡(GNN),它通過兩個主要元素隱式地編碼圖拓撲:通過消息傳遞的節點特征嵌入和通過專門形式的池化的聚合。在這篇論文中,我們介紹了一個新的觀點,將距離一些可學習的圖模板的距離置于圖表示的核心。這種距離嵌入是通過OT距離構建的:融合Gromov-Wasserstein(FGW)距離,它通過解決一個軟圖匹配問題同時處理特征和結構的不相似性。我們假設FGW距離到一組模板圖的向量具有強大的區分能力,然后將其提供給一個非線性分類器進行最終預測。這種距離嵌入作為一個新的池化層,稱為TFGW,并可以利用現有的消息傳遞技術來促進有意義的特征表示,這是端到端學習的。我們在幾個圖分類任務上實證驗證了我們的說法,其中我們的方法在表達性和泛化能力方面都優于內核和GNN方法。本論文的另一個貢獻旨在使詞典學習(DL)適用于圖數據集分析,這是無監督表示學習的關鍵工具。DL解釋向量數據為幾個基本元素的線性組合,通過與單一環境空間相關的不相似性來評估學到的表示的質量。由于圖描述了它們自己的空間,我們提出了第一個適應于圖詞典學習(GDL)的線性方法,使用(F)GW作為數據擬合項。在我們的工作中,圖被建模為圖原子的凸組合,通過在線隨機算法估算。GDL通過一個新的上界完成,該上界可以用作FGW在嵌入空間中的快速近似。我們實證地顯示了我們的方法對于圖聚類、分類、完成以及在線圖子空間估計和跟蹤的興趣。最終,位于OT核心的質量保守性,在對比兩個圖的所有節點時強加了一個耦合,這在GRL中有特定的含義。通過FGW學習結構和特征表示對于由將圖建模為概率分布所誘導的節點相對重要性非常敏感。管理這一額外的自由度,正如我們所做的,通過在TFGW中增加最小的計算成本但對GDL增加顯著的模型復雜性來改進基于(F)GW的模型。因此,我們建議通過引入一種新的基于OT的差異,稱為半松弛(融合)Gromov-Wasserstein差異(sr(F)GW),來解決(F)GW中質量保守性約束的限制。srFGW提供了兩個圖之間的對應關系,同時在目標圖中尋找一個重新加權的子圖,與輸入的(F)GW距離最小。后者可以比(F)GW更有效地估計,并與專門用于圖分割的方法競爭,同時更具通用性。此外,估計一個srFGW“重心”引入了一個新的DL,其中圖被嵌入為單個圖原子的重新加權子圖。與其他基于DL的競爭者在各種無監督任務上競爭有利,同時計算速度明顯更快。
現代機器學習主要受到黑盒模型的驅動,這些模型提供了卓越的性能,但對于如何進行預測的透明度有限。對于需要了解模型如何做出決策的應用,以及協助模型調試和數據驅動的知識發現,我們需要可以回答有關影響模型行為的問題的工具。這就是可解釋機器學習(XML)的目標,這是一個子領域,它開發了從多個角度理解復雜模型的工具,包括特征重要性、概念歸因和數據估值。本文提供了對XML領域的幾個貢獻,主要思想分為三部分:(i)一個框架,使得可以統一分析許多當前的方法,包括它們與信息論和模型魯棒性的聯系;(ii)一系列技術,用于加速Shapley值的計算,這是幾種流行算法的基礎;以及(iii)一系列用于深度學習模型的特征選擇的方法,例如,在無監督和自適應的設置中。這些思想中的許多都是受到計算生物學和醫學應用的啟發,但它們也代表了在各種領域中都有用的基本工具和觀點。
在模型透明度的辯論中,傳統的觀點是我們面臨解釋性與準確性之間的權衡。1有些人辯稱這種權衡并不存在,聲稱我們可以使用“天生可解釋”的模型達到近乎最優的性能(Rudin, 2019);這對于簡單的表格數據集往往是正確的,但對于像圖像和語言這樣的復雜數據模態則較為罕見。在這里,我們采取了更為寬容的立場:鑒于黑盒模型目前提供了最佳的性能并且已經廣泛部署,我們探討是否有可能從任何模型中獲得足夠的見解。在這樣做的過程中,我們開發了一套在很大程度上對模型的內部機制持中立態度,或者說是模型不可知的工具集,因此即使在今天的最高性能的黑盒模型中也能正常運行。 這一目標也被可解釋機器學習(XML)子領域的許多工作所共享,并且近年來已經取得了顯著的進展。目前,XML工具已被用于了解新疾病的風險因素(Razavian等人,2020;Snider等人,2021),加速數學猜想的發現(Davies等人,2021),在有限的訓練數據標簽下識別蛋白質結合位點(Gligorijevi?等人,2021),審計有缺陷的醫學診斷系統(DeGrave等人,2021)以及從功能系統中獲得新的見解(Ting等人,2017;Sundararajan等人,2017)。這些早期的成功表明了這些工具的潛力,但在這些方法的底層理論以及使它們在實踐中高效的計算程序方面仍有進展空間。這篇論文介紹了我在博士期間進行的幾項工作,旨在解決這些挑戰。
這篇論文包含了我在博士期間完成的大部分項目,所有這些項目都與透明機器學習的核心主題相關。我們首先在第2章建立符號和幾個初步的概念。接下來,每一章都基于一篇第一作者的出版物,其中在某些情況下與共同第一作者共享。為了使它們在一個文檔中更具連貫性,對各個作品進行了修改,但這里沒有提供新的信息,這些論文也可以單獨閱讀。這些作品被組織成三個部分,如下所述。
**第一部分:XML的基礎 **我們首先討論一個統一了大部分文獻的觀點:許多現有的方法都基于一個解釋原則,即通過移除或量化從模型中移除特征的影響。我們描述了一個框架,在這個框架中,這些方法基于三個實現選擇而有所不同,我們為26個現有的算法確定了這些選擇(第3章)。基于這個觀點,我們對這些方法進行了統一分析,并找到了與信息理論、博弈論和認知心理學的聯系。然后,我們探索這些方法的魯棒性特性,并得出了描述它們對輸入和模型擾動的魯棒性的新結果(第4章)。 第二部分:Shapley值計算 接下來,我們探討XML中最廣泛使用的工具之一:Shapley值,一種博弈論信用分配技術。這些是最受歡迎的特征歸因方法之一,SHAP(Lundberg和Lee,2017)的基礎,以及一個著名的數據估值技術(Ghorbani和Zou,2019),但它們是臭名昭著的難以計算。有一系列方法來加速它們的計算(Chen等人,2022),我們在這里討論兩個:基于加權線性回歸的近似(第5章),和基于深度學習的攤銷優化的近似(第6章,第7章)。 第三部分:深度學習的特征選擇 最后,特征選擇為提供透明度的同時也降低了特征獲取成本提供了另一個方向。由于多次訓練不同特征集的模型的高昂成本,似乎很難與深度學習一起實施,但我們探討了如何使用可微分的層來阻止特征信息進入網絡(第8章)。然后,我們討論如何在自適應設置中應用這些思想,其中我們根據當前可用的信息為每個預測單獨選擇特征(第9章,第10章)。
機器學習和離散優化是計算機科學的兩大支柱,也是廣泛用于商業、科學和技術領域的分析、預測和決策的工具。然而,機器學習和離散優化方法發展的前提在根本上有所不同。學習依賴于數據,并且通常很少或根本不需要人工設計。其優點在于普適性和幾乎全面的適用性,但許多模型無法有效地整合領域知識或特定約束,缺乏可解釋性,且其預測存在不確定性,這在實踐中阻礙了其應用。相反,離散優化的算法通常針對特定應用進行定制,如組合問題。他們精確的形式化提供了洞察和分析,而且他們的輸出通常帶有性能保證。然而,與機器學習不同,離散優化的方法在實例之間不能泛化,這在實際應用中是一個不足。
//www.research-collection.ethz.ch/handle/20.500.11850/629004 鑒于機器學習和離散優化的互補優缺點,很自然地會問到這兩個領域的方法在多大程度上可以有益地結合起來。這是我們在這篇論文中提出的問題,并通過展示用于和用于離散優化的學習方法來肯定地回答這個問題。
在用于離散優化的學習中,我們關注的是涉及離散變量的非監督學習模型的梯度估計。這些模型廣泛存在,并在正則化、可解釋性、模型設計和算法集成方面提供了好處。我們依賴離散優化的高效方法來通過松弛設計這些模型的新梯度估計器,并通過實驗證明它們使學習更加高效、有用和高效。
在用于學習的離散優化中,我們專注于使用機器學習提高整數規劃的分支和界求解器的性能。我們用針對特定應用的學習模型替換這些求解器中用于切割平面選擇和潛水的現有子程序。我們的方法借鑒了模仿學習和生成建模的思想,具有可擴展性和有效性。在一系列實驗中,我們的模型超過了現有的啟發式方法以及競爭的機器學習方法,以促進求解器性能的整體改進。
多智能體強化學習(MARL)為一組人工智能代理提供了一個有原則的框架,使它們能夠在人類專家水平上學習協作和/或競爭行為。多智能體學習環境本質上比單智能體學習解決了更復雜的問題,因為代理既與環境互動,也與其他代理互動。特別是,在MARL中,多個代理同時學習,導致在遇到的經驗中產生自然的非平穩性,因此要求每個代理在其他代理策略可能發生較大變化的情況下調整其行為。本論文旨在從三個重要主題來解決多智能體學習中的非平穩性挑戰:1)適應性,2)收斂性,3)狀態空間。第一個主題解答了代理如何通過開發新的元學習框架來學習有效的適應策略,以應對其他代理不斷變化的策略。第二個主題解答了代理如何適應并影響聯合學習過程,使得基于新的博弈論解決方案概念,策略在學習結束時收斂到更理想的極限行為。最后,最后一個主題解答了如何基于知識共享和上下文特定抽象來減小狀態空間大小,從而使學習復雜性受到非平穩性的影響較小。總之,本論文發展了理論和算法貢獻,為上述關于非平穩性的主題提供了有原則的解答。本論文中開發的算法在多智能體基準領域的多樣化套件中展示了其有效性,包括混合激勵、競爭和合作環境的全譜。
抽象的知識深深根植于許多基于計算機的應用中。從數據中自動獲取知識是人工智能的一個重要研究方向。機器學習提供了相應的算法。其中一個研究領域專注于開發受生物啟發的學習算法。各自的機器學習方法基于神經學概念,因此它們可以系統地從數據中獲取知識并存儲它。可以歸類為深度學習模型的一類機器學習算法被稱為深度神經網絡(deep Neural Networks, DNNs)。DNNs由多個人工神經元組成,這些神經元按層排列,通過使用反向傳播算法進行訓練。這些深度學習方法在從高維數據中推理和存儲復雜知識方面表現出驚人的能力。
然而,DNN會受到一個問題的影響,即無法將新知識添加到現有的知識庫中。不斷積累知識的能力是促進進化的重要因素,因此是發展強大人工智能的先決條件。所謂的“災難性遺忘”(CF)效應導致DNN在對新數據分布進行幾次訓練迭代后,立即失去已經派生的知識。只有用過去和新數據的聯合數據分布進行昂貴的再訓練,才能抽象出整個新知識集。為了抵消這種影響,各種旨在緩解甚至解決CF問題的技術已經并且仍在開發中。這些已發表的CF回避研究通常暗示他們的方法對各種持續學習任務的有效性。本文的研究背景是基于深度學習方法的持續機器學習。第一部分是面向實際應用的評估協議的開發,該協議可以用于研究不同的機器學習模型對協同效應的抑制。在第二部分,綜合研究表明,在面向應用的需求下,所研究的模型都不能表現出令人滿意的持續學習效果。第三部分提出了一種新的深度學習模型——深度卷積高斯混合模型(deep Convolutional Gaussian Mixture Models, DCGMMs)。DCGMMs建立在無監督高斯混合模型(GMMs)的基礎上。GMM不能被認為是深度學習方法,它必須在訓練前以數據驅動的方式進行初始化。這些方面限制了GMM在持續學習場景中的使用。
本文提出的訓練過程使使用隨機梯度下降(SGD)(應用于DNN)來訓練GMMs成為可能。集成退火方案解決了數據驅動的初始化問題,這是GMM訓練的先決條件。實驗證明,新的訓練方法在不迭代其缺點的情況下,可以得到與傳統方法相當的結果。另一個創新是gmm以層的形式排列,這類似于DNN。將GMM轉換為層使其能夠與現有層類型相結合,從而構建深層體系結構,從而可以用較少的資源派生出更復雜的知識。在本工作的最后一部分,研究DCGMM模型的持續學習能力。為此,提出一種稱為高斯混合重放(GMR)的重放方法。GMR利用DCGMM的功能來描述數據樣本的生成和重現。與現有CF回避模型的比較表明,在面向應用的條件下,GMR可以取得類似的持續學習效果。總之,所提出的工作表明,確定的面向應用的需求仍然是“應用”持續學習研究方法的開放問題。此外,新的深度學習模型為許多其他研究領域提供了一個有趣的起點。
強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。
因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。
有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。
//dspace.mit.edu/handle/1721.1/138930