快速增長的現實世界網絡,擁有數十億個頂點,需要可擴展的、快速的和高效的圖算法。幸運的是,商業化的多核、多處理器和多機環境可以處理如此大量的數據。不幸的是,盡管有這樣的資源,許多目前的圖算法并沒有充分利用這些并行和分布式環境,或者有非最佳的理論保證,在實踐中轉化為更慢和更不有效的算法。本論文的目的是在理論上改進現代機器中以前的圖算法。我們通過實驗證明,這種理論上的改進也會轉化為實際的收益。
為了實現這一目標,本論文采取了雙管齊下的方法。首先,我們在模仿大規模數據處理環境的計算模型中制定算法。這種模型中的算法利用了機器集群和一個機器的多個核和處理器的優勢。第二,我們在設計算法時使用了現實世界網絡的特殊屬性。退化就是這樣一個特性;雖然一個網絡可能有數十億個頂點,但其退化可能只有幾百個。
本論文由三部分組成。
第一部分介紹了靜態圖算法。我們首先介紹了一套新的編輯算法,該框架通過將圖編輯成所需的結構化類別,針對難以解決的優化問題來逼近其解決方案。然后,我們提出了新的小子圖計數算法,在大規模并行計算模型中具有更好的理論空間和回合保證;我們的實驗證實了我們的理論成果,并顯示在現實世界的圖中,與以前的最先進的算法相比,回合數和近似系數都有所改善。在這一部分的最后,我們提出了一個近乎線性的時間調度算法,用于在具有通信延遲的相同機器上進行調度,其中優先權受限的工作被建模為有向無環圖。
第二部分主要討論動態圖算法。我們首先展示了一個??(1)的攤銷時間,高概率的(?+1)-頂點著色的動態算法。然后,我們為批量動態更新下的??核分解問題提供了一個新的并行級數據結構(其中動態邊緣更新是分批進行的)。我們表明,我們的數據結構可以證明對每個頂點的核心性提供了(2+??)的近似值,改進了以前已知的(4+??)的最佳約束。最后,我們提出了新的三角形和團計數的并行、高效批處理動態算法。我們對批處理動態算法的廣泛實驗,結果表明,在現實世界的網絡中,我們的性能比以前最好的多核算法實現了數量級的提高。
最后一部分是關于下限的結論。我們通過硬實例展示了在外部存儲器模型中,在有向無環計算圖上獲得最優計算時間表的困難性。然后,我們證明這種圖可以用來構建靜態-內存-硬哈希函數,使用磁盤內存來阻止大規模密碼破解攻擊。
在這項工作中,我們探索了提高機器學習系統各方面效率的理論和算法。首先,我們研究了在ML中實現高效機器不學習的算法原理。我們提出了兩種無監督學習算法,它們在在線數據刪除方面實現了超過100倍的改進,同時產生了統計質量與標準k-means++基線相當的集群。
其次,我們探索混合維嵌入,這是一種嵌入層架構,其中特定嵌入向量的維數隨其查詢頻率的變化而變化。通過理論分析和系統實驗,我們證明了使用混合維可以大大減少內存使用,同時保持甚至提高預測性能。使用Criteo Kaggle數據集上一半的參數或使用16倍的參數進行點擊率預測,混合維層將精度提高0.1%。他們在GPU上的訓練速度也超過2倍。
最后,我們提出了一種用于ML部署監控的新方法MLDemon。MLDemon集成了未標記數據和少量按需標簽,從而對給定數據流上部署的模型當前的準確性進行實時估計。受預算限制,MLDemon決定何時獲得額外的、可能昂貴的、專家監督標簽來驗證模型。在基準測試中,MLDemon優于之前的方法。我們還提供了理論分析,表明MLDemon對于廣泛的一類分布漂移是極小極大速率最優的。
機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。
首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。
然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。
最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。
圖是數據和系統表示的強大工具。許多類型的復雜和高度結構化的數據都可以用圖表示,比如社交網絡、計算機網絡和分子。圖還可以用來表示計算機系統,例如分布式存儲網絡和對等通信網絡。在本論文中,我們討論了處理大規模圖數據和使用圖來設計更好的系統的方法。
我們首先討論兩種處理大規模圖數據的方法。雖然它們非常強大,但圖數據集對其處理和存儲提出了獨特的挑戰。圖神經網絡(GNNs)是將深度學習應用于圖結構數據的一種有效方法。但是,由于圖的互連和高度結構化的特性,訓練GNN的計算可能非常昂貴。研究了一種提高GNN訓練效率的分層聚合方法。另一種理解圖數據集的方法是檢查小的、重復的模式的頻率。我們提出了時間活動狀態塊模型(Temporal Activity State Block Model),這是一種用于計算時間圖中預期母題頻率的分析模型,它增加了邊在大時間跨度內到達的復雜性。
接下來我們將介紹兩種應用圖來設計更好系統的方法。在分布式存儲系統中,在服務器故障的情況下,通常需要使用冗余存儲數據,而在何處以及以何種頻率創建這種冗余的設計可以表示為一個圖問題。部分重復(FR)代碼是一種用于實現這一目的的方法,旨在最大化存儲容量,同時確保故障節點可以通過從幸存節點發送替換數據來替換。我們提出了負載平衡的分數重復碼,這是FR碼的加強,有額外的保證,如何迅速地更換失敗的節點。接下來我們考慮在對等網絡中發送消息的問題。這個問題可以用一個圖來表示哪個對等點擁有另一個對等點想要的數據。索引編碼是一種設計從中央服務器到一組接收器的客戶端通信的方法。我們將這種方法應用于點對點模型,并引入和研究了嵌入索引編碼。
//searchworks.stanford.edu/view/14230534
ConvNets和其他神經體系結構在計算機視覺方面的成功應用是過去十年人工智能革命的核心。對于可擴展視覺架構的強烈需求是既小又大。小型模型代表了對效率的需求,因為視覺識別系統通常部署在邊緣設備上;大型模型強調了對可擴展性的追求——利用日益豐富的計算和數據實現更高精度的能力。這兩個方向的研究都是卓有成效的,產生了許多有用的設計原則,對更多性能模型的追求從未停止。同時,文獻中非常快的發展速度有時會掩蓋某些方法取得良好結果的主要機制**。在本論文中,我們將從兩個方面展開研究:(1)開發高效靈活的ConvNet模型推理直觀算法;(2)研究基線方法,揭示流行可擴展方法成功背后的原因**。首先,我們將介紹我們對第一個隨時密集預測算法之一的工作。然后,我們將通過將模型修剪算法與一個極其簡單的基線進行比較來檢驗它們的有效性,并論證它們的真正價值可能在于學習架構。最后,通過采用《Transformers》中的設計技術對傳統的ConvNet進行現代化改造,我們提出了關于自注意力是否導致了Transformer最近出色的視覺擴展性的問題。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-205.html
深度學習的基本原理[103]可以追溯到幾十年前,20世紀80年代提出了基于梯度的反向傳播學習算法[151],而ConvNets從早期就被應用于手寫數字識別等計算機視覺任務[105]。然而,深度學習的真正威力直到2012年才被揭示出來,那年AlexNet[99]贏得了ImageNet大規模圖像分類挑戰賽[34]。數據可用性的提高[34,110]、計算技術的進步[124,134]和改進的算法[64,181,95]是深度學習在各個應用領域持續成功的三大支柱[93,159]。隨著最近大型模型的興起,這一領域的快速發展還沒有顯示出放緩的跡象[13,144]。
深度學習不僅對我們的日常生活產生了顯著的影響,還改變了機器學習從業者和研究人員的工作流程——社區已經從使用手工制作的淺層模型特征123,32,轉向使用多層深度神經網絡自動提取特征表示。手工制作的特性通常是高度特定于任務的,而且不能一般化,設計它們的過程通常很乏味。這種轉變極大地解放了研究人員的雙手和思想,允許他們更多地專注于建模方面。
自動表示學習的前景令人鼓舞,但實際情況并非如此光明。在實踐中,網絡結構對學習到的表征的質量有很大的影響。當網絡在各種下游任務上進行微調時,學習表征的質量也會傳播到準確性。因此,設計正確的神經網絡架構現在是至關重要的,因此人類的任務是設計架構,而不是功能。在計算機視覺中,經典的AlexNet是一個復雜的手工設計卷積神經網絡的例子——層、內核大小、特征映射大小、深度、寬度和其他配置都是由人類精心選擇和平衡的。從那時起,各種各樣的神經網絡架構被提出,不僅本身作為特征提取器有用,而且帶來了新的設計原則。VGGNet[161]填充了3 × 3內核卷積的使用,是同構網絡設計的先驅例子。ResNet[64]引入了剩余連接,使數百層的訓練網絡成為可能。Transformers [181,39]采用多頭自注意力作為一種新的網絡內部信息交換方式,在大規模訓練中表現優異。神經體系結構搜索方法[2189]試圖實現神經體系結構設計的自動化,同時從人類設計的網絡中借鑒搜索空間設計的智慧[141]。這一領域的不斷創新,加上其他訓練技術,已經將ImageNet上排名前1的圖像分類精度從AlexNet的62.5%提高到現在的近90%。在架構設計的各種目標中,效率和可擴展是兩個重要的概念。
這兩個方向的研究進展都是卓有成效的,許多有用的架構設計原則被后來的工作所采用。這是一段非凡的旅程,該領域仍在以驚人的速度發展。同時,部分由于在實驗中有太多詳細的設計選擇和超參數,在性能基準上進行系統范圍的比較是很常見的,研究人員可以選擇有利的配置,并為他們的方法配備額外的技術。這可能導致無法確定實證收益的來源[112]。基線方法有時沒有被充分地調整或調整,導致我們無法理解所提議的方法的真正有效性。在本論文中,除了提出一種新的高效架構框架外,我們還采取了批判性的視角,對那些被認為是瑣碎或過時的基線的方法或模型進行了實證研究。我們發現,當提供正確的技術時,它們具有驚人的競爭力。這使我們對某些新方法的潛在機制有了更深入的理解,并幫助我們更公平、更準確地評價它們的有效性。
自動機器學習(AutoML)的目的是使機器學習方法的應用盡可能不受人類干預。自ML誕生以來,這一直是許多研究和工程的目標。雖然在任何可能的應用上達到完全自動化的ML可能在幾十年內仍然遙不可及,但有實際的和基本的動機來推動這一領域的先進性。本論文的目的是圍繞這個多方面的問題建立一個正式的框架,為現有的方法設定基準,并探索新的方向。
在以前的工作中,AutoML通常是自動超參數優化(HPO)或模型選擇的同義詞,用于一個特定的學習問題,由一些訓練數據定義。最終的性能評估是在一個測試集上進行的,測試集的數據分布與訓練數據相同(i.i.d.假設)。在這個問題設置中,通常不考慮訓練和測試時間。
我們對AutoML問題的定義與這種簡化的設置有一些不同。其一,我們超越了 "單一任務 "的情況,將AutoML問題置于性質相似的一系列任務的更廣泛背景中。因此,我們將遷移學習的問題納入我們的設定中,其目標是將 "知識"從任務遷移到任務,無論是為了多任務學習還是領域適應。遷移學習可以通過各種形式的元學習來解決,利用感興趣的任務系列例子來 "元訓練"學習機器。其次,我們以一種更現實和實用的方式來定義學習任務:一個任務不僅包括一個數據集(分為訓練集和測試集),還包括一個評估指標,一個時間預算(用于訓練和測試),以及明確定義的計算資源(包括內存限制)。
為了以嚴格的方式制定AutoML問題,我們首先引入一個數學框架。(1)將所有涉及的算法分為三個層次(α、β和γ層次);(2)具體定義了任務的概念(尤其是在監督學習的環境下);(3)正式定義了HPO和元學習;(4)引入了一個任意時間的學習度量,不僅可以通過其準確性,而且可以通過其學習速度來評估學習算法,這在超參數優化(包括神經架構搜索)或元學習等環境下是至關重要的。這個數學框架統一了ML的不同子領域(如遷移學習、元學習、集合學習),使我們能夠系統地對方法進行分類,并為我們提供正式的工具來促進理論發展(如與 "無免費午餐 "定理的聯系)和未來的經驗研究。特別是,它作為我們組織的一系列挑戰的理論基礎。
事實上,我們用深度學習解決AutoML的主要方法是在自動深度學習(AutoDL)系列挑戰的背景下建立了一個廣泛的基準,該挑戰是與ChaLearn、Google和4Paradigm共同組織的。這些挑戰提供了一套基準的AutoML解決方案,其中有大約100個數據集(來自上述所有領域),其中一半以上作為公共數據集發布,以促進元學習的研究。挑戰平臺、起始工具包、數據集格式化工具包和所有獲勝的解決方案都是開源的。在這些挑戰結束時,我們進行了廣泛的挑戰后分析,發現 (1)獲勝的解決方案可以推廣到新的未見過的數據集,這驗證了在實現通用AutoML解決方案方面取得的進展;(2)盡管我們努力統一格式化所有數據集以鼓勵通用解決方案,但參與者為每種模式采用了特定的工作流程;(3)任何時候的學習都被成功解決,而不犧牲最終性能;(4)盡管一些解決方案比提供的基線有所改進,但它強烈影響了許多;(5)深度學習解決方案占主導地位,但神經架構搜索在規定的時間預算內不切實際。大多數解決方案依賴于固定架構的預訓練網絡,并進行了微調。消融研究揭示了元學習、集合和高效數據加載的重要性,而數據增強并不關鍵。所有的代碼和數據(包括挑戰后的分析數據)都可以在autodl.chalearn.org獲得。
除了引入AutoML問題的新的一般表述,設置和分析AutoDL挑戰,本論文的貢獻還包括:(1) 為我們向參與者提出的問題制定我們自己的解決方案。我們的工作GramNAS通過使用形式化的語法對神經架構進行編碼來解決神經架構搜索(NAS)問題。這為算法表示提供了一個非常穩健和通用的解決方案,并為從本質上分析算法的學習提供了可能:畢竟,算法的最終表示是其代碼(連同編譯器)。已經對兩種替代方法進行了實驗研究:一種是基于蒙特卡洛樹搜索(MCTS)的方法,一種是基于進化算法的方法。由于樹狀結構在形式化語法中非常自然地出現,蒙特卡洛樹搜索可以相當自然地用作搜索算法。MCTS GramNAS算法在CIFAR-10數據集上取得了最先進的性能(94%的準確性)。我們還在GramNAS框架上使用了AgEBO(貝葉斯優化的老化進化)算法來說明另一種方法。這最后一種算法本身就適合并行。在4個大型知名數據集的基準測試中,它擊敗了最先進的軟件包AutoGluon和AutoPytorch。GramNAS框架提供了對學習算法的理解和表述的見解。一個工具箱被開源,為新的應用制作定制的形式化語法,允許用戶重復使用常見的底層搜索策略。(2) 為未來的元學習挑戰打下基礎。AutoDL挑戰系列揭示了元學習對于成功解決AutoDL任務的重要性。然而,挑戰賽的設置并沒有評估元學習,因為元學習并沒有在挑戰賽的平臺上進行:參與者提交的代碼只是在幾個任務上進行獨立的訓練和測試。在一名實習生的帶領下,我們正在嘗試各種元學習挑戰協議。(3) 作出理論上的貢獻。在本論文的研究過程中,進入了幾個合作項目,以解決元學習和遷移學習的問題。我們在強化學習的背景下提出了元學習,并證明在某些條件下,隨機搜索的平均性能不能被超越。我們還對我們提出的LEAP網的超泛化能力進行了理論分析,證明當系統的擾動為加法時,LEAP網能夠實現超泛化。
機器學習(Bishop, 2006; Mitchell, 1997)利用數據的力量來自動構建(或學習)算法。它被用作解決現實世界問題的有力工具(尤其是在這個大數據時代),并且進一步達到某種形式的人工智能(AI)。作為機器學習的一個子領域,深度學習(LeCun等人,2015)在解決計算機視覺(He等人,2015;Krizhevsky等人,2012)、自然語言處理(Devlin等人,2018;Vaswani等人,2017)、語音識別(Graves等人,2013)以及基于特征的表格數據的更經典設置中表現出令人印象深刻的性能。然而,正如 "經典 "機器學習一樣,深度學習在模型選擇(如構建新的神經網絡架構)或調整超參數(如學習率、權重衰減、批量大小、過濾器大小)方面存在繁瑣的試錯過程。為了應對這個問題,自動機器學習(AutoML)(Hutter等人,2018)旨在將這種耗費資源的程序自動化,在沒有任何人工干預的情況下應用機器學習算法。這相當于以下目標(AutoML夢想):
有了這個總體目標,如果AutoML實現了,它將彌補數據科學家和機器學習專家的供需差距。
從歷史上看,無論是學術界還是私營部門,都為實現這一AutoML夢想做出了許多努力。在學術界,從2015年到2018年,AutoML挑戰賽(Guyon等人,2018)一直在組織,并與ICML和NeurIPS等頂級機器學習會議相配合,以激勵機器學習社區的AutoML研究。之前此類挑戰賽的獲勝方法(如Auto-sklearn(Feurer等人,2015))現在被廣泛用于研究和工業。最近,人們對神經架構搜索(NAS)的興趣已經爆發(Baker等人,2017;Cai等人,2018;Elsken等人,2019;Liu等人,2019a;Negrinho和Gordon,2017b;Zoph和Le,2016)。在工業方面,許多公司,如微軟(Fusi等人,2018)和谷歌正在開發AutoML解決方案。谷歌已經推出了他們自己的AutoML平臺(Cortes等人,2017),由NAS(Pham等人,2018;Real等人,2017,2020;Zoph和Le,2016)和元學習(Finn等人,2017,2019)驅動。在這篇論文中,我們從理論和經驗兩方面考慮如何應用AutoML來實現深度學習的自動化。由于AutoML是一個相對年輕的領域,這兩個方面的各種問題都有待解決。
理論預測正確地指出,當任務和/或算法之間沒有相似性時,沒有任何一種學習算法可以勝過所有其他的算法(Wolpert, 2001, 1996; Wolpert and Macready, 1997)。然而,在真實的應用場景中,某些學習算法在特定的領域中始終比其他算法更有效。例如,卷積神經網絡(Lecun等人,1998年)在圖像領域表現出驚人的學習能力(就訓練誤差和泛化誤差而言)(Krizhevsky等人,2012年),而其他學習算法則效果不佳。這對元概括問題提出了有趣的理論問題:是否可以根據算法在過去(訓練)任務中的表現,選擇在未來(測試)任務中表現良好的算法。這是我們將在本論文中涉及的一個問題。其他問題也值得理論研究,比如學習算法的準確性和速度之間的權衡,特別是當模型選擇和超參數優化(HPO)等耗時的算法作為學習過程的一部分被應用時。在神經架構搜索社區,一些方法甚至可以花費8000個GPU天(Zoph和Le,2016)。因此,我們希望我們的算法不僅能做出準確的預測,還能盡可能快地實現良好的準確性。因此,一個理想的AutoML算法應該能夠探索潛在的更好的(超)參數選擇,但也要利用已經很好的參數來更節儉地使用。這種探索-利用的權衡在AutoML中起著核心作用,我們將在本論文中對其進行闡述。
從實踐和經驗方面來看,我們將在一組不同的數據集上分析和測試現有的AutoML算法,以便進行比較和基準測試。我們將審查一個由大約100個數據集組成的資料庫,這些數據集是在本博士期間格式化的,并展示廣泛的基準測試結果。這些數據集涵蓋了諸如計算機視覺、自然語言處理、語音識別和基于特征的表格數據等應用領域。部分結果來自AutoDL挑戰(Liu等人,2021),這是我們在自動深度學習(AutoDL)領域組織的一系列比賽。這些AutoDL挑戰賽要解決的問題與前述的AutoML夢想是一致的,我們可以從圖1.1所示的AutoDL挑戰賽的數據流中看到。從圖中我們看到,所有類型(視頻、語音、文本等)的數據首先被統一格式化為基于張量的格式。然后,這些例子被傳遞給AutoDL的核心部分,該部分應用一種單一的學習算法,并試圖在評估指標方面使學習性能最大化。
圖1.1 AutoDL挑戰中的數據流。不同類型(視頻、語音、文本等)的數據首先被統一為基于張量的格式,然后傳遞給AutoDL的核心部分,該部分應用一種單一的學習算法,并試圖在評估指標方面使學習性能最大化。
由于我們意識到AutoDL這一目標的雄心和挑戰性,我們將這一挑戰分為幾個小的挑戰,每個挑戰涉及一個領域/模式。這些挑戰是AutoCV(圖像)、AutoCV2(圖像+視頻)、AutoNLP(文本)、AutoSpeech(音頻),最后是AutoDL(所有組合)。表1.1顯示了參與AutoDL挑戰的情況和一些基本事實。這些挑戰清楚地定義了什么是AutoDL問題,為社區提供了一個擁有100個數據集的開源基準測試平臺,并幫助推動該領域的最先進技術。
圖1.2 本論文期間組織的AutoDL挑戰系列的五項比賽。AutoCV(圖像)、AutoCV2(圖像+視頻)、AutoNLP(文本)、AutoSpeech(音頻)和AutoDL(全部合并)。
表1.1 關于AutoDL挑戰的基本事實。
沒有許多公司、機構和會議的幫助,我們無法實現這一目標。圖1.3列出了其中的一些合作。
圖1.3 本論文期間的合作。谷歌、4Paradigm和微軟提供技術支持和GPU積分。ChaLearn是領導組織AutoDL挑戰的非營利組織。挑戰賽的結果在與NeurIPS 2019、ECML PKDD 2019、ICLR 2020和ICML 2020等會議同地舉行的研討會上分享。
本論文的總體安排如下。
第一章(本章)介紹了這項工作的背景和動機。
第二章回顧了文獻中的最新進展。
第三章明確了本工作的范圍,首先介紹了數學符號,然后定義了經驗問題,并提出了此后解決的科學問題。
第四章介紹了AutoDL挑戰賽的設計、結果和挑戰賽后的分析。
第五章介紹了我們在神經結構搜索(NAS)方面的工作。作為AutoDL與AutoML相比的一個主要特征,NAS旨在自動選擇深度學習模型的一個重要超參數:神經網絡架構。這個超參數與更多傳統的超參數不同,因為(1)它可以由任意長的字符串編碼,因此是離散的和無限的選擇;(2)它可以編碼很多人類的知識(這可能是促成深度學習成功的主要原因之一),而這些知識是很難自動化的。
第六章介紹了元學習,這也是更經典的AutoML的一個重要組成部分。元學習,也被稱為學習學習,試圖從過去的學習任務中獲得知識,并提高未來任務的性能。我們為未來的元學習挑戰奠定了協議的基礎,并提出了基線解決方案。我們還提供了理論分析,說明當 "無免費午餐 "定理的假設不被滿足時,有前途的元學習是多么有用。
最后,我們在第七章中以結論和教訓來總結我們的工作。
在附錄中,我們附上本論文過程中發表的一些論文。
強化學習是一種為需要做出一系列決定的任務制定最佳策略的方法。以平衡短期和長期結果的方式做出決定的能力,使強化學習成為醫療機構中規劃治療的潛在強大工具。不幸的是,傳統的強化學習算法需要對環境進行隨機實驗,這在醫療衛生領域通常是不可能的。然而,強化學習提供了從觀察數據中評估策略的工具,這是一個被稱為離策略評估的子項目。
在這項工作中,我們討論了離策略評估在應用于醫療數據時變得如此困難的主要挑戰,并設計了一些算法來改進目前執行離策略評估的方法。我們描述了幾種改進現有方法的準確性和統計能力的算法,最后介紹了一種新的方法,通過開發一種將專家臨床醫生及其知識納入評價過程的評價技術來提高離策略評估方法的可靠性。
強化學習(RL)是機器學習(ML)中的一個子領域,它為學習需要平衡短期和長期結果的任務中的連續決策策略提供了一個框架。RL的關鍵范式是將學習算法視為一個與環境互動的智能體,采取行動并觀察環境對這些行動的變化。通過與環境的不斷互動和實驗,智能體學會了實現預期目標的最佳策略。這個強大的想法促進了RL算法在廣泛的應用中的成功,如游戲和機器人。
然而,在這些應用中,與環境的隨機互動--使RL如此強大的關鍵特性--是不可能的。例如,在醫療保健中,隨機治療病人并觀察其反應是不道德的。
從批量觀察數據中評估RL決策的任務被稱為離策略評估(OPE),這個術語用來表示用于收集數據的策略與我們希望評估的策略不同。OPE只關注評估一個特定的策略,而不是學習一個最優的onc,這是大多數RL應用的目標。
這項工作的動力來自于這樣的認識:盡管在OPE方面取得了重大的理論突破,但目前的方法仍然遠遠不夠可靠,無法證明其在實際應用中的使用和部署。這些限制在醫療保健領域尤為突出,因為那里的數據非常嘈雜,而且錯誤的代價很高。 我們首先強調了使OPE在觀察性醫療環境中如此困難的關鍵因素,并展示了這些算法可能失敗的主要方式。然后,我們描述了幾種改善OPE算法性能的方法。這些方法可以應用于所有RL領域,但我們在醫療數據中經常遇到的具體特征是其強大的動力。
雖然這項工作中所描述的方法有助于提高OPE方法的性能,但它們基本上都試圖從數據中提取出更多的統計能力。不幸的是,僅從數據中提取出的知識是有限的,而且往往我們所能做的最好的也是不夠好。 然而,試圖僅從原始數據中獲得知識,卻忽視了臨床醫生和其他醫療專家所擁有的大量知識和專長。在這項工作的最后一部分,我們將論證,為了使OPE的性能足夠好,使其能夠被信任并用于醫療領域,領域專家必須被納入評估過程。為了能夠在OPE中使用領域專家,必須開發新的方法,使幾乎總是不熟悉RL和OPE技術細節的臨床醫生能夠有效地提供對OPE過程有用的意見。我們將在這個方向上邁出一步,描述一種方法,使臨床醫生能夠隨意地識別OPE方法何時可能給出不可靠的結果,并討論發展這一研究途徑的未來方向。
總而言之,這項工作應該概述了OPE在醫療領域的狀況,以及將其引入現實世界所必須做出的努力--從詳細說明當前方法可能失敗的方式和解決這些問題的可能方法,到描述臨床醫生可以被納入評估過程的方式。本論文的其余部分的結構如下:本章的其余部分介紹了本論文將使用的基本符號,并涵蓋了相關文獻。 第三章繼續討論基于模型的OPE,并介紹了一種建立模型的方法,該方法的訓練強調從評估策略下可能出現的例子中學習,并沿用了Liu等人的工作。最后,在第四章中,我們討論了如何利用臨床醫生的輸入來調試和驗證OPE的結果,沿用了Gottesman等人的方法。
隨著越來越多的優化和人工智能(AI)方法用于輔助高風險的現實生活決策,公平已經成為這些工具的設計者和用戶考慮的一個基本因素。本文研究的是制定、實現和引出公平的新途徑。第一章通過優化模型研究公平與效率的平衡。我們提出新的社會福利函數(SWFs)作為羅爾斯法則公平性和功利主義兩大著名標準的綜合衡量。然后,我們設計了一個程序,用混合整數/線性規劃模型順序地最大化這些SWFs,以找到社會最優解。該方法具有廣泛的資源分配應用的實際潛力,并在醫療保健提供和災害準備避難所分配的實際規模應用中得到了證明。第二章考慮了一個由公平機器學習驅動的優化任務。在開發公平的ML算法時,了解公平的計算代價與標準的不公平設置相比是很有用的。對于利用優化模型進行訓練的公平ML方法,專門的優化算法可能比通用求解器提供更好的計算性能。在本章中,我將探討支持向量機(SVM)的這個問題,并設計塊坐標下降型算法來訓練包含線性公平性約束的SVM。數值實驗表明,在訓練公平支持向量機方面,新的專門算法比現成的求解器更有效。
第三章探討了優化作為人工智能系統中基于福利的公平正式化的一般范式。與公平人工智能中常用的統計偏差指標相反,優化社會福利目標支持基于分配正義考慮的更廣泛的公平視角。我們提出了社會福利優化和人工智能,特別是機器學習之間的處理中和處理后的集成方案。我們以按揭貸款處理為動機,進行個案研究,以評估整合方案的有效性。接下來的兩章探討了以人為中心的觀點,以引出人們的公平偏好,即了解在不同的決策環境下人們認為什么是公平。第四章從揭示的偏好出發,研究了基于在線學習(OL)的一般偏好學習框架:學習者在變化的環境中通過相互作用學習代理的私人效用函數。通過設計一個新的凸損失函數,我們設計了一個靈活的OL框架,可以統一處理文獻中常見的損失函數,并支持各種在線凸優化算法。該框架在后悔性能和求解時間方面優于文獻中的其他OL算法。最后,第五章研究了資源順序配置過程中人們動態倫理判斷的建模和引出問題。我們利用馬爾可夫決策過程(MDP)模型來表示順序分配任務,其中國家獎勵捕獲了人們的道德偏好,從而人們的道德判斷通過政策獎勵反映出來。我們設計了一個偏好推理模型,它依賴于基于主動偏好的獎勵學習來推斷未知的獎勵函數。將該學習框架應用于Amazon Mechanical Turk的人-被試實驗,以理解人們在分配稀缺醫療資源的假設情景下的道德推理。
機器學習是一種變革性的計算工具,它正在革新許多技術和科學應用。然而,最近在人工智能和機器學習方面的成功,以及隨之而來的模型的廣泛部署,已經改變了經典的機器學習管道。首先,可用數據的絕對規模——在數量和維度上——已經爆炸。此外,現代機器學習架構具有指數級的設計選擇和超參數,但它們都是使用通用的隨機梯度方法進行優化的。這突出了自適應梯度方法的需要,該方法在沒有事先知道實例的情況下充分執行。接著并期望它們即使在不分布的輸入中也能提供良好的預測——這強調了對可靠模型的需要。最后,隨著我們收集越來越多的用戶數據,我們希望在向公眾發布這些模型時,基于這些數據訓練的模型不會損害訓練集中存在的個人的隱私。在這篇論文中,我們證明了解決這些新出現的問題需要優化方面的基本進步。更具體地說,我們首先提出了理解自適應梯度算法的最優性的新的理論結果,并展示了在基于梯度的采樣器的背景下自適應方法的實際用例。然后,我們提出了可擴展的最小最大優化方法,以有效地解決魯棒目標。最后,我們開發了私有優化方法,在更嚴格的隱私要求下最優地學習,以及自適應方法,在簡單的實例上增加“適當數量的噪聲”并顯著降低隱私的代價。
強化學習定義了僅通過行動和觀察來學習做出好的決策的代理所面臨的問題。為了成為有效的問題解決器,這些代理必須能有效地探索廣闊的世界,從延遲的反饋中分配信用,并歸納出新的經驗,同時要利用有限的數據、計算資源和感知帶寬。抽象對所有這些努力都是必要的。通過抽象,代理可以形成其環境的簡潔模型,以支持一個理性的、自適應的決策者所需要的許多實踐。在這篇論文中,我提出了強化學習中的抽象理論。首先,我提出了執行抽象過程的函數的三個要求:它們應該1)保持近似最優行為的表示,2) 有效地被學習和構造,3) 更低的規劃或學習時間。然后,我提出了一套新的算法和分析,闡明了代理如何根據這些需求學習抽象。總的來說,這些結果提供了一條通向發現和使用抽象的部分路徑,將有效強化學習的復雜性降到最低。
強化學習問題如下。RL代理通過以下兩個離散步驟的無限重復與環境進行交互:
論文余下組織如下: 第1部分。在第2章中,我提供了關于RL(2.1節)以及狀態抽象(2.2節)和動作抽象(2.3節)的必要背景知識。
第2部分。下一部分將專注于狀態抽象。我提出了新的算法和三個緊密相連的分析集,每一個目標是發現滿足引入的需求的狀態抽象。在第3章中,我開發了一個形式化的框架來推理狀態抽象,以保持近似最優的行為。這個框架由定理3.1總結,它強調了值保持狀態抽象的四個充分條件。然后,在第4章中,我將這一分析擴展到終身RL設置,在終身RL設置中,代理必須不斷地與不同的任務交互并解決不同的任務。本章的主要觀點是介紹了用于終身學習設置的PAC狀態抽象,以及澄清如何有效計算它們的結果。定理4.4說明了保證這些抽象保持良好行為的意義,定理4.5說明了有多少以前已解決的任務足以計算PAC狀態抽象。我著重介紹了模擬實驗的結果,這些結果說明了所介紹的狀態抽象類型在加速學習和計劃方面的效用。最后,第五章介紹了信息論工具對狀態抽象的作用。我提出了狀態抽象和率失真理論[283,43]和信息瓶頸方法[318]之間的緊密聯系,并利用這種聯系設計新的算法,以高效地構建狀態抽象,優雅地在壓縮和良好行為表示之間進行權衡。我以各種方式擴展了這個算法框架,說明了它發現狀態抽象的能力,這些狀態抽象提供了良好行為的樣本高效學習。
第3部分。然后我轉向行動抽象。在第6章中,我展示了Jinnai等人的分析[144],研究了尋找盡可能快地做出計劃的抽象動作的問題——主要結果表明,這個問題通常是NP困難的(在適當簡化的假設下),甚至在多項式時間內很難近似。然后,在第7章中,我解決了在規劃中伴隨高層次行為構建預測模型的問題。這樣的模型使代理能夠估計在給定狀態下執行行為的結果。在本章中,我將介紹并分析一個用于這些高級行為的新模型,并證明在溫和的假設下,這個簡單的替代仍然是有用的。我提供的經驗證據表明,新的預測模型可以作為其更復雜的對等物的適當替代者。最后,在第8章中,我探討了抽象行動改善探索過程的潛力。我描述了Jinnai等人開發的一種算法[145],該算法基于構建可以輕松到達環境所有部分的抽象行動的概念,并證明該算法可以加速對基準任務的探索。
第4部分。最后,我轉向狀態動作抽象的聯合過程。在第9章中,我介紹了一個將狀態和動作抽象結合在一起的簡單機制。使用這個方案,然后我證明了哪些狀態和動作抽象的組合可以在任何有限的MDP中保持良好的行為策略的表示,定理9.1總結了這一點。接下來,我將研究這些聯合抽象的反復應用,作為構建分層抽象的機制。在對層次結構和底層狀態動作抽象的溫和假設下,我證明了這些層次結構也可以保持全局近最優行為策略的表示,如定理9.3所述。然后,我將在第十章中總結我的思考和今后的方向。
總的來說,這些結果闡明了強化學習的抽象理論。圖1.4展示了本文的可視化概述。
論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning
作者:Tuomas Haarnoja
導師:Pieter Abbeel and Sergey Levine
網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html
論文摘要:
在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。