傳統的機器學習方法通常依賴于最大似然估計(MLE),因為它易于實現并且與KL散度最小化等價。然而,僅通過最大化似然訓練的模型通常缺乏在實際部署中所期望的某些特性,例如不確定性的量化、對分布外輸入的魯棒性或遵守隱私約束。隨著機器學習模型的廣泛部署,這些重要特性比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法往往難以在當今的大型模型和數據集上實現。 在本文中,我們提出了幾項貢獻,以提高超越最大似然方法的可行性。首先,我們在多個領域改進了貝葉斯機器學習。這使我們能夠恢復感興趣參數的完整后驗分布,而不僅僅是最大似然方法提供的點估計。其次,我們在序列任務中實現了新的訓練方案:強化學習和序列建模。在強化學習的情況下,這使我們能夠開發不泄露私人信息的獎勵最大化策略。在序列建模的情況下,我們實現了新的散度方法,從而改進了文本生成。 我們的貢獻使我們能夠將分布感知的方法擴展到多個領域,并實現最先進的結果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私感知算法,以及使用具有數十億參數的語言模型生成類人文本。
傳統的機器學習方法通常依賴于最大似然估計(MLE),因為其實現簡單且等價于最小化KL散度。然而,僅通過最大化似然進行訓練的模型往往缺乏在實際應用中所期望的某些特性,如不確定性的量化、對分布外輸入的魯棒性,或遵守隱私約束。隨著機器學習模型被越來越廣泛地部署,這些重要特性變得比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法在當今的大模型和大數據集下通常難以實現。
在本論文中,我們提出了若干貢獻,以提高超越最大似然方法的可操作性。首先,我們在多個領域改進了貝葉斯機器學習。這使得我們能夠恢復感興趣參數的完整后驗分布,而不是最大似然方法所給出的點估計。其次,我們在順序任務中實現了新穎的訓練方案,包括強化學習和序列建模。在強化學習的案例中,這使我們能夠開發不會泄露私人信息的獎勵最大化策略。在序列建模的案例中,我們實現了新的散度函數,從而改進了文本生成。
我們的貢獻使得分布感知方法能夠擴展到多個領域,取得了最新的研究成果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私保護算法,以及使用數十億參數的語言模型生成類似人類的文本。
在我的博士學習期間,機器學習領域取得了巨大的進展。然而,隨著這些模型在越來越廣泛和重要的應用中部署,越來越多的關注點集中在它們的局限性上。盡管許多當前的模型在某些領域可以實現超越人類的表現 [SHM+16],它們仍然存在一些人類不會表現出的缺陷。這些問題包括缺乏對分布外數據的魯棒性 [SZS+14]、缺乏對不確定性的考慮 [GPSW17],以及私人信息的泄露 [KR19]。
在本論文中,我們的目標是開發解決這些缺陷的方法,涵蓋多種機器學習問題和應用領域。特別是,我們首先專注于改進貝葉斯機器學習,這是一種在參數估計中超越最大似然估計的傳統方法。在后續部分中,我們在強化學習和序列建模中引入了替代的訓練方法。正如下文所討論的,這些方法也可以看作是超越最大似然的訓練方法。
最大似然目標無疑是今天機器學習中最常用的目標函數,是分類、參數估計和生成建模中占主導地位的方法。簡單來說,給定一個數據集 DDD 和一個由參數 θ\thetaθ 參數化的概率模型 PθP_\thetaPθ,為數據集中的元素分配概率,最大似然目標尋找: θ?=arg?max?θEx~D[log?Pθ(x)]. 然而,最大似然目標并不總是機器學習從業者的顯而易見的選擇。在早期的分類研究中 [LeBB+98],非基于似然的目標函數常常被使用。在早期關于神經網絡機器學習的教材中 [Bis95],提出了幾種損失函數,包括平方和目標。實際上,在2010年代中期,生成對抗網絡 [GPM+14] 開始采用非似然損失。然而,最大似然目標逐漸成為今天機器學習中的主要目標函數。其原因有很多。首先,MLE方法在概率論上非常有依據,因為它與最小化KL散度是等價的。
DKL(PD∥Pθ) = Ex~D [log PD(x) ? log Pθ(x)] = ?Ex~D [log Pθ(x)] + C, 其中PD是數據集D的經驗分布函數(或基礎的群體分布),C是一個不依賴于θ的常數。因此,最大化似然等價于最小化數據分布與由θ參數化的分布之間的KL散度。其次,MLE方法通常非常容易優化。最大化似然只需要從數據集中采樣并計算對數似然的梯度,而這通常可以通過現代自動微分工具包輕松實現 [BFH+20, PGM+19]。相比之下,最小化數據分布與參數化分布之間的其他散度(例如χ2散度)通常要求對數據分布的密度有詳細了解。這種情況通常是未知的,而通過學習分類器近似這種密度的方法(如生成對抗網絡)則需要與θ一起對分類器參數進行對抗性訓練,導致訓練不穩定。
最后,最大似然通常與下游任務目標高度一致。例如,在ImageNet發布后變得流行的分類任務中 [DDS+09],最大化正確標簽的概率正是訓練分類模型的目標。 然而,最大似然目標并不總是最合適的選擇。不幸的是,采用非基于似然的目標通常是具有挑戰性的。在現代機器學習中,方法的可擴展性和優化的便捷性是所有方法的重要考慮因素。我們面臨的挑戰是:找到超越最大似然方法的技術,同時保持數據效率、易于通過梯度下降優化,并具備計算擴展性。為了解決這個問題,我們利用了一些在本論文中提出的關鍵技術:變分推理用于神經函數逼近下的貝葉斯推斷,連續松弛和路徑梯度估計器用于減少優化中的方差,以及將問題重新參數化為更易處理的等價形式。 本論文分為兩部分,但有一個共同的目標:開發超越典型MLE方法的技術。在第一部分中,我們研究了貝葉斯機器學習的改進,尤其在數據較少的情況下,由于數據集的有限性,關于θ的值可能存在相當大的不確定性。首先,我們開發了一種使用正則化流計算高維積分的新方法,并將其應用于計算貝葉斯定理中的歸一化函數。然后,我們將變分推理應用于因果發現問題,解決了在復雜有向無環因果圖集中構建后驗分布的挑戰。 在第二部分中,我們研究了在序列任務中超越最大似然的替代訓練方法。首先,我們研究了在強化學習中執行隱私約束的問題。這需要控制策略生成的軌跡分布,以確保它們不會泄露有關私有狀態變量的信息。最后,我們解決了基于序列數據的自回歸模型訓練問題。我們將任務重新表述為模仿學習任務,從而可以有效地最小化與數據分布的不同散度。超越MLE方法還為生成過程提供了額外的靈活性,我們通過允許回溯來增強生成過程。
在參數估計的設定中,我們有一個數據集D,并希望推斷感興趣的參數θ。例如,我們可能有一組(x, y)對,并希望推斷可能的線性關系的斜率,在假設數據生成y = θx + ?(其中? ~ N(0, σ))的情況下。最大似然估計給出了使Ex~D [Pθ(x)]最大的θ值,也可以寫作P(D|θ)。實際上,我們通常想要得到的是P(θ|D),即在給定數據集的情況下θ的后驗概率。根據貝葉斯定理,我們知道P(θ|D) = P(D|θ)P(θ)/P(D),其中P(θ)是θ的先驗分布,P(D)是歸一化常數。只要θ可以從數據中識別,并且先驗分布對θ的真實值有密度,那么在足夠的數據情況下,最大似然解將收斂于后驗分布的眾數。然而,在數據有限的情況下,得到完整的后驗分布通常非常重要,而不僅僅是最大似然值。后驗分布可以指示對θ估計的不確定性,這在做出最優決策時非常有用。 然而,精確計算后驗分布通常是不可行的,因為它需要計算歸一化常數P(D) = ∫ΘP(D|θ)P(θ)dθ。當θ的維度超出適度范圍時,由于維度詛咒,進行這種積分變得極其困難。在論文的第一個貢獻中,我們通過隨機采樣域的子集并估計每個子集的積分值來解決這個問題。雖然這是無偏的,但這種方法在典型目標函數下具有極高的方差,因為它們集中在域的一個小體積內。我們通過使用正則化流解決這個問題,正則化流是一種靈活的變換家族,可以在保持體積的同時在空間之間映射。這使我們能夠學習一個可逆映射,將[0, 1]d映射到積分域上,構造該映射,使得在[0, 1]d上的均勻分區通過正則化流映射后在積分域上生成具有大致相等積分量的(非均勻)分區。這大大降低了估計器的方差。通過改變分區的數量,我們可以在重要性采樣估計器(在無限多的小分區的極限下)和變分下界(在單個分區的極限下)之間平滑插值。
在這一部分的第二個重點中,我們將變分推理應用于從數據中推斷線性高斯結構方程模型(SEM)的問題。結構方程模型是一種特定類型的因果圖,配備了因果解釋的有向邊。在線性高斯SEM中,條件概率分布是高斯分布,均值由圖中變量的父節點的線性函數給出。盡管這個設定受到了限制,但在這種設定中進行變分推理仍然具有挑戰性。主要問題是網絡必須是一個有向無環圖(DAG),這是在鄰接矩陣空間中的一個復雜約束。我們通過將DAG權重矩陣重新參數化為P LP?來解決這個問題,其中L是下三角矩陣,P是置換矩陣。這使我們能夠應用關于置換的松弛的最新研究 [MBLS18]。我們發現我們的方法能夠恢復與真實數據生成圖非常相似的圖,并且表現優于基線方法。
在論文的第二部分中,我們從序列建模和強化學習(RL)設定的角度,探索了超越最大似然的訓練方法。如上所述,最大似然等價于KL散度最小化。實際上,正如 [Lev18] 中所描述的,我們可以將傳統的強化學習目標視為在熵獎勵的條件下最大化回報的過程,這等價于最小化由策略引發的分布與按軌跡獎勵加權的分布之間的KL散度。
在這一部分的第一個章節中,我們研究了在滿足信息披露約束的情況下最大化回報的任務。例如,參與管理CEO日程的算法可能擁有私人信息,在安排會議時不應泄露這些信息,或者游戲策略可能包含一些應該保密的有用信息。這表現為對對手從策略行動中推斷私有信息的能力的約束——為了隱藏私有信息,可能有必要采取次優行動(從減少回報的角度)。我們將其表述為對私有狀態變量與策略行動之間互信息的約束,并使用對抗訓練的批評者來試圖發現這些私有信息。我們進一步通過引入可微分模擬器擴展了這一方法,使我們首次能夠將私有強化學習擴展到高維模擬機器人任務。
在這一部分的最后一章中,我們解決了自回歸序列建模的傳統問題。通常這被表述為最大似然問題:對于由一系列標記構建的序列x1,目標是最大化似然PL1 log Pθ(xi|x<i)。這等價于最小化數據的經驗分布與由自回歸模型Pθ引發的分布之間的KL散度。然而,越來越多的模型用于生成任務,即自回歸地采樣一系列標記,如x1 ~ Pθ(·),x2 ~ Pθ(·|x1),依此類推。如果模型Pθ與基礎數據分布完全匹配,這將導致從真實的序列分布中采樣。然而,對于不能完全匹配數據分布的有限容量模型,最大化似然不一定會導致最理想的自回歸序列分布。我們將任務重新表述為模仿學習任務,從而能夠有效地最小化與數據分布的不同散度。此外,超越MLE方法為生成過程提供了額外的靈活性,我們通過允許回溯來增強生成過程。我們將該方法擴展到具有超過70億參數的Llama-2-7B語言模型 [TMS+23],并且性能優于可比方法。
科學應用(如個性化(精準)醫學)需要因果機制的統計保證,然而在許多情況下,僅有復雜的觀察數據可用。這些數據通常具有復雜的底層交互。機器學習的最新進展使得建模這些系統成為可能,但其固有的偏見和黑箱特性給推斷帶來了挑戰。半參數方法能夠利用這些強大的非參數回歸過程,為數據生成過程中的有趣參數成分提供有效的統計分析。
本論文由三章組成。第一章總結了半參數和因果推斷的文獻,特別關注雙重穩健方法和條件獨立性測試。在第二章中,我們探討了平均部分效應的雙重穩健估計——線性模型中線性系數的推廣和因果效應的局部度量。這個框架涉及兩個插件擾動函數估計,并相互權衡其誤差。第一個擾動函數是條件期望函數,其估計要求可微分。我們建議將不必可微分的任意插件機器學習回歸與高斯核卷積,并證明在一系列核帶寬下,我們可以在對回歸均方誤差沒有漸近成本的情況下實現半參數效率界限。第二個擾動函數是預測變量的對數密度導數,稱為得分函數。這個得分函數不依賴于給定預測變量的響應的條件分布。得分估計僅在單變量情況下研究得較多。我們建議使用位置尺度模型將多變量得分估計問題減少到條件均值和方差估計加上單變量得分估計。這使得可以使用任意機器學習回歸。模擬結果證實了我們方法的理想特性,并在R包drape(雙重穩健平均部分效應)中提供了代碼,代碼可在//github.com/harveyklyne/drape獲得。
在第三章中,我們考慮在給定第三個連續變量Z的情況下測試兩個離散隨機變量X和Y的條件獨立性。條件獨立性測試構成了基于約束的因果結構學習的基礎,但已證明任何對所有原假設分布控制尺寸的測試在對抗任何備擇假設時都沒有檢驗力。因此,必須限制原假設空間,便于以機器學習方法的性能來做。以前的工作還對X和Y做了強結構假設。一個不做這些假設的雙重穩健方法是使用任意機器學習方法計算廣義協方差測量,將條件相關性的測試簡化為測試一個漸近高斯向量的均值是否為零。這個向量通常是高維的,天真的測試缺乏檢驗力。我們建議貪婪地合并底層離散變量的標簽,以最大化觀察到的條件相關性,從而以自適應方式揭示額外結構。我們的測試使用一種新穎的雙重引導校準。我們展示了一種以計算有效方式執行此過程的算法。模擬結果證實,在具有低維結構的高維設置中,我們能夠提高檢驗力,同時保持期望的尺寸控制。代碼在R包catci(CATegorical Conditional Independence)中提供,代碼可在
大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。
我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。
過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。
在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。
從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。
離線策略學習旨在使用現有的軌跡數據集來學習決策策略,而無需收集額外的數據。使用強化學習(RL)而不是監督學習技術(如行為克隆)的主要動機是找到一個策略,該策略的平均回報高于構成數據集的軌跡。然而,我們經驗性地發現,當一個數據集被次優軌跡所支配時,最先進的離線RL算法并沒有在數據集中的軌跡平均回報上獲得實質性的改進。我們認為這是因為當前的離線RL算法假設要接近數據集中的軌跡。如果數據集主要由次優軌跡組成,這個假設會迫使策略模仿次優動作。我們通過提出一個采樣策略來克服這個問題,該策略使策略只受到"好數據"的約束,而不是數據集中的所有動作(即均勻采樣)。我們呈現了采樣策略的實現和一個算法,該算法可以用作標準離線RL算法中的即插即用模塊。我們的評估在72個不平衡數據集、D4RL數據集和三種不同的離線RL算法中顯示出顯著的性能提升。代碼可在//github.com/Improbable-AI/dw-offline-rl 獲取。
模型無關的特征重要性度量對于揭示不透明或“黑箱”機器學習模型的任務至關重要。這種模型在高風險決策環境(如醫療保健或銀行業)的激增,要求開發靈活且可信的方法來解決這個問題。由于沒有地面真實的特征重要性進行比較,各種競爭方法提供了不同的方法和/或理念,通常都聲稱自己更優越。最近一些最受歡迎的方法是從合作博弈論的工具進行適應,這些工具在獎勵或成本分享問題中被使用。在本文檔中,我們報告了這類特征重要性方法的最近進展。特別是,我們討論了一個使用Shapley值的“數據為中心”的群體(cohort)-基礎框架,用于模型不可知的局部特征重要性。我們提出了一個主要的重要性度量,并探討了更適合特定用例或數據環境的該方法的幾種適應。我們分析了這些方法的屬性和行為,并將它們應用于包括選民注冊和累犯數據在內的一系列合成和實際問題設置。然后,我們提出并討論了局部重要性聚合和特征重要性評估的新方法。
最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。
這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。
盡管深度學習取得了理論成就和令人鼓舞的實踐結果,但在推理、因果推理、可解釋性和可解釋性等許多領域仍然存在局限性。從應用程序的角度來看,最有效的限制之一與這些系統的魯棒性有關。事實上,目前的深度學習解決方案都沒有告知它們是否能夠在推理過程中對一個例子進行可靠的分類。現代神經網絡通常過于自信,即使它們是錯誤的。因此,構建魯棒的深度學習應用是當前計算機視覺、自然語言處理和許多其他領域的前沿研究課題。構建更可靠的深度學習解決方案最有效的方法之一是提高它們在所謂分布外檢測任務中的性能,所謂分布外檢測任務本質上是由“知道你不知道”或“知道未知”組成的。換句話說,當提交神經網絡未訓練的類實例時,具有分布外檢測能力的系統可能會拒絕執行無意義的分類。本文通過提出新的損失函數和檢測分數來解決目標性分布不均檢測任務。不確定性估計也是構建更魯棒的深度學習系統的關鍵輔助任務。因此,我們也處理這個與魯棒性相關的任務,它評估由深度神經網絡呈現的概率有多真實。為了證明我們的方法的有效性,除了大量的實驗,其中包括最新的結果,我們使用基于最大熵原理的論點來建立所提出的方法的理論基礎。與大多數當前的方法不同,我們的損失和得分是無縫的和有原則的解決方案,除了快速和有效的推斷,還能產生準確的預測。此外,我們的方法可以并入到當前和未來的項目中,只需替換用于訓練深度神經網絡的損失,并計算一個快速的檢測評分。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html
本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。
在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。
為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。
決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。