傳統的機器學習方法通常依賴于最大似然估計(MLE),因為其實現簡單且等價于最小化KL散度。然而,僅通過最大化似然進行訓練的模型往往缺乏在實際應用中所期望的某些特性,如不確定性的量化、對分布外輸入的魯棒性,或遵守隱私約束。隨著機器學習模型被越來越廣泛地部署,這些重要特性變得比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法在當今的大模型和大數據集下通常難以實現。
在本論文中,我們提出了若干貢獻,以提高超越最大似然方法的可操作性。首先,我們在多個領域改進了貝葉斯機器學習。這使得我們能夠恢復感興趣參數的完整后驗分布,而不是最大似然方法所給出的點估計。其次,我們在順序任務中實現了新穎的訓練方案,包括強化學習和序列建模。在強化學習的案例中,這使我們能夠開發不會泄露私人信息的獎勵最大化策略。在序列建模的案例中,我們實現了新的散度函數,從而改進了文本生成。
我們的貢獻使得分布感知方法能夠擴展到多個領域,取得了最新的研究成果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私保護算法,以及使用數十億參數的語言模型生成類似人類的文本。
在我的博士學習期間,機器學習領域取得了巨大的進展。然而,隨著這些模型在越來越廣泛和重要的應用中部署,越來越多的關注點集中在它們的局限性上。盡管許多當前的模型在某些領域可以實現超越人類的表現 [SHM+16],它們仍然存在一些人類不會表現出的缺陷。這些問題包括缺乏對分布外數據的魯棒性 [SZS+14]、缺乏對不確定性的考慮 [GPSW17],以及私人信息的泄露 [KR19]。
在本論文中,我們的目標是開發解決這些缺陷的方法,涵蓋多種機器學習問題和應用領域。特別是,我們首先專注于改進貝葉斯機器學習,這是一種在參數估計中超越最大似然估計的傳統方法。在后續部分中,我們在強化學習和序列建模中引入了替代的訓練方法。正如下文所討論的,這些方法也可以看作是超越最大似然的訓練方法。
最大似然目標無疑是今天機器學習中最常用的目標函數,是分類、參數估計和生成建模中占主導地位的方法。簡單來說,給定一個數據集 DDD 和一個由參數 θ\thetaθ 參數化的概率模型 PθP_\thetaPθ,為數據集中的元素分配概率,最大似然目標尋找: θ?=arg?max?θEx~D[log?Pθ(x)]. 然而,最大似然目標并不總是機器學習從業者的顯而易見的選擇。在早期的分類研究中 [LeBB+98],非基于似然的目標函數常常被使用。在早期關于神經網絡機器學習的教材中 [Bis95],提出了幾種損失函數,包括平方和目標。實際上,在2010年代中期,生成對抗網絡 [GPM+14] 開始采用非似然損失。然而,最大似然目標逐漸成為今天機器學習中的主要目標函數。其原因有很多。首先,MLE方法在概率論上非常有依據,因為它與最小化KL散度是等價的。
DKL(PD∥Pθ) = Ex~D [log PD(x) ? log Pθ(x)] = ?Ex~D [log Pθ(x)] + C, 其中PD是數據集D的經驗分布函數(或基礎的群體分布),C是一個不依賴于θ的常數。因此,最大化似然等價于最小化數據分布與由θ參數化的分布之間的KL散度。其次,MLE方法通常非常容易優化。最大化似然只需要從數據集中采樣并計算對數似然的梯度,而這通常可以通過現代自動微分工具包輕松實現 [BFH+20, PGM+19]。相比之下,最小化數據分布與參數化分布之間的其他散度(例如χ2散度)通常要求對數據分布的密度有詳細了解。這種情況通常是未知的,而通過學習分類器近似這種密度的方法(如生成對抗網絡)則需要與θ一起對分類器參數進行對抗性訓練,導致訓練不穩定。
最后,最大似然通常與下游任務目標高度一致。例如,在ImageNet發布后變得流行的分類任務中 [DDS+09],最大化正確標簽的概率正是訓練分類模型的目標。 然而,最大似然目標并不總是最合適的選擇。不幸的是,采用非基于似然的目標通常是具有挑戰性的。在現代機器學習中,方法的可擴展性和優化的便捷性是所有方法的重要考慮因素。我們面臨的挑戰是:找到超越最大似然方法的技術,同時保持數據效率、易于通過梯度下降優化,并具備計算擴展性。為了解決這個問題,我們利用了一些在本論文中提出的關鍵技術:變分推理用于神經函數逼近下的貝葉斯推斷,連續松弛和路徑梯度估計器用于減少優化中的方差,以及將問題重新參數化為更易處理的等價形式。 本論文分為兩部分,但有一個共同的目標:開發超越典型MLE方法的技術。在第一部分中,我們研究了貝葉斯機器學習的改進,尤其在數據較少的情況下,由于數據集的有限性,關于θ的值可能存在相當大的不確定性。首先,我們開發了一種使用正則化流計算高維積分的新方法,并將其應用于計算貝葉斯定理中的歸一化函數。然后,我們將變分推理應用于因果發現問題,解決了在復雜有向無環因果圖集中構建后驗分布的挑戰。 在第二部分中,我們研究了在序列任務中超越最大似然的替代訓練方法。首先,我們研究了在強化學習中執行隱私約束的問題。這需要控制策略生成的軌跡分布,以確保它們不會泄露有關私有狀態變量的信息。最后,我們解決了基于序列數據的自回歸模型訓練問題。我們將任務重新表述為模仿學習任務,從而可以有效地最小化與數據分布的不同散度。超越MLE方法還為生成過程提供了額外的靈活性,我們通過允許回溯來增強生成過程。
在參數估計的設定中,我們有一個數據集D,并希望推斷感興趣的參數θ。例如,我們可能有一組(x, y)對,并希望推斷可能的線性關系的斜率,在假設數據生成y = θx + ?(其中? ~ N(0, σ))的情況下。最大似然估計給出了使Ex~D [Pθ(x)]最大的θ值,也可以寫作P(D|θ)。實際上,我們通常想要得到的是P(θ|D),即在給定數據集的情況下θ的后驗概率。根據貝葉斯定理,我們知道P(θ|D) = P(D|θ)P(θ)/P(D),其中P(θ)是θ的先驗分布,P(D)是歸一化常數。只要θ可以從數據中識別,并且先驗分布對θ的真實值有密度,那么在足夠的數據情況下,最大似然解將收斂于后驗分布的眾數。然而,在數據有限的情況下,得到完整的后驗分布通常非常重要,而不僅僅是最大似然值。后驗分布可以指示對θ估計的不確定性,這在做出最優決策時非常有用。 然而,精確計算后驗分布通常是不可行的,因為它需要計算歸一化常數P(D) = ∫ΘP(D|θ)P(θ)dθ。當θ的維度超出適度范圍時,由于維度詛咒,進行這種積分變得極其困難。在論文的第一個貢獻中,我們通過隨機采樣域的子集并估計每個子集的積分值來解決這個問題。雖然這是無偏的,但這種方法在典型目標函數下具有極高的方差,因為它們集中在域的一個小體積內。我們通過使用正則化流解決這個問題,正則化流是一種靈活的變換家族,可以在保持體積的同時在空間之間映射。這使我們能夠學習一個可逆映射,將[0, 1]d映射到積分域上,構造該映射,使得在[0, 1]d上的均勻分區通過正則化流映射后在積分域上生成具有大致相等積分量的(非均勻)分區。這大大降低了估計器的方差。通過改變分區的數量,我們可以在重要性采樣估計器(在無限多的小分區的極限下)和變分下界(在單個分區的極限下)之間平滑插值。
在這一部分的第二個重點中,我們將變分推理應用于從數據中推斷線性高斯結構方程模型(SEM)的問題。結構方程模型是一種特定類型的因果圖,配備了因果解釋的有向邊。在線性高斯SEM中,條件概率分布是高斯分布,均值由圖中變量的父節點的線性函數給出。盡管這個設定受到了限制,但在這種設定中進行變分推理仍然具有挑戰性。主要問題是網絡必須是一個有向無環圖(DAG),這是在鄰接矩陣空間中的一個復雜約束。我們通過將DAG權重矩陣重新參數化為P LP?來解決這個問題,其中L是下三角矩陣,P是置換矩陣。這使我們能夠應用關于置換的松弛的最新研究 [MBLS18]。我們發現我們的方法能夠恢復與真實數據生成圖非常相似的圖,并且表現優于基線方法。
在論文的第二部分中,我們從序列建模和強化學習(RL)設定的角度,探索了超越最大似然的訓練方法。如上所述,最大似然等價于KL散度最小化。實際上,正如 [Lev18] 中所描述的,我們可以將傳統的強化學習目標視為在熵獎勵的條件下最大化回報的過程,這等價于最小化由策略引發的分布與按軌跡獎勵加權的分布之間的KL散度。
在這一部分的第一個章節中,我們研究了在滿足信息披露約束的情況下最大化回報的任務。例如,參與管理CEO日程的算法可能擁有私人信息,在安排會議時不應泄露這些信息,或者游戲策略可能包含一些應該保密的有用信息。這表現為對對手從策略行動中推斷私有信息的能力的約束——為了隱藏私有信息,可能有必要采取次優行動(從減少回報的角度)。我們將其表述為對私有狀態變量與策略行動之間互信息的約束,并使用對抗訓練的批評者來試圖發現這些私有信息。我們進一步通過引入可微分模擬器擴展了這一方法,使我們首次能夠將私有強化學習擴展到高維模擬機器人任務。
在這一部分的最后一章中,我們解決了自回歸序列建模的傳統問題。通常這被表述為最大似然問題:對于由一系列標記構建的序列x1,目標是最大化似然PL1 log Pθ(xi|x<i)。這等價于最小化數據的經驗分布與由自回歸模型Pθ引發的分布之間的KL散度。然而,越來越多的模型用于生成任務,即自回歸地采樣一系列標記,如x1 ~ Pθ(·),x2 ~ Pθ(·|x1),依此類推。如果模型Pθ與基礎數據分布完全匹配,這將導致從真實的序列分布中采樣。然而,對于不能完全匹配數據分布的有限容量模型,最大化似然不一定會導致最理想的自回歸序列分布。我們將任務重新表述為模仿學習任務,從而能夠有效地最小化與數據分布的不同散度。此外,超越MLE方法為生成過程提供了額外的靈活性,我們通過允許回溯來增強生成過程。我們將該方法擴展到具有超過70億參數的Llama-2-7B語言模型 [TMS+23],并且性能優于可比方法。
因果機器學習 (Causal ML) 處理多種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大規模數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果機器學習方法中的不確定性。為了有效處理海量信息并預測復雜關系,可擴展性至關重要。隨著模型規模的擴大和靈活性增強,傳達未知信息變得愈發重要。我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性是在將機器學習模型擬合到有限數據集時產生的。解決這種不確定性可以預測一系列可能的因果效應,并隨著訓練樣本的增加而縮小范圍,從而有助于做出更明智的決策,并指出需要進一步理解的領域。結構不確定性則來自對因果結構的不精確認知,通常需要對數據生成過程或與世界的交互做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果機器學習方法。我們展示了在因果機器學習算法設計和應用中考慮可擴展性和不確定性的重要性,從而增強決策能力和知識獲取。我們的研究貢獻旨在推動因果機器學習領域的發展,并為未來研究奠定基礎。
因果機器學習 (CML) 涵蓋了多種任務,包括因果效應推斷、因果推理、因果結構發現以及因果表示學習。CML 為數據驅動算法提供了一種系統的方法,通過整合領域知識、表達建模假設的豐富語言,以及理解機器學習預測失敗原因的理論來增強其能力。本論文探討了適用于大規模數據集并處理復雜高維輸入輸出模式(如圖像、文本、時間序列和視頻)的可擴展 CML 方法中的不確定性。在大數據時代及復雜的現實世界問題中,可擴展性至關重要,因為它使 CML 算法能夠高效地處理和學習海量信息,同時建模預測復雜關系所需的上下文。
隨著模型規模的擴大和靈活性的提升,傳達未知信息變得越來越重要。挑戰在于將系統化的分析不確定性的方法應用到可擴展的方法中。解決不確定性對于做出更明智的決策以及識別我們需要學習的內容至關重要。基于這一點,我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。 統計不確定性,通常稱為認知不確定性,出現在將機器學習模型擬合到有限數據集時。解決這種不確定性有助于預測一系列可能的因果效應,并隨著訓練樣本數量的增加而縮小范圍。這一數值范圍不僅能夠促進更明智的決策,還能指出我們需要進一步理解的狀態或個體。然而,統計不確定性需要以正確的世界模型為前提。此時,結構不確定性變得相關,因為它源于對問題中潛在因果結構的不精確認知。通常,緩解結構不確定性需要對數據生成過程或與世界的交互做出進一步假設。盡管如此,CML 仍可以基于額外的領域知識傳達因果關系的不確定性,從而更好地為決策提供信息。
在本論文中,我們開發了能夠有效應對統計和結構不確定性的創新性可擴展 CML 方法和技術。我們展示了在設計和應用 CML 算法時考慮可擴展性和不確定性的重要性,因為它們增強了模型的魯棒性和泛化能力。我們的貢獻旨在推動 CML 領域的發展,并為未來在該領域的研究奠定堅實基礎。
生成式人工智能(GAI)和大語言模型(LLM)是以無監督或半監督方式運行的機器學習算法。這些算法利用現有內容,如文本、照片、音頻、視頻和代碼,生成新內容。其主要目標是生成真實且新穎的材料。此外,它們在生成新材料的數量上沒有限制。新材料可以通過應用程序接口(APIs)或自然語言接口生成,例如OpenAI開發的ChatGPT和Google開發的Bard。 生成式人工智能(AI)領域的獨特之處在于其發展和成熟過程極為透明,公眾可以廣泛觀察其進展。目前的人工智能時代受到有效利用其能力以提升企業運營的要求影響。具體而言,屬于生成式AI范疇的大語言模型(LLM)能力,具有重新定義創新和生產力極限的潛力。然而,企業在努力引入新技術的同時,可能會危及數據隱私、長期競爭力和環境可持續性。 本書深入探討生成式人工智能(GAI)和LLM。它考察了生成AI模型的歷史與演變發展,以及由這些模型和LLM產生的挑戰和問題。本書還討論了基于生成AI的系統的必要性,并探討了為生成AI模型開發的各種訓練方法,包括LLM預訓練、LLM微調和基于人類反饋的強化學習。此外,它探討了與這些模型相關的潛在用例、應用和倫理考慮。本書最后討論了生成AI的未來方向,并呈現了多項案例研究,突顯生成AI和LLM的應用。
傳統的機器學習方法通常依賴于最大似然估計(MLE),因為它易于實現并且與KL散度最小化等價。然而,僅通過最大化似然訓練的模型通常缺乏在實際部署中所期望的某些特性,例如不確定性的量化、對分布外輸入的魯棒性或遵守隱私約束。隨著機器學習模型的廣泛部署,這些重要特性比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法往往難以在當今的大型模型和數據集上實現。 在本文中,我們提出了幾項貢獻,以提高超越最大似然方法的可行性。首先,我們在多個領域改進了貝葉斯機器學習。這使我們能夠恢復感興趣參數的完整后驗分布,而不僅僅是最大似然方法提供的點估計。其次,我們在序列任務中實現了新的訓練方案:強化學習和序列建模。在強化學習的情況下,這使我們能夠開發不泄露私人信息的獎勵最大化策略。在序列建模的情況下,我們實現了新的散度方法,從而改進了文本生成。 我們的貢獻使我們能夠將分布感知的方法擴展到多個領域,并實現最先進的結果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私感知算法,以及使用具有數十億參數的語言模型生成類人文本。
大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。
我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。
過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。
在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。
從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。
語言是民主化土地和文化邊界的通道。在人工智能(AI)系統中,橋接不同語言之間的差距是最大的挑戰之一。目前AI系統的成功主要由監督學習范式所主導,其中基于梯度的學習算法(例如SGD、Adam)被設計用來優化復雜的高維平面。這些算法從通常為特定任務(如產品評論、情感分析)收集的統計觀察中學習。使用任務依賴樣本使學習過程變得繁瑣,因為它需要手動注釋數據。相反,如果沒有足夠的樣本來代表分布,深度學習模型往往因缺乏魯棒性而受到影響。由于隨機性的自然難題,數據收集過程中并非所有觀察集都被觀察到,從而在學習算法中創造了分布外(OOD)問題。
在尋找一種通用的任務不可知分布時,可以將跨多個領域的大量文本集合視為-標準自然文本分布(SNTD)。傳統自然語言處理(NLP)中遷移學習的一般想法是利用SNTD知識進行任何其他任務依賴訓練。學習SNTD,接著用較少量的注釋數據進行任務適應方法,已在各種監督NLP任務中取得了最先進(SOTA)結果。然而,每個任務的每種語言的注釋數據都是罕見的。
在語言模型中,有許多種分布差異。分布差異被編碼進語言模型的最常見方式之一是當模型用單語文本訓練并學習分離時。然后,這些語言模型產生的詞嵌入被用作預訓練的嵌入向量,以適應下游任務。我們提出對抗性訓練,將兩個單語分布投射到相同空間中,然后通過帶參數共享的增強微調提高模型的魯棒性。通過將單語言分布投射到相同的跨語言空間中,使語言分布相互了解。這些投射分布在潛在空間中在語義上相互了解。因此,當我們訓練一個分布時,另一個分布會自動適應訓練數據,使知識轉移(交換)變得更容易。此外,我們提出的新型自我訓練架構大幅提高了跨語言轉移。
接下來,我們關注聯合訓練的多語言語言模型,其中沒有主導的分布差異。在多語言模型中,我們更加關注下游任務的適應。我們發現,使用從預訓練語言模型中生成的偽增強數據的半監督學習可以大大提高下游任務的性能。最后,我們介紹了一種新穎的數據增強框架,它使用原始訓練數據的鄰近(相鄰)樣本,而不顯式使用任何平行文本語料庫或機器翻譯系統。我們提出的方法同時進行自我訓練、數據增強和無監督樣本選擇。它還為不同領域樣本提出了課程策略。通過對三種不同的跨語言任務進行廣泛的實驗,我們展示了我們所提方法的有效性。
雖然以上所有工作都集中在提高多語言任務適應性而無需監督,但我們進一步研究了添加少量樣本如何影響多語言任務適應性。為此,我們利用每種語言中少量的支持樣本,提出了一種推斷時轉導的最近鄰基方法,該方法利用查詢樣本的熵進行預測。我們展示了我們提出的方法在完全模型/完全頭部微調以及跨任務微調方面的性能優于其他方法。我們還展示了在完整推理預測的計算成本方面的顯著性能提升(37~x)。然而,隨著語言模型的增大,尤其是對于多任務,進行高效推理變得越來越困難。
聯合優化的多語言分布有助于將知識從資源豐富的語言轉移到資源較少的語言。在研究轉導最近鄰推理時,我們觀察到語言模型極易受到任務分布的影響。除非我們使用極大的語言模型(>100B),否則用于特定任務適應的模型不能用于其他任務。在這篇論文中,我們最終提出的方法解決了這個問題,通過多任務提示學習。 多任務提示學習可以通過同時對多個任務和領域進行泛化來幫助泛化,從而增強去除下游任務的分布差異的潛力。我們提出了一種半參數提示調整方法,用于多任務提示學習。我們提出方法的新穎組成部分是一個記憶庫,根據離散提示從中檢索記憶提示。我們在8個不同領域的31個不同任務上進行的廣泛實驗表明了我們所提方法的有效性。
本篇論文旨在探索語言模型在多種語言、任務和領域中的適應性。它從基本的多語言適應問題開始,從那里擴展到關于不同資源可用性的多種OOD案例,涉及多種語言、任務和領域。
模型無關的特征重要性度量對于揭示不透明或“黑箱”機器學習模型的任務至關重要。這種模型在高風險決策環境(如醫療保健或銀行業)的激增,要求開發靈活且可信的方法來解決這個問題。由于沒有地面真實的特征重要性進行比較,各種競爭方法提供了不同的方法和/或理念,通常都聲稱自己更優越。最近一些最受歡迎的方法是從合作博弈論的工具進行適應,這些工具在獎勵或成本分享問題中被使用。在本文檔中,我們報告了這類特征重要性方法的最近進展。特別是,我們討論了一個使用Shapley值的“數據為中心”的群體(cohort)-基礎框架,用于模型不可知的局部特征重要性。我們提出了一個主要的重要性度量,并探討了更適合特定用例或數據環境的該方法的幾種適應。我們分析了這些方法的屬性和行為,并將它們應用于包括選民注冊和累犯數據在內的一系列合成和實際問題設置。然后,我們提出并討論了局部重要性聚合和特征重要性評估的新方法。
最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。
這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。
利用深度神經網絡進行機器學習的最新進展,在從大型數據集學習方面取得了重大成功。然而,這些成功主要集中在計算機視覺和自然語言處理方面,而在序列決策問題方面的進展仍然有限。強化學習(RL)方法就是為了解決這些問題而設計的,但相比之下,它們很難擴展到許多現實世界的應用中,因為它們依賴于成本高昂且可能不安全的在線試錯,而且需要從頭開始逐個學習每個技能的低效過程。本文將介紹設計RL智能體的工作,這些智能體直接從離線數據中訓練,能夠掌握多種技能,以解決上述挑戰。
在本文的第一部分中,我們首先介紹了一種算法,從離線數據集中學習高性能策略,并通過使用學習到的動力學模型生成的推出來擴展離線數據,提高離線強化學習智能體的泛化能力。然后,我們將該方法擴展到高維觀測空間,如圖像,并表明該方法使現實世界的機器人系統能夠執行操作任務。在論文的第二部分,為了避免在之前的強化學習工作中從頭開始學習每個任務的問題,同時保持離線學習的好處,討論了如何使強化學習智能體通過跨任務共享數據從不同的離線數據中學習各種任務。此外,我們表明,共享數據需要標記來自其他任務的數據的獎勵,這依賴于繁重的獎勵工程,也是勞動密集型的。為了解決這些問題,我們描述了如何有效地利用離線RL中的各種未標記數據,繞過獎勵標記的挑戰。最后,我們列出了未來的研究方向,如利用異構無標簽離線數據集的有效預訓練方案、離線預訓練后的在線微調以及離線RL的離線超參數選擇。
深度神經網絡(DNNs)使計算機能夠在許多不同的應用中脫穎而出,如圖像分類、語音識別和機器人控制。為了加快DNN的訓練和服務,并行計算被廣泛采用。向外擴展時,系統效率是一個大問題。在分布式機器學習中,高通信開銷和有限的設備上內存是導致系統效率低下的兩個主要原因。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-83.html
本文研究了在分布式機器學習工作負載下,在數據和模型并行性方面減輕通信瓶頸并實現更好的設備上內存利用的可能方法。
在通信方面,我們的Blink項目緩解了數據并行訓練中的通信瓶頸。通過打包生成樹而不是形成環,Blink可以在任意網絡環境中實現更高的靈活性,并提供近乎最佳的網絡吞吐量。為了消除模型并行訓練和推理過程中的通信問題,我們從系統層上升到應用層。我們的sensAI項目將多任務模型解耦到斷開的子網中,其中每個子網負責單個任務或原始任務集的子集的決策制定。
為了更好地利用設備上的內存,我們的小波項目有意增加任務啟動延遲,在加速器上的不同訓練任務波之間交錯使用內存峰值。通過將多個訓練波集中在同一個加速器上,它提高了計算和設備上的內存利用率。
決策算法在許多不同的應用中被使用。傳統的設計決策算法的方法采用原則和簡化的建模,在此基礎上,人們可以通過易于處理的優化來確定決策。最近,深度學習方法正在變得越來越流行,這種方法使用從數據調整的高度參數架構,而不依賴于數學模型。基于模型的優化和以數據為中心的深度學習通常被認為是不同的學科。在這里,我們將它們描述為一個在特異性和參數化方面不斷變化的連續光譜的邊緣,并為位于這個光譜中間的方法提供一個教程式的展示,稱為基于模型的深度學習。在我們的演示中,我們還附帶了超分辨率和隨機控制方面的運行示例,并展示了如何使用所提供的特性和每種詳細方法來表示它們。將基于模型的優化和深度學習結合在一起,在生物醫學成像和數字通信等各種應用中使用實驗結果,證明了這種結合的好處。