優化算法的一個教科書式特性是在通用的正則條件下解決問題的能力。兩個例子分別是單純形方法和梯度下降(GD)方法。然而,這些基本且通用的優化算法的性能往往不盡如人意;它們經常運行緩慢,在通用設置下可能返回次優解。在我看來,這是它們通用性的代價;實際上,通用算法是一項成就,但對于許多問題來說,利用特殊結構所帶來的收益可能非常巨大。一個基本問題隨之產生:我們如何在算法中利用問題特定結構,以獲得具有強性能保證的快速、實用的算法?隨著更多結構化的數據驅動決策模型的出現,這個問題對實踐者來說變得越來越緊迫和相關。
例如,在非凸優化中,GD方法眾所周知容易陷入次優的鞍點。然而,一系列近期的研究表明,隨機初始化或擾動改變了GD的動態特性,并使其可證明地收斂于全局最優解。此外,馬爾可夫決策過程(MDP)和離散最優傳輸(OT)問題都可以通過大規模線性規劃來解決。與使用通用LP算法不同,策略迭代和Sinkhorn迭代利用了MDP和OT中的特殊結構,因此在實踐中表現更好。將算法調整為問題特定結構通常被稱為結構驅動的算法設計。
盡管這一研究方向已經被廣泛研究了70多年并取得了廣泛的成功,但機器學習的成功案例引入了新的表述,它們適合進行深入的理論分析和產生顯著的實際影響。我的研究通過識別可靠機器學習(極小極大優化)和多智能體機器學習(高階優化及以上)的特殊結構,以及設計計算適當定義的最優解的最優算法;還有其他結構化問題,如高效熵正則化最優傳輸、無梯度非光滑非凸優化以及在博弈中的自適應和雙重最優學習,推動了這一領域的發展。
優化是機器人的一個基本組成部分,在控制和仿真等領域的各個方面都有涉及。這兩個領域都涉及尋找各種優化問題的最佳解決方案,以獲得預期的結果。在解決這些優化問題時,效率是關鍵。通過快速可靠地找到解決方案,我們可以在硬件上實時執行基于優化的控制器。快速生成大量仿真數據的能力對于離線優化任務也很有價值,如策略優化、協同設計優化和系統識別。機器人控制與仿真中出現的優化問題往往具有結構性。有些問題可以直接歸入已經研究過的類別,例如線性二次調節器(LQR),其他控制問題可以歸為線性規劃(LP)或二次規劃(QP)。對于這些類別中的每一個,都存在高效和可靠的求解器。將你的問題歸入其中一類通常是一種安全的策略。
然而,存在涉及復雜優化問題的控制和仿真任務,目前還沒有令人滿意的求解器。本文主要研究這些問題。我們特別感興趣的是耦合優化問題,其中一個優化問題的解是另一個優化問題的參數。這些耦合優化問題在機器人仿真中自然會出現。例如,接觸物理的模擬需要解決最小作用原理和最大耗散原理。第6章和第7章將介紹如何聯合求解這兩個優化問題。耦合優化問題也經常出現在智能體交互的自動駕駛場景中。事實上,場景中的每輛車或行人都在優化其路徑,以盡可能快地重新聚集到目的地,同時避免碰撞。相反,我們可以故意選擇將一個復雜的優化問題分解為一組耦合優化問題。在第5章中我們會看到,分解是一種可以顯著提高求解器速度和可靠性的策略。在這種情況下,優化問題通過利用可微優化來交換梯度信息。這些選擇背后的策略就是我們所說的組合優化。本文主要研究機器人控制與仿真中的幾個應用,即博弈論控制、接觸控制、物理仿真和碰撞檢測。針對這些問題,利用組合優化來利用問題結構并設計高效的求解器。在某些情況下,我們可以將多個問題組合為一個優化問題,而在其他情況下,我們可以將問題分解為更簡單的塊。這種方法使我們能夠以結構化和高效的方式解決更復雜的優化問題。
最近機器學習(ML),或“人工智能(AI)的第三波”的成功,是建立在優化和統計領域的計算方法,大規模訓練數據和計算能力的可用性,以及部分模仿人類認知功能(如卷積網絡)的基礎上的。然而,目前的機器學習技術在實際應用中可能非常低效,并且容易出現不完美的數據,例如,當數據有噪聲、無標記、不平衡或包含冗余、偏差、協變量偏移等時。另一方面,人類學習在規劃和選擇不同學習階段的訓練內容時更具戰略性和適應性。與在所有階段對相同數據的隨機小批次重復訓練的機器學習技術相比,人類學習在解決這些實際挑戰時,在效率和魯棒性方面表現出巨大優勢。因此,如何制定機器學習的戰略性“課程”成為彌合人類智能與機器智能之間鴻溝的重要挑戰。課程學習是一種基于人類學習策略的、適用于不同學習階段的數據選擇方法,即先選擇較容易的樣本,再逐步增加較難的樣本。然而,人類用于設計課程的培訓材料的特性不僅限于難度,還可以包括多樣性、一致性、代表性、激勵、對未來培訓的影響或效用等。在機器學習中,開發高效準確的得分函數來衡量這些屬性及其對最終/以后學習目標的貢獻是具有挑戰性的。此外,鑒于分數函數,課程策略如何規劃多個訓練階段并根據每個階段自適應地調整選擇標準仍然是一個公開的挑戰。課程學習的另一個主要挑戰是缺乏模型參數和課程聯合優化的原理和理論激勵公式。如果沒有這樣的公式,就很難將選擇標準和分數函數與課程學習的潛在目標聯系起來,例如,訓練進度,泛化表現等。因此,很難解釋一個課程何時以及為什么可以提高ML。而且,在開發課程學習算法時,需要針對不同的ML應用,專門設計不同學習階段的選擇標準的規劃和調度,例如半監督學習、集成學習等。為了實現一個實際有效的算法,研究是否以及如何將為特定應用開發的現有技術與課程結合起來也很重要。本文旨在解決上述關鍵挑戰。它由四部分組成。在第一部分中,我們介紹了幾個新的課程學習公式。例如,我們可以將人類的學習策略轉換為離散-連續優化,并在訓練過程中聯合優化模型和課程,如第2章和第5章所示。我們還可以從一個新的課程學習目標中推導出權重或分數的解析形式,如第3章和第4章所示。此外,我們在第6章討論了幾個潛在的公式,以供未來的研究。在第二部分中,我們將深入探討在課程學習中起著重要作用的分數函數設計。例如,所選數據的多樣性在減少冗余和鼓勵早期探索方面發揮著至關重要的作用。除了多樣性,我們主要關注第8章中一類新的得分函數,它基于樣本在整個歷史上的訓練動態,而不是其在特定步驟的瞬時反饋。與廣泛應用的瞬時分數相比,它們顯著減少了分數評估所需的額外計算,并且由于其可區分的動態模式,它們在分配信息量最大的訓練樣本方面更準確。在第三部分中,我們基于所開發的公式和分數函數構建了實用的課程學習算法。這些算法涵蓋了幾個重要的機器學習問題,包括監督學習、半監督學習、噪聲標簽學習、集成學習等。在每個問題的算法中,研究和比較了不同的規劃或調度策略,這些策略決定了選擇標準如何在不同的學習階段發生變化。通過詳細的實證分析和比較,驗證了所提出調度策略的有效性。為在每個問題上實現最先進的性能,研究了每個問題的課程和現有技術之間的相互作用,然后在算法設計中結合它們的優勢。在第四部分中,在每個應用問題的基準數據集上,評估了所提出的方法,并與各種強大的基線進行了廣泛的實驗比較。與設計的課程相結合的方法在所有應用中都持續提高了訓練效率和最終測試的準確性。值得注意的是,課程在不完美數據的更具有挑戰性的應用上表現出更顯著的優勢,如半監督學習和噪聲標簽學習。第18章總結了本文的主要貢獻。除了提出的公式、分數函數和課程學習的算法外,還強調了在工作中彌合差距并結合人類啟發式方法、理論公式和經驗算法的優勢的努力。此外,還列舉了未來工作中幾個潛在的研究方向,這些方向可以顯著拓展課程學習的現有方案和應用領域,并深入理解機器學習中的訓練動力學及其與人類教育和認知的聯系。
機器學習(ML)系統的規模正在迅速增長,正在獲得新的能力,并越來越多地部署在高風險環境中。為了滿足對安全ML系統日益增長的需求,我首先討論如何使系統可靠地執行。隨后,我將討論如何使系統按照人的價值觀行動。最后,我將討論如何使ML系統更安全的開放問題。 機器學習(ML)系統越來越多地部署在安全關鍵設置中。與任何強大的技術一樣,這些系統的安全是重中之重。在這項工作中,我們描述了引導機器學習(ML)系統向更安全方向發展的研究。本研究將ML安全分為可靠性和對齊兩個方面進行研究。可靠性可以被認為是降低系統在面對對抗或新事件時無法達到預期目標的傾向。同時,對齊可以被認為是將ML系統引導到特定的期望方向的能力。換句話說,可靠性減少了脆弱性和風險暴露,而對齊減少了來自強大定向ML系統的內在風險。在這里,我們概述了我們在這兩個領域所做的工作
黑盒優化(BBO)問題經常發生在許多工程和科學學科中,在這些學科中,人們可以訪問一個函數(黑盒)的零階評估,該函數必須在特定的領域進行優化。在許多情況下,函數的計算成本很高,因此計算的次數受到預算的限制。貝葉斯優化(Bayesian Optimization)是一種流行的算法,它通過代理對黑箱函數進行建模,并通過評估最有可能導致最優結果的點進行運算。多目標優化(MOO)是優化中的另一個主題,其目標是在一個公共領域中同時優化定義的多個目標。通常情況下,對于相同的輸入,這些目標不會達到它們的最佳狀態。在這種情況下,不是尋找單一的最佳解決方案,而是需要一組帕累托最優解決方案。本文研究了BBO和MOO的幾種優化策略及其應用。
**本文的前半部分是關于昂貴函數的BBO。**首先,基于隨機擴展的思想,提出了一種簡單而靈活的多目標黑盒優化方法。我們引入了多目標后悔的概念,并表明隨著預算的增長,我們的策略實現了零后悔。接下來,我們研究了神經網絡對昂貴BBO的有效性。我們證明了一個簡單的貪心方法可以達到接近高斯過程貝葉斯優化的性能。利用最近研究的高斯過程和非常廣泛的神經網絡訓練動態之間的聯系,我們證明了我們提出的算法的遺憾的上界。最后,我們提出了一個考慮成本的貝葉斯優化框架,該框架考慮了每次評估的成本。這種方法在評估成本隨輸入域而變化的環境中很有用,低成本評估可以提供關于最大值的大量信息。
本文的后半部分是關于MOO在兩個可微MOO問題上的應用。我們的第一個應用是學習稀疏嵌入,使用神經網絡進行快速檢索。這里要優化的目標是檢索精度和檢索速度。我們引入了一種新的稀疏正則化方法,并演示了一種退火策略,與其他方法相比,該策略產生了更好的目標帕累托邊界。對于我們的第二個應用,我們考慮了分層時間序列預測的問題,其中多個相關的時間序列被組織成一個層次。我們提出了一種考慮層次結構的方法,同時可擴展到大型層次,并表明它在大多數層次級別上都能提高精度。我們還將其視為一個多目標問題,并演示了跨不同層次的性能權衡。為了總結我們的貢獻,在這篇論文中,我們提出了各種類型的黑盒和多目標函數的優化策略,并在合成或基準數據集上進行實驗評估。
迭代方法,尤其是凸優化方法,構成了許多現代算法的基礎。這類方法的成功依賴于它們的通用性:像梯度下降法和牛頓法這樣的方法通常只需要對目標進行最小的假設就能收斂到高質量的最小化。然而,在許多現實環境中,這些算法所獲得的理論保證在實踐中往往是不夠的。本文通過開發凸優化方法和利用問題特定結構的圖算法來解決這個問題。
//searchworks.stanford.edu/view/14239649
第一部分給出了求解拉普拉斯線性系統的最先進算法,以及求解最小成本流的更快算法。我們的結果是通過新穎的組合經典迭代方法,從凸優化與基于圖的數據結構和預調節器。第二部分給出了若干類結構凸優化問題的新算法。給出了凸函數極小化的近似最優方法,包括球優化oracle和N個凸函數的最大值極小化,以及投影極小化和復合凸極小化的新算法。我們的結果是通過對經典加速梯度方法的更精細的理解實現的,并為各種重要的機器學習任務,如邏輯回歸和硬邊界支持向量機提供了新的算法。第三部分討論了離散最優傳輸問題算法的進展,這是一個近年來由于深度學習的新應用而引起極大興趣的任務。我們給出了簡單的并行算法來逼近離散最優傳輸,并進一步證明了這些算法可以在空間界和流設置中實現。通過進一步利用我們的機制,我們還對半流模型中的圖優化問題(如二部匹配和轉運)給出了改進的復雜度邊界。
強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。
因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。
有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。
//dspace.mit.edu/handle/1721.1/138930
深度神經網絡在計算機視覺、機器學習和人工智能等許多領域都取得了顯著的經驗成功。隨著經驗上的成功,深度學習在理論上已被證明在表達能力方面具有吸引力。即具有一個隱層的神經網絡可以近似任意連續函數,而具有更深層次的神經網絡可以近似具有較少參數的特定類函數。表達理論指出,在一定規模的神經網絡中,存在近似目標函數的最優參數向量。然而,在神經網絡優化過程中,表達理論并不能保證能夠有效地找到這樣的最優向量。優化是深度學習的關鍵步驟之一,因為對數據的學習是通過優化來實現的,即對深度神經網絡的參數進行優化,使網絡與數據保持一致的過程。這個過程通常需要非凸優化,這對于一般的高維問題來說是不可擴展的。事實上,一般來說,神經網絡的優化是不可擴展的,除非對其架構做額外的假設。
本文通過研究可擴展性中的一些基本瓶頸,如次最優局部極小值和鞍點,研究了各種深度神經網絡體系結構的非凸優化問題。特別地,對于深度神經網絡,我們給出了局部極小值和臨界點的各種保證,以及梯度下降找到的點。證明了在深度神經網絡非凸優化中,對實際度進行適度的過參數化可以保證梯度下降找到全局最小值。此外,即使沒有過度參數化,我們表明,無論是理論還是經驗,增加參數的數量,改善臨界點和局部極小值的值向全局最小值。我們還證明了殘差神經網絡局部極小值的理論保證。此外,本文提出了一個統一的理論來分析這些特定架構之外的各種深度神經網絡的臨界點和局部極小值。這些結果表明,盡管在理論的最壞情況和最壞的架構中存在可伸縮性問題,但我們可以避免這個問題,并在實踐中對各種有用架構的大型問題進行良好的可擴展性。
強化學習(RL)智能體需要探索他們的環境,以便通過試錯學習最優策略。然而,當獎勵信號稀疏,或當安全是一個關鍵問題和某些錯誤是不可接受的時候,探索是具有挑戰性的。在本論文中,我們通過修改智能體解決的潛在優化問題,激勵它們以更安全或更有效的方式探索,來解決深度強化學習設置中的這些挑戰。
在這篇論文的第一部分,我們提出了內在動機的方法,在獎勵稀少或缺乏的問題上取得進展。我們的第一種方法使用內在獎勵來激勵智能體訪問在學習動力學模型下被認為是令人驚訝的狀態,并且我們證明了這種技術比單純探索更好。我們的第二種方法使用基于變分推理的目標,賦予個體不同的多種技能,而不使用特定任務的獎勵。我們證明了這種方法,我們稱為變分選擇發現,可以用來學習運動行為的模擬機器人環境。
在論文的第二部分,我們重點研究了安全勘探中存在的問題。在廣泛的安全強化學習研究的基礎上,我們提出將約束的RL標準化為安全探索的主要形式; 然后,我們繼續開發約束RL的算法和基準。我們的材料展示按時間順序講述了一個故事:我們首先介紹約束策略優化(Constrained Policy Optimization, CPO),這是約束深度RL的第一個算法,在每次迭代時都保證接近約束的滿足。接下來,我們開發了安全健身基準,它讓我們找到CPO的極限,并激勵我們向不同的方向前進。最后,我們發展了PID拉格朗日方法,其中我們發現對拉格朗日原-對偶梯度基線方法進行小的修改,可以顯著改善求解Safety Gym中約束RL任務的穩定性和魯棒性。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2021/EECS-2021-34.html