隨著在安全關鍵領域應用強化學習(RL)的需求日益增加,迫切需要安全、魯棒且多功能的RL算法。本論文直接回應了這一需求,引入了一套先進的策略優化算法,旨在克服安全RL面臨的關鍵挑戰,從而為更可靠和實用的部署鋪平道路。
論文的第一部分集中于提高樣本效率和訓練穩定性——這是可部署安全RL的關鍵方面。我們提出了約束變分策略優化(CVPO)方法,該方法將安全RL問題重新定義為兩階段優化過程。這種方法不僅確保了高效且穩定的學習,還提供了強大的性能保證,使其成為實際安全RL應用中安全性和樣本效率方面的優越選擇。 論文的第二部分深入探討了可部署RL的關鍵組成部分——魯棒性,特別是針對觀測擾動的魯棒性。我們發現,學到的安全策略對隱秘但不安全的行為誘導很脆弱。我們的發現強調了在不利條件下提高安全性的魯棒對抗訓練的必要性。基于此,我們首先引入了一種在策略上的對抗訓練流程,然后提出了SAFER,一種從CVPO衍生的離策略方法,有效地在對抗環境中增強了策略的魯棒性和安全性。
最后,論文通過從靜態離線數據集學習,解決了可部署RL的適應性和可擴展性問題。它引入了約束決策變換器(CDT),一種新穎的方法,利用序列建模技術在部署過程中動態調整安全性和任務性能之間的權衡。與CDT同時,論文提出了TAIL,一個可擴展的連續學習訓練范式,有效地將預訓練模型適應新任務,同時減輕災難性遺忘和過擬合。
總之,本論文致力于推動安全、魯棒和可擴展策略優化的界限,朝著在安全關鍵領域可部署RL邁進。所提出的方法提供了魯棒、高效和可適應的解決方案,這對RL系統的現實世界部署至關重要。 隨著強化學習(RL)繼續成熟并擴展其視野,從模擬環境過渡到真實世界的應用,使RL在實際的安全關鍵領域可部署的重點日益加強。可部署的RL指的是RL系統在復雜、動態且往往是高風險環境中安全、可靠且高效地互動和學習的能力。這包括自動駕駛車輛在城市交通中導航、金融系統執行交易或醫療機器人協助手術。為了使RL可部署,它必須遵守嚴格的安全、魯棒性、適應性和可擴展性要求——確保RL代理在多變和不可預測的現實世界條件下表現得當。
可部署RL的基石是安全性。安全強化學習(safe RL)專門通過學習不僅尋求最大化獎勵但也遵循預定義安全約束的策略來解決這一問題。這些約束對于防止危險行為和確保RL代理在可接受的風險參數內運作至關重要。安全性不僅僅是一個特性——它是一種基本必需品,支持在不確定性盛行且風險高的現實世界設置中部署RL的整個前提。
然而,僅有安全性并不能保證可部署性。為了讓RL從理論過渡到實踐,它還必須具備魯棒性和可擴展性。RL中的魯棒性指的是策略對環境變化和不確定性的抵抗力,包括在訓練期間未遇到的新場景或敵對嘗試破壞代理的行為。另一方面,適應性涉及RL算法高效地從大數據集和多樣化場景中學習和適應的能力。適應范式還應該是可擴展的,以持續發展并隨時間改進其策略。這關乎RL系統在廣泛的任務和條件中保持其性能和安全性的能力,不斷提高其能力和可靠性。
在這篇論文中,我們專注于推動安全RL的前沿,強調使其可部署。我們通過深入探討三個相互關聯的方面——安全性、魯棒性、適應性和可擴展性來解決這一挑戰,以安全性為核心,將其他方面進行語境化。我們的目標是開發方法論和算法,使我們更接近將RL視為一套理論工具和技術的愿景,而是一套實用、可靠且高效的解決方案,準備好用于真實世界的實施。這種追求是由RL在關鍵應用中的日益增長的需求和巨大潛力所激發的,推動了對不僅表現出色而且可信和可適應的系統的需求。通過專注于安全RL作為通往可部署RL的途徑,我們旨在為將智能、基于學習的系統整合到我們日常生活中的更廣泛目標做出貢獻,增強能力,并確保安全和福祉。
這篇論文探討了為已部署的機器學習模型生成局部解釋的方法,旨在確定生成有意義解釋的最優條件,同時考慮數據和用戶需求。主要目標是開發出一種為任何模型生成解釋的方法,同時確保這些解釋對于底層模型保持忠實并且對用戶來說易于理解。論文分為兩個部分。第一部分增強了一個廣泛使用的基于規則的解釋方法,并引入了一個評估線性解釋適用于近似模型的適宜性的新方法。此外,它進行了一個比較實驗,分析了兩大類反事實解釋方法之間的優勢。第二部分專注于用戶實驗,評估三種解釋方法和兩種不同表示的影響。這些實驗測量了用戶在理解和信任方面如何感知他們與模型的互動,這取決于解釋和表示方法。這項研究為更好的解釋生成做出了貢獻,可能對提高部署的AI系統的透明度、可信度和可用性產生影響。 在近幾十年里,人工智能(AI)的迅速進步,特別是機器學習(ML)模型的發展,顯著影響了我們的日常生活。這一顯著的進步可以歸因于數據可用性的指數級增長和這些模型精確度的提高。結果,AI和ML模型已經能夠實現諸如提供醫療診斷、生成連貫文本、高效識別環境問題等顯著成就。這些進步已經轉變了眾多行業,并且有潛力進一步革命化我們的社會。 然而,這一進展也導致了復雜性的增加,這使得ML模型變成了“黑盒子”。它們不透明的本質使得檢查它們的推理、進行審計或從中獲得洞見變得具有挑戰性。那么問題來了:在我們不知道這些模型的局限性和潛在失敗的情況下,我們能依賴這些模型在關鍵情況下作出決策嗎?在預測個人娛樂偏好(如Spotify或Netflix)的場景中,模型不準確的后果可能是微小的。但在預測自然災害或在醫學、工作機會或正義等領域做出關鍵決策的情況下,理解模型的可靠性和推理變得至關重要。實際上,對模型的不信任或誤解可能會導致錯誤的決策。此外,這些模型在對少數群體的偏見和對人類眼睛不可見的對抗性攻擊方面展示了脆弱性。
我們正處于一個新技術時代的邊緣,技術無縫地融入我們的日常生活。進入這個勇敢的新世界需要始終在線的人工智能和增強現實的融合。然而,我們仍然需要克服許多挑戰才能實現這一愿景。這篇論文解決了仍然存在的三個關鍵挑戰:3D重建、3D場景理解和3D場景編輯。增強現實應用要求對世界進行重建,并不斷用新信息更新。因此,我們首先解決了在在線系統中逐步融合噪聲和異常數據的挑戰。我們從數據驅動的角度出發,利用學習到的場景表示,通過機器學習的力量提高現有方法的效率。然而,僅有空間意識是不夠的。因此,我們轉向3D場景理解,我們面對為3D語義分割模型注釋數據集的高成本挑戰。我們引入了一個自動化的語義注釋流程,達到人類注釋質量,將最先進模型的預測統一到一個共享的標簽空間中,并通過3D提升進一步改進。此外,我們將在線重建流程擴展到語義映射,通過一個時空注意力機制克服有限的接收字段問題,這個機制有效地結合了2D和3D以及過去的信息。在最后部分,我們探索了使用神經輻射場進行3D場景編輯。因此,我們提出了一種方法,利用在強大的2D修復方法中編碼的先驗知識來移除場景中的對象。這需要在優化階段設計一個基于信心的視圖選擇機制,以確保最終重建中的多視圖一致性。
這篇論文的目標是通過交互學習來提高AI代理的知識表示能力,使其能夠有效地規劃并適應環境中的變化。論文的貢獻橫跨三個主題:學習和利用選擇性注意力、時間抽象和可供性;目標是獲得促進規劃、超出分布泛化和快速適應的知識表示。 本工作的一個中心假設是,橋接狀態和行動對于強化學習(RL)代理發展廣泛智能行為是關鍵。我們首先關注利用計算模型來模擬人類視覺注意力,然后引入興趣函數來學習專業化的、可復用的技能,以便快速適應和泛化到新的獎勵動態中。接著,我們為RL代理發展了一個可供性的理論,并形式化了時間抽象的部分選項模型,旨在加快規劃和更好的泛化。 展望持續性RL的目標,我們回顧了這個問題的現有定義,提出了一種方法的分類,并提供了文獻中使用的基準和理解代理性能的重要指標的概述。最后,我們研究了在線元強化學習設置下模型不確定性下的規劃問題,并展示了規劃視界依賴于任務數量、每個任務的樣本數量和底層任務相似性的概念。
這篇論文的目標是為發展能夠處理所觀察數據(“看”)、學習表示知識(“思”)并利用獲得的信息進行規劃(“行”)的人工智能(AI)系統貢獻力量,這些系統具有隨時間適應變化的能力。這類代理的應用包括:通過表示為時間上抽象的行為(跨多個時間步發生,例如“螺絲緊固件-一起”)的自動化倉庫裝配、在日常任務中為人類提供個人助理,這些任務需要抽象行動(例如“開門”)、通過跨多個時間步的推理來促進各種面向用戶服務的自動化控制,如網頁導航(例如“預訂票”)、輔助技術,能夠在不同情況下確定行動的可能性(即可供性),以在變化的環境中實現高級目標,如用于醫院中的機器人導航等。 在這篇論文中,我們在強化學習(RL)(Sutton和Barto,1998b)的背景下追求這一目標,RL是一個框架,它使得一個交互式的決策代理能夠學習如何在處理不確定性和有限的環境數據時實現目標。RL范式源自于實驗心理學中的動物學習,并從神經科學中汲取了想法。例如,研究人員提供了關于人類能夠選擇性地關注視覺輸入的某些部分(Borji等,2012;Judd等,2009)、收集相關信息,并順序地結合觀察結果以在不同的時間尺度上構建表示(Hayhoe和Ballard,2005;Zhang等,2019b),這可以指導感知和行動(Dayan等,2000;Kahneman,1973)。值得注意的是,在所有這些案例中,對狀態和行動的良好理解都是至關重要的。為了提高RL代理在現實世界問題中的適用性和可擴展性,關鍵是要在狀態和行動之間架起橋梁,以促進快速適應、健壯的泛化以及更高效地學習模型的更快規劃。 雖然在推進RL的最新技術方面取得了巨大進展(Silver等,2016;Vinyals等,2019),但大多數當前方法缺乏對世界的基本理解以及與人類相比,持續學習和適應的能力(Mitchell,2021)。在這篇論文中,我們認為,選擇性注意、時間抽象和可供性都是使代理不僅能夠獲得技能,而且能夠在非平穩性面前繼續適應和學習的必要組成部分。
為了激發選擇性注意的需求,我們首先探索知道在圖像中何處尋找(“看”)是否允許RL代理在執行任務時對干擾因素保持魯棒性,尤其是面對非平穩性時。此外,大量證據表明,使人類能夠適應變化并隨時間改進的核心要素包括跨多個時間尺度使用抽象表示(Collins, 2018; Eckstein和Collins, 2018)、選擇性時間注意(Zhang等,2019b)和層次化組織的行為(Botvinick等,2009)。我們通過定義具有興趣函數的時間抽象行動為RL代理實現這一直覺;我們的實驗顯示,專業化是學習可重用、可解釋技能的關鍵,這些技能使RL代理能夠快速適應獎勵中的非平穩性。 用于形式化注意力概念以建立抽象的自然框架是可供性理論(Gibson, 1977)。在心理學文獻中(Chemero, 2003; Heft, 1989),可供性被視為代理-環境互動的屬性。在這篇論文中,我們為RL代理定義了可供性,并展示了知道可供性的模型可以導致更快的規劃和更好的泛化。此外,具身認知和感知的理論表明,人類能夠以不同時間尺度的內部模型的形式表示知識(Pezzulo和Cisek, 2016)。我們以時間抽象的部分模型的形式闡述了這一洞見,這些模型利用了時間抽象和可供性,并且從理論上和實證上展示了它們可以提高學習和規劃的效率。 最后,為了更接近現實世界的設置,我們研究了在線學習問題的表述,沒有關于任務之間相似性或代理可能遇到的任務數量的先驗知識。隨著代理對其環境的基本結構獲得更多知識,它應該能夠以更長的規劃視界和更高的確定性提前規劃。我們將規劃與在線學習之間的鴻溝橋接起來,以顯示跨任務的元學習模型可以直接導致有效規劃視界的適應。 總之,這篇論文的重點是通過超越狀態抽象的知識表示來橋接狀態和行動,并共同考慮行為(動作),朝著使持續RL代理能力成為目標。這篇論文提出了學習專業化時間抽象表示的新方法,將學習植根于直觀的可供性理論,并學習具有不斷增長的視界的規劃以實現持續適應。
為了發展廣泛的智能行為,這項工作的中心假設是,橋接狀態和行動對于表示知識、利用它進行規劃并能夠隨時間適應環境變化至關重要。在這篇論文中,我們展示了如何通過選擇性注意在原始行為和時間上抽象的行為的表示中橋接狀態和行動,以快速適應非平穩性,并引入了表示世界動態的新方法,以促進更快的規劃和更好的泛化。最后,我們探索在線學習設置中的規劃,以顯示元學習一個世界模型可以進一步改進理論和實證結果,導致能夠規劃越來越長視界的代理。圖1.1提供了本論文的概述。
機器學習(ML)通過其近期前所未有的進步正在改變社會。自回歸模型的普及正在重塑社會的各個層面,從專業領域到學術追求,甚至休閑活動。智能AI系統的一個核心方面是它們處理和理解長時間的時間信息流,如文本、音頻或視頻數據的能力。在這篇論文中,我們深入探討了學習數據中長期依賴性的問題,從兩個主要角度來解決它:模型架構和學習算法。與其致力于在當代基準分數上獲得邊際改進,這些分數通常更依賴于工程優化,本論文的重點是深入理解潛在的時間機制,探索替代學習算法,并為未來在計算效率方面的改進提供基礎。
在第一章中,我們提出了一種新方法,將眾所周知的ML模型之一,循環神經網絡(RNN)的多個實例互聯。我們提出的實證證據表明,模型架構的修改在系統組件內引發不同的時間行為。這一發現可以被利用來區分長期依賴性和短期依賴性,為使用專門為每個設計的架構鋪平了道路。
第二章聚焦于在線學習算法,這種方法顯著偏離了用于訓練時間ML模型的傳統方法。這些算法在觀察到每個輸入后立即更新其參數,與更常用的方法形成對比,后者必須觀察整個輸入序列才能更新模型參數。我們研究了實時循環學習(RTRL)在眾所周知的RNN模型中的表現,并提出了一種數學上合理的近似方法。這種新方法提供了更好的近似,盡管它只與某些架構兼容。
在最后一章中,我們同時從這兩個方面應對學習長期依賴性的挑戰。我們提出了一種分層架構,能夠通過將其分解為更小的自包含子序列來處理擴展序列。與這種架構一起,我們提出了一種學習算法,使得在抽象空間中的學習成為可能,從而繞過了專注于短期序列細節的需求。這種架構和算法的結合導致了計算效率的顯著提高。重要的是,我們的方法不僅增強了當前模型的能力,而且還為未來模型架構和學習算法的共同設計開辟了令人興奮的途徑。
動態穩定移動操縱器的使用正從受控研究實驗室擴展到真實世界。然而,自主操縱技能仍然專門用于單一任務,并且只能處理對象物理屬性的有限變化,這阻礙了機器人在非結構化人類環境中的部署。本論文關注于動態穩定移動操縱器的整體運動規劃和控制,以及為控制器提供實時適應由于與物體交互而引起的機器人動力學變化。
動態穩定移動操縱器,即配備機器人手臂的積極平衡移動機器人,在為人類設計的環境中工作潛力非常大。然而,它們的靈活性和順應性需要高控制復雜性。傳統的控制策略將移動和操縱問題分別處理,需要額外的啟發式方法來實現整體協調。此外,基于逆動力學的控制器不考慮系統未來的演變,這對平衡控制至關重要。另一方面,在本論文中,我們提出了一種基于模型預測控制(MPC)的整體運動規劃和控制公式。我們的方法利用了完整的機器人動力學,并共同優化平衡、基座追蹤、末端執行器追蹤和環境交互。我們在一個球平衡操縱器的廣泛實驗中驗證了所提出的整體MPC控制器。
當機器人動力學不準確或操縱新物體時,模型不確定性可能嚴重影響MPC的性能和通用性。為了解決這個問題,我們提出了兩種在線適應方案,用于MPC系統動力學中的物體參數,我們在一個球平衡操縱器的開門和舉起物體任務中展示了這一點。盡管我們最初將外部環境建模為線性系統,但對于更復雜的操縱任務或機器人動力學中的不確定性,需要更具描述性的表示。因此,我們提出將模型誤差近似為三角函數基函數的線性組合。假設當機器人執行類似操縱任務時,動力學的基本結構不會發生顯著變化,我們從相關實驗中收集的數據學習基函數的超參數,例如,讓機器人打開具有不同剛度系數的門。執行新任務時,基函數的超參數保持不變,而線性參數在線適應。我們在仿真和硬件實驗中測試了得到的多任務學習MPC控制器,并與其他自適應MPC控制器進行了廣泛比較。
最后,為了在參數不確定性下獲得更好的跟蹤性能,我們將機器人操縱器自適應控制中導出的控制Lyapunov函數(CLF)約束納入最優控制問題的不等式集合中。因此,我們獲得了一種結合了CLFs和MPC優勢的自適應控制器,在機器人與未知物體交互時提供了改進的性能,并減少了對MPC預測范圍調整的依賴。我們通過與幾個基線的比較展示了所提方法的優勢,并在一個四足機器人搬運磚塊和拖拽重箱的硬件測試中驗證了它。
從人本主義的角度建立人工智能系統的迫切性日益增加,因為從個性化推薦系統到語言和圖像生成模型的大規模機器學習系統每天都在與人互動。在這篇論文中,我們提出了一條從人本主義的角度建立這些系統的指導方針。我們的指南包含三個步驟:(i)識別學習任務中所關注的人的角色和他們的核心特性;(ii)以一種有用且可靠的方式對這些特性進行建模;和(iii)以原則性的方式將這些模型納入學習算法的設計中。我們將這一指南應用于兩個應用:個性化推薦系統和決策支持系統。對于推薦系統,我們按照指南(i)關注用戶不斷變化的偏好,(ii)將它們模型化為動態系統,和(iii)開發具有可證明保證的高效在線學習算法,與具有不同偏好動態的用戶互動。對于決策支持系統,我們(i)選擇決策者的風險偏好作為關注的核心特性,(ii)將它們模型化到系統的目標函數中,和(iii)為在多樣風險偏好下學習模型提供具有統計保證的一般程序。我們最后討論了以人為中心的機器學習的未來,以及這一領域中跨學科研究的角色。
安全強化學習(RL)專注于訓練策略以最大化獎勵,同時確保安全性。這是將 RL 應用于關乎安全的實際應用的重要步驟。然而,由于需要在最大化獎勵和滿足安全約束之間取得平衡,安全 RL 存在挑戰,這可能導致訓練不穩定和過于保守的行為。在這篇論文中,我們提出了兩種解決上述安全 RL 問題的方法: (1)我們提出了自我節奏的安全強化學習,它將自我節奏的課程與基礎的安全 RL 算法 PPO-Lagrangian 結合在一起。在訓練過程中,策略從簡單的安全約束開始,逐漸增加約束的難度,直到滿足所需的約束。我們在 Safety Gym 基準上評估了我們的算法,并證明了課程有助于底層安全 RL 算法避免局部最優,提高了獎勵和安全目標的性能。 (2)我們提出在一個修改過的 MDP 中學習策略,在這個"嵌入了安全性約束的 MDP"中,RL 代理的輸出被轉換成一系列的動作,這些動作通過一個軌跡優化器進行轉換,確保在機器人當前處于安全和準靜態配置的情況下是安全的。我們在 Safety Gym 基準上評估了我們的方法,并展示了我們在訓練期間獲得的獎勵顯著高于以前的工作,同時也少有安全性違規;而且,我們在推理期間沒有任何安全性違規。我們還在真實的機器人推箱子任務上評估了我們的方法,并證明了我們的方法可以在現實世界中安全地部署。
盡管在深度學習方面已經取得了巨大的實踐進展,但我們對是什么使深度學習工作得很好以及為什么這樣做缺乏清晰的理論理解。在本文中,我們采用“自然科學”的方法來構建深度學習的理論。我們首先確定在跨越各種不同背景的實際深度網絡中出現的各種經驗屬性。然后,我們討論了這些實證發現可以如何用來通知理論。具體而言,我們證明:(1)與監督學習相比,經過自監督學習訓練的先進深度網絡盡管過度參數化,但在特定條件下仍能實現有限的泛化差距。(2)具有相似性能和架構的模型通常會收斂到相似的內部表示,即使它們的訓練方法有很大的不同(例如:監督學習和自監督學習)(3)插值分類器服從一種分布泛化形式——它們從訓練分布中收斂到一種條件采樣器類型。(4)深度網絡的數據擴展特性對訓練數據集的結構和噪聲水平的變化具有魯棒性。
//dash.harvard.edu/handle/1/37372168
我們的發現強調,盡管缺乏最壞情況的保證,深度網絡隱含地以可預測的、結構化的方式運行,從而為未來的理論分析奠定了基礎。
在本文中,我們開發并分析了三種不同機器學習環境下的魯棒性算法。在論文的第一部分,我們介紹了隱藏分層的問題——當一個分類模型在數據的某些未標記子類上表現不佳時——并提出了一種檢測和緩解這個問題的方法。以前的工作研究了如何在已知子類標簽的情況下處理這個問題。基于經驗觀察,未標記的子類通常在深度神經網絡的特征空間中是可分離的,我們轉而使用聚類技術估計數據的子類標簽。然后,我們使用估計的子類標簽作為分布魯棒優化目標中的一種噪聲監督形式,以便訓練一個對子類間變化更魯棒的模型。我們在幾個魯棒的圖像分類基準上證明了我們的方法的有效性。我們簡要討論了以下幾種替代方法:1)使用有限數量的子類標簽來進一步提高性能,2) 使用對比學習來學習不太容易受隱藏分層影響的表示。在論文的第二部分,我們研究了結構化分布漂移下的分類模型評價問題。給定來自“源”分布的標記樣本和來自“目標”分布的未標記樣本,重要性加權是執行這種評估的標準方法;然而,重要性加權在高維設置中會遇到困難,當源分布中不包含目標分布的支持時,重要性加權就會失敗。我們表明,人們可以通過對分布轉移性質的一些預見來回避這些問題;具體來說,我們提出了一種使用用戶定義的“切片函數”(旨在捕獲可能的分布偏移軸的二進制函數)來估計目標分布上的性能的算法。我們從理論上描述了我們的方法對切片函數中的噪聲和不完全性的魯棒性,并在各種分類任務上驗證了它的有效性。在論文的第三部分,我們提出了一種加速梯度法來有效地最小化一類光滑結構非凸函數,我們稱之為“類凸”函數。該算法是經典凸函數加速梯度下降法的推廣,對迭代間可能存在的非凸性具有較強的魯棒性。我們提供了一階求值次數的上界和下界,我們的算法需要找到一個近似最優,這表明我們的算法具有最優復雜度到對數因子
//searchworks.stanford.edu/view/14172616
題目: A survey of deep learning techniques for autonomous driving
簡介: 本文目的是研究自動駕駛中深度學習技術的最新技術。首先介紹基于AI的自動駕駛架構、CNN和RNN、以及DRL范例。這些方法為駕駛場景感知、路徑規劃、行為決策和運動控制算法奠定基礎。該文研究深度學習方法構建的模塊化“感知-規劃-執行”流水線以及將傳感信息直接映射到轉向命令的端到端系統。此外,設計自動駕駛AI架構遇到的當前挑戰,如安全性、訓練數據源和計算硬件等也進行了討論。該工作有助于深入了解深度學習和自動駕駛AI方法的優越性和局限性,并協助系統的設計選擇。