在醫療、教育、交通運輸和網絡安全等高風險領域中,智能體需要做出一系列影響現實世界結果的決策。強化學習(Reinforcement Learning, RL)為通過經驗訓練此類智能體提供了一個自然且強大的框架。然而,盡管近年來取得了顯著進展,RL 的部署與應用仍面臨若干關鍵障礙。
首先,一個具備能力的 RL 智能體可能會以違背人類預期的方式行事。在協作或安全關鍵場景中,難以理解的行為可能會讓用戶感到困惑,甚至帶來新的風險。例如,一輛自動駕駛汽車若突然急轉以避免事故,即使它整體上比人類駕駛員更安全,也可能仍被認為不安全。這種感知風險會阻礙其被廣泛采用。因此,開發表現出直觀行為的智能體往往是實現人機協作與信任的前提。
其次,在安全關鍵和受監管的領域,解釋與審計 AI 決策的能力正日益成為正式要求。然而,大多數 RL 智能體依賴深度神經網絡做出決策,而這類模型對人類而言難以理解。因此,可解釋性決策成為一個亟待解決的重要問題。
第三,設計者通常難以完全明確地指定智能體的全部期望行為。因此,往往采用固定且簡化的獎勵函數來作為代理目標。如果該代理目標存在錯誤或不足,智能體可能會表現出與人類真實期望不一致的行為。因此,如何確保智能體與人類意圖、目標和價值觀保持一致,成為一項重要挑戰。
這些挑戰都具有一個共同主題:它們源于 RL 智能體在人類環境中與人類互動或代表人類做出決策。因此,AI 未來的一個關鍵問題是如何開發能夠與人良好協作的智能體。本論文提出了一種以人為中心的 RL 方法,旨在構建和探索具備可解釋性、直觀性和一致性的 AI 智能體。我們在智能體設計與評估上提出了若干技術進展,解決了由人類參與引出的關鍵研究問題。
為實現直觀行為,我們設計了第一個通過導航圖靈測試(navigation Turing test)的 RL 智能體,并研究了人們為何將其行為視為“類人”的原因。為實現可解釋性,我們提出并實現了針對 RL 的兩種新維度的可解釋性算法:在多智能體決策中保持透明性,以及減少對人工標注的依賴。圍繞行為一致性,我們提出了一種新的對齊問題表述(基于決策的對齊),并引入了一種能夠學習與人類偏好一致的決策策略的算法。同時,我們貢獻了用于訓練和評估智能體在模糊、不完全指定任務下行為一致性的基準與數據集。 最后,本論文討論了未來研究如何在此基礎上進一步推進,以實現能夠支持人類繁榮發展的 AI 智能體。
隨著以 GPT-4 和 OpenAI Deep Research 為代表的大規模語言模型(LLMs)及具備推理能力的 AI 智能體呈指數級發展,通用人工智能(AGI)的實現時間表被大幅提前,其能力正以前所未有的速度擴展。在我們站在有望于不遠將來實現 AGI 的門檻之際,對齊問題——即確保這些系統保持真實、具備復雜推理能力,并符合人類價值觀——正變得愈發關鍵。
本論文提出了一系列創新方法,旨在應對面向超人類能力系統的基本對齊挑戰。不同于傳統范式(如監督微調 SFT 和基于人類反饋的強化學習 RLHF),我們提出了一種基于原則驅動的對齊方法(Principle-Driven Alignment),并在 AI 反饋強化學習(RLAIF)框架中實現了可擴展的對齊機制。該方法在模型能力擴展的條件下展現出對系統可靠性顯著的提升。
為了減少生成內容中的事實性錯誤,我們引入了復述增強(Recitation Augmentation)與事實增強型 RLHF(Factually Augmented RLHF),這兩種方法在大型語言模型和多模態模型中表現出強健的效果。此外,我們提出了**由易到難泛化(Easy-to-Hard Generalization)**框架,該方法基于“模型在評估解法方面通常比生成更可靠”的洞見,系統性地將簡單問題訓練出的獎勵模型應用于復雜推理任務,從而實現高質量監督。
同時,我們還提出了Lean-STaR 框架,該方法通過引導模型在生成正式解答前先進行非正式思考,有效提升了模型在定理證明中的表現。這一過程展示了“思維鏈推理(Chain-of-Thought Reasoning)”在增強自主決策能力及提高模型推理透明度方面的潛力。 本研究在 AI 發展的關鍵方向上作出了重要貢獻,建立了在系統能力持續提升背景下維護對齊性的嚴謹理論與實踐框架。實驗結果表明,這些方法在保持模型性能可靠性的同時,能夠有效對齊 AI 系統與基本人類價值觀。這些框架為構建可擴展的對齊解決方案奠定了堅實基礎,將深刻影響未來先進 AI 系統的設計與發展。
人工智能領域正處于其演進過程中的關鍵節點,大規模語言模型(LLMs)與具備推理能力的 AI 智能體的指數級發展標志著這一轉折點。GPT-4 和 OpenAI Deep Research 等系統的出現展現了前所未有的理解、推理與決策能力,加速了通用人工智能(Artificial General Intelligence, AGI)的發展進程 [23, 36, 140, 141, 191]。隨著這些系統在多領域中展現出日益復雜的能力,一個關鍵挑戰也隨之浮現:在能力持續快速擴展的背景下,如何確保 AI 系統保持真實、具備穩健的決策能力,并與人類價值觀保持根本一致。 傳統的對齊方法,主要包括監督微調(Supervised Fine-Tuning, SFT)和基于人類反饋的強化學習(Reinforcement Learning from Human Feedback, RLHF),在應對 AI 能力擴展方面面臨顯著限制 [144, 178]。其核心問題在于對人類監督與標注的高度依賴——而這種依賴,在面向可能在多個領域超越人類水平的系統時,尤為突出 [24]。這一局限凸顯出迫切需要能夠隨著 AI 能力增長而有效擴展的新型對齊方法。 本論文提出了多個新穎的框架,以在 AI 能力接近甚至超過人類水平時維持系統的對齊性。我們的研究超越了傳統的人類監督范式 [11, 16, 17, 38, 141, 144, 146],在對齊的多個維度上引入了可擴展的解決方案。 * 在第 2 章中,我們展示了基于原則驅動的上下文內對齊(principle-driven in-context alignment)在性能上可與傳統的 SFT/RLHF 方法相媲美; * 第 3 章確立了 AI 反饋強化學習(Reinforcement Learning from AI Feedback, RLAIF)作為 RLHF 的可行替代方案,提升了對齊性與模型能力; * 第 4 章開創性地將上下文對齊用于減少大語言模型輸出中的“幻覺”; * 第 5 章將該方法拓展至多模態領域,通過事實增強的獎勵模型提高生成真實性; * 第 6 章提出了由易到難泛化(Easy-to-Hard Generalization)框架,用于增強自主推理能力; * 第 7 章則發展了 LeanSTaR 框架,通過融合非正式的“思維鏈”推理過程,提升定理證明的表現。
隨著 AGI 潛在的出現,建立健全的對齊機制變得尤為關鍵。我們的研究預見了這一未來,提出的各類框架不僅應對了當前的對齊挑戰,還為在 AI 能力持續提升的背景下實現可控性和有益性奠定了基礎。這些工作旨在引導未來 AI 系統的發展方向,使其在超越人類能力的同時,始終與人類的價值觀和目標保持一致,從而推動人工智能技術在社會中安全且有益的發展。
機器人研究人員一直在嘗試將計算機視覺和語言處理等領域的數據驅動突破擴展到機器人學習中。然而,與計算機視覺或語言領域不同,這些領域有大量數據可以從互聯網上直接獲取,訓練機器人策略依賴于通過與物理世界交互所收集的物理和互動數據——這一過程資源密集,且受到勞動力限制。這種數據稀缺性長期以來一直是擴大機器人學習系統的主要瓶頸,限制了此前的努力只能在小規模和特定任務環境中進行。
在本論文中,我們提出了一種生成范式,通過解決現有的局限性,有可能推動通用機器人技術的發展。通過三條自成體系但又相互依賴的研究工作,我們旨在提出一個整合的、全面的范式:
我們提出構建全面的世界模擬器基礎設施,用于建模物理世界,結合基于學習和基于規則的方法,創建一個虛擬但現實且強大的世界供機器人代理探索并發展其技能。
我們提出了生成模擬(Generative Simulation)這一生成框架,旨在更好地利用計算資源,自動化地擴大機器人數據生成規模,建立在我們構建的世界模型之上。傳統的仿真策略訓練長期以來受到設計任務、資產、環境、訓練監督和評估指標等方面廣泛人工干預的制約。我們設計了一種機器人代理,能夠自動化執行從初始任務提案到策略訓練的所有模擬機器人學習階段,從而帶來多樣化的機器人演示。
我們提出了神經網絡架構和學習方法,用于從收集的演示數據中提煉出統一的多模態機器人策略,完成從數據生成到有效策略訓練的整個閉環。
在過去幾十年里,機器學習配合經驗風險最小化已經展現了在學習和利用數據統計模式方面的巨大能力,甚至超越了人類。盡管取得了成功,但經驗風險最小化避免了對因果性的建模——理解和處理變化的方式,這對人類智能來說是基本的。當模型部署到訓練環境之外時,處處都是分布變化。例如,自動駕駛系統經常需要處理在訓練期間未曾遇到的新天氣條件;一個人工智能輔助的藥物發現系統需要預測分子對于新型病毒如2019冠狀病毒的生化特性。這使得分布外泛化問題對于傳統機器學習來說充滿挑戰。 在這篇論文中,我們探討如何在現代機器學習中的廣泛任務中納入和實現因果性。特別是,我們利用獨立因果機制原則所暗示的不變性,即,產生效果的因果機制不會相互通報或影響。因此,目標變量給定其原因的條件分布在分布變化下是不變的。有了因果不變原則,我們首先將其實例化到圖上——一種在許多真實世界工業和科學應用中無處不在的通用數據結構,如金融網絡和分子。然后,我們進一步展示學習因果性如何有利于現代機器學習的許多理想特性,如(i)分布外泛化能力;(ii)可解釋性;以及(iii)對抗性攻擊的魯棒性。 另一方面,實現機器學習中的因果性,對于傳統機器學習中的優化提出了一個難題,因為它經常與經驗風險最小化的目標相矛盾。因此,我們描述了這些矛盾如何影響特征學習和優化,并提出了新的表示學習和優化范式,適當處理優化難題。通過適當的目標和有效的因果不變學習實現方案,這篇論文搭建了邁向現代機器學習新基礎的第一步。
強化學習是一種優化決策的框架,考慮到行動的長期后果。
強化學習的深度變種已成為在復雜環境中進行決策的強大工具。以往的工作已經在復雜游戲如圍棋和Atari中取得了突破,甚至超越了地球上一些最優秀的人類選手。然而,這些令人印象深刻的成就通常局限于游戲或仿真環境。那么,是什么阻礙它們進入現實世界呢?在本文中,我們解決了一個主要的瓶頸:有限和不完美的感官信息。
在許多現實任務中,感官信息往往是噪聲或不完整的,這打破了強化學習的核心假設。解決這一挑戰的方案實際上是眾所周知的——即使用記憶。記憶是感官信息的存儲與回憶,用于決策過程,這類似于人類和許多其他生物體內記憶的功能。記憶使得這些生物體能夠建立并更新世界的內部表征,做出合理的猜測,并在不確定性面前取得成功。然而,尚不清楚的是,如何以可靠和可處理的方式建模記憶。本文的目標是讓記憶建模變得稍微不那么難以處理,并稍微更具實用性。
首先,我們提出了一種利用我們對任務已有的先驗知識的記憶形式。通過使用這些知識,我們動態構建一個記憶圖,與標準記憶模型相比,提高了數據和參數的效率。接著,我們討論了對記憶模型的大規模研究。我們設計了一系列程序化生成的任務,然后在這些任務上實現并評估各種記憶模型。我們采取實踐性的方法,確定哪些模型具有潛力,從而為未來的研究人員節省時間和計算資源。然后,我們探討了計算心理學家所提出的人類記憶模型。基于這些原則,我們開發了一種記憶模型,達到了比標準模型更好的時間和空間效率。我們進一步展示了該方法優于以往的研究,同時還展現了有趣的理論特性。最后,我們發現了一個統一的理論框架,用于高效的記憶建模,涵蓋了許多現有的記憶模型。通過這個框架,我們提出了一種新的訓練記憶模型的方法,從而提高了時間、空間和數據的效率。
強化學習(RL)在自主智能體領域展現了巨大的潛力。然而,當將機器人應用于安全關鍵領域時,系統必須足夠穩健,才能在現實生活中部署。例如,機器人應能夠在不同的場景中執行任務,并避免進入不希望發生且不可逆的狀態,例如撞到障礙物,理想情況下,即使機器人無法實現其主要目標,也應滿足安全要求。 提高強化學習智能體穩健性的一種方法是通過領域隨機化來探索多種場景、環境參數和對手策略。然而,隨著智能體表現的提升,它變得不太可能探索那些表現較差的區域。解決這一問題的一種方法是對抗性訓練,其中對抗性智能體嘗試注入噪聲,迫使自我智能體表現不佳。然而,在這種設置中,對抗智能體更容易戰勝自我智能體,因此自我智能體往往在沒有專家監督的情況下無法克服對抗性噪聲。另外,隨著機器人進入更加非結構化的環境,環境因素可能比噪聲更大程度地影響狀態空間和動態的分布。
在我的論文中,我將討論如何利用課程學習幫助智能體有效地探索各種不同的情況、對手和動態,從而實現穩健的表現。論文的第一部分將介紹課程學習的基本理念,以及它如何被用來探索廣泛的環境。第二部分將擴展這一概念到多智能體領域,探討課程學習如何在協作和競爭、對稱和非對稱的設置中幫助找到穩健的策略。最后,我將擴展這些研究成果到質量多樣性領域,探索課程學習如何幫助我們找到一系列行為,這些行為累計起來能實現穩健性。
近年來,人工智能(AI)和深度學習經歷了顯著增長,并展現出了巨大的潛力。多家公司正在推出能夠基于數據識別和提出建議的AI智能體(79;80),這些智能體已經開始改善我們的生活質量。此外,還有努力在推動開發能夠不僅在看到某些數據時向人類提出建議,還能在看到這些數據時知道如何與世界物理互動并執行相應操作的智能體。對于能夠自主決策的智能體,強化學習(RL)展現了巨大的潛力。與其要求專家為每種情況手動設計并硬編碼所需的動作,RL智能體可以通過探索和與真實或模擬環境互動,自主訓練自己。RL智能體已經在各種模擬環境中展現出超越人類的表現,如圍棋、賽車甚至空對空戰斗(92;104;118)。 然而,這種應用也提出了一個新的穩健性挑戰,如圖1.1所示。雖然智能體可以展示超越人類的表現,但如果人類操作員不信任智能體的安全性,這些智能體將無法部署。例如,游戲AI在現實生活中已經相對被信任并得到應用。即使游戲AI遇到無法發揮全部性能的情況并未能贏得比賽,結果也不會是災難性的。游戲的目標是娛樂,只要人類用戶享受體驗,偶爾輸掉比賽的游戲AI是可以接受的。同樣,像OpenAI的Copilot這樣的代碼助手也相對被信任并得到應用。盡管該智能體會提供編程建議,但最終還是由人類程序員決定是否接受推薦并執行程序。假設人類程序員完成其工作,智能體的失敗不會直接導致災難性失敗。另一方面,在自動駕駛的情況下,自動駕駛智能體是決策算法,通常是與現實世界交互的自動化流程中的最后一環。自動駕駛智能體的設計目的是完全移除安全駕駛員,因此,如果自動駕駛智能體出現故障,由于沒有人類進行錯誤過濾,結果可能會導致災難性后果,且在某些情況下是不可逆的。因此,為了將自動駕駛智能體部署到現實生活中的安全關鍵應用中,我們不僅需要智能體表現良好,還需要它在各種情況和環境中持續穩定地表現,而不會導致不可逆和災難性的狀態。本文將把穩健性作為確保智能體在預期操作的情境中不會陷入不可逆和災難性狀態的一種方式進行探討。
機器學習中關于穩健性的研究有多種方式。一些研究專注于驗證訓練后的模型在操作數據集中的表現不會失敗(40;55)。將這一概念擴展到強化學習(RL),可以使用控制屏障函數(CBF)(3)來確保RL策略不會進入不可恢復的狀態(30)。控制屏障函數結合了領域和動態的專家知識,用于定義哪些狀態是安全且可恢復的。 結合這一思想,我們關注自主智能體能夠覆蓋和解決多少種情況,而不會進入不可逆和災難性的區域。在本文中,我們將穩健性定義為智能體在更廣泛的情境中實現高性能的能力。我們的目標是訓練出能夠部署到安全關鍵情境中的穩健策略,如駕駛和飛行,其中無法處理某些不可避免的長尾情境會阻礙RL智能體的部署。
機器人研究人員一直試圖將計算機視覺和語言處理等領域中的數據驅動突破擴展到機器人學習中。然而,與視覺或語言領域不同,這些領域可以從互聯網上輕松獲得大量數據,而機器人策略的訓練依賴于通過與物理世界互動收集的物理和交互數據——這是一個資源密集的過程,且受限于勞動力限制。這種數據匱乏長期以來一直是擴展機器人學習系統的主要瓶頸,限制了此前工作只能在小規模和任務特定的設置中進行。在本論文中,我們提出了一種生成范式,旨在通過解決現有的局限性,潛在地推動通用機器人技術的發展。這個目標通過三個相互獨立但又相互依賴的研究方向來實現,當它們整合時,形成一個連貫且全面的范式:
我們提出構建全面的世界模擬器基礎設施,用于模擬物理世界,包括基于學習的和基于規則的模型,旨在為機器人代理創造一個虛擬而現實、強大的世界,供其探索并發展技能。
我們提出生成模擬(Generative Simulation),一個生成框架,用于自主擴展機器人數據生成,更好地利用計算資源,建立在我們構建的世界模型之上。傳統的模擬訓練策略長久以來受限于任務設計、資源、環境、訓練監督和評估指標等方面的巨大人工投入。我們設計了一種自動化所有模擬機器人學習階段的機器人代理——從初步任務提出到策略訓練——從而實現多樣化的機器人演示。
我們提出神經網絡架構和學習方法,用于將收集到的演示數據提煉成統一的多模態機器人策略,完成從數據生成到有效策略訓練的整個循環。
迄今為止,擴大機器人數據收集和策略學習的努力主要集中在兩條路徑上。第一條路徑是收集人類提供的演示數據,通過運動教學或遠程操作[22, 37, 46, 178],或利用視覺人類演示[254, 283, 320]。然而,這種方法在生成廣泛分布的演示數據時遇到困難,并且由于依賴于人工勞動,本質上難以擴展。另一個有前景的方法是在仿真中訓練機器人技能,仿真自然能夠利用計算能力,理想情況下可以通過利用日益增長的計算能力輕松擴展。然而,在仿真中訓練機器人技能也受到多個方面的問題的阻礙:仿真平臺的效率和能力限制了機器人在仿真世界中進行的交互;此外,在啟動實際技能訓練之前,這一過程的多個階段仍然需要大量的人力投入。 在本論文中,我們提出了一種綜合方法,可能有助于解決機器人領域中的數據稀缺問題,并提出了一套方法,每個方法都針對完整流程的一個組成部分,完成從數據生成到策略訓練的整個周期。我們的思路很簡單:通過利用來自其他有用模態的最新基礎模型和生成模型,我們提議自動生成構建訓練環境和學習監督所需的所有靜態和語義信息:從任務提案,到3D資源、交互環境、獎勵函數等訓練監督,再到已訓練技能的閉環評估。之后,我們構建仿真環境和訓練管道,并借助強化學習或軌跡優化自動訓練機器人,從而為提議的任務生成所需的演示。這種范式,我們稱之為生成模擬(Generative Simulation),需要在多個方面進行方法學改進:首先,我們需要設計一個穩健且自給自足的框架,能夠自動執行整個流程;其次,訓練廣泛分布的技能需要仿真基礎設施和物理引擎的內在支持;第三,我們需要設計統一且有效的策略架構,通過模仿學習將生成的演示提煉為策略。最終,本論文包含三個部分:
構建結構化和通用的世界模擬器:在這一部分,我們討論了我們在構建高效且有效的仿真基礎設施方面的努力,包括基于學習和基于規則的模型,以提供一個虛擬的基礎,讓機器人能夠更好地利用計算資源探索和訓練技能。
生成模擬:接著,我們詳細討論了擴展機器人學習的整個提議管道,通過生成模擬自動生成機器人演示數據。
策略架構:在最后一部分,我們設計了新型的神經網絡架構,使機器人策略能夠通過模仿生成的演示數據進行訓練。我們提出的策略同時接收視覺觀察和自然語言指令作為輸入,并生成物理動作以完成指定任務。
人類能夠輕松地想象自己在環境中采取行動后,周圍環境將如何變化。我們擁有的這種動態模型使我們能夠進行世界的心理模擬,并據此規劃我們的行動。我們指出,這種心理模擬模型的兩個重要方面對其泛化性至關重要:1)推理是在3D空間表示中進行的,不受視角變化和遮擋的影響;2)我們觀察環境如何響應我們的行動,并基于新的觀察快速適應這些模型以應對當前情境。受到這些啟發,我們提出了兩個重要改進,旨在學習一個更具泛化性的動態模型。首先,我們認為場景動態在3D中比在2D中更易學習和表示。在3D中,物體的外觀和位置是解耦的。由于視角變化、遮擋或物體的平面外旋轉,在投影的2D圖像空間中無法通過移動物體來進行動態預測。此外,推斷自由空間和物體碰撞在3D表示空間中是自然的。為此,我們在第二章提出了3D-OES,一種基于動作條件的動態模型,用于預測物體和智能體交互引起的場景變化,這些變化發生在一個不受視角影響的3D神經場景表示空間中,該空間由RGB-D視頻推斷得出。第二,我們認為機器人從與周圍環境的互動中推斷環境特性,并根據這些信息調整其動態模型是非常重要的。在第三章中,我們提出了HyperDynamics,一種動態元學習框架,基于對環境行為的觀察,為特定情境生成專用的動態模型參數。基于學習的動態模型可能對基于模型的規劃有所幫助,但為了生成其訓練數據,我們仍然需要基于物理的仿真基礎設施。物理仿真的進展已經成為推動動態模型學習和機器人技能訓練的重要力量。然而,之前的許多機器人操作研究以及現有的大多數仿真平臺仍主要考慮相對簡單的剛性物體設置。近年來,研究可變形物體的興趣逐漸上升。在本論文中,我們希望構建一個改進多個方面的仿真基礎設施。首先,我們希望擴展到更復雜的環境設置,其中機器人需要與各種非剛性物體進行互動,從可變形物體到流體和顆粒材料。我們首先在第四章介紹了FluidEngine和FluidLab。前者是一個完全可微分的通用物理引擎,支持多種材料及其耦合,提供模擬復雜流體操作任務的能力。后者是圍繞前者構建的一系列標準化評估任務,用于在流體操作的背景下評估各種方法。我們通過實驗證明,當與我們完全可微分的仿真模型結合時,我們提出的優化方案能夠很好地解決這些任務,在樣本效率和最終性能方面超越了無梯度方法。接著,我們超越了這個特定領域的仿真引擎,并介紹了Genesis,這是一個大規模的合作項目,旨在為機器人研究人員構建一個通用、高性能、易于使用的仿真基礎設施。Genesis將各種最先進的物理求解器集成到一個統一的框架中,設計了一個完全可微分的架構,并支持更先進的觸覺傳感模塊和實時的 photorealistic 渲染系統。
通用機器人操控器需要學習在各種環境中執行多種操控技能。目前的機器人訓練流程依賴人類提供運動教學演示或編程仿真環境并為強化學習編寫獎勵函數。這種人工參與是擴展機器人學習至多樣任務和環境的瓶頸。在本論文的這一部分,我們提出了一個系統化的流程,利用多模態生成模型,并將其與強大的仿真基礎設施相結合,以自動化整個機器人策略訓練的流程。具體來說,我們的系統旨在使智能機器人代理具備自主提出有用技能的能力,并隨后構建具有語義意義的環境和相關資源以填充這些環境。之后,代理利用大型語言模型(LLMs)編寫獎勵函數,然后用于技能訓練。最后,代理啟動在構建環境中的訓練,并不斷產生與提議任務設置相關的訓練演示數據。具體來說,我們首先介紹了Gen2Sim(第六章),這是這一提議概念的初步驗證。我們通過使用圖像擴散模型將開放世界的2D物體中心圖像提升為3D,并查詢LLMs確定合理的物理參數,從而為仿真生成3D資源。給定生成的和人類開發的資產的URDF文件,我們通過鏈式思維提示LLMs將其映射到相關的任務描述、時間分解以及相應的Python獎勵函數,用于強化學習。我們展示了Gen2Sim在學習長期任務的策略中取得了成功,在這些任務中,使用非時間分解獎勵函數的強化學習方法失敗。Gen2Sim為在仿真中擴展機器人操控器的強化學習提供了一條可行路徑,既通過多樣化和擴展任務與環境開發,又通過促進強化學習行為的發現,來實現任務的時間分解。我們的工作貢獻了數百個模擬資產、任務和演示,邁出了朝著完全自主的機器人操控技能獲取邁進的一步。然后,我們介紹了RoboGen(第七章),這是一個更為全面和獨立的系統,擴展到了可變形物體操作,并改進了環境生成。RoboGen代理首先提出有趣的任務和技能進行開發,然后通過適當的空間配置生成仿真環境,并填充相關資產。接著,代理將提出的任務分解成子任務,選擇最優的學習方法(強化學習、運動規劃或軌跡優化),生成所需的訓練監督,然后學習策略以獲取提議的技能。RoboGen可以被反復查詢,生成與多樣任務和環境相關的技能演示數據。我們通過實驗證明,RoboGen生成的任務和演示比以前人類設計的機器人數據集更加多樣。
數據驅動的機器人策略學習需要合適的策略架構,帶有適當的歸納偏置,以模仿收集的演示。在論文的最后部分,我們展示了一系列旨在構建高性能神經架構的工作,以支持多模態多任務的機器人策略。我們改進現有策略架構的洞見可以歸結為兩點。首先,我們認為3D感知表示非常適合機器人操控,因為它們能夠輕松地編碼遮擋并簡化空間推理。許多操控任務需要高空間精度的末端執行器姿態預測,這通常需要高分辨率的3D特征網格,這對于處理來說是計算昂貴的。因此,大多數操控策略直接在2D中操作,放棄了3D的歸納偏置。在第八章中,我們介紹了Act3D,這是一種操控策略轉換器,使用3D特征場表示機器人的工作空間,特征的分辨率會根據任務的不同而自適應。該模型利用傳感深度將2D預訓練特征提升到3D,并對這些特征進行關注,計算采樣3D點的特征。它采用粗到細的方式采樣3D點網格,使用相對位置注意力提取特征,并選擇下一個采樣的重點區域。通過這種方式,它高效地計算出高空間分辨率的3D動作圖。在RLBench,一個公認的操控基準上,Act3D在74個RLBench任務上相較于先前的2D多視角策略提高了10%的絕對性能,在3D策略中,計算量減少了3倍并且提高了22%的絕對性能,創下了新的SOTA成績。在接下來的章節中,我們介紹了ChainedDiffuser,一種進一步統一動作關鍵姿態預測和軌跡擴散生成的策略架構,用于從演示中學習機器人操控。其主要創新是使用全局動作預測器預測關鍵幀的動作,這一任務需要多模態語義場景理解,并使用局部軌跡擴散器預測連接預測宏動作的軌跡段。ChainedDiffuser優于使用運動規劃器進行軌跡預測的現有SOTA關鍵姿態(宏動作)預測模型(包括Act3D),也優于不預測關鍵幀宏動作的軌跡擴散策略。我們在模擬和真實環境中進行了實驗,展示了ChainedDiffuser在解決涉及多樣物體互動的廣泛操控任務中的能力。
受到人工智能(AI)在高成本和安全關鍵應用中的潛力,以及最近人工智能在我們日常生活中日益普及的影響,可信賴的人工智能作為一個廣泛的研究領域日益受到重視,涵蓋了可解釋性、魯棒性、可驗證安全、公平性、隱私、問責等主題。這在簡單、透明的模型與復雜、黑箱模型之間造成了一種緊張關系,前者具有固有的信任相關好處,而后者在許多任務上的表現則無與倫比。為了彌補這一差距,我們提出并研究了一種對數值數據的不確定解釋,并將其應用于基于樹的模型,形成了一種新型模糊決策樹,稱為核密度決策樹(KDDTs),它具有更好的性能、增強的可信特性和更廣泛的實用性,使得這些樹可以應用于更廣泛的領域。我們將本論文的貢獻分為三大支柱。
第一支柱是魯棒性和驗證。不確定解釋通過考慮數據中的不確定性,并更一般地作為對模型表示的函數的一種正則化,可以改善模型在各種魯棒性概念方面的表現。我們展示了它在應對噪聲特征和噪聲標簽方面的魯棒性,這在現實世界數據中很常見。接下來,我們展示了如何通過隨機平滑理論有效地實現可驗證的對抗魯棒性。最后,我們討論了相關主題的驗證,并提出了第一個模糊決策樹的驗證算法。
第二支柱是可解釋性。雖然決策樹普遍被認為是可解釋的,但基于樹的模型的良好性能通常僅限于表格數據,并且需要特征工程,這增加了設計工作量,同時集成方法則大大降低了相較于單棵樹模型的可解釋性。通過利用KDDTs的高效擬合和可微性,我們提出了一種學習參數化特征變換的系統。通過選擇可解釋的特征類并應用稀疏正則化,我們可以獲得具有競爭性能的緊湊單樹模型。我們展示了其在表格數據、時間序列和簡單圖像數據上的應用。
第三支柱是務實的進展。半監督學習(SSL)是由標簽成本的高昂而驅動的,從混合的標記和未標記數據中學習。樹的半監督學習通常僅限于黑箱包裝方法,而這并不適合樹。我們提出了一種基于我們對數據的不確定解釋的新穎內在SSL方法。聯邦學習(FL)是由數據共享限制驅動的,通過通信模型從分布式數據中學習。我們引入了一種基于函數空間正則化的新FL算法,它借用了我們不確定解釋形式中的概念和方法。與先前的FL方法不同,它支持非參數模型,并在溫和的假設下具有收斂保證。最后,我們展示了我們的FL算法還提供了一種簡單的集成合并實用工具。
我們如何引導人工智能體表現出我們期望的行為?引導智能系統行為的一種方式是通過獎勵設計。通過指定要優化的獎勵函數,我們可以利用強化學習(Reinforcement Learning, RL)使智能體從自己的經驗和互動中學習。因此,在能夠手動指定與預期行為良好對齊的獎勵函數的環境中(例如,使用分數作為游戲的獎勵),RL取得了巨大的成功。然而,隨著我們逐步開發能夠在復雜、多樣的現實世界中學習更復雜行為的智能系統,獎勵設計變得越來越困難且至關重要。為應對此挑戰,我們提出,通過納入新的方式整合人類輸入,能夠改善獎勵信號。
本論文包含兩個主要部分:直接利用人類輸入進行獎勵設計,或間接使用我們對人類的普遍認知進行獎勵設計。在第一部分中,我們提出了一個基于人類反饋構建魯棒獎勵模型的框架。我們提出了一種適用于大規模預訓練視覺-語言模型的獎勵建模方法,在視覺和語言分布轉移的情況下,能夠生成更具廣泛適應性的多模態獎勵函數。在第二部分中,我們利用關于人類的廣泛知識,作為獎勵設計的新型輸入形式。在人類輔助場景下,我們提出使用人類賦能作為與任務無關的獎勵輸入。這使我們能夠訓練輔助智能體,避免現有目標推理方法的局限,同時還旨在保護人類的自主性。
最后,我們研究了在人工智能體中引發探索行為的情況。與以往不加區分地優化多樣性以鼓勵探索的工作不同,我們提出通過利用人類的先驗知識和普遍的世界認知來設計內在獎勵函數,從而引導更類似人類的探索行為。為了更好地理解指導人類行為的內在目標如何能為智能體設計提供借鑒,我們還比較了在人類和智能體在開放式探索場景中的行為與常用作內在獎勵的信息論目標的對齊程度。最后,我們反思了獎勵設計的挑戰,并探討了未來的研究方向。
構建能從文本、語音、視頻、現實世界傳感器、可穿戴設備和醫療數據等多種感官輸入中學習的多感官人工智能系統,在許多具有實際益處的科學領域展現出巨大的影響潛力,例如在支持人類健康與福祉、使多媒體內容處理以及增強現實世界自主代理的應用中。然而,多模態研究進展的廣度使得難以識別該領域的共同主題和開放性問題。通過綜合多種理論框架和應用領域,本論文旨在推進多模態機器學習的基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系,將展示最近的技術成就,使研究者能夠理解不同方法之間的相似性和差異,并識別未來研究的開放問題。本論文的主要內容涵蓋了我們最近在解決多模態學習中兩個關鍵問題方面的進展:多模態交互的機器學習基礎以及構建在現實世界中廣泛適用于多種模態和任務的多感官基礎模型的實用方法。在第一部分,我們研究多模態交互的基礎:即模態如何結合產生任務所需的新信息的基本原理。我們提出了一個理論框架,用于形式化模態如何相互作用以產生任務所需的新信息,例如從言語和聲音表達之間的不一致性中識別出的諷刺。使用這個理論框架,我們提出了兩個實用的估算器,以量化實際數據集中的交互。量化多模態任務所需的交互類型,使研究者能夠決定收集哪種模態,設計合適的學習這些交互的方法,并分析他們的模型是否成功地學習了這些交互。在第二部分,我們研究了設計實用的多模態基礎模型,這些模型可以廣泛地適用于多種模態和任務,這是將大型語言模型與現實世界感官模態相結合的一步。我們首先引入MULTIBENCH,一個跨廣泛模態、任務和研究領域的統一大規模基準測試。我們還將介紹現在支持今天許多多模態基礎模型的跨模態注意力和多模態變換器架構。在MULTIBENCH上擴展這些架構,使得創建適用于多種任務的通用多模態多任務模型成為可能,我們已與實踐者廣泛合作,將這些模型應用于情感計算、心理健康和癌癥預后的實際影響中。我們在論文的最后討論如何利用這些思想,朝著更通用、交互性更強和更安全的多模態人工智能邁進。
多模態人工智能是一個充滿活力的跨學科研究領域,旨在設計能夠通過多種交流方式(包括語言、聲學、視覺、觸覺、感官和生理信息)感知、推理和交互的計算機代理[46, 375]。多模態AI系統在許多具有實際益處的科學領域都能帶來巨大影響,例如支持人類健康與福祉[360, 427, 716]、使多媒體內容處理[11, 486, 514],以及增強現實世界自主代理[63, 93, 334, 523, 546]。然而,多模態研究的廣泛進展使得難以識別該領域的共同主題和開放性問題。本論文通過綜合歷史和近期視角下的廣泛理論框架和應用領域,旨在推進多模態機器學習的理論和計算基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互,這些原則帶來了機器學習的獨特挑戰。多模態數據的異質性使學習變得具有挑戰性,例如,語言通常被視為符號性的,而音頻和視頻則被表示為連續信號。同時,這些模態包含重疊的連接信息,并互動以產生任務相關的新信息。學習這些連接和互動對于系統的良好性能至關重要。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系的視角,將展示最近的技術成就,使研究者能夠理解新方法之間的相似性和差異,并幫助我們識別未來研究的關鍵開放問題。利用我們的多模態機器學習分類體系,我們強調了多模態學習進展中的兩個關鍵挑戰:(1)建立多模態交互的基礎,以便我們能夠量化數據集中存在的交互并使用機器學習方法正確地模擬這些交互;(2)構建能夠在大量模態和任務中實現泛化的多模態模型和數據集,以產生真實世界的社會影響(圖1.1)。
隨著神經網絡在諸如刑事司法、醫療等高風險領域的應用日益增多,了解這些模型做出決策的原因變得越來越重要。例如,開發工具來分析模型是否在其未來的決策中延續了它們在訓練數據中發現的有害的人口不平等至關重要。然而,神經網絡通常需要大量訓練數據集,具有“黑箱”決策特性,并且重新訓練成本高昂,這增加了這個問題的難度。本文考慮三個問題。問題一)輸入的各個元素與模型決策之間的關系是什么?問題二)單個訓練點與模型決策之間的關系是什么。最后問題三)在多大程度上存在(有效的)近似方法,能夠讓實踐者預測模型性能在不同訓練數據或不同訓練協議下的變化。
第一部分針對掩蔽顯著性方法回答問題一。這些方法隱含地假設圖像中的灰色像素是“無信息的”。我們通過實驗發現,這一假設可能并非總是正確的,并定義了“健全性”,它衡量了顯著性圖的一種理想屬性。第二部分在影響函數的背景下討論問題二和問題三,這些函數旨在近似移除一個訓練點對模型決策的影響。我們使用諧波分析來檢查一種特定的影響方法,即數據模型,并發現數據模型的系數與目標函數的傅里葉系數之間存在關系。最后,第三部分在測試數據的背景下討論問題三。首先,我們評估是否需要保留外部測試數據來近似元學習的外部循環,或者回收訓練數據是否構成了一個足夠的近似。我們發現保留的測試數據很重要,因為它學習到的表示是低秩的。然后,受到PGDL競賽的啟發,我們調查了盡管眾所周知的限制,生成對抗網絡(GAN)生成的數據是否可以用來近似泛化性能,當沒有測試或驗證集可用時,并發現它們可以做到這一點。