數據驅動的機器人學在過去十年中是一種非常有效的范式。今天,我們已經能夠自主完成一些靈巧的任務,例如折疊衣物、在狹窄的走廊中避免碰撞并導航,以及使用車載傳感器控制復雜的動態系統,例如四足機器人在挑戰性地形上行走。然而,這些方法通常存在一些基本的局限性,阻礙了它們在開放世界環境中的部署。這些局限性可能是因為它們對環境結構做出了過強的假設、需要大量的機器人數據收集,或者未能考慮對環境的語義理解。由于這些限制,數據驅動的機器人方法仍然局限于簡單的受限場景,且對大多數從業者和潛在應用不具備可行性。這些方法仍然需要為每個不同的機器人,在特定環境中,手工設計以解決特定任務。 本論文提出了對未來智能機器人的另一種愿景,即我們可以擁有通用的機器學習模型,這些模型可以直接控制任何機器人,在具有挑戰性的開放世界環境中執行合理的行為。受到語言和視覺基礎模型興起的啟發,我們提出了一種訓練機器人基礎模型(RFM)的方案,該模型通過從不同環境和形態中收集的大量數據進行訓練,可以僅依賴自我中心視覺來控制各種不同的移動機器人。我們還展示了這種RFM如何作為構建強大機器人系統的骨干,這些系統可以探索密集的森林、與人類互動,或利用諸如衛星圖像或自然語言等輔助信息源。 最后,我們提出了一種將具有物理世界知識的RFM與具有圖像級語義理解和基于文本推理的互聯網基礎模型(語言和視覺模型)相結合的新規劃框架。這使得機器人系統能夠利用互聯網基礎模型的優勢,同時在現實世界的條件下執行操作。我們希望這能夠朝著通用機器人系統邁出一步,這些系統可以部署在各種機器人上,利用預訓練模型的互聯網規模知識,并作為各種移動機器人應用的基礎。
引言
當人類訪問一個新城市時,我們毫不費力地在街道間導航、詢問地標的方向,并形成對街區的心理地圖。我們借助之前的經驗和常識來識別模式并填補空白,比如“城市街區通常是矩形的”和“出口標志指向門”。然而,大多數現有的機器人系統在未知的、非結構化的開放世界環境中缺乏這樣的意識和推理能力——它們要么(i)過度建模(幾何結構),在可擴展性和適應性方面存在局限性,要么(ii)建模過少,試圖學習一切,但在效率、泛化能力和魯棒性方面受到限制。近年來,人工智能和大規模深度學習的進展表明,這種推理確實存在于建模文本和視覺信息的神經網絡中。那么,為什么我們還沒有看到能夠高效探索城市規模環境、利用常識推理并與人類在現實環境中共存的自主機器人呢?
構建這種通用機器人的關鍵挑戰在于缺乏能夠在任意家庭、街道或森林中建模多樣化機器人行為的算法和系統。這些行為可能非常復雜,無法通過程序化的方法進行重建或模擬。因此,無論是依賴于密集映射和幾何的傳統方法,還是在模擬中訓練的現代端到端學習方法,都無法實現這一目標。我們認為,答案在于構建能夠從共享的現實世界經驗中學習的機器人系統,即從全球范圍內不同傳感器和能力、不同任務的機器人實際部署中收集的數據中學習。本論文重點討論如何利用“跨形態”機器人學習來應對上述挑戰,并將其與嚴謹的規劃和搜索基礎相結合,最終目標是構建能夠在復雜環境中實際部署的魯棒系統。這一范式能夠實現廣泛的泛化,使全新的機器人能夠在開放環境中部署,并以數據高效的方式適應各種下游任務,類似于大規模預訓練模型在計算機視覺和語言建模中的成功。
在這個范式下開發機器人系統時,重要的是要考慮兩個基本問題:
本論文提出了構建機器人基礎模型的方案,使自主機器人能夠從自己的經驗以及互聯網的其他信息來源中學習,并展示了如何將這些機器人特定的模型與在互聯網規模數據上訓練的基礎模型相結合。我們主要在自主導航的背景下研究這一問題,這是智能機器人系統在實驗室之外、真正應用于現實世界的一個基本組成部分。我們的關鍵見解是,結合跨形態數據的大規模機器人學習和規劃,可以實現可部署的通用機器人系統。本論文分為三個部分,分別對應于在數據驅動框架下設置視覺導航問題,設計和訓練用于視覺導航的機器人基礎模型,最后將這種機器人特定模型與互聯網的文本和視覺基礎模型相結合。
為了完整性和消除歧義,我們在本論文中對機器人基礎模型作如下定義: 定義1(機器人基礎模型):一種機器學習模型,在最少的外部監督下訓練,可以:
組織結構本論文分為三個部分,旨在回答上述問題。我們做出了以下貢獻: I. 從數據中學習遠程導航:我們將視覺導航問題形式化為一種無地圖的數據驅動范式。我們認為,在挑戰性的現實環境中實現魯棒導航既需要從機器人過去的經驗中學習技能,也需要一個用于規劃和搜索的明確記憶。我們還評估了離線強化學習和行為克隆在訓練現實世界技能方面的適用性。
在第2章中,我們為一種全新的基于學習的導航系統奠定了基礎,該系統可以完全從離線數據中學習,并通過規劃執行遠程導航。這項工作之前發表在Shah等人的[241]中。
在第3章中,我們基于我們的系統,使其能夠通過使用一個學習的潛在變量模型訓練一個探索先驗,從而實現自主探索。這項工作之前發表在Shah等人的[238]中。
在第4章中,我們擴展了這個系統,使其能夠利用地理輔助信息作為規劃啟發式,來實現公里級導航。這項工作之前發表在Shah等人的[232]中。
在第5章中,我們研究了離線強化學習在從數據中訓練機器人技能的可行性,并展示了一個能夠在現實世界中優化用戶特定獎勵函數的導航系統。這項工作之前發表在Shah等人的[237]中。
II. 跨形態機器人基礎模型:我們提出了跨形態學習作為一種在多個環境和機器人之間訓練目標導向導航策略的方法。我們探索了這種模型的設計空間、預訓練范式以及可能的下游應用適應方式。
在第6章中,我們探討了如何將經驗學習范式擴展到通過仔細的數據管理和架構設計,在不同的機器人形態間學習導航策略。這項工作之前發表在Shah等人的[234]中。
在第7章中,我們設計了第一個基于跨形態學習的機器人基礎模型。ViNT模型旨在將預訓練模型的成功帶入機器人領域,作為通過提示調優和全模型微調訓練下游策略的強大骨干。這項工作之前發表在Shah等人的[242]中。
在第8章中,我們提出了一種用于大規模跨形態機器人學習的替代架構,該架構使用目標條件擴散策略來學習復雜的多模態行為。這項工作之前發表在Sridhar等人的[254]中。
III. 結合機器人和互聯網基礎模型:我們提出了一種新穎的規劃框架,將大型語言模型的基于文本的推理能力、視覺模型的語義理解和視覺對位能力以及機器人基礎模型的物理對位能力相結合,以解決現實世界的指令執行任務。我們還將這一理念與第4章中的啟發式規劃框架相結合,提出了一種在規劃過程中結合語言模型建議的新方法。
在第9章中,我們設計了第一個現實世界的指令執行機器人系統,該系統可以在新環境中零樣本部署,無需額外訓練。LM-Nav結合了強大的機器人基礎模型(ViNG, GNM)和互聯網基礎模型(GPT-3, CLIP),形成了一個功能強大的多功能機器人導航系統。這項工作之前發表在Shah等人的[235]中。
在第10章中,我們研究了如何利用大型語言模型中存儲的內在知識作為解決遠程推理任務的規劃啟發式。這項工作之前發表在Shah等人的[236]中。
最后,我們討論了當前方法和在開放世界環境中開發真正自主機器人的未來發展方向。
數據驅動學習是使機器人學習技能的強大范式。當前的主要方法涉及通過遙操作或仿真收集大量機器行為數據,然后訓練策略。為了使這些策略能夠在多樣化的任務和場景中推廣,構建豐富的初始數據集的負擔很大,這受到收集示范所需的人力勞動或仔細設計仿真資產和場景的瓶頸限制。我們能否讓機器人學習如何收集自己的數據以實現持續改進?本論文旨在解決這一探索問題,指導智能體如何行動,從而發現有用的行為。 我們首先考慮如何在缺乏獎勵或示范的情況下定義探索目標。為了探索新目標,我們的關鍵見解是,識別導致某個未知目標狀態的動作序列比直接生成未知目標更容易。這得益于訓練一個可以用來測量動作序列不確定性的世界模型。為了在現實世界中進一步提高效率,我們將環境和智能體中心的探索解耦。前者與激勵導致物體視覺特征變化的動作相關,這對操作任務通常是有益的;而后者則與機器人內部世界模型的不確定性相關。 接下來,我們詢問如何為多樣化任務啟用通用機器人探索者。我們的方法是利用人類視頻學習數據驅動的先驗知識來構建動作空間。我們學習視覺可及性,描述物體如何與手或末端執行器進行交互,從而為探索提供非常高效的搜索空間。此外,這個共享的可及性動作空間可以用來訓練一個聯合的人機世界模型。該模型首先在各種人類手執行任務的視頻上進行預訓練,然后用極少的機器人探索軌跡進行微調。我們還研究了如何使用給定獎勵函數的梯度信息高效地調整互聯網規模的視頻擴散模型,這可以為未來在機器人規劃中使用此類模型的應用提供支持。 我們考慮的第三個問題是如何為機器人探索者提供更大的自主性。我們使用移動操作系統,因為它們擴展的可行任務空間和重置能力允許在最小人類參與下進行持續實踐和改進。我們展示了一種配備臂的四足機器人,通過現實世界的強化學習學習移動椅子、清掃垃圾和豎立揚塵器,以及一種自定義的輪式系統,學習在校園內各棟建筑中開門。最后,與探索問題正交,我們討論如何利用低成本高保真遙操作和仿真中的程序化場景生成來擴展雙手靈巧操作的數據收集,以學習機器人手臂的神經運動規劃器。這是為了獲得更好的初始策略,以便機器人能夠進行探索。
數據驅動的機器人技術在過去十年中已成為一種非常有效的范式。如今,我們可以自主地執行復雜的任務,如折疊衣物、在狹窄的走廊中避開障礙物導航,以及使用機載觀測控制四足機器人在復雜地形上行走等。然而,這些方法往往存在一些基本的限制,使其難以在開放世界環境中部署。原因可能是它們對環境結構做出了過于強烈的假設,或需要大量的機器人數據收集,或者無法對周圍環境進行語義理解。由于這些限制,數據驅動的機器人技術仍然局限于簡單的受限環境,無法為大多數從業者和潛在應用所用。這些系統仍需為每個機器人、特定環境和具體任務進行手工設計。 本論文提出了一個關于未來智能機器人的替代愿景,即我們可以開發通用的機器學習模型,這些模型可以直接控制任何機器人,在挑戰性的開放世界環境中執行合理的行為。受到語言和視覺基礎模型興起的啟發,我們提出了一種訓練機器人基礎模型(Robot Foundation Models, RFMs)的方法,這些模型從不同環境和實體收集的大量數據中訓練而成,能夠僅依靠自我中心視覺控制各種移動機器人。我們還展示了如何將這種RFM作為構建強大機器人系統的基礎,這些系統可以探索茂密的森林、與人類互動,或利用衛星圖像或自然語言等輔助信息源。 最后,我們提出了一種結合RFM和互聯網基礎模型的新規劃框架。RFM具備對物理世界的知識,而互聯網基礎模型則具備圖像級語義理解和基于文本的推理能力。通過這種框架,機器人系統能夠利用互聯網基礎模型的優勢,同時在現實世界中行動。我們希望這能成為通用機器人系統邁出的關鍵一步,這類系統可以部署在各種機器人上,利用經過預訓練的互聯網模型中的大規模知識,成為多樣化移動機器人應用的基礎。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2024/EECS-2024-166.html
當人類訪問一個新城市時,我們能夠輕松地在街道上導航,詢問地標方向,并在腦海中形成鄰里環境的心理地圖。我們利用以前的經驗和常識來識別模式并填補空白,例如“城市街區通常是矩形的”和“出口標志指向門口”。然而,當今大多數機器人系統在未見過的、無結構的自然環境中缺乏這種意識和推理能力——它們要么(i)建模過多(幾何),在可擴展性和適應性方面存在局限性,要么(ii)建模過少,試圖學習一切,但在效率、泛化性和魯棒性方面受到限制。人工智能和大規模深度學習的最新進展表明,這種推理確實存在于模型文本和視覺信息的神經網絡中。那么,為什么我們還沒有看到能夠高效探索城市規模環境、運用常識推理并與人類共存的自主機器人呢? 構建這種通用機器人面臨的關鍵挑戰在于缺乏能夠在任意家庭、街道或森林中建模多樣化機器人行為的算法和系統。這些行為可能極其復雜,無法通過程序生成或模擬重建。因此,依賴于密集映射和幾何的經典方法,以及在仿真中訓練的現代端到端學習方法,都不足以實現這一目標。我們認為,答案在于構建能夠從共享的真實世界經驗中學習的機器人系統,即從世界各地不同傳感器和能力的機器人執行不同任務的實際部署中收集的數據。本論文的重點是利用“跨實體”機器人學習的力量來應對上述挑戰,并將其與規劃和搜索的嚴格基礎聯系起來,最終目標是構建能夠在復雜環境中真實世界部署的魯棒系統。這種范式可以實現廣泛的泛化,使全新的機器人能夠在自然環境中部署,并以數據高效的方式適應各種下游任務,類似于大規模預訓練模型在計算機視覺和語言建模中的成功。 在這一范式下開發機器人系統時,必須考慮兩個基本問題: 1. 我們如何從在挑戰性環境中部署的機器人的離線數據集中學習魯棒行為? 1. 我們如何使這些行為在新的挑戰性環境、任務和機器人實體中進行泛化,并構建一個機器人基礎模型? 1. 我們如何將這樣的模型與互聯網基礎模型結合,以利用互聯網規模的知識和高級規劃能力?
本論文提出了一種構建機器人基礎模型的方案,使自主機器人能夠從其經驗以及互聯網的其他信息源中學習,并展示了這些特定于機器人的模型如何與在互聯網規模數據上訓練的基礎模型結合使用。我們主要在自主導航的背景下研究這一點,這是智能機器人系統在實驗室之外、真正自然環境中操作的基本組成部分。我們的關鍵見解是,結合跨實體數據的大規模機器人學習和規劃,可以實現可部署的通用機器人。本論文分為三個部分,分別對應于在數據驅動框架中建立視覺導航問題、設計和訓練用于視覺導航的機器人基礎模型,最后將這種特定于機器人的模型與互聯網的文本和視覺基礎模型相結合。 為了完整性和消除歧義,我們在本論文中將機器人基礎模型定義如下: 定義1(機器人基礎模型):一種機器學習模型,在最小的外部監督下訓練,可以: * 在完全不同的(有用的)設置中零樣本部署,例如不同的傳感器、機器人、環境等。 * 適應所選擇的下游任務,例如不同的目標、偏好/獎勵、目標規格的模態、行為等。
在過去的十年中,深度學習展現出了顯著的能力,表現出對大規模數據的強烈依賴。在這一時期,我們見證了大型語言模型、擴散模型和分割模型的規模化法則生效,通過利用大規模真實世界數據集實現了接近人類水平的性能。然而,當涉及到具身AI時,由于機器人的脆弱性和有限的速度,生成真實世界數據變得具有挑戰性和成本高昂。與此相反,合成數據和模擬環境提供了一種高效且經濟的方法來訓練機器人代理和生成精確的監督。因此,合成數據作為可擴展和高質量訓練具身AI代理的數據的有希望的解決方案而出現。鑒于使代理能夠泛化到真實世界場景的最終目標,圍繞合成數據的主要挑戰在于通過縮小模擬與現實差距(Sim2Real差距)來準確捕捉真實世界分布。解決這一挑戰涉及兩個關鍵方面:生成合成數據和有效地利用它。在這篇論文中,我展示了對這兩個方面的貢獻的兩項工作。
第一項工作著眼于合成數據的生成。我介紹了兩種旨在生成與真實世界分布一致的合成數據的方法。首先,我提出了iGibson,一個模擬環境,用于在大規模真實場景中開發機器人的交互式解決方案。iGibson構建了3D掃描真實世界家庭的交互式復制場景,使對象、布局和可交互性的分布與真實世界一致。為了進一步促進更健壯的具身代理的訓練,iGibson提供了針對材料(視覺外觀和動態特性)和對象形狀的領域隨機化程序,同時尊重對象放置的分布并保持可交互性。其次,我提出了GINA-3D,一個使用來自攝像機和LiDAR傳感器的真實世界駕駛數據的生成模型,創建多樣化車輛和行人的逼真的3D隱式神經資產。與iGibson不同,后者涉及在建立模擬環境時顯著的人力努力,GINA-3D利用了直接學習生成與真實世界觀察匹配的合成資產的生成模型。我展示了證據,表明GINA-3D在生成的視覺和幾何質量方面實現了最先進的性能和多樣性。
第二項工作專注于有效地利用合成數據。通過設計健壯的學習算法和模型,我們可以創建更好地泛化到真實世界場景的模型。首先,我介紹了Taskonomy,它利用合成數據構建了任務空間的計算分類法和地圖。通過利用任務關系,我展示了證據,表明我們可以使用比完全監督方法少至少一個數量級的數據,且模型可以很好地泛化到真實世界數據集。然后,我介紹了情境融合,它訓練代理融合一大組對應于多樣化視覺感知能力的視覺表征。這種方法在新環境中的性能顯著提高,超過了真實世界預訓練的基線和其他融合方法。最后,我介紹了ACID,用于變形物體操縱的動作條件隱式視覺動態。通過利用大規模合成數據和獨特的幾何和動力學監督,我可以將模擬訓練的ACID模型直接應用于真實世界物體,并在將它們操縱成目標配置方面取得成功。
總結來說,這篇論文研究了合成數據和模擬環境如何為具身AI提供有希望的解決方案。所展示工作的核心在于合成數據的精心生成和有效利用。通過模擬環境、生成模型、任務遷移學習、視覺運動策略訓練和視覺動力學建模等策略,我們可以縮小模擬訓練與真實世界應用之間的差距,為更有能力和多功能的具身AI代理鋪平道路。
新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。
時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?
近年來,機器人領域發展迅速,機器人被用于越來越多的應用中,從制造業到醫療健康再到家務勞動。機器人技術的關鍵挑戰之一是使機器人能夠在非結構化和動態環境中執行復雜的操作任務。雖然機器人學習和控制已經取得了重大進展,但許多現有方法受到限制,因為它們依賴于預定義的運動基元或通用模型,而這些模型沒有考慮到個人用戶、其他合作智能體或交互對象的特定特征。為了在這些不同的環境中有效地工作,機器人需要能夠適應不同的任務和環境,并與不同類型的智能體進行交互,如人類和其他機器人。本論文研究學習方法,使機器人能夠適應他們的行為,以實現智能機器人行為。
在本文的第一部分中,我們專注于使機器人更好地適應人類。我們首先探索如何利用不同的數據源為人類用戶實現個性化。研究了人類如何喜歡用低維控制器(如操縱桿)遙控輔助機器人手臂。本文提出一種算法,可以有效地開發輔助機器人的個性化控制。這里的數據是通過最初演示機器人的行為,然后詢問用戶以從操縱桿收集他們相應的首選遙操作控制輸入來獲得的。探索了利用較弱的信號來推斷智能體的信息,如物理修正。實驗結果表明,人工修正是相互關聯的,共同推理這些修正可以提高精度。最后,研究了機器人如何通過推理和利用團隊結構更有效地與人類團隊合作和影響人類團隊,而不是只適應單個人類用戶。將該框架應用于兩種類型的群體動力學,即領導-跟隨和捕食者-被捕食者,并證明機器人可以首先開發一種群體表示,并利用這種表示成功地影響一個群體以實現各種目標。
在本文的第二部分,我們將研究范圍從人類用戶擴展到機器人智能體。本文解決了分散的機器人團隊如何通過只觀察其他智能體的行動來相互適應的問題。本文發現了團隊中存在無限推理循環的問題,并通過為機器人智能體分配不同的角色,如"發言人"和"聽眾",提出了解決方案。這種方法使我們能夠將觀察到的行動視為一個溝通渠道,從而實現分散團隊內的有效協作。在本文的第三部分,我們探討了如何通過開發定制的工具來適應不同的任務。強調了工具在確定機器人如何與物體交互方面的關鍵作用,使它們在為特定任務定制機器人方面變得重要。為解決這個問題,本文提出一個端到端的框架,通過利用可微物理模擬器來自動學習富接觸操作任務的工具形態學。最后,對全文進行了總結,并對未來的研究方向進行了展望。
近年來,從一般物體抓取到手部操作,深度學習實現了許多令人興奮的機器人操作能力。盡管如此,能夠進入以前從未見過的家庭環境,并像人類一樣完成各種任務的典型家用機器人還遠遠不現實。雖然在實現這一目標方面有許多問題要解決,但中心瓶頸之一在于從機器人傳感器輸入中學習控制策略,這些策略可以泛化到新的任務、對象和環境。例如,一個在家做飯的機器人無法負擔從頭開始學習每一道菜,也無法為機器人可能遇到的每個新廚房硬編碼狀態特征。實現這種泛化的一個潛在途徑是在包含許多任務、對象和環境的廣泛數據分布上訓練機器人。事實上,這種將大型、多樣化的數據集與可擴展的離線學習算法(例如,自監督或廉價監督學習)相結合的方法,是自然語言處理(NLP)和視覺最近取得成功的關鍵。然而,直接將此方法擴展到機器人領域并非易事,因為我們既沒有足夠大和多樣化的機器人交互數據集,也不清楚哪種類型的學習算法或監督來源可以使我們從這些數據集中可擴展地學習技能。
本文的目標在于解決這些挑戰,并在機器人操縱的背景下重現大規模數據和學習的方法。
本文的第一部分將討論如何可擴展地收集在物理世界中交互的機器人的大型和多樣化數據集,以及如何在這種離線機器人數據集上有效地預訓練自監督世界模型。然后,我們將探討如何使用這些預訓練的世界模型,通過將它們與規劃相結合來解決任務,首先用于解決長視距操縱任務,其次用于完成自然語言指定的任務。最后,我們將討論如何超越機器人數據,并解鎖存在于網絡上的廣泛數據源,如人類的視頻,以使機器人更有效地學習,特別是通過獎勵學習和視覺預訓練。本文將通過討論公開的挑戰來結束,特別是如何統一模擬、真實世界的數據收集和人類視頻的范式,以實現通用家用機器人的愿景。
在過去的幾十年里,機器學習在眾多人工智能應用中取得了長足的進步。然而,它的成功主要依賴于在一個封閉的環境中使用大量的離線數據訓練模型,然后在類似的測試環境中對它們進行評估。這意味著大多數機器學習模型無法在很少的觀察下快速適應新環境并在線學習新知識。相比之下,我們的人類大腦可以從在線感官輸入流中學習新的表示、概念和技能。**本文旨在使具有幾個核心能力的機器能夠在開放世界中學習新概念,而無需訪問大量精心策劃的標記數據。**具體來說,它解決了幾個關鍵問題,如使用有限的標記數據、增量數據、無標記數據以及不平衡和噪聲數據進行學習。本文提出的算法可以自然地與任何深度神經網絡相結合,并且與網絡架構無關。它們可以為各種開放世界條件提供更大的靈活性和魯棒性,使基于學習的方法適合部署在一般的基于智能體的智能系統中。
1.引言
**機器學習是人工智能領域的核心課題之一。由于許多智能行為不能簡單地由標準程序定義,而不是依靠人工設計的規則,本文使用機器學習來獲得函數逼近,給定許多輸入和輸出觀測。**今天,在機器學習的幫助下,我們的計算機可以識別我們的聲音和筆跡,記住我們的臉,標記我們的照片,翻譯不同的語言,在下棋和圍棋中擊敗我們,并在道路上安全駕駛汽車。就像阿蘭·圖靈在20世紀50年代設想的那樣,今天的計算機使用機器學習來“模擬”兒童的思維,這是一張逐漸充滿各種各樣的知識和表示的白紙。然而,機器的學習過程與兒童的學習過程仍有很大的差距。也許機器學習和人類學習之間最顯著的區別之一是能夠學習自然世界中稀缺數據的任務。如今的機器學習往往依賴于在一個封閉的世界環境中訓練模型,并在大量經過整理的數據中進行評估,然后在類似或相同的測試環境中進行評估。這意味著,與人類不同,標準的機器學習算法無法在很少的觀察下快速適應新環境并在線學習新知識。在本文中,我們將這種期望的能力稱為開放世界學習。 我們如何彌合人類和機器之間的這種明顯差距?我的論文旨在尋求解決方案,使機器能夠在一個開放的世界中學習新概念,而不需要獲取大量的策劃標簽。具體來說,它解決了開放世界學習框架下的幾個關鍵問題,如使用有限的標記數據、增量數據、無標記數據、不平衡和噪聲數據、在線和流數據進行學習,所有這些都是今天典型的機器學習管道中沒有考慮的。這些問題的最終解決方案將對我們所有人產生深遠的影響。首先,它將允許未來的智能體在飛行中學習:你未來的家庭機器人將適應你的房子,識別新家具,并學習使用新設備;你的增強現實眼鏡將通過你對世界的視角來學習,這些視角是你過去從未經歷過的;您的個人AI助理將適應您的偏好,并在與您的對話中學習新技能。此外,它將在許多工業應用中節省數百萬小時的工程、標簽和數據管理工作。最后,通過將我們的學習過程投射到計算框架中,這也將是探索理解人類智能的一個里程碑。
本文概述
**本文提出的貢獻,使機器能夠用很少的標記示例獲得新概念,并使它們對許多自然主義和開放世界條件更魯棒。**在過去,有幾種機器學習范式,如小樣本學習、持續學習、自監督學習等,它們都是由使機器學習在開放世界中更加靈活和自適應的大愿景所驅動的。第二章概述了這些課題的背景文獻。具體來說,本文首先討論了各種學習范式,這些范式鼓勵在與訓練不同的環境中進行測試時的學習,例如小樣本學習和持續學習,然后討論了另一個相關研究的思路,旨在從無標簽的示例中學習,例如自監督學習。 然而,這些學習范式通常只專注于一個特定的屬性,如域偏移量或標記數據點的數量。有時,這些性質是正交的,它們的解可以組合在一起,但通常提出的解決方案依賴于一些額外的不現實的假設。例如,標準的半監督學習利用未標記的數據來提高學習模型的質量;然而,它假設未標記的數據與標記的數據來自相同的分布,并且也屬于預定義的類別之一。在另一個例子中,標準的少樣本學習旨在用很少的數據點來學習新類別,但它假設數據點平均分布于在訓練期間從未見過的幾個新類別。或者,類不平衡問題通常假設類標簽是正確的,因此高訓練成本意味著數據點來自少數類。在這些示例中,假設學習環境的其他屬性的解決方案在同時存在多個問題的開放世界中部署時可能會崩潰。因此,本文的核心主題是尋求新的解決方案,以同時解決開放世界的多種特性,如有限的標記數據學習、輸出空間的增量增長、無標記、不平衡和有噪聲的數據。為了實現這一目標,我們不僅需要開發新的學習算法,還需要重新思考定義問題的學習范式。因此,論文的一部分,如第4章和第6章的部分,也旨在定義具有額外自然屬性的新的學習范式或基準。
**用有限的標記數據進行學習的文獻被廣泛稱為少樣本學習。然而,標準的少樣本學習在測試時只處理少量的新類。**在第3章中,我們關注的是增量少樣本學習的問題,模型需要識別訓練時多次出現的舊類別和測試時剛剛引入的新類別。令人驚訝的是,許多只專注于解決新類別的經典少樣本學習方法,實際上在處理結合新舊類別的更現實問題時受到了影響,可能是因為新舊類別的表示彼此不兼容。與直接使用新類樣本的某些特征向量作為分類器權重的傳統方法不同,本文提出的方法是基于連續優化的,通過平衡新舊類帶來的目標來求解權重,并在測試時達到更好的優化解。在整個增量學習新類別的過程中,現實世界的智能體通常會遇到更多的未標記樣本。在第4章中,我們又向前邁進了一步,將未標記數據引入到小樣本學習問題中。本文提出一種半監督少樣本學習的新學習范式,除了在每個學習片段中標記的數據點很少的約束外,還考慮未標記的樣本。本文工作是第一個同時解決半監督學習和少樣本學習的工作。它不僅減少了訓練和測試任務中對標記數據量的依賴,而且解決了干擾因素的問題,即不屬于任何已知類別的類別,因為在經典的半監督學習中不考慮這一問題。本文提出新的少樣本學習模型,可以規避分干擾類的影響,同時仍然設法利用來自未標記數據的有用信息。
**盡管小樣本學習取得了廣泛的成功,但情節通常是從精心策劃的數據集中采樣,而不是從自然世界的噪聲長尾分布中采樣。**我們在第4章中介紹的干擾物例子也可以被認為是一種噪聲訓練數據。在第5章中,我們將研究在標準機器學習環境下的不平衡和噪聲類標簽學習問題。雖然這兩個問題在自然學習環境中普遍發生,但傳統上,它們被分開研究,采用相互矛盾的補救方法。為了解決這一沖突,本文提出了一種數據驅動的示例權重機制,可以在統一的框架下直接應用于這兩個問題。該算法利用干凈和平衡的驗證集來校準訓練樣本權重。該模型還強調了一種同時聯合更新內層和外層循環參數的高效學習方法。少樣本學習通常伴隨著僵化的情景設置,這使得對新概念的持續增量獲取進行建模變得不自然。第6章提出了一種新的在線情境化小樣本學習范式。雖然我們在第3章中研究了新舊類別的組合,但之前的方法主要關注情節的概念,但知識從未隨著時間順序和增量增長。雖然已經有一些努力使這些情節更有順序,就像設置增量類學習一樣,但訓練和測試階段的分離仍然使評估變得繁重。現實世界的智能體不依賴偶發的停止,而是執行在線持續學習,在序列的每個時間步中產生一些輸出預測,通過自上而下的上下文信息流進行調制。新范式包含了許多自然主義屬性,如在線、增量、上下文化、少樣本和半監督,還開發了一個基于室內家庭圖像的新基準,模仿現實世界智能體的視覺輸入流。提出了一種新的模型——上下文原型記憶(context Prototypical Memory, CPM),成功地解決了在有限標記數據下的在線上下文類學習問題。
最后,在第7章中,我們研究了在不使用任何類別標簽的情況下,通過在線視覺輸入流動態學習表示和類別。在前幾章中,學習仍然主要由帶標簽的示例驅動:例如,在第6章中,只有當環境告訴智能體它是一個新類時,新的類別簇才會創建。在本章中,我們將介紹一種算法,該算法允許智能體同時從未標記的數據流中學習表示和類別。這可以被視為發展過程中的一個前階段,因為智能體可以首先通過在沒有標記數據的情況下學習表示和類別來探索環境,然后在一些示例的監督下進行。所提出的模型,在線無監督原型網絡,將用于概念學習的原型網絡與基于聚類的自監督表示學習相結合,并與僅使用在線數據流進行訓練的最先進的自監督視覺表示學習方法相比較。此外,該算法對不均衡分布也具有較強的魯棒性。
目錄內容:
魯棒的、通用的機器人可以在半結構化環境中自主地操縱物體,可以為社會帶來物質利益。通過識別和利用半結構化環境中的模式,數據驅動的學習方法對于實現這種系統至關重要,使機器人能夠在最少的人類監督下適應新的場景。然而,盡管在機器人操作的學習方面有大量的工作,但在機器人能夠廣泛應用于現實世界之前,仍有很大的差距。為了實現這一目標,本文解決了三個特殊的挑戰:半結構化環境中的感知、適應新場景的操作以及對不同技能和任務的靈活規劃。在討論的方法中,一個共同的主題是通過將“結構”,或特定于機器人操作的先驗,合并到學習算法的設計和實現中,實現高效和一般化的學習。本文的工作遵循上述三個挑戰。
我們首先在基于視覺的感知難以實現的場景中利用基于接觸的感知。在一項工作中,我們利用接觸反饋來跟蹤靈巧操作過程中手持物體的姿態。另一方面,我們學習定位機器人手臂表面的接觸,以實現全臂感知。接下來,我們將探討針對基于模型和無模型技能的新對象和環境調整操作。我們展示了學習面向任務的交互式感知如何通過識別相關動態參數來提高下游基于模型的技能的性能。本文還展示了如何使用以對象為中心的行動空間,使無模型技能的深度強化學習更有效和可泛化。
探索了靈活的規劃方法,以利用低水平技能完成更復雜的操縱任務。我們開發了一個基于搜索的任務計劃,通過學習技能水平動態模型,放松了之前工作中關于技能和任務表示的假設。該計劃器隨后應用于后續工作中,使用混合力-速度控制器的已知前提條件來執行多步接觸豐富的操作任務。我們還探索了用自然語言描述的更靈活的任務的規劃,使用代碼作為結構化的動作空間。這是通過提示大型語言模型直接將自然語言任務指令映射到機器人策略代碼來實現的,策略代碼協調現有的機器人感知和技能庫來完成任務。
構建高性能的端到端機器學習系統主要包括開發機器學習模型和為感興趣的應用程序收集高質量的訓練數據(假設一個人可以訪問正確的硬件)。盡管在過去幾年里,隨著開源平臺的興起,機器學習模型變得越來越商品化,但管理高質量的標記訓練數據集對許多現實世界的應用來說仍然是昂貴的或不可行的。因此,我們在本文中主要關注數據,特別是如何** (1)通過注入領域特定的先驗知識或利用已為不同任務創建的現有軟件系統和數據集,使用數據高效的機器學習方法減少對標記數據的依賴,(2)有效管理訓練數據并構建相關工具,以最大化數據的效用,(3)通過將數據的結構與嵌入空間的幾何形狀進行匹配,提高嵌入所實現的數據表示的質量**。
我們首先描述了我們在構建數據高效的機器學習方法方面的工作,通過物理驅動的一致性訓練增強、尺度等變展開神經網絡和使用未經訓練的神經網絡弱監督來加速磁共振成像(MRI)重建。然后,我們描述了我們在構建用于自然語言理解的數據高效機器學習方法方面的工作。特別地,我們討論了一種監督對比學習方法用于預訓練的語言模型微調和一種大規模數據增強方法來檢索領域數據。與有效管理訓練數據相關,我們討論了我們提出的用于類表單文檔gather的信息提取系統,并重點討論了訓練數據管理和相關工具中經常被忽略的方面。我們強調了有效管理訓練數據的重要性,表明它至少與機器學習模型在真實數據集的下游提取性能方面的進展一樣關鍵。最后,為了改進各種類型數據的嵌入表示,我們研究了具有異質曲率的空間。我們展示了混合曲率表示為圖和詞嵌入提供了更高質量的表示。此外,我們還研究了如何將Wikidata知識圖譜中的實體嵌入到一個抽象的文本摘要模型中,以增強其真實性。
當代機器學習系統在各種任務上都取得了巨大的成功,包括圖像分類、目標檢測和跟蹤以及推薦算法。這一成功是由計算能力的巨大進步推動的,它使我們能夠利用大型訓練數據集,具有大量的類和具有大量參數的訓練模型。事實上,這些系統使用的模型具有足夠的模型容量,可以在有噪聲甚至完全隨機的標簽上訓練到誤差。然而,這些模型在實踐中往往具有很好的泛化性,避免了有害的“過擬合”。良好泛化的關鍵在于模型體系結構和訓練算法的隱性偏差,它們引導我們找到良好泛化的解決方案。本文通過分析過度參數化的線性模型,證明良好泛化的充要條件,從理論上更好地理解這一現象。此外,我們還實證研究了在訓練模型來解決控制領域的實際問題時,是否可以利用我們關于問題領域的知識來設計正確的內隱偏差。
我們從分析過參數化線性回歸的簡單設置開始,當特征的數量超過訓練點的數量時,對有噪聲的數據擬合一個線性模型。通過采取傅立葉理論的角度,我們映射了由過度參數化帶來的關鍵挑戰,眾所周知,由于欠采樣導致真實信號混疊的現象。借用信號處理中的“信號出血”和“信號污染”的概念,我們為傅里葉特征設置導出了良好的泛化條件。
接下來,我們分析最小-?2-范數插值器在高斯特征設定下的回歸和二元分類問題的泛化誤差。對于回歸,我們插值實值標簽,對于二元分類,我們插值二元標簽。(事實證明,在充分的過參數化條件下,二值標簽的最小范數插值與其他二值分類訓練方法等價,如支持向量機或邏輯損失梯度下降法。)我們研究了一個漸近設置,其中特征的數量d與訓練點的數量n成比例,且都是n, d→∞。在特征的雙水平尖峰協方差模型下,證明了存在一種中間狀態,在這種狀態下,我們在分類任務上表現良好,但在相應的回歸任務上表現不佳。然后,我們將分析擴展到多類分類設置,其中類的數量也與訓練點的數量成比例,通過導出由一熱編碼標簽的最小范數插值器引起的分類誤差的漸近界。最后,為了理解我們如何學習在實踐中很好地推廣的模型,我們經驗地研究了神經網絡的應用,在硬控制問題中,最優解是未知的,線性解被證明是次優的非線性控制策略。通過智能設計神經網絡架構和訓練方法,利用我們對控制系統動力學的知識,我們能夠更容易和魯棒地學習性能良好的控制策略。