機器人研究人員一直試圖將計算機視覺和語言處理等領域中的數據驅動突破擴展到機器人學習中。然而,與視覺或語言領域不同,這些領域可以從互聯網上輕松獲得大量數據,而機器人策略的訓練依賴于通過與物理世界互動收集的物理和交互數據——這是一個資源密集的過程,且受限于勞動力限制。這種數據匱乏長期以來一直是擴展機器人學習系統的主要瓶頸,限制了此前工作只能在小規模和任務特定的設置中進行。在本論文中,我們提出了一種生成范式,旨在通過解決現有的局限性,潛在地推動通用機器人技術的發展。這個目標通過三個相互獨立但又相互依賴的研究方向來實現,當它們整合時,形成一個連貫且全面的范式:
我們提出構建全面的世界模擬器基礎設施,用于模擬物理世界,包括基于學習的和基于規則的模型,旨在為機器人代理創造一個虛擬而現實、強大的世界,供其探索并發展技能。
我們提出生成模擬(Generative Simulation),一個生成框架,用于自主擴展機器人數據生成,更好地利用計算資源,建立在我們構建的世界模型之上。傳統的模擬訓練策略長久以來受限于任務設計、資源、環境、訓練監督和評估指標等方面的巨大人工投入。我們設計了一種自動化所有模擬機器人學習階段的機器人代理——從初步任務提出到策略訓練——從而實現多樣化的機器人演示。
我們提出神經網絡架構和學習方法,用于將收集到的演示數據提煉成統一的多模態機器人策略,完成從數據生成到有效策略訓練的整個循環。
迄今為止,擴大機器人數據收集和策略學習的努力主要集中在兩條路徑上。第一條路徑是收集人類提供的演示數據,通過運動教學或遠程操作[22, 37, 46, 178],或利用視覺人類演示[254, 283, 320]。然而,這種方法在生成廣泛分布的演示數據時遇到困難,并且由于依賴于人工勞動,本質上難以擴展。另一個有前景的方法是在仿真中訓練機器人技能,仿真自然能夠利用計算能力,理想情況下可以通過利用日益增長的計算能力輕松擴展。然而,在仿真中訓練機器人技能也受到多個方面的問題的阻礙:仿真平臺的效率和能力限制了機器人在仿真世界中進行的交互;此外,在啟動實際技能訓練之前,這一過程的多個階段仍然需要大量的人力投入。 在本論文中,我們提出了一種綜合方法,可能有助于解決機器人領域中的數據稀缺問題,并提出了一套方法,每個方法都針對完整流程的一個組成部分,完成從數據生成到策略訓練的整個周期。我們的思路很簡單:通過利用來自其他有用模態的最新基礎模型和生成模型,我們提議自動生成構建訓練環境和學習監督所需的所有靜態和語義信息:從任務提案,到3D資源、交互環境、獎勵函數等訓練監督,再到已訓練技能的閉環評估。之后,我們構建仿真環境和訓練管道,并借助強化學習或軌跡優化自動訓練機器人,從而為提議的任務生成所需的演示。這種范式,我們稱之為生成模擬(Generative Simulation),需要在多個方面進行方法學改進:首先,我們需要設計一個穩健且自給自足的框架,能夠自動執行整個流程;其次,訓練廣泛分布的技能需要仿真基礎設施和物理引擎的內在支持;第三,我們需要設計統一且有效的策略架構,通過模仿學習將生成的演示提煉為策略。最終,本論文包含三個部分:
構建結構化和通用的世界模擬器:在這一部分,我們討論了我們在構建高效且有效的仿真基礎設施方面的努力,包括基于學習和基于規則的模型,以提供一個虛擬的基礎,讓機器人能夠更好地利用計算資源探索和訓練技能。
生成模擬:接著,我們詳細討論了擴展機器人學習的整個提議管道,通過生成模擬自動生成機器人演示數據。
策略架構:在最后一部分,我們設計了新型的神經網絡架構,使機器人策略能夠通過模仿生成的演示數據進行訓練。我們提出的策略同時接收視覺觀察和自然語言指令作為輸入,并生成物理動作以完成指定任務。
人類能夠輕松地想象自己在環境中采取行動后,周圍環境將如何變化。我們擁有的這種動態模型使我們能夠進行世界的心理模擬,并據此規劃我們的行動。我們指出,這種心理模擬模型的兩個重要方面對其泛化性至關重要:1)推理是在3D空間表示中進行的,不受視角變化和遮擋的影響;2)我們觀察環境如何響應我們的行動,并基于新的觀察快速適應這些模型以應對當前情境。受到這些啟發,我們提出了兩個重要改進,旨在學習一個更具泛化性的動態模型。首先,我們認為場景動態在3D中比在2D中更易學習和表示。在3D中,物體的外觀和位置是解耦的。由于視角變化、遮擋或物體的平面外旋轉,在投影的2D圖像空間中無法通過移動物體來進行動態預測。此外,推斷自由空間和物體碰撞在3D表示空間中是自然的。為此,我們在第二章提出了3D-OES,一種基于動作條件的動態模型,用于預測物體和智能體交互引起的場景變化,這些變化發生在一個不受視角影響的3D神經場景表示空間中,該空間由RGB-D視頻推斷得出。第二,我們認為機器人從與周圍環境的互動中推斷環境特性,并根據這些信息調整其動態模型是非常重要的。在第三章中,我們提出了HyperDynamics,一種動態元學習框架,基于對環境行為的觀察,為特定情境生成專用的動態模型參數。基于學習的動態模型可能對基于模型的規劃有所幫助,但為了生成其訓練數據,我們仍然需要基于物理的仿真基礎設施。物理仿真的進展已經成為推動動態模型學習和機器人技能訓練的重要力量。然而,之前的許多機器人操作研究以及現有的大多數仿真平臺仍主要考慮相對簡單的剛性物體設置。近年來,研究可變形物體的興趣逐漸上升。在本論文中,我們希望構建一個改進多個方面的仿真基礎設施。首先,我們希望擴展到更復雜的環境設置,其中機器人需要與各種非剛性物體進行互動,從可變形物體到流體和顆粒材料。我們首先在第四章介紹了FluidEngine和FluidLab。前者是一個完全可微分的通用物理引擎,支持多種材料及其耦合,提供模擬復雜流體操作任務的能力。后者是圍繞前者構建的一系列標準化評估任務,用于在流體操作的背景下評估各種方法。我們通過實驗證明,當與我們完全可微分的仿真模型結合時,我們提出的優化方案能夠很好地解決這些任務,在樣本效率和最終性能方面超越了無梯度方法。接著,我們超越了這個特定領域的仿真引擎,并介紹了Genesis,這是一個大規模的合作項目,旨在為機器人研究人員構建一個通用、高性能、易于使用的仿真基礎設施。Genesis將各種最先進的物理求解器集成到一個統一的框架中,設計了一個完全可微分的架構,并支持更先進的觸覺傳感模塊和實時的 photorealistic 渲染系統。
通用機器人操控器需要學習在各種環境中執行多種操控技能。目前的機器人訓練流程依賴人類提供運動教學演示或編程仿真環境并為強化學習編寫獎勵函數。這種人工參與是擴展機器人學習至多樣任務和環境的瓶頸。在本論文的這一部分,我們提出了一個系統化的流程,利用多模態生成模型,并將其與強大的仿真基礎設施相結合,以自動化整個機器人策略訓練的流程。具體來說,我們的系統旨在使智能機器人代理具備自主提出有用技能的能力,并隨后構建具有語義意義的環境和相關資源以填充這些環境。之后,代理利用大型語言模型(LLMs)編寫獎勵函數,然后用于技能訓練。最后,代理啟動在構建環境中的訓練,并不斷產生與提議任務設置相關的訓練演示數據。具體來說,我們首先介紹了Gen2Sim(第六章),這是這一提議概念的初步驗證。我們通過使用圖像擴散模型將開放世界的2D物體中心圖像提升為3D,并查詢LLMs確定合理的物理參數,從而為仿真生成3D資源。給定生成的和人類開發的資產的URDF文件,我們通過鏈式思維提示LLMs將其映射到相關的任務描述、時間分解以及相應的Python獎勵函數,用于強化學習。我們展示了Gen2Sim在學習長期任務的策略中取得了成功,在這些任務中,使用非時間分解獎勵函數的強化學習方法失敗。Gen2Sim為在仿真中擴展機器人操控器的強化學習提供了一條可行路徑,既通過多樣化和擴展任務與環境開發,又通過促進強化學習行為的發現,來實現任務的時間分解。我們的工作貢獻了數百個模擬資產、任務和演示,邁出了朝著完全自主的機器人操控技能獲取邁進的一步。然后,我們介紹了RoboGen(第七章),這是一個更為全面和獨立的系統,擴展到了可變形物體操作,并改進了環境生成。RoboGen代理首先提出有趣的任務和技能進行開發,然后通過適當的空間配置生成仿真環境,并填充相關資產。接著,代理將提出的任務分解成子任務,選擇最優的學習方法(強化學習、運動規劃或軌跡優化),生成所需的訓練監督,然后學習策略以獲取提議的技能。RoboGen可以被反復查詢,生成與多樣任務和環境相關的技能演示數據。我們通過實驗證明,RoboGen生成的任務和演示比以前人類設計的機器人數據集更加多樣。
數據驅動的機器人策略學習需要合適的策略架構,帶有適當的歸納偏置,以模仿收集的演示。在論文的最后部分,我們展示了一系列旨在構建高性能神經架構的工作,以支持多模態多任務的機器人策略。我們改進現有策略架構的洞見可以歸結為兩點。首先,我們認為3D感知表示非常適合機器人操控,因為它們能夠輕松地編碼遮擋并簡化空間推理。許多操控任務需要高空間精度的末端執行器姿態預測,這通常需要高分辨率的3D特征網格,這對于處理來說是計算昂貴的。因此,大多數操控策略直接在2D中操作,放棄了3D的歸納偏置。在第八章中,我們介紹了Act3D,這是一種操控策略轉換器,使用3D特征場表示機器人的工作空間,特征的分辨率會根據任務的不同而自適應。該模型利用傳感深度將2D預訓練特征提升到3D,并對這些特征進行關注,計算采樣3D點的特征。它采用粗到細的方式采樣3D點網格,使用相對位置注意力提取特征,并選擇下一個采樣的重點區域。通過這種方式,它高效地計算出高空間分辨率的3D動作圖。在RLBench,一個公認的操控基準上,Act3D在74個RLBench任務上相較于先前的2D多視角策略提高了10%的絕對性能,在3D策略中,計算量減少了3倍并且提高了22%的絕對性能,創下了新的SOTA成績。在接下來的章節中,我們介紹了ChainedDiffuser,一種進一步統一動作關鍵姿態預測和軌跡擴散生成的策略架構,用于從演示中學習機器人操控。其主要創新是使用全局動作預測器預測關鍵幀的動作,這一任務需要多模態語義場景理解,并使用局部軌跡擴散器預測連接預測宏動作的軌跡段。ChainedDiffuser優于使用運動規劃器進行軌跡預測的現有SOTA關鍵姿態(宏動作)預測模型(包括Act3D),也優于不預測關鍵幀宏動作的軌跡擴散策略。我們在模擬和真實環境中進行了實驗,展示了ChainedDiffuser在解決涉及多樣物體互動的廣泛操控任務中的能力。
機器人研究人員一直在嘗試將計算機視覺和語言處理等領域的數據驅動突破擴展到機器人學習中。然而,與計算機視覺或語言領域不同,這些領域有大量數據可以從互聯網上直接獲取,訓練機器人策略依賴于通過與物理世界交互所收集的物理和互動數據——這一過程資源密集,且受到勞動力限制。這種數據稀缺性長期以來一直是擴大機器人學習系統的主要瓶頸,限制了此前的努力只能在小規模和特定任務環境中進行。
在本論文中,我們提出了一種生成范式,通過解決現有的局限性,有可能推動通用機器人技術的發展。通過三條自成體系但又相互依賴的研究工作,我們旨在提出一個整合的、全面的范式:
我們提出構建全面的世界模擬器基礎設施,用于建模物理世界,結合基于學習和基于規則的方法,創建一個虛擬但現實且強大的世界供機器人代理探索并發展其技能。
我們提出了生成模擬(Generative Simulation)這一生成框架,旨在更好地利用計算資源,自動化地擴大機器人數據生成規模,建立在我們構建的世界模型之上。傳統的仿真策略訓練長期以來受到設計任務、資產、環境、訓練監督和評估指標等方面廣泛人工干預的制約。我們設計了一種機器人代理,能夠自動化執行從初始任務提案到策略訓練的所有模擬機器人學習階段,從而帶來多樣化的機器人演示。
我們提出了神經網絡架構和學習方法,用于從收集的演示數據中提煉出統一的多模態機器人策略,完成從數據生成到有效策略訓練的整個閉環。
深度神經網絡(DNNs)處于技術革命的前沿,展現出在各種任務中與人類專家相匹配甚至超越的能力。從圖像識別到復雜的決策過程,DNNs正在重塑各個行業和科學研究。盡管它們廣泛應用,但這些算法的內部機制仍然 largely 不透明,常被比作“黑箱”。盡管我們可以通過實驗方法提升其性能,但深入全面地理解其內部過程依然是一個巨大的挑戰。 對于統計力學領域而言,處理計算機科學問題并非新挑戰。本論文正處于這一交叉點,采用跨學科的方法,利用基于物理學的方法深入理解DNNs。 本論文的核心通過三種不同但相互關聯的研究方法展開。第一種方法是基于數據平均的,我們用它來建立DNNs泛化性能的漸近界限。這個結果不僅大大改善了統計學習理論中的經典界限,還展示了物理學視角如何超越傳統的分析限制。值得注意的是,我們的結果只依賴于最后一層的大小,而不是網絡參數的總數,突顯了在深度網絡中,信息是如何通過不同層進行不同方式處理的。 第二種方法則采取數據依賴的視角,聚焦于DNNs在已知的無限寬度極限之外的特定熱力學極限下的行為。這一研究路線涉及對網絡前向動態的詳細分析,使我們能夠對這些算法在現實環境中——即大多數實際DNNs運行的領域——的內部運作提供更加精確的統計描述。此項進展使我們能夠得到:(i)在有限寬度單隱層網絡中與回歸任務相關的泛化誤差的封閉公式;(ii)深度架構的分配函數的近似表達式;(iii)熱力學極限下的深度神經網絡與學生t過程之間的聯系。 最后,論文采用了任務明確的方法,進行(初步)研究,探討DNNs如何與簡單且受控數據集的結構進行交互與適應。該分析旨在判斷DNNs是否真能與數據集的結構產生共鳴,形成其特征的內部表示,而不僅僅是記住它。這一部分的研究對于理解DNNs何時被迫學習數據結構,而不是僅僅記住它,可能具有重要意義。 總之,本論文希望成為探索現代技術最令人著迷和影響深遠領域之一的旅程。借助統計物理與機器學習之間的富有成效的對話,本文希望為揭示深度神經網絡的內在行為做出貢獻。這一研究方向,作為本論文的一小部分,具有潛力不僅能影響深度神經網絡領域,還能夠影響這些系統應用的無數領域,希望為更具可解釋性和透明度的人工智能鋪平道路。
在過去幾十年里,機器學習配合經驗風險最小化已經展現了在學習和利用數據統計模式方面的巨大能力,甚至超越了人類。盡管取得了成功,但經驗風險最小化避免了對因果性的建模——理解和處理變化的方式,這對人類智能來說是基本的。當模型部署到訓練環境之外時,處處都是分布變化。例如,自動駕駛系統經常需要處理在訓練期間未曾遇到的新天氣條件;一個人工智能輔助的藥物發現系統需要預測分子對于新型病毒如2019冠狀病毒的生化特性。這使得分布外泛化問題對于傳統機器學習來說充滿挑戰。 在這篇論文中,我們探討如何在現代機器學習中的廣泛任務中納入和實現因果性。特別是,我們利用獨立因果機制原則所暗示的不變性,即,產生效果的因果機制不會相互通報或影響。因此,目標變量給定其原因的條件分布在分布變化下是不變的。有了因果不變原則,我們首先將其實例化到圖上——一種在許多真實世界工業和科學應用中無處不在的通用數據結構,如金融網絡和分子。然后,我們進一步展示學習因果性如何有利于現代機器學習的許多理想特性,如(i)分布外泛化能力;(ii)可解釋性;以及(iii)對抗性攻擊的魯棒性。 另一方面,實現機器學習中的因果性,對于傳統機器學習中的優化提出了一個難題,因為它經常與經驗風險最小化的目標相矛盾。因此,我們描述了這些矛盾如何影響特征學習和優化,并提出了新的表示學習和優化范式,適當處理優化難題。通過適當的目標和有效的因果不變學習實現方案,這篇論文搭建了邁向現代機器學習新基礎的第一步。
我們應該如何設計我們運行的算法和學習的架構?計算領域的多個高影響力領域已經開始使用機器學習(ML)自動化這些程序,通過利用我們不斷擴大的數據和計算資源,減少對人力的需求。本論文利用機器學習、算法設計和優化的思想,推動我們對這些數據驅動計算領域的理解——元學習、具有預測的算法和架構搜索——并將結果方法論轉化為最先進的實現。
在元學習中,我們利用機器學習自身來改善 ML 算法,通過跨多個學習任務進行學習,我們引入了 ARUBA,一個用于設計和分析元學習方法的框架。我們的分析提供了基于梯度的元學習的首次保證,展示了這些方法如何根據可量化的學習任務相似性指標提高性能。我們利用 ARUBA 將元學習的實際影響擴展到機器學習的新領域,包括部分反饋學習和聯邦學習;在后者中,我們引入了 FedEx,一種用于調優聯邦優化器的新型最先進方法,該優化器在分布式異構數據集(如移動設備和醫院記錄)網絡上訓練模型。
我們在 ARUBA 成功的基礎上,進一步擴展其核心方法——優化近似算法目標的替代損失函數——不僅限于學習算法,還展示了具有預測的算法的學習保證,即利用機器學習預測其實例的算法;特別地,我們展示了依賴于算法運行實例的預測的首個學習理論保證,這對實際應用至關重要。我們的框架再次作為算法設計工具,構建了第一個針對釋放(差分)隱私統計信息的算法和線性系統求解器的具有預測的算法;在后者中,我們設計的學習算法在自然結構假設下,可以學習到實例最優的預測。
最后,本論文解決了在特定學習任務上訓練神經網絡架構的問題,即架構搜索,我們朝著理解權重共享的優化和泛化特性取得了進展,權重共享是該領域使用的主要啟發式方法。然后,我們擴展了權重共享,以設計基于神經操作的新搜索空間,允許從數據中自動發現真正新穎的架構;這一努力的頂點是 DASH,一種有效找到在我們測試的大多數多樣化任務上超越人類專家設計的神經架構的方法。
由于機器學習(ML)及其應用的飛速發展,ML生態系統,包括模型、軟件和硬件,正在迅速演變。然而,快速適應現有ML系統以支持新模型和硬件以最大化性能仍然具有挑戰性且勞動密集。我們發現,這歸因于現有ML系統在系統堆棧的幾個關鍵層面上缺乏可移植性和自動化能力。然而,構建一個可移植的ML系統需要對不同ML模型或平臺的復雜共性和差異進行非凡的建模。此外,自動化ML系統層引入了設計實際搜索空間和搜索算法的挑戰,以定制優化以適應特定的模型和硬件。
在本論文中,我們旨在解決構建自動化和可移植ML系統的上述挑戰,重點關注關鍵的ML系統層。具體而言,本文探討了構建高效系統的方法,該系統自動化1) ML后端的集成和2) ML并行性,并使它們更具可移植性。我們開發了一個用戶界面和系統堆棧,以提高不同后端和底層硬件之間的可移植性。我們還設計了實際的搜索空間和算法,以自動化后端部署和并行化。
首先,我們構建了Collage,這是一種DL框架,提供了無縫集成DL后端的能力。Collage提供了一個富有表現力的后端注冊接口,允許用戶精確指定各種后端的能力。通過利用可用后端的規格,Collage自動搜索針對給定工作負載和執行環境的優化后端部署策略。 其次,我們開發了GraphPipe,一個支持高性能和可擴展DNN訓練的分布式系統。GraphPipe自動將DNN劃分為多個階段的圖,優化這些階段的微批次調度,并實現DNN訓練的并行化。這種方法推廣了現有的順序流水線并行性,并保留了DNN的固有拓撲結構,從而減少了內存需求并提高了GPU性能。 最后,我們對長序列應用中分布式LLM推理中的并行性進行了比較分析。具體來說,我們重點研究了Cache并行性(CP),這是一種在LLM推理的自回歸解碼步驟中并行化長KV緩存的方案。我們探討了在需要處理數萬個token的長上下文場景下,不同并行性之間的權衡。
近年來,機器學習取得了顯著的突破。隨著機器學習逐漸滲透到日常生活的各個方面,個人和組織越來越多地與這些系統互動,表現出各種社交和對抗性行為。這些行為可能對機器學習系統的行為和性能產生顯著影響。具體來說,在這些互動過程中,數據可能由策略性個體生成,由自利的數據收集者收集,甚至可能被對抗性攻擊者污染,并用于創建滿足多重目標的預測器、模型和政策。因此,機器學習系統的輸出可能會退化,例如深度神經網絡對抗性樣本的脆弱性(Shafahi 等, 2018; Szegedy 等, 2013),以及在面對策略性個體時經典算法性能的下降(Ahmadi 等, 2021)。解決這些挑戰對于機器學習在社會環境中的成功至關重要。 本論文分為兩部分:社交數據源下的學習和對抗性數據源下的學習。對于社交數據源,我們考慮了以下問題:(1) 在有限和無限假設類中與策略性個體的學習,其中我們對在線和PAC策略環境中的可學習性進行了理解,(2) 在單輪聯邦學習、多輪聯邦學習和協作主動學習中,自利數據收集者的激勵與背叛,(3) 游戲中的學習,在其中一名玩家運行學習算法而不是做出最佳回應,(4) 在決策制定和在線學習中的多目標學習。對于對抗性數據源,我們研究了以下問題:(1) 在干凈標簽攻擊下的魯棒學習,攻擊者向訓練集中注入一組正確標記的點,以誤導學習者在特定測試點上出錯,(2) 在變換不變性下的學習以及對流行的數據增強方法的分析。
近年來,機器學習取得了顯著的突破。隨著機器學習逐漸滲透到日常生活的各個方面,個人和組織與這些系統的互動日益頻繁,表現出各種社交和對抗性行為,這些行為可能會顯著影響機器學習系統的性能。 策略性個體 在許多領域,機器學習被應用于為各種資源的申請者提供決策依據。然而,當個體有動機從特定的預測結果中獲益時,他們可能會通過修改自身特征來獲取有利的預測結果。這種行為可能損害預測性能,使得學習過程容易受到金融政策制定中的經典原則——古德哈特定律(Goodhart's law)的影響,該定律指出:“一旦某個指標成為公眾的目標,它就不再是一個好的指標。” 這種學習系統與其所應用對象之間的天然張力廣泛存在于貸款審批、大學招生、職位招聘和保險等場景中。在這些情況下,學習系統的目標是進行準確的預測,而個體則無論其真實標簽如何,都有動力被歸類為正面。例如,在大學招生中,申請者可能會重考SAT或選擇更容易的課程以提高GPA,從而誤導分類器。
自利的數據收集者 在許多現實世界的應用中,數據集分布在不同的孤島中,如醫院、學校和銀行,因而需要它們之間的合作。近年來,協作學習(如聯邦學習)被廣泛采用,以促進大量數據收集者之間的合作。然而,決定協作學習成功與影響的關鍵在于能否招募和留住大量的數據收集者。在協作學習協議與數據收集者之間存在一種內在的張力。學習協議旨在找到對所有數據收集者都有利的模型,而每個數據收集者的目標則是找到一個對其本地數據有利且數據貢獻最小的模型。因此,如果學習協議要求數據收集者提供超出其自身目標所需的數據量,他們將不會按協議要求進行貢獻。
多目標用戶 雖然機器學習問題通常涉及優化單一標量獎勵,但在許多領域,同時優化多個(可能互相沖突的)目標是可取的或必要的。例如,自動駕駛汽車用戶希望同時追求安全、速度和舒適性,但速度可能對安全(如延長車輛突然停下的時間)或舒適性(如在快速轉彎時引起不適)產生負面影響。因此,當一個學習系統優化單一標量損失時,它可能忽視這些多重目標,從而為用戶生成不令人滿意的模型或策略。此外,在學習過程中可能存在多個利益相關者,每個利益相關者都有不同的目標。僅關注一個目標可能導致其他目標的性能顯著下降。
對抗性攻擊者 對抗性攻擊在暴露機器學習系統的脆弱性方面發揮了重要作用。許多流行的模型在現實世界場景中缺乏魯棒性。例如,在圖像任務中,向訓練圖像添加不可察覺的噪聲(Szegedy等,2013)或通過添加額外的圖像來污染訓練集(Shafahi等,2018)可以嚴重損害深度神經網絡的性能。 由于這些社交和對抗性數據因素,機器學習系統的輸出可能會退化。應對這些挑戰對于機器學習的成功至關重要。
本論文從理論角度出發,針對由這些社交和對抗性數據因素引發的可信性挑戰作出貢獻。這些數據因素在現有理論中尚未得到充分建模。因此,本論文側重于建模機器學習交互中固有的社交和對抗性方面,分析其對預測器的影響,并開發增強性能的方法和見解。 本論文的核心主題是為社交和對抗性數據源下的可信機器學習建立理論基礎。
隨著神經網絡在諸如刑事司法、醫療等高風險領域的應用日益增多,了解這些模型做出決策的原因變得越來越重要。例如,開發工具來分析模型是否在其未來的決策中延續了它們在訓練數據中發現的有害的人口不平等至關重要。然而,神經網絡通常需要大量訓練數據集,具有“黑箱”決策特性,并且重新訓練成本高昂,這增加了這個問題的難度。本文考慮三個問題。問題一)輸入的各個元素與模型決策之間的關系是什么?問題二)單個訓練點與模型決策之間的關系是什么。最后問題三)在多大程度上存在(有效的)近似方法,能夠讓實踐者預測模型性能在不同訓練數據或不同訓練協議下的變化。
第一部分針對掩蔽顯著性方法回答問題一。這些方法隱含地假設圖像中的灰色像素是“無信息的”。我們通過實驗發現,這一假設可能并非總是正確的,并定義了“健全性”,它衡量了顯著性圖的一種理想屬性。第二部分在影響函數的背景下討論問題二和問題三,這些函數旨在近似移除一個訓練點對模型決策的影響。我們使用諧波分析來檢查一種特定的影響方法,即數據模型,并發現數據模型的系數與目標函數的傅里葉系數之間存在關系。最后,第三部分在測試數據的背景下討論問題三。首先,我們評估是否需要保留外部測試數據來近似元學習的外部循環,或者回收訓練數據是否構成了一個足夠的近似。我們發現保留的測試數據很重要,因為它學習到的表示是低秩的。然后,受到PGDL競賽的啟發,我們調查了盡管眾所周知的限制,生成對抗網絡(GAN)生成的數據是否可以用來近似泛化性能,當沒有測試或驗證集可用時,并發現它們可以做到這一點。
在過去的十年中,深度學習展現出了顯著的能力,表現出對大規模數據的強烈依賴。在這一時期,我們見證了大型語言模型、擴散模型和分割模型的規模化法則生效,通過利用大規模真實世界數據集實現了接近人類水平的性能。然而,當涉及到具身AI時,由于機器人的脆弱性和有限的速度,生成真實世界數據變得具有挑戰性和成本高昂。與此相反,合成數據和模擬環境提供了一種高效且經濟的方法來訓練機器人代理和生成精確的監督。因此,合成數據作為可擴展和高質量訓練具身AI代理的數據的有希望的解決方案而出現。鑒于使代理能夠泛化到真實世界場景的最終目標,圍繞合成數據的主要挑戰在于通過縮小模擬與現實差距(Sim2Real差距)來準確捕捉真實世界分布。解決這一挑戰涉及兩個關鍵方面:生成合成數據和有效地利用它。在這篇論文中,我展示了對這兩個方面的貢獻的兩項工作。
第一項工作著眼于合成數據的生成。我介紹了兩種旨在生成與真實世界分布一致的合成數據的方法。首先,我提出了iGibson,一個模擬環境,用于在大規模真實場景中開發機器人的交互式解決方案。iGibson構建了3D掃描真實世界家庭的交互式復制場景,使對象、布局和可交互性的分布與真實世界一致。為了進一步促進更健壯的具身代理的訓練,iGibson提供了針對材料(視覺外觀和動態特性)和對象形狀的領域隨機化程序,同時尊重對象放置的分布并保持可交互性。其次,我提出了GINA-3D,一個使用來自攝像機和LiDAR傳感器的真實世界駕駛數據的生成模型,創建多樣化車輛和行人的逼真的3D隱式神經資產。與iGibson不同,后者涉及在建立模擬環境時顯著的人力努力,GINA-3D利用了直接學習生成與真實世界觀察匹配的合成資產的生成模型。我展示了證據,表明GINA-3D在生成的視覺和幾何質量方面實現了最先進的性能和多樣性。
第二項工作專注于有效地利用合成數據。通過設計健壯的學習算法和模型,我們可以創建更好地泛化到真實世界場景的模型。首先,我介紹了Taskonomy,它利用合成數據構建了任務空間的計算分類法和地圖。通過利用任務關系,我展示了證據,表明我們可以使用比完全監督方法少至少一個數量級的數據,且模型可以很好地泛化到真實世界數據集。然后,我介紹了情境融合,它訓練代理融合一大組對應于多樣化視覺感知能力的視覺表征。這種方法在新環境中的性能顯著提高,超過了真實世界預訓練的基線和其他融合方法。最后,我介紹了ACID,用于變形物體操縱的動作條件隱式視覺動態。通過利用大規模合成數據和獨特的幾何和動力學監督,我可以將模擬訓練的ACID模型直接應用于真實世界物體,并在將它們操縱成目標配置方面取得成功。
總結來說,這篇論文研究了合成數據和模擬環境如何為具身AI提供有希望的解決方案。所展示工作的核心在于合成數據的精心生成和有效利用。通過模擬環境、生成模型、任務遷移學習、視覺運動策略訓練和視覺動力學建模等策略,我們可以縮小模擬訓練與真實世界應用之間的差距,為更有能力和多功能的具身AI代理鋪平道路。
機器學習被廣泛應用于各種不同的學科,以開發感興趣的變量的預測模型。然而,構建這樣的解決方案是一個耗時且具有挑戰性的學科,需要經過高度訓練的數據科學家和領域專家。作為回應,自動化機器學習(AutoML)領域旨在通過自動化減少人工工作量并加快開發周期。由于超參數在機器學習算法中無處不在,以及調優的超參數配置可以對預測性能產生影響,超參數優化是AutoML的一個核心問題。最近,深度學習的興起推動了神經架構搜索(NAS),這是一個專注于自動化神經網絡設計的超參數優化問題的專門實例。對于大規模調優問題,網格搜索和隨機搜索等簡單的超參數優化方法在計算上是難以處理的。因此,本文的重點是開發高效和有原則的超參數優化和NAS方法。
**在回答以下問題方面取得了進展,目的是開發更高效和有效的自動化機器學習算法。**1. 超參數優化(a)我們如何有效地使用早期停止來加速超參數優化?(b)如何利用并行計算來執行超參數優化,同時在順序設置中訓練單個模型所需的時間?(c)對于多階段機器學習管道,我們如何利用搜索空間的結構來減少總計算成本?
鑒于這些問題,本文分為兩個部分。第一部分側重于通過解決1a, 1b和1c問題在高效超參數優化方面取得的進展。第二部分側重于通過解決問題2a, 2b和2c,在理解和改進神經架構搜索的權重共享方面取得的進展。
一些相互競爭的擔憂是,深度學習在“邊緣”設備上的計算機視覺應用緩慢。邊緣設備僅為設備上的算法提供有限的資源,從而限制了功耗、內存和存儲使用。例如,移動電話、自動駕駛汽車和虛擬現實耳機都需要高精度和低延遲,這兩個目標會爭奪資源。
為了解決這個西西弗式的任務,現代方法花費了大量的計算來設計解決方案,超過了數千個小時或數年的GPU計算來設計一個單一的神經網絡。更不用說,在單一的一組資源約束下,這些工作只最大化了一個性能指標——準確性。如果資源約束的集合改變了怎么辦?如果額外的性能指標出現在前面,比如可解釋性或泛化?設計高效神經網絡的現代方法由于目標過于單一和狹隘而需要過多的計算而受到限制。
本文直接解決了現代方法的瓶頸,通過高效設計高效的深度神經網絡實現了最先進的性能。這些改進不僅減少了計算量或提高了精度;相反,我們的方法提高了性能,減少了計算需求,盡管增加了搜索空間大小的數量級。我們還展示了被錯過的機會,表現指標超越了準確性,重新設計任務,使準確性、可解釋性和泛化共同提高,這是傳統智慧不可能實現的,這表明,可解釋性和準確性參與了零和游戲。
這篇的論文最終提出了一組模型,為生產就緒的模型設置了新的靈活性和性能標準:這些模型是最先進的,精確的,可解釋的,可概括的,并且可以在CPU時間內配置任何資源約束。