在過去幾十年里,機器學習配合經驗風險最小化已經展現了在學習和利用數據統計模式方面的巨大能力,甚至超越了人類。盡管取得了成功,但經驗風險最小化避免了對因果性的建模——理解和處理變化的方式,這對人類智能來說是基本的。當模型部署到訓練環境之外時,處處都是分布變化。例如,自動駕駛系統經常需要處理在訓練期間未曾遇到的新天氣條件;一個人工智能輔助的藥物發現系統需要預測分子對于新型病毒如2019冠狀病毒的生化特性。這使得分布外泛化問題對于傳統機器學習來說充滿挑戰。 在這篇論文中,我們探討如何在現代機器學習中的廣泛任務中納入和實現因果性。特別是,我們利用獨立因果機制原則所暗示的不變性,即,產生效果的因果機制不會相互通報或影響。因此,目標變量給定其原因的條件分布在分布變化下是不變的。有了因果不變原則,我們首先將其實例化到圖上——一種在許多真實世界工業和科學應用中無處不在的通用數據結構,如金融網絡和分子。然后,我們進一步展示學習因果性如何有利于現代機器學習的許多理想特性,如(i)分布外泛化能力;(ii)可解釋性;以及(iii)對抗性攻擊的魯棒性。 另一方面,實現機器學習中的因果性,對于傳統機器學習中的優化提出了一個難題,因為它經常與經驗風險最小化的目標相矛盾。因此,我們描述了這些矛盾如何影響特征學習和優化,并提出了新的表示學習和優化范式,適當處理優化難題。通過適當的目標和有效的因果不變學習實現方案,這篇論文搭建了邁向現代機器學習新基礎的第一步。
機器學習和人工智能領域在過去十年中取得了顯著進展。得益于計算和算法的進步,以及大數據集的可獲取性,它已經從純粹的學術研究發展到以工業為主導的領域。隨著企業開始在其專有數據集上訓練模型,數據質量的重要性作為一個關鍵因素浮現出來,與傳統的模型架構改進并行。因此,數據驅動的人工智能(Data-Centric AI,簡稱DCAI)開發方法應運而生,側重于通過系統的數據管理(數據收集、標注和策劃)來提升模型性能,而非單純改善模型本身。
本論文旨在通過全面的文獻綜述,探討數據驅動的人工智能(DCAI)這一新興范式,涵蓋DCAI所涉及的廣泛主題。此外,論文展示了三個關鍵子主題的三篇發表論文:第一篇論文提出了一種新的主動學習方法,適用于高度不平衡的數據集,幫助解決工業應用中常見的類別不平衡問題。第二篇論文介紹了MC層歸一化(MC Layer Normalization),這是一種替代常規層歸一化的方法,通過在特征子采樣過程中引入隨機性,能夠在神經網絡中進行不確定性估計。最后,第三篇論文提出了一個名為Softmatcher的視覺提示框架,用于交互式圖像分割。該框架將基礎模型與高效的概率特征匹配過程結合,使得通過視覺提示實現快速、無訓練的圖像分割成為可能。 這三種方法成功集成到多個IBM產品中,為研究在工業環境中的適用性和影響力提供了有力的證據。本論文展示了數據驅動方法的潛力,表明通過持續關注數據質量,可以在較低成本和更短時間內開發出顯著改進的機器學習模型。
機器人研究人員一直在嘗試將計算機視覺和語言處理等領域的數據驅動突破擴展到機器人學習中。然而,與計算機視覺或語言領域不同,這些領域有大量數據可以從互聯網上直接獲取,訓練機器人策略依賴于通過與物理世界交互所收集的物理和互動數據——這一過程資源密集,且受到勞動力限制。這種數據稀缺性長期以來一直是擴大機器人學習系統的主要瓶頸,限制了此前的努力只能在小規模和特定任務環境中進行。
在本論文中,我們提出了一種生成范式,通過解決現有的局限性,有可能推動通用機器人技術的發展。通過三條自成體系但又相互依賴的研究工作,我們旨在提出一個整合的、全面的范式:
我們提出構建全面的世界模擬器基礎設施,用于建模物理世界,結合基于學習和基于規則的方法,創建一個虛擬但現實且強大的世界供機器人代理探索并發展其技能。
我們提出了生成模擬(Generative Simulation)這一生成框架,旨在更好地利用計算資源,自動化地擴大機器人數據生成規模,建立在我們構建的世界模型之上。傳統的仿真策略訓練長期以來受到設計任務、資產、環境、訓練監督和評估指標等方面廣泛人工干預的制約。我們設計了一種機器人代理,能夠自動化執行從初始任務提案到策略訓練的所有模擬機器人學習階段,從而帶來多樣化的機器人演示。
我們提出了神經網絡架構和學習方法,用于從收集的演示數據中提煉出統一的多模態機器人策略,完成從數據生成到有效策略訓練的整個閉環。
機器人研究人員一直試圖將計算機視覺和語言處理等領域中的數據驅動突破擴展到機器人學習中。然而,與視覺或語言領域不同,這些領域可以從互聯網上輕松獲得大量數據,而機器人策略的訓練依賴于通過與物理世界互動收集的物理和交互數據——這是一個資源密集的過程,且受限于勞動力限制。這種數據匱乏長期以來一直是擴展機器人學習系統的主要瓶頸,限制了此前工作只能在小規模和任務特定的設置中進行。在本論文中,我們提出了一種生成范式,旨在通過解決現有的局限性,潛在地推動通用機器人技術的發展。這個目標通過三個相互獨立但又相互依賴的研究方向來實現,當它們整合時,形成一個連貫且全面的范式:
我們提出構建全面的世界模擬器基礎設施,用于模擬物理世界,包括基于學習的和基于規則的模型,旨在為機器人代理創造一個虛擬而現實、強大的世界,供其探索并發展技能。
我們提出生成模擬(Generative Simulation),一個生成框架,用于自主擴展機器人數據生成,更好地利用計算資源,建立在我們構建的世界模型之上。傳統的模擬訓練策略長久以來受限于任務設計、資源、環境、訓練監督和評估指標等方面的巨大人工投入。我們設計了一種自動化所有模擬機器人學習階段的機器人代理——從初步任務提出到策略訓練——從而實現多樣化的機器人演示。
我們提出神經網絡架構和學習方法,用于將收集到的演示數據提煉成統一的多模態機器人策略,完成從數據生成到有效策略訓練的整個循環。
迄今為止,擴大機器人數據收集和策略學習的努力主要集中在兩條路徑上。第一條路徑是收集人類提供的演示數據,通過運動教學或遠程操作[22, 37, 46, 178],或利用視覺人類演示[254, 283, 320]。然而,這種方法在生成廣泛分布的演示數據時遇到困難,并且由于依賴于人工勞動,本質上難以擴展。另一個有前景的方法是在仿真中訓練機器人技能,仿真自然能夠利用計算能力,理想情況下可以通過利用日益增長的計算能力輕松擴展。然而,在仿真中訓練機器人技能也受到多個方面的問題的阻礙:仿真平臺的效率和能力限制了機器人在仿真世界中進行的交互;此外,在啟動實際技能訓練之前,這一過程的多個階段仍然需要大量的人力投入。 在本論文中,我們提出了一種綜合方法,可能有助于解決機器人領域中的數據稀缺問題,并提出了一套方法,每個方法都針對完整流程的一個組成部分,完成從數據生成到策略訓練的整個周期。我們的思路很簡單:通過利用來自其他有用模態的最新基礎模型和生成模型,我們提議自動生成構建訓練環境和學習監督所需的所有靜態和語義信息:從任務提案,到3D資源、交互環境、獎勵函數等訓練監督,再到已訓練技能的閉環評估。之后,我們構建仿真環境和訓練管道,并借助強化學習或軌跡優化自動訓練機器人,從而為提議的任務生成所需的演示。這種范式,我們稱之為生成模擬(Generative Simulation),需要在多個方面進行方法學改進:首先,我們需要設計一個穩健且自給自足的框架,能夠自動執行整個流程;其次,訓練廣泛分布的技能需要仿真基礎設施和物理引擎的內在支持;第三,我們需要設計統一且有效的策略架構,通過模仿學習將生成的演示提煉為策略。最終,本論文包含三個部分:
構建結構化和通用的世界模擬器:在這一部分,我們討論了我們在構建高效且有效的仿真基礎設施方面的努力,包括基于學習和基于規則的模型,以提供一個虛擬的基礎,讓機器人能夠更好地利用計算資源探索和訓練技能。
生成模擬:接著,我們詳細討論了擴展機器人學習的整個提議管道,通過生成模擬自動生成機器人演示數據。
策略架構:在最后一部分,我們設計了新型的神經網絡架構,使機器人策略能夠通過模仿生成的演示數據進行訓練。我們提出的策略同時接收視覺觀察和自然語言指令作為輸入,并生成物理動作以完成指定任務。
人類能夠輕松地想象自己在環境中采取行動后,周圍環境將如何變化。我們擁有的這種動態模型使我們能夠進行世界的心理模擬,并據此規劃我們的行動。我們指出,這種心理模擬模型的兩個重要方面對其泛化性至關重要:1)推理是在3D空間表示中進行的,不受視角變化和遮擋的影響;2)我們觀察環境如何響應我們的行動,并基于新的觀察快速適應這些模型以應對當前情境。受到這些啟發,我們提出了兩個重要改進,旨在學習一個更具泛化性的動態模型。首先,我們認為場景動態在3D中比在2D中更易學習和表示。在3D中,物體的外觀和位置是解耦的。由于視角變化、遮擋或物體的平面外旋轉,在投影的2D圖像空間中無法通過移動物體來進行動態預測。此外,推斷自由空間和物體碰撞在3D表示空間中是自然的。為此,我們在第二章提出了3D-OES,一種基于動作條件的動態模型,用于預測物體和智能體交互引起的場景變化,這些變化發生在一個不受視角影響的3D神經場景表示空間中,該空間由RGB-D視頻推斷得出。第二,我們認為機器人從與周圍環境的互動中推斷環境特性,并根據這些信息調整其動態模型是非常重要的。在第三章中,我們提出了HyperDynamics,一種動態元學習框架,基于對環境行為的觀察,為特定情境生成專用的動態模型參數。基于學習的動態模型可能對基于模型的規劃有所幫助,但為了生成其訓練數據,我們仍然需要基于物理的仿真基礎設施。物理仿真的進展已經成為推動動態模型學習和機器人技能訓練的重要力量。然而,之前的許多機器人操作研究以及現有的大多數仿真平臺仍主要考慮相對簡單的剛性物體設置。近年來,研究可變形物體的興趣逐漸上升。在本論文中,我們希望構建一個改進多個方面的仿真基礎設施。首先,我們希望擴展到更復雜的環境設置,其中機器人需要與各種非剛性物體進行互動,從可變形物體到流體和顆粒材料。我們首先在第四章介紹了FluidEngine和FluidLab。前者是一個完全可微分的通用物理引擎,支持多種材料及其耦合,提供模擬復雜流體操作任務的能力。后者是圍繞前者構建的一系列標準化評估任務,用于在流體操作的背景下評估各種方法。我們通過實驗證明,當與我們完全可微分的仿真模型結合時,我們提出的優化方案能夠很好地解決這些任務,在樣本效率和最終性能方面超越了無梯度方法。接著,我們超越了這個特定領域的仿真引擎,并介紹了Genesis,這是一個大規模的合作項目,旨在為機器人研究人員構建一個通用、高性能、易于使用的仿真基礎設施。Genesis將各種最先進的物理求解器集成到一個統一的框架中,設計了一個完全可微分的架構,并支持更先進的觸覺傳感模塊和實時的 photorealistic 渲染系統。
通用機器人操控器需要學習在各種環境中執行多種操控技能。目前的機器人訓練流程依賴人類提供運動教學演示或編程仿真環境并為強化學習編寫獎勵函數。這種人工參與是擴展機器人學習至多樣任務和環境的瓶頸。在本論文的這一部分,我們提出了一個系統化的流程,利用多模態生成模型,并將其與強大的仿真基礎設施相結合,以自動化整個機器人策略訓練的流程。具體來說,我們的系統旨在使智能機器人代理具備自主提出有用技能的能力,并隨后構建具有語義意義的環境和相關資源以填充這些環境。之后,代理利用大型語言模型(LLMs)編寫獎勵函數,然后用于技能訓練。最后,代理啟動在構建環境中的訓練,并不斷產生與提議任務設置相關的訓練演示數據。具體來說,我們首先介紹了Gen2Sim(第六章),這是這一提議概念的初步驗證。我們通過使用圖像擴散模型將開放世界的2D物體中心圖像提升為3D,并查詢LLMs確定合理的物理參數,從而為仿真生成3D資源。給定生成的和人類開發的資產的URDF文件,我們通過鏈式思維提示LLMs將其映射到相關的任務描述、時間分解以及相應的Python獎勵函數,用于強化學習。我們展示了Gen2Sim在學習長期任務的策略中取得了成功,在這些任務中,使用非時間分解獎勵函數的強化學習方法失敗。Gen2Sim為在仿真中擴展機器人操控器的強化學習提供了一條可行路徑,既通過多樣化和擴展任務與環境開發,又通過促進強化學習行為的發現,來實現任務的時間分解。我們的工作貢獻了數百個模擬資產、任務和演示,邁出了朝著完全自主的機器人操控技能獲取邁進的一步。然后,我們介紹了RoboGen(第七章),這是一個更為全面和獨立的系統,擴展到了可變形物體操作,并改進了環境生成。RoboGen代理首先提出有趣的任務和技能進行開發,然后通過適當的空間配置生成仿真環境,并填充相關資產。接著,代理將提出的任務分解成子任務,選擇最優的學習方法(強化學習、運動規劃或軌跡優化),生成所需的訓練監督,然后學習策略以獲取提議的技能。RoboGen可以被反復查詢,生成與多樣任務和環境相關的技能演示數據。我們通過實驗證明,RoboGen生成的任務和演示比以前人類設計的機器人數據集更加多樣。
數據驅動的機器人策略學習需要合適的策略架構,帶有適當的歸納偏置,以模仿收集的演示。在論文的最后部分,我們展示了一系列旨在構建高性能神經架構的工作,以支持多模態多任務的機器人策略。我們改進現有策略架構的洞見可以歸結為兩點。首先,我們認為3D感知表示非常適合機器人操控,因為它們能夠輕松地編碼遮擋并簡化空間推理。許多操控任務需要高空間精度的末端執行器姿態預測,這通常需要高分辨率的3D特征網格,這對于處理來說是計算昂貴的。因此,大多數操控策略直接在2D中操作,放棄了3D的歸納偏置。在第八章中,我們介紹了Act3D,這是一種操控策略轉換器,使用3D特征場表示機器人的工作空間,特征的分辨率會根據任務的不同而自適應。該模型利用傳感深度將2D預訓練特征提升到3D,并對這些特征進行關注,計算采樣3D點的特征。它采用粗到細的方式采樣3D點網格,使用相對位置注意力提取特征,并選擇下一個采樣的重點區域。通過這種方式,它高效地計算出高空間分辨率的3D動作圖。在RLBench,一個公認的操控基準上,Act3D在74個RLBench任務上相較于先前的2D多視角策略提高了10%的絕對性能,在3D策略中,計算量減少了3倍并且提高了22%的絕對性能,創下了新的SOTA成績。在接下來的章節中,我們介紹了ChainedDiffuser,一種進一步統一動作關鍵姿態預測和軌跡擴散生成的策略架構,用于從演示中學習機器人操控。其主要創新是使用全局動作預測器預測關鍵幀的動作,這一任務需要多模態語義場景理解,并使用局部軌跡擴散器預測連接預測宏動作的軌跡段。ChainedDiffuser優于使用運動規劃器進行軌跡預測的現有SOTA關鍵姿態(宏動作)預測模型(包括Act3D),也優于不預測關鍵幀宏動作的軌跡擴散策略。我們在模擬和真實環境中進行了實驗,展示了ChainedDiffuser在解決涉及多樣物體互動的廣泛操控任務中的能力。
盡管許多多模態機器學習方法相較于單一感知的單模態方法在準確性上取得了優越的表現,但它們隱含地假設視覺模態總是清晰的。然而,這一假設在實際應用中容易被證偽,因為在日常環境中,視覺條件不佳的情況十分常見。我們發現,當視覺條件具有挑戰性時,現有的機器學習方法往往無法有效地利用其他模態的信息。因此,它們過度依賴視覺模態,因為在訓練數據中,視覺模態通常是可靠且信息豐富的。結果,當視覺條件變差并開始包含誤導性信息時,這些方法無法適應。此外,傳統的多模態模型從未學會在視覺挑戰場景中找到跨模態的對應關系。本論文旨在研究在視覺挑戰條件下的多模態學習。我們將在各個章節中分別探討每種變化,并提出我們的解決方案,以實現更有效的多模態表示學習。最后,在論文的最后一章,我們將提供一個簡要的結論。我們希望我們的研究能激發更多關于視覺挑戰條件下多模態學習的研究。
//hdl.handle.net/11245.1/bf8162ca-b205-40d2-b214-5c2a1ed17a19
受到人工智能(AI)在高成本和安全關鍵應用中的潛力,以及最近人工智能在我們日常生活中日益普及的影響,可信賴的人工智能作為一個廣泛的研究領域日益受到重視,涵蓋了可解釋性、魯棒性、可驗證安全、公平性、隱私、問責等主題。這在簡單、透明的模型與復雜、黑箱模型之間造成了一種緊張關系,前者具有固有的信任相關好處,而后者在許多任務上的表現則無與倫比。為了彌補這一差距,我們提出并研究了一種對數值數據的不確定解釋,并將其應用于基于樹的模型,形成了一種新型模糊決策樹,稱為核密度決策樹(KDDTs),它具有更好的性能、增強的可信特性和更廣泛的實用性,使得這些樹可以應用于更廣泛的領域。我們將本論文的貢獻分為三大支柱。
第一支柱是魯棒性和驗證。不確定解釋通過考慮數據中的不確定性,并更一般地作為對模型表示的函數的一種正則化,可以改善模型在各種魯棒性概念方面的表現。我們展示了它在應對噪聲特征和噪聲標簽方面的魯棒性,這在現實世界數據中很常見。接下來,我們展示了如何通過隨機平滑理論有效地實現可驗證的對抗魯棒性。最后,我們討論了相關主題的驗證,并提出了第一個模糊決策樹的驗證算法。
第二支柱是可解釋性。雖然決策樹普遍被認為是可解釋的,但基于樹的模型的良好性能通常僅限于表格數據,并且需要特征工程,這增加了設計工作量,同時集成方法則大大降低了相較于單棵樹模型的可解釋性。通過利用KDDTs的高效擬合和可微性,我們提出了一種學習參數化特征變換的系統。通過選擇可解釋的特征類并應用稀疏正則化,我們可以獲得具有競爭性能的緊湊單樹模型。我們展示了其在表格數據、時間序列和簡單圖像數據上的應用。
第三支柱是務實的進展。半監督學習(SSL)是由標簽成本的高昂而驅動的,從混合的標記和未標記數據中學習。樹的半監督學習通常僅限于黑箱包裝方法,而這并不適合樹。我們提出了一種基于我們對數據的不確定解釋的新穎內在SSL方法。聯邦學習(FL)是由數據共享限制驅動的,通過通信模型從分布式數據中學習。我們引入了一種基于函數空間正則化的新FL算法,它借用了我們不確定解釋形式中的概念和方法。與先前的FL方法不同,它支持非參數模型,并在溫和的假設下具有收斂保證。最后,我們展示了我們的FL算法還提供了一種簡單的集成合并實用工具。
近年來,機器學習取得了顯著的突破。隨著機器學習逐漸滲透到日常生活的各個方面,個人和組織越來越多地與這些系統互動,表現出各種社交和對抗性行為。這些行為可能對機器學習系統的行為和性能產生顯著影響。具體來說,在這些互動過程中,數據可能由策略性個體生成,由自利的數據收集者收集,甚至可能被對抗性攻擊者污染,并用于創建滿足多重目標的預測器、模型和政策。因此,機器學習系統的輸出可能會退化,例如深度神經網絡對抗性樣本的脆弱性(Shafahi 等, 2018; Szegedy 等, 2013),以及在面對策略性個體時經典算法性能的下降(Ahmadi 等, 2021)。解決這些挑戰對于機器學習在社會環境中的成功至關重要。 本論文分為兩部分:社交數據源下的學習和對抗性數據源下的學習。對于社交數據源,我們考慮了以下問題:(1) 在有限和無限假設類中與策略性個體的學習,其中我們對在線和PAC策略環境中的可學習性進行了理解,(2) 在單輪聯邦學習、多輪聯邦學習和協作主動學習中,自利數據收集者的激勵與背叛,(3) 游戲中的學習,在其中一名玩家運行學習算法而不是做出最佳回應,(4) 在決策制定和在線學習中的多目標學習。對于對抗性數據源,我們研究了以下問題:(1) 在干凈標簽攻擊下的魯棒學習,攻擊者向訓練集中注入一組正確標記的點,以誤導學習者在特定測試點上出錯,(2) 在變換不變性下的學習以及對流行的數據增強方法的分析。
近年來,機器學習取得了顯著的突破。隨著機器學習逐漸滲透到日常生活的各個方面,個人和組織與這些系統的互動日益頻繁,表現出各種社交和對抗性行為,這些行為可能會顯著影響機器學習系統的性能。 策略性個體 在許多領域,機器學習被應用于為各種資源的申請者提供決策依據。然而,當個體有動機從特定的預測結果中獲益時,他們可能會通過修改自身特征來獲取有利的預測結果。這種行為可能損害預測性能,使得學習過程容易受到金融政策制定中的經典原則——古德哈特定律(Goodhart's law)的影響,該定律指出:“一旦某個指標成為公眾的目標,它就不再是一個好的指標。” 這種學習系統與其所應用對象之間的天然張力廣泛存在于貸款審批、大學招生、職位招聘和保險等場景中。在這些情況下,學習系統的目標是進行準確的預測,而個體則無論其真實標簽如何,都有動力被歸類為正面。例如,在大學招生中,申請者可能會重考SAT或選擇更容易的課程以提高GPA,從而誤導分類器。
自利的數據收集者 在許多現實世界的應用中,數據集分布在不同的孤島中,如醫院、學校和銀行,因而需要它們之間的合作。近年來,協作學習(如聯邦學習)被廣泛采用,以促進大量數據收集者之間的合作。然而,決定協作學習成功與影響的關鍵在于能否招募和留住大量的數據收集者。在協作學習協議與數據收集者之間存在一種內在的張力。學習協議旨在找到對所有數據收集者都有利的模型,而每個數據收集者的目標則是找到一個對其本地數據有利且數據貢獻最小的模型。因此,如果學習協議要求數據收集者提供超出其自身目標所需的數據量,他們將不會按協議要求進行貢獻。
多目標用戶 雖然機器學習問題通常涉及優化單一標量獎勵,但在許多領域,同時優化多個(可能互相沖突的)目標是可取的或必要的。例如,自動駕駛汽車用戶希望同時追求安全、速度和舒適性,但速度可能對安全(如延長車輛突然停下的時間)或舒適性(如在快速轉彎時引起不適)產生負面影響。因此,當一個學習系統優化單一標量損失時,它可能忽視這些多重目標,從而為用戶生成不令人滿意的模型或策略。此外,在學習過程中可能存在多個利益相關者,每個利益相關者都有不同的目標。僅關注一個目標可能導致其他目標的性能顯著下降。
對抗性攻擊者 對抗性攻擊在暴露機器學習系統的脆弱性方面發揮了重要作用。許多流行的模型在現實世界場景中缺乏魯棒性。例如,在圖像任務中,向訓練圖像添加不可察覺的噪聲(Szegedy等,2013)或通過添加額外的圖像來污染訓練集(Shafahi等,2018)可以嚴重損害深度神經網絡的性能。 由于這些社交和對抗性數據因素,機器學習系統的輸出可能會退化。應對這些挑戰對于機器學習的成功至關重要。
本論文從理論角度出發,針對由這些社交和對抗性數據因素引發的可信性挑戰作出貢獻。這些數據因素在現有理論中尚未得到充分建模。因此,本論文側重于建模機器學習交互中固有的社交和對抗性方面,分析其對預測器的影響,并開發增強性能的方法和見解。 本論文的核心主題是為社交和對抗性數據源下的可信機器學習建立理論基礎。
隨著神經網絡在諸如刑事司法、醫療等高風險領域的應用日益增多,了解這些模型做出決策的原因變得越來越重要。例如,開發工具來分析模型是否在其未來的決策中延續了它們在訓練數據中發現的有害的人口不平等至關重要。然而,神經網絡通常需要大量訓練數據集,具有“黑箱”決策特性,并且重新訓練成本高昂,這增加了這個問題的難度。本文考慮三個問題。問題一)輸入的各個元素與模型決策之間的關系是什么?問題二)單個訓練點與模型決策之間的關系是什么。最后問題三)在多大程度上存在(有效的)近似方法,能夠讓實踐者預測模型性能在不同訓練數據或不同訓練協議下的變化。
第一部分針對掩蔽顯著性方法回答問題一。這些方法隱含地假設圖像中的灰色像素是“無信息的”。我們通過實驗發現,這一假設可能并非總是正確的,并定義了“健全性”,它衡量了顯著性圖的一種理想屬性。第二部分在影響函數的背景下討論問題二和問題三,這些函數旨在近似移除一個訓練點對模型決策的影響。我們使用諧波分析來檢查一種特定的影響方法,即數據模型,并發現數據模型的系數與目標函數的傅里葉系數之間存在關系。最后,第三部分在測試數據的背景下討論問題三。首先,我們評估是否需要保留外部測試數據來近似元學習的外部循環,或者回收訓練數據是否構成了一個足夠的近似。我們發現保留的測試數據很重要,因為它學習到的表示是低秩的。然后,受到PGDL競賽的啟發,我們調查了盡管眾所周知的限制,生成對抗網絡(GAN)生成的數據是否可以用來近似泛化性能,當沒有測試或驗證集可用時,并發現它們可以做到這一點。
在過去的十年中,深度學習展現出了顯著的能力,表現出對大規模數據的強烈依賴。在這一時期,我們見證了大型語言模型、擴散模型和分割模型的規模化法則生效,通過利用大規模真實世界數據集實現了接近人類水平的性能。然而,當涉及到具身AI時,由于機器人的脆弱性和有限的速度,生成真實世界數據變得具有挑戰性和成本高昂。與此相反,合成數據和模擬環境提供了一種高效且經濟的方法來訓練機器人代理和生成精確的監督。因此,合成數據作為可擴展和高質量訓練具身AI代理的數據的有希望的解決方案而出現。鑒于使代理能夠泛化到真實世界場景的最終目標,圍繞合成數據的主要挑戰在于通過縮小模擬與現實差距(Sim2Real差距)來準確捕捉真實世界分布。解決這一挑戰涉及兩個關鍵方面:生成合成數據和有效地利用它。在這篇論文中,我展示了對這兩個方面的貢獻的兩項工作。
第一項工作著眼于合成數據的生成。我介紹了兩種旨在生成與真實世界分布一致的合成數據的方法。首先,我提出了iGibson,一個模擬環境,用于在大規模真實場景中開發機器人的交互式解決方案。iGibson構建了3D掃描真實世界家庭的交互式復制場景,使對象、布局和可交互性的分布與真實世界一致。為了進一步促進更健壯的具身代理的訓練,iGibson提供了針對材料(視覺外觀和動態特性)和對象形狀的領域隨機化程序,同時尊重對象放置的分布并保持可交互性。其次,我提出了GINA-3D,一個使用來自攝像機和LiDAR傳感器的真實世界駕駛數據的生成模型,創建多樣化車輛和行人的逼真的3D隱式神經資產。與iGibson不同,后者涉及在建立模擬環境時顯著的人力努力,GINA-3D利用了直接學習生成與真實世界觀察匹配的合成資產的生成模型。我展示了證據,表明GINA-3D在生成的視覺和幾何質量方面實現了最先進的性能和多樣性。
第二項工作專注于有效地利用合成數據。通過設計健壯的學習算法和模型,我們可以創建更好地泛化到真實世界場景的模型。首先,我介紹了Taskonomy,它利用合成數據構建了任務空間的計算分類法和地圖。通過利用任務關系,我展示了證據,表明我們可以使用比完全監督方法少至少一個數量級的數據,且模型可以很好地泛化到真實世界數據集。然后,我介紹了情境融合,它訓練代理融合一大組對應于多樣化視覺感知能力的視覺表征。這種方法在新環境中的性能顯著提高,超過了真實世界預訓練的基線和其他融合方法。最后,我介紹了ACID,用于變形物體操縱的動作條件隱式視覺動態。通過利用大規模合成數據和獨特的幾何和動力學監督,我可以將模擬訓練的ACID模型直接應用于真實世界物體,并在將它們操縱成目標配置方面取得成功。
總結來說,這篇論文研究了合成數據和模擬環境如何為具身AI提供有希望的解決方案。所展示工作的核心在于合成數據的精心生成和有效利用。通過模擬環境、生成模型、任務遷移學習、視覺運動策略訓練和視覺動力學建模等策略,我們可以縮小模擬訓練與真實世界應用之間的差距,為更有能力和多功能的具身AI代理鋪平道路。
深度學習方法在解決計算機視覺任務方面取得了巨大的成功,在人工智能系統中被廣泛應用于圖像處理、分析和理解。然而,深度神經網絡(DNNs)已被證明易受輸入數據的對抗性擾動的影響。因此,深度神經網絡的安全問題浮出了水面。綜合研究深度視覺算法的對抗魯棒性是十分必要的。本文主要研究深度分類模型和深度圖像去噪的魯棒性。 對于圖像去噪,我們系統地研究了深度圖像去噪器的魯棒性。具體而言,我們提出了一種新的攻擊方法,基于觀測的零均值攻擊(ObsAtk),考慮了自然噪聲的零均值假設,對有噪聲的輸入圖像產生對抗性擾動。我們開發了一種有效的、理論基礎的基于PGD的優化技術來實現ObsAtk。針對ObsAtk,我們提出了混合對抗訓練(HAT)來增強深度圖像去噪器的魯棒性。大量的實驗證明了HAT的有效性。此外,我們探討了降噪器的對抗性魯棒性和對真實世界中不可見的噪聲類型的適應性之間的聯系。我們發現,只有合成噪聲數據經過HAT訓練的深度降噪器可以很好地推廣到不可見的噪聲類型。噪聲去除能力甚至可以與訓練與真實世界的噪聲降噪器相媲美。對于圖像分類,我們探索了除了傳統卷積神經網絡(CNNs)之外的新的魯棒架構。首先,研究了神經常微分方程的魯棒性。我們通過經驗證明,與基于CNN的分類器相比,基于節點的分類器對輸入擾動表現出更好的魯棒性。為了進一步增強基于節點的模型的魯棒性,我們將時不變屬性引入到節點中,并施加一個穩態約束來規范受擾動數據上的ODE流。我們證明了合成模型,稱為時不變穩定神經ODE (TisODE),比vanilla 節點更魯棒。 其次,從通道激活的角度研究了vanilla CNN的魯棒性,并提出了一種特征選擇機制來增強vanilla CNN的魯棒性。特別是,我們比較了正常訓練的分類器在處理自然數據和對抗數據時的通道激活。我們觀察到,對抗性數據通過過度激活負相關(NR)通道而缺乏激活正相關(PR)通道,誤導了深度分類器。我們還比較了正常訓練模型和對抗訓練模型的通道激活,觀察到對抗訓練通過促進未激活的PR通道和抑制過度激活的NR通道來增強模型的魯棒性。因此,我們假設,根據通道與真實類別的相關性,放大通道的激活可以提高魯棒性。為了驗證這一假設,我們開發了一種新的通道操作技術,即基于通道重要性的特征選擇(CIFS),該技術可以根據通道的相關性生成非負乘數來擴展通道的激活。大量的實驗結果驗證了該假設和改進后的CNN具有良好的魯棒性。綜上所述,本文系統研究了深度視覺算法的魯棒性,包括魯棒性評價(ObsAtk)、魯棒性改進(HAT、TisODE和CIFS)以及對抗魯棒性與新領域泛化能力之間的關系。
從教育到招聘,社會中的重要決策越來越依賴于數據驅動的算法。然而,算法決策的長期影響在很大程度上沒有得到充分理解,在理論和實踐中,確保公平利益存在嚴重挑戰。在本文中,我從兩個角度考察了機器學習算法的社會動力學:(I)算法決策的長期公平性,以及(ii)匹配市場的長期穩定性。
在計算機科學中,算法公平這個主題受到了廣泛的關注,但最近才認識到算法可以通過各種動態機制對種群產生不同的影響。我們通過提出機器學習算法和感興趣群體的動態交互的兩種不同模型來促進這一不斷發展的理解。首先,我們引入了延遲影響的概念——決策結果被觀察后,決策算法對人口的福利影響,其動機是,例如,在應用新的貸款批準算法后,平均信用分數的變化。我們證明了研究界提出的公平機器學習的幾個統計標準,如果應用于決策約束,可能會對弱勢群體的福利造成損害。t,我們考慮一個動態的環境,在這個環境中,個人投資于一個基于算法決策規則的預期回報的積極結果。我們表明,不良的長期結果是由于群體間的異質性和缺乏可實現性而產生的,并研究了干預措施的有效性,如按群體“脫鉤”決策規則和提供補貼。
除了長期公平的問題,利用機器學習為社會造福面臨的另一個挑戰是社會選擇。在市場中,個人學習目標(通常是構想出來的)可能與實現有效市場結果的長期社會目標相沖突。受在線市場和平臺中重復匹配問題的激勵,我們研究了雙邊匹配市場,參與者重復匹配,并通過匹配獲得關于其偏好的不完全信息。由于競爭,一個參與者試圖了解自己的偏好可能會影響其他參與者的效用。我們為市場平臺設計了一種機器學習算法,使市場作為一個整體能夠足夠有效地學習他們的偏好,從而快速獲得稱為穩定的市場公平概念。此外,我們研究了上述問題的分散化版本,并設計了參與者的學習算法,以在給定過去數據的情況下戰略性地避免競爭,從而消除了對中央平臺的需要。我們還研究了具有獨立行動誘惑的策略參與者是否仍應遵循算法的建議,結果顯示了算法的激勵兼容性方面的幾個積極結果。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-41.pdf