數據驅動的機器人技術在過去十年中已成為一種非常有效的范式。如今,我們可以自主地執行復雜的任務,如折疊衣物、在狹窄的走廊中避開障礙物導航,以及使用機載觀測控制四足機器人在復雜地形上行走等。然而,這些方法往往存在一些基本的限制,使其難以在開放世界環境中部署。原因可能是它們對環境結構做出了過于強烈的假設,或需要大量的機器人數據收集,或者無法對周圍環境進行語義理解。由于這些限制,數據驅動的機器人技術仍然局限于簡單的受限環境,無法為大多數從業者和潛在應用所用。這些系統仍需為每個機器人、特定環境和具體任務進行手工設計。 本論文提出了一個關于未來智能機器人的替代愿景,即我們可以開發通用的機器學習模型,這些模型可以直接控制任何機器人,在挑戰性的開放世界環境中執行合理的行為。受到語言和視覺基礎模型興起的啟發,我們提出了一種訓練機器人基礎模型(Robot Foundation Models, RFMs)的方法,這些模型從不同環境和實體收集的大量數據中訓練而成,能夠僅依靠自我中心視覺控制各種移動機器人。我們還展示了如何將這種RFM作為構建強大機器人系統的基礎,這些系統可以探索茂密的森林、與人類互動,或利用衛星圖像或自然語言等輔助信息源。 最后,我們提出了一種結合RFM和互聯網基礎模型的新規劃框架。RFM具備對物理世界的知識,而互聯網基礎模型則具備圖像級語義理解和基于文本的推理能力。通過這種框架,機器人系統能夠利用互聯網基礎模型的優勢,同時在現實世界中行動。我們希望這能成為通用機器人系統邁出的關鍵一步,這類系統可以部署在各種機器人上,利用經過預訓練的互聯網模型中的大規模知識,成為多樣化移動機器人應用的基礎。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2024/EECS-2024-166.html
當人類訪問一個新城市時,我們能夠輕松地在街道上導航,詢問地標方向,并在腦海中形成鄰里環境的心理地圖。我們利用以前的經驗和常識來識別模式并填補空白,例如“城市街區通常是矩形的”和“出口標志指向門口”。然而,當今大多數機器人系統在未見過的、無結構的自然環境中缺乏這種意識和推理能力——它們要么(i)建模過多(幾何),在可擴展性和適應性方面存在局限性,要么(ii)建模過少,試圖學習一切,但在效率、泛化性和魯棒性方面受到限制。人工智能和大規模深度學習的最新進展表明,這種推理確實存在于模型文本和視覺信息的神經網絡中。那么,為什么我們還沒有看到能夠高效探索城市規模環境、運用常識推理并與人類共存的自主機器人呢? 構建這種通用機器人面臨的關鍵挑戰在于缺乏能夠在任意家庭、街道或森林中建模多樣化機器人行為的算法和系統。這些行為可能極其復雜,無法通過程序生成或模擬重建。因此,依賴于密集映射和幾何的經典方法,以及在仿真中訓練的現代端到端學習方法,都不足以實現這一目標。我們認為,答案在于構建能夠從共享的真實世界經驗中學習的機器人系統,即從世界各地不同傳感器和能力的機器人執行不同任務的實際部署中收集的數據。本論文的重點是利用“跨實體”機器人學習的力量來應對上述挑戰,并將其與規劃和搜索的嚴格基礎聯系起來,最終目標是構建能夠在復雜環境中真實世界部署的魯棒系統。這種范式可以實現廣泛的泛化,使全新的機器人能夠在自然環境中部署,并以數據高效的方式適應各種下游任務,類似于大規模預訓練模型在計算機視覺和語言建模中的成功。 在這一范式下開發機器人系統時,必須考慮兩個基本問題: 1. 我們如何從在挑戰性環境中部署的機器人的離線數據集中學習魯棒行為? 1. 我們如何使這些行為在新的挑戰性環境、任務和機器人實體中進行泛化,并構建一個機器人基礎模型? 1. 我們如何將這樣的模型與互聯網基礎模型結合,以利用互聯網規模的知識和高級規劃能力?
本論文提出了一種構建機器人基礎模型的方案,使自主機器人能夠從其經驗以及互聯網的其他信息源中學習,并展示了這些特定于機器人的模型如何與在互聯網規模數據上訓練的基礎模型結合使用。我們主要在自主導航的背景下研究這一點,這是智能機器人系統在實驗室之外、真正自然環境中操作的基本組成部分。我們的關鍵見解是,結合跨實體數據的大規模機器人學習和規劃,可以實現可部署的通用機器人。本論文分為三個部分,分別對應于在數據驅動框架中建立視覺導航問題、設計和訓練用于視覺導航的機器人基礎模型,最后將這種特定于機器人的模型與互聯網的文本和視覺基礎模型相結合。 為了完整性和消除歧義,我們在本論文中將機器人基礎模型定義如下: 定義1(機器人基礎模型):一種機器學習模型,在最小的外部監督下訓練,可以: * 在完全不同的(有用的)設置中零樣本部署,例如不同的傳感器、機器人、環境等。 * 適應所選擇的下游任務,例如不同的目標、偏好/獎勵、目標規格的模態、行為等。
機器視覺通過使機器能夠解讀和處理視覺數據,增強了工業應用中的自動化、質量控制和運營效率。盡管傳統的計算機視覺算法和方法仍被廣泛使用,但機器學習在當前的研究活動中已變得至關重要。特別是,生成式人工智能(AI)展示了通過數據增強、提高圖像分辨率以及識別質量控制中的異常,從而改善模式識別能力的潛力。然而,由于數據多樣性、計算需求以及對穩健驗證方法的必要性等挑戰,生成式AI在機器視覺中的應用仍處于早期階段。為全面了解生成式AI在工業機器視覺中的現狀,特別是最近的進展、應用和研究趨勢,進行了一次基于PRISMA指南的文獻綜述,分析了超過1200篇關于工業機器視覺中生成式AI的論文。我們的研究發現揭示了當前研究中的各種模式,生成式AI的主要用途是數據增強,用于分類和目標檢測等機器視覺任務。此外,我們收集了一系列應用挑戰及數據需求,以促進生成式AI在工業機器視覺中的成功應用。本綜述旨在為研究人員提供對當前研究中不同領域和應用的深入見解,突出重要進展并識別未來工作的機會。
關鍵詞:機器視覺,生成式人工智能,深度學習,機器學習,制造業 1 引言
視覺檢查由受過培訓的檢查員執行,仍在工業中廣泛使用,但自20世紀70年代以來,自動化機器視覺已被系統地引入[1]。工業機器視覺是現代制造過程中的關鍵組成部分,涉及圖像的處理和分析,以自動化任務,包括質量檢查、物體或缺陷檢測以及過程控制[2]。傳統的計算機視覺系統依賴于需要手工設計特征的經典算法和技術,雖然這些方法在實踐中很有效,但在處理具有顯著變化性和不可預見情況的復雜場景時存在局限性[2, 3]。在20世紀80年代和90年代,隨著數字圖像處理、紋理和顏色分析等技術的進步,并有更好的硬件和軟件支持,機器視覺技術得到了發展[4]。當時,任務如質量檢測和物體識別主要依賴于預定義的算法[3, 5]。 20世紀90年代末和2000年代初,機器學習逐漸興起,支持向量機(SVM)[6]、隨機森林[7]和人工神經網絡(ANN)等模型使系統能夠以數據驅動的方式進行學習,提高了它們應對現實世界中變化和復雜性的能力[2]。機器視覺領域的真正革命出現在2010年代,隨著深度學習(DL)的發展。卷積神經網絡(CNN)在圖像處理任務中表現出極強的能力。CNN使機器能夠從原始圖像數據中自動學習層次特征,大大提高了在圖像分類、圖像分割、目標檢測、缺陷檢測和姿態估計等任務中的性能[4, 9-11]。像AlexNet、VGG和ResNet這樣的里程碑模型展示了深度學習的潛力,迅速在學術研究和工業界得到了廣泛應用[2]。 生成式人工智能(GenAI)代表了機器視覺演變中的最新前沿。與傳統的區分性模型用于分類或識別模式不同,GenAI模型能夠創建新的數據實例。雖然大多數流行的GenAI模型和創新設計是為了與人類互動,但探索GenAI如何改變工業制造領域具有重要的機會。類似于數據生成的替代方法如模擬需要專家領域知識和手動執行,因此在工業制造應用中,它們的使用僅限于預處理和后處理步驟。而GenAI方法一旦訓練完成,具有在制造過程中自動化當前手動處理步驟的潛力。由于其前景廣闊,GenAI已被應用于不同的機器視覺用例,其中每個提出的解決方案都是在特定用例約束下開發的。這些在機器視覺研究領域中積累的發現和經驗為其他從業者提供了寶貴的見解,幫助他們在自己的研究中使用GenAI。盡管已有關于將GenAI應用于各種機器視覺用例的知識,但據我們所知,目前尚無專門針對工業機器視覺中GenAI的綜述,匯總已有的應用經驗。現有的文獻綜述中提及GenAI在工業機器視覺中的應用時,主要關注的是AI在特定制造領域(如印刷電路板[12]、硅片[13]、一般缺陷識別[14]或表面缺陷識別[15])中的應用。 本綜述的貢獻包括:(i)概述了工業機器視覺應用中使用的GenAI方法,(ii)提供了應用GenAI時的工具、潛力和挑戰的概述,以及(iii)展示了GenAI在典型機器視覺應用中的益處,為從業者提供參考。 基于這些目標,我們提出了以下在本綜述中探討的研究問題:
本文結構如下:第2節首先概述了GenAI領域及其方法。第3節介紹了文獻綜述的方法,包括對排除標準的推導和選擇信息提取的詳細理由。第4節展示了搜索結果及其特征,并對提取的數據進行了廣泛分析。第5節討論了文獻綜述的結果,并結合研究問題進行探討。討論還包括對所用文獻綜述方法中的偏見和局限性的反思。最后,本文總結了本綜述的主要結果,并提出了在工業機器視覺任務中應用GenAI的指導原則。
2 生成式人工智能
生成式人工智能(GenAI)領域代表了旨在學習給定數據集 x∈Xx \in Xx∈X 的概率分布 p(x)p(x)p(x) 的半監督和無監督深度學習技術。在深度學習的背景下,GenAI方法使用參數化的人工神經網絡(ANNs)來近似概率分布 p(x)p(x)p(x),這些網絡通過權重 Θ\ThetaΘ 進行參數化,從而得到一個參數化模型 pΘ(x)p_\Theta(x)pΘ(x)。與判別式深度學習技術相比,判別式技術近似的是在給定輸入 xxx 的情況下,屬性(或標簽) yyy 上的概率分布 p(y∣x)p(y|x)p(y∣x),而生成模型 GGG 可以用于從訓練數據分布中抽取類似樣本 x~~pΘ(x~)\tilde{x} \sim p_\Theta(\tilde{x})x~~pΘ(x~) [16]。 對 p(x)p(x)p(x) 的估計可以分為顯式和隱式兩種方法。顯式估計模型嘗試提供概率密度 pΘ(x)p_\Theta(x)pΘ(x) 的參數化,而隱式估計模型則構建一個合成數據的隨機過程[17]。生成式人工智能的分類概述(參見圖1)總結了現有估計 pΘ(x)p_\Theta(x)pΘ(x) 的方法。不論模型類型如何,它們生成逼真高分辨率圖像的能力使得它們在解決諸如圖像修復、圖像去噪、圖像到圖像翻譯以及其他圖像編輯問題等經典計算機視覺任務中得到了廣泛應用。它們在學術基準測試中的出色表現,使其在機器視覺領域中具有重要意義。每種模型架構的進一步描述及其優缺點將在以下小節中進行探討。 3 研究方法
如引言中所述,本篇文獻綜述旨在概述生成式人工智能(GenAI)在工業機器視覺領域中的方法和應用,特別是針對制造業應用。該綜述采用了系統評價和薈萃分析的首選報告項目(PRISMA)方法進行,PRISMA方法旨在以透明、完整和準確的方式呈現和生成系統性綜述[36]。基于該方法,以下各節將介紹系統性綜述的實施方法。首先,介紹了以排除標準形式出現的適用性衡量標準,以及搜索策略和所使用的文獻數據庫(參見第3.1節)。接下來是研究選擇過程(參見第3.2節)和數據提取(參見第3.3節)。
數據驅動的機器人學在過去十年中是一種非常有效的范式。今天,我們已經能夠自主完成一些靈巧的任務,例如折疊衣物、在狹窄的走廊中避免碰撞并導航,以及使用車載傳感器控制復雜的動態系統,例如四足機器人在挑戰性地形上行走。然而,這些方法通常存在一些基本的局限性,阻礙了它們在開放世界環境中的部署。這些局限性可能是因為它們對環境結構做出了過強的假設、需要大量的機器人數據收集,或者未能考慮對環境的語義理解。由于這些限制,數據驅動的機器人方法仍然局限于簡單的受限場景,且對大多數從業者和潛在應用不具備可行性。這些方法仍然需要為每個不同的機器人,在特定環境中,手工設計以解決特定任務。 本論文提出了對未來智能機器人的另一種愿景,即我們可以擁有通用的機器學習模型,這些模型可以直接控制任何機器人,在具有挑戰性的開放世界環境中執行合理的行為。受到語言和視覺基礎模型興起的啟發,我們提出了一種訓練機器人基礎模型(RFM)的方案,該模型通過從不同環境和形態中收集的大量數據進行訓練,可以僅依賴自我中心視覺來控制各種不同的移動機器人。我們還展示了這種RFM如何作為構建強大機器人系統的骨干,這些系統可以探索密集的森林、與人類互動,或利用諸如衛星圖像或自然語言等輔助信息源。 最后,我們提出了一種將具有物理世界知識的RFM與具有圖像級語義理解和基于文本推理的互聯網基礎模型(語言和視覺模型)相結合的新規劃框架。這使得機器人系統能夠利用互聯網基礎模型的優勢,同時在現實世界的條件下執行操作。我們希望這能夠朝著通用機器人系統邁出一步,這些系統可以部署在各種機器人上,利用預訓練模型的互聯網規模知識,并作為各種移動機器人應用的基礎。
引言
當人類訪問一個新城市時,我們毫不費力地在街道間導航、詢問地標的方向,并形成對街區的心理地圖。我們借助之前的經驗和常識來識別模式并填補空白,比如“城市街區通常是矩形的”和“出口標志指向門”。然而,大多數現有的機器人系統在未知的、非結構化的開放世界環境中缺乏這樣的意識和推理能力——它們要么(i)過度建模(幾何結構),在可擴展性和適應性方面存在局限性,要么(ii)建模過少,試圖學習一切,但在效率、泛化能力和魯棒性方面受到限制。近年來,人工智能和大規模深度學習的進展表明,這種推理確實存在于建模文本和視覺信息的神經網絡中。那么,為什么我們還沒有看到能夠高效探索城市規模環境、利用常識推理并與人類在現實環境中共存的自主機器人呢?
構建這種通用機器人的關鍵挑戰在于缺乏能夠在任意家庭、街道或森林中建模多樣化機器人行為的算法和系統。這些行為可能非常復雜,無法通過程序化的方法進行重建或模擬。因此,無論是依賴于密集映射和幾何的傳統方法,還是在模擬中訓練的現代端到端學習方法,都無法實現這一目標。我們認為,答案在于構建能夠從共享的現實世界經驗中學習的機器人系統,即從全球范圍內不同傳感器和能力、不同任務的機器人實際部署中收集的數據中學習。本論文重點討論如何利用“跨形態”機器人學習來應對上述挑戰,并將其與嚴謹的規劃和搜索基礎相結合,最終目標是構建能夠在復雜環境中實際部署的魯棒系統。這一范式能夠實現廣泛的泛化,使全新的機器人能夠在開放環境中部署,并以數據高效的方式適應各種下游任務,類似于大規模預訓練模型在計算機視覺和語言建模中的成功。
在這個范式下開發機器人系統時,重要的是要考慮兩個基本問題:
本論文提出了構建機器人基礎模型的方案,使自主機器人能夠從自己的經驗以及互聯網的其他信息來源中學習,并展示了如何將這些機器人特定的模型與在互聯網規模數據上訓練的基礎模型相結合。我們主要在自主導航的背景下研究這一問題,這是智能機器人系統在實驗室之外、真正應用于現實世界的一個基本組成部分。我們的關鍵見解是,結合跨形態數據的大規模機器人學習和規劃,可以實現可部署的通用機器人系統。本論文分為三個部分,分別對應于在數據驅動框架下設置視覺導航問題,設計和訓練用于視覺導航的機器人基礎模型,最后將這種機器人特定模型與互聯網的文本和視覺基礎模型相結合。
為了完整性和消除歧義,我們在本論文中對機器人基礎模型作如下定義: 定義1(機器人基礎模型):一種機器學習模型,在最少的外部監督下訓練,可以:
組織結構本論文分為三個部分,旨在回答上述問題。我們做出了以下貢獻: I. 從數據中學習遠程導航:我們將視覺導航問題形式化為一種無地圖的數據驅動范式。我們認為,在挑戰性的現實環境中實現魯棒導航既需要從機器人過去的經驗中學習技能,也需要一個用于規劃和搜索的明確記憶。我們還評估了離線強化學習和行為克隆在訓練現實世界技能方面的適用性。
在第2章中,我們為一種全新的基于學習的導航系統奠定了基礎,該系統可以完全從離線數據中學習,并通過規劃執行遠程導航。這項工作之前發表在Shah等人的[241]中。
在第3章中,我們基于我們的系統,使其能夠通過使用一個學習的潛在變量模型訓練一個探索先驗,從而實現自主探索。這項工作之前發表在Shah等人的[238]中。
在第4章中,我們擴展了這個系統,使其能夠利用地理輔助信息作為規劃啟發式,來實現公里級導航。這項工作之前發表在Shah等人的[232]中。
在第5章中,我們研究了離線強化學習在從數據中訓練機器人技能的可行性,并展示了一個能夠在現實世界中優化用戶特定獎勵函數的導航系統。這項工作之前發表在Shah等人的[237]中。
II. 跨形態機器人基礎模型:我們提出了跨形態學習作為一種在多個環境和機器人之間訓練目標導向導航策略的方法。我們探索了這種模型的設計空間、預訓練范式以及可能的下游應用適應方式。
在第6章中,我們探討了如何將經驗學習范式擴展到通過仔細的數據管理和架構設計,在不同的機器人形態間學習導航策略。這項工作之前發表在Shah等人的[234]中。
在第7章中,我們設計了第一個基于跨形態學習的機器人基礎模型。ViNT模型旨在將預訓練模型的成功帶入機器人領域,作為通過提示調優和全模型微調訓練下游策略的強大骨干。這項工作之前發表在Shah等人的[242]中。
在第8章中,我們提出了一種用于大規模跨形態機器人學習的替代架構,該架構使用目標條件擴散策略來學習復雜的多模態行為。這項工作之前發表在Sridhar等人的[254]中。
III. 結合機器人和互聯網基礎模型:我們提出了一種新穎的規劃框架,將大型語言模型的基于文本的推理能力、視覺模型的語義理解和視覺對位能力以及機器人基礎模型的物理對位能力相結合,以解決現實世界的指令執行任務。我們還將這一理念與第4章中的啟發式規劃框架相結合,提出了一種在規劃過程中結合語言模型建議的新方法。
在第9章中,我們設計了第一個現實世界的指令執行機器人系統,該系統可以在新環境中零樣本部署,無需額外訓練。LM-Nav結合了強大的機器人基礎模型(ViNG, GNM)和互聯網基礎模型(GPT-3, CLIP),形成了一個功能強大的多功能機器人導航系統。這項工作之前發表在Shah等人的[235]中。
在第10章中,我們研究了如何利用大型語言模型中存儲的內在知識作為解決遠程推理任務的規劃啟發式。這項工作之前發表在Shah等人的[236]中。
最后,我們討論了當前方法和在開放世界環境中開發真正自主機器人的未來發展方向。
自從神經網絡在人工智能領域成為主導技術以來,一個研究子領域已經出現,試圖理解它們的內部工作機制。在這個子領域中的一種標準方法是主要理解神經網絡如何表征人類可理解的特征。另一種較少探索的可能性是將它們理解為多步驟的計算機程序。這似乎需要一種模塊化的前提:網絡的不同部分需要足夠獨立地運作,以便能夠單獨理解,并實現不同的可解釋子程序。
為了在神經網絡內部找到模塊化結構,我們最初使用圖形聚類工具。如果一個網絡可以被劃分為具有強內部連接但外部連接弱的神經元群組,那么這個網絡在這個意義上是可聚類的。我們發現,訓練過的神經網絡通常比隨機初始化的網絡更具聚類性,而且常常相對于具有與訓練網絡相同權重分布的隨機網絡具有聚類性。我們研究促進聚類性的因素,并且還開發了針對這一目的的新方法。
為了使模塊化對理解神經網絡有價值,它需要具有某種功能相關性。我們關注的功能相關性類型是功能的局部專業化。一個神經網絡在其計算圖的部分可以被抽象地表示為執行某些與整體任務相關的可理解子任務的程度上局部專業化。我們提出了兩個局部專業化的代理:重要性,反映了神經元集合對網絡性能的價值;以及一致性,反映了它們的神經元與輸入特征的關聯一致性。然后,我們使用通常用來解釋單個神經元的技術來操作這些代理,將它們應用于由圖聚類算法產生的神經元組。我們的結果顯示,聚類成功地找到了重要且一致的神經元組,盡管并非所有發現的神經元組都是這樣。我們最后通過一個案例研究來總結,使用更標準的可解釋性工具,這些工具旨在理解激活空間中方向所代表的特征,將它們應用于對CoinRun游戲的獎勵函數訓練的神經網絡的分析。
盡管我們的網絡實現了低測試損失,但應用可解釋性工具顯示,網絡沒有充分代表相關特征,并且在分布外嚴重誤預測獎勵。即便如此,這些工具并沒有清晰地揭示網絡實際上正在執行的計算。這不僅說明了需要更好的可解釋性工具來理解泛化行為的必要性,而且也激發了這種需求:如果我們將這些網絡視為通過強化學習訓練的政策的“動機系統”的模型,那么結論是這樣的網絡可能在更豐富的環境中追求錯誤的目標,表明需要可解釋性技術來闡明泛化行為。
構建能從文本、語音、視頻、現實世界傳感器、可穿戴設備和醫療數據等多種感官輸入中學習的多感官人工智能系統,在許多具有實際益處的科學領域展現出巨大的影響潛力,例如在支持人類健康與福祉、使多媒體內容處理以及增強現實世界自主代理的應用中。然而,多模態研究進展的廣度使得難以識別該領域的共同主題和開放性問題。通過綜合多種理論框架和應用領域,本論文旨在推進多模態機器學習的基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系,將展示最近的技術成就,使研究者能夠理解不同方法之間的相似性和差異,并識別未來研究的開放問題。本論文的主要內容涵蓋了我們最近在解決多模態學習中兩個關鍵問題方面的進展:多模態交互的機器學習基礎以及構建在現實世界中廣泛適用于多種模態和任務的多感官基礎模型的實用方法。在第一部分,我們研究多模態交互的基礎:即模態如何結合產生任務所需的新信息的基本原理。我們提出了一個理論框架,用于形式化模態如何相互作用以產生任務所需的新信息,例如從言語和聲音表達之間的不一致性中識別出的諷刺。使用這個理論框架,我們提出了兩個實用的估算器,以量化實際數據集中的交互。量化多模態任務所需的交互類型,使研究者能夠決定收集哪種模態,設計合適的學習這些交互的方法,并分析他們的模型是否成功地學習了這些交互。在第二部分,我們研究了設計實用的多模態基礎模型,這些模型可以廣泛地適用于多種模態和任務,這是將大型語言模型與現實世界感官模態相結合的一步。我們首先引入MULTIBENCH,一個跨廣泛模態、任務和研究領域的統一大規模基準測試。我們還將介紹現在支持今天許多多模態基礎模型的跨模態注意力和多模態變換器架構。在MULTIBENCH上擴展這些架構,使得創建適用于多種任務的通用多模態多任務模型成為可能,我們已與實踐者廣泛合作,將這些模型應用于情感計算、心理健康和癌癥預后的實際影響中。我們在論文的最后討論如何利用這些思想,朝著更通用、交互性更強和更安全的多模態人工智能邁進。
多模態人工智能是一個充滿活力的跨學科研究領域,旨在設計能夠通過多種交流方式(包括語言、聲學、視覺、觸覺、感官和生理信息)感知、推理和交互的計算機代理[46, 375]。多模態AI系統在許多具有實際益處的科學領域都能帶來巨大影響,例如支持人類健康與福祉[360, 427, 716]、使多媒體內容處理[11, 486, 514],以及增強現實世界自主代理[63, 93, 334, 523, 546]。然而,多模態研究的廣泛進展使得難以識別該領域的共同主題和開放性問題。本論文通過綜合歷史和近期視角下的廣泛理論框架和應用領域,旨在推進多模態機器學習的理論和計算基礎。我們首先定義多模態問題中常見的三個關鍵原則:模態異質性、連接和交互,這些原則帶來了機器學習的獨特挑戰。多模態數據的異質性使學習變得具有挑戰性,例如,語言通常被視為符號性的,而音頻和視頻則被表示為連續信號。同時,這些模態包含重疊的連接信息,并互動以產生任務相關的新信息。學習這些連接和互動對于系統的良好性能至關重要。基于這些原則,我們提出了多模態研究的六個核心挑戰的分類體系:表征、對齊、推理、生成、轉移和量化。通過這個分類體系的視角,將展示最近的技術成就,使研究者能夠理解新方法之間的相似性和差異,并幫助我們識別未來研究的關鍵開放問題。利用我們的多模態機器學習分類體系,我們強調了多模態學習進展中的兩個關鍵挑戰:(1)建立多模態交互的基礎,以便我們能夠量化數據集中存在的交互并使用機器學習方法正確地模擬這些交互;(2)構建能夠在大量模態和任務中實現泛化的多模態模型和數據集,以產生真實世界的社會影響(圖1.1)。
人口的快速增長和持續的城市化產生了對具有高生產率和效率的自動化系統的需求。多機器人系統的發展旨在通過控制一組機器人來處理大規模和復雜的任務(例如在地震后進行搜救操作)。控制這種系統的關鍵組成部分是在給定環境中引導每個機器人從起始位置到目標位置,使用無碰撞路徑,這稱為多機器人運動規劃。隨著團隊規模的增加,基于集中式方法計算解決方案變得計算上昂貴且難以處理。因此,研究人員一直在探索分散式方法,以單獨為每個機器人計算軌跡,并僅在出現沖突情況下進行重新規劃。這種方法可以最大程度地減少任務的計算復雜性,但容易產生次優和部分解決方案。在計算解決方案的最優性和完整性保證之間取得平衡仍然是一個未解決的問題。
在本論文中,我們特別有興趣探究基于機器學習(尤其是圖神經網絡)的方法,通過將在線計算轉移到離線訓練過程中,尋找在最優性和復雜性之間的權衡。然而,基于學習的方法也產生了對模擬到真實系統和解決方案的需求,以最小化差距,并為生成的解決方案提供可解釋性和保證。因此,我們首先開發了一個框架,該框架可以基于圖神經網絡(GNN)來學習機器人之間的通信,以更好地在分散式方式下根據其局部信息進行個體決策。該框架由一個編碼器(即卷積神經網絡),它從局部觀測中提取適當的特征,以及一個學習在機器人之間顯式地傳遞這些特征的GNN,以及用于動作選擇的多層感知器組成。通過共同訓練這些組件,系統可以學會確定對整個團隊而言哪些信息最相關,并將其共享以促進高效的路徑規劃。在此基礎上,我們提出了一種名為"Message Aware Graph Attention neTwork"(MAGAT)的方法,將GNN與類似于鍵-查詢的注意機制相結合,以提高機器人間通信的效果。我們通過在小問題實例上訓練模型,然后在機器人密度增加、地圖大小變化以及更大的問題實例(高達原機器人數量的100倍)上測試模型的泛化能力。
為了將我們的解決方案移植到真實世界,我們開發了一個基于ROS的系統,允許完全分散式地執行基于GNN的策略。我們在一個需要機器人之間緊密協調的案例研究中展示了我們的框架,并呈現了首次成功的結果,展示了基于GNN的策略在依賴臨時通信的分散式多機器人系統上成功實現了實際部署。在擴展該系統時,我們提出了一種僅基于視覺的學習方法,利用GNN對相關的視點信息進行編碼和傳遞給移動機器人。在導航過程中,機器人受到一個模型的引導,我們通過模仿學習來訓練這個模型,以近似最優的運動基元,從而預測有效的到目標的成本。我們的實驗證明了它在引導機器人在以前未見過的具有不同傳感器布局的環境中的泛化能力。
基于純GNN的分散式路徑規劃已經通過端到端的學習方法在經驗上證明了其性能。然而,這些黑箱方法在直接部署到實際工作場所時面臨挑戰,因為它們很難找到一個有保證且可解釋的解決方案。因此,我們設計了圖變換器(Graph Transformer)作為一種啟發式函數,以加速在非網格設置中(尤其是在密集圖中)的基于沖突的搜索(Conflict-Based Search,CBS)中的焦點搜索。我們的框架保證了解決方案的完備性和有界次優性。為了增強強化學習的可解釋性和解釋性,我們引入了全局路徑規劃算法(例如,A*算法)來生成全局最優路徑,這作為獎勵函數的一部分,鼓勵機器人通過最優路徑進行“弱監督”探索所有潛在解決方案。由于我們的獎勵函數與環境無關,我們訓練的框架可以推廣到任意環境,并且可以以完全分布式的反應方式解決多機器人路徑規劃問題。
在我博士研究期間,我首先提出了面向多機器人協調的通信感知運動規劃,引入了GNN來構建多機器人團隊的通信通道,使它們可以學會如何顯式地進行通信。通過基于端到端模仿學習流程的各種仿真實驗,驗證了這一新穎研究思想的可行性。為了將它們移植到現實中,我們構建了一個基于ROS2的系統,通過臨時通信在多機器人通道情景中展示我們的思想,并在未知環境中通過隨機采樣的基于攝像頭的傳感器輔助單機器人導航。最后,我們通過在CBS的焦點搜索中引入啟發式函數,并設計了一種名為G2RL的新型獎勵機制,為先前的黑箱方法提供了解釋和性能保證的方法。
最優控制是一個強大的控制器設計范式,因為它可以用相對簡單的成本函數來隱含地編碼復雜的穩定行為。然而,維度災難和非凸優化的存在可能使得為復雜的高維系統可靠地獲得穩定的控制器變得具有挑戰性。近期,基于采樣的強化學習方法使機器人學家能夠為高維系統獲得近似最優的反饋控制器,即使動力學未知。然而,這些方法在許多應用領域的實際部署仍然不夠可靠。
這篇博士論文主張,可靠的基于優化的控制器合成的關鍵是深入理解我們寫下的成本函數和我們設計的算法如何與控制系統的基礎反饋幾何結構相互作用。首先,我們將研究如何通過嵌入控制Lyapunov函數(這是系統的能量類函數)來加速無模型的強化學習。接下來,我們將介紹一種新的基于數據的策略優化框架,該框架將來自近似動力學模型和低級反饋控制器家族的結構信息嵌入到更新方案中。然后,我們轉向動態規劃的視角,研究系統的幾何結構如何在計算或學習穩定控制器所需的計算量上施加根本性的限制。最后,我們研究基于導數的搜索算法,并研究如何設計用于模型預測控制方案的“好”成本函數,以確保即使使用基于梯度的方法在非凸目標上搜索,這些方法也能穩定系統。在整個過程中,我們將重點關注如何從簡單的分析模型中獲得的結構性洞見指導我們的設計決策,并將討論其在動態行走、飛行控制和自動駕駛等應用中的用途。
過去的十年見證了機器學習在諸多領域(如醫療保健、金融和司法)的巨大進步。然而,近年來的技術進步主要依賴于深度神經網絡,這種網絡的不透明性阻礙了人們對這些模型的檢查能力。此外,一些法律要求正在提議,要求在部署和使用模型之前必須先理解模型。這些因素推動了提高這些模型可解釋性和透明度的研究。本論文在這個方向上做出了一些貢獻。
首先,我們對當前用于定義和評估模型預測解釋的技術進行了簡潔而實用的概述。然后,我們觀察到各種可解釋性概念的定義和評估之間存在一種新穎的對偶性,并提出了一種新的生成解釋的方法,研究了這些新解釋的屬性。接下來,我們詳細研究了良好解釋的兩個基本屬性:正確性 - 解釋是否反映了模型內部的決策邏輯,以及可理解性 - 人類是否能夠準確地從這些解釋中推斷出更高層次和更普遍的模型行為。對于每個方面,我們都提出了評估方法來評估現有的模型解釋方法,并討論了它們的優缺點。
接下來,我們探討了解釋哪些實例的問題,并將透明度示例觀點作為回答這個問題的方法。我們展示了這種方法在揭示圖像分類器和機器人控制器的隱藏屬性方面的優勢。最后,本論文確定了未來研究的方向,并倡導將模型可解釋性和透明度更緊密地融入到可信賴機器學習研究的生態系統中,該生態系統還包括公平性、魯棒性和隱私等方面的努力。
1. 引言
在過去的十年中,機器學習(ML)迅速改變了社會。從谷歌翻譯、Facebook好友標記和Snapchat過濾器等日常產品和功能,到醫療診斷、保險承保和貸款審批等專家知識領域,再到自動駕駛、虛擬現實和基因治療等新興技術,ML在所有這些領域都發揮了關鍵作用,人們普遍認為,它的重要性只會越來越重要。盡管如此,ML的廣泛應用也帶來了獨特的挑戰。當我們無法手動指定模式時,ML的目標是從數據中自動發現它們。例如,在圖像分類中,因為如果有可能的話,編寫一個手動規則來分類像素矩陣是看起來更像貓還是狗是極其困難的,我們借助于ML在像素矩陣空間中學習一個決策邊界,以將貓的邊界和狗的邊界分開。當邊界具有非常復雜的形狀時,就像大多數復雜任務需要的那樣,理解它就成為一個嚴峻的挑戰。因此,學習計算這些邊界的模型通常由深度神經網絡或樹集成(例如,隨機森林或增強樹)表示,通常被稱為“黑盒模型”。
但是,為什么我們需要或者想要理解這些模型呢?除了滿足一般的好奇心外,了解模型學習的內容還有非常實際的目的。考慮一個基于過去貸款數據訓練的模型,以做出新的抵押貸款批準決策。雖然理想情況下我們希望模型根據申請人的財務健康狀況和還款可能性進行預測,但它很可能會學會依賴虛假的相關性。例如,在歷史上,非裔美國人往往財務不穩定,受到銀行的歧視,這導致這種種族與拒絕貸款有很強的相關性。因此,該模型可以學習一個簡單的規則,即拒絕非裔美國申請人,而不考慮他們的其他因素,這與訓練數據基本一致。對于這個模型,如果我們有強調種族特征對模型預測的重要性的模型解釋,我們可以很容易地發現種族偏見。 再舉一個例子,假設我們想訓練一個神經網絡來從x射線圖像中檢測癌癥,其中的數據來自兩個來源:綜合醫院和專業癌癥中心。可以預料的是,來自癌癥中心的圖像包含更多的癌癥病例。然而,在渲染x射線圖像時,癌癥中心在左上角添加了一個小的時間戳水印。由于時間戳與癌癥存在強烈相關,模型可以學習使用它進行預測。在這種情況下,雖然該模型可以通過識別時間戳或癌癥的真實醫學信號來達到非常高的準確性,但前者的操作模式將錯過所有沒有時間戳水印的癌癥陽性圖像的檢測,例如來自不同醫院的圖像。因此,如果我們意識到水印確實很重要,那么我們應該丟棄模型,并重新開發數據收集和模型訓練流程。 除了這些假設的設置之外,對這些模型的普遍缺乏了解也導致了許多引人注目的失敗。例如,谷歌照片中的圖像識別系統將深色皮膚的人標記為大猩猩,微軟的對話機器人Tay在某些提示下生成仇恨言論。因為我們對模型的行為沒有很好的理解,所以很難預測什么圖像或什么提示會導致這樣的惡劣行為,并主動阻止它們發生。這種擔憂導致了值得信任的機器學習領域的發展,廣泛地旨在使機器學習系統在部署后可靠和可靠。它包含許多子領域,被廣泛研究的子領域包括可解釋性、透明性、公平性、魯棒性和隱私性。本文側重于前兩個,試圖通過生成對其預測的解釋或研究其各種行為(例如,高置信度失敗)來更好地理解黑盒模型。本文將重點放在這兩個主題上,因為它們是實現公平、魯棒性和隱私的“手段”。
下面,我們對第2章到第7章進行概述,這構成了本文的技術內容。第八章重申了本文的主要觀點,并指出了今后的研究方向。
標準的模型理解方法從流程的第二階段開始,在這個階段我們已經確定了一些要研究的輸入實例。從這里開始,生成局部解釋來說明模型對這些輸入的推理過程。在本論文中,“模型推理”主要指的是每個特征的重要性。接下來,這些局部解釋被人類解釋消費者總結為更全局和普遍的模型理解,以便在后續決策中作出相應調整(例如,由于種族歧視而放棄模型)。在簡要概述模型可解釋性研究的現狀之后,我們將在第2章中關注生成和評估局部解釋的方法。在第3章中,我們提出了一種生成解釋的新范式,并討論了它的影響。然后,在第4章和第5章中,我們介紹了模型解釋的兩個關鍵屬性,即正確性和可理解性,并提出了評估這些屬性的方法,并討論了這些發現對未來模型解釋研究的影響。最后,本論文還倡導在模型理解流程的更早階段開始。我們不應從任意或隨機的輸入實例開始,而應明確考慮每個模型行為,如矛盾預測或高置信度錯誤,并將它們用于指導解釋輸入的選擇。具體而言,第6章和第7章介紹了Bayes-TrEx和RoCUS框架,以找到符合某種目標模型行為的輸入實例。從某種意義上說,這兩個框架回答了“解釋什么”的問題。
近年來,機器人領域發展迅速,機器人被用于越來越多的應用中,從制造業到醫療健康再到家務勞動。機器人技術的關鍵挑戰之一是使機器人能夠在非結構化和動態環境中執行復雜的操作任務。雖然機器人學習和控制已經取得了重大進展,但許多現有方法受到限制,因為它們依賴于預定義的運動基元或通用模型,而這些模型沒有考慮到個人用戶、其他合作智能體或交互對象的特定特征。為了在這些不同的環境中有效地工作,機器人需要能夠適應不同的任務和環境,并與不同類型的智能體進行交互,如人類和其他機器人。本論文研究學習方法,使機器人能夠適應他們的行為,以實現智能機器人行為。
在本文的第一部分中,我們專注于使機器人更好地適應人類。我們首先探索如何利用不同的數據源為人類用戶實現個性化。研究了人類如何喜歡用低維控制器(如操縱桿)遙控輔助機器人手臂。本文提出一種算法,可以有效地開發輔助機器人的個性化控制。這里的數據是通過最初演示機器人的行為,然后詢問用戶以從操縱桿收集他們相應的首選遙操作控制輸入來獲得的。探索了利用較弱的信號來推斷智能體的信息,如物理修正。實驗結果表明,人工修正是相互關聯的,共同推理這些修正可以提高精度。最后,研究了機器人如何通過推理和利用團隊結構更有效地與人類團隊合作和影響人類團隊,而不是只適應單個人類用戶。將該框架應用于兩種類型的群體動力學,即領導-跟隨和捕食者-被捕食者,并證明機器人可以首先開發一種群體表示,并利用這種表示成功地影響一個群體以實現各種目標。
在本文的第二部分,我們將研究范圍從人類用戶擴展到機器人智能體。本文解決了分散的機器人團隊如何通過只觀察其他智能體的行動來相互適應的問題。本文發現了團隊中存在無限推理循環的問題,并通過為機器人智能體分配不同的角色,如"發言人"和"聽眾",提出了解決方案。這種方法使我們能夠將觀察到的行動視為一個溝通渠道,從而實現分散團隊內的有效協作。在本文的第三部分,我們探討了如何通過開發定制的工具來適應不同的任務。強調了工具在確定機器人如何與物體交互方面的關鍵作用,使它們在為特定任務定制機器人方面變得重要。為解決這個問題,本文提出一個端到端的框架,通過利用可微物理模擬器來自動學習富接觸操作任務的工具形態學。最后,對全文進行了總結,并對未來的研究方向進行了展望。
當在非結構化和半結構化環境(如倉庫、住宅和零售中心)中操作時,機器人經常需要從雜亂的箱子、貨架或桌子中交互式地搜索和檢索特定的對象,這些對象可能部分或完全隱藏在其他對象后面。我們將此任務定義為機械搜索,其目標是在盡可能少的操作中檢索到目標對象。在這些場景中,由于傳感器噪聲、遮擋和未知物體特性的存在,魯棒地感知和操作目標具有挑戰性。由于這些感知和操作挑戰,從數據中學習端到端的機械搜索策略變得非常困難。相反,我們將機械搜索策略分成三個模塊,一個感知模塊從輸入觀察中創建一個中間表示,一組低級操作原語,以及一個高級操作選擇策略,該策略根據感知模塊的輸出迭代選擇要執行的低級原語。我們探索了在操作原語方面取得的進展,如推和抓取,帶有未知對象的場景分割和占用分布預測,以推斷目標對象的可能位置。此外,我們證明了使用模擬的深度圖像或點云可以為感知網絡快速生成大規模的訓練數據集,同時允許它們泛化到真實世界的對象和場景。結果表明,在模擬和物理實驗中,與基準策略相比,集成這些組件可以產生一個高效的機械搜索策略,提高15%的成功率,并減少提取目標對象所需的操作次數。
傳統神經網絡具有過度依賴硬件資源和對應用設備性能要求較高的缺點,因此無法部署于算力有限的邊緣設備和移動終端上,人工智能技術的應用發展在一定程度上受到了限制。然而,隨著科技時代的到來,受用戶需求影響的人工智能迫切需要在便攜式設備上能成功進行如計算機視覺應用等方面的操作。為此,本文以近幾年流行的輕量化神經網絡中的卷積部分為研究對象,詳細比對了各類輕量化模型中卷積構成方式的不同,并針對卷積設計的主要思路和特點進行了較為詳細的闡述。首先,通過引入輕量化神經網絡的概念,介紹了輕量化神經網絡的發展現狀和網絡中卷積方面所面臨的問題;然后,將卷積分為卷積結構輕量化、卷積模塊輕量化和卷積運算輕量化三個方面進行介紹,具體通過對各類輕量化神經網絡模型中卷積設計的研究,來展示不同卷積的輕量化效果并對其中優化方法的優缺點進行闡述;最后,對文中所有輕量化模型卷積設計的主要思路和使用方式進行了總結分析,并對其未來的可能性發展進行了展望。