完全自動駕駛汽車有潛力大幅減少車輛事故,并革命性地改變人們的出行方式及我們的貨物運輸方式。自動駕駛系統面臨的許多主要挑戰來源于眾多需要與其他智能體復雜互動的交通情況。在可預見的未來,自動駕駛汽車將不得不與人類駕駛者和行人共享道路,因此不能依賴中央化的通信來應對這些互動場景。因此,自動駕駛系統需要能夠與表現出不確定行為的未知智能體進行協商和響應。為了解決這些問題,大多數商業自動駕駛堆棧采用模塊化方法,將感知、智能體預測和規劃分為獨立開發的模塊。然而,完全分離預測和規劃使得難以推理其他車輛對于控制自我車輛規劃軌跡的響應。因此,為了維持安全,許多模塊化方法在與其他智能體互動時不得不過于保守。理想情況下,我們希望自動駕駛汽車以自然而自信的方式行駛,同時仍然保持安全。
因此,在本論文中,我們將探索如何在自動駕駛中的高度互動和隨機多智能體場景下,使用深度學習和離線強化學習來執行聯合預測和規劃。首先,我們討論了在離線強化學習(RL)框架中使用深度學習進行聯合預測和閉環規劃的工作。其次,我們討論了直接解決在隨機多模態設置中使用學習模型進行規劃的困難的工作。第三,我們討論了如何通過使用基于變換器的交通預測模型作為我們的世界模型,來擴展到更復雜的多智能體駕駛場景,如在密集交通中合并。最后,我們討論了如何借鑒離線模型為基礎的RL,學習一個高層策略,選擇一套離線預訓練的駕駛技能進行有效控制,而無需額外的在線規劃。
想象這樣一個情景:一輛車在足球比賽后離開擁擠的停車場。大多數司機知道,在車輛挨著車輛的交通中,他們應該通過謹慎地主張自己的空間并推動前進來積極地行動。雖然這對于人類駕駛者來說是直覺的,但這些高度互動密集的場景對當前的自動駕駛汽車來說是一個主要挑戰。在這些情況下,我們需要一個健壯的模型來預測其他智能體可能的行為,以及關鍵地,他們可能如何動態地響應我們自己的行動。
然而,許多自動駕駛系統將周圍智能體的預測和自我車輛的運動規劃分為兩個獨立的過程。這種模塊分離限制了自我車輛預測其他智能體對其行動的反應的潛力,以及它如何能夠動態適應周圍交通的不同行為。因此,這些傳統的分離預測和規劃的方法在互動場景中容易導致次優的計劃,例如在停車場出口或高速公路合并時,如果不考慮這些動態的相互作用的話。為了避免這些問題并統一預測與規劃,自動駕駛汽車需要預測周圍智能體將如何與自我車輛的潛在行動互動,并相應地以閉環方式調整自我車輛的計劃。由于行人和交通的復雜多模態隨機性,進行這些互動預測特別具有挑戰性。其他智能體的軌跡往往強烈依賴于自我車輛直接無法獲取的信息,如他們的預定目標或駕駛風格。根據給定的交通情況,相同的自我車輛軌跡可能會從周圍的智能體那里得到截然不同的響應。例如,在合流到高速公路時,目標車道的車輛可能會為自我車輛讓路、加速以為自我車輛騰出空間,或者無視自我車輛,這取決于它們的駕駛風格和自我車輛的行動。在這篇論文中,我們研究如何使用深度學習模型來解決這些問題,并在這些復雜的隨機環境中進行聯合預測和規劃。
我們目前正經歷著一場人工智能(AI)革命。生成式AI和特別是大型語言模型(LLMs)的顯著改進正在推動這場革命。然而,這些大規模AI系統雖然強大,但更難理解。一旦訓練完畢,它們的內部工作機制仍然是一個既迷人又可能令人恐懼的謎團。問題在于,作為這些系統的創造者,我們如何理解和控制它們,以及是什么驅動它們的行為。 在本論文中,我將嘗試通過機械解釋性(MI)的工具來理解深度神經網絡的某些特性。這些工具讓人聯想到神經科學家的工具:1)分析腦細胞的連接性(連接組學) 2)測量和分析神經元活動 3)測量在進行中的計算中的主動干預的效果。盡管對大型深度學習模型的嚴格理解尚不可及,但在本論文中,我將提供通過迭代解釋性實現這一目標的可能路徑的證據:一個設計、訓練和分析AI系統的迭代過程,其中通過MI獲得的洞察力導致更強大和更可解釋的模型。 首先,我提供了證據,證明在單獨研究時,可以理解Transformer(用于LLMs的人工神經網絡架構)令人著迷的上下文學習特性。作為第一步,我們分析了在少量回歸數據上訓練的小型Transformer模型的權重。通過使用MI的工具,我們可以逆向工程這些訓練好的Transformer,這些Transformer配備了線性自注意力層,并展示了它們在前向動態中基于梯度下降和上下文數據隱含地學習內部模型。 其次,我將解決這一簡單設置中的一個重要缺陷,并通過訓練自回歸Transformer更接近LLMs。在這里,我們訓練模型來預測由線性動態獲得的元素序列中的下一個元素。同樣,借助神經科學家的工具,我們可以逆向工程這些自回歸模型,并確定模型內部 i)構建優化問題 和 ii)通過基于梯度下降的算法解決這些問題。隱藏在模型權重中的這個算法允許我們在訓練后將模型重新用作上下文學習者。基于這些洞察,我們然后閉合了解釋性循環,并提出了一種新的自注意力層,該層可以在設計時在單個層內解決已識別的優化問題。在提供更好解釋性的同時,我們在簡單實驗和語言建模中展示了性能的改進。 第三,我將展示在元學習和持續學習背景下的另一個迭代解釋性的例子,我們在其中改進了著名的與模型無關的元學習(MAML)的性能和解釋性。MAML的目標是學習一種網絡初始化,使網絡能夠快速適應新任務。基于通過機械解釋性獲得的先前洞察,我們提出了稀疏MAML,這是一種MAML變體,此外還決定主動停止學習某些權重:它學會了在哪里學習。盡管在常見的少樣本分類和持續學習基準中表現出性能改進,稀疏MAML提供了一個成功解釋性循環的另一個例子,因為所學習的解決方案在設計上允許更好的解釋性。
在過去的十年中,深度學習展現出了顯著的能力,表現出對大規模數據的強烈依賴。在這一時期,我們見證了大型語言模型、擴散模型和分割模型的規模化法則生效,通過利用大規模真實世界數據集實現了接近人類水平的性能。然而,當涉及到具身AI時,由于機器人的脆弱性和有限的速度,生成真實世界數據變得具有挑戰性和成本高昂。與此相反,合成數據和模擬環境提供了一種高效且經濟的方法來訓練機器人代理和生成精確的監督。因此,合成數據作為可擴展和高質量訓練具身AI代理的數據的有希望的解決方案而出現。鑒于使代理能夠泛化到真實世界場景的最終目標,圍繞合成數據的主要挑戰在于通過縮小模擬與現實差距(Sim2Real差距)來準確捕捉真實世界分布。解決這一挑戰涉及兩個關鍵方面:生成合成數據和有效地利用它。在這篇論文中,我展示了對這兩個方面的貢獻的兩項工作。
第一項工作著眼于合成數據的生成。我介紹了兩種旨在生成與真實世界分布一致的合成數據的方法。首先,我提出了iGibson,一個模擬環境,用于在大規模真實場景中開發機器人的交互式解決方案。iGibson構建了3D掃描真實世界家庭的交互式復制場景,使對象、布局和可交互性的分布與真實世界一致。為了進一步促進更健壯的具身代理的訓練,iGibson提供了針對材料(視覺外觀和動態特性)和對象形狀的領域隨機化程序,同時尊重對象放置的分布并保持可交互性。其次,我提出了GINA-3D,一個使用來自攝像機和LiDAR傳感器的真實世界駕駛數據的生成模型,創建多樣化車輛和行人的逼真的3D隱式神經資產。與iGibson不同,后者涉及在建立模擬環境時顯著的人力努力,GINA-3D利用了直接學習生成與真實世界觀察匹配的合成資產的生成模型。我展示了證據,表明GINA-3D在生成的視覺和幾何質量方面實現了最先進的性能和多樣性。
第二項工作專注于有效地利用合成數據。通過設計健壯的學習算法和模型,我們可以創建更好地泛化到真實世界場景的模型。首先,我介紹了Taskonomy,它利用合成數據構建了任務空間的計算分類法和地圖。通過利用任務關系,我展示了證據,表明我們可以使用比完全監督方法少至少一個數量級的數據,且模型可以很好地泛化到真實世界數據集。然后,我介紹了情境融合,它訓練代理融合一大組對應于多樣化視覺感知能力的視覺表征。這種方法在新環境中的性能顯著提高,超過了真實世界預訓練的基線和其他融合方法。最后,我介紹了ACID,用于變形物體操縱的動作條件隱式視覺動態。通過利用大規模合成數據和獨特的幾何和動力學監督,我可以將模擬訓練的ACID模型直接應用于真實世界物體,并在將它們操縱成目標配置方面取得成功。
總結來說,這篇論文研究了合成數據和模擬環境如何為具身AI提供有希望的解決方案。所展示工作的核心在于合成數據的精心生成和有效利用。通過模擬環境、生成模型、任務遷移學習、視覺運動策略訓練和視覺動力學建模等策略,我們可以縮小模擬訓練與真實世界應用之間的差距,為更有能力和多功能的具身AI代理鋪平道路。
隨著社會技術化程度的不斷提升,我們使用機器執行越來越復雜的任務,這些任務范圍從駕駛輔助、視頻會議到探索行星。場景表示,即如何將感官數據轉換為環境的緊湊描述,是使這些系統成功并確保安全的基本屬性。一個有前景的方法是開發基于學習的系統,這些系統能夠根據觀察自我調整。
事實上,近年來深度學習已經徹底改變了計算機視覺領域。特別是更好的模型架構、大量的訓練數據以及更強大的計算設備使得深度學習系統具有前所未有的性能,并且它們現在在許多基準測試中設定了最新技術水平,這些測試范圍從圖像分類、物體檢測到語義分割。盡管這些成功,這些系統的運作方式仍然與人類認知有本質上的不同。特別是,大多數方法在2D領域操作,而人類理解圖像是三維世界的投影。此外,它們通常不遵循場景的組合理解,這對人類推理來說是基本的。在這篇論文中,我們的目標是開發場景表示,使自主代理能夠在復雜環境中穩定、安全地導航和行動,同時在3D中進行組合推理。為此,我們首先提出了一種用于基于深度學習的三維重建和生成建模的新型輸出表示。
我們發現,與以前的表示方法相比,我們基于神經場的方法不需要對3D空間進行離散化,就可以以恒定的內存占用實現任意分辨率的重建。接下來,我們開發了一種可微渲染技術,用于從2D觀察中推斷出這些基于神經場的3D形狀和紋理表示,并發現這使我們能夠擴展到更復雜、現實世界的場景。隨后,我們將我們的新型3D形狀表示與空間和時間上連續的矢量場相結合,以模擬運動中的非剛性形狀。我們觀察到,我們的新型4D表示可用于各種判別和生成任務,范圍從4D重建到4D插值,再到運動轉移。最后,我們開發了一種以對象為中心的生成模型,該模型可以以組合方式生成3D場景,并且允許對生成的場景進行逼真的渲染。我們發現,我們的模型不僅提高了圖像保真度,而且相比之前的工作,在僅從原始、未擺放的圖像集合中訓練的情況下,實現了更可控的場景生成和圖像合成。
自動駕駛領域近來見證了采用端到端算法框架方法的迅猛增長,這些方法利用原始傳感器輸入生成車輛運動規劃,而不是專注于諸如檢測和運動預測等單個任務。與模塊化流程相比,端到端系統從感知和規劃的聯合特征優化中受益。由于大規模數據集的可用性、閉環評估,以及自動駕駛算法在具有挑戰性的場景中有效執行的日益增長的需求,這一領域已經蓬勃發展。在本綜述中,我們提供了對250多篇論文的全面分析,涵蓋了端到端自動駕駛的動機、路線圖、方法、挑戰和未來趨勢。我們深入探討了幾個關鍵挑戰,包括多模態、可解釋性、因果混淆、健壯性和世界模型等。此外,我們還討論了基礎模型和視覺預訓練的當前進展,以及如何在端到端駕駛框架內整合這些技術。為了促進未來的研究,我們維護一個活躍的知識庫,其中包含與相關文獻和開源項目的最新鏈接,地址為 //github.com/OpenDriveLab/End-to-end-Autonomous-Driving。
1. 引言
傳統的自動駕駛系統采用模塊化部署策略,其中每個功能,如感知、預測和規劃,都是單獨開發并集成到車載系統中的。規劃或控制模塊負責生成轉向和加速輸出,在決定駕駛體驗方面起著至關重要的作用。在模塊化流程中,規劃的最常見方法是使用復雜的基于規則的設計,但這在應對駕駛過程中出現的大量情況時往往效果不佳。因此,利用大規模數據并使用基于學習的規劃作為一種可行的替代方案的趨勢正在增長。我們將端到端自動駕駛系統定義為完全可微的程序,它以原始傳感器數據為輸入,并生成規劃和/或低級控制動作作為輸出。圖1 (a)-(b) 說明了經典方法和端到端方法之間的區別。在傳統方法中,每個組件的輸出(如邊界框和車輛軌跡)直接饋送到后續單元(虛線箭頭)。相比之下,端到端范式跨組件傳播特征表示(灰色實線箭頭)。優化函數被設置為,例如,規劃性能,并通過反向傳播(紅箭頭)最小化損失。在此過程中,任務是聯合和全局優化的。
在這份綜述中,我們對這一新興主題進行了廣泛的回顧。圖1提供了我們工作的概述。我們首先討論端到端自動駕駛系統的動機和路線圖。端到端的方法可以大致分為模仿學習和強化學習,我們對這些方法進行了簡要回顧。我們介紹了用于閉環和開環評估的數據集和基準。我們總結了一系列關鍵挑戰,包括可解釋性、泛化、世界模型、因果混淆等。最后,我們討論了我們認為社區應該采納的未來趨勢,以整合來自數據引擎、大型基礎模型和車輛到一切等方面的最新發展。
1.1 端到端系統的動機
在經典的流程中,每個模型作為一個獨立的組件并對應于一個特定的任務(例如,交通燈檢測)。這樣的設計在可解釋性、可驗證性和調試的便捷性方面是有益的。然而,由于模塊間的優化目標不同,感知中的檢測追求平均精度(mAP),而規劃則以駕駛安全和舒適性為目標,整個系統可能無法與統一的目標保持一致,即最終的規劃/控制任務。隨著順序過程的進行,每個模塊的錯誤可能會累積并導致駕駛系統的信息損失。此外,多任務、多模型部署可能會增加計算負擔,并可能導致計算資源的使用不夠理想。與其經典的對應物相比,端到端的自動系統提供了幾個優點。(a) 最明顯的優點是它通過將感知、預測和規劃合并到一個可以聯合訓練的單一模型中,以其簡單性為特點。(b) 整個系統,包括其中間表示,都是針對最終任務進行優化的。(c) 共享基礎架構增加了計算效率。(d) 數據驅動的優化具有提供潛在能力的可能性,僅通過擴展訓練資源就能提高系統性能。請注意,端到端的范式不一定意味著一個只有規劃/控制輸出的黑箱。它可以像經典方法一樣具有模塊化設計,并具有中間表示和輸出(圖1(b))。實際上,一些最先進的系統[1, 2] 提出了模塊化設計,但將所有組件一起優化以實現卓越性能。
1.2 路線圖
圖2描繪了端到端自動駕駛中關鍵成就的時間順序路線圖,每個部分表示一個重大的范式轉變或性能提升。端到端自動駕駛的歷史可以追溯到1988年的ALVINN[3],其中輸入是來自攝像頭和激光測距儀的兩個“視網膜”,一個簡單的神經網絡生成轉向輸出。Bojarski等人[8]設計了一個原型端到端CNN系統,用于模擬和道路測試,這在GPU計算的新時代重新確立了這個想法。隨著深度神經網絡的發展,在模仿學習[15, 16]和強化學習[4, 17, 18, 19]方面取得了顯著進步。LBC[5]中提出的策略提煉范式以及相關方法[20, 21, 22, 23]通過模仿行為良好的專家的策略顯著提高了閉環性能。為了增強由于專家和學習策略之間的差異而產生的泛化能力,一些論文[10, 24, 25]提出在訓練期間聚合按策略數據[26]。
2021年對于端到端自動駕駛來說是一個重大的轉折點。由于在一個合理的計算預算內,有各種傳感器配置可用,人們開始關注將更多的模態和高級架構(如Transformers [27])整合進來,以捕捉全局上下文和代表性特征,正如TransFuser[6, 28]和許多變體[29, 30, 31]中所做的那樣。結合對模擬環境的更多洞察,這些先進的設計在閉環CARLA基準[13]上產生了顯著的性能提升。為了提高自動系統的可解釋性和安全性,像NEAT[11]、NMP[32]和BDD-X[33]這樣的方法顯式地整合各種輔助模塊以更好地監督學習過程或利用注意力可視化。最近的工作優先生成關鍵安全數據[7, 34, 35],預訓練一個(大型)為策略學習量身定制的基礎模型或基礎架構[12, 36, 37],并倡導一種模塊化端到端規劃哲學[1, 2, 38, 39]。同時,新的并且具有挑戰性的CARLA v2[13]和nuPlan[14]基準已經被引入以促進這一領域的研究。
1.3 貢獻
總結一下,本調查有三個關鍵貢獻:(a) 我們首次提供了對端到端自動駕駛的全面分析,包括高層次的動機、方法、基準等。我們提倡的哲學不是優化單個模塊,而是將算法框架作為一個整體來設計,其最終目標是實現安全舒適的駕駛。(b) 我們廣泛研究了當前方法面臨的關鍵挑戰。在調查的250多篇論文中,我們總結了主要方面,并提供了深入的分析,包括關于泛化能力、語言引導學習、因果混淆等話題。(c) 我們探討了如何采納大型基礎模型和數據引擎的更廣泛影響。我們相信,這一研究方向及其提供的大規模高質量數據可能會顯著推動這個領域的進步。為了方便未來的研究,我們維護一個活躍的知識庫,不斷更新新的文獻和開源項目。
2 方法
本節回顧了大多數現有端到端自駕車方法背后的基本原理。第2.1節討論使用模仿學習的方法,并詳細介紹兩個最流行的子類別,即行為克隆和逆向最優控制。第2.2節總結了遵循強化學習范式的方法。
3 基準測試
自動駕駛系統需要對其可靠性進行全面評估以確保安全性 [86, 87]。為了實現這一目標,研究人員必須使用適當的數據集、模擬器和指標對這些系統進行基準測試。本節描述了端到端自動駕駛系統大規模基準測試的兩種方法:(1) 在模擬環境中進行在線或閉環評估,以及 (2) 在人類駕駛數據集上進行離線或開環評估。我們特別關注更有原則的在線設置,并為了完整性提供了離線評估的簡要總結。
4 挑戰
對于圖1中描繪的每個主題/問題,我們現在討論相關的工作、當前的挑戰,以及有前景的未來趨勢和機會。我們從4.1節開始討論處理不同輸入模態和表達式的相關挑戰,然后在4.2節討論視覺抽象以提高策略學習的效率。接著,我們介紹學習范式,如世界模型學習(4.3節)、多任務框架(4.4節)和策略蒸餾(4.5節)。最后,我們討論阻礙端到端自動駕駛系統安全可靠的一般問題,包括4.6節的可解釋性,4.7節的因果混淆,以及4.8節的魯棒性和泛化能力。
5 結論
在這份綜述中,我們概述了基本方法并總結了模擬和基準測試的各個方面。我們徹底分析了迄今為止的廣泛文獻,并強調了一系列關鍵挑戰和有前途的解決方案。我們在最后討論了未來擁抱迅速發展的基礎模型和數據引擎的努力。端到端自動駕駛面臨著巨大的機遇和挑戰,其最終目標是構建通用智能體。在這個新興技術不斷涌現的時代,我們希望這份調查能作為一個起點,為這個領域帶來新的啟示。
數十年來,機器人在我們的日常生活中扮演了重要而隱秘的角色。我們每天依賴的許多產品,如汽車和藥品,都是通過機器人自動化生產的。這些系統將以更直接的方式進入我們的日常生活,他們的影響力不可避免地會減小。特別是腿部機器人,近期的進步終于使這些系統商業上可行,并將很快看到它們在物流、景觀工作和在建筑工地上協助工人的角色。然而,隨著它們的持續改進,操作它們的軟件和算法將需要能夠執行目前無法實現的更抽象的任務。毫無疑問,實現這一目標的方式之一將涉及利用機器學習技術的并發進步。
//www.research-collection.ethz.ch/handle/20.500.11850/614549
這篇博士論文正朝著這個目標努力,旨在幫助彌合現代機器人技術和機器學習技術之間的鴻溝。這項研究解決了實現更強大機器人系統所必需的兩個方面,即軟件和算法,并專注于深度強化學習(DRL)技術在解決腿部機器人,特別是四足機器人系統的運動控制問題的應用。為了統一上述領域,我們需要軟件系統能夠利用在Python中實現的DRL算法,并讓需要C++接口的研究人員和開發人員可以使用。因此,這項工作通過引入一個多功能的軟件工具箱,為機器人應用使用DRL算法做出了貢獻。它利用了最先進的機器學習平臺TensorFlow的Python API,用于構建包含神經網絡模型、梯度計算和隨機梯度下降優化器等組件的計算圖。這些圖可以在C++運行時環境中使用,以執行如訓練和部署等圖操作。此外,該工具箱在上述核心元素的基礎上,提供了對DRL的有用抽象,實現了幾種最先進的算法以及其他有用的實用工具。有了這個工具箱,我們提供了一個端到端的解決方案,用于設計、建模、訓練和部署神經網絡策略,這種策略專門為四足機器人ANYmal設計和測試。此外,復雜地形的行動對于有腿的機器人來說構成了重大挑戰。為了讓像ANYmal這樣的系統能夠在這樣的環境中自主運行,它們必須擁有謹慎規劃適合地形的立足點的方法,同時執行保證穩定性的運動。為了解決這個問題,本博士論文通過提出一種解決四足系統穿越非結構化地形的立足點選擇和步態生成問題的新方法,對算法的第二個方面做出了貢獻。這項工作主要圍繞一個框架進行,該框架用于制定馬爾科夫決策過程(MDPs),采用最新的基于模型的軌跡優化技術來評估動態可行性,取代了物理模擬。當與最先進的DRL算法一起使用時,這些MDPs會生成能夠在具有挑戰性的3D環境中規劃基礎姿勢、立足點位置和步態參數序列的地形感知神經網絡策略。這些所謂的步態規劃(GP)網絡,在與其他針對運動規劃和控制問題的最先進方法結合時,會產生有效的行動。這種方法已經在模擬中以及在ANYmal的物理平臺上得到了實驗驗證。
氣候變化是我們這個時代最緊迫的問題之一,需要社會各個領域迅速動員許多工具和方法。機器學習被提議為其中一種工具,有可能補充和加強現有的氣候變化工作。在這篇論文中,我們提供了幾個方向,用于原則性地設計和使用基于機器學習的方法(特別側重于深度學習)來解決電力領域的與氣候相關的問題。在論文的第一部分,我們提出了統計和優化的方法來估計電網上的關鍵量。具體來說,我們使用基于回歸的工具來評估用于評估電力系統干預的與氣候和健康相關的排放因素。我們還提出了一種基于矩陣補全的方法來估計電力分配系統上的電壓,以實現分布式太陽能的集成。
受到這項工作的啟發,論文的第二部分,我們關注的是設計深度學習方法,這些方法明確捕捉了與應用場景相關的物理學、硬性約束和領域知識。特別是,我們利用深度學習中的隱含層工具來設計預測方法,這些方法對模型輸出將用于的下游(隨機)決策過程有認知。我們還設計了快速、保持可行性的神經近似器,用于具有硬性約束的優化問題,以及證明了能強制執行與部署系統相關的穩定性標準或操作約束的基于深度學習的控制器。這些方法直接適用于電力系統的問題,同時也更廣泛地適用于其他物理和安全關鍵領域。雖然第二部分展示了電力系統如何為深度學習研究提供有成效的方向,但在這篇論文的最后一部分,我們反過來展示了深度學習的洞察如何為電力系統的研究提供有成效的方向。具體來說,我們展示了受隱含層文獻啟發的方法如何被用于評估電網上的與政策相關的逆向問題。我們進一步展示了如何結合隱含層和對抗魯棒深度學習的洞察,使我們能夠為電力系統的兩個核心問題——N-k安全約束最優功率流和隨機最優功率流——提供可擴展的啟發式解決方案,這兩個問題由于其計算難度,很少在實際規模上進行研究。
總的來說,這篇論文展示了如何通過深度學習和電力系統的洞察進行橋接,可以顯著推進這兩個領域的方法,除此之外,還能解決與氣候行動相關的高影響力問題。
近年來,機器人領域發展迅速,機器人被用于越來越多的應用中,從制造業到醫療健康再到家務勞動。機器人技術的關鍵挑戰之一是使機器人能夠在非結構化和動態環境中執行復雜的操作任務。雖然機器人學習和控制已經取得了重大進展,但許多現有方法受到限制,因為它們依賴于預定義的運動基元或通用模型,而這些模型沒有考慮到個人用戶、其他合作智能體或交互對象的特定特征。為了在這些不同的環境中有效地工作,機器人需要能夠適應不同的任務和環境,并與不同類型的智能體進行交互,如人類和其他機器人。本論文研究學習方法,使機器人能夠適應他們的行為,以實現智能機器人行為。
在本文的第一部分中,我們專注于使機器人更好地適應人類。我們首先探索如何利用不同的數據源為人類用戶實現個性化。研究了人類如何喜歡用低維控制器(如操縱桿)遙控輔助機器人手臂。本文提出一種算法,可以有效地開發輔助機器人的個性化控制。這里的數據是通過最初演示機器人的行為,然后詢問用戶以從操縱桿收集他們相應的首選遙操作控制輸入來獲得的。探索了利用較弱的信號來推斷智能體的信息,如物理修正。實驗結果表明,人工修正是相互關聯的,共同推理這些修正可以提高精度。最后,研究了機器人如何通過推理和利用團隊結構更有效地與人類團隊合作和影響人類團隊,而不是只適應單個人類用戶。將該框架應用于兩種類型的群體動力學,即領導-跟隨和捕食者-被捕食者,并證明機器人可以首先開發一種群體表示,并利用這種表示成功地影響一個群體以實現各種目標。
在本文的第二部分,我們將研究范圍從人類用戶擴展到機器人智能體。本文解決了分散的機器人團隊如何通過只觀察其他智能體的行動來相互適應的問題。本文發現了團隊中存在無限推理循環的問題,并通過為機器人智能體分配不同的角色,如"發言人"和"聽眾",提出了解決方案。這種方法使我們能夠將觀察到的行動視為一個溝通渠道,從而實現分散團隊內的有效協作。在本文的第三部分,我們探討了如何通過開發定制的工具來適應不同的任務。強調了工具在確定機器人如何與物體交互方面的關鍵作用,使它們在為特定任務定制機器人方面變得重要。為解決這個問題,本文提出一個端到端的框架,通過利用可微物理模擬器來自動學習富接觸操作任務的工具形態學。最后,對全文進行了總結,并對未來的研究方向進行了展望。
深度學習方法在解決計算機視覺任務方面取得了巨大的成功,在人工智能系統中被廣泛應用于圖像處理、分析和理解。然而,深度神經網絡(DNNs)已被證明易受輸入數據的對抗性擾動的影響。因此,深度神經網絡的安全問題浮出了水面。綜合研究深度視覺算法的對抗魯棒性是十分必要的。本文主要研究深度分類模型和深度圖像去噪的魯棒性。 對于圖像去噪,我們系統地研究了深度圖像去噪器的魯棒性。具體而言,我們提出了一種新的攻擊方法,基于觀測的零均值攻擊(ObsAtk),考慮了自然噪聲的零均值假設,對有噪聲的輸入圖像產生對抗性擾動。我們開發了一種有效的、理論基礎的基于PGD的優化技術來實現ObsAtk。針對ObsAtk,我們提出了混合對抗訓練(HAT)來增強深度圖像去噪器的魯棒性。大量的實驗證明了HAT的有效性。此外,我們探討了降噪器的對抗性魯棒性和對真實世界中不可見的噪聲類型的適應性之間的聯系。我們發現,只有合成噪聲數據經過HAT訓練的深度降噪器可以很好地推廣到不可見的噪聲類型。噪聲去除能力甚至可以與訓練與真實世界的噪聲降噪器相媲美。對于圖像分類,我們探索了除了傳統卷積神經網絡(CNNs)之外的新的魯棒架構。首先,研究了神經常微分方程的魯棒性。我們通過經驗證明,與基于CNN的分類器相比,基于節點的分類器對輸入擾動表現出更好的魯棒性。為了進一步增強基于節點的模型的魯棒性,我們將時不變屬性引入到節點中,并施加一個穩態約束來規范受擾動數據上的ODE流。我們證明了合成模型,稱為時不變穩定神經ODE (TisODE),比vanilla 節點更魯棒。 其次,從通道激活的角度研究了vanilla CNN的魯棒性,并提出了一種特征選擇機制來增強vanilla CNN的魯棒性。特別是,我們比較了正常訓練的分類器在處理自然數據和對抗數據時的通道激活。我們觀察到,對抗性數據通過過度激活負相關(NR)通道而缺乏激活正相關(PR)通道,誤導了深度分類器。我們還比較了正常訓練模型和對抗訓練模型的通道激活,觀察到對抗訓練通過促進未激活的PR通道和抑制過度激活的NR通道來增強模型的魯棒性。因此,我們假設,根據通道與真實類別的相關性,放大通道的激活可以提高魯棒性。為了驗證這一假設,我們開發了一種新的通道操作技術,即基于通道重要性的特征選擇(CIFS),該技術可以根據通道的相關性生成非負乘數來擴展通道的激活。大量的實驗結果驗證了該假設和改進后的CNN具有良好的魯棒性。綜上所述,本文系統研究了深度視覺算法的魯棒性,包括魯棒性評價(ObsAtk)、魯棒性改進(HAT、TisODE和CIFS)以及對抗魯棒性與新領域泛化能力之間的關系。
深度學習算法,比如那些用于圖像識別的算法,在自動化醫療診斷和指導臨床決策方面大有前途。與此同時,醫學深度學習系統的開發和臨床轉化還面臨著一些重要的挑戰。首先,開發大型且注釋良好的數據集成本很高。其次,醫學圖像判讀有必要識別病灶的微妙關鍵特征,盡管在人群中生理外觀有很大差異。第三,由于域轉移問題,將深度學習算法的性能從一種設置轉移到另一種設置具有挑戰性。第四,深度學習系統的輸出需要是可解釋的,以便臨床醫生能夠理解系統。本文研究了如何應對這些挑戰,從小型數據集構建可泛化和可解釋的深度學習模型。本文研究了將從非醫療源ImageNet學習到的先驗知識遷移到醫療應用對模型性能的影響,特別是當數據集大小不夠時。與直接從ImageNet轉移學習不同,GrayNet被提議作為一個橋梁數據集,在從ImageNet學習到的通用圖像特征上創建一個預先訓練的豐富醫學圖像表示的模型。分析了GrayNet的優點,包括總體性能和跨不同成像掃描儀的泛化,并與使用小數據從頭開始訓練和從ImageNet轉移學習進行了比較。受放射科醫生如何解釋診斷圖像的啟發,還介紹了特定領域的技術,包括窗口設置優化和切片插值,并展示了進一步增強模型性能的方法。引入了一個新的可視化模塊,能夠在訓練過程中生成一個圖像圖譜,并將其顯示為測試過程中所做的模型預測的基礎,以證明模型預測的合理性,并使臨床醫生更容易理解它們。本論文通過三種不同的應用展示了深度學習在醫學圖像判讀方面的潛力,包括人工智能輔助骨齡評估,以提高人類的準確性和可變性,發現以前未識別的模式,在手部x光片中進行骨性別分類,以及處理原始計算機斷層掃描數據,而不需要圖像重建。本論文的貢獻有望促進各種醫療應用中可推廣和可解釋的深度學習算法的發展,從而加速人工智能系統進入臨床實踐。
在過去十年中,自動駕駛在研發方面取得了重大的里程碑。人們有興趣在道路上部署自行操作車輛,這預示著交通系統將更加安全和生態友好。隨著計算能力強大的人工智能(AI)技術的興起,自動駕駛車輛可以高精度地感知環境,做出安全的實時決策,在沒有人為干預的情況下運行更加可靠。
然而,在目前的技術水平下,自動駕駛汽車中的智能決策通常不為人類所理解,這種缺陷阻礙了這項技術被社會接受。因此,除了做出安全的實時決策外,自動駕駛汽車的AI系統還需要解釋這些決策是如何構建的,以便在多個政府管轄區內符合監管要求。
該研究為開發自動駕駛車輛的可解釋人工智能(XAI)方法提供了全面的信息。首先,全面概述了目前最先進的自動駕駛汽車行業在可解釋方面存在的差距。然后,展示該領域中可解釋和可解釋受眾的分類。第三,提出了一個端到端自動駕駛系統體系結構的框架,并論證了XAI在調試和調控此類系統中的作用。最后,作為未來的研究方向,提供自主駕駛XAI方法的實地指南,提高操作安全性和透明度,公開獲得監管機構、制造商和所有密切參與者的批準。