亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人類能夠通過規劃、推理和預測行動結果,執行具有長期目標的復雜任務。為了讓具身智能體(如機器人)實現類似的能力,它們必須獲得可以遷移到新情境中的環境知識,并在有限的試錯預算下學習。基于學習的方法,如深度強化學習,可以從數據中發現并利用應用領域的內在規律和特征,并不斷提高其性能,但這通常需要大量的訓練數據。本論文探討了用于空間推理與規劃任務的數據驅動技術的發展,重點在于提高學習效率、可解釋性以及在新場景中的可遷移性。

本論文的主要貢獻包括四個方面:

  1. CALVIN:一種微分規劃器,能夠學習可解釋的世界模型用于長期規劃。CALVIN成功地在部分可觀測的三維環境中(如迷宮和室內房間)導航,通過從專家示范中學習獎勵(目標和障礙)以及狀態轉換(機器人動力學)。

  2. SOAP:一種強化學習算法,用于無監督地發現長遠任務的宏動作(選項)。選項將任務劃分為子任務,并實現子任務的穩定執行。SOAP在基于歷史條件的走廊任務以及經典基準(如Atari游戲)中表現出穩健的性能。

  3. LangProp:一個使用大型語言模型(LLM)進行代碼優化的框架,通過將代碼視為可學習的策略,解決具身智能體問題。該框架在CARLA自動駕駛基準中成功生成了具有可解釋性的代碼,其性能與人類專家編寫的代碼相當甚至更優。

  4. Voggite:一種具有視覺到動作的Transformer后臺的具身智能體,它解決了Minecraft中的復雜任務。在MineRL BASALT競賽中,Voggite通過識別動作觸發點,將任務分割成多個階段,獲得了第三名。 這些進展為基于學習的方法在復雜的空間推理與規劃挑戰中的應用提供了新的途徑。關鍵詞:機器學習、神經網絡、深度強化學習、模仿學習、層次化強化學習、策略優化、機器人技術、自動駕駛、具身智能體、選項發現、技能學習、導航、規劃、計算機視覺、大型語言模型、多模態基礎模型。1.1 動機人類具有在新環境中進行規劃、推理和預測行動結果的能力,這是執行具有長期目標的復雜任務的顯著能力。無論我們遇到的是新游戲、新運動還是新地點,盡管我們從未有過類似的具體經歷,但我們仍然能夠通過從先前的經驗中推斷出策略,利用可遷移的知識和技能。通過現代規劃算法,如果環境動態(尤其是狀態轉換和獎勵動態)是完全已知的,狀態和動作是可枚舉的,并且計算資源是無限的,那么找到接近最優的規劃解決方案是可能的。然而,現實中這三個假設通常都不成立。智能體通常只能訪問環境的局部或部分觀測結果,必須根據這些結果來估計環境的狀態和動態。狀態和動作通常是連續的而非離散的,因此需要一個估計器將連續輸入映射為有意義的表示,能夠泛化到新輸入。最后,由于計算資源有限,狀態和動作的枚舉通常是不可行的,因此需要一種高效的策略,在有限的計算資源和智能體生命周期內探索狀態-動作空間。許多涉及戰略決策的現實問題要求智能體學習到可以應用于新場景的環境知識,并在有限的試錯預算下學習。設計一個能像人類一樣在開放領域中達到同樣水平的性能和效率的算法仍是一個未解的問題。例如,自動駕駛[251]仍然是一個正在進行的、未解決的研究領域,因為在多智能體問題環境中,動態環境的復雜性極高,同時存在信息不完美和傳感器輸入噪聲的挑戰。這與工業機器人形成鮮明對比,工業機器人已在可控、可預測且在很多情況下是完全已知的環境中有效運行了幾十年。加上任務的重復性,這使得人類可以硬編碼系統來處理常見的預期場景。馬爾可夫決策過程(MDP)和強化學習(RL)是強大的框架,它們將決策過程形式化為一個可以通過數學定義的目標進行學習的問題[213]。這些框架捕捉了與環境交互的序列性和時間演化特性。神經網絡的進展及其與RL的成功整合[138, 139, 201]改變了計算機視覺和機器人技術領域,催生了基于學習的方法來解決傳統上通過人類手工實現的專家系統解決的問題。基于學習的方法有兩個主要優勢。首先,隨著數據的增加,基于學習的算法可以不斷改進和適應應用領域,而手動實現的方法是固定的,無法適應變化。其次,基于學習的方法能夠自動發現應用領域的內在規律和特征,并利用它們來提高性能,而無需對這些策略進行硬編碼。雖然RL在解決復雜戰略問題方面非常有效[10, 12, 138, 202, 229],但樣本效率和可泛化性仍然是需要解決的挑戰。當前最先進的RL算法在已訓練的任務或可以通過反應策略解決的任務中表現出色,但并沒有顯式學習易于遷移的技能[145, 162, 163, 174, 198]。與可以輕松獲取樣本的游戲或模擬任務不同,在現實世界中收集樣本可能是昂貴的,甚至是不安全的。人類能夠通過學習可遷移的知識和技能來繞過這些問題,從而通過更少的試錯提高成功的幾率,并避免災難性失敗(如從懸崖上掉下或被車撞)。本研究旨在提出獲取技能的方法,使智能體能夠更有效、更高效地執行任務。


1.2 研究目標本研究致力于解決涉及空間推理、規劃和決策任務的挑戰,以數據驅動的方式,同時提高學習的效率、可解釋性和可遷移性。本研究目標可以進一步細分為五個具體的研究目標,詳細描述如下。1.2.1 學習一個具有可泛化性的規劃器本研究的核心目標之一是開發能夠泛化到新場景的可學習規劃器。反應性馬爾可夫策略與具備計劃的策略之間的區別在于,反應性策略根據當前狀態或局部觀測結果作出即時決策,而規劃則涉及對給定情境的長期分析,以提出空間和時間上一致的解決方案。兩種方法的區別類似于[106]中提出的系統1(快速、無意識、自動的決策)和系統2(緩慢、有意識、嚴格的決策)思維。兩種決策過程都很重要,因為反應性策略對于實時決策非常有用,而規劃對于確保所作決策的一致性和連貫性非常重要。例如,基于蒙特卡羅樹搜索(MCTS)的算法[201, 202]在學習反應策略和長期規劃之間交替進行;通過模擬蒙特卡羅樹的回合[40]并反向傳播返回值估計,反應性策略根據回合結果進行更新。盡管像圍棋和模擬環境的動態是已知的,但對于許多現實世界問題卻并非如此。基于模型的RL方法[75, 79, 190]通過學習環境模型來進行模擬回合,解決了這個問題。第3章探討了相關的替代途徑,學習一個可微分規劃器,以解決在新環境中無法通過反應策略有效解決的導航任務。第5章提出了一種新的學習算法決策的范式,通過將代碼視為可學習的策略,利用大型語言模型(LLMs)從數據中進行學習。通過使算法可學習,RL智能體之前難以掌握的高級和長期計劃現在可以通過模仿學習(IL)和RL技術學習。此外,第4章和第6章展示了如何使用選項[166, 214]的時間抽象來幫助智能體做出明智的長期決策,這將在1.2.2節和1.2.3節中討論。


1.2.2 發現可重復使用的技能技能學習是高效探索、決策和任務解決的另一個重要組成部分。通過技能,可以構思一個高層次的計劃,將低層次的技能策略結合起來并協調執行。這些技能專門解決任務的子集,因此智能體可以通過組合這些技能,從更少的訓練樣本中學習解決復雜的新任務。在第4章中探討了這些技能如何通過無監督方式學習,使用來自環境的獎勵作為學習信號。智能體軌跡被分割為與技能相關的子策略選項[166, 214]。


1.2.3 使用帶有記憶增強的策略解決POMDP環境與1.2.2節相關,選項不僅可以用來學習技能,還可以用于學習時間一致的行為。它作為一個離散的潛變量攜帶前進的記憶,使得智能體能夠在部分可觀測馬爾可夫決策過程(POMDP)環境中執行任務,在這種環境中,僅通過當前的觀測結果無法確定環境的底層狀態。通過維護智能體軌跡的歷史,可以更好地確定真實的環境狀態,因為過去的觀測結果通常與未來的觀測結果通過隱藏變量相關聯。第4章檢驗了不同訓練目標的算法發現選項的有效性和魯棒性,展示了所提出的解決方案相對于經典的遞歸策略和Option-Critic策略[9, 111]的優勢。在第6章中,技能和軌跡分割的概念被用于使智能體在任務完成的不同階段改變其策略。將復雜任務分解為子任務并按階段執行,使智能體能夠執行與高層計劃一致的時間一致行為。


1.2.4 解釋專家和智能體的行為本研究的另一個主題是解釋所學習的策略。上面討論的技能學習是確保更好解釋性的一種方法,因為選項以語義上可解釋的方式對智能體軌跡進行分割。第3章探討了可解釋性的另一種方法:一個可微分的規劃器通過專家演示的機器人導航軌跡學習目標、障礙物和運動動力學。它還在決策過程中計算獎勵圖和價值圖,類似于逆強化學習(IRL)[6, 148, 260, 261]。在第5章中,提出了一種將策略明確表示為人類可讀代碼的更顯式方法。策略性能問題可以直接通過閱讀代碼進行診斷,使這種方法成為解釋性人工智能(AI)研究中的有價值技術。


1.2.5 訓練具身智能體執行復雜任務最后,本研究的目標是將所開發的技術應用于具身智能體相關的問題,例如機器人技術。在第3章、第5章和第6章中,分別解決了機器人導航、自動駕駛以及在虛擬世界Minecraft[208]中的任務執行的挑戰。這些挑戰都有導航和空間推理作為完成任務的關鍵要素。導航是一個傳統上通過專家設計的系統解決的現實問題,但可以通過利用數據驅動的學習來提高效率。例如,車道變換和與其他車輛合作是自動駕駛車輛的任務,要求復雜的規劃。由于人類合作行為難以建模,特別是在存在多重因素和微妙線索的情況下,這個問題變得尤為復雜,而且并不總是有確定的策略可遵循。從現實世界數據中學習合作行為可以有助于優化這些任務。


1.3 主要貢獻本論文的貢獻可以總結如下:

  1. 開發了一個名為CALVIN的可微分規劃器(Collision Avoidance Long-term Value Iteration Network),通過執行可微分的值迭代來學習在未知的3D環境中導航。狀態轉換和獎勵模型是從專家演示中學習的,類似于值迭代網絡(VIN)。然而,VIN難以懲罰導致與障礙物和墻體碰撞的無效動作,導致值估計不準確。CALVIN通過學習動作承受度來約束智能體的轉換和獎勵,從而解決了這個問題。CALVIN能夠在新穎的2D和3D環境中導航,并顯著優于其他基于VIN的可學習規劃器。該工作已在2022年IEEE/CVF計算機視覺與模式識別會議(CVPR)上發表[97]。詳細內容見第3章。
  2. 基于對選項框架和前向-后向算法[14]的分析,開發了算法來學習時間一致的選項及其相關的子策略,以解決需要長期記憶的POMDP任務。提出并研究了兩種無監督選項發現的學習目標:通過期望最大化的近端策略優化(PPOEM)和順序選項優勢傳播(SOAP)。PPOEM應用前向-后向算法[14]優化選項增強策略的期望回報。然而,研究表明,在沒有未來軌跡知識的情況下,這種學習方法在學習因果策略時是不穩定的,因為選項分配是針對整個回合進行優化的。作為一種替代方法,SOAP評估了最優選項分配的策略梯度。它擴展了廣義優勢估計(GAE)的概念,通過時間傳播選項的優勢,相當于對選項策略梯度執行時間反向傳播。使用這種方法,選項策略僅依賴于智能體的歷史記錄。與競爭基準相比,SOAP表現出最強的魯棒性,正確發現了POMDP走廊環境中的選項,以及標準基準中的Atari[16]和MuJoCo[222]。該論文已在arXiv上發表[98]。詳情見第4章。
  3. 提出了LangProp框架,用于迭代優化由LLMs生成的代碼。LangProp自動評估代碼在輸入-輸出數據集上的表現,捕獲任何異常,并將結果反饋給LLM訓練循環,使LLM能夠迭代改進其生成的代碼。LangProp訓練模塊可以在監督學習和強化學習設置中使用。LangProp成功解決了Sudoku和CartPole問題,并生成了駕駛代碼,其性能與CARLA駕駛基準[48]中的人類實現的專家系統相當或更優。LangProp能夠生成可解釋且透明的策略,可以通過度量和數據驅動的方式進行驗證和改進。該工作已在2024年國際學習表征會議(ICLR)LLM智能體研討會上接受[100]。該工作是在Wayve Technologies實習期間進行的。詳情見第5章。
  4. 開發了Voggite,一個在Minecraft開放式虛擬世界中執行任務的具身智能體。Voggite以OpenAI的視頻預訓練(VPT)[12]為主干,一個基于Transformer的智能體,經過在線視頻的監督逆動力學模型(IDM)標注進行預訓練。VPT策略接受128幀的過去觀測結果,相當于6.4秒的歷史。雖然VPT智能體在許多反應性任務中表現有效,但在任務執行的不同階段上難以區分。Voggite通過將任務分為不同階段解決了這一問題。Voggite在2022年NeurIPS MineRL BASALT競賽中的63支隊伍中獲得了第三名。競賽要求智能體在Minecraft中尋找洞穴并建造瀑布、農場和建筑物。合作撰寫的比賽回顧文章已在arXiv上發布[136]。詳情見第6章。 未包含在本論文中的工作:“你吃什么就是什么?給基礎模型喂食來自全球各地菜肴的區域性多樣食品數據集”[132]。

付費5元查看完整內容

相關內容

人類能夠通過規劃、推理和預測行為的結果來完成具有長期目標的復雜任務。為了使具身智能體(如機器人)實現類似的能力,它們必須獲得環境知識,能夠在有限的試錯預算下遷移到新場景中。基于學習的方法,如深度強化學習,能夠從數據中發現并利用應用領域的內在規律和特征,并不斷提高其性能,但代價是需要大量的訓練數據。本論文探討了空間推理與規劃任務的數據驅動技術的發展,重點在于提高學習效率、可解釋性和跨新場景的可遷移性。論文有四項主要貢獻。

首先,CALVIN 是一個差分規劃器,它學習可解釋的世界模型用于長期規劃。通過從專家示范中學習獎勵(目標和障礙)和狀態轉換(機器人動力學),CALVIN 成功地在部分可觀測的3D環境中導航,例如迷宮和室內房間。 其次,SOAP 是一種強化學習算法,用于無監督地發現用于長時間任務的宏觀動作(選項)。選項將任務分解為子任務,并能夠一致地執行這些子任務。SOAP 在基于歷史條件的走廊任務以及經典基準如Atari上展示了強大的表現。 第三,LangProp 是一個使用大型語言模型(LLMs)解決具身智能體問題的代碼優化框架,它通過將代碼視為可學習的策略進行推理。該框架在CARLA自動駕駛基準測試中生成了可解釋的代碼,表現與人類專家編寫的代碼相當或更優。 最后,Voggite 是一個具身智能體,采用視覺到動作的Transformer后端,在Minecraft中解決復雜任務。它通過識別動作觸發器,將任務分解為多個階段,在MineRL BASALT競賽中獲得了第三名。 這些進展為基于學習的方法在復雜空間推理與規劃挑戰中的應用提供了新的途徑。 關鍵詞 — 機器學習,神經網絡,深度強化學習,模仿學習,層次化強化學習,策略優化,機器人技術,自動駕駛,具身智能體,選項發現,技能學習,導航,規劃,計算機視覺,大型語言模型,多模態基礎模型。

1.1 動機

人類在新環境中能夠規劃、推理并預測行為的結果,這是人類完成具有長期目標的復雜任務的顯著能力。無論是面對新的游戲、運動或位置,即使我們從未經歷過該特定情況,我們仍能通過從先前的經驗中推斷,利用可遷移的知識和技能進行戰略規劃。 通過現代規劃算法,如果環境動態(特別是狀態轉換和獎勵動態)完全已知,狀態和動作可以枚舉,并且計算資源無限,那么可以找到規劃問題的近似最優解。不幸的是,這三種假設往往都不成立。智能體通常只能訪問環境的局部或部分觀測,并必須基于此估計潛在的環境狀態和動態。狀態和動作通常是連續的,而非離散的,因此需要一個估計器來將連續輸入映射為有意義的表示,以推廣到新輸入。最后,由于計算資源有限,狀態和動作的枚舉通常是不可行的,因此需要一種有效的策略,在有限的計算資源和智能體生命周期內探索狀態-動作空間。 許多涉及戰略決策的現實問題需要智能體學習可遷移的環境知識,以便在有限的試錯預算下應用于新場景。構思一個算法,在開放領域中達到與人類相同的性能和效率水平,仍然是一個未解決的問題。例如,自動駕駛[251]仍是一個正在進行且尚未解決的研究領域,因為它涉及多智能體問題設置中的動態環境的高度復雜性,以及不完善信息和噪聲傳感器輸入的挑戰。這與工業機器人形成了鮮明對比,工業機器人已經有效運行了幾十年,受益于環境的可控性、可預測性,并且在許多情況下是完全已知的。結合任務的重復性,這使得人類可以對系統進行硬編碼,以處理常見的預期場景。 馬爾可夫決策過程(MDP)和強化學習(RL)是將決策制定為具有數學定義目標的可學習問題的強大框架[213]。這些框架捕捉了與環境交互的順序性和時間演變性。神經網絡的進展及其成功與RL的整合[138, 139, 201]改變了計算機視覺和機器人領域,催生了基于學習的方法來解決傳統上由人類手動實現專家系統的問題。基于學習的方法有兩個主要優勢。首先,基于學習的算法可以隨著數據的增加,不斷改進并適應應用領域,而手動實現的方法是固定的,無法學習和適應。其次,基于學習的方法能夠自動發現應用領域的內在規律和特征,并利用它們來提高性能,而無需硬編碼這些策略。 雖然RL在解決復雜的戰略問題方面非常有效[10, 12, 138, 202, 229],但樣本效率和可泛化性仍是需要解決的挑戰。當前最先進的RL算法在訓練的任務或通過反應性策略可以解決的任務中表現優異,但無法輕松學習可遷移的技能[145, 162, 163, 174, 198]。與可以輕松生成樣本的游戲或模擬任務不同,在現實世界問題中,收集樣本可能成本高昂且不安全。人類可以通過學習可遷移的知識和技能,繞過這些問題,并通過較少的試錯來提高成功的機會,避免災難性失敗,如從懸崖跌落或被汽車撞到。本研究旨在提出獲取技能的方法,使智能體能夠更高效、更有效地學習執行任務。

1.2 研究目標

本研究旨在解決涉及空間推理、規劃和決策制定的任務,采用數據驅動的方法,同時提高學習的效率、可解釋性和可遷移性。研究目標可以進一步分為五個具體目標,詳細描述如下。

**1.2.1 學習可泛化的規劃器

本研究的核心目標之一是開發能夠泛化到新場景的可學習規劃器。反應性馬爾可夫策略與帶有計劃的策略的區別在于,反應性策略根據當前狀態或局部觀測做出即時決策,而規劃涉及對給定情境進行長期分析,以提出空間和時間上一致的解決方案。 這兩種方法的差異類似于文獻[106]中提出的系統1(快速、無意識和自動決策)和系統2(緩慢、意識到且嚴謹的決策)的思維方式。兩種決策過程都很重要,因為反應性策略在實時做出大量決策時很有用,而規劃則確保決策的一致性和連貫性。例如,基于蒙特卡洛樹搜索(MCTS)的算法[201, 202]在學習反應性策略和用于長期規劃之間交替進行;蒙特卡洛樹的回滾[40]被模擬,返回估計通過輕量級反應性策略進行反向傳播,然后根據回滾結果更新該策略。 雖然諸如圍棋和模擬環境的動態是已知的,但對于許多現實問題而言并非如此。基于模型的RL方法[75, 79, 190]通過學習環境模型來解決這一問題,該模型可用于模擬回滾。第3章探討了相關的替代途徑,學習一個可微規劃器,解決在新環境中無法通過反應性策略有效解決的導航任務。第5章提出了一種通過將代碼視為可學習策略,使用大型語言模型(LLMs)學習算法決策制定的新范式。通過使算法可學習,之前對于RL智能體來說過于復雜的高級和長期計劃,現在可以通過模仿學習(IL)和RL技術來學習。此外,第4章和第6章展示了如何使用選項[166, 214]的時間抽象幫助智能體做出明智的長期決策,分別在1.2.2節和1.2.3節中討論。

**1.2.2 發現可重用技能

技能學習是高效探索、決策制定和解決任務的另一個重要組成部分。有了技能,可以構思一個將低級技能策略組合并協調起來的高級計劃。這些技能專門用于解決任務的子集,使智能體能夠通過將這些技能組合在一起,從較少的訓練樣本中學習解決復雜的新任務的方法。在第4章中探索了這些技能如何通過使用環境獎勵作為學習信號以無監督方式學習。智能體的軌跡被分割為與技能相關的選項[166, 214],對應于特定子策略的技能。

**1.2.3 使用增強記憶的策略解決POMDP環境

與1.2.2節相關,選項不僅可以用于學習技能,還可以用于學習時間上一致的行為。它作為離散潛變量向前傳遞的記憶,使智能體能夠在部分可觀測的馬爾可夫決策過程(POMDP)環境中執行任務,其中無法僅從當前觀測確定環境的潛在狀態。通過維護智能體軌跡的歷史,可以更好地確定環境的真實狀態,因為過去的觀測通常與未來的觀測通過隱藏變量相關聯。第4章考察了通過具有不同訓練目標的算法發現的選項的有效性和魯棒性,展示了所提出的解決方案相對于經典的循環策略和Option-Critic策略[9, 111]的優勢。 在第6章中,技能和軌跡分割的概念被用于讓智能體為任務完成的不同階段改變其策略。將復雜任務分解為子組件并分階段執行,使智能體能夠執行時間上一致的行為,并遵循高級計劃。

**1.2.4 解釋專家和智能體的行為

本研究探討的另一個主題是對學習到的策略的可解釋性。前面討論的技能學習是一種確保更好可解釋性的方法,因為選項以語義可解釋的方式分割了智能體的軌跡。第3章中探索了另一種可解釋性方法;一個可微規劃器從機器人導航的專家軌跡中學習目標、障礙物和運動動態。它還在決策過程中計算獎勵圖和價值圖,類似于逆向強化學習(IRL)[6, 148, 260, 261]。第5章中提出了一種更為明確的方法,將策略表示為可人類可讀的代碼。通過閱讀代碼可以直接診斷策略的性能問題,這使得該方法成為解釋性人工智能(AI)研究中的一種有價值技術。

**1.2.5 訓練具身智能體執行復雜任務

最后,本研究的目標是將開發的技術應用于與具身智能體相關的問題,例如機器人技術。在第3章、第5章和第6章中,解決了機器人導航、自動駕駛和虛擬世界Minecraft[208]中的任務執行挑戰。這些挑戰的關鍵元素是導航和空間推理。導航是一個現實世界中的問題,傳統上通過專家設計的系統解決,但可以通過利用數據驅動的學習來提高效率。例如,車道變換和與其他車輛的合作是自動駕駛車輛需要復雜規劃的任務。該問題特別困難,因為人類的合作行為難以建模,原因是復合因素和細微線索的存在,并且不總是有確定的策略可遵循。從現實世界數據中學習合作行為有助于優化這些任務。

1.3 主要貢獻

本論文的貢獻總結如下:

  1. 開發了一個名為碰撞避免長期值迭代網絡(CALVIN)的可微規劃器,通過執行可微值迭代來學習在未知3D環境中的導航。狀態轉換和獎勵模型通過專家示范學習,類似于值迭代網絡(VIN)。然而,VIN在懲罰導致與障礙物和墻體碰撞的無效動作時存在問題,導致值估計不準確。CALVIN通過學習動作允準來約束智能體的轉換和獎勵,解決了這一問題。CALVIN能夠在新穎的2D和3D環境中導航,并顯著優于其他基于VIN的可學習規劃器。該研究已在IEEE/CVF計算機視覺與模式識別會議(CVPR)2022年發表[97]。詳細內容見第3章。
  2. 基于對選項框架和前向-后向算法[14]的分析,開發了算法來學習時間一致的選項和關聯的子策略,以解決需要長期記憶的POMDP任務。提出并研究了兩種無監督選項發現的學習目標:通過期望最大化的鄰近策略優化(PPOEM)和順序選項優勢傳播(SOAP)。PPOEM應用前向-后向算法[14]來優化選項增強策略的預期回報。然而,結果表明,這種學習方法在沒有未來軌跡知識的情況下對于學習因果策略是不穩定的,因為選項分配針對整個周期進行了優化。作為一種替代方法,SOAP評估策略梯度以獲得最優的選項分配。它擴展了廣義優勢估計(GAE)的概念,通過時間傳播選項策略梯度來傳播選項優勢。這種方法使選項策略僅依賴于智能體的歷史。與競爭基準相比,SOAP表現出最強的魯棒性,正確發現了POMDP走廊環境的選項,并在Atari[16]和MuJoCo[222]等標準基準上表現優異。該論文可在arXiv上獲得[98]。詳細內容見第4章。
  3. 提出了LangProp,一個用于迭代優化LLM生成代碼的框架。LangProp自動評估代碼在輸入輸出對數據集上的性能,捕捉任何異常,并將結果反饋給LLM,使其能夠迭代改進生成的代碼。LangProp訓練模塊可用于監督學習和強化學習設置中。LangProp成功解決了數獨和CartPole問題,并生成了與人類專家系統在CARLA駕駛基準[48]上表現相當或更優的駕駛代碼。LangProp能夠生成可解釋且透明的策略,可以以數據驅動的方式進行驗證和改進。該研究已被2024年大型語言模型智能體國際學習表征會議(ICLR)工作坊接收[100]。此工作是在Wayve Technologies實習期間完成的。詳細內容見第5章。
  4. 開發了Voggite,一個在Minecraft開放虛擬世界中執行任務的具身智能體。Voggite使用OpenAI視頻預訓練(VPT)[12]作為其骨干,這是一個基于Transformer的智能體,預訓練于標記了監督逆動力學模型(IDM)的在線視頻上。VPT策略接受過去128幀的觀測,相當于6.4秒的歷史記錄。盡管VPT智能體對許多反應性任務有效,但在任務執行的不同階段區分任務時表現不佳。Voggite通過將任務分為不同階段來解決此問題。Voggite在NeurIPS 2022年MineRL BASALT人類反饋微調競賽中獲得63支隊伍中的第3名。在比賽中,智能體的任務是在Minecraft中尋找洞穴、建造瀑布、農場和建筑。合著的比賽回顧文章可在arXiv上獲得[136]。詳細內容見第6章。

未納入本論文的工作:“你是你所吃的?喂給基礎模型一個具有區域多樣性食物數據集的世界菜肴”[132]。

付費5元查看完整內容

多模態和縱向神經影像(即多維神經影像)對于理解、診斷和監測神經系統疾病至關重要。這些圖像所捕捉到的復雜疾病模式往往難以被人類專家或現有技術識別。深度學習在神經影像分析中顯示出了巨大的潛力。然而,這些方法往往產生難以解釋的結果,這在需要了解模型行為以增強臨床醫生信任和保證的情況下尤其令人擔憂。此外,為了使其結果具有普遍性,這些方法通常需要大量標記的神經影像數據,而這些數據要么難以獲得,要么成本高昂。因此,本論文旨在解決深度學習中的兩個挑戰:可解釋性和在數據有限情況下的準確性。具體而言,我們通過可視化和疾病特征估計來增強可解釋性。為了準確識別疾病特定的模式,我們提出在模型設計中整合先驗知識,并開發圍繞自監督或弱監督的新策略。

通過適應這些關鍵思想,我們首先開發了用于多模態神經影像的深度學習方法,任務是從多對比磁共振成像(MRI)合成18F-氟脫氧葡萄糖(FDG)正電子發射斷層掃描(PET)。我們在模型設計中引入大腦對稱性,以實現異常的準確表征。然后,我們開發了一種自監督方法,即使在缺少輸入模態的情況下也能實現準確的合成。我們能夠從腦腫瘤隊列的MRI中合成診斷質量的FDG PET圖像,這可能導致更安全和更公平的診斷神經影像。其次,我們設計了一系列從監督到自監督或弱監督的可解釋深度學習方法,以分析縱向MRI中的腦老化和阿爾茨海默病(AD)。這些模型明確考慮了這些過程的不可逆性,從而能夠準確估計腦齡和疾病進展、AD診斷,并識別將轉換為AD的個體。最后,我們介紹了多維神經影像的可解釋分析,該方法聯合學習縱向MRI和淀粉樣蛋白PET。通過基于先驗領域知識規范各模態中可見疾病異常的時間順序,它進一步實現了從MRI估計淀粉樣蛋白狀態的準確跨模態預測任務。這些努力使得早期AD診斷成為可能,有望促進及時干預并增強AD臨床試驗。

付費5元查看完整內容

深度學習的最新發展涵蓋了廣泛的任務,如圖像分類、文本翻譯、圍棋對弈和蛋白質折疊。所有這些成功的方法都依賴于一種基于梯度的學習算法,通過大量數據和顯著的計算能力來訓練模型。盡管這種優化算法是共享的,但深度學習依賴于不同的模型架構來處理訓練數據,具體取決于數據的模式:多層感知器用于向量,卷積神經網絡用于圖像,循環神經網絡用于文本和序列,圖神經網絡用于圖。最近加入這一模型家族的是Vaswani等人(2017)為文本翻譯開發的Transformer架構。這種架構的碎片化景觀迫使從業者根據數據模式選擇模型并學習其特性。當問題涉及多種數據模式(如圖像字幕)時,這種情況尤其不利。一種更系統的方法是采用一種單一的架構來處理所有模式,并從訓練數據中直接學習輸入的結構。

本工作采用自然語言處理和視覺之間的橫向方法,展示了最初設計用于處理文本的Transformers也能處理圖像。首先,我們展示了一種自注意力層——Transformer的構建塊——能夠證明地表達卷積,并通過實驗證明淺層的Transformers確實學習了類似于卷積神經網絡的局部平移濾波器。我們的證明依賴于注意力頭模仿卷積核的感受野。我們研究了這些注意力頭的交互方式,并提出了一種新的多頭機制,利用跨頭提取的共享表示。本論文提出了兩種適應于特定圖像類型的Transformer模型。我們介紹了一種旋轉等變注意力層,適合處理那些方向信息無關的圖像,如衛星圖像或生物組織的顯微圖像。最后,我們通過提取圖像的顯著補丁并以較小的內存占用處理它們來調整Transformers處理大分辨率圖像。我們的工作及后續發展使Transformers成為處理圖像的標準架構。

深度學習最近在許多具有挑戰性的任務上取得了巨大進展,例如翻譯(Vaswani et al., 2017)、文本理解(Devlin et al., 2019)、文本生成(Brown et al., 2020)、圖像分類(Dosovitskiy et al., 2021)、蛋白質折疊(Jumper et al., 2021),以及最近的圖像生成(Ramesh et al., 2022)。這些問題涉及不同的數據模式:文本、圖像、圖或點云。解決機器學習問題的關鍵決策之一是選擇適合輸入數據模式的模型架構。從業者會實現卷積神經網絡(LeCun et al., 1989)來處理圖像,使用循環神經網絡(Rumelhart et al., 1986)來處理文本和序列,用圖神經網絡(Defferrard et al., 2016;Kipf 和 Welling,2017)來處理圖。

Vaswani等人(2017)引入了一種新的架構——Transformer,并將其應用于神經機器翻譯。Transformer由編碼器和解碼器組成,這兩部分都是由堆疊的注意力層構成的。注意力機制的核心最初由Bahdanau等人(2015)提出,用于跨語言對齊句子。注意力層計算輸入不同部分之間的交互系數,并輸出重新加權的表示。注意力分數的計算使用內容(單詞的意義)、輸入的位置(單詞的順序)或兩者的結合。起初,注意力機制與卷積層結合使用,以獲得兩種架構的好處:卷積提取局部模式,而全局注意力重新加權允許找到發生在更遠距離的模式,例如建模德語中模態短語末尾主語和動詞之間的交互。然而,Vaswani等人(2017)展示了可以消除卷積層,只依賴于注意力。

通過在翻譯中超越循環神經網絡(RNNs),Transformers成為處理文本的事實標準架構:從翻譯(Vaswani et al., 2017)到文本理解(Devlin et al., 2019),甚至文本生成(Brown et al., 2020)。但由于這種架構的多功能性,它的成功也擴展到了其他數據模式。Transformer的一個關鍵特性是內容和輸入的位置/結構是解耦的。這對于超越文本處理并允許Transformers處理其他結構的數據(如圖像、視頻、圖和蛋白質)至關重要。輸入不僅可以是單詞表示的序列,還可以是像素的二維圖(圖像)或三維分子中的原子。因此,一些Transformers專門用于處理圖(Dwivedi和Bresson,2020)、蛋白質(Jumper et al., 2021)或視頻(Sun et al., 2019)。

本論文聚焦于應用于圖像視覺任務的Transformers。我們在第二章中證明,除了應用于文本,Transformer架構也可以類似于卷積神經網絡處理圖像。確實,我們展示了一種自注意力層——Transformer架構的主要構建塊——在嚴格意義上比卷積層更具表達力。每個注意力頭(注意力機制的并行重復)可以映射到卷積濾波器感受野的一個像素上,以將任何卷積核重新參數化為自注意力層。然而,表達力并不能提供完整的解釋,因為即使一個層能夠表達一個函數,這樣的權重也可能無法通過如隨機梯度下降這樣的學習算法找到。因此,我們通過實驗驗證,一堆自注意力層確實能從展現平移等變性的噪聲數據中學習計算卷積。

我們在圖像上應用的Transformer(Cordonnier等人,2020b)在Dosovitskiy等人(2021)對更大圖像的實驗中表現非常好,他們為這種架構命名為Vision Transformer(ViT)。我們在CIFAR-10數據集(Krizhevsky等人,2009b)上對尺寸為32×32的圖像進行的實驗工作被Dosovitskiy等人(2021)擴展到224×224的圖像,這些圖像來自JFT-300M(一個私有數據集)或ImageNet(Russakovsky等人,2015)。ViT架構還處理16×16的補丁,并通過使用絕對位置編碼而非相對位置編碼進一步向純Transformers邁進。高數據量訓練允許純Transformers大致學習平移等變濾波器,并證實Transformers類似于卷積處理圖像。我們在第二章的伴隨網站上可視化了ViT早期層的注意力分數的平移局部化濾波器。

如上所述,多重注意力頭在自注意力中編碼卷積的感受野方面起著關鍵作用。在第三章中,我們研究了在文本和圖像上訓練的Transformers中注意力頭的交互方式。我們的實驗表明,不同的頭依賴于相似的模式(位置或內容)來計算注意力分數。我們提出了一種不同于串聯的機制來復制注意力頭。協作注意力通過共享中間表示來利用頭之間共享的信息。這種重新參數化可以應用于已經訓練好的Transformers,或在訓練時使用。 在最后兩章中,我們將Transformers適應于圖像中存在的某些特定結構:生物圖像中的旋轉等變性和高分辨率圖像中的局部化信息。

在第四章中,我們考慮那些角度方向不包含任何信息的圖像。例如,衛星圖像或細胞顯微圖像的處理應該與拍攝圖像的角度無關。這一特性稱為旋轉等變性(或不變性)。我們約束Transformer對某些對稱性(例如旋轉或鏡像)等變,這樣濾波器可以在所有方向上學習一次。我們的工作建立在Cohen和Welling(2016)的開創性論文基礎上,他們將對稱性強加于卷積神經網絡。我們提供了一種純注意力提升層和一種對旋轉等變的群注意力層。

最后,第五章討論包含局部化信息的高分辨率圖像,例如自動駕駛汽車的圖像,其中交通標志的信息應是可讀的。局部化信息需要以高分辨率處理,這阻止了將圖像重新縮放到224×224像素的標準技術。另一方面,通過Vision Transformer以高分辨率處理整個圖像需要過多的內存和計算資源,這超出了我們當前硬件的能力。相反,我們改編了Katharopoulos和Fleuret(2019)的工作,讓Transformer處理圖像的稀疏版本,其中只有“感興趣”的補丁以高分辨率處理。由于一種新穎的層能夠以可微分的方式提取最顯著的補丁,我們的模型可以端到端地進行訓練(Berthet等,2020)。

組織結構。上述貢獻將在接下來的四章中詳細描述。每章對應于作者撰寫的一篇論文。各章節以工作總結和使用CRediT框架(Brand等,2015)列出的作者貢獻開始。所有章節的附錄集中在最后。

付費5元查看完整內容

智能軟件具有改變我們社會的潛力。它正在成為現實世界中許多系統的基石。然而,盡管機器學習模型在基準測試上表現出色,像神經網絡這樣的最新方法在遇到現實情境時經常失敗。由于神經網絡通常學習相關性而不是根據正確的信號和知識進行推理,它們在面對分布變化、意外破壞和最壞情況時會失敗。由于神經網絡是黑盒模型,用戶無法解釋或信任它們。為了在最關鍵的應用和系統中自信和負責任地部署機器學習,我們需要構建魯棒的模型。 在這篇論文中,我介紹了我們的魯棒機器學習系統的進展,通過緊密將上下文整合到算法中。上下文有兩個方面:自然數據的內在結構和來自領域知識的外在結構。兩者都至關重要:通過利用自然數據的內在結構,我的工作表明,我們甚至可以在最壞情況下創建魯棒的機器學習系統,這也是一項強有力的實證收益。通過整合外部知識,如任務之間的關聯和因果結構,我的框架可以指導模型使用正確的信號進行推理,為可控和可解釋的模型開啟新的機會。 這篇論文分為三個部分。在第一部分中,我旨在涵蓋三個使用內在結構作為約束以實現魯棒推理的工作。我介紹了我們的框架,該框架執行測試時優化以尊重自然約束,這些約束由自監督任務捕獲。我闡述了測試時優化如何改善分布外泛化和對抗性魯棒性。除了推理算法,我還展示了通過離散表示來改善分布外魯棒性的內在結構。 在論文的第二部分中,我詳細介紹了使用外部領域知識的工作。我首先介紹了如何利用來自外部領域知識的因果結構來提高領域泛化魯棒性。然后,我展示了多個任務和正則化目標的關聯如何幫助提高魯棒性。 在這篇論文的最后部分,我展示了關于值得信賴和可靠的基礎模型的三個工作,這是許多人工智能應用的基礎模型。我展示了一個利用上下文來保護、解釋和控制基礎模型的框架。

付費5元查看完整內容

許多任務涉及多個智能體,需要順序決策策略來實現共同目標,如足球比賽、實時策略游戲和道路網絡中的交通燈控制。為獲得所有智能體的策略,這些問題可被建模為多智能體系統,并通過多智能體強化學習(MARL)來解決。然而,由于復雜的多智能體行為和環境動態的非平穩性質,優化多智能體場景中的策略并非易事。智能體的行為及其與其他智能體的互動導致環境狀態和智能體觀察隨時間變化,使得開發長期有效的策略成為挑戰。此外,部分可觀測性(智能體對環境的信息有限或不完整)也增加了問題的復雜性。而且,環境動態的固有不確定性使得決策變得不穩定。

這篇博士論文通過提出新穎的MARL方法來應對這些挑戰。這些新方法使智能體能夠在動態且部分可觀測的環境中學習高效的策略,尤其是在需要合作的環境中。特別是,我們針對以下四個基礎的多智能體研究問題提出了解決方案。首先,我們研究了在風險較高的場景中為智能體學習風險敏感的合作策略的問題,這些場景的特點是執行潛在低回報行為可能導致重大的潛在獎勵損失。特別是,我們關注那些團隊內部存在智能體異質性且對手可能數量眾多的環境。為應對此問題,我們提出了RMIX來學習MARL中的風險敏感合作策略。我們首先通過分布式強化學習來模擬個體的Q值分布。然后我們利用條件風險價值(CVaR)來衡量個體回報的分布。我們還提出了一個動態風險水平優化器來處理執行過程中隨機 結果的時間性質。實證結果表明,RMIX在多種多智能體風險敏感場景中的表現優于現有最先進方法,它展示了更好的協調能力和提高了樣本效率。

接著,我們研究了在動態電子收費(DETC)問題中學習可擴展策略的問題,其中交通網絡龐大且動態變化。為此,我們提出了一種新穎的MARL方法,通過將大型狀態分解為更小的部分,對每個分解后的狀態學習多智能體策略,從而擴展DETC的處理范圍。具體來說,我們將圖網絡分解成更小的圖,并提出了一種新型的基于邊的圖卷積神經網絡(eGCN),以提取道路網絡特征的時空關聯性。提取出的特征被輸入到合作MARL方法的策略網絡中。實驗結果表明,這種分而治之的方法能夠擴展到現實規模的問題,并且性能穩健,顯著優于現有最先進方法。

第三,我們關注在行動持續時間的場景中學習高效多智能體協調策略的問題。由于行動持續時間的存在,獎勵被推遲,使得基于時間差異的MARL策略訓練變得具有挑戰性。為了解決這個問題,我們提出了一種基于我們新穎的基于圖的情節記憶LeGEM-core的獎勵重分配方法,以在非同步行動普遍存在的環境中學習高效的多智能體協調。非同步行動指的是具有行動持續時間的行動,在此期間環境變化受到這些行動的影響。LeGEM-core明確記憶智能體的過去經驗,并在MARL訓練中實現信用分配。我們將這種解決方案命名為LeGEM。我們在包括Stag-Hunter Game、Quarry Game和Afforestation Game在內的多種多智能體場景中評估LeGEM。實證結果顯示,它在具有非同步行動的多智能體環境中顯著提升了多智能體協調能力,并實現了領先的性能。 最后,我們的目標是學習能使智能體在訓練期間未見過的其他智能體的策略中進行協調或競爭的通用策略。我們提出了RPM,用于在評估場景中學習面向智能體的通用策略,這些場景中其他智能體的行為不同。RPM的主要思想是通過收集大量多智能體互動數據來訓練MARL策略。我們首先根據每個智能體的訓練集回報對其策略進行排名,然后將排名的策略保存在內存中;當一個情節開始時,每個智能體可以從內存中隨機選擇一個策略作為行為策略。這種新穎的自我博弈框架在訓練數據中多樣化了多智能體互動,并提高了MARL的泛化性能。Melting Pot上的實驗結果表明,RPM使智能體能夠在多智能體泛化評估場景中與未見過的智能體進行交互,并取得了提升的性能。

總結來說,這篇博士論文調查了四個普遍存在且未解決的基礎多智能體順序決策研究問題。所提出的四種MARL方法解決方案,在潛在獎勵損失、大狀態空間問題、行動持續時間和MARL泛化性缺乏所引起的不確定性多智能體環境中,為智能體提供了高效的策略訓練和性能提升。

付費5元查看完整內容

現代機器學習技術在許多領域展現了出色的能力。盡管在實驗環境中超越人類的性能表現,但許多研究揭示了由于現實世界應用中基本假設的違反而導致機器學習模型的脆弱性。這些問題顯著阻礙了機器學習的適用性和可靠性。這激發了在自然誘導的數據損壞或改變下保持模型性能的需求,這被稱為“自然魯棒性”。為此,本論文首先研究了兩個自然發生的問題:標簽損壞和分布偏移。此后,我們繼續探索異常分布數據在機器學習魯棒性中的價值。

首先,訓練樣本的觀測標簽被假定為真實值。然而,從人類那里獲得的標簽往往可能受到標簽損壞,導致泛化性能不佳。這引發了對標簽損壞魯棒性的重要性,目標是在存在噪聲和錯誤標簽的情況下訓練出一個魯棒的分類器。我們首先研究多個網絡之間的多樣性如何影響樣本選擇和對標簽噪聲的過擬合。對于多個噪聲標簽的學習問題,我們設計了一個端到端的學習框架,以最大化聯合注釋信息的可能性,這不僅在理論上一致,而且在實驗上有效和高效。

其次,經典機器學習方法建立在獨立同分布(i.i.d.)假設的基礎上,即訓練和測試數據是獨立且相同分布的。然而,部署在開放世界中的神經網絡常常在異常分布輸入下掙扎,它們對內部和外部分布輸入都產生異常高的置信度。為了緩解這個問題,我們首先揭示為什么交叉熵損失鼓勵模型過度自信。然后,我們為交叉熵損失設計了一個簡單的修正,增強了許多現有的異常分布(OOD)檢測的后處理方法。使用提出的損失進行訓練,網絡傾向于給出保守的預測,并在內部和外部分布輸入之間的softmax置信度分數上實現了強分離性。 最后,傳統機器學習算法僅利用來自內部分布樣本的信息,這些樣本通常昂貴且難以收集。因此,探索幾乎免費的異常分布樣本的價值在理論和實踐上都非常重要。我們研究開放集噪聲標簽如何影響泛化和對內在噪聲標簽的魯棒性,如何從SGD噪聲的角度理論分析開放集噪聲標簽的影響,并設計了利用異常分布樣本改善標簽噪聲魯棒性的算法。此外,我們提供了首次利用異常分布數據重新平衡長尾數據集的類別先驗,并研究異常分布數據對長尾學習中學到的表示的影響。

我們在多個模擬和現實世界基準上評估了所有介紹方法的有效性和魯棒性。報告的結果表明,我們的方法在緩解相應問題方面優于許多最先進的方法。我們希望我們的努力能提供洞察力,激發針對這些魯棒問題的特別設計方法,并加速探索異常分布樣本以設計有效和魯棒的系統。

付費5元查看完整內容

現代機器學習主要受到黑盒模型的驅動,這些模型提供了卓越的性能,但對于如何進行預測的透明度有限。對于需要了解模型如何做出決策的應用,以及協助模型調試和數據驅動的知識發現,我們需要可以回答有關影響模型行為的問題的工具。這就是可解釋機器學習(XML)的目標,這是一個子領域,它開發了從多個角度理解復雜模型的工具,包括特征重要性、概念歸因和數據估值。本文提供了對XML領域的幾個貢獻,主要思想分為三部分:(i)一個框架,使得可以統一分析許多當前的方法,包括它們與信息論和模型魯棒性的聯系;(ii)一系列技術,用于加速Shapley值的計算,這是幾種流行算法的基礎;以及(iii)一系列用于深度學習模型的特征選擇的方法,例如,在無監督和自適應的設置中。這些思想中的許多都是受到計算生物學和醫學應用的啟發,但它們也代表了在各種領域中都有用的基本工具和觀點。

在模型透明度的辯論中,傳統的觀點是我們面臨解釋性與準確性之間的權衡。1有些人辯稱這種權衡并不存在,聲稱我們可以使用“天生可解釋”的模型達到近乎最優的性能(Rudin, 2019);這對于簡單的表格數據集往往是正確的,但對于像圖像和語言這樣的復雜數據模態則較為罕見。在這里,我們采取了更為寬容的立場:鑒于黑盒模型目前提供了最佳的性能并且已經廣泛部署,我們探討是否有可能從任何模型中獲得足夠的見解。在這樣做的過程中,我們開發了一套在很大程度上對模型的內部機制持中立態度,或者說是模型不可知的工具集,因此即使在今天的最高性能的黑盒模型中也能正常運行。 這一目標也被可解釋機器學習(XML)子領域的許多工作所共享,并且近年來已經取得了顯著的進展。目前,XML工具已被用于了解新疾病的風險因素(Razavian等人,2020;Snider等人,2021),加速數學猜想的發現(Davies等人,2021),在有限的訓練數據標簽下識別蛋白質結合位點(Gligorijevi?等人,2021),審計有缺陷的醫學診斷系統(DeGrave等人,2021)以及從功能系統中獲得新的見解(Ting等人,2017;Sundararajan等人,2017)。這些早期的成功表明了這些工具的潛力,但在這些方法的底層理論以及使它們在實踐中高效的計算程序方面仍有進展空間。這篇論文介紹了我在博士期間進行的幾項工作,旨在解決這些挑戰。

這篇論文包含了我在博士期間完成的大部分項目,所有這些項目都與透明機器學習的核心主題相關。我們首先在第2章建立符號和幾個初步的概念。接下來,每一章都基于一篇第一作者的出版物,其中在某些情況下與共同第一作者共享。為了使它們在一個文檔中更具連貫性,對各個作品進行了修改,但這里沒有提供新的信息,這些論文也可以單獨閱讀。這些作品被組織成三個部分,如下所述。

**第一部分:XML的基礎 **我們首先討論一個統一了大部分文獻的觀點:許多現有的方法都基于一個解釋原則,即通過移除或量化從模型中移除特征的影響。我們描述了一個框架,在這個框架中,這些方法基于三個實現選擇而有所不同,我們為26個現有的算法確定了這些選擇(第3章)。基于這個觀點,我們對這些方法進行了統一分析,并找到了與信息理論、博弈論和認知心理學的聯系。然后,我們探索這些方法的魯棒性特性,并得出了描述它們對輸入和模型擾動的魯棒性的新結果(第4章)。 第二部分:Shapley值計算 接下來,我們探討XML中最廣泛使用的工具之一:Shapley值,一種博弈論信用分配技術。這些是最受歡迎的特征歸因方法之一,SHAP(Lundberg和Lee,2017)的基礎,以及一個著名的數據估值技術(Ghorbani和Zou,2019),但它們是臭名昭著的難以計算。有一系列方法來加速它們的計算(Chen等人,2022),我們在這里討論兩個:基于加權線性回歸的近似(第5章),和基于深度學習的攤銷優化的近似(第6章,第7章)。 第三部分:深度學習的特征選擇 最后,特征選擇為提供透明度的同時也降低了特征獲取成本提供了另一個方向。由于多次訓練不同特征集的模型的高昂成本,似乎很難與深度學習一起實施,但我們探討了如何使用可微分的層來阻止特征信息進入網絡(第8章)。然后,我們討論如何在自適應設置中應用這些思想,其中我們根據當前可用的信息為每個預測單獨選擇特征(第9章,第10章)。

付費5元查看完整內容

以物體為中心的幾何感知旨在提取三維物體的幾何屬性。這些屬性包括目標物體的形狀、姿態和運動,能夠對圖形學、計算機視覺和機器人技術中的各種任務進行細粒度的對象級理解。隨著3D幾何數據和3D深度學習方法的增長,直接使用3D輸入數據實現此類任務的可能性越來越大。在不同的3D表示中,3D點云是一種簡單、常見且節省內存的表示,可以直接從多視圖圖像、深度掃描或LiDAR距離圖像中檢索。在實現以物體為中心的幾何感知方面存在不同的挑戰,如對具有多個剛性部件的常見鉸接物體實現細粒度的幾何理解,學習具有較少標簽的解纏形狀和姿態表示,或以端到端的方式處理動態和順序幾何輸入。本文通過設計有效和可泛化的3D表示、架構和管道,從3D深度學習的角度識別和解決這些挑戰。本文通過設計一種新的層次不變表示,首次對常見鉸接物體進行深度姿態估計。為了推動常見剛性物體的6D姿態估計的邊界,設計了一個簡單而有效的自監督框架來處理無標記的部分分割掃描。提出一種新的4D卷積神經網絡PointMotionNet來學習三維點云序列的時空特征。這些工作從一個獨特的3D深度學習視角推進了以物體為中心的幾何感知領域的研究。如今,3D傳感器廣泛安裝在各種移動設備上,如iPhone上的深度相機,或自動駕駛汽車上的激光雷達傳感器。這些3D傳感技術可以幫助我們準確地測量3D世界。對于機器智能領域,我們也希望構建智能系統和算法來學習有用的信息,更好地理解3D世界。我們人類具有不可思議的能力,通過我們的視覺或觸覺系統來感知和理解這個3D世界。例如,人類可以在沒有看到整個房間的情況下推斷出房間中家具的幾何結構和布置,我們能夠跟蹤一個3D對象,無論其外觀、形狀和比例如何變化,我們還可以根據順序觀察和復雜推理預測多個對象的未來運動。在這里,我的工作設計了各種框架,從大量3D點表示的幾何數據中學習這些3D信息,實現了對單個物體的細粒度幾何理解,可以幫助機器告訴目標物體的幾何、狀態和動態。本文的工作是為了更好地理解這個動態世界。

付費5元查看完整內容

現實世界中越來越多的控制問題需要軟件智能體團隊通過合作來解決聯合任務。每當人類工人被機器取代時,例如制造業中的機器人手臂或交通運輸中的自動駕駛汽車,這種任務自然就會出現。與此同時,新技術產生了新的合作控制問題,這些問題超出了人類的能力范圍,例如在包裹路由方面。無論是出于物理約束,如部分可觀察性、魯棒性要求,還是為了管理大型聯合行動空間,協作代理通常需要以完全分散的方式工作。這意味著每個智能體在任務執行期間只能訪問自己的局部感知輸入,而沒有與其他智能體的顯式通信通道。深度多智能體強化學習(DMARL)是這種環境下學習控制策略的自然框架。當在模擬或實驗室中進行訓練時,學習算法通常會獲得在執行時無法獲得的額外信息。這種帶去中心化執行的集中訓練(CTDE)給試圖利用集中設置來促進去中心化策略訓練的DMARL算法帶來了許多技術挑戰。這些困難主要來自聯合策略學習和獨立學習之間的明顯不一致,聯合策略學習可以學習任意策略,但不是簡單的去中心化的,并且隨著智能體的數量而擴展性差。獨立學習很容易去中心化和可擴展性,但由于其他學習智能體的存在,其表達能力較差,并且容易出現環境的非平穩性。

本文的第一部分開發了使用價值分解技術的算法,以利用分散策略的集中訓練。在深度多智能體強化學習的單調值分解中,提出了新的q學習算法QMIX。QMIX使用集中式單調混合網絡來建模聯合的團隊行動-價值函數,但這些函數可以分解為離散行動空間上的分散智能體策略。為了評估QMIX的性能,我們開發了一個新的基準套件,星際爭霸多智能體挑戰(SMAC),它在星際爭霸II的單元微管理中具有各種離散動作協同控制任務。與已有的玩具環境不同,由于大量不同的單位類型和復雜的內置敵人啟發性,SMAC場景以多樣化的動態為特色。許多機器人控制任務具有連續的動作空間。為了將值分解擴展到這些設置,在FACMAC: Factored多智能體集中式策略梯度中,重點研究了CTDE環境下多智能體學習的actor-critic方法。由此產生的學習算法FACMAC在SMAC上實現了最先進的性能,并打開了使用非單調批評因子分解的大門。就像QMIX一樣,我們為協作連續控制任務引入了一個新的基準套件,Multi-Agent Mujoco (MAMujoco)。MAMujoco將流行的Mujoco基準套件中的機器人分解為多個具有可配置部分可觀測約束的智能體。

本文的第二部分探討了公共知識作為行動協調和溝通資源的價值。在大量實際感興趣的任務中,智能體組之間的公共知識出現了,例如,智能體是否可以在重疊的視野中相互識別。在多智能體公共知識強化學習中,本文提出了一種新的actor-critic方法MACKRL,該方法在不同規模的智能體組之間的公共知識上構建一個分層控制器。這種層次結構產生了一個分散的策略結構,該結構實現了一個聯合獨立的混合策略,該策略執行分散的聯合策略或退回到獨立的策略,這取決于代理組之間的共同知識是否足夠提供行動協調所需的信息。這樣,在充分分散權力的同時,MACKRL也享有聯合策略訓練的協調優勢。 論文的第三部分研究了如何學習高效的協同任務隱式通信協議。在通過馬爾可夫決策過程進行通信中,我們將探討發送方智能體如何在僅通過其動作將信息通信給接收方代理的同時最優地執行任務。在這種新型的隱式參考博弈中,發送方和接收方智能體通常都知道發送方的策略和發送方的軌跡。通過將發送者任務拆分為單個智能體最大熵強化學習任務和基于最小熵耦合的單獨消息編碼步驟,我們表明,我們的方法GME能夠建立比那些訓練過的端到端通信通道更高帶寬的通信通道。

綜上所述,本論文在集中訓練與分散執行框架下的協同控制的深度多智能體強化和兩個相關的新基準套件中提出了一些重要貢獻。在此背景下,我們對價值分解、在多智能體學習中使用公共知識以及如何有效地學習隱式通信協議做出了貢獻。

//ora.ox.ac.uk/objects/uuid:d68575fc-8b5b-4b57-afd

付費5元查看完整內容

在許多現實世界的應用中,多主體決策是一個普遍存在的問題,如自動駕駛、多人視頻游戲和機器人團隊運動。多智能體學習的主要挑戰包括其他智能體行為的不確定性,以及由聯合觀察、行動和策略空間的高維性導致的維數災難。由于未知的智能體意圖和意外的、可能的對抗性行為,這些挑戰在對抗性場景中進一步加劇。本文提出了魯棒和可擴展的多智能體學習方法,目標是高效地構建可以在對抗性場景中魯棒運行的自主智能體。通過觀察智能體的行為準確推斷其意圖的能力是魯棒決策的關鍵。在這種情況下,一個挑戰是對手實際行為的高度不確定性,包括潛在的欺騙,這可能與先驗行為模型有很大的不同。捕捉自我主體和對手之間的交互以及對雙方主體可用信息的推理,對于建模這種欺騙行為至關重要。本文采用博弈論對手建模方法解決了這一意圖識別問題,該方法基于一種新的多樣性驅動的信念空間集合訓練技術,用于實現對欺騙的魯棒性**。為了將集成方法擴展到具有多個智能體的場景,本文提出了一種可擴展的多智能體學習技術,該技術通過稀疏注意力機制促進了接近最優的聯合策略學習。該機制的結果是集中的參數更新,這大大提高了采樣效率**。此外,本文還提出了一種新的隱式集成訓練方法,該方法利用多任務學習和深度生成策略分布,以較低的計算和內存成本獲得更好的魯棒性。將魯棒的意圖識別和可擴展的多智能體學習結合起來,可以實現魯棒的、可擴展的離線策略學習。然而,完全自主的智能體還需要能夠不斷地從新的環境和對等智能體中學習(并適應)。因此,本文還提出了一種安全的適應方法,既能適應新的對手,又能在對抗場景中對任何可能的對手剝削保持低可利用性。本文的貢獻有助于構建自主代理,使其能夠在具有不確定性的競爭多智能體場景下做出魯棒的決策,并通過計算效率學習安全地適應以前未見的對等智能體。

付費5元查看完整內容
北京阿比特科技有限公司