亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人口的快速增長和持續的城市化產生了對具有高生產率和效率的自動化系統的需求。多機器人系統的發展旨在通過控制一組機器人來處理大規模和復雜的任務(例如在地震后進行搜救操作)。控制這種系統的關鍵組成部分是在給定環境中引導每個機器人從起始位置到目標位置,使用無碰撞路徑,這稱為多機器人運動規劃。隨著團隊規模的增加,基于集中式方法計算解決方案變得計算上昂貴且難以處理。因此,研究人員一直在探索分散式方法,以單獨為每個機器人計算軌跡,并僅在出現沖突情況下進行重新規劃。這種方法可以最大程度地減少任務的計算復雜性,但容易產生次優和部分解決方案。在計算解決方案的最優性和完整性保證之間取得平衡仍然是一個未解決的問題。

在本論文中,我們特別有興趣探究基于機器學習(尤其是圖神經網絡)的方法,通過將在線計算轉移到離線訓練過程中,尋找在最優性和復雜性之間的權衡。然而,基于學習的方法也產生了對模擬到真實系統和解決方案的需求,以最小化差距,并為生成的解決方案提供可解釋性和保證。因此,我們首先開發了一個框架,該框架可以基于圖神經網絡(GNN)來學習機器人之間的通信,以更好地在分散式方式下根據其局部信息進行個體決策。該框架由一個編碼器(即卷積神經網絡),它從局部觀測中提取適當的特征,以及一個學習在機器人之間顯式地傳遞這些特征的GNN,以及用于動作選擇的多層感知器組成。通過共同訓練這些組件,系統可以學會確定對整個團隊而言哪些信息最相關,并將其共享以促進高效的路徑規劃。在此基礎上,我們提出了一種名為"Message Aware Graph Attention neTwork"(MAGAT)的方法,將GNN與類似于鍵-查詢的注意機制相結合,以提高機器人間通信的效果。我們通過在小問題實例上訓練模型,然后在機器人密度增加、地圖大小變化以及更大的問題實例(高達原機器人數量的100倍)上測試模型的泛化能力。

為了將我們的解決方案移植到真實世界,我們開發了一個基于ROS的系統,允許完全分散式地執行基于GNN的策略。我們在一個需要機器人之間緊密協調的案例研究中展示了我們的框架,并呈現了首次成功的結果,展示了基于GNN的策略在依賴臨時通信的分散式多機器人系統上成功實現了實際部署。在擴展該系統時,我們提出了一種僅基于視覺的學習方法,利用GNN對相關的視點信息進行編碼和傳遞給移動機器人。在導航過程中,機器人受到一個模型的引導,我們通過模仿學習來訓練這個模型,以近似最優的運動基元,從而預測有效的到目標的成本。我們的實驗證明了它在引導機器人在以前未見過的具有不同傳感器布局的環境中的泛化能力。

基于純GNN的分散式路徑規劃已經通過端到端的學習方法在經驗上證明了其性能。然而,這些黑箱方法在直接部署到實際工作場所時面臨挑戰,因為它們很難找到一個有保證且可解釋的解決方案。因此,我們設計了圖變換器(Graph Transformer)作為一種啟發式函數,以加速在非網格設置中(尤其是在密集圖中)的基于沖突的搜索(Conflict-Based Search,CBS)中的焦點搜索。我們的框架保證了解決方案的完備性和有界次優性。為了增強強化學習的可解釋性和解釋性,我們引入了全局路徑規劃算法(例如,A*算法)來生成全局最優路徑,這作為獎勵函數的一部分,鼓勵機器人通過最優路徑進行“弱監督”探索所有潛在解決方案。由于我們的獎勵函數與環境無關,我們訓練的框架可以推廣到任意環境,并且可以以完全分布式的反應方式解決多機器人路徑規劃問題。

在我博士研究期間,我首先提出了面向多機器人協調的通信感知運動規劃,引入了GNN來構建多機器人團隊的通信通道,使它們可以學會如何顯式地進行通信。通過基于端到端模仿學習流程的各種仿真實驗,驗證了這一新穎研究思想的可行性。為了將它們移植到現實中,我們構建了一個基于ROS2的系統,通過臨時通信在多機器人通道情景中展示我們的思想,并在未知環境中通過隨機采樣的基于攝像頭的傳感器輔助單機器人導航。最后,我們通過在CBS的焦點搜索中引入啟發式函數,并設計了一種名為G2RL的新型獎勵機制,為先前的黑箱方法提供了解釋和性能保證的方法。

付費5元查看完整內容

相關內容

圖神經網絡 (GNN) 是一種連接模型,它通過圖的節點之間的消息傳遞來捕捉圖的依賴關系。與標準神經網絡不同的是,圖神經網絡保留了一種狀態,可以表示來自其鄰域的具有任意深度的信息。近年來,圖神經網絡(GNN)在社交網絡、知識圖、推薦系統、問答系統甚至生命科學等各個領域得到了越來越廣泛的應用。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

近年來,機器學習在許多應用中證明了其極高的用途性。然而,這些成功故事很多都源于在與訓練數據非常相似的數據上評估算法。當應用于新的數據分布時,機器學習算法已被證明會失敗。鑒于現實世界數據的非平穩和異構性質,我們需要更好地掌握算法在分布外(out-of-distribution)的泛化能力,以便算法能被廣泛部署和信任我的論文提出了三個研究課題,旨在調查和發展分布外泛化的領域。這些研究努力的中心目標是產生新的工具,如算法、理論結果、實驗結果和數據集,以提高在數據分布發生變化時機器學習方法的理解和性能。貫穿這三個機器學習場景的高級思想是模塊性——由組合在一起形成一個整體的獨立部分的質量。模塊化方法被假設為引導機器學習方法遠離僵化的記憶示例,走向更靈活和“更智能”的支持泛化的學習。

在我的第一項貢獻中,我從多個訓練分布的學習角度來接近論文目標。對這一研究方向的貢獻有兩方面。首先,我呈現了一組新的標準化任務,用于評估和比較分布外泛化算法。其次,我陳述了一系列新的理論結果,填補了數據中心和算法方法之間在分布外泛化方面的現有差距。這些理論發現引導了一組關于如何采用算法方法的新的實用建議。

在第二項貢獻中,我處理了監督圖像識別中的泛化問題。在這一背景下,我首先調查了多級特征聚合對泛化的影響,并證明了使用其中一種考慮的方法進行增強可以持續提高性能。其次,我提出了一組簡單的圖像數據集,可作為評估和比較圖像分類方法在分布外泛化方面的墊腳石。最后,我深入研究了多個神經網絡通信以解決共享任務的學習場景。這項工作以兩種方式支持論文目標。首先,我提出了一個新的環境,圖引用游戲(graph referential games),并在數據表示和相應的數據表示學習方法對分布外泛化的影響上提出了結果。這些結果連接了之前不相連的圖表示學習和新興通信領域。其次,我解決了基于現實圖像的群體通信這一具有挑戰性的領域。這篇論文中的數據集、算法、定理和實驗結果代表了在機器學習中理解和改進分布外泛化方面的幾個步驟。它們為研究人員提供了旨在促進這一領域研究的新工具和結果,其中一些已被證明對研究社群有用。最后,這項工作提出了機器學習的多個分布學習、圖像分類和多代理通信子領域中重要的未來方向。

//www.repository.cam.ac.uk/items/8680585b-87ca-4196-987f-c4d379259092

記憶與學習是否相同?阿根廷作家豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)的短篇小說《記憶者富內斯》(Funes the Memorious,由James E. Irby翻譯成英文[71,第59–66頁])描述了一個名叫富內斯的男孩,在頭部受傷后獲得了完美的記憶。他開始詳細地記住他一生的每一個時刻。同時,他失去了泛化的能力:他的記憶彼此是孤立的。例如,他從不同的角度看到同一只狗,卻只把同一只狗的不同側面視為獨立的信息。他甚至不了解自己的身體是什么樣的(‘每次看到鏡中的自己的臉,看到自己的手,都讓他感到驚訝’),這導致了一個結論:‘思考就是忘記一個差異,進行泛化,進行抽象。在富內斯過于充實的世界里,只有細節。’""與富內斯相似,具有數百萬參數的現代神經網絡已被證明會記住訓練樣本,這可能導致一系列問題,例如:(1)對噪聲數據的高度敏感性[150, 221],(2)易受對抗性攻擊的影響[271, 87, 269, 287],(3)與人類學習相比樣本效率低[302, 303, 275],以及(4)對新數據的泛化能力差[62],即使新數據樣本直觀地與模型已經訓練過的數據有相似之處[61, 251]。這些問題可能出現在應用現代機器學習的任何領域。它們可能導致機器學習系統在使用過程中產生不透明的故障模式,從而導致對機器學習系統的信任度下降[297]。"

"標準機器學習方法中缺少對分布外泛化(Out-of-distribution generalisation)的能力。這些方法得到了統計學習理論[279]的支持,該理論證明了使用基于平均值的優化(經驗風險最小化[279])以及使用測試集估計泛化誤差的做法是合理的。然而,這一理論假設訓練(過去)和測試(未來)數據是獨立同分布的。在應用機器學習的許多實際領域中,這一假設是不正確的:現實世界的數據是異構的,其分布通常會隨時間變化。分布變化的實際來源包括機器學習系統用戶特性的變化,或一個有實體的代理(embodied agent)所處環境的變化。另一個常見的分布變化例子是由于語言(包括在線使用的語言)動態性而產生的。自然語言的不斷演變已被證明會改變語言模型的困惑度(perplexity),當這些模型在數月內多次應用時[164]。背景章節的第2.4節更多地涵蓋了分布變化的類型和相應的例子。由于這些變化,即使在常用的分布內測試集上達到接近100%的準確率也不總是能預示未來的性能,這一點已被眾多論文所證明[137, 15, 61, 235, 204, 62]。"

"在機器學習領域,關于分布外泛化(OOD generalisation)的主題實質上與機器學習本身一樣廣泛和復雜,并且在研究社群中同樣容易受到瞬息萬變的趨勢和不同觀點的影響。在我看來,面對分布變化提高泛化能力是必要的,原因如下: ? 工程原因 — 提高樣本效率,并在沒有數千個訓練樣本的低資源領域提高性能[110]; ? 科學原因 — 深入了解神經網絡是如何學習的,并可能讓機器學習更接近人類學習; ? 商業原因 — 在目前由人類執行的越來越復雜的任務中使用神經網絡; ? 社會原因 — 通過控制簡單性偏見[246]來消除機器學習系統的偏見。

利用數據中的‘捷徑’可能會導致不公平的解決方案(例如,這可以在招聘工具中利用性別信息時看到[59])。在我的博士研究期間,我一直在問自己:致力于分布外泛化的機器學習研究社群最需要什么樣的工具?這篇論文旨在以新數據集、新理論結果、新測試平臺、新實驗結果和新算法的形式提供這樣的工具。這些研究努力的具體成果總結在圖1.1中。"

導致這篇論文的研究工作涉及機器學習的三個子領域:多分布學習(第3章)、圖像分類(第4章)和多智能體通信(第5章)。這種廣泛的視角使我能夠收集更多證據來支持中心假設,并探討研究問題(第1.2節)。同時,本論文中介紹的工具旨在對我在博士研究期間有幸與之合作和學習的幾個機器學習社群有所用處:(1)不變學習和群體魯棒性社群(第3章),(2)視覺社群(第4章),以及(3)新興通信社群(第5章)。所有這些社群都在獨立地研究機器學習中的分布外泛化,正如我在背景章節(第2章)以及各自貢獻章節中所回顧的。本論文聯系了我在研究中涉足的之前是分離的社群,例如圖神經網絡[141]與新興通信[43](第5章),以及面向群體魯棒性的數據導向方法[36]與分布魯棒優化[21](第3章)。"

付費5元查看完整內容

本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。

論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。

這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。

近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。

付費5元查看完整內容

受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。

付費5元查看完整內容

近年來,機器人領域發展迅速,機器人被用于越來越多的應用中,從制造業到醫療健康再到家務勞動。機器人技術的關鍵挑戰之一是使機器人能夠在非結構化和動態環境中執行復雜的操作任務。雖然機器人學習和控制已經取得了重大進展,但許多現有方法受到限制,因為它們依賴于預定義的運動基元或通用模型,而這些模型沒有考慮到個人用戶、其他合作智能體或交互對象的特定特征。為了在這些不同的環境中有效地工作,機器人需要能夠適應不同的任務和環境,并與不同類型的智能體進行交互,如人類和其他機器人。本論文研究學習方法,使機器人能夠適應他們的行為,以實現智能機器人行為。

在本文的第一部分中,我們專注于使機器人更好地適應人類。我們首先探索如何利用不同的數據源為人類用戶實現個性化。研究了人類如何喜歡用低維控制器(如操縱桿)遙控輔助機器人手臂。本文提出一種算法,可以有效地開發輔助機器人的個性化控制。這里的數據是通過最初演示機器人的行為,然后詢問用戶以從操縱桿收集他們相應的首選遙操作控制輸入來獲得的。探索了利用較弱的信號來推斷智能體的信息,如物理修正。實驗結果表明,人工修正是相互關聯的,共同推理這些修正可以提高精度。最后,研究了機器人如何通過推理和利用團隊結構更有效地與人類團隊合作和影響人類團隊,而不是只適應單個人類用戶。將該框架應用于兩種類型的群體動力學,即領導-跟隨和捕食者-被捕食者,并證明機器人可以首先開發一種群體表示,并利用這種表示成功地影響一個群體以實現各種目標。

在本文的第二部分,我們將研究范圍從人類用戶擴展到機器人智能體。本文解決了分散的機器人團隊如何通過只觀察其他智能體的行動來相互適應的問題。本文發現了團隊中存在無限推理循環的問題,并通過為機器人智能體分配不同的角色,如"發言人"和"聽眾",提出了解決方案。這種方法使我們能夠將觀察到的行動視為一個溝通渠道,從而實現分散團隊內的有效協作。在本文的第三部分,我們探討了如何通過開發定制的工具來適應不同的任務。強調了工具在確定機器人如何與物體交互方面的關鍵作用,使它們在為特定任務定制機器人方面變得重要。為解決這個問題,本文提出一個端到端的框架,通過利用可微物理模擬器來自動學習富接觸操作任務的工具形態學。最后,對全文進行了總結,并對未來的研究方向進行了展望。

付費5元查看完整內容

在過去的十年中,自然語言處理(NLP)系統幾乎完全建立在大型神經模型的基礎上。由于這些模型的能力,可行的任務范圍擴大了,應用的空間也擴大了,包括具有現實世界影響的子領域,如事實核查、假新聞檢測和醫療決策支持。這些模型的規模和非線性的增加導致了不透明,阻礙了機器學習從業者和外行用戶理解其內部原理并從其預測中獲得意義或信任的努力。可解釋人工智能(XAI)和更具體的可解釋NLP (ExNLP)領域通過提供對人類用戶有意義的文本解釋,已成為糾正這種不透明度并確保模型在高風險場景中的可靠性和可信性的活躍領域。可以檢查為其個人預測提供理由的模型,以調試、量化偏差和公平性、理解模型行為以及確定魯棒性和隱私(Molnar 2019)。無論任務模式如何,文本解釋是機器學習數據集中的主要解釋形式。因此,本文涵蓋了自然語言任務解釋和自然語言任務解釋兩個方面。本文提出了兩種語義定義下的模型解釋質量評估測試集:忠實度(faithfulness)和人類可接受性(human acceptability)。我使用這些評估方法來研究兩種解釋形式和三種模型架構的效用。最后,我提出了兩種方法來提高解釋質量——一種增加了忠實突出解釋的可能性,另一種提高了人類對自由文本解釋的可接受性。本文努力增加在實踐中部署人工智能系統時積極使用和產生結果的可能性。

付費5元查看完整內容

機器學習在過去十年取得了重大進展。其最成功的范式是深度神經網絡,由連續表示層組成,其參數通過梯度下降在大規模數據集上進行優化。

深度神經網絡在許多任務上取得了卓越的性能,如物體識別、語言理解和自動駕駛。然而,他們仍然在推理任務中掙扎,這些任務通常需要操作符號并將多個步驟組合起來,例如,求解數學方程或編寫計算機程序。在這篇論文中,我們的目標是彌合這一差距,并教機器以精確、系統、可解釋和魯棒的方式進行推理,以應對現實環境中的模糊性。**本文采用神經符號方法,結合機器學習和符號推理的互補優勢。符號推理具有精確性和系統性。**但它已被限制在可嚴格形式化的領域。相比之下,主要的機器學習方法很靈活,但眾所周知難以解釋,需要大量數據,并且無法在訓練分布之外進行泛化。集成兩種方法的優勢對于構建具有精確和系統泛化能力的靈活推理機至關重要。具體而言,本文從兩個角度研究了神經符號推理。首先,將機器學習應用于與符號推理相關的任務,如自動定理證明(第2章)。其次,將符號推理啟發的歸納偏差引入機器學習模型,以提高其可解釋性、泛化性和數據效率(第3章和第4章)。結果強調了(1)神經符號模型架構,(2)在適當的抽象水平上進行推理,以及(3)明確的、推理的組合表示,如符號證明。 //dataspace.princeton.edu/handle/88435/dsp015q47rr958

付費5元查看完整內容

一個機器人要想在非結構化的室外環境中與人類高效合作,就必須將指令從操作者直觀的模態轉化為行動。機器人必須能夠像人類一樣感知世界,這樣機器人所采取的行動才能反映自然語言和人類感知的細微差別。傳統上,導航系統結合了個人感知、語言處理和規劃塊,這些塊通常是根據不同的性能規格單獨訓練的。它們使用限制性接口進行通信以簡化開發(即,具有離散屬性的點對象和有限的命令語言),但這也限制了一個模塊可以傳遞給另一個模塊的信息。

深度學習的巨大成功徹底改變了計算機視覺的傳統研究方向,如目標檢測和場景標記。視覺問答(VQA)將自然語言處理中的最先進技術與圖像理解聯系起來。符號基礎、多步驟推理和對空間關系的理解已經是這些系統的元素。這些元素統一在一個具有單一可微損失的架構中,消除了模塊之間定義良好接口的需要,并簡化了與之相伴的假設。我們介紹了一種將文本語言命令和靜態航空圖像轉換為適合規劃的成本圖的技術。我們建立在FiLM VQA架構的基礎上,對其進行調整以生成成本圖,并將其與修改后的可微分計劃損失(最大邊際計劃)結合起來使用Field D*計劃器。通過這種架構,我們向統一語言、感知和規劃到單一的端到端可訓練系統邁出了一步。

我們提出了一個源自CLEVR數據集的可擴展綜合基準測試,我們用它來研究算法在無偏倚環境中具有幾乎無限數據的理解能力。我們分析了該算法在這些數據上的表現,以了解其局限性,并提出未來的工作來解決其缺點。我們使用真實的航空圖像和合成命令提供混合數據集的結果。規劃算法通常具有高分支因子,并且不能很好地映射到近年來催化深度學習發展的GPU。我們精心選擇了Field D和Max Margin Planning,以在高度并行的架構上表現良好。我們引入了一個適用于多GPU數據并行訓練的Field D版本,它使用Bellman-Ford算法,與我們的cpu優化實現相比,性能幾乎提高了十倍。在團隊中工作的人之間的流暢互動取決于對任務、環境和語言微妙之處的共同理解。在這種情況下工作的機器人也必須這樣做。學習將命令和圖像轉換為具有可微分規劃損失的軌跡是捕捉和模仿人類行為的一種方法,也是實現機器人和人類無縫交互的一小步。

付費5元查看完整內容

現實世界中越來越多的控制問題需要軟件智能體團隊通過合作來解決聯合任務。每當人類工人被機器取代時,例如制造業中的機器人手臂或交通運輸中的自動駕駛汽車,這種任務自然就會出現。與此同時,新技術產生了新的合作控制問題,這些問題超出了人類的能力范圍,例如在包裹路由方面。無論是出于物理約束,如部分可觀察性、魯棒性要求,還是為了管理大型聯合行動空間,協作代理通常需要以完全分散的方式工作。這意味著每個智能體在任務執行期間只能訪問自己的局部感知輸入,而沒有與其他智能體的顯式通信通道。深度多智能體強化學習(DMARL)是這種環境下學習控制策略的自然框架。當在模擬或實驗室中進行訓練時,學習算法通常會獲得在執行時無法獲得的額外信息。這種帶去中心化執行的集中訓練(CTDE)給試圖利用集中設置來促進去中心化策略訓練的DMARL算法帶來了許多技術挑戰。這些困難主要來自聯合策略學習和獨立學習之間的明顯不一致,聯合策略學習可以學習任意策略,但不是簡單的去中心化的,并且隨著智能體的數量而擴展性差。獨立學習很容易去中心化和可擴展性,但由于其他學習智能體的存在,其表達能力較差,并且容易出現環境的非平穩性。

本文的第一部分開發了使用價值分解技術的算法,以利用分散策略的集中訓練。在深度多智能體強化學習的單調值分解中,提出了新的q學習算法QMIX。QMIX使用集中式單調混合網絡來建模聯合的團隊行動-價值函數,但這些函數可以分解為離散行動空間上的分散智能體策略。為了評估QMIX的性能,我們開發了一個新的基準套件,星際爭霸多智能體挑戰(SMAC),它在星際爭霸II的單元微管理中具有各種離散動作協同控制任務。與已有的玩具環境不同,由于大量不同的單位類型和復雜的內置敵人啟發性,SMAC場景以多樣化的動態為特色。許多機器人控制任務具有連續的動作空間。為了將值分解擴展到這些設置,在FACMAC: Factored多智能體集中式策略梯度中,重點研究了CTDE環境下多智能體學習的actor-critic方法。由此產生的學習算法FACMAC在SMAC上實現了最先進的性能,并打開了使用非單調批評因子分解的大門。就像QMIX一樣,我們為協作連續控制任務引入了一個新的基準套件,Multi-Agent Mujoco (MAMujoco)。MAMujoco將流行的Mujoco基準套件中的機器人分解為多個具有可配置部分可觀測約束的智能體。

本文的第二部分探討了公共知識作為行動協調和溝通資源的價值。在大量實際感興趣的任務中,智能體組之間的公共知識出現了,例如,智能體是否可以在重疊的視野中相互識別。在多智能體公共知識強化學習中,本文提出了一種新的actor-critic方法MACKRL,該方法在不同規模的智能體組之間的公共知識上構建一個分層控制器。這種層次結構產生了一個分散的策略結構,該結構實現了一個聯合獨立的混合策略,該策略執行分散的聯合策略或退回到獨立的策略,這取決于代理組之間的共同知識是否足夠提供行動協調所需的信息。這樣,在充分分散權力的同時,MACKRL也享有聯合策略訓練的協調優勢。 論文的第三部分研究了如何學習高效的協同任務隱式通信協議。在通過馬爾可夫決策過程進行通信中,我們將探討發送方智能體如何在僅通過其動作將信息通信給接收方代理的同時最優地執行任務。在這種新型的隱式參考博弈中,發送方和接收方智能體通常都知道發送方的策略和發送方的軌跡。通過將發送者任務拆分為單個智能體最大熵強化學習任務和基于最小熵耦合的單獨消息編碼步驟,我們表明,我們的方法GME能夠建立比那些訓練過的端到端通信通道更高帶寬的通信通道。

綜上所述,本論文在集中訓練與分散執行框架下的協同控制的深度多智能體強化和兩個相關的新基準套件中提出了一些重要貢獻。在此背景下,我們對價值分解、在多智能體學習中使用公共知識以及如何有效地學習隱式通信協議做出了貢獻。

//ora.ox.ac.uk/objects/uuid:d68575fc-8b5b-4b57-afd

付費5元查看完整內容

近年來,人工智能研究取得了驚人的發展和進步。這些進步主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯一直是自然語言處理的基本任務。然而,許多實際應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,而且還需要解釋自然語言的描述或命令,并理解它們如何與它所感知的視覺觀察相關聯。此外,機器人需要利用這些信息進行決策,并決定為了完成任務而采取哪些物理行動。在本文的第一部分,我提出了一種學習如何將自然語言與三維形狀聯系起來的方法,使系統能夠將文本描述中描述的“圓”等詞與三維物體中的圓的幾何屬性進行連接。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度、屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行諸如文本到形狀的檢索和形狀操作等任務,還可以實現新的任務,如文本到形狀的生成。在本論文的第二部分,我們允許主體被具體化,并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:機器人導航通過遵循自然語言指令。不再依賴于固定的圖像或3D對象數據集,代理程序現在位于一個物理環境中,并使用機載相機捕捉自己對空間的視覺觀察。為了在視覺、語言和機器人物理狀態之間建立聯系,我們提出了一個使用拓撲圖執行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列視覺觀察與物理動作和行動聯系起來。

//searchworks.stanford.edu/view/13876455

付費5元查看完整內容
北京阿比特科技有限公司