亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

我們如何在物理世界中構建智能具身體智能體?此類智能體應能夠在面對前所未見的任務時自主完成目標,同時應對環境中的外部擾動,以及諸如光照變化、多樣的傳感器輸入、與其他智能體或物體的意外交互等因素的組合變化。 構建此類智能體的一個重要子目標,是開發能夠穩健泛化的模型——不僅能泛化到與訓練階段類似的任務分布,也能泛化到全新的、從未見過的任務分布。這一目標突破了標準機器學習方法的假設,即訓練分布與測試分布相同。為達成該目標,本論文將展示如何通過對每個任務的所有可能預測估計能量場景(energy landscape),并將準確預測分配較低能量的方式,來實現某些形式的泛化能力。 這種建模方法將預測過程形式化為能量場景中的搜索過程,從而能夠通過適應能量場景實現對新約束條件的零樣本(zero-shot)泛化。此外,這種方法還使我們能夠通過組合多個已學習的能量場景,以零樣本的方式泛化到全新任務分布。 本論文首先提出一套訓練能量場景的方法及其代數結構,從而實現能量場景的組合與發現。接著,我們展示了能量場景如何以多種方式進行組合,包括邏輯運算、概率分布、圖模型、約束表示以及層級結構組合等,使模型能夠在視覺、決策、多模態推理與科學計算等多個場景中實現高效泛化。 人工智能的一個重要目標是構建能夠在新環境中自主運行并完成眾多未見任務的具身智能體。要實現這一目標,智能體不僅需要在與訓練時任務分布相似的環境中運行,還需具備在預測時泛化到全新任務分布的能力。 近年來,機器學習技術在人工智能的諸多子領域,如計算機視覺和自然語言處理中取得了顯著進展。然而,這些方法普遍基于統計機器學習原理,默認訓練與預測分布相同。為了覆蓋具身智能體可能遭遇的各種情境,現有工作通常傾向于收集規模更大的訓練數據集。但這種方法并未解決泛化這一根本問題,也很難想象可以采集足夠的數據來涵蓋所有可能情境。 本論文提出一種通過建模任務預測空間中的能量場景(energy landscape)來提升機器學習泛化能力的方法。在該能量場景中,能夠成功完成任務的預測點被賦予較低能量,而其他點則具有較高能量(依據玻爾茲曼分布,這對應于“完成任務的可能性”)。從已學習模型中進行推理,即是在能量場中尋找低能量點的過程。 與直接學習一個策略函數生成預測不同,這種推理方式較少“編譯化”,因而速度較慢,需要額外的搜索過程來生成明確的預測。但正是這種搜索過程,賦予了預測過程顯著的靈活性,使得我們可以在預測階段動態調整過程以泛化到新的分布。 首先,這一搜索機制允許我們在測試時引入新的約束,只需將約束加入已有的能量場中,并優化目標為在新能量場中能量最低的預測點,從而在零樣本條件下實現對新約束的泛化。 其次,更進一步地,該能量建模方法允許我們以零樣本方式將多個已學習的能量場組合在一起,形成更復雜的能量場景。這種組合可以被視為模型間的“通信語言”,確保預測同時滿足每個組成能量函數中的約束。這使我們能夠通過指定所需組合的能量場,像編程一樣構建新系統。這一方法無需額外訓練或數據,因此也支持對前所未見任務的泛化。 我們將這種由簡單模型構建復雜系統的方法稱為組合建模(compositional modeling)。面對復雜的分布建模任務,借助組合建模,我們可以學習描述該分布中變量子集之間交互的能量場,并將其組合,進而建模整個復雜分布。這些子分布更簡單,所需參數更少、訓練數據更少。此外,只要每個子能量函數在其本地分布內表現良好,組合后的模型也可以對全局分布中的未見部分實現泛化(見圖1-1)。 組合建模還可有效捕捉自然界中廣泛存在的稀疏性對稱性。例如,智能體與環境動態之間的稀疏交互可以通過各自獨立的能量場建模;而對稱性則可通過多個相同能量函數的實例來表示,如圖像中采用相同的子塊級模型進行平鋪,或在動力系統中為粒子對之間的雙邊交互應用同一能量函數。通過將此類結構融入模型中,我們能夠在有限數據下實現有效學習與對未見情境的泛化。 本論文將展示如何通過組合能量場來實現多種形式的組合建模。我們首先介紹如何實現邏輯組合,利用嵌套邏輯操作來構建集合(圖3-1);然后展示如何組合概率分布,實現如乘積、混合與逆分布等操作(圖3-4);接著展示如何組合圖模型(有向與無向),以組合輸入不同部分的概率分布(圖3-5);此外還包括將組合方法用于約束滿足問題(圖6-11)、實現層級組合(圖7-5),如將語言、視頻和動作模型組合實現層級規劃。 論文分為兩大部分: * 第一部分介紹如何學習與組合能量場; * 第二部分討論組合能量場在多個領域中的應用實踐。

全文結構如下: 1. 第2章:介紹學習能量場的方法,包括確定性預測與概率建模兩方面; 1. 第3章:提出一種能量場組合代數框架,用于實現邏輯操作、概率分布組合與圖模型等操作; 1. 第4章:介紹如何從無標簽輸入中挖掘可組合的能量場(適用于確定性與概率場景),并說明如何利用預訓練模型發現這些能量場; 1. 第5章:探討該方法在計算機視覺中的應用,包括組合建模對場景理解與領域適應的作用; 1. 第6章:探討該方法在機器人任務中的應用,包括規劃與約束求解; 1. 第7章:探討其在多模態預訓練基礎模型中的應用,如視覺問答與層級規劃; 1. 第8章:探討組合能量場在逆向材料設計與蛋白質合成中的應用; 1. 第9章:總結全文并討論局限性與未來研究方向。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

人類在日常生活中通過多種感官與環境互動:視覺用于感知和理解環境,身體意識用于定位,語言用于交流和語義理解,觸覺則用于接觸反饋。同樣地,機器人在面對非結構化的真實世界環境中的操作任務時,也需要具備類似的多感官整合能力

本論文探討了如何融合多種感知輸入,以提升機器人在現實世界中操縱物體的能力。通過整合視覺(為機器人提供詳細的空間信息)、本體感覺(提供身體位置反饋)、語言(理解并執行指令)以及觸覺(提供精細接觸信息),我開發了安全、高效且具有良好泛化能力的機器人系統。 論文中的研究貢獻涵蓋多個方向,包括:感知-運動控制運動規劃模仿學習機械搜索富接觸操作任務以及多模態對齊,整體目標是提升機器人在跨模態感知、推理與行動能力,突破單一感知模態的局限。 研究首先從視覺與本體感知的融合出發,以增強機器人在分布偏移條件下的控制魯棒性,并通過基于擴散模型的軌跡生成方法提升規劃效率。接著,提出了一種基于**“下一個 token 預測”機制的上下文模仿學習方法**,使機器人能通過 prompt(提示)快速適應新任務。 隨后,論文將視覺與語言的融合引入到遮擋物體的機械搜索與通用操作任務中。借助大型視覺-語言模型(Vision-Language Models),實現了更強的語義推理能力,從而獲得更有效的操作策略。 進一步地,我研究了觸覺傳感在高精度操作任務(如工業插接與布料處理)中的應用,提出了自監督策略學習視覺-觸覺預訓練方法,顯著提升了任務成功率。 最后,我構建了一個新的對齊視覺、觸覺與語言的多模態數據集,以支持機器人領域的多模態學習研究。 通過理論分析、仿真實驗與真實機器人實驗,本論文全面展示了多模態感知如何增強機器人操作任務中的泛化能力、適應性與安全性//www2.eecs.berkeley.edu/Pubs/TechRpts/2025/EECS-2025-68.html

付費5元查看完整內容

在自主智能體(無論是軟件形式還是具身實體)應用中,交互式決策制定對于其有效運作至關重要。通常,智能體在一個多智能體環境中進行交互,其目標是實現各自或共享的目標。

在本論文中,我們研究了多智能體自適應決策問題,并以**多智能體主動搜索(Multi-Agent Active Search, MAAS)**框架為基礎,重點聚焦于多機器人團隊在搜索與救援、野生動物巡邏或環境監測等應用場景中的實踐問題。

MAAS涉及一個機器人團隊(智能體)在其過去觀測的基礎上,決定何時、在哪里獲取周圍環境的信息,以估計不同目標物體(OOIs,感興趣物體)的存在與位置。智能體之間通過異步通信進行協作,無需依賴中心控制器協調其互動。在實際環境中,智能體間通信可能并不可靠,而且野外環境中的機器人還需應對觀測噪聲和隨機動態的環境因素。我們在第一章中對MAAS進行了形式化建模,引入了針對空地機器人在感知、噪聲和通信約束方面的現實模型。

本論文第一部分研究了在MAAS中使用Thompson采樣和蒙特卡洛樹搜索(Monte Carlo Tree Search)進行非短視(non-myopic)前瞻性決策的優勢。同時,我們還引入了面向成本的多目標帕累托優化(Pareto optimization)框架,用于主動搜索問題,并指出該問題在部分可觀測、去中心化的多智能體決策及其組合狀態-動作空間的計算復雜性方面所面臨的挑戰。

第二部分聚焦于觀測噪聲和目標動態性所帶來的實際挑戰,并提出了基于貝葉斯濾波(Bayesian filtering)的算法。實驗結果表明,不確定性建模對于推理和決策過程的重要性不容忽視。 第三部分則轉向用于決策制定的生成模型,特別是**在存在觀測噪聲的前瞻性MAAS中采用去噪擴散采樣(denoising diffusion sampling)**方法。最后,我們探討了上述方法在機器人多智能體決策以及其他具有類似現實約束的應用中的可行性與局限性。

付費5元查看完整內容

強化學習(Reinforcement Learning)作為一種機器學習技術,已在解決復雜的序列決策問題中取得顯著進展。許多實際任務涉及多個智能體,并需要通過序列決策策略以達成共同目標,例如倉庫自動化、自動駕駛及游戲對抗等。為了為所有智能體學習合適的策略,這類問題可建模為多智能體系統,并通過多智能體強化學習(Multi-Agent Reinforcement Learning, MARL)進行求解。

然而,在多智能體場景下優化策略仍面臨諸多挑戰,主要原因在于智能體行為的復雜性以及環境動態的非平穩性。首先,在部分可觀測環境中,多智能體行為的復雜性顯著增加了策略優化的難度。此外,智能體行為的動態變化及其與其他智能體之間的交互會不斷改變環境狀態和智能體觀察結果,在開放環境下更為復雜。再者,現實中的多智能體任務往往需要在個體目標與整體目標之間實現權衡,這也進一步增加了決策制定的復雜度。 本博士論文旨在針對三類關鍵的多智能體研究問題提出解決方案,內容涵蓋從理論分析到實際應用。具體研究內容如下:

我們首先研究了在部分可觀測環境中學習高效策略的問題。我們關注的情境是:一組智能體在信息受限(無法觀測對手信息)的前提下與另一組智能體(即對手)展開對抗合作。為解決該問題,我們提出了一種新穎的多智能體分布式actor-critic算法,實現基于本地信息的對手建模。該方法中,actor維持一個“推測性對手模型”(speculative opponent model),利用自身的觀測、動作和獎勵來預測對手行為并據此決策。critic則建模策略的回報分布,從而評估actor表現并指導對手建模的訓練。大量實驗表明,在無對手數據的情況下,我們的方法依然能準確建模其行為,并在性能與收斂速度上優于現有基線方法。

其次,在某些環境中,智能體的隊友數量及其策略會隨著市場需求變化而動態變化,使得智能體必須能夠適應多種任務組合。針對這一挑戰,我們提出了一種基于強化學習的方法,使得控制智能體能夠在開放環境中與動態隊友展開協作。我們設計了一種“雙重團隊狀態推理模型”,以在部分可觀測條件下捕捉當前團隊狀態并輔助合理決策。針對隊友策略的多樣性,我們首先引入基于“中餐館過程”(Chinese Restaurant Process)的模型,將不同隊友策略歸類為多個簇,提升對當前團隊狀態的識別效率。隨后,采用異構圖注意力神經網絡(Heterogeneous Graph Attention Networks)學習團隊狀態的表示,進一步支持多變隊友數量與行為的建模。實驗結果表明,該方法在多種臨時協作任務中相較現有方法具有更快的收斂速度與更優的性能表現。 最后,在諸如路徑規劃、倉儲管理等現實任務中,決策者不僅要追求整體最優,還需兼顧各智能體之間的個體公平性。在此類多目標優化任務中,如何在學習效率與公平性之間實現平衡成為一大難題,尤其當前多數方法仍局限于仿真環境。為此,我們提出了一種創新性的多智能體強化學習方法,以實現個體目標與集體目標的協同優化。在多個合成與真實數據集上的實驗結果表明,該方法不僅優于現有的深度強化學習(DRL)方法,同時在優化速度上也明顯快于傳統啟發式算法,展示出在公平性與效率兼顧下的現實可用性。此方法為將“公平性”納入實際多智能體應用提供了有效路徑,推動了物流等行業中更公正、高效的智能決策系統發展。

綜上所述,本文圍繞多智能體決策制定中的三類核心研究問題展開,分別對應部分可觀測性、開放式環境以及個體-集體目標沖突等挑戰。針對這些問題,論文提出了三套創新的MARL方法,能夠在復雜環境下實現高效策略訓練與優化表現。此外,本文還在MARL關鍵模塊方面作出探索性設計,包括馬爾可夫決策過程(MDP)建模、策略網絡、訓練算法以及推理方法等。這些貢獻顯著提升了協作式MARL的性能與效率,樹立了新的性能基準。

付費5元查看完整內容

獎勵函數在強化學習(Reinforcement Learning, RL)中具有核心地位,引導智能體實現最優決策。由于強化學習任務通常具備高度復雜性,因此需要精心設計的獎勵函數,既能有效驅動學習過程,又能避免引發意料之外的行為后果。有效的獎勵設計旨在提供有助于智能體快速收斂至最優行為策略的學習信號。設計獎勵的挑戰在于:如何使其與任務目標保持一致、激勵期望行為并抑制不良行為,這一過程本身就極具難度。 本論文深入探討了獎勵信號在強化學習中的關鍵作用,重點分析其對智能體行為及學習動態的影響,同時系統討論了如延遲、模糊或復雜獎勵信號所帶來的挑戰。在本研究中,我們從多個維度研究了獎勵塑形(Reward Shaping)的問題。 首先,我們從“教師/專家”視角出發(即“教師驅動”方式),研究如何設計信息豐富且可解釋的獎勵信號。在此場景中,專家掌握最優策略及其對應的價值函數,并據此設計獎勵信號,以加速智能體向最優策略的收斂過程。 其次,我們在教師驅動方法基礎上提出了一種新穎的自適應可解釋獎勵設計方法。在該方法中,專家會根據學習者當前的策略動態調整獎勵函數,從而確保學習方向的對齊與最優性進展。 最后,我們提出一種元學習(Meta-Learning)方法,使智能體能夠在沒有專家參與的情況下在線自我設計獎勵信號(即“智能體驅動”)。該方法綜合考慮了智能體的學習過程與探索行為,從而構建了一個自我改進的反饋機制,實現獎勵信號的自主生成與優化。

付費5元查看完整內容

世界模型通過數據驅動的方式學習環境的動態,利用成本效益高的模擬和可微性,在控制、設計、識別和生成等下游任務中提高性能和效率。理想情況下,預訓練的世界模型應當滿足以下條件:(1)準確模擬真實動態,(2)能輕松適應新的配置,(3)能夠在不同的物理效應下進行泛化。此前的嘗試要么采用了具有少量可微物理參數的基于模型的物理學,要么僅為特定場景進行訓練,集成的物理先驗非常有限。這些世界模型未能實現其目標,限制了它們在現實世界中的準確評估應用以及擴展到更大的預訓練世界模型的能力。在本論文中,我們旨在通過神經物理學構建世界模型,神經物理學是一個混合神經-物理框架,利用可微物理學建模基本動態,同時通過神經網絡學習所有其他模塊。通過集成神經物理學,世界模型能夠緊密遵循物理原理,同時高效地學習多種效應。神經物理學的模塊化結構使得世界模型能夠通過簡單地安裝不同的預訓練神經模塊來適應新的配置。我們將展示這一新型框架在重建、機器人控制和科學發現等應用中的有效性。

1.1 動機

科學家們長期以來一直在研究有效的方法,以開發世界的高效表示,稱為世界模型[51, 95]。世界模型使得智能體能夠與環境進行交互,既可以預測未來事件[54, 57, 58, 80, 209, 211],也可以基于當前狀態或動作推導梯度[35, 37, 66, 67, 140, 142, 141, 191]。通常,世界模型具有感知來自環境的多模態信號的能力,并通過多模態反饋響應輸入的控制信號[51, 80, 113]。具有成本效益的未來軌跡和導數的可用性顯著提高了數據效率、魯棒性以及下游任務的性能,包括機器人控制和設計[57, 58, 113, 114]、推理[51]和生成[192]。 近期的研究已經開發了基于物理的世界模型,使用可微物理模擬器或殘差物理來建模諸如剛性體[141, 199]、可變形體[140, 142, 37, 191]、流體[35, 196]以及多物理系統[101]等已研究的物理效應。這些世界模型通常通過優化預定義的系統參數與現實世界的物理對齊良好,從而使它們能夠有效地推廣到未見過的配置。然而,依賴手動設計的物理引擎和系統參數限制了它們對未建模物理效應的普遍性。例如,使用基于專用有限元方法構建的可微變形體仿真來模擬流體環境需要大量的工作,甚至可能是不可能的。這一局限性凸顯了將這些模型擴展到多樣和復雜物理現象時所面臨的挑戰。 另一方面,另一個研究方向試圖使用圖神經網絡[154, 137]或潛在動態模型[53, 54],在最小物理先驗的基礎上建模世界。這些方法旨在建立基礎的世界表示,而不依賴過多的預定義物理參數,而是利用結構和學習到的表示來理解和預測動態。這可以導致更靈活的模型,而不受手動設計的物理限制。然而,由于缺乏基本的物理原理,這可能導致樣本效率降低、計算浪費以及物理完整性的妥協。 近期的研究還探討了通過使用物理信息神經網絡(PINNs)[146, 144, 145, 81]將物理先驗集成到普通神經網絡中的方法。在這種方法中,物理約束被作為損失函數進行公式化,并以自監督的方式回傳到神經網絡中。PINNs通過將數據與物理定律相結合,提供了一種新的視角來建模物理世界。然而,它們的集成通常過于弱,無法可靠地支持長期的下游任務。此外,PINNs通常針對特定場景配置和時間跨度進行優化,限制了它們在更廣泛場景中的應用。

付費5元查看完整內容

多機器人系統的學習型協同感知與控制多機器人系統(MRS)通過多智能體協同可解決復雜現實問題,但受困于維度災難——問題規模擴大時,求解難度呈指數級增長。基于學習的方法為多機器人規劃帶來新機遇:其將昂貴集中式求解器的在線計算負擔轉移至離線學習過程,顯著提升可擴展性。近年研究表明,**圖神經網絡(GNNs)**能學習顯式通信策略以實現復雜多機協同。在MRS中,機器人被建模為圖節點,通信鏈路為邊,各機器人內部狀態為圖信號。通過通信鏈路傳遞消息,每個機器人可獲得比局部觀測更精確的全局狀態估計。然而,將這些策略從理論模型遷移至實際MRS仍面臨關鍵挑戰:專家數據通常生成于仿真環境,但仿真訓練的策略往往難以泛化至現實世界。這種可遷移性缺失被稱為現實鴻溝,而跨越該鴻溝的仿真到現實(sim-to-real)遷移成為核心難題。單機器人領域的sim-to-real遷移主要處理機器人與物理環境的交互,而多機器人領域還需考慮機器人間交互。通信是高效多機協同的關鍵,但現實鴻溝對通信的影響尚未明晰。例如:多機協同訓練通常采用同步通信,而實際部署需異步分布式通信;消息丟包、延遲等隨機因素在同步訓練中常被忽略。現有研究鮮少評估模型對此類因素的魯棒性及其對策略性能的影響。現實MRS需依賴去中心化網狀通信網絡,這為sim-to-real遷移帶來額外挑戰。

研究貢獻本論文提出一系列創新框架,用于去中心化現實MRS的控制與感知策略部署驗證:1. 可學習通信的多機協同控制首次通過可微分通信信道結合強化學習(RL),訓練支持可學習通信的多機協同策略,并在多種仿真場景驗證;構建包含9臺敏捷地面機器人的Cambridge RoboMaster實驗平臺,實證對比集中式與去中心化部署方法,揭示sim-to-real遷移效應。2. 可學習通信的多機協同感知突破依賴外部定位基礎設施的全局狀態協同范式,探索基于單目相機局部感知的策略訓練:開發GNN視覺導航策略,實現無需標定的移動機器人目標引導;融合控制與感知技術,提出多機器人視覺空間基礎模型,支持實時去中心化感知與控制。該模型通過單目圖像預測相對位姿與局部地圖,性能超越需重疊視野與預設網絡架構的傳統方法;在多機編隊控制任務中驗證模型有效性,展示室內外場景下的去中心化部署能力。研究意義本論文彌合了MRS理論學習與實際部署的鴻溝,所提方法為構建高效、自適應的現實MRS奠定基礎。

付費5元查看完整內容

強化學習(RL)在自主智能體領域展現了巨大的潛力。然而,當將機器人應用于安全關鍵領域時,系統必須足夠穩健,才能在現實生活中部署。例如,機器人應能夠在不同的場景中執行任務,并避免進入不希望發生且不可逆的狀態,例如撞到障礙物,理想情況下,即使機器人無法實現其主要目標,也應滿足安全要求。 提高強化學習智能體穩健性的一種方法是通過領域隨機化來探索多種場景、環境參數和對手策略。然而,隨著智能體表現的提升,它變得不太可能探索那些表現較差的區域。解決這一問題的一種方法是對抗性訓練,其中對抗性智能體嘗試注入噪聲,迫使自我智能體表現不佳。然而,在這種設置中,對抗智能體更容易戰勝自我智能體,因此自我智能體往往在沒有專家監督的情況下無法克服對抗性噪聲。另外,隨著機器人進入更加非結構化的環境,環境因素可能比噪聲更大程度地影響狀態空間和動態的分布。

在我的論文中,我將討論如何利用課程學習幫助智能體有效地探索各種不同的情況、對手和動態,從而實現穩健的表現。論文的第一部分將介紹課程學習的基本理念,以及它如何被用來探索廣泛的環境。第二部分將擴展這一概念到多智能體領域,探討課程學習如何在協作和競爭、對稱和非對稱的設置中幫助找到穩健的策略。最后,我將擴展這些研究成果到質量多樣性領域,探索課程學習如何幫助我們找到一系列行為,這些行為累計起來能實現穩健性。

1.1 人工智能的進展與穩健性的需求

近年來,人工智能(AI)和深度學習經歷了顯著增長,并展現出了巨大的潛力。多家公司正在推出能夠基于數據識別和提出建議的AI智能體(79;80),這些智能體已經開始改善我們的生活質量。此外,還有努力在推動開發能夠不僅在看到某些數據時向人類提出建議,還能在看到這些數據時知道如何與世界物理互動并執行相應操作的智能體。對于能夠自主決策的智能體,強化學習(RL)展現了巨大的潛力。與其要求專家為每種情況手動設計并硬編碼所需的動作,RL智能體可以通過探索和與真實或模擬環境互動,自主訓練自己。RL智能體已經在各種模擬環境中展現出超越人類的表現,如圍棋、賽車甚至空對空戰斗(92;104;118)。 然而,這種應用也提出了一個新的穩健性挑戰,如圖1.1所示。雖然智能體可以展示超越人類的表現,但如果人類操作員不信任智能體的安全性,這些智能體將無法部署。例如,游戲AI在現實生活中已經相對被信任并得到應用。即使游戲AI遇到無法發揮全部性能的情況并未能贏得比賽,結果也不會是災難性的。游戲的目標是娛樂,只要人類用戶享受體驗,偶爾輸掉比賽的游戲AI是可以接受的。同樣,像OpenAI的Copilot這樣的代碼助手也相對被信任并得到應用。盡管該智能體會提供編程建議,但最終還是由人類程序員決定是否接受推薦并執行程序。假設人類程序員完成其工作,智能體的失敗不會直接導致災難性失敗。另一方面,在自動駕駛的情況下,自動駕駛智能體是決策算法,通常是與現實世界交互的自動化流程中的最后一環。自動駕駛智能體的設計目的是完全移除安全駕駛員,因此,如果自動駕駛智能體出現故障,由于沒有人類進行錯誤過濾,結果可能會導致災難性后果,且在某些情況下是不可逆的。因此,為了將自動駕駛智能體部署到現實生活中的安全關鍵應用中,我們不僅需要智能體表現良好,還需要它在各種情況和環境中持續穩定地表現,而不會導致不可逆和災難性的狀態。本文將把穩健性作為確保智能體在預期操作的情境中不會陷入不可逆和災難性狀態的一種方式進行探討。

1.2 解決穩健性問題的方法

機器學習中關于穩健性的研究有多種方式。一些研究專注于驗證訓練后的模型在操作數據集中的表現不會失敗(40;55)。將這一概念擴展到強化學習(RL),可以使用控制屏障函數(CBF)(3)來確保RL策略不會進入不可恢復的狀態(30)。控制屏障函數結合了領域和動態的專家知識,用于定義哪些狀態是安全且可恢復的。 結合這一思想,我們關注自主智能體能夠覆蓋和解決多少種情況,而不會進入不可逆和災難性的區域。在本文中,我們將穩健性定義為智能體在更廣泛的情境中實現高性能的能力。我們的目標是訓練出能夠部署到安全關鍵情境中的穩健策略,如駕駛和飛行,其中無法處理某些不可避免的長尾情境會阻礙RL智能體的部署。

付費5元查看完整內容

許多日常任務要求我們與他人互動。互動或合作使我們能夠結合各自的優勢,從而實現個人無法單獨完成的更多目標。

同樣,當我們嘗試自動化這些任務時,僅依靠一個機器人可能是不可能的或代價過高的。然而,協調多個機器人是困難的:從多機器人系統的大規模狀態空間的計算挑戰,到如何將一個操作員的輸入映射到多個機器人上,互動的多個層面可能在人與人之間的互動中較為微妙,但在與機器人協作時,必須明確加以解決。 本論文的目標是解決這些問題中的一些最重要的挑戰。 我們首先探討與單一機器人系統和多機器人系統的直接遙操作相關的一些挑戰。通過操作性優化和零空間投影方案,我們提高了多臂系統避免奇異性并更快速跟隨操作員輸入的能力。我們提出了一種快速的局部優化方案,以及利用牛頓法的二階優化,并比較了兩者的性能,展示了該方法在真實的ABB YuMi雙臂機器人上的表現。接下來,我們將系統擴展到移動機器人。雖然移動機器人在許多方面優于固定基礎系統,但它們也引入了額外的復雜性。我們研究了非完整約束滑模轉向機器人(非全向輪驅動機器人)的驅動動力學,以及操作臂姿態和載荷如何影響轉向能力。此外,我們引入了避免機器人間碰撞、翻車避免和能夠在高度受限的環境中移動的術語。我們將綜合方法部署到多個配備UR5e操作臂的Clearpath Husky平臺,并展示它如何改善開環性能,超越傳統的控制方案。 最后,我們更詳細地探討了用戶如何與多機器人系統互動。 我們比較了基于平板的增強現實(AR)解決方案與HoloLens混合現實(MR)頭戴設備。通過向研究參與者呈現不同的觸摸互動以及支持手部追蹤的手勢,我們比較了他們在多個任務中的表現,目標是引導一組小型差速驅動機器人。我們比較了不同任務中的客觀和主觀表現,發現特別是空間互動在三維用戶界面中受益明顯。

總之,我們探索并研究了人類與機器人之間的相互作用,旨在實現多機器人系統中有效且直觀的互動。 我們提高了機器人跟隨用戶輸入的能力,提出了一種方法論用于復雜的非完整約束多機器人系統的軌跡優化,并研究了基于手勢的與移動機器人直觀交互的方式。我們將這些方法部署到實際的機器人中,期望將其應用于未來的建筑工地或倉庫,以改善未來工作場所的效率。

//www.research-collection.ethz.ch/handle/20.500.11850/707468

付費5元查看完整內容

物理啟發的生成模型(如擴散模型)構成了一類強大的生成模型家族。該模型家族的優勢在于相對穩定的訓練過程和強大的容量。然而,仍有許多可能的改進空間。在本論文中,我們首先將深入探討擴散模型在訓練和采樣方面的改進技術。擴散模型的訓練目標在數據分布為多模態時呈現出較高的方差。為了解決這一問題,我們提出了一種訓練目標,它推廣了傳統的去噪得分匹配方法,顯著減少了訓練目標的方差。除此之外,我們還引入了一種將可學習的離散潛變量整合到連續擴散模型中的訓練框架。這些潛變量簡化了擴散模型復雜的噪聲到數據映射的學習過程。

另一方面,擴散模型的采樣過程通常涉及求解微分方程。為加速采樣過程,我們提出了一種新穎的采樣算法,結合了之前常見的ODE和SDE采樣器的優點,大幅提升了預訓練擴散模型的性能。此外,我們的研究探索了在有限樣本中引入互斥力以促進生成過程中的多樣性。 在物理啟發的生成模型領域,許多物理過程都可以用于開發生成模型。我們將介紹一類基于靜電理論的新生成模型家族,稱為泊松流生成模型(PFGM)。PFGM在采樣穩健性上表現出色,并與領先的擴散模型相媲美。其擴展版本PFGM++將擴散模型和PFGM置于同一框架下,并引入了新的、更優的模型。我們還將提出一種系統化的方法,將物理過程轉化為生成模型。

生成模型在近年來顯著改變了人們工作的、創作的和學習的方式。其突出應用包括ChatGPT [1]、文本到圖像模型 [2]-[4]、文本到3D模型 [5]、[6] 和文本到視頻模型 [7]、[8]。這些能力可以極大地激發創造力,并提高眾多領域的工作效率,包括教育、游戲產業、社交媒體和專業編輯軟件。生成模型的訓練基于這樣一個假設,即訓練數據是從未知的數據分布中采樣的 [9]。現代生成模型通常使用深度神經網絡來基于有限的訓練數據逼近復雜的數據分布,并通過從這些建模的分布中采樣來生成新的數據點。

在生成建模中使用的各種數據類型中,高維數據由于維度詛咒而面臨著顯著的挑戰。隨著維度的增加,數據空間的體積呈指數級擴展。這一現象使得在高維空間中用有限的訓練數據有效捕獲和建模數據分布變得困難。此外,感興趣的數據分布通常高度復雜且呈多模態,進一步增加了生成建模的難度。近年來,擴散模型 [10]–[12] 以及更廣泛的物理啟發生成模型 [13],在處理高維數據的生成任務中,展現了強大的框架并取得了令人印象深刻的結果。在擴散模型之前,主要的方法包括:(i)利用對抗訓練目標的生成對抗網絡(GANs [14]);(ii)使用最大似然目標訓練的模型,如PixelCNN [15] 和正規化流模型 [16]、[17];(iii)變分自編碼器(VAEs)[18]、[19] 以及(iv)基于能量的模型 [20]、[21]。然而,每種方法都有其自身的缺點:(i)可能導致訓練不穩定和生成樣本的多樣性低;(ii)需要特定的架構設計,可能限制模型的容量;(iii)需要多個神經網絡的仔細協調;(iv)訓練和采樣速度較慢。利用自然的物理過程作為編碼器將數據轉化為噪聲,擴散模型通過逆轉這些物理過程來執行生成任務。這種方法使它們繞過了早期生成模型的許多限制。

1.1 通過逆轉物理過程進行生成建模

基于熱力學的原理 [10],擴散模型涉及兩個對立的過程:一個前向過程將數據分布逐漸轉化為一個更簡單的先驗分布,另一個反向過程通過逐步去噪從該噪聲先驗分布中生成樣本。擴散模型中的前向過程是一個簡單的布朗運動,通過逐步增加高斯噪聲來降解數據。為了逆轉這一過程,只需學習一個時間依賴的向量場,即得分函數,并迭代求解一個微分方程 [22]。與GANs和VAEs不同,擴散模型的訓練不需要多個神經網絡之間的同步,從而使訓練過程更加穩定。此外,它們在架構設計上不受限,采用類似于神經網絡串聯的迭代過程,從而增強了整體容量。這種穩定性和增強的容量使擴散模型能夠有效擴展到大規模數據集。

盡管擴散模型具有諸多優勢,但它們仍面臨一些挑戰,包括在處理多模態數據時高方差的訓練過程,以及緩慢的迭代采樣過程。此外,獨立同分布(i.i.d.)的采樣過程往往會導致重復的樣本。這些問題強調了在復雜數據集上穩定和改進擴散模型訓練方法的必要性,并且需要新技術來加速采樣過程并提高小批量樣本的多樣性。此外,擴散模型只是眾多物理啟發生成模型之一。除布朗運動外,仍有許多物理過程尚未開發,可以用來構建生成模型。這引出了一個重要問題:我們能否發現其他物理啟發的生成模型,它們展示出更好的性能?在接下來的部分中,我們將簡要總結擴散模型的改進訓練和采樣技術,并討論我們開發其他物理啟發生成模型的研究,這些將在后續章節中詳細闡述。

1.1.1 擴散模型的改進訓練技術

擴散模型的訓練利用了一種擾動-去噪方法來估計向量場。其過程是先通過高斯噪聲擾動干凈的數據,然后網絡從這些擾動樣本中重構原始數據 [12]。然而,對于復雜的多模態數據,許多干凈的數據點可能被擾動為相似的噪聲樣本,導致訓練目標不明確并引發不穩定性。

在文獻 [23] 中,我們通過多個干凈數據點的加權求和來估計真實目標,精確地指示從擾動樣本到真實向量場的方向。該新穎的訓練目標推廣了傳統的單點估計方法,顯著減少了訓練目標中的方差。因此,在各種擴散模型變體中,樣本質量得到了提高,訓練過程更加穩定,訓練速度也得到了加快。

擴散模型面臨的另一個挑戰是,需要學習一個從單峰高斯分布到多峰數據分布的非線性且高度復雜的映射。這種復雜性增加了訓練的難度,并導致生成常微分方程(ODE)[24] 軌跡呈現強烈的曲率。為解決這一問題,我們在擴散模型中引入了離散潛變量。這些離散潛變量有助于捕獲數據分布中的不同模式,而擴散模型的任務則轉變為基于給定的離散潛變量捕獲每個模式內的連續變化。離散與連續變化的分離建模顯著簡化了模型復雜的噪聲到數據映射的學習過程。這一方法有效降低了擴散模型生成ODE的曲率,尤其是在較大的擴散時間下,整體訓練損失得到了減少。

1.1.2 擴散模型的改進采樣技術

在擴散模型的采樣過程中,求解微分方程通常涉及速度和質量之間的權衡。確定性采樣器(基于ODE的)[25]–[27] 速度快,但性能達到平臺期,而隨機采樣器(基于SDE的)[27]、[28] 樣本質量更好,但速度較慢。我們的分析將這種差異歸因于采樣誤差:ODE采樣器的離散化誤差較小,而SDE中的隨機性會收縮采樣過程中的累積誤差 [29]。

基于這些見解,在文獻 [29] 中,我們提出了一種名為Restart的新采樣算法,該算法結合了ODE和SDE的優點。該方法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。前向噪聲的引入增強了隨機性的收縮效應,而逆ODE過程的遵循則加快了采樣速度。這種將隨機性和確定性采樣過程分離的方法極為有效,Restart在標準基準(CIFAR-10和ImageNet-64)上超過了SDE和ODE采樣器的速度和質量,并在大規模文本到圖像的Stable Diffusion模型中展示了文本-圖像對齊、視覺質量和多樣性的卓越平衡。

傳統上,擴散模型從模型分布中生成獨立同分布的樣本。然而,在實際操作中,模型通常需要多次采樣以獲得一組多樣化的小批量樣本,這會帶來與采樣時間無關的成本。我們提出超越獨立樣本假設,以提高樣本的多樣性和效率。我們的方法引入了一種擴展的基于擴散的生成采樣方法,稱為粒子引導。在這種方法中,聯合粒子的時間演化勢通過在樣本(粒子)之間加入互斥力來強制多樣性。根據實驗結果,我們的框架在文本到圖像生成和分子構象生成等應用中提高了樣本的多樣性并減輕了記憶效應。

1.1.3 基于其他物理過程的生成模型

以擴散模型為顯著例子,物理啟發的生成模型包含一個前向過程,該過程將復雜的數據分布簡化為逐步的先驗分布,隨后通過一個反向過程(即采樣過程)逐步將這些先驗分布還原為原始數據分布。因此,為了定義新的物理啟發生成模型,必須確定一個合適的前向過程。該過程應自然地隨著時間簡化數據分布,并且是可逆的,同時其相關的向量場應該易于被神經網絡學習。 借助靜電學原理,我們為物理啟發的生成模型開辟了一條新路徑,并介紹了泊松流生成模型(Poisson Flow Generative Models, PFGM)[30] 及其擴展版本PFGM++ [31]。PFGM將數據解釋為增廣空間中的電荷。如圖1.1所示,當我們從數據支撐遠離足夠遠時,電荷分布坍縮為一個點電荷,電場在各個方向上呈現輻射狀。因此,可以證明這些電荷發出的電場線定義了數據分布和大半球上均勻分布之間的雙射。實驗結果表明,這一新模型家族在樣本質量、采樣速度和穩健性方面超越了擴散模型。此外,我們還探索了物理過程和生成模型之間的對偶性,旨在概念化和設計更多新的物理啟發生成模型 [13]。

1.2 論文摘要

本論文分為三個主題部分。下面簡要概述每個部分的內容。 第一部分 重點開發新技術,旨在穩定擴散模型的訓練,并在處理復雜的多模態數據集時,優化生成軌跡。

第三章 我們通過引入參考批次來解決擴散模型目標中的高方差問題,并使用參考批次計算加權條件得分,作為更穩定的訓練目標。我們展示了這一過程在具有挑戰性的中間階段中,通過減少訓練目標協方差(的跡)確實起到了幫助作用。本章基于文獻 [23]。

第四章 我們通過一個編碼器推斷可學習的離散潛變量,并對擴散模型和編碼器進行端到端訓練。離散潛變量通過降低擴散模型生成ODE的曲率,顯著簡化了其復雜的噪聲到數據映射的學習過程,并通過ODE采樣器提高了在各種數據集上的樣本質量。本章基于文獻 [32]。

第二部分 討論了加速擴散模型采樣過程的技術,以及通過施加樣本之間的互斥力來促進多樣性。所有討論的技術都不需要重新訓練,且可以直接應用于任何預訓練的擴散模型。

第五章 我們提出了一種名為Restart的新采樣算法,結合了先前ODE和SDE采樣器的優勢。Restart算法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。實驗結果表明,Restart采樣器在速度和精度上均超過了先前的SDE和ODE采樣器。本章基于文獻 [29]。

第六章 我們提出了粒子引導,一種擴展的基于擴散的生成采樣方法,其中通過一個聯合粒子的時間演化勢來強制樣本多樣性。在條件圖像生成中,我們測試了該框架,并證明其在不影響質量的情況下增加了多樣性;在分子構象生成中,我們改進了相較于先前方法的中位誤差。本章基于文獻 [33]。

第三部分 探討了一類新型的生成模型,這些模型基于靜電理論,并與擴散模型在擴展視角下進行了統一。本部分還展望了通過物理過程構建生成模型的方法論。

第七章 我們介紹了一種新型生成模型——泊松流生成模型(PFGM),基于靜電理論。我們將數據點解釋為增廣空間中 z=0 超平面上的電荷,生成一個高維電場(泊松方程解的梯度)。我們證明了,如果這些電荷沿電場線向上流動,它們在 z=0 平面的初始分布會轉化為半徑為 r 的半球上的分布,并且在 r → ∞ 時變得均勻。我們展示了PFGM在圖像生成速度上提供了比先前最先進擴散模型更好的性能。本章基于文獻 [30]。

第八章 我們擴展了PFGM中使用的靜電理論,將擴散模型與PFGM統一起來。更有趣的是,在兩者之間的插值揭示了一個性能最優的新平衡點,達到了圖像生成的新標桿性能。我們為為什么PFGM和擴散模型都是次優解提供了理論解釋。本章基于文獻 [31]。

第九章 我們提出了一個統一的框架和算法,將物理過程轉化為平滑的密度流生成模型。此外,我們基于底層物理偏微分方程(PDE)的色散關系,提出了一種分類標準。這種理論方法可應用于各種物理PDE,從而發現新的生成模型家族。本章基于文獻 [13]。

第十章 我們總結了論文內容并討論了當前的局限性。

付費5元查看完整內容

動態穩定移動操縱器的使用正從受控研究實驗室擴展到真實世界。然而,自主操縱技能仍然專門用于單一任務,并且只能處理對象物理屬性的有限變化,這阻礙了機器人在非結構化人類環境中的部署。本論文關注于動態穩定移動操縱器的整體運動規劃和控制,以及為控制器提供實時適應由于與物體交互而引起的機器人動力學變化。

動態穩定移動操縱器,即配備機器人手臂的積極平衡移動機器人,在為人類設計的環境中工作潛力非常大。然而,它們的靈活性和順應性需要高控制復雜性。傳統的控制策略將移動和操縱問題分別處理,需要額外的啟發式方法來實現整體協調。此外,基于逆動力學的控制器不考慮系統未來的演變,這對平衡控制至關重要。另一方面,在本論文中,我們提出了一種基于模型預測控制(MPC)的整體運動規劃和控制公式。我們的方法利用了完整的機器人動力學,并共同優化平衡、基座追蹤、末端執行器追蹤和環境交互。我們在一個球平衡操縱器的廣泛實驗中驗證了所提出的整體MPC控制器。

當機器人動力學不準確或操縱新物體時,模型不確定性可能嚴重影響MPC的性能和通用性。為了解決這個問題,我們提出了兩種在線適應方案,用于MPC系統動力學中的物體參數,我們在一個球平衡操縱器的開門和舉起物體任務中展示了這一點。盡管我們最初將外部環境建模為線性系統,但對于更復雜的操縱任務或機器人動力學中的不確定性,需要更具描述性的表示。因此,我們提出將模型誤差近似為三角函數基函數的線性組合。假設當機器人執行類似操縱任務時,動力學的基本結構不會發生顯著變化,我們從相關實驗中收集的數據學習基函數的超參數,例如,讓機器人打開具有不同剛度系數的門。執行新任務時,基函數的超參數保持不變,而線性參數在線適應。我們在仿真和硬件實驗中測試了得到的多任務學習MPC控制器,并與其他自適應MPC控制器進行了廣泛比較。

最后,為了在參數不確定性下獲得更好的跟蹤性能,我們將機器人操縱器自適應控制中導出的控制Lyapunov函數(CLF)約束納入最優控制問題的不等式集合中。因此,我們獲得了一種結合了CLFs和MPC優勢的自適應控制器,在機器人與未知物體交互時提供了改進的性能,并減少了對MPC預測范圍調整的依賴。我們通過與幾個基線的比較展示了所提方法的優勢,并在一個四足機器人搬運磚塊和拖拽重箱的硬件測試中驗證了它。

付費5元查看完整內容
北京阿比特科技有限公司