亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

移動機器人的自主控制和導航受到了很多關注,因為機器人有能力在復雜的環境中以高精度和高效率完成復雜的任務。與移動機器人有關的經典控制問題涉及到目標導航、目標跟蹤和路徑跟蹤,他們都有一個預先定義行為的目標。因此,控制設計沒有考慮到目標的未來行為。在監視、攔截、追擊-規避問題中,必須考慮到目標的未來行為。這些玩家(控制系統)與對手交戰的問題最好用博弈論來解決,博弈論提供了獲勝的最佳策略。然而,博弈論算法需要大量關于對手的信息來考慮對手的最優策略,從玩家的角度來看,這是最糟糕的情況。這種信息要求往往限制了博弈論在移動機器人上的應用。另外,在文獻中發現的大多數作品提出的離線解決方案只適用于整體系統。這篇博士論文提出了三種不同的解決方案,以每個玩家可獲得的對手信息為基礎,解決非合作性博弈問題。所提出的解決方案在本質上是在線的,并能納入避開障礙物的能力。此外,所設計的控制器首先在模擬中應用于非holonomic移動機器人,然后在類似環境中進行實驗驗證。在工作的第一部分,復雜環境中的點穩定問題是用非線性模型預測控制(NMPC)處理的,其中包括圍繞目標位置的靜態和動態避障。其次,該問題被轉換為涉及具有沖突的移動目標,以形成追逐-逃避博弈。該問題采用非線性模型預測控制來解決,其中比較了兩種穩定方法。NMPC方法的工作原理是,每個玩家只知道對手的當前狀態。然后提出了博弈論的算法來解決同樣的問題。第一種方法需要對手的所有信息,而另一種方法只需要對手的當前位置。這些方法在捕獲時間、計算時間、納入障礙物規避的能力以及對噪聲和干擾的魯棒性方面進行了比較。利用博弈論模型預測控制,提出并解決了一個位于點穩定和追逃問題的交叉點的新問題。這個問題被稱為目標防御的差分博弈(DGTD),它涉及到在到達靜態目標之前攔截一個移動物體。最后,所有提出的控制器都使用兩個移動機器人和實驗室的運動捕捉平臺進行了實驗驗證。

Keywords: 非線性模型預測控制,博弈論,自主系統,非完整移動機器人,避障,實時實驗驗證。

付費5元查看完整內容

相關內容

博弈論(Game theory)有時也稱為對策論,或者賽局理論,應用數學的一個分支,目前在生物學、經濟學、國際關系、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。主要研究公式化了的激勵結構(游戲或者博弈)間的相互作用。是研究具有斗爭或競爭性質現象的數學理論和方法。也是運籌學的一個重要學科。

在可視范圍內的空戰涉及執行高度復雜和動態的活動,需要快速、連續的決策以生存和擊敗對手。戰斗機飛行員花費數年時間來完善交戰戰術和機動動作,然而不斷出現的無人自主飛行器技術引起了一個自然的問題--自主無人作戰飛行器(AUCAV)能否被賦予必要的人工智能,以獨立完成具有挑戰性的空戰機動任務?我們制定并解決了空戰機動問題(ACMP),開發了一個馬爾可夫決策過程(MDP)模型來控制一個尋求摧毀對手飛行器的AUCAV。該MDP模型包括一個5自由度、點質量的飛機狀態轉換模型,以準確表示機動時的運動學和能量。ACMP中狀態空間的高維和連續性質使得經典的解決方法無法實施。相反,我們提出了一種近似動態規劃(ADP)方法,其中我們開發并測試了一種近似的策略迭代算法,該算法實現了神經網絡回歸,以實現AUCAV的高質量機動策略。為了計算測試的目的,我們指定了一個有代表性的攔截場景,其中AUCAV的任務是保衛一個責任區,必須與試圖穿透保衛空域的敵方飛機交戰并摧毀它。進行了幾個設計實驗,以確定飛機特性和對手的機動戰術如何影響擬議ADP解決方案的功效。此外,設計的實驗使高效的算法超參數調整成為可能。ADP生成的策略與目前ACMP文獻中發現的兩個公認的基準機動策略進行了比較,一個只考慮位置,一個同時考慮位置和能量。在調查的18個問題實例中,ADP策略在18個實例中的15個超過了只考慮位置的基準策略,在18個實例中的9個超過了位置-能量基準策略,在最能代表典型空中攔截交戰的問題實例中獲得了更好的殺傷概率。作為一個有趣的探索,以及對我們方法的定性驗證,由ADP策略產生的機動與標準的、基本的戰斗機機動和常見的特技飛行機動進行了比較。結果表明,我們提出的ADP解決方法產生了模仿已知飛行動作策略。

付費5元查看完整內容

在新環境中有效的自主導航對于智能體達到更復雜的自主水平至關重要。我們對改善攜帶輕型光電傳感器有效載荷的車輛在未知環境中的自主導航和估計感興趣。由于傳感的限制,在非瑣碎的新環境中,世界的許多幾何結構還沒有被觀察到,導致了嚴重的幾何模糊性。盡管收集額外的幾何信息可以減少模糊性,但這樣做往往與任務的目標相抵觸。我們建議將對象層面的語義信息和幾何信息結合起來,以切實改善導航和估計。

在這篇論文中,我們提出了在新環境中改善自主導航的三個貢獻。首先,我們通過將有用的導航行為編碼在由部分占有率和對象級地圖告知的抽樣分布中,來提高新環境中的導航效率。我們認識到,在有效導航時,在有限的視角下,對象層面的估計是具有挑戰性的,因此我們還開發了兩種在線建立對象層面表征的方法。在我們的第二個貢獻中,我們通過引入額外的紋理測量和語義類形狀先驗,提高了帶有橢圓體表征的對象級SLAM的視點效率。最后,在我們的第三個貢獻中,我們提出了一種新的深度學習的三維對象估計方法,利用間接的圖像空間注釋和類內形狀一致性來實現從單一的RGB圖像的三維對象估計。

付費5元查看完整內容

摘 要
 人工智能體在我們的世界中的流行提高了確保它們能夠處理環境的顯著屬性的需求,以便計劃或學習如何解決特定任務。

第一個重要方面是現實世界的問題不限于一個智能體,并且通常涉及在同一環境中行動的多個智能體。此類設置已被證明難以解決,其中一些示例包括交通系統、電網或倉庫管理。此外,盡管許多問題域固有地涉及多個目標,但這些多智能體系統實現中的大多數旨在優化智能體相對于單個目標的行為。通過對決策問題采取多目標視角,可以管理復雜的權衡;例如,供應鏈管理涉及一個復雜的協調過程,用于優化供應鏈所有組件之間的信息和物質流。

在這項工作中,我們關注這些突出的方面,并討論當涉及多個智能體時,如何將人工智能體的決策和學習過程形式化,并且在該過程中需要考慮多個目標。為了分析這些問題,我們采用了基于效用的觀點,主張在相互競爭的目標之間做出妥協,應該基于這些妥協對用戶的效用,換句話說,它應該取決于結果的可取性。

我們對多目標多智能體決策 (MOMADM) 領域的分析表明,迄今為止該領域已經相當分散。因此,對于如何識別和處理這些設置還沒有統一的看法。作為第一個貢獻,我們開發了一種新的分類法來對 MOMADM 設置進行分類。這使我們能夠提供該領域的結構化視圖,清楚地描述當前多目標多智能體決策方法的最新技術,并確定未來研究的有希望的方向。

在多目標多智能體系統的學習過程中,智能體接收一個值列表,每個分量代表不同目標的性能。在自利智能體人的情況下(即,每個人都可能對目標有不同的偏好),在相互沖突的利益之間尋找權衡變得非常簡單。作為第二個貢獻,我們繼續分析和研究不同多目標優化標準下的博弈論均衡,并提供有關在這些場景中獲得此類解決方案的存在和條件的理論結果。我們還表明,在某些多目標多智能體設置中,納什均衡可能不存在。

當決策過程中的每個參與者都有不同的效用時,智能體了解其他人的行為就變得至關重要。作為最后的貢獻,我們首次研究了對手建模對多目標多智能體交互的影響。我們提供了新穎的學習算法,以及將對手行為建模和學習與對手學習意識相結合的擴展(即,在預測一個人對對手學習步驟的影響的同時進行學習)。實證結果表明,對手的學習意識和建模可以極大地改變學習動態。當存在納什均衡時,對手建模可以為實現它的智能體帶來顯著的好處。當沒有納什均衡時,對手學習意識和建模允許智能體仍然收斂到有意義的解決方案。

提 綱
1 引言
 1.1 多智能體與多目標 1.2 激勵示例 1.3 研究目標和貢獻 1.3.1 貢獻 1.4 論文結構

2 多目標多智能體系統
 2.1 強化學習 2.1.1 基于價值的方法 2.1.2 策略梯度和演員評論家 2.2 多智能體決策理論 2.2.1 標準形式博弈與均衡 2.3 單智能體多目標決策 2.3.1 工具函數 2.3.2 多目標優化標準 2.3.3 應用案例場景 2.4 多智能體多目標決策 2.4.1 多目標隨機博弈 2.4.2 特殊案例模型 2.4.3 多目標標準博弈 2.4.4 MONFG優化標準 2.5 總結

3 構建多目標多智能體決策域
 3.1 執行階段 3.1.1 團隊獎勵 3.1.2 個體獎勵 3.2 解決方案概念 3.2.1 策略 3.2.2 覆蓋集合 3.2.3 均衡 3.2.4 ε近似納什均衡 3.2.5 聯盟形式與穩定概念 3.2.6 社會福利與機制設計 3.2.7 其他解決方案的概念 3.3 總結

4 多目標多智能體場景均衡
 4.1 MONFG計算均衡 4.1.1 定義 4.1.2 理論分析 4.1.3 用于SER分析的附加博弈 4.2 實驗 4.2.1 Game 1 - The (Im)balancing Act Game 4.2.2 Game 2 - The (Im)balancing Act Game without action M 4.2.3 Game 3 - A 3-action MONFG with pure NE 4.3 總結

5 多目標多智能體場景中的對手建模
 5.1 背景 5.1.1 對手建模 5.2 MONFG中的對手建模 5.2.1 對手學習意識和建模使用高斯過程 5.2.2 MONFG評價器 5.2.3 MONFG策略梯度方法 5.3 實驗設置與結果 5.3.1 完整信息設置 - MO-LOLA vs. MO-LOLA 5.3.2 無信息設置 5.4 總結

6 結論
6.1 討論 6.2 未來研究方向
 6.2.1 優化標準和解決方案概念 6.2.2 ESR計劃、強化學習與SER博弈論 6.2.3 對手建模和建模對手效用 6.2.4 互動研究方法 6.2.5 深度多目標多智能體決策 6.2.6 更廣泛的適用性

付費5元查看完整內容

? 非競爭性環境(城市駕駛)

競爭環境(賽車)

為什么機器人技術需要更多的博弈論?
博弈論的方法既適用于競爭環境,如賽車,也適用于非競爭環境,如城市駕駛。
在我們生活的這個十年里,機器人正在離開工廠車間,進入一個更加復雜的世界,其中有異構的代理,需要一種理性和系統的交互方式。
機器人技術的創新應用(如無人機送貨或自動駕駛)目前的進展突出了明確考慮其他代理和相關不確定性的決策過程的重要性。
我們相信,一個明智的未來是,自主的個體在充分意識到所面臨的風險的情況下做出理性的決定。

【part 1】 Tutorial ICRA 2021——“Game Theoretical Motion Planning”(47頁pdf)

1.1「 序 言 」
本手稿的范圍是為有興趣在多智能體環境中模擬運動規劃問題的戰略性質的讀者簡化初始步驟。從歷史上看,博弈論一直致力于研究眾多領域的理性決策:社會科學、經濟學、系統科學、邏輯學、計算機科學等等。
 如今,隨著機器人離開工廠進入一個更復雜的世界,我們相信許多博弈論概念非常適合捕捉多智能體運動規劃的動態性和互動性。它的承諾(和希望)是,明確地考慮他人的決策,賦予標準技術更豐富的描述能力。如果這一承諾是真的,我們的機器人就能更好地做出決策,從而促進我們社會的無縫融合。

1.2「 適用人群 」
一個在博弈論方面有很強背景,但在運動規劃方面很少的讀者,可能會發現他們一直知道的機器人應用概念的相關性。
一個具有運動規劃背景但對博弈論知之甚少的讀者可能會啟發如何將標準技術與博弈論概念相結合,以在自己的決策中明確考慮其他人的推理。
如果運動規劃和博弈論都是新的概念,我們希望能激發人們的好奇心,并激發這個話題的相關性。

1.3「 手稿結構 」
第二章以通俗易懂的語言介紹和激勵運動規劃任務的博弈理論概念。它提出了相應的數學模型的前向引用,這些模型出現在文檔的后面和超出范圍的主題中;
第三章介紹了博弈論的基本模型和一些擴展;
第五章向讀者介紹了在人工智能駕駛奧運會 (AIDO) 的背景下提出的兩個新的博弈論挑戰。

【part 2】Introduction for the ICRA 2021 Workshop on Game-theoretical Motion Planning(video)

【part 3】Special Report (slides)
3.1「 Dr. Andrea Censi (ETH):Introduction 」(9頁PPT)

3.2「Dr. Saverio Bolognani (ETH):Game-Theoretic Models of Dynamic Interaction」(53頁PPT)

3.3「Dr. Alex Liniger (ETH):Noncooperative Game Theory for Autonomous Racing」(53頁PPT)

3.4「Prof. Mac Schwager (Stanford):Augmented Lagrangian Methods for Online Game Theoretic Planning with Constraints」(53頁PPT)

3.5「Alessandro Zanardi (ETH):Structure and Solution of Non-zero-sum Urban Driving Games」(53頁PPT)

付費5元查看完整內容
北京阿比特科技有限公司