亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。

第一章
 本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。

第二章:基于圖神經網絡的多機器人覆蓋控制
 本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。

第三章:具備任務優先級關系的多機器人協調協作
 本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。

第四章:在線環境下的多機器人協調協作
 本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

本文探索了在物聯網(IoT)內動態無人機網絡格局下,高效無人機控制方法的開發。隨著無人機日益融入物聯網生態系統,解決其協同中固有的復雜性和挑戰,對于確保可靠性和效率至關重要。論文始于對物聯網概念和無人機網絡的深入探討,概述了關鍵應用領域,并描述了最先進的解決方案,特別是在定位與跟蹤方面。此外,它還審視了先進的無人機航路規劃策略,強調了其帶來的機遇和所蘊含的關鍵挑戰。論文的主體部分引入了新穎的協作算法,這些算法源于確定性原理和人工智能(AI)技術。這些算法受到鳥群等自然現象的啟發,使無人機能夠協作確定其在動態物聯網環境中追蹤移動傳感器的航線。隨著這些方法有效性的證明,它們如何增強無人機合作并顯著提升跟蹤效率變得顯而易見。基于此基礎,論文接下來介紹了一種創新的深度強化學習(DRL)方案,賦予自主無人機智能體能力,使其能在物聯網網絡內高效地制定最優數據收集策略。通過利用DRL,無人機持續從其環境和行動中獲取洞見,適應變化并做出智能決策以優化其數據收集策略。該方案調整了最先進的算法,使其能有效擴展到現實世界物聯網應用中常見的高維狀態-行動空間。本研究為圍繞無人機-IoT集成的持續討論做出了貢獻,提供了無人機控制的新穎方法。這些方法的引入為在物聯網范式中創建更高效、更自主的無人機網絡開辟了新途徑,凸顯了人工智能在此背景下的未開發潛力,并為該領域的未來發展奠定了基礎。

本文后續包含五個不同的章節:一章是對該研究努力在論文背景下探索的相關文獻進行的綜述;三章——每章專門分析和解決一項既定主要研究目標;以及一章討論研究發現、評估目標達成情況并總結論文。

第2章深入探討了本工作的背景,其結構旨在為建立本論文基礎的相關研究和文獻提供詳盡的分析。該章首先全面概述了物聯網范式,確立了其在當前技術格局中的關鍵作用。然后焦點轉向無人機網絡,討論了其獨特特性、操作應用(重點關注定位與跟蹤方法),以及航路規劃優化面臨的挑戰和當前技術。這為理解當前無人機網絡的能力和局限性奠定了堅實基礎。綜述的后半部分審視了人工智能在無人機集群管理中潛在的作用。它始于評估機器學習在無人機控制中的應用,繼而探討如何使用深度強化學習技術來實現高效無人機導航。

第3章題為“新型無人機控制確定性技術的開發”,涉及在協作式無人機控制領域研究確定性方法。該章通過引入一種新確定性技術的基礎為后續內容鋪墊,隨后對其在無人機控制中的應用進行了廣泛考察。它深入分析了如何利用該技術來加強無人機在用于搜救行動中的移動IoT傳感器追蹤應用中的協作。此外,它評估了該方法的優缺點,揭示了潛在的挑戰和改進領域。本次調查的發現為后續探索人工智能在無人機控制中的應用鋪平了道路,并為不同的控制策略建立了比較框架。

第4章題為“推進無人機控制:集群形成中的深度學習”,標志著從傳統確定性技術向探索深度學習方法在無人機集群形成與群體協同范圍內應用的轉變。本章介紹了設計和實現一個能夠促進無人機集群形成的深度學習模型,重點突出了其創建高效、適應性強的群體編隊的能力,從而進一步提升了純確定性方案的移動IoT傳感器跟蹤性能。對深度學習的探索引領至研究的下一步:利用深度強化學習優化無人機航路規劃。

第5章題為“多智能體無人機航路規劃優化”,代表了本研究歷程的頂點,它整合了從前幾章獲得的認知,以應對一個不同且更復雜的問題:即在IoT情境下優化多智能體無人機航路規劃以實現高效數據收集。本章主要聚焦于引入一種新穎的深度強化學習框架,論證其能夠管理多智能體系統的動態特性,并在多重約束條件下優化無人機航線。詳細的研究和分析揭示了所提出的框架如何能夠產生高效、適應性強的無人機網絡,這些網絡具備處理錯綜復雜現實場景的能力。本章不僅強調了智能系統在無人機航路規劃優化中的重要性,也闡釋了其在物聯網基礎設施內極大推進無人機控制領域的潛力。

最后,第6章總結研究,回顧關鍵發現、其意義以及未來前景。它分析了研究成果,承認了局限性,并提出了未來的研究方向。它以強調智能無人機控制優化中未開發的潛力作結,以激勵該領域的進一步創新。

付費5元查看完整內容

強化學習(RL)已成為教導機器人在復雜環境中學習與適應的強大范式。本文探討強化學習技術在機器人領域的最新進展。傳統機器人控制方法在處理動態不確定環境時面臨挑戰。強化學習通過讓機器人積累經驗、自主決策并持續優化行動,為這些問題提供了解決方案。文章概述強化學習的核心概念,包括策略學習、價值函數及探索-開發權衡。策略學習涉及建立狀態到行動的映射關系,使機器人能判定不同情境下的最優行動方案;價值函數評估行動質量,引導學習過程趨向最優行為;探索-開發權衡則指在嘗試新行動與利用已知知識之間取得平衡以最大化獎勵。深度強化學習、模型強化學習等算法的突破性進展顯著提升了機器人系統能力:深度強化學習將強化學習與深度神經網絡結合,可處理高維狀態與行動空間,使機器人能直接從原始傳感器數據學習復雜任務;模型強化學習則借助環境預測模型提升樣本效率并加速學習進程。

文章重點闡述強化學習在機器人領域的三大應用:自主導航、精準操控及任務學習。該技術使機器人能適應動態環境、處理不確定性并通過與世界交互持續學習。當前研究聚焦提升算法樣本效率、擴展性與泛化能力,以適應實際機器人應用需求。綜上所述,本文強調強化學習通過賦能機器人適應多元挑戰性環境,具有顛覆機器人技術的潛力。未來研究方向包括融合模仿學習、元學習等范式,進一步拓展機器人系統能力邊界。

強化學習(RL)已成為訓練自主智能體通過試錯機制、環境反饋與交互來學習復雜任務的重要范式。近年來,強化學習技術在機器人領域的應用取得重大突破,為解決現實環境中導航、操控與交互難題開辟了新路徑。本研究報告系統綜述機器人強化學習的最新進展,著重闡述推動該領域發展的關鍵技術、算法與應用。強化學習與機器人技術的融合具備多重優勢:能夠基于高維傳感輸入學習復雜任務,適應動態環境變化,并在不同場景中實現知識遷移。通過強化學習,機器人可自主獲取傳統編程難以實現的技能與行為,從而靈活高效地執行多樣化任務。本文評述專為機器人應用優化的前沿強化學習算法,包括深度Q網絡(DQN)、深度確定性策略梯度(DDPG)、近端策略優化(PPO)及柔性演員-評論家(SAC)。我們探討這些算法如何應對機器人領域的探索困境、樣本效率及泛化能力等挑戰,并分析其在不同場景中的優勢與局限。

此外,深入探究機器人強化學習的最新研究趨勢與創新方向: ? 遷移學習與領域自適應技術實現跨任務跨環境的知識遷移

? 融合激光雷達、慣性測量單元及本體感受傳感器技術,增強感知導航與操控能力

? 結合計算機視覺實現精細控制、目標檢測及場景理解

? 仿真環境與硬件平臺創新推動基于強化學習的機器人系統訓練與部署

通過綜合文獻研究與實證分析,本文旨在明晰機器人強化學習的發展現狀,指明未來研究方向與挑戰。依托強化學習的強大能力,機器人研究者與實踐者將持續突破自主機器人在工業自動化、物流運輸、醫療健康及服務領域的應用極限。

強化學習進展對提升機器人系統能力的重要性

i. 強化學習(RL)作為人工智能領域的變革性方法,賦予機器人通過與環境交互學習適應行為的能力。相較于傳統編程需預設所有場景指令的模式,強化學習使機器人能夠通過經驗積累,基于試錯機制進行決策以最大化累積獎勵。這種范式轉變為機器人系統解鎖了全新可能,使其能夠自主學習技能并持續提升性能。

ii. 近年強化學習與機器人技術的融合在多領域取得重大突破。從機器人運動控制到自主導航決策,強化學習技術顯著增強了機器人在真實場景中的能力。借助強化學習算法,機器人可以更高靈活性、魯棒性與適應性處理復雜任務,為開發智能多用途機器人系統鋪平道路。

iii. 本研究報告聚焦機器人強化學習的技術進展,深入探討其應用場景、現存挑戰及未來發展潛力。通過對尖端技術的系統綜述,我們旨在揭示強化學習對機器人領域的變革性影響,并探索該方法在塑造未來自主機器人系統過程中的機遇與局限。

付費5元查看完整內容

多機器人協同與協作是提升團隊能力并實現自主建造、農業及未知大區域持續作業等應用場景新型任務的關鍵行為。本研究以“多機器人資源分配問題”為背景探究此類行為,該問題要求將機器人分配至待服務區域。我們尤其關注適用于大規模多機器人團隊的“容錯性方法”。我們引入一種基于圖的建模框架用于多機器人資源分配問題,該框架在表征“區域間關系”與“獎勵模型”方面具有前所未有的豐富性。首先,針對“多智能體覆蓋控制問題”,通過圖神經網絡(GNN)引入“基于圖的計算方法”,其利用學習型智能體間通信策略,在性能與可擴展性上顯著提升。隨后,研究需要顯式協同的“復雜多任務場景下多機器人任務分配問題”,提出一種“基于網絡流的規劃方法”,可在數秒內為大規模問題生成高質量解。進一步將該方法擴展至在線場景,支持任務失敗與意外觀測時的動態重規劃。實證研究表明,這些建模方法與算法通過挖掘多機器人問題中的本質圖結構特征,實現了性能突破并推動領域技術前沿發展。

圖:任務圖(底部)展示任務間優先關系。高亮部分為任務子集,顯示“聯盟職能”(紅色)與“優先關系”(藍色)。例如,在執行“運輸建筑材料”任務前,機器人需在布滿碎片的工地“尋路或清障”。路徑質量直接影響團隊運輸效率;而運輸表現(如材料損毀情況)將決定后續“施工任務”的執行速度與質量。?

第一章將本研究置于“多機器人資源分配”領域框架內。首先,提出多機器人資源分配領域內的問題分類體系,沿著“任務表征抽象度”維度梳理問題模型及其對應研究方法。隨后,深入綜述與“多機器人覆蓋控制”及“多機器人任務分配”密切相關的文獻,這些成果為本研究提供了核心理論支撐。??

??第二章《基于圖神經網絡的多機器人系統覆蓋控制》提出一種創新方法,解決“感知半徑受限條件下的多機器人覆蓋控制”問題。相較于文獻常用基準控制器,該方法通過智能體間通信機制顯著提升控制器的性能與魯棒性。為實現這一目標,在機器人間通信網絡上部署圖神經網絡(GNN),訓練其預測集中式全知控制器的輸入指令,從而生成能夠通過智能體通信應對復雜覆蓋控制場景的控制器。實驗證明,該控制器性能顯著超越基準方法,且具備優異的可擴展性與泛化能力。首次構建基于全球城市真實興趣點特征的覆蓋控制問題數據集,并用于算法驗證。這是圖神經網絡學習型控制器在多機器人覆蓋控制領域的首次應用,展現出巨大潛力。??

??第三章《具有任務優先關系的多機器人協同與協作》針對“多機器人任務分配(MRTA)”問題提出新型建模框架與求解方法體系。首次將“優先級約束”與“多機器人任務”納入MRTA問題,構建名為“任務圖”的建模框架——以圖節點表示任務,邊表示任務間優先級關系。該框架包含的“獎勵模型”能通過豐富函數空間表征關聯任務性能間關系及任務分配聯盟規模與任務績效間關系。基于此模型,開發出利用網絡流優化的任務分配解決方案,其求解速度較現有方法提升數個量級,且計算復雜度與任務執行機器人數量無關,可擴展至無限規模團隊。實驗表明,該方法在保證解質量的同時實現計算效率突破,為任務分配建模框架作出根本性貢獻。?

在第四章中,拓展了多機器人任務分配(MRTA)方法,提出《在線環境下的多機器人優先關系協同與協作》。本章沿用相同“任務圖”模型與“基于流網絡的求解方法”,將其置于在線框架以提升系統魯棒性與性能,并通過高保真仿真器驗證方案有效性。核心在于,在原有MRTA問題中引入“不確定性”考量——任務可能隨機失敗或產生求解器未預期的隨機獎勵。依托流網絡方法的高速求解優勢,以迭代方式重構求解流程,使系統能夠基于已完成任務的獎勵觀測實時重規劃。該方法顯著提升了存在環境不確定性時的規劃性能,甚至因解空間擴展在零誤差條件下進一步優化結果。在高保真城市環境多智能體仿真器中驗證了該在線方法及離線流網絡方法,其中任務獎勵基于仿真器內物理現象量化。實驗表明,該建模方法能有效預測高不確定性復雜任務的性能表現,且相較文獻方法具有顯著優勢。在線框架為原有方案注入魯棒性,并將性能提升至接近最優水平,為任務分配領域持續研究提供了極具前景的框架。?

付費5元查看完整內容

高效人類團隊通過智能通信與協調策略實現協同效用最大化。受此啟發,本研究致力于開發多機器人系統智能協作的計算方法,結合經典模型驅動控制規劃與數據驅動技術(如多智能體強化學習MARL、示范學習LfD),推動機器人群體涌現協同行為。

研究首先采用模型驅動方法解決多機器人系統在不確定性下的協調控制與規劃問題,重點探究環境模型在規劃決策中的高效整合機制。通過設計集中式與分布式協調框架(涵蓋控制輸入與高層規劃層級),構建基于環境模型的多機器人協同體系。創新性成果包括:開發安全關鍵場景下的人本化多機器人網絡協調控制算法,實現主動狀態估計支撐的協同覆蓋規劃與性能概率性保障;進一步擴展方法應對機器人異質性挑戰,構建分層協調框架,使感知型與操作型機器人組成的復合團隊能在空基森林滅火等復雜任務中高效協作。

模型驅動方法雖能提供性能與穩定性保障,但對模型精度與啟發式算法質量敏感。為此,研究引入數據驅動與機器學習方法,探索群體協作行為的涌現機制。設計基于圖結構的通信模型架構,實現異構機器人團隊的高效多樣化協同;受人類心智理論啟發,開發迭代式深度決策理性模型,優化去中心化協作中的行動選擇機制。

近年來,盡管MARL廣泛應用于多機器人任務優化,但強化學習仍存在獎勵函數設計困難與高樣本復雜度等局限。因此,精確建模人類策略行為愈發重要。同時,隨著多機器人系統普及,確保機器人行為價值與人類倫理對齊至關重要。本研究提出多智能體示范學習框架MixTURE,通過混合主動多智能體學徒學習,使機器人團隊能夠從人類示范中學習協作策略,同步實現端到端自主通信協調。該框架兼具示范學習優勢,顯著降低人類示范數據需求與時間成本,提升系統可用性量表(SUS)評分與團隊協作效能,為多機器人系統人機協同開辟新路徑。

本研究核心論點在于:通過賦能機器人團隊高效通信與行動規劃推理能力,可顯著提升群體協作效能。本論文通過以下創新成果驗證該主張:

? 無人機團隊人本化動態環境主動感知協調控制框架:基于卡爾曼不確定性殘差傳播與加權多智能體網絡控制,構建雙準則目標函數,實現無人機群主動推斷野火傳播參數并監測火勢演化[5]。

? 多機器人網絡通信容錯自適應控制架構:通過模型參考自適應控制架構,設計集中式協調控制框架,使多機器人團隊在通信網絡斷續環境下仍能達成協同共識[6]。

? 服務質量保障型多無人機動態區域協同覆蓋規劃:針對空基野火監測需求,提出概率性能保障的預測式協同覆蓋框架,支持無人機群推斷潛在火勢動態,實現高危環境下的長時程協調[7,8]。

? 異構機器人分層協調框架:基于多智能體部分可觀測半馬爾可夫決策過程(MA-POSMDP)構建MA-SARTSA算法,使智能體在動態目標數量未知環境中學習協同監控策略,支持宏動作驅動的異步多智能體決策[9]。

? 高效多樣化通信模型MARL框架:提出異構策略網絡(HetNet),使異質機器人通過二進制中間語言實現零基礎自發通信學習與協作[10]。

? 有限理性下決策優化MARL框架:受認知層級理論k級推理機制啟發,開發信息策略梯度(InfoPG)方法,支持有限理性多智能體進行迭代決策優化[11,12]。

? 人機協同策略學習MA-LfD框架:構建MixTURE混合主動學徒學習框架,使機器人團隊無需人工標注數據即可學習人類專家協作策略,同步實現端到端自主通信協調。

本論文結構如下:第2章系統梳理相關領域文獻;第3章闡述理論基礎與背景知識,重點介紹基于模型的節點級多機器人協調方法[5,6]及其在無人機動態區域覆蓋中的應用;第4章擴展至高危時效敏感場景,提出性能保障型模型預測方法[7,8]與數據驅動方案[9],解決資源受限異構無人機群的環境不確定性協調問題;第6章提出端到端多智能體協同通信策略學習方法[13,10];第7章通過新型MARL架構實現協作機器人團隊的迭代推理與決策理性化[12];第8章構建MA-LfD框架,實現人類領域知識高效遷移與協作策略直接學習。

付費5元查看完整內容

本研究通過物理交互增強機器人間協作的移動性,并優化機器人-人交互的通信效能。研究圍繞兩條主線展開:(1) 具身多機器人系統的算法開發;(2) 無人機與人類物理交互通信方法的探索與創新。在第一條主線中,我們研發了一種新型平面模塊化機器人系統,其核心貢獻在于構建了可擴展的制造與操作系統架構。這需要開發新型協調算法,特別權衡能耗效率、計算可擴展性與連接冗余度等關鍵參數。在第二條主線中,我們專注于理解、設計與應用無人機與人類之間的物理交互接觸。物理接觸作為人機協作的有效通信模式,在無人機交互領域尚屬探索不足。隨著無人機日益融入人類生活空間,理解這類交互對安全拓展應用場景至關重要。我們通過用戶研究揭示了全身物理交互中的新型通信方法。

本研究通過物理交互增強機器人間協作的移動性,并優化機器人-人交互的通信效能。研究圍繞兩條主線展開:(1) 具身多機器人系統的算法開發;(2) 無人機與人類物理交互通信方法的探索與創新。

為探索太空與深海等極限環境,需研發具備長期任務耐久性的機器人系統。這要求系統具備高度自主性以適應動態環境與突發狀況。模塊化機器人憑借并行性、適應性與冗余性等特征,相較單體機器人具有更高效率與成本效益。并行性指模塊同步執行多任務提升效率;適應性使集群能重構形態應對新挑戰(如地形變化);冗余性保障單模塊故障時任務持續。因此,模塊化機器人是推進科學發現的理想長期自主平臺。

模塊化系統在解決傳統問題的同時引入新挑戰:硬件層面需應對機械損耗、連接錯位導致的誤差傳播及大規模維護;軟件層面需開發兼具可擴展性、效率與可驗證性的算法。通過硬件-軟件協同設計,我們在開發早期同步優化物理約束與算法局限,而非后期被動適配,從而提升系統級魯棒性。本研究參與開發的新型平面模塊化機器人系統,其核心創新在于構建可擴展的制造與操作架構,并研發了能平衡能耗、計算擴展與連接冗余的新型協調算法。

在無人機-人通信策略方面,我們聚焦物理交互突破視聽局限。例如在噪聲環境中,觸覺通信可有效替代聽覺方式。無人機(微型飛行器)作為輔助設備在搜救、環境監測與導航等領域潛力巨大,但需建立清晰通信機制以支持人機協作,包括狀態傳達、行動預示或操作提示等功能。相較于地面機器人,無人機-人通信技術發展相對滯后,制約其應用潛力釋放。

觸覺通信在多變光照條件下的適用性優于投影等視覺方式,對視障群體更具包容性。無人機全向飛行的特性使其可實現全身交互,超越地面機器人的交互維度。然而物理觸覺通信策略設計仍存在基礎認知缺口:(1)人體哪些部位適合觸覺交互;(2)可接受的觸覺模態類型;(3)不同觸覺模式的信息傳遞效能;(4)觸覺模態的優化選擇機制。本研究通過系統性探索解答這些問題,建立無人機物理指令傳遞的基礎框架,并開拓新型應用場景。

進一步地,我們在人-機協作框架下探索物理接觸的新型應用。通過設計無人機舞伴系統,研究動態全身交互中的協作機制。我們開發了增強動態環境下物理接觸的無人機行為模式,并收集舞者對物理交互的體驗反饋。這種視角為理解全身人-機交互中的用戶體驗提供洞見,助力新應用開發。

第二章聚焦首條研究主線,詳述通過可擴展高效算法強化模塊間物理連接,提升系統移動性與魯棒性的算法創新。第三、四章探索第二條主線,成果擬提交會議或期刊。第三章闡述物理觸覺通信的基礎性發現;第四章詳述人-機協作研究,重點關注人類協作方的體驗認知,以及增強物理接觸的自主行為設計。研究范圍限定于人類視角分析與接觸增強算法開發,為后續研究奠定基礎。

付費5元查看完整內容

深度強化學習的最新進展取得了前所未有的成果。在單智能體應用中取得的成功促使人們在多智能體系統中探索這些技術,而在多智能體系統中還需要考慮一些額外的挑戰。在多智能體領域,通信一直是實現合作的關鍵,而學會通信則是多智能體強化學習算法的一個基本里程碑。本文探討了不同的多智能體強化學習方法。這些方法提供了端到端學習的架構,能夠實現有效的通信協議,從而提高合作環境中的系統性能。首先,我們研究了一種新穎的方法,在這種方法中,智能體內部的通信是通過共享內存設備進行的,智能體可以通過可學習的讀寫操作來交換信息。其次,提出了一種基于圖的方法,在這種方法中,連接性是通過交換成對信息形成的,然后通過一種基于圖擴散模型的新型關注機制進行聚合。最后,我們提出了一組新的環境,這些環境具有現實世界的約束條件,我們利用這些約束條件對最新的先進解決方案進行基準測試。我們的研究結果表明,通信是克服多智能體合作系統固有困難的基本工具。

本文的主要貢獻概述如下:

  • 在第 3 章中,提出了一種新穎的多智能體方法,即通過提供一個中央共享存儲器來實現智能體之間的通信,每個智能體必須學會使用該存儲器才能按順序為其他智能體讀寫信息;

  • 在第 4 章中,討論了一種新穎的多智能體模型,該模型首先構建了一個連接性圖來編碼成對的信息,然后通過建議的注意力機制,利用擴散模型(如熱核(HK))來生成一套針對特定智能體的編碼;

  • 在第 5 章中,提出了一種在現實環境中模擬無人機行為的環境,并介紹了一系列實驗,以評估幾種最先進方法在此類場景中的性能。

付費5元查看完整內容

網絡化多智能體系統已成為許多工程系統不可或缺的一部分。多智能體系統中的協同決策面臨許多挑戰。本文將研究信息及其對智能體的可用性對多智能體系統中協同決策的影響。

本文考慮了使用兩個觀測器從觀測數據中檢測馬爾可夫模型和高斯模型的問題。考慮兩個馬爾可夫鏈和兩個觀察者。每個觀察者觀察真實未知馬爾可夫鏈狀態的不同函數。給定觀察結果后,目標是找出兩個馬爾可夫鏈中哪一個產生了觀察結果。本文為每個觀察者提出了塊二元假設檢驗問題,并證明每個觀察者的決策是局部似然比的函數。本文提出了一種共識方案,讓觀察者就其信念達成一致,并證明了共識決策對真實假設的漸近收斂性。使用兩個觀測者檢測高斯模型時,也考慮了類似的問題框架。為每個觀測者提出了序列假設檢驗問題,并使用局部似然比求解。考慮到觀察者隨機和不對稱的停止時間,提出了一種共識方案。本文引入了 “信息價值 ”的概念,以理解為達成共識而交換的信息的 “有用性”。

接下來,考慮有兩個觀察者的二元假設檢驗問題。自然界有兩種可能的狀態。有兩個觀察者,他們收集的觀察結果在統計學上與真實的自然狀態相關。假設這兩個觀察者是同步的。觀測者的目標是根據觀測結果,共同找出真實的自然狀態。考慮采用集中式和分散式方法來解決問題。每種方法都分為兩個階段:(1) 構建概率空間:已知真實假設,收集觀測數據以建立假設與觀測數據之間的經驗聯合分布;(2) 給定一組新的觀測數據,為觀測者制定假設檢驗問題,以找到他們各自對真實假設的信念。提出了讓觀察者就其對真實假設的信念達成一致的共識方案。比較了集中式方法中錯誤概率的衰減率和分散式方法中就錯誤信念達成一致的概率的衰減率。比較了集中式方法和分散式方法的數值結果。

多智能體系統中一個智能體的事件集中的所有命題可能無法同時驗證。研究了文獻中的事件狀態運行結構和不相容關系的概念,并將其作為研究事件集結構的工具。舉了一個多智能體假設檢驗的例子,在這個例子中,事件集并不構成布爾代數,而是構成了一個正晶格。還討論了 “非交換概率空間 ”的可能構造,其中包含不相容事件(無法同時驗證的事件)。作為這種概率空間中可能存在的決策問題,考慮了二元假設檢驗問題。提出了解決這一決策問題的兩種方法。在第一種方法中,將可用數據表示為來自通過投影估值度量(PVM)建模的測量結果,并檢索使用經典概率模型求解的底層檢測問題的結果。在第二種方法中,使用正算子估值方法(POVM)來表示測量結果。證明,第二種方法實現的最小錯誤概率與第一種方法相同。

最后,考慮了學習經驗分布的二元假設檢驗問題。在任一假設下,觀測值的真實分布都是未知的。經驗分布是從觀測數據中估計出來的。利用經驗分布序列解決一系列檢測問題。經驗分布下的信息狀態和最優檢測成本向真實分布下的信息狀態和最優檢測成本的收斂情況如圖所示。還給出了最佳檢測成本收斂的數值結果。

付費5元查看完整內容

在相互作用的個體或智能體之間出現協調行動是日常行為的一個共同特征。多智能體活動組織的關鍵在于智能體有效決定如何以及何時行動的能力,而強有力的決策往往是區分專家和非專家表現的關鍵。在本論文中,我們研究并模擬了人類和智能體在完成各種放牧任務時的行為協調和決策行為。放牧任務涉及兩組自主智能體的互動--需要一個或多個放牧智能體來控制一組異質目標智能體。這類活動在日常生活中無處不在,是日常多智能體行為的典型范例。我們首先提出了一套簡單的局部控制規則和目標選擇策略,使放牧智能體能夠收集和控制一群不合作、不鎖定的目標智能體。然后,我們研究了所提出的控制過程對牛群規模變化和牧民對目標施加的排斥力強度變化的穩健性。我們還通過 ROS 仿真和使用真實機器人進行的實驗證實了建議方法的有效性。然后,我們采用監督機器學習(SML)來預測人類牧民的目標選擇決策。研究結果表明,無論是在短(< 1 秒)還是長(> 10 秒)時間尺度上,都可以使用 SML 有效地預測人類行為者的決策行為,而且可以使用由此產生的模型賦予人工牧民 “類人”決策能力。最后,我們利用可解釋人工智能來了解人類牧民在做出目標選擇決策時所使用的狀態信息。研究結果揭示了專家牧民和新手牧民在決策時如何權衡狀態信息的差異,這是第一項強調可解釋人工智能技術在理解多智能體快節奏互動過程中人類決策標記行為的潛在效用的研究。

圖 3.6: ROS 模擬。頂部面板顯示了在 Gazebo 環境中模擬的目標智能體(綠線)和牧民(灰線)采用 (a) 靜態競技場分區、(b) 領導者-追隨者和 (c) 點對點牧民策略的軌跡。封閉區域 G 用紅圈表示。黑色方形標記表示牧民的初始位置和最終位置(實心色)。綠色圓圈標記表示目標智能體的初始和最終(純色)位置。下圖顯示,所有牧民都能按照(d)靜態競技場分區、(e)領導者-追隨者和(f)點對點牧民策略規定的角度邊界(紅線),在 500 秒內收集牧群。

付費5元查看完整內容

異構多智能體系統為解決農業、軍事、裝配和倉庫自動化等不同領域的復雜問題提供了可能,否則單個智能體是無法解決這些問題的。要有效部署異構多機器人團隊,研究必須解決不同抽象程度的四個問題:任務規劃(是什么)、運動規劃(如何)、任務分配(誰)和調度(何時)。這些問題高度相互依存,先前的工作已經證明,利用這些問題的單個解決方案之間的協同作用的系統可以提高多機器人協調的效率和效益。

本文研究了在多智能體組隊應用中使用基于特質的模型來表示單個智能體,以及如何利用基于特質的建模來實現更穩健、更高效的多智能體聯盟組建解決方案。具體來說,我們研究了如何在聯盟組建算法中使用這些技術來回答任務分配、調度、運動規劃和任務規劃這四個問題。

我們的研究表明,利用基于機器人和任務特質建模的算法可以在異構多機器人團隊中實現高效的協調,并且在時間進度、分配質量和計算效率方面優于現有方法。本論文的貢獻如下:

  • 創建一個建模框架,使現代任務分配算法能夠推理動態特征。通過使用基于轉換的建模框架,我們創建了對以往基于特質的建模技術的擴展,以更好地推理智能體的特質如何隨時間變化。

  • 為異構多機器人系統開發基于時間擴展特質的任務分配和路徑規劃統一框架。我們引入了一種基于搜索的方法,用于基于特質的時間擴展任務分配和運動規劃,命名為增量任務分配圖搜索(ITAGS)。

  • 整合任務規劃、任務分配、調度和運動規劃的新型多機器人協調問題的形式化和解決方案。我們形式化了一類新的多機器人協調問題,該問題融合了這些問題中的每一個,并提出了一種解決方案(圖形遞歸同步任務分配、規劃和調度(GRSTAPS))。

  • 為 ITAGS 的動態變體創建框架,該變體能夠進行基于特征的任務分配修復: 我們對 ITAGS 進行了擴展,使用基于特質的動態時間擴展任務分配算法,如果智能體的特質或任務要求在執行過程中發生變化,該算法可以修復任務分配。

  • 創建一個主動學習框架,用于學習多智能體任務分配問題的特質要求: 由于理解一個聯盟的特質與該聯盟在特定任務中的表現之間的關系可能具有挑戰性,因此我們提出了一種主動學習框架來學習任務與特質之間的關系。此外,我們還提供了一種新的時間擴展任務分配算法,該算法能夠優化學習到的質量模型。

圖 2.1: 顯示各種多機器人協調問題交叉點的維恩圖。

付費5元查看完整內容

面對未來復雜多變的戰場,軍事行動越來越需要自主能力更強的機器人為士兵提供支持。要在軍事行動的整個過程中建立人類與機器人團隊合作的共同基礎,就必須進行有效的溝通。然而,人們對混合主動協作的溝通類型和形式仍不完全了解。本研究探討了人機交互中的兩種交流方式--透明度和通信模式,并研究了在協作演習中,機器人隊友操縱這些元素對人類隊友的影響。參與者與計算機模擬的機器人一起執行一項類似 “警戒搜索 ”的任務。人機界面提供了不同類型的透明度--關于機器人單獨的決策制定過程,或關于機器人的決策制定過程及其對人類隊友決策制定過程的預測--以及不同的通信模式--或者向參與者傳遞信息,或者既向參與者傳遞信息又從參與者那里獲取信息。實驗結果表明,與互動性較弱的機器人相比,既能傳遞信息又能征求信息的機器人更有活力、更討人喜歡、也更智能,但與這些機器人合作會導致在目標分類任務中出現更多失誤。此外,回應機器人的行為也會導致正確識別的數量減少,但只有當機器人只提供有關其自身決策過程的信息時才會出現這種情況。這項研究成果為設計支持人機協作的下一代視覺顯示器提供了參考。

付費5元查看完整內容
北京阿比特科技有限公司