高效人類團隊通過智能通信與協調策略實現協同效用最大化。受此啟發,本研究致力于開發多機器人系統智能協作的計算方法,結合經典模型驅動控制規劃與數據驅動技術(如多智能體強化學習MARL、示范學習LfD),推動機器人群體涌現協同行為。
研究首先采用模型驅動方法解決多機器人系統在不確定性下的協調控制與規劃問題,重點探究環境模型在規劃決策中的高效整合機制。通過設計集中式與分布式協調框架(涵蓋控制輸入與高層規劃層級),構建基于環境模型的多機器人協同體系。創新性成果包括:開發安全關鍵場景下的人本化多機器人網絡協調控制算法,實現主動狀態估計支撐的協同覆蓋規劃與性能概率性保障;進一步擴展方法應對機器人異質性挑戰,構建分層協調框架,使感知型與操作型機器人組成的復合團隊能在空基森林滅火等復雜任務中高效協作。
模型驅動方法雖能提供性能與穩定性保障,但對模型精度與啟發式算法質量敏感。為此,研究引入數據驅動與機器學習方法,探索群體協作行為的涌現機制。設計基于圖結構的通信模型架構,實現異構機器人團隊的高效多樣化協同;受人類心智理論啟發,開發迭代式深度決策理性模型,優化去中心化協作中的行動選擇機制。
近年來,盡管MARL廣泛應用于多機器人任務優化,但強化學習仍存在獎勵函數設計困難與高樣本復雜度等局限。因此,精確建模人類策略行為愈發重要。同時,隨著多機器人系統普及,確保機器人行為價值與人類倫理對齊至關重要。本研究提出多智能體示范學習框架MixTURE,通過混合主動多智能體學徒學習,使機器人團隊能夠從人類示范中學習協作策略,同步實現端到端自主通信協調。該框架兼具示范學習優勢,顯著降低人類示范數據需求與時間成本,提升系統可用性量表(SUS)評分與團隊協作效能,為多機器人系統人機協同開辟新路徑。
本研究核心論點在于:通過賦能機器人團隊高效通信與行動規劃推理能力,可顯著提升群體協作效能。本論文通過以下創新成果驗證該主張:
? 無人機團隊人本化動態環境主動感知協調控制框架:基于卡爾曼不確定性殘差傳播與加權多智能體網絡控制,構建雙準則目標函數,實現無人機群主動推斷野火傳播參數并監測火勢演化[5]。
? 多機器人網絡通信容錯自適應控制架構:通過模型參考自適應控制架構,設計集中式協調控制框架,使多機器人團隊在通信網絡斷續環境下仍能達成協同共識[6]。
? 服務質量保障型多無人機動態區域協同覆蓋規劃:針對空基野火監測需求,提出概率性能保障的預測式協同覆蓋框架,支持無人機群推斷潛在火勢動態,實現高危環境下的長時程協調[7,8]。
? 異構機器人分層協調框架:基于多智能體部分可觀測半馬爾可夫決策過程(MA-POSMDP)構建MA-SARTSA算法,使智能體在動態目標數量未知環境中學習協同監控策略,支持宏動作驅動的異步多智能體決策[9]。
? 高效多樣化通信模型MARL框架:提出異構策略網絡(HetNet),使異質機器人通過二進制中間語言實現零基礎自發通信學習與協作[10]。
? 有限理性下決策優化MARL框架:受認知層級理論k級推理機制啟發,開發信息策略梯度(InfoPG)方法,支持有限理性多智能體進行迭代決策優化[11,12]。
? 人機協同策略學習MA-LfD框架:構建MixTURE混合主動學徒學習框架,使機器人團隊無需人工標注數據即可學習人類專家協作策略,同步實現端到端自主通信協調。
本論文結構如下:第2章系統梳理相關領域文獻;第3章闡述理論基礎與背景知識,重點介紹基于模型的節點級多機器人協調方法[5,6]及其在無人機動態區域覆蓋中的應用;第4章擴展至高危時效敏感場景,提出性能保障型模型預測方法[7,8]與數據驅動方案[9],解決資源受限異構無人機群的環境不確定性協調問題;第6章提出端到端多智能體協同通信策略學習方法[13,10];第7章通過新型MARL架構實現協作機器人團隊的迭代推理與決策理性化[12];第8章構建MA-LfD框架,實現人類領域知識高效遷移與協作策略直接學習。
人工智能(AI)作為成功范式已廣泛應用于多領域,但在偏遠地區部署或弱連通場景下實施時,常需在數據采集源頭就近完成推理計算。本研究致力于探索AI模型優化路徑,推動智能算法向邊緣端部署。聚焦農業等領域的便攜式設備應用場景(如氣培容器、無人機、移動機器人),核心目標是通過開發定制化模型并實現"模型尺寸壓縮"與"推理時延優化"。為此系統探索了多維度優化方案:包括樣本數據"相關特征"提取技術、網絡剪枝及量化壓縮等方法。本論文提出涵蓋開發-實現-優化的全棧式框架,重點解決邊緣設備部署所需的輕量化與高效能需求。
研究目標通過三重遞進步驟實現:驗證至少存在一種AI模型可為目標應用提供有效預測;探索并實施模型優化方法;最終在資源受限硬件平臺完成部署。核心創新點在于建立定制模型通用優化流程,并首創基于"模型可解釋性"的特征選擇框架——該方案在農業科技領域尚屬首次系統性實踐。優化體系以特征選擇為主體,輔以剪枝與量化技術形成完整閉環。通過在準邊緣設備部署驗證,實證了本方案的工程可行性。
盡管本文構建了從模型設計到邊緣部署的完整研究鏈,仍需指出若干可深化方向:AI領域與邊緣計算技術持續迭代,硬件加速架構及軟件工具鏈的革新為后續研究開辟廣闊空間。本工作旨在填補現有研究空白并提供方法論參考,寄望所提思想能為未來邊緣智能技術發展提供有效范式支撐。
本文探索了在物聯網(IoT)內動態無人機網絡格局下,高效無人機控制方法的開發。隨著無人機日益融入物聯網生態系統,解決其協同中固有的復雜性和挑戰,對于確保可靠性和效率至關重要。論文始于對物聯網概念和無人機網絡的深入探討,概述了關鍵應用領域,并描述了最先進的解決方案,特別是在定位與跟蹤方面。此外,它還審視了先進的無人機航路規劃策略,強調了其帶來的機遇和所蘊含的關鍵挑戰。論文的主體部分引入了新穎的協作算法,這些算法源于確定性原理和人工智能(AI)技術。這些算法受到鳥群等自然現象的啟發,使無人機能夠協作確定其在動態物聯網環境中追蹤移動傳感器的航線。隨著這些方法有效性的證明,它們如何增強無人機合作并顯著提升跟蹤效率變得顯而易見。基于此基礎,論文接下來介紹了一種創新的深度強化學習(DRL)方案,賦予自主無人機智能體能力,使其能在物聯網網絡內高效地制定最優數據收集策略。通過利用DRL,無人機持續從其環境和行動中獲取洞見,適應變化并做出智能決策以優化其數據收集策略。該方案調整了最先進的算法,使其能有效擴展到現實世界物聯網應用中常見的高維狀態-行動空間。本研究為圍繞無人機-IoT集成的持續討論做出了貢獻,提供了無人機控制的新穎方法。這些方法的引入為在物聯網范式中創建更高效、更自主的無人機網絡開辟了新途徑,凸顯了人工智能在此背景下的未開發潛力,并為該領域的未來發展奠定了基礎。
本文后續包含五個不同的章節:一章是對該研究努力在論文背景下探索的相關文獻進行的綜述;三章——每章專門分析和解決一項既定主要研究目標;以及一章討論研究發現、評估目標達成情況并總結論文。
第2章深入探討了本工作的背景,其結構旨在為建立本論文基礎的相關研究和文獻提供詳盡的分析。該章首先全面概述了物聯網范式,確立了其在當前技術格局中的關鍵作用。然后焦點轉向無人機網絡,討論了其獨特特性、操作應用(重點關注定位與跟蹤方法),以及航路規劃優化面臨的挑戰和當前技術。這為理解當前無人機網絡的能力和局限性奠定了堅實基礎。綜述的后半部分審視了人工智能在無人機集群管理中潛在的作用。它始于評估機器學習在無人機控制中的應用,繼而探討如何使用深度強化學習技術來實現高效無人機導航。
第3章題為“新型無人機控制確定性技術的開發”,涉及在協作式無人機控制領域研究確定性方法。該章通過引入一種新確定性技術的基礎為后續內容鋪墊,隨后對其在無人機控制中的應用進行了廣泛考察。它深入分析了如何利用該技術來加強無人機在用于搜救行動中的移動IoT傳感器追蹤應用中的協作。此外,它評估了該方法的優缺點,揭示了潛在的挑戰和改進領域。本次調查的發現為后續探索人工智能在無人機控制中的應用鋪平了道路,并為不同的控制策略建立了比較框架。
第4章題為“推進無人機控制:集群形成中的深度學習”,標志著從傳統確定性技術向探索深度學習方法在無人機集群形成與群體協同范圍內應用的轉變。本章介紹了設計和實現一個能夠促進無人機集群形成的深度學習模型,重點突出了其創建高效、適應性強的群體編隊的能力,從而進一步提升了純確定性方案的移動IoT傳感器跟蹤性能。對深度學習的探索引領至研究的下一步:利用深度強化學習優化無人機航路規劃。
第5章題為“多智能體無人機航路規劃優化”,代表了本研究歷程的頂點,它整合了從前幾章獲得的認知,以應對一個不同且更復雜的問題:即在IoT情境下優化多智能體無人機航路規劃以實現高效數據收集。本章主要聚焦于引入一種新穎的深度強化學習框架,論證其能夠管理多智能體系統的動態特性,并在多重約束條件下優化無人機航線。詳細的研究和分析揭示了所提出的框架如何能夠產生高效、適應性強的無人機網絡,這些網絡具備處理錯綜復雜現實場景的能力。本章不僅強調了智能系統在無人機航路規劃優化中的重要性,也闡釋了其在物聯網基礎設施內極大推進無人機控制領域的潛力。
最后,第6章總結研究,回顧關鍵發現、其意義以及未來前景。它分析了研究成果,承認了局限性,并提出了未來的研究方向。它以強調智能無人機控制優化中未開發的潛力作結,以激勵該領域的進一步創新。
隨著機器人技術日益精進,亟需發展能與人類隊友及其他機器人交互協作的智能系統。本研究旨在探索多智能體(含人類與機器人)協同框架,聚焦智能體間交互層級與隊友信息推斷機制。首先在協同導航范疇內研究單人-單機器人協作,該場景需直接人機交互與隊友狀態推斷。考慮人機需穿越環境抵達共同目標的情境,提出兩種觸覺引導系統:通過力反饋向人類提供避障與路徑建議,各具計算效率與路徑最優性優勢。解析與實驗證明該方法能同步保障避障與目標引導功能。
首項工作解決雙智能體協作后,后續研究轉向多智能體協作——該場景下人機交互有限且隊友信息層級各異。針對異構多智能體團隊(各機器人具不同感知/資源能力),提出控制策略以實現復雜動態任務分配,使團隊能適應任務變化與成員變動。分布式架構支持大規模應用,分析表明策略可在動態環境中收斂至最優解,仿真與硬件實驗驗證其性能媲美基準算法。
第三章3.2節提出地面機器人協同遙操作觸覺引導算法,僅提供必要反饋。融合避障功能(障礙物排斥力)與路徑引導功能(建議路徑吸引力),建議路徑由非完整約束快速擴展隨機樹(RRT*)算法生成。突破傳統觸覺遙操作范式,首次提供避障安全性解析證明(用戶遵循力反饋時可規避碰撞)。
第三章3.3節將RRT采樣樹融入控制李雅普諾夫函數(CLF)框架,生成運動學可行路徑的觸覺建議。為保障安全,引入控制屏障函數(CBF)提供防撞指引而無需重采樣RRT樹。解析證明當用戶遵循力反饋時,CLF驅動力可引導機器人從環境任意點抵達共同目標。
第四章實現多機器人團隊持久自適應覆蓋控制,服務于動態異構任務需求(可泛化至各類資源補給算法)。通過解析證明區位成本最小化與需求輸入-狀態穩定性。為確保持久性,提出分布式補給算法——兼容異構團隊并利用需求與資源水平預測,顯著降低服務中斷率。
第五章構建多機器人響應離散異構事件框架:通過任務執行建立個體信譽度,據此生成加權維諾分區。采用核密度估計(KDE)動態更新事件密度函數以適應需求變化,證明維諾生成器收斂于加權區位成本臨界點。針對時限任務,提出蟻群系統(ACS)啟發的任務排序算法,證明其高概率收斂至最優解(該解在最小化機器人能耗同時,優先保障緊急時限任務)。
第二章闡述符號體系與數學基礎;第三章詳述兩種人機協同導航方法;第四章提出多資源分配覆蓋控制策略;第五章以智能體信譽度為核心構建時限/非時限任務服務機制;第六章總結并展望。附錄A收錄符號索引。
圖1·2:本論文研究協同自主性的三種實現形態。第四章與第五章探討多智能體協同團隊(上圖),第三章解析人機協同導航(下圖)。
無人駕駛飛行器(UAV)日益頻繁的使用引發了安全隱患,亟需有效的反無人機系統。本文旨在通過設計和實現仿真環境,評估反無人機防御中使用的干擾器角度分配方法,從而改進現有系統。該仿真模擬真實場景:攻擊無人機被追蹤后通過干擾使其失去行動能力,為特定場景下多種干擾器分配技術的效果評估提供工具。仿真基于智能體建模技術,模擬無人機與干擾器在受控環境中的行為交互。用戶定制報告器將監測記錄關鍵性能指標以評估算法性能。該工具的預期用途是增強規劃者對干擾器分配機制的理解,輔助優化反無人機防御戰術。
當今世界技術發展使無人機開始被用作武器,推動了對抗手段的演進。反無人機系統對關鍵區域和設施保護具有重要作用。這些系統專為應對無人機威脅設計,在傳統防空系統基礎上額外提供探測、跟蹤、識別、干擾與威脅評估功能。無人機探測跟蹤通過雷達和攝像系統等傳感器實現。探測階段是確保反無人機系統有效性的首要環節——未探測到的無人機無法采取預防措施。隨后識別被探測目標并評定威脅等級。若判定存在危險且需采取對抗措施,即啟動干擾程序。干擾無人機可分為兩類:硬殺傷與軟殺傷。硬殺傷旨在物理摧毀目標,通常采用激光武器或導彈系統;軟殺傷則在不造成物理損傷前提下使無人機活動中止,包括信號干擾和頻率干擾等電子干預手段。干擾器作為軟殺傷工具,通過阻斷信號阻止無人機受控。最常見的是可實現全向信號干擾的全向干擾器。但當防護區域周邊存在需保留的日常通信信號時,則采用僅能在特定角度干擾信號的定向干擾器。
日常應用中,反無人機系統可由單名或多名操作員控制,亦可在無人工介入的自主模式下運行。自動模式下,算法根據雷達軌跡信息確定干擾器作用區域并自動下發指令。此類算法計算目標威脅優先級后通過干擾器執行操作,本質屬于威脅評估與武器分配(TEWA)問題。決策過程需快速完成,因應對威脅的可接受響應時間通常僅為數秒。
本文提出名為JASPER(干擾器分配仿真評估報告平臺)的仿真方法,用于測試評估反無人機系統中的專用威脅評估與武器分配(TEWA)算法。這些算法專注于為威脅覆蓋優化分配干擾器角度。不同算法在目標優先級設定、計算時長及設備交互方式上存在差異。為確定更適用算法及其效能,需進行額外測試。本研究旨在開發模塊化、基于代理的測試平臺以滿足該需求。算法測試平臺采用基于代理的仿真框架MASON搭建。MASON作為復雜系統仿真平臺具備高度可定制性,基于代理的仿真方法使各代理按自有規則運行,提供更真實靈活的仿真環境。本測試平臺設計用于報告特定算法在多樣化場景下的性能。在此模塊化測試環境中,用戶可自定義測試案例及需報告的關鍵性能指標(KPI),支持基于不同場景的深度性能分析。這對理解算法在真實環境中的預期表現尤為重要。
論文結構如下:第二章提供測試評估仿真、威脅評估與武器分配及基于代理仿真的背景知識與文獻綜述;隨后在該章內定義描述具體問題;第三章闡述仿真技術應用;第四章說明仿真實施細節;第五章包含研究結論與未來改進方向。
多機器人協同與協作是提升團隊能力并實現自主建造、農業及未知大區域持續作業等應用場景新型任務的關鍵行為。本研究以“多機器人資源分配問題”為背景探究此類行為,該問題要求將機器人分配至待服務區域。我們尤其關注適用于大規模多機器人團隊的“容錯性方法”。我們引入一種基于圖的建模框架用于多機器人資源分配問題,該框架在表征“區域間關系”與“獎勵模型”方面具有前所未有的豐富性。首先,針對“多智能體覆蓋控制問題”,通過圖神經網絡(GNN)引入“基于圖的計算方法”,其利用學習型智能體間通信策略,在性能與可擴展性上顯著提升。隨后,研究需要顯式協同的“復雜多任務場景下多機器人任務分配問題”,提出一種“基于網絡流的規劃方法”,可在數秒內為大規模問題生成高質量解。進一步將該方法擴展至在線場景,支持任務失敗與意外觀測時的動態重規劃。實證研究表明,這些建模方法與算法通過挖掘多機器人問題中的本質圖結構特征,實現了性能突破并推動領域技術前沿發展。
圖:任務圖(底部)展示任務間優先關系。高亮部分為任務子集,顯示“聯盟職能”(紅色)與“優先關系”(藍色)。例如,在執行“運輸建筑材料”任務前,機器人需在布滿碎片的工地“尋路或清障”。路徑質量直接影響團隊運輸效率;而運輸表現(如材料損毀情況)將決定后續“施工任務”的執行速度與質量。?
第一章將本研究置于“多機器人資源分配”領域框架內。首先,提出多機器人資源分配領域內的問題分類體系,沿著“任務表征抽象度”維度梳理問題模型及其對應研究方法。隨后,深入綜述與“多機器人覆蓋控制”及“多機器人任務分配”密切相關的文獻,這些成果為本研究提供了核心理論支撐。??
??第二章《基于圖神經網絡的多機器人系統覆蓋控制》提出一種創新方法,解決“感知半徑受限條件下的多機器人覆蓋控制”問題。相較于文獻常用基準控制器,該方法通過智能體間通信機制顯著提升控制器的性能與魯棒性。為實現這一目標,在機器人間通信網絡上部署圖神經網絡(GNN),訓練其預測集中式全知控制器的輸入指令,從而生成能夠通過智能體通信應對復雜覆蓋控制場景的控制器。實驗證明,該控制器性能顯著超越基準方法,且具備優異的可擴展性與泛化能力。首次構建基于全球城市真實興趣點特征的覆蓋控制問題數據集,并用于算法驗證。這是圖神經網絡學習型控制器在多機器人覆蓋控制領域的首次應用,展現出巨大潛力。??
??第三章《具有任務優先關系的多機器人協同與協作》針對“多機器人任務分配(MRTA)”問題提出新型建模框架與求解方法體系。首次將“優先級約束”與“多機器人任務”納入MRTA問題,構建名為“任務圖”的建模框架——以圖節點表示任務,邊表示任務間優先級關系。該框架包含的“獎勵模型”能通過豐富函數空間表征關聯任務性能間關系及任務分配聯盟規模與任務績效間關系。基于此模型,開發出利用網絡流優化的任務分配解決方案,其求解速度較現有方法提升數個量級,且計算復雜度與任務執行機器人數量無關,可擴展至無限規模團隊。實驗表明,該方法在保證解質量的同時實現計算效率突破,為任務分配建模框架作出根本性貢獻。?
在第四章中,拓展了多機器人任務分配(MRTA)方法,提出《在線環境下的多機器人優先關系協同與協作》。本章沿用相同“任務圖”模型與“基于流網絡的求解方法”,將其置于在線框架以提升系統魯棒性與性能,并通過高保真仿真器驗證方案有效性。核心在于,在原有MRTA問題中引入“不確定性”考量——任務可能隨機失敗或產生求解器未預期的隨機獎勵。依托流網絡方法的高速求解優勢,以迭代方式重構求解流程,使系統能夠基于已完成任務的獎勵觀測實時重規劃。該方法顯著提升了存在環境不確定性時的規劃性能,甚至因解空間擴展在零誤差條件下進一步優化結果。在高保真城市環境多智能體仿真器中驗證了該在線方法及離線流網絡方法,其中任務獎勵基于仿真器內物理現象量化。實驗表明,該建模方法能有效預測高不確定性復雜任務的性能表現,且相較文獻方法具有顯著優勢。在線框架為原有方案注入魯棒性,并將性能提升至接近最優水平,為任務分配領域持續研究提供了極具前景的框架。?
帶時空約束的聯盟形成問題(CFSTP)旨在刻畫任務分配與聯盟形成的交叉場景。該模型中,數十個異構智能體部署于數公里區域執行數千項任務(每項任務具有截止時間與工作量)。為最大化任務完成量,智能體需通過組建、解散與重組聯盟實現協作。本論文首先深入分析前瞻性聯盟形成算法(CFLA)——當前最先進的CFSTP算法,揭示其核心局限,進而提出擴展版本CFLA2。研究表明CFLA2無法完全消除CFLA缺陷,因此開發新型算法"基于集群的任務調度"(CTS),首次實現即時性、高效性與收斂性保障的統一。實證驗證CTS相較CFLA與CFLA2的優越性,并提出簡化并行版本S-CTS。在RoboCup救援仿真生成的任務場景中,S-CTS性能媲美高性能二進制最大和(Binary Max-Sum)與分布式隨機算法(DSA),同時速度提升兩個數量級。隨后,提出CFSTP最小化數學規劃模型,將其簡化為動態分布式約束優化問題,并設計CTS分布式版本D-CTS。構建模擬消防員調度的測試框架,驗證D-CTS在大規模動態環境中的有效性。最后,針對"任務解決越快、效益越大"場景,提出"多智能體聯盟路由調度問題"(MARSC)——涵蓋CFSTP與帶時間窗團隊定向問題(TOPTW)的通用模型。建立二進制整數規劃模型,提出首創新型算法"任意時精準并行節點遍歷"(ANT),該算法同時適用于MARSC與CFSTP。此外定義近似變體ANT-ε。基于擴展版CTS與實時系統常用"最早截止期優先"技術,在本土化測試框架中驗證兩類算法性能。
章節概要
第二章 針對1.3節界定領域綜述多智能體聯盟形成任務分配研究,目標有二:詳述研究領域選擇依據;論證現有模型雖接近研究目標,但無法全面滿足,從而引出第六章MARSC提案。
第三章 奠定后續章節理論基礎:CFSTP的約束規劃模型、CFLA算法及原始混合整數規劃模型。
第四章 提出CFLA改進算法CFLA2;設計新型最優CFSTP算法CTS;定義并行變體S-CTS;基于RoboCup救援仿真對比評估CTS、Binary MaxSum與DSA算法性能。
第五章 構建CFSTP最小二進制整數規劃模型并簡化為DynDCOP形式;設計CTS分布式版本D-CTS;基于倫敦消防隊記錄的大規模真實場景測試框架進行實證評估。
第六章 構建適用于實時領域的通用模型MARSC(涵蓋CFSTP與TOPTW);設計首個任意時精準并行MARSC算法ANT及其近似變體ANT-ε。
結論 總結研究優勢與局限,提出未來研究方向清單。
人工智能分布式部署的代理系統日益普及,對高效選擇影響智能體學習行為的參數、復雜環境下的機制設計應用以及整合多樣化智能體能力達成預期目標提出了新挑戰。算法機制設計(這一融合計算機科學、數學與經濟學的跨學科領域)致力于開發引導理性智能體實現期望行為的算法,其應用涵蓋資源分配、成本分攤、定價與組合拍賣。然而,傳統方法受限于計算約束與靜態假設,在動態不確定環境中的有效性不足。本論文通過整合強化學習(RL)與貝葉斯優化(BO)開發動態多智能體環境中的自適應機制以突破上述局限。
本文提出多智能體強化學習(MARL)中機制設計的新框架,依托新型BO方法高效探索潛力方案。MARL捕捉隨機環境中多智能體動態交互的復雜性,通過求解底層馬爾可夫博弈學習聯合策略。評估多MARL場景的計算復雜度問題通過以下方式解決:(一)擴展"后繼特征"至納什均衡策略的遷移學習;(二)采用基于BO的框架限制評估資源,使問題可解。所提機制設計框架的有效性通過多項實際應用基準研究驗證,包括:出租車平臺司機服務費設定、共享自然資源開發管理(實現社會福利最大化)、機器人編隊勘探任務硬件采購決策優化,以及定義最優激勵與招募策略(最大化委托方目標)。實證結果表明,本方法在現實問題中優于現有技術,彰顯BO與MARL結合優化復雜多智能體系統的潛力,為機制設計未來研究奠定堅實基礎。
多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。
第一章
本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。
第二章:基于圖神經網絡的多機器人覆蓋控制
本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。
第三章:具備任務優先級關系的多機器人協調協作
本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。
第四章:在線環境下的多機器人協調協作
本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。
深度學習通過自動化關鍵任務并實現超越人類的準確度,已在多行業引發革命性變革。然而,這些優勢主要依賴部署于云端的巨型神經網絡,其能耗驚人。本論文提出兩類新型框架與算法,將深度學習模型部署邊界拓展至微型邊緣設備——此類設備通常在計算資源有限且環境噪聲復雜的場景下運行:
(1)高效邊緣AI新框架。開發了通過濾波器剪枝與高效網絡設計降低推理成本的方法。CUP框架提出層級濾波器聚類剪枝技術實現模型壓縮與加速;CMP-NAS框架構建視覺搜索系統,優化小型邊緣模型與大型服務器模型協同工作,在保持高精度前提下實現80倍計算成本削減。
(2)魯棒邊緣AI新方法。開發了在降低推理成本同時增強現實噪聲魯棒性的技術。REST框架擴展剪枝應用范圍,使網絡效率提升9倍、運行速度加快6倍,且具備對抗高斯噪聲與對抗樣本的魯棒性;HAR方法將多分支神經網絡的早期退出機制擴展至訓練階段,在類別不平衡最優精度,同時節省20%推理算力;IMB-NAS框架通過超網絡適配策略優化不平衡數據集的神經架構,相較從頭搜索節省5倍計算資源。
研究成果對工業界與社會產生重大影響:CMP-NAS技術支撐時尚與面部檢索服務的邊緣部署案例,在亞馬遜公司內部向數千名研發人員展示;REST技術通過手機實現居家睡眠監測功能,獲多家新聞媒體重點報道。
本研究通過物理交互增強機器人間協作的移動性,并優化機器人-人交互的通信效能。研究圍繞兩條主線展開:(1) 具身多機器人系統的算法開發;(2) 無人機與人類物理交互通信方法的探索與創新。在第一條主線中,我們研發了一種新型平面模塊化機器人系統,其核心貢獻在于構建了可擴展的制造與操作系統架構。這需要開發新型協調算法,特別權衡能耗效率、計算可擴展性與連接冗余度等關鍵參數。在第二條主線中,我們專注于理解、設計與應用無人機與人類之間的物理交互接觸。物理接觸作為人機協作的有效通信模式,在無人機交互領域尚屬探索不足。隨著無人機日益融入人類生活空間,理解這類交互對安全拓展應用場景至關重要。我們通過用戶研究揭示了全身物理交互中的新型通信方法。
本研究通過物理交互增強機器人間協作的移動性,并優化機器人-人交互的通信效能。研究圍繞兩條主線展開:(1) 具身多機器人系統的算法開發;(2) 無人機與人類物理交互通信方法的探索與創新。
為探索太空與深海等極限環境,需研發具備長期任務耐久性的機器人系統。這要求系統具備高度自主性以適應動態環境與突發狀況。模塊化機器人憑借并行性、適應性與冗余性等特征,相較單體機器人具有更高效率與成本效益。并行性指模塊同步執行多任務提升效率;適應性使集群能重構形態應對新挑戰(如地形變化);冗余性保障單模塊故障時任務持續。因此,模塊化機器人是推進科學發現的理想長期自主平臺。
模塊化系統在解決傳統問題的同時引入新挑戰:硬件層面需應對機械損耗、連接錯位導致的誤差傳播及大規模維護;軟件層面需開發兼具可擴展性、效率與可驗證性的算法。通過硬件-軟件協同設計,我們在開發早期同步優化物理約束與算法局限,而非后期被動適配,從而提升系統級魯棒性。本研究參與開發的新型平面模塊化機器人系統,其核心創新在于構建可擴展的制造與操作架構,并研發了能平衡能耗、計算擴展與連接冗余的新型協調算法。
在無人機-人通信策略方面,我們聚焦物理交互突破視聽局限。例如在噪聲環境中,觸覺通信可有效替代聽覺方式。無人機(微型飛行器)作為輔助設備在搜救、環境監測與導航等領域潛力巨大,但需建立清晰通信機制以支持人機協作,包括狀態傳達、行動預示或操作提示等功能。相較于地面機器人,無人機-人通信技術發展相對滯后,制約其應用潛力釋放。
觸覺通信在多變光照條件下的適用性優于投影等視覺方式,對視障群體更具包容性。無人機全向飛行的特性使其可實現全身交互,超越地面機器人的交互維度。然而物理觸覺通信策略設計仍存在基礎認知缺口:(1)人體哪些部位適合觸覺交互;(2)可接受的觸覺模態類型;(3)不同觸覺模式的信息傳遞效能;(4)觸覺模態的優化選擇機制。本研究通過系統性探索解答這些問題,建立無人機物理指令傳遞的基礎框架,并開拓新型應用場景。
進一步地,我們在人-機協作框架下探索物理接觸的新型應用。通過設計無人機舞伴系統,研究動態全身交互中的協作機制。我們開發了增強動態環境下物理接觸的無人機行為模式,并收集舞者對物理交互的體驗反饋。這種視角為理解全身人-機交互中的用戶體驗提供洞見,助力新應用開發。
第二章聚焦首條研究主線,詳述通過可擴展高效算法強化模塊間物理連接,提升系統移動性與魯棒性的算法創新。第三、四章探索第二條主線,成果擬提交會議或期刊。第三章闡述物理觸覺通信的基礎性發現;第四章詳述人-機協作研究,重點關注人類協作方的體驗認知,以及增強物理接觸的自主行為設計。研究范圍限定于人類視角分析與接觸增強算法開發,為后續研究奠定基礎。