多機器人協同與協作是提升團隊能力并實現自主建造、農業及未知大區域持續作業等應用場景新型任務的關鍵行為。本研究以“多機器人資源分配問題”為背景探究此類行為,該問題要求將機器人分配至待服務區域。我們尤其關注適用于大規模多機器人團隊的“容錯性方法”。我們引入一種基于圖的建模框架用于多機器人資源分配問題,該框架在表征“區域間關系”與“獎勵模型”方面具有前所未有的豐富性。首先,針對“多智能體覆蓋控制問題”,通過圖神經網絡(GNN)引入“基于圖的計算方法”,其利用學習型智能體間通信策略,在性能與可擴展性上顯著提升。隨后,研究需要顯式協同的“復雜多任務場景下多機器人任務分配問題”,提出一種“基于網絡流的規劃方法”,可在數秒內為大規模問題生成高質量解。進一步將該方法擴展至在線場景,支持任務失敗與意外觀測時的動態重規劃。實證研究表明,這些建模方法與算法通過挖掘多機器人問題中的本質圖結構特征,實現了性能突破并推動領域技術前沿發展。
圖:任務圖(底部)展示任務間優先關系。高亮部分為任務子集,顯示“聯盟職能”(紅色)與“優先關系”(藍色)。例如,在執行“運輸建筑材料”任務前,機器人需在布滿碎片的工地“尋路或清障”。路徑質量直接影響團隊運輸效率;而運輸表現(如材料損毀情況)將決定后續“施工任務”的執行速度與質量。?
第一章將本研究置于“多機器人資源分配”領域框架內。首先,提出多機器人資源分配領域內的問題分類體系,沿著“任務表征抽象度”維度梳理問題模型及其對應研究方法。隨后,深入綜述與“多機器人覆蓋控制”及“多機器人任務分配”密切相關的文獻,這些成果為本研究提供了核心理論支撐。??
??第二章《基于圖神經網絡的多機器人系統覆蓋控制》提出一種創新方法,解決“感知半徑受限條件下的多機器人覆蓋控制”問題。相較于文獻常用基準控制器,該方法通過智能體間通信機制顯著提升控制器的性能與魯棒性。為實現這一目標,在機器人間通信網絡上部署圖神經網絡(GNN),訓練其預測集中式全知控制器的輸入指令,從而生成能夠通過智能體通信應對復雜覆蓋控制場景的控制器。實驗證明,該控制器性能顯著超越基準方法,且具備優異的可擴展性與泛化能力。首次構建基于全球城市真實興趣點特征的覆蓋控制問題數據集,并用于算法驗證。這是圖神經網絡學習型控制器在多機器人覆蓋控制領域的首次應用,展現出巨大潛力。??
??第三章《具有任務優先關系的多機器人協同與協作》針對“多機器人任務分配(MRTA)”問題提出新型建模框架與求解方法體系。首次將“優先級約束”與“多機器人任務”納入MRTA問題,構建名為“任務圖”的建模框架——以圖節點表示任務,邊表示任務間優先級關系。該框架包含的“獎勵模型”能通過豐富函數空間表征關聯任務性能間關系及任務分配聯盟規模與任務績效間關系。基于此模型,開發出利用網絡流優化的任務分配解決方案,其求解速度較現有方法提升數個量級,且計算復雜度與任務執行機器人數量無關,可擴展至無限規模團隊。實驗表明,該方法在保證解質量的同時實現計算效率突破,為任務分配建模框架作出根本性貢獻。?
在第四章中,拓展了多機器人任務分配(MRTA)方法,提出《在線環境下的多機器人優先關系協同與協作》。本章沿用相同“任務圖”模型與“基于流網絡的求解方法”,將其置于在線框架以提升系統魯棒性與性能,并通過高保真仿真器驗證方案有效性。核心在于,在原有MRTA問題中引入“不確定性”考量——任務可能隨機失敗或產生求解器未預期的隨機獎勵。依托流網絡方法的高速求解優勢,以迭代方式重構求解流程,使系統能夠基于已完成任務的獎勵觀測實時重規劃。該方法顯著提升了存在環境不確定性時的規劃性能,甚至因解空間擴展在零誤差條件下進一步優化結果。在高保真城市環境多智能體仿真器中驗證了該在線方法及離線流網絡方法,其中任務獎勵基于仿真器內物理現象量化。實驗表明,該建模方法能有效預測高不確定性復雜任務的性能表現,且相較文獻方法具有顯著優勢。在線框架為原有方案注入魯棒性,并將性能提升至接近最優水平,為任務分配領域持續研究提供了極具前景的框架。?
人工智能(AI)作為成功范式已廣泛應用于多領域,但在偏遠地區部署或弱連通場景下實施時,常需在數據采集源頭就近完成推理計算。本研究致力于探索AI模型優化路徑,推動智能算法向邊緣端部署。聚焦農業等領域的便攜式設備應用場景(如氣培容器、無人機、移動機器人),核心目標是通過開發定制化模型并實現"模型尺寸壓縮"與"推理時延優化"。為此系統探索了多維度優化方案:包括樣本數據"相關特征"提取技術、網絡剪枝及量化壓縮等方法。本論文提出涵蓋開發-實現-優化的全棧式框架,重點解決邊緣設備部署所需的輕量化與高效能需求。
研究目標通過三重遞進步驟實現:驗證至少存在一種AI模型可為目標應用提供有效預測;探索并實施模型優化方法;最終在資源受限硬件平臺完成部署。核心創新點在于建立定制模型通用優化流程,并首創基于"模型可解釋性"的特征選擇框架——該方案在農業科技領域尚屬首次系統性實踐。優化體系以特征選擇為主體,輔以剪枝與量化技術形成完整閉環。通過在準邊緣設備部署驗證,實證了本方案的工程可行性。
盡管本文構建了從模型設計到邊緣部署的完整研究鏈,仍需指出若干可深化方向:AI領域與邊緣計算技術持續迭代,硬件加速架構及軟件工具鏈的革新為后續研究開辟廣闊空間。本工作旨在填補現有研究空白并提供方法論參考,寄望所提思想能為未來邊緣智能技術發展提供有效范式支撐。
本文開發了基于充分統計量的方法,用于設計二元分類任務中的人機協作決策機制。該方法允許AI預測用于全自動化決策,或選擇性輔助人類決策,同時兼容決策者的內生偏倚信念與努力擠出效應,無需構建人類決策的結構性模型。本方法經在線事實核查實驗驗證:人類對AI預測存在反應不足現象,且當AI呈現高置信度預測時會降低自身努力程度。這種不足反應主要源于人類對自身信號精度的過度自信,而非低估AI能力。最優策略為:AI高置信度時自動化處理,不確定性案例委托給人類并完整披露AI預測。自動化雖具價值,但利用AI預測輔助人類的額外收益微乎其微。
人工智能工具性能近年顯著提升,諸多預測工具已媲美甚至超越人類(Kleinberg等, 2017; Agrawal等, 2018; Lai等, 2021)。該進展引發兩大關注點:AI輔助如何影響人類表現(Brynjolfsson等, 2025);以及如何設計人機協作系統以確定案例應自動化處理,或交由人類決策(無論是否輔以AI預測)(Raghu等, 2019; Mozannar與Sontag, 2020)。
設計人機協作面臨的核心挑戰在于:可行方案空間龐大,且人類對設計方案的反應難以預測。人類可能對AI預測展現信念更新偏誤(Agarwal等, 2023),而AI預測可能擠出人類獲取或處理信息的努力——這種現象被稱為算法規避(Dietvorst等, 2015)、自動化偏倚(Skitka等, 1999)或“行車時打盹效應”(Dell’Acqua, 2022)。響應行為的復雜性疊加協作方案的高維特征,使通過實驗或結構建模尋求最優方案困難重重。
本文針對二元分類任務開發充分統計量方法,要求對多個案例輸出分類結果a ∈ {0, 1}。充分統計量V(x)定義為:當人類決策者觀測到經校準的AI評估值x∈[0,1](表示正確分類為1的概率)時,其正確分類案例的概率。該方法兼容任何基于自身評估選擇性自動化分類任務,或在披露(可能不完美的)評估信號同時委派任務給人類的AI系統。在V函數不隨信息披露策略改變的假設下,信息設計理論(Dworczak與Martini, 2019)證明:V函數可被用于求解該空間內的最優設計方案。這意味著——在給定V的條件下——最優設計獨立于人類信息處理、行為偏誤或努力響應等其他人機交互因素。V函數可直接利用向決策者完整披露AI評估值x時的決策準確率數據估算,此類數據可源自實驗(如本研究)或歷史觀測。
該充分統計量方法相較于兩種傳統方案具顯著優勢。方案一需估計人類行為與信念更新的完整結構模型并求解最優設計,此過程需更強行為假設且估計所需數據(不同AI評估值x下的準確率)與直接估計V函數所需數據相同。方案二需通過實驗測試大量設計尋找最優方案,但因設計空間巨大而不具實操性,且仍需理論論證所獲最優解是否全局最優。
我們在激勵性在線事實核查實驗中實施并驗證本方法。參與者需判斷陳述真偽,此場景對人機協作研究具典型價值:公共陳述真實性受高度關注,人類與AI核查員均被廣泛應用。盡管媒體、獨立機構與數字平臺長期依賴專業人類核查員(國際事實核查網絡, 2023),待核查陳述數量的激增促使各方關注公眾參與事實核查(Allen等, 2021; X社區筆記, 2025)及自動化核查(Guo等, 2022; 國際事實核查網絡, 2023)。完善人機協作系統對提升事實核查效能具有現實意義。
事實核查亦是理想的實驗場景:任務易于闡釋且可由未經訓練者執行;利用含基準真值標簽的陳述數據庫(如實驗采用的FEVEROUS庫(Aly等, 2021))可便捷測量準確率;該任務還表征了醫療診斷(Agarwal等, 2023)、司法保釋決定(Kleinberg等, 2017)、簡歷篩選(Li等, 2020)等典型二元分類場景。
實驗分兩階段推進:第一階段通過測量不同AI評估值下的分類準確率估計充分統計量V,求解最優及近似最優設計。因社會往往偏好人類保留最終決策權(事實核查可能屬此情形),我們同時考慮允許自動化和完全人類決策的設計。第二階段在參與者內實驗中實施五種基于第一階段估計的方案,通過比較兩階段預測準確率與實際結果檢驗充分統計量方法。
本文開發了一種充分統計量方法,用于在二分類任務中設計人機協作決策策略(AI預測可被用于自動化決策或選擇性輔助人類)。該方法允許內生性偏誤信念與努力擠出效應,而無需構建人類決策的結構化模型。我們通過在線事實核查實驗驗證該方法的有效性,發現人類對AI預測存在響應不足,且在AI高置信度預測下降低努力投入。AI響應不足更多源于人類對自身信號精度的過度自信,而非低估AI能力。最優策略對AI置信案例實施自動化,將不確定案例委派人類并完整披露AI預測。盡管自動化具有價值,但通過AI預測輔助人類帶來的邊際效益微乎其微。
近年來人工智能工具性能快速提升(Maslej等,2024),諸多預測工具達到或超越人類水平(Kleinberg等,2017;Agrawal等,2018;Lai等,2021)。相應引發對AI輔助如何影響人類績效(Noy和Zhang,2023;Brynjolfsson等,2025)及人機協作系統設計的廣泛關注(Raghu等,2019;Mozannar和Sontag,2020;Agarwal等,2023)。
設計人機協作的挑戰在于潛在協作模式空間龐大且人類響應難以預測。人類可能對AI信息呈現信念更新偏誤(Agarwal等,2023),AI信息可能擠出人類信息獲取或處理努力(表現為算法厭惡、自動化偏誤或"自動駕駛效應")。這些復雜響應與高維設計空間使得通過實驗或結構建模尋找最優方案面臨困難。
本文針對二分類任務開發充分統計量方法(每個案例需分類為a∈{0,1})。充分統計量V(x)表示當人類決策者觀察到經校準的AI評估(正確分類概率為x∈[0,1])時的正確分類概率。允許任何基于AI評估選擇性自動化分類任務或向人類委派任務(同時披露可能不完美的評估信號)的系統。在V函數不依賴信息披露策略的假設下,信息設計文獻結論(Dworczak和Martini,2019)表明V可用于尋找最優設計,即條件于V的設計問題不依賴人機交互其他要素(如人類信息、行為偏誤或努力響應)。
相較兩種傳統方案,充分統計量方法具顯著優勢:其一,通過估計人類行為與信念更新的全參數模型求解最優設計(需更強行為假設且數據需求相似);其二,實驗測試多設計方案(因設計空間龐大而不具實操性,且無法保證全局最優)。
我們在事實核查激勵實驗中實施與驗證該方法。參與者需核查聲明真實性。事實核查是研究人機協作的重要場景(涉及公共利益且人機核查廣泛應用),同時便于實驗操作:任務易解釋、非專業參與者可完成、準確性易度量(采用FEVEROUS數據庫標注真偽聲明)。該場景也代表醫療診斷、司法保釋決策、簡歷篩選等二分類任務。
實驗分兩階段:第一階段通過不同AI預測下的分類準確率估計V函數并求解最優與近似最優設計(考慮允許自動化與強制人類決策方案);第二階段在第一階段估計基礎上實施五種設計,通過組內實驗驗證充分統計量方法的預測準確性。
第一階段結果揭示:1)估計V函數呈凸性(全披露AI預測對委派案例最優),與部分披露更優的既往結論(Athey等,2020;Dell’Acqua,2022)相異;2)AI高置信度時人類準確率顯著低于自動化(V(x)<max{x,1?x}),需自動化處理;3)AI不確定預測對人類增益有限(最優策略為AI自信案例自動化+不確定案例無輔助委派人類)。
最優設計預測顯示:允許自動化時FDA策略(全披露+自動化)最優,其準確率與NDA策略(無披露+自動化)近似;禁止自動化時FDNA策略(全披露+無自動化)最優且顯著優于NDNA(無輔助),與SL策略(三色信號提示)效果相近。
第二階段實驗驗證五類策略表現:所有預測誤差小于1.6個百分點(1%水平不顯著),定性預測均成立(FDA與NDA無統計差異最優;FDNA與SL無差異且顯著優于NDNA),證明充分統計量假設的有效性。
機制分析發現:1)信念更新誤差導致至少7.7%AI輔助錯誤分類;2)AI響應不足主因人類對自身信號精度過度自信(相對貝葉斯基準過度敏感但AI響應適當);3)精確AI信息擠出人類努力但對信號精度影響微弱。
多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。
第一章
本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。
第二章:基于圖神經網絡的多機器人覆蓋控制
本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。
第三章:具備任務優先級關系的多機器人協調協作
本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。
第四章:在線環境下的多機器人協調協作
本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。
配備先進傳感器的無人平臺的集成有望提高對態勢的感知能力,緩解軍事行動中的 “戰爭迷霧”。然而,管理這些平臺涌入的大量數據給指揮與控制(C2)系統帶來了巨大挑戰。本研究提出了一種新穎的多智能體學習框架來應對這一挑戰。該方法可實現智能體與人類之間自主、安全的通信,進而實時形成可解釋的 “共同作戰圖景”(COP)。每個智能體將其感知和行動編碼為緊湊向量,然后通過傳輸、接收和解碼形成包含戰場上所有智能體(友方和敵方)當前狀態的 COP。利用深度強化學習(DRL),聯合訓練 COP 模型和智能體的行動選擇策略。本文展示了在全球定位系統失效和通信中斷等惡劣條件下的復原能力。在 Starcraft-2 模擬環境中進行了實驗驗證,以評估 COP 的精度和策略的魯棒性。報告顯示,COP 誤差小于 5%,策略可抵御各種對抗條件。總之,本文貢獻包括自主 COP 形成方法、通過分布式預測提高復原力以及聯合訓練 COP 模型和多智能體 RL 策略。這項研究推動了自適應和彈性 C2 的發展,促進了對異構無人平臺的有效控制。
圖 1:(左)虎爪情景中的狀態示例。(右圖)每個智能體的感知(本地觀察)和它們之間的通信聯系。
配備先進傳感器的無人平臺的集成為減輕 “戰爭迷霧 ”和提高態勢感知能力帶來了希望。然而,管理和傳播來自此類平臺的大量數據對中央指揮與控制(C2)節點的信息處理能力構成了巨大挑戰,特別是考慮到隨著平臺數量的增加,數據量也會呈指數級增長。目前的人工處理方法不適合未來涉及無人平臺群的 C2 場景。在本研究中,我們提出了一個利用多智能體學習方法來克服這一障礙的框架。
我們考慮的框架是,智能體以自主方式相互通信(以及與人類通信),并以數據驅動的方式訓練這種通信功能。在每個時間步驟中,每個智能體都可以發送/接收一個實值信息向量。該向量是智能體感知或視場(FoV)的學習編碼。這些向量不易被對手解讀,因此可以實現安全的信息傳輸。
在接收方,必須對信息進行解碼,以恢復發送方的感知和行動。此外,還應將信息整合(隨時間匯總)到 “共同行動圖像”(COP)中。與編碼器一樣,解碼器也是以數據驅動的方式學習的。在本文中,我們將 COP 的定義簡化為戰場上每個友方和敵方智能體的當前狀態(位置、健康狀況、護盾、武器等)。我們認為,COP 對決策智能體至關重要。
近年來,以數據驅動方式進行端到端訓練的人工智能/人工智能方法大有可為。在數據驅動型自主 COP 的背景下,一個優勢是無需對傳感器和執行器中的噪聲、對手的動態等做出建模假設。通過充分的訓練,我們的數據驅動方法將產生高度精確的 COP。
不過,ML 模型可能對訓練數據或訓練場景的偏差很敏感。這與陸軍 C2 場景中通常假設的 DDIL(拒絕、中斷、間歇和有限影響)環境形成了鮮明對比。我們的實驗強調評估對霧增加、全球定位系統失效和通信中斷(如干擾)的適應能力。
我們使用深度神經網絡(DNN)的深度學習實現了編碼器和解碼器的數據驅動端到端訓練。將 DNN 應用于 COP 形成的一個挑戰是通信中缺乏人類可解釋性。人類可解釋性對于人類操作員有效控制蜂群至關重要。例如,通過解釋通信,操作員可以理解蜂群用于(自主)決策的特征。我們的方法具有人機互換性,這意味著人類操作員可以解碼傳入的信息,并將他們的感知編碼,與蜂群進行交流。由此產生的 COP 使人類能夠指揮蜂群。
在實踐中,COP 被大量用于任務執行,例如,確保協調運動。我們假設,將 COP 納入自主決策智能體將產生彈性多智能體策略(例如,對敵方變化的彈性)。我們在實驗中將有 COP 和沒有 COP 的多智能體策略學習與多種最先進的方法進行了比較,并驗證了這一假設。
接下來,我們總結一下我們的方法。我們首先描述了我們的深度學習方案,其中每個智能體將其感知和行動編碼成緊湊向量并進行傳輸。各智能體共享底層嵌入向量空間,以實現對態勢的共同理解。每個智能體都要訓練一個編碼器-解碼器,以生成本地 COP。本地 COP 應與智能體的感知一致,并能預測行動區域內所有單位的狀態(包括位置)。
利用深度強化學習(DRL)技術,在一系列不同的模擬場景、初始部隊配置和對手行動中,對 COP 和智能體策略進行端到端聯合訓練。訓練的輸出是一個編碼器-解碼器神經網絡(NN)和一個跨智能體共享的策略 NN。可通過多種方式對訓練進行配置:最小化帶寬、最大化對干擾(如信道噪聲、數據包丟失、GPS 干擾等)的恢復能力。該方法可用于協調信息收集任務。
實驗在星際爭霸-2(SC2)多代理環境中進行。在 SC2 中模擬的多個藍方與紅方的場景中,我們通過經驗觀察到了該方法的有效性。具體來說,我們在具有挑戰性和現實性的 TigerClaw 情景(圖 1)中測試和評估了我們的方法,該情景由發展司令部陸軍研究實驗室(ARL)和陸軍主題專家(SMEs)在美國佐治亞州摩爾堡的上尉職業課程中開發。
對 COP 的準確性和幻覺進行評估,以揭示有趣的訓練動態。在整個模擬過程中,我們的方法生成的 COP 高度準確,誤差小于 5%(與地面實況相比)。為了測試策略的魯棒性,我們將我們的方法與多種最先進的多智能體 RL 方法和基線進行了比較。結果表明,我們的方法所制定的策略能夠抵御視覺范圍減弱、通信能力減弱、GPS 被拒絕以及場景變化的影響。
總之,這項研究通過數據驅動的 COP 形成,實現了人在環內的異構自主平臺的指揮和控制,并推進了自適應和彈性 C2 領域的發展。其貢獻如下:
圖 3:從學習到的交流中預測 COP 的框架概覽。在決策過程中確定并使用 COP。我們使用 QMIX作為 COP 集成的 MARL 方法示例。
本文介紹了一種在美國海軍和國防部框架內提高可操作技術(OT)系統安全性和效率的新方法。這項研究由負責作戰能源的海軍副助理部長贊助,旨在解決 OT 系統中異常檢測方面的關鍵差距。本文引入了一個綜合傳感器系統和先進的機器學習(ML)模型,用于分析各種 OT 設備的實時功耗數據。通過從模擬的小規模 OT 環境中開發獨特的非侵入式負載監控(NILM)數據集,本研究率先將成本效益高、易于部署的傳感器陣列與支持向量機、長短期記憶和卷積神經網絡算法等 ML 技術集成在一起。這種集成旨在簡化異常檢測,減輕這些 OT 系統中多種背板協議集成所帶來的復雜性。通過異常表征和定制檢測方法的制定,本文在利用 ML 識別系統故障、設備故障和潛在網絡安全威脅的早期指標方面開創了新的先例。這項工作極大地促進了獨立 OT 系統的安全性和復原力,使其能夠抵御一系列異常現象,為未來對基礎設施至關重要的安全和復原力 OT 系統的發展奠定了基礎。
在機器學習(ML)的整個流程中,人們扮演著至關重要的角色。人們通過復雜的分布式評估網絡對大量數據進行注釋,從而為機器學習算法的開發做出貢獻。在機器學習部署端,專家從業人員在醫療保健、借貸、教育、社會服務和救災等各種現實世界領域與 ML 模型成果合作。本論文的重點是研究和支持人類在復雜決策環境中的判斷,以期改善他們與機器學習算法的整合。這項工作以研究人類行為的學科,特別是心理學、認知科學和人機交互學的豐富和肥沃土壤為基礎,從定量和定性的角度研究不同社會技術系統中的情景人為因素,如眾包、同行評審、ML 輔助決策等。具體來說,我們設計了統計工具,用于理解不同數據激發范式下的人類行為。下一步,我們將設計實驗,從統計學角度深入了解人類在復雜環境下的決策偏差,從而支持循證政策改革,提高決策質量。為了改進現實世界環境中的人工智能部署,我們提出了特定領域和通用領域框架,以支持人類與人工智能的有效合作。這里的重點是理解和利用人類與 ML 工具的相對優勢。本論文展示了在提高機器學習算法影響力這一更廣泛的目標中強調人類作用的重要性。
機器學習(ML)技術的飛速發展,在很大程度上是由于它有望自動完成傳統上認為只有人類才能完成的各種任務。從基于視覺表征識別數字的簡單行為,到診斷胸片異常的復雜任務。對視覺表征的理解是現代機器學習方法的成就之一。其他進步包括但不限于自然語言處理、機器人等領域。這些技術進步的核心宗旨是希望復制和再現人類的能力。換句話說,要全面了解機器學習工具,就必須研究其設計初衷的人類印記。
人類的能力和智慧通過幾種復雜的互動交織在 ML 工具的結構中。當我們仔細研究任何機器學習算法的設計和執行所涉及的不同過程時,這一點就會變得顯而易見。實際上,在現實世界中部署一個 ML 模型包括三個主要階段: (1) 收集數據,以捕捉模型的預期目標,例如,對于圖像識別模型,可能需要收集帶有注釋的圖像,以描述圖像中感興趣的特征;(2) 模型開發,在此過程中,采用精心選擇的架構對模型進行訓練,以學習預期目標;(3) 模型部署,將開發的 ML 工具部署到現實世界的環境中,例如自動駕駛汽車中的圖像識別模型,它可以幫助駕駛員獲得低功耗和安全的駕駛體驗。
在本論文中,我們將重點關注人在人工智能設計和執行管道的第一和第三階段中發揮的不可或缺的作用。人們在這些階段的行為對 ML 工具產生了至關重要的影響,并直接影響到 ML 在實踐中的成果。在數據收集階段,除了最近使用合成數據訓練 ML 模型的趨勢之外,數據幾乎完全由人生成。收集到的數據反映了參與生成數據的人的知識、經驗等。經過訓練,人工智能可以從數據中的模式中學習,其結果也反映了同樣的知識和經驗。之前的機器學習文獻對這一現象進行了詳細研究。從人們那里收集數據的一種常見方式是眾包,即在眾包平臺上上傳一項特定任務(如圖像標記),由參與的工作人員為上傳的圖像提供注釋。不難看出,眾包工作者行為的特殊性會對根據這些數據訓練出的最終模型產生怎樣的影響。
接下來,模型部署階段的具體情況會對模型的幾個方面產生重要影響。例如,請看前面提到的視覺模型為駕駛提供幫助的例子。理想的駕駛助手應該能夠在駕駛員即將犯錯時發出警告,因此在這種情況下,合適的輔助模型在很大程度上取決于人類駕駛員的能力和需求。這一想法適用于所有引入人工智能工具來增強人類能力的現實環境。了解人工智能模型所要輔助的人類專家當前的能力和缺陷,對于設計一個能夠在實踐中實現改善整體結果目標的模型至關重要。
鑒于人的整合在塑造 ML 模型的行為及其在實際應用中的有用性方面發揮著重要作用,我的論文有助于設計工具和實驗,以支持在復雜環境中更好地理解和整合人,從而改進 ML 工具。具體來說,這篇論文著眼于眾包和會議同行評審領域,研究復雜數據激發環境中人類行為的不同方面。我們的研究結果揭示了人們在這兩種環境下的行為中以前未經測試的細微差別和偏差,倡導在數據激發中進行以人為本的設計。接下來,關于人在模型部署階段的作用,本論文研究了在分類和生成設置中人與人工智能成果的協作。我們闡明了了解人類專家和人工智能模型在任何任務中的相對優勢對于支持有效的人類-人工智能協作的重要性。
第一部分側重于理解眾包中的人類決策行為。正如前面簡要提到的,眾包是訓練機器學習模型的主要數據來源,而其中生成的數據質量會影響在此基礎上訓練的模型的行為。在本論文中,我們設計了統計工具來檢查眾包數據的屬性。訓練 ML 模型需要大量數據,因此我們利用高維統計學習技術為本章介紹的算法提供理論保證。具體來說,第 2 章提供了一種雙樣本測試算法,用于檢測兩個人群對一組項目的偏好(以排名表示)是否存在統計意義上的顯著差異。第 3 章研究了在眾包過程中,當眾包者的專業水平信息可用時的數據聚合方法。具體來說,我們證明了一種流行的聚合方法--最大似然估計--在統計上是不被允許的。
第二部分側重于理解同行評審中的人類決策行為。科學同行評審是一種復雜的數據激發設置,它由評審人和提交的論文組成,旨在找出最優秀的論文。這種設置以分布式人工評估為基礎,其中每個評審員只評估一部分提交的論文,而每篇論文只由少數幾個人進行評估。這種設置為研究人類行為提供了豐富的素材,同時也帶來了一系列挑戰,如主觀性、偏見、激勵機制錯位等。本章的工作重點是研究同行評議數據,檢驗參與者的行為是否存在偏差,并據此提出基于證據的同行評議政策改革建議。第二部分的大部分技術工作包括:(1)設計實驗,仔細收集會議同行評審中的人類評價數據;(2)應用統計技術,找出人們評價中的重要模式。
接下來,我們將在第三部分討論本論文的第二個重點,即理解和支持人類與機器學習模型結果的整合。機器學習模型正被用于支持醫療保健、信用貸款、刑事司法等廣泛領域的決策。例如,在刑事司法系統中,算法累犯風險評分為被告的審前保釋決策提供依據。在高風險決策系統中引入 ML 輔助,就是要通過精心設計的混合決策系統,將人類認知和 ML 模型各自的優勢結合起來并加以放大。因此,論文的第三部分旨在提出可行的見解,以提高人類與 ML 合作的有效性,從而提高其成果的質量。
在第 8 章中,我們延續了之前對人類決策中的偏差所做的研究,研究了人類認知偏差在人工智能輔助決策中的作用。這項研究是之前關于支持人類決策者適當依賴 ML 模型輸出的研究的延續。
如前所述,有效的人類-人工智能合作關系的一個重要組成部分是了解人類與基于人工智能的決策在特定任務上的優勢和局限性。雖然行為科學研究為人工智能模型補充人類認知能力(反之亦然)的潛在機會提供了見解,但還需要進一步的研究來(1)了解這些發現在具體的現實世界人類決策任務中的影響,然后(2)將這些見解付諸實施,以促進有效的人類-人工智能合作關系。因此,本論文的其余部分提出了在兩類任務中實現人機交互互補的見解:預測性決策任務和生成性、共同創造性任務。相應地,第 9 章提出了預測決策中人機互補的通用領域和特定領域框架,第 10 章介紹了我們在審核人工智能模型中人機結合的特定領域工作。
這項工作旨在通過人類決策者及其與機器學習算法的結合,為大規模提高社會技術系統的決策質量提供可操作的見解。
在過去的十年中,無人駕駛飛行器(UAV)的使用領域完全爆炸式增長。如今,它們被用于執行監視任務和檢查人們難以到達的地方。為了提高執行這類任務的效率和穩健性,可以使用合作無人機群。然而,這對使用哪些解決方案來定位和導航智能體提出了新的要求。本論文研究、實施和評估了無人機群相對定位和繪圖的解決方案。
報告研究并介紹了通過使用擴展卡爾曼濾波器(EKF)融合智能體之間的速度數據和成對距離測量來估計相對位置的系統。在現有估計相對位置方法的基礎上開發了一種濾波器,并對其進行了修改,以包括星座中所有可用的成對距離,從而使定位精度提高了 47%。此外,還開發了一種多維縮放(MDS)初始化程序,能夠非常準確地確定蜂群內的初始相對位置,幫助 EKF 幾乎瞬間收斂。此外,還開發并測試了另一種使用 MDS 坐標估計值作為輸入的 EKF。
無人機配備了測距探測器,可測量四個方向與墻壁的距離。距離數據被插入一個網格,將環境離散化。在繪制環境地圖時,采用了一種方法來考慮無人機位置的不確定性,從而改進了結果。對蜂群繪制地圖的兩種方法進行了測試,結果表明它們適用于不同的設置。如果蜂群中的無人機具有共同的坐標系,無人機就會更新相同的網格并繪制地圖。如果無人機的坐標系不同,則分別創建地圖,然后合并。一般來說,協作構建地圖的方法性能更好,而且不需要復雜的地圖合并解決方案。要合并地圖,需要一個成本函數來衡量地圖的匹配程度。我們對三種不同的成本函數進行了比較和評估。使用已知的全局位置和相對姿態估計值,對探索環境的蜂群的映射器進行評估。
事實證明,在將相對姿態估計值輸入繪圖系統時,利用已有的定位濾波器所實現的精度足以生成分辨率為十厘米的地圖。在模擬環境中可以實現更高的制圖分辨率,但需要更多的計算時間,因此沒有進行測試。
FLASH 項目的最初目標是利用豐富的結構化知識形式,開發新型高效的機器學習算法。具體來說,我們的假設是,適當使用結構化知識可以大幅減少在標準機器學習任務中實現一流性能所需的手工標記數據量,并解決兩個關鍵挑戰:
我們項目最初的重點是:(1) 程序合成/結構化預測: 設計新的結構化預測和程序合成算法,并利用它們來推斷和利用結構;(2) 研究神經表征(向量嵌入),并利用它們來開發將結構嵌入向量表征的新算法,并利用它來支持轉移和利用結構;(3) 推斷和利用領域知識和輔助信號作為誘導結構的一種方式,更好地解決轉移學習問題,并開發新的受限深度學習算法來納入輔助信號。
FLASH 計劃執行了這一計劃,并在上述所有領域做出了一系列理論和實踐貢獻。除了開發理論、算法和表征之外,我們還利用這些理論、算法和表征開發了自然語言和計算機視覺方面的應用。
此外,在 DARPA LwLL 項目過程中,由于大型預訓練生成式人工智能模型(包括 ChatGPT 等大型語言模型 (LLM))的成功,該領域的重點發生了變化。雖然工作目標沒有改變,但我們自己的研究議程適應了該領域的這些變化,同時與我們最初提議的廣泛目標保持一致。例如,我們提出的大部分向量嵌入工作都擴展到了研究 LLM,我們在程序合成方面的工作也加入了神經肌張力元素,詳見下文。
FLASH 計劃在頂級會議上發表了大量論文,下文的描述不會涉及所有這些貢獻。相反,我們將重點介紹每個技術領域的一些關鍵貢獻,并請讀者參閱以下豐富的參考文獻以獲取完整信息。
這篇論文提出了在自動化制造背景下的多智能體機器人裝配規劃的算法。我們的工作涉及到 "工廠自主權堆棧 "的許多部分。本論文的第一個貢獻是引入了一個離散工廠問題的表述,其中包括時間延長的多機器人任務分配、任務間的優先權約束和避免碰撞的約束。我們提出了一種解決此類問題的有效方法。我們算法效率的兩個關鍵是它將任務分配和路線規劃解耦,以及它能夠利用一些機器人在自己的時間表中被推遲而不對工廠的整體性能造成任何負面影響的情況。
本論文的下一個主要貢獻是針對我們的離散工廠問題的在線版本的重新規劃算法系列。在在線設置中,工廠指揮中心定期收到新的制造工作量,這些工作量必須被迅速納入整體計劃中。我們通過大量的實驗表明,我們的重新規劃方法適用于廣泛的問題。此外,我們提出的方法在應用時可以使工廠在等待收到更新的計劃時永遠不必凍結。
我們最后的貢獻是一個概念驗證系統,用于大規模的多機器人裝配計劃,包括任意形狀和尺寸的裝配體和原材料。我們的系統從原材料和一套關于這些材料如何組合的基本指令開始。然后,規劃器合成一個施工計劃,其中定義了每個有效載荷將如何攜帶(由一個或多個機器人攜帶),每個組件和子組件將在哪里建造,以及哪些特定的機器人將被分配到每個單獨和協作的運輸任務。最后,一個反應式防撞控制策略使機器人能夠以分布式方式執行建造計劃。我們在模擬中證明,我們的系統可以在幾分鐘內合成具有數百個部件的裝配體的施工計劃。雖然我們沒有解決圍繞多機器人制造的所有相關的 "現實世界 "的考慮,但我們的工作是向使用移動機器人的大規模自動化施工邁出的一小步。