本文開發了一種充分統計量方法,用于在二分類任務中設計人機協作決策策略(AI預測可被用于自動化決策或選擇性輔助人類)。該方法允許內生性偏誤信念與努力擠出效應,而無需構建人類決策的結構化模型。我們通過在線事實核查實驗驗證該方法的有效性,發現人類對AI預測存在響應不足,且在AI高置信度預測下降低努力投入。AI響應不足更多源于人類對自身信號精度的過度自信,而非低估AI能力。最優策略對AI置信案例實施自動化,將不確定案例委派人類并完整披露AI預測。盡管自動化具有價值,但通過AI預測輔助人類帶來的邊際效益微乎其微。
近年來人工智能工具性能快速提升(Maslej等,2024),諸多預測工具達到或超越人類水平(Kleinberg等,2017;Agrawal等,2018;Lai等,2021)。相應引發對AI輔助如何影響人類績效(Noy和Zhang,2023;Brynjolfsson等,2025)及人機協作系統設計的廣泛關注(Raghu等,2019;Mozannar和Sontag,2020;Agarwal等,2023)。
設計人機協作的挑戰在于潛在協作模式空間龐大且人類響應難以預測。人類可能對AI信息呈現信念更新偏誤(Agarwal等,2023),AI信息可能擠出人類信息獲取或處理努力(表現為算法厭惡、自動化偏誤或"自動駕駛效應")。這些復雜響應與高維設計空間使得通過實驗或結構建模尋找最優方案面臨困難。
本文針對二分類任務開發充分統計量方法(每個案例需分類為a∈{0,1})。充分統計量V(x)表示當人類決策者觀察到經校準的AI評估(正確分類概率為x∈[0,1])時的正確分類概率。允許任何基于AI評估選擇性自動化分類任務或向人類委派任務(同時披露可能不完美的評估信號)的系統。在V函數不依賴信息披露策略的假設下,信息設計文獻結論(Dworczak和Martini,2019)表明V可用于尋找最優設計,即條件于V的設計問題不依賴人機交互其他要素(如人類信息、行為偏誤或努力響應)。
相較兩種傳統方案,充分統計量方法具顯著優勢:其一,通過估計人類行為與信念更新的全參數模型求解最優設計(需更強行為假設且數據需求相似);其二,實驗測試多設計方案(因設計空間龐大而不具實操性,且無法保證全局最優)。
我們在事實核查激勵實驗中實施與驗證該方法。參與者需核查聲明真實性。事實核查是研究人機協作的重要場景(涉及公共利益且人機核查廣泛應用),同時便于實驗操作:任務易解釋、非專業參與者可完成、準確性易度量(采用FEVEROUS數據庫標注真偽聲明)。該場景也代表醫療診斷、司法保釋決策、簡歷篩選等二分類任務。
實驗分兩階段:第一階段通過不同AI預測下的分類準確率估計V函數并求解最優與近似最優設計(考慮允許自動化與強制人類決策方案);第二階段在第一階段估計基礎上實施五種設計,通過組內實驗驗證充分統計量方法的預測準確性。
第一階段結果揭示:1)估計V函數呈凸性(全披露AI預測對委派案例最優),與部分披露更優的既往結論(Athey等,2020;Dell’Acqua,2022)相異;2)AI高置信度時人類準確率顯著低于自動化(V(x)<max{x,1?x}),需自動化處理;3)AI不確定預測對人類增益有限(最優策略為AI自信案例自動化+不確定案例無輔助委派人類)。
最優設計預測顯示:允許自動化時FDA策略(全披露+自動化)最優,其準確率與NDA策略(無披露+自動化)近似;禁止自動化時FDNA策略(全披露+無自動化)最優且顯著優于NDNA(無輔助),與SL策略(三色信號提示)效果相近。
第二階段實驗驗證五類策略表現:所有預測誤差小于1.6個百分點(1%水平不顯著),定性預測均成立(FDA與NDA無統計差異最優;FDNA與SL無差異且顯著優于NDNA),證明充分統計量假設的有效性。
機制分析發現:1)信念更新誤差導致至少7.7%AI輔助錯誤分類;2)AI響應不足主因人類對自身信號精度過度自信(相對貝葉斯基準過度敏感但AI響應適當);3)精確AI信息擠出人類努力但對信號精度影響微弱。
本文開發了基于充分統計量的方法,用于設計二元分類任務中的人機協作決策機制。該方法允許AI預測用于全自動化決策,或選擇性輔助人類決策,同時兼容決策者的內生偏倚信念與努力擠出效應,無需構建人類決策的結構性模型。本方法經在線事實核查實驗驗證:人類對AI預測存在反應不足現象,且當AI呈現高置信度預測時會降低自身努力程度。這種不足反應主要源于人類對自身信號精度的過度自信,而非低估AI能力。最優策略為:AI高置信度時自動化處理,不確定性案例委托給人類并完整披露AI預測。自動化雖具價值,但利用AI預測輔助人類的額外收益微乎其微。
人工智能工具性能近年顯著提升,諸多預測工具已媲美甚至超越人類(Kleinberg等, 2017; Agrawal等, 2018; Lai等, 2021)。該進展引發兩大關注點:AI輔助如何影響人類表現(Brynjolfsson等, 2025);以及如何設計人機協作系統以確定案例應自動化處理,或交由人類決策(無論是否輔以AI預測)(Raghu等, 2019; Mozannar與Sontag, 2020)。
設計人機協作面臨的核心挑戰在于:可行方案空間龐大,且人類對設計方案的反應難以預測。人類可能對AI預測展現信念更新偏誤(Agarwal等, 2023),而AI預測可能擠出人類獲取或處理信息的努力——這種現象被稱為算法規避(Dietvorst等, 2015)、自動化偏倚(Skitka等, 1999)或“行車時打盹效應”(Dell’Acqua, 2022)。響應行為的復雜性疊加協作方案的高維特征,使通過實驗或結構建模尋求最優方案困難重重。
本文針對二元分類任務開發充分統計量方法,要求對多個案例輸出分類結果a ∈ {0, 1}。充分統計量V(x)定義為:當人類決策者觀測到經校準的AI評估值x∈[0,1](表示正確分類為1的概率)時,其正確分類案例的概率。該方法兼容任何基于自身評估選擇性自動化分類任務,或在披露(可能不完美的)評估信號同時委派任務給人類的AI系統。在V函數不隨信息披露策略改變的假設下,信息設計理論(Dworczak與Martini, 2019)證明:V函數可被用于求解該空間內的最優設計方案。這意味著——在給定V的條件下——最優設計獨立于人類信息處理、行為偏誤或努力響應等其他人機交互因素。V函數可直接利用向決策者完整披露AI評估值x時的決策準確率數據估算,此類數據可源自實驗(如本研究)或歷史觀測。
該充分統計量方法相較于兩種傳統方案具顯著優勢。方案一需估計人類行為與信念更新的完整結構模型并求解最優設計,此過程需更強行為假設且估計所需數據(不同AI評估值x下的準確率)與直接估計V函數所需數據相同。方案二需通過實驗測試大量設計尋找最優方案,但因設計空間巨大而不具實操性,且仍需理論論證所獲最優解是否全局最優。
我們在激勵性在線事實核查實驗中實施并驗證本方法。參與者需判斷陳述真偽,此場景對人機協作研究具典型價值:公共陳述真實性受高度關注,人類與AI核查員均被廣泛應用。盡管媒體、獨立機構與數字平臺長期依賴專業人類核查員(國際事實核查網絡, 2023),待核查陳述數量的激增促使各方關注公眾參與事實核查(Allen等, 2021; X社區筆記, 2025)及自動化核查(Guo等, 2022; 國際事實核查網絡, 2023)。完善人機協作系統對提升事實核查效能具有現實意義。
事實核查亦是理想的實驗場景:任務易于闡釋且可由未經訓練者執行;利用含基準真值標簽的陳述數據庫(如實驗采用的FEVEROUS庫(Aly等, 2021))可便捷測量準確率;該任務還表征了醫療診斷(Agarwal等, 2023)、司法保釋決定(Kleinberg等, 2017)、簡歷篩選(Li等, 2020)等典型二元分類場景。
實驗分兩階段推進:第一階段通過測量不同AI評估值下的分類準確率估計充分統計量V,求解最優及近似最優設計。因社會往往偏好人類保留最終決策權(事實核查可能屬此情形),我們同時考慮允許自動化和完全人類決策的設計。第二階段在參與者內實驗中實施五種基于第一階段估計的方案,通過比較兩階段預測準確率與實際結果檢驗充分統計量方法。
多機器人協同與協作是提升團隊能力并實現自主建造、農業及未知大區域持續作業等應用場景新型任務的關鍵行為。本研究以“多機器人資源分配問題”為背景探究此類行為,該問題要求將機器人分配至待服務區域。我們尤其關注適用于大規模多機器人團隊的“容錯性方法”。我們引入一種基于圖的建模框架用于多機器人資源分配問題,該框架在表征“區域間關系”與“獎勵模型”方面具有前所未有的豐富性。首先,針對“多智能體覆蓋控制問題”,通過圖神經網絡(GNN)引入“基于圖的計算方法”,其利用學習型智能體間通信策略,在性能與可擴展性上顯著提升。隨后,研究需要顯式協同的“復雜多任務場景下多機器人任務分配問題”,提出一種“基于網絡流的規劃方法”,可在數秒內為大規模問題生成高質量解。進一步將該方法擴展至在線場景,支持任務失敗與意外觀測時的動態重規劃。實證研究表明,這些建模方法與算法通過挖掘多機器人問題中的本質圖結構特征,實現了性能突破并推動領域技術前沿發展。
圖:任務圖(底部)展示任務間優先關系。高亮部分為任務子集,顯示“聯盟職能”(紅色)與“優先關系”(藍色)。例如,在執行“運輸建筑材料”任務前,機器人需在布滿碎片的工地“尋路或清障”。路徑質量直接影響團隊運輸效率;而運輸表現(如材料損毀情況)將決定后續“施工任務”的執行速度與質量。?
第一章將本研究置于“多機器人資源分配”領域框架內。首先,提出多機器人資源分配領域內的問題分類體系,沿著“任務表征抽象度”維度梳理問題模型及其對應研究方法。隨后,深入綜述與“多機器人覆蓋控制”及“多機器人任務分配”密切相關的文獻,這些成果為本研究提供了核心理論支撐。??
??第二章《基于圖神經網絡的多機器人系統覆蓋控制》提出一種創新方法,解決“感知半徑受限條件下的多機器人覆蓋控制”問題。相較于文獻常用基準控制器,該方法通過智能體間通信機制顯著提升控制器的性能與魯棒性。為實現這一目標,在機器人間通信網絡上部署圖神經網絡(GNN),訓練其預測集中式全知控制器的輸入指令,從而生成能夠通過智能體通信應對復雜覆蓋控制場景的控制器。實驗證明,該控制器性能顯著超越基準方法,且具備優異的可擴展性與泛化能力。首次構建基于全球城市真實興趣點特征的覆蓋控制問題數據集,并用于算法驗證。這是圖神經網絡學習型控制器在多機器人覆蓋控制領域的首次應用,展現出巨大潛力。??
??第三章《具有任務優先關系的多機器人協同與協作》針對“多機器人任務分配(MRTA)”問題提出新型建模框架與求解方法體系。首次將“優先級約束”與“多機器人任務”納入MRTA問題,構建名為“任務圖”的建模框架——以圖節點表示任務,邊表示任務間優先級關系。該框架包含的“獎勵模型”能通過豐富函數空間表征關聯任務性能間關系及任務分配聯盟規模與任務績效間關系。基于此模型,開發出利用網絡流優化的任務分配解決方案,其求解速度較現有方法提升數個量級,且計算復雜度與任務執行機器人數量無關,可擴展至無限規模團隊。實驗表明,該方法在保證解質量的同時實現計算效率突破,為任務分配建模框架作出根本性貢獻。?
在第四章中,拓展了多機器人任務分配(MRTA)方法,提出《在線環境下的多機器人優先關系協同與協作》。本章沿用相同“任務圖”模型與“基于流網絡的求解方法”,將其置于在線框架以提升系統魯棒性與性能,并通過高保真仿真器驗證方案有效性。核心在于,在原有MRTA問題中引入“不確定性”考量——任務可能隨機失敗或產生求解器未預期的隨機獎勵。依托流網絡方法的高速求解優勢,以迭代方式重構求解流程,使系統能夠基于已完成任務的獎勵觀測實時重規劃。該方法顯著提升了存在環境不確定性時的規劃性能,甚至因解空間擴展在零誤差條件下進一步優化結果。在高保真城市環境多智能體仿真器中驗證了該在線方法及離線流網絡方法,其中任務獎勵基于仿真器內物理現象量化。實驗表明,該建模方法能有效預測高不確定性復雜任務的性能表現,且相較文獻方法具有顯著優勢。在線框架為原有方案注入魯棒性,并將性能提升至接近最優水平,為任務分配領域持續研究提供了極具前景的框架。?
多機器人協調與協作是提升團隊能力、實現自主建造、農業及廣域未知環境長期作業等新任務的關鍵行為。本研究聚焦多機器人資源分配問題背景下的此類行為,即機器人需被分配至服務區域。我們特別關注適用于大規模機器人集群的容錯方法,引入一種基于圖建模的多機器人資源分配框架,該框架在表征區域間關系與獎勵模型方面具備前所未有的豐富性。首先解決多智能體覆蓋控制問題,通過圖神經網絡(GNN)實施基于圖的計算,利用學習型智能體間通信策略實現性能與可擴展性提升。隨后針對需顯式協調協作的復雜多任務場景,提出基于網絡流的規劃方法,可在數秒內生成大規模問題的高質量解。我們將此方法擴展至在線環境,實現任務失敗與意外觀測條件下的動態重規劃。實驗證明,這些建模方法與算法通過挖掘多機器人問題中的基礎圖結構,推動技術前沿的進步。
第一章
本章將研究工作置于多機器人資源分配領域進行定位。首先提出多機器人資源分配問題的分類體系,沿任務表征抽象維度梳理問題建模與對應方法(1.3節)。隨后深入綜述推動本研究中覆蓋控制與任務分配工作的核心文獻(1.5與1.6節)。
第二章:基于圖神經網絡的多機器人覆蓋控制
本章提出一種新型有限感知半徑多機器人覆蓋控制方法,相比傳統基線控制器,通過智能體間通信提升性能與魯棒性。我們在機器人通信網絡上部署圖神經網絡(GNN),訓練其預測中心化全知控制器的控制指令,從而獲得能通過智能體間通信應對覆蓋控制難題的控制器。實驗驗證該方法在性能、擴展性與泛化能力上的優勢。2.6節展示基于全球城市特征數據構建的覆蓋控制數據集,用于算法驗證。本研究首次將GNN學習控制器應用于多機器人覆蓋控制,展現該路徑的廣闊前景。
第三章:具備任務優先級關系的多機器人協調協作
本章以新型建模框架與解法體系解決多機器人任務分配(MRTA)問題。提出"任務圖"建模框架:將任務抽象為圖節點,任務間優先級關系抽象為邊;構建包含任務關聯性能與編隊規模-任務效能關系的獎勵模型。該框架啟發基于網絡流優化的機器人任務分配解法,實驗表明其求解速度較現有方法提升數倍,且計算復雜度與機器人數量無關——可擴展至無限規模團隊。本研究對任務分配建模框架作出基礎性貢獻,實現求解速度的量級突破。
第四章:在線環境下的多機器人協調協作
本章將任務圖模型與流解法擴展至在線環境,提升系統魯棒性與性能,并通過高精度仿真驗證。核心在于處理含不確定性的MRTA問題:任務可能隨機失敗或產生預期外獎勵。利用流解法的高速求解特性,建立迭代重規劃機制,依據已完成任務的獎勵觀測動態調整方案。實驗證明該方法在不確定性環境中顯著提升規劃性能,零誤差條件下亦因解空間擴展而優化。通過高精度城市多智能體仿真驗證離線/在線流解法,測量仿真物理現象衍生的任務獎勵。結果表明,本建模方法在復雜不確定任務中有效預測性能,且顯著優于文獻現有方法。在線機制增強系統魯棒性,使性能逼近最優,為任務分配領域后續研究提供極具潛力的框架。
本論文探討了如何應用有監督的機器學習技術來提高網絡控制系統(NCS)的性能和可解釋性。無人駕駛系統(UxVs)可通過覆蓋大片區域的延伸偵察任務提供快速高效的目標定位。以協作方式控制一組 UxV 是一個難題,美海軍正在開發的一個解決方案是網絡控制系統行為集成優化(BION)。BION 是一種 NCS,利用部分可觀測蒙特卡洛規劃(POMCP)算法提供接近最優的近實時編隊控制。本文旨在通過使用訓練優良的神經網絡近似關鍵功能,解決 POMCP 算法的某些局限性。神經網絡利用概率技術和顯著性圖提高了可解釋性,同時也提高了處理速度。在基于 ResNet 的不同架構上進行了實驗,并成功地將訓練良好的神經網絡集成到了 BION 中。這項研究拓展了實驗和開發 BION 的能力,從而推動了UxV 的開發和集成。
第二章將討論 BION 的核心功能,以及與神經網絡和顯著性圖譜相關的關鍵概念。第三章將討論實現過程,包括訓練和評估數據、神經網絡架構、神經網絡訓練算法以及生成顯著性圖。第四章將介紹工作成果,包括訓練統計數據和計算出的顯著性圖樣本。第 5 章總結了本文的貢獻以及未來可能的工作領域。
本文介紹了一種在美國海軍和國防部框架內提高可操作技術(OT)系統安全性和效率的新方法。這項研究由負責作戰能源的海軍副助理部長贊助,旨在解決 OT 系統中異常檢測方面的關鍵差距。本文引入了一個綜合傳感器系統和先進的機器學習(ML)模型,用于分析各種 OT 設備的實時功耗數據。通過從模擬的小規模 OT 環境中開發獨特的非侵入式負載監控(NILM)數據集,本研究率先將成本效益高、易于部署的傳感器陣列與支持向量機、長短期記憶和卷積神經網絡算法等 ML 技術集成在一起。這種集成旨在簡化異常檢測,減輕這些 OT 系統中多種背板協議集成所帶來的復雜性。通過異常表征和定制檢測方法的制定,本文在利用 ML 識別系統故障、設備故障和潛在網絡安全威脅的早期指標方面開創了新的先例。這項工作極大地促進了獨立 OT 系統的安全性和復原力,使其能夠抵御一系列異常現象,為未來對基礎設施至關重要的安全和復原力 OT 系統的發展奠定了基礎。
盡管技術取得了長足進步,但戰爭迷霧--戰場上的不確定性和不完整信息--仍對軍事行動構成挑戰。由于缺乏定量支持工具,在這種條件下進行有效決策仍然是一個關鍵問題。本文通過將軍事人工智能(AI)融入美海軍開發的六邊形戰場模擬環境(即 Atlatl 平臺)來彌補這一不足。研究重點是開發和評估各種人工智能算法,包括腳本人工智能、分層和非分層人工智能以及強化學習(RL)模型。這些模型利用概率分布來加強戰爭迷霧場景下的導航和戰略規劃。通過模擬多次戰斗迭代,人工智能模型在戰爭迷霧中定位和跟蹤敵方陣地的精確性和作戰效率方面表現出明顯的優勢,可幫助指揮官做出決策。此外,本研究獲得的見解不僅有助于完善戰爭迷霧場景中的行動方案(COA)決策,還可實際應用于反潛戰(ASW)和海上搜救(SAR)行動。本文強調了利用概率分布的人工智能支持決策的有效性。
美國國防部(DOD)開發了各種模型和模擬,供各分支和部門使用。表 1 列出了國防部內使用模擬和兵棋的組織名單。這些工具通過不同的方法為指揮官的決策過程提供支持。采用的方法包括定制開發的軟件;商業游戲的改編;研討會、系統和混合等各種形式的戰爭游戲;以及電子表格的使用。每種模擬都是針對特定情況設計的,并為其所針對的特定梯隊提供支持。因此,并非所有模擬都能實現定量戰爭迷霧(精確到足以用數字表示不確定性);有些模擬可能根本不包括戰爭迷霧,而有些模擬可能實現的戰爭迷霧過于寬泛。此外,即使實施了戰爭迷霧,由于需要大量啟發式干預,其為指揮決策提供定量支持的效果也可能有限。
解決 “戰爭迷霧 ”問題的研究已在游戲行業等多個商業領域展開,但在軍事領域的探索卻相對有限。因此,本研究旨在為最大限度地減少軍事領域的 “戰爭迷霧 ”做出重大貢獻,主要是幫助指揮官做出明智決策。此外,在應用人工智能、自動化作戰行動(COA)開發和評估方面,正如 “2035 年戰爭的特征研討會”(2020 年 11 月)所討論的那樣,本研究將為開發由機器支持的快速決策和人機協作做出貢獻(Taliaferro 等人,2021 年)。
為了拓寬視野,本文采用了 “戰爭迷霧 ”的概念來描述情報僅限于目標定位的狀態。這種情況與海軍反潛戰以及海上搜救行動中普遍存在的基礎條件極為相似。因此,這項研究可應用于具有類似條件的各種情況,包括海軍行動、反潛戰和海上失蹤人員搜索行動。
本論文分為五章。第一章介紹了研究的主要課題和總體范圍。第二章 “背景和文獻綜述 ”解釋了對本研究至關重要的概念,如模擬、戰爭游戲、認知行為人工智能和強化學習(RL)的基礎知識,以及如何在研究中應用這些概念。第三章 “方法論 ”詳細介紹了研究中使用的代碼結構、代碼實現以及所進行的實驗。隨后,第四章 “情景和結果 ”將重點介紹這些實驗的結果并討論其性能。第五章 “結論與未來工作 ”回顧了第四章的討論,總結了研究的主要發現,并概述了該領域未來研究的潛在方向。
現有的決策計算模型往往局限于特定的實驗設置。造成這種限制的主要原因是無法捕捉決策者對情況的不確定性。本文提出了一個計算框架,用于研究神經科學和心理學中不確定情況下的決策制定。框架主要側重于決策者對世界狀況的概率評估,即他們的 “信念”。具體來說,它基于部分可觀測馬爾可夫決策過程(POMDPs),結合貝葉斯推理和獎勵最大化來選擇行動。利用感知決策和社會決策方面的各種實驗數據,證明了基于信念的決策框架的可行性。框架解釋了感知決策實驗中決策者的實際表現與他們對實際表現的信念(即決策信心)之間的關系。它還說明了為什么在許多情況下這種評估會偏離現實。這種偏差通常被解釋為次優決策的證據,或選擇和信心的不同過程。我們的框架對這些解釋提出了挑戰,它表明,一個優化收益的規范貝葉斯決策者也會產生同樣的偏差。此外,在定量預測人類在社會決策任務中的行為方面,方法優于現有模型,并提供了對潛在過程的洞察。結果表明,在涉及大型群體的決策任務中,人類采用貝葉斯推理來模擬 “群體心理”,并對他人的決策做出預測。最后,將方法擴展到關于他人的多個推理層次(心智理論層次),并將服從作為群體決策的一種策略聯系起來。這個擴展框架可以解釋人類在各種集體群體決策任務中的行為,為大型群體中的合作與協調提供了新的理論。
圖 1.1: 基于信念的決策框架。智能體通過行動、觀察和獎勵與世界互動。智能體無法完全觀測到世界的狀態,只能根據觀測結果和智能體的內部世界模型,以概率方式表示世界的狀態。智能體的目標是根據當前狀態的概率分布來制定策略,即所謂的信念
本文是研究指揮與控制(C2)未來表現形式的四篇系列論文中的第一篇。第一篇論文通過探討未來指揮與控制(C2)系統需要在其中運行的未來作戰環境,為后續研究設定了基線。具體來說,本文探討了復雜性的驅動因素、表現形式和影響,而此前的研究表明,復雜性很可能是這一環境的特征。為此,它討論了 C2 和復雜性等關鍵術語的定義;介紹了未來運行環境中復雜性的一些驅動因素,并討論了這些因素如何對 C2 系統和組織造成新的壓力;研究了分析和理解復雜性的可能方法;并概述了 2030 年代及以后可能產生的一些實際考慮因素。由于本文旨在為本系列的后續三篇論文提供資料,因此沒有全面涵蓋未來 C2 思考的所有方面,包括提出具體建議。
C2 沒有直截了當的定義,對于該術語在當代作戰環境中的范圍和相關性也存在爭議。對 C2 傳統定義的批判來自于對 21 世紀有效領導力構成要素的更廣泛質疑。在英國、美國和北約,最近出現了大量與 C2 相關的新術語,并將重點從聯合思維轉向多領域思維。我們的研究將 C2 定義為一個動態的、適應性強的社會技術系統,因此有必要考慮組織、技術和人力要素。
同樣,復雜性也沒有一個公認的定義。學術界對復雜性的研究日益增多,涉及多個科學學科,但缺乏統一的方法或理論框架。一個有用的出發點是區分簡單系統、復雜系統、復雜系統和復雜適應系統。文獻還描述了在這些條件下可能出現的所謂 "棘手"或 "超級棘手問題"。還可以對有限博弈和無限博弈進行重要區分--這是考慮作為復雜適應系統的國家間競爭時的一個有用視角。鑒于這些爭論,我們的研究避開了對復雜性的僵化定義,而是從其關鍵屬性的角度對這一現象進行了 DCDC 式的描述。
未來作戰環境的特征--以及國防 C2 系統和組織預計將執行的任務類型--具有很大的不確定性,因此任何預測都必須謹慎。盡管如此,文獻指出了各種政治、經濟、社會、技術、法律、環境和軍事(PESTLE-M)趨勢,預計這些趨勢將影響國際體系的演變,進而影響 2030 年及以后的國防行動。這些趨勢包括以下宏觀趨勢
最重要的是,沒有一個單一或主要的趨勢推動著變化或復雜性;相反,最令人擔憂的是多種因素的融合及其不可預測的相互作用。這種認識為進一步研究這些趨勢影響國際體系復雜性水平和特征的具體機制提供了基礎,從而為在這一領域開展工作的 C2 帶來了新的挑戰。
上述 PESTLE-M 趨勢為未來組織應對 C2 帶來了一系列困境和壓力,包括但不限于
此外,無論是理論家還是實踐者,在處理包含非線性動態的問題時,都缺乏有力的措施來衡量所做決定或采取的行動的有效性。因此,很難確切地說未來作戰環境中的復雜性是否在客觀上不斷增加(而不是以不同的形式出現),但對軍隊應處理的復雜任務的政治期望與當前 C2 方法的執行能力之間顯然存在巨大差距。當前的學術理論為決定如何在復雜環境中配置 C2 提供了一個方法工具包的初步輪廓和一些指導原則,但并沒有提供靈丹妙藥。該理論強調審議分析方法,即讓不同利益相關者參與共同設計、借鑒多學科和知識體系的見解,并在分析和決策過程中建立靈活性,以便根據反饋意見不斷迭代和改進的方法。
要應對復雜的自適應系統,就必須摒棄當前的線性 C2 流程和等級結構,盡管在處理非復雜任務和問題時,更傳統的方法可能仍然有用。在競爭激烈的世界中,英國既需要培養能夠對他人施加建設性影響的特性和能力(例如,將復雜性強加給對手的 C2),也需要培養能夠增強自身駕馭復雜性能力的特性和能力。
要影響敵對行動者的觀念、決策和行為,首先要深入了解其 C2 結構、流程和文化。根據這種了解,英國國防需要一套動能和非動能杠桿,對敵方的 C2 施加建設性影響,包括施加復雜性。除了敵對行動者,英國國防部還需要進一步了解如何對 PAG、盟友、合作伙伴、工業界、學術界、公民和對 C2 采取截然不同方法的其他人施加建設性影響。
在增強英國自身應對復雜性的能力方面,未來的 C2 系統和組織必須促進靈活性、復原力以及學習和適應能力等特性。整個決策周期都需要變革。例如,傳感器和通信技術的進步為獲取更多深度和廣度的數據提供了機會,包括有關復雜問題的數據。因此,提高認知能力對于理解所有這些數據至關重要,既要利用人類和機器的優勢,又要減少各自的缺點。要改變決策方法,還需要改變領導風格,以培養更善于駕馭復雜適應系統的決策者。在做出決策或計劃后,提高跨部門或跨層級的能力,在實施階段更好地整合活動或匯聚效應,對于抵消英國的局限性(如在質量方面)至關重要。
同樣,整合也不是萬全的;如果國防缺乏足夠深度的力量和能力,無法在充滿敵意的威脅環境中采取可信行動或維持高節奏行動,那么即使是最高效的指揮控制系統也無法在未來取得成功。此外,還需要采取防御措施以及恢復和失效模式,以阻止或減輕敵方破壞 C2 系統和組織的努力所造成的影響。鑒于所面臨的威脅,以及英國國防可能需要解決的不同形式的復雜問題,很可能會同時出現多種并行的 C2 模式,而不是單一的方法。應對復雜性意味著不斷學習、適應、創新和開放求變。因此,必須從一開始就將效果衡量標準、信號和變革機制納入計劃以及 C2 系統和組織,使其能夠隨著時間的推移不斷學習和調整,以應對各種情況。至關重要的是,未來 C2 系統和組織的設計只是挑戰的一部分--它們還必須得到更廣泛的國防企業緊急改革的支持,以確保獲得所需的使能因素(人員、技術等)。從 C2 的角度來看,這本身就是一個挑戰,因為改變這個企業--一個復雜的適應性系統--本身就是一個棘手的問題。
學術理論家和政府、軍事或工業從業人員對復雜性或復雜適應系統的理解并不全面,而這正是未來 C2 運行環境的特點。雖然文獻提供了處理復雜性的有用方法和工具,以及未來 C2 的一些初步設計考慮,但英國 C2(本身就是一個社會技術系統)的現代化和轉型將是一項高度復雜的工作。這意味著要與不斷發展的作戰環境、不斷變化的威脅和技術環境共同適應,從而進行迭代和不斷學習。因此,最緊迫的挑戰或許是,考慮到 C2 系統在未來面對復雜性時取得成功所需的轉型(技術、結構、流程、文化、教育等)的程度和性質,了解如何在一段時間內最好地引導這一過程。
自相矛盾的是,要克服實現以應對復雜性為目標的 C2 系統所面臨的障礙,可能需要英國國防部已經表現出其所尋求建立的系統的許多特征。面對這樣的循環邏輯,英國國防部可能需要某種外部沖擊來迫使其進行創造性的破壞,或者利用(或不顧)更傳統、線性的 C2 方法來啟動自身的激進改革努力,并隨著時間的推移,隨著變化的到來而進行調整。
盡管近年來深度學習取得了巨大進展,但訓練神經網絡所帶來的爆炸式經濟和環境成本正變得不可持續。為了解決這個問題,已經有大量關于算法高效深度學習的研究,這些研究旨在通過改變訓練程序的語義,而不是在硬件或實現級別上降低訓練成本。本文對該領域的研究進行了系統、全面的綜述。首先,我們將算法加速問題形式化,然后我們使用算法高效訓練的基本構建塊來開發分類。我們的分類強調了看似不同的方法的共性,并揭示了當前的研究差距。接下來,我們將介紹評估最佳實踐,以實現對加速技術的全面、公平和可靠的比較。為進一步幫助研究和應用,討論了訓練管道中的常見瓶頸(通過實驗說明),并為它們提供分類緩解策略。最后,我們強調了一些尚未解決的研究挑戰,并提出了有希望的未來方向。 //arxiv.org/abs/2210.06640
在過去的幾年里,深度學習(DL)在廣泛的應用領域取得了顯著的進展,如蛋白質結構預測(AlphaFold [Jumper et al。2021])、文本到圖像合成(DL - e [Ramesh et al。2021])、文本生成(GPT-3 [Brown等人。2020a])等。實現這些性能提升的關鍵策略是將DL模型擴展到非常大的規模,并對它們進行大量數據的訓練。對于大多數應用程序,可訓練參數的數量至少每18至24個月翻一番——語言模型以4至8個月的翻倍時間領先(Sevilla and Villalobos 2021)。大規模人工智能模型的著名例子包括:用于視覺應用的Swin Transformer-V2 [Liu等人2022a],用于語言建模的PaLM [Chowdhery等人2022],用于內容推薦的波斯[Lian等人2021],具有100萬億參數。
盡管擴大DL模型正在實現前所未有的進步,但訓練大型模型已經變得極其昂貴。例如,GPT-3訓練成本估計為165萬美元,使用谷歌v3 TPU[Lohn和Musser 2022],且transformer 模型的低效/幼稚開發將產生相當于5輛汽車終生碳足跡的二氧化碳(CO2) [Strubell等人,2019]。值得關注的是,DL仍然沒有達到許多應用所要求的性能水平:例如,在現實世界中部署全自動駕駛汽車需要人類水平的性能,但還沒有達到。不斷增長的模型和數據規模以達到所需的性能將使當前的訓練策略在金融、環境和其他方面不可持續。事實上,根據目前的趨勢推斷,2026年最大的人工智能模型的訓練成本將超過美國的GDP總量(Lohn and Musser 2022)。此外,DL對計算的高度依賴引發了人們對財務資源有限的用戶(如學者、學生和研究人員(特別是來自新興經濟體的人)的邊緣化的擔憂[Ahmed and Wahed 2020]。我們將在附錄A中更詳細地討論這些關鍵問題。考慮到其計算負擔的不可持續增長,DL的進步需要更多的計算效率訓練方法。一個自然的方向是消除學習過程中的算法效率低下,以減少DL訓練的時間、成本、能量和碳足跡。這種算法高效的深度學習方法可以通過多種方式改變訓練過程,包括:改變數據或樣本呈現給模型的順序;調整模型的結構;改變優化算法。這些算法改進對于實現有效深度學習訓練所需計算負擔的估計下界至關重要,目前的做法導致的負擔大大超過了該下界[Thompson等人,2020]。
此外,這些算法增益與軟件和硬件加速技術相結合[Hernandez和Brown 2020]。因此,我們相信算法高效的邏輯學習提供了一個巨大的機會來增加邏輯學習的收益并降低其成本。雖然最近涌現的算法效率論文支持了這一觀點,但這些論文也表明,算法效率方法的研究和應用受到碎片化的阻礙。不同的指標被用來量化效率,這產生了不一致的加速方法的排名。評估是在狹窄或特征不佳的環境中執行的,這將導致不正確或過于寬泛的結論。在討論算法效率方法時,缺乏反映它們的廣度和關系的分類法,這使得人們很難理解如何遍歷加速環境,將不同的方法結合起來并開發新的方法。因此,本文的核心貢獻是組織算法效率文獻(通過受[Von Rueden等人2019]啟發的分類法和調研),以及對影響報告和實現加速的實際問題的技術描述(通過評估和實踐指南)。我們的討論始終強調這兩個重點的關鍵交集:例如,算法效率方法是否會導致實際的加速確實取決于方法(通過我們的分類法可以理解)和計算平臺(通過我們的從業者指南可以理解)之間的交互。
我們的貢獻總結如下:
有了這些貢獻,我們希望改進算法效率的研究和應用,這是計算效率深度學習的關鍵部分,需要克服現有研究面臨的經濟、環境和包容相關的障礙。本文主要分為四個部分:第2節概述了DNN訓練和效率度量以及算法加速問題的形式化。第3節使用廣泛適用的加速方法的構建塊以及它們影響的訓練管道組件來開發我們的分類法。第4節根據我們的分類法對加速文獻進行了全面的分類,并討論了研究機會和挑戰。第5節和第6節分別討論了比較不同方法的最佳評估實踐和選擇合適的加速方法的實際建議。最后,第7節總結并提出了算法效率領域的開放問題。
基于最近關于非凸優化算法在訓練深度神經網絡和數據分析中的其他優化問題中的應用,我們對非凸優化算法全局性能保證的最新理論成果進行了綜述。我們從經典的論證開始,證明一般的非凸問題不可能在合理的時間內得到有效的解決。然后,我們給出了一個可以通過盡可能多地利用問題的結構來尋找全局最優解的問題列表。處理非凸性的另一種方法是將尋找全局最小值的目標放寬到尋找一個平穩點或局部最小值。對于這種設置,我們首先給出確定性一階方法收斂速度的已知結果,然后是最優隨機和隨機梯度格式的一般理論分析,以及隨機一階方法的概述。然后,我們討論了相當一般的一類非凸問題,如α-弱擬凸函數的極小化和滿足Polyak- Lojasiewicz條件的函數,這些函數仍然可以得到一階方法的理論收斂保證。然后我們考慮非凸優化問題的高階、零階/無導數方法及其收斂速度。