無人駕駛飛行器群(UAV,或無人機)有望改變從應急響應到執法和軍事行動等各個領域。無人機群為動態工作環境提供了可擴展、適應性強且分散的解決方案。然而,如何將這些多智能體系統成功地集成到現實世界的環境中,尤其是人類如何安全有效地與這些系統進行交互和控制方面,提出了巨大的挑戰。人機群交互(HSI)旨在通過探索人類操作員如何在高度復雜、不確定的條件下,以協調一致的方式管理多架無人機來應對這些挑戰。
本文研究的問題是為人類操作員指揮無人機群設計有效的交互機制和界面,特別是應對管理大量無人機、支持操作員的態勢感知以及平衡集中控制和分散控制等挑戰。該研究強調了通過引入替代概念模型來重新思考傳統方法的必要性,例如 “合唱團 ”隱喻,它將無人機群重新想象為協調的、半集中化的集合體,而不是純粹新興的、分散的集體。這一隱喻旨在平衡無人機群通常不可預測的集體行為與作戰環境中所需的可預測的定向行動。通過展示如何在人機交互系統架構中實現這一隱喻,本論文為人類與自主系統的交互概念化提供了新的途徑。
采用設計研究方法,結合多案例研究和基于場景的設計活動,在與潛在最終用戶的對話中設想未來的蜂群應用,開發并評估了體現這些細微差別的人機交互概念的原型。界面原型從即時戰略(RTS)游戲中汲取設計靈感。這些元素包括群組命令、高級任務規劃和資源池,以創建一種混合交互模型,使操作員既能保持對多架自主協作無人機的大局觀,又能對其進行精確控制。領域專家在消防和機場管理等環境中對這些原型進行了評估,驗證了這些概念的實用性。
研究結果強調了在設計人機交互系統時采用人類-技術-組織(HTO)視角的價值。這種系統思維方法并不只關注人與技術之間的互動,而是承認無人機群必須融入更大的組織框架,如應急響應指揮結構或機場地面運營團隊。它表明,成功的部署需要考慮更廣泛的組織背景,包括角色、工作流程和協調需求。這種全面的人機交互系統設計方法可確保無人機群不僅符合可靠性、響應性和可擴展性等技術性能標準,而且符合人類和組織的需求,從而促進無人機群在廣泛的現實世界場景中的采用和有效使用。最終,這些貢獻旨在縮小無人機群控制理論模型與實際部署之間的差距,推動人機交互技術領域和無人機群技術的廣泛應用。
這篇博士論文采用系統思維方法,將認知科學、CSE、多智能體系統(MAS)理論和交互設計融為一體,解決了與無人機群相關的復雜設計和交互難題,為 HSI 領域做出了重大貢獻。這些貢獻圍繞四個關鍵領域展開:
1.詳細的工作領域描述和需求分析。本論文對消防(論文 I)、搜救(論文 III、IV)和機場管理(論文 VI)等環境進行了全面的工作領域描述,強調了這些實際應用中的關鍵需求、限制和操作員面臨的挑戰。通過將分析立足于具體的操作環境,這些描述有助于彌合蜂群系統理論模型與實際應用之間的差距,確保設計要求植根于現實世界的需求。
2.生成式設計隱喻和混合交互模型。這項工作的一個主要貢獻是開發了一個新的概念設計隱喻--“合唱團 ”隱喻--重新思考了應該如何將多無人機系統概念化(論文 II)。這一隱喻通過平衡集體行為、單個智能體自主性和操作員控制之間的重點,有助于解決傳統蜂群隱喻的局限性。論文提出了一種融合 “整體 ”和 “還原 ”交互設計觀點的混合設計方法(論文 IV)。
3.受 RTS 啟發的 HSI 界面原型設計與實現。本論文的貢獻還包括根據所提出的設計原則和來自即時戰略(RTS)游戲的設計模式開發和評估 HSI 界面原型。這些原型說明了混合控制機制和 RTS 游戲界面元素(如群組管理、資源池和面向行動的控制)如何在界面中實現,從而提供對蜂群的宏觀控制和對單個無人機的微觀控制(論文 VI)。在現實場景(如消防和搜救)中對這些原型的評估證明了它們的實際適用性,驗證了理論貢獻,并強調了靈活性在人類-蜂群系統中的重要性。論文還提出了一種新方法,從現象學的角度研究人-機群聯合控制活動及其對操作員注意力的影響(論文五),為 HSI 評估和設計迭代提供了更多工具。
4.社會技術系統設計的 HTO 視角。與第一個貢獻相聯系,本論文提倡在設計蜂群系統時應用系統思維方法,特別是人類-技術-組織(HTO)框架(Berglund 等人,2020;Karltun 等人,2017)。通過納入組織方面的考慮因素,如跨團隊協調和與現有工作程序保持一致,本論文超越了傳統的 HSI 設計,因為傳統的 HSI 設計往往只關注人-技術方面。這一視角確保了無人機蜂群系統不僅在技術上強大,而且與組織需求兼容,從而支持更順利的實施和更好的操作整合。
人工智能有可能從根本上改變國防,從后臺職能到前線,并在軍事競爭和沖突中提供決定性優勢。人工智能已在俄羅斯烏克蘭沖突中得到有效部署,這表明人工智能不再屬于未來戰爭,而是國防必須參與的現實。鑒于人工智能潛在應用的廣泛性,很少有國防領域不能從人工智能或人工智能增強中獲益,因此國防部門需要開始考慮將人工智能作為其解決問題和實現目標的一個組成部分。英國有潛力成為一流的國防人工智能部門,但目前國防部門發展不足,需要加以培育。這既需要實踐變革,也需要文化變革。
發展國防人工智能部門需要改善數字基礎設施、數據管理和人工智能技能基礎,國防部門需要找出存在的差距,以便著手解決這些問題。建議國防部門可以采取一些具體行動,比如讓人工智能成為軍事教育的更大一部分,讓人工智能專家更容易在民用和國防部門之間流動。國防部門還可能需要與規模較小的非傳統國防供應商合作,這些供應商目前在與國防部門合作方面面臨障礙,國防部門需要采用其工作方式,使自己成為更具吸引力和更有效的合作伙伴。國防部門需要更加適應承擔風險、快速開發周期以及與非傳統國防供應商合作。國防部門需要克服目前阻礙防務公司與國防部門合作的障礙,如復雜的采購流程和工作人員難以獲得安全許可。
除了這些實際變化之外,國防部門還需要進行更廣泛的文化變革,以適應這樣一個世界:軍事優勢越來越多地由數字化能力和可快速開發、部署和迭代的廉價平臺來實現。國防部門的政策文件認識到了這一點,但該部門的言論與現實之間存在差距,而且人工智能往往仍被視為一種新事物,而不是即將成為國防工具包核心部分的事物。正在進行的《戰略防御審查》是一個理想的時機,國防部門可以借此加快所需的文化轉型,并為新的人工智能時代實現能力和思維的現代化。
人工智能系統如果能與盟國的系統互操作,將發揮最大功效。英國和盟國在開發和部署國防人工智能的目標上相互理解,并在適當情況下共享標準和實踐。AUKUS 合作伙伴關系的支柱 2 是英國國防人工智能部門與澳大利亞和美國盟國在人工智能前沿領域開展合作的協議。
認識到,在國防領域使用人工智能會引發重要的倫理問題。上議院武器系統人工智能委員會于 2023 年 12 月發布了一份關于致命自主武器系統的全面報告,決定不再重復這項工作。因此,本報告重點關注英國在國防領域開發和部署人工智能的能力。
關于英國國防人工智能部門的規模和特點的公開研究很少。2023 年,英國政府委托進行的研究發現,英國有 3713 家人工智能公司;其中 2204 家公司的業務模式以人工智能產品或基礎設施為核心。目前尚不清楚英國有多少人工智能公司從事國防工作: 33% 的公司從事計算機視覺和圖像處理工作,另有 29% 的公司從事自主系統工作--智庫蘭德歐洲公司在其書面證據中指出,這些領域 “與國防高度相關”--但這部分行業還將包括許多非國防公司。人工智能是一個快速發展的行業,預計將在未來幾年內大幅擴張:據 KBR 和 Frazer-Nash Consultancy 提供的證據估計,2023 年英國軍事人工智能行業的價值約為 2.85 億英鎊,預計到 2028 年將增長到 12 億英鎊。
有關英國國防人工智能公司特點的數據很有限,但證據表明,這些公司既包括人工智能只占其業務一小部分的老牌國防公司,也包括專門從事國防人工智能的初創公司。大多數參與人工智能開發的公司規模都相對較小: 蘭卡斯特大學創新、技術和戰略教授西蒙娜-索阿雷(Simona Soare)博士將該行業描述為一個 “成熟的生態系統”,其中 75-80% 的公司都是小型企業或初創公司。在國防領域,這類公司包括 Adarga、AdvAI、Skyral、Ripjar 和 Mind Foundry。人工智能的發展跨越國界,微軟和亞馬遜等在人工智能領域處于全球領先地位的跨國公司都在英國設有分支機構。此外,一些專門從事人工智能國防應用的國際公司也在英國設有分支機構,如 Helsing 和 Anduril。
人工智能行業相對剛剛起步,現在判斷英國人工智能和國防人工智能行業將如何發展還為時尚早。但是,證據表明,英國擁有可以促進該行業成功發展的優勢,包括大學和強大的研究部門,以及在計算和數學科學等相關學科的現有優勢。英國還擁有強大的計算能力(計算),這是開發先進人工智能的重要資產,同時英國還擁有龐大的金融部門,可以吸引對先進研究的投資。英國的制度優勢也為人工智能公司提供了良好的發展環境,并能吸引投資者,其中包括強有力的監管制度和有效的法治。所有這些都意味著英國具備蘭德歐洲公司的詹姆斯-布萊克(James Black)所說的 “相當好的通用優勢”,可以支持人工智能行業取得成功。
與此同時,一些證人也指出了英國該行業目前存在的弱點。Simona Soare 博士強調,雖然英國確實存在人工智能 “生態系統”,但 “并沒有特別獨立的國防人工智能生態系統”。此外,初創公司的更替率非常高,只有不到五分之一的公司能持續四年或更長時間。這意味著該生態系統幾乎沒有彈性,這將使英國擴大國防人工智能能力面臨挑戰。小組委員會還聽說,各軍種內部對整個國防領域的人工智能方法缺乏一致性。退役空軍元帥 Edward Stringer認為:"在整個國防人工智能領域,有一些非常優秀的人員,但系統略顯分散。雖然英國總體上是一個充滿活力的風險投資(VC)環境,但薩里大學人工智能研究所的 Mikolaj Firlej 博士寫道,英國國防人工智能部門 “投資不足”,只有幾家較小的風險投資基金在投資。
雖然英國的人工智能部門和國防人工智能部門的絕對規模較小,但與同行相比,英國的表現相對較好,因為該部門在全球仍處于發展的早期階段。蘭德歐洲公司報告稱,英國的人工智能公司數量在全球排名第三。牛津洞察》(Oxford Insights)和Tortoise編制的《全球人工智能指數》(Global AI Indices)根據各種因素對各國進行排名,英國分別位列第三和第四。雖然這些指數并沒有對各國在國防人工智能方面的實力進行具體排名,但有理由相信英國在這一領域的表現相對較好: Simona Soare 博士指出,英國為人工智能提供的資金遠遠高于歐洲同行,據估計,英國在國防人工智能領域的投資是法國和德國的兩倍。與此同時,雖然英國領先于許多同行,但在許多關鍵指標上卻遠遠落后于人工智能領域的全球領導者--美國和中國。這兩個國家政府在人工智能方面的總支出是英國政府的四倍多,美國和中國超級計算機的數量和處理能力也遠遠超過英國。一些意見認為,英國不可能與美國部門的規模和投資能力競爭,但英國可以利用其現有優勢,在人工智能的某些領域發展世界領先的專業技術。
英國具備許多適當的條件,可以在國防人工智能發展方面成為全球領導者,但目前國防是英國人工智能生態系統中發展不足的一個方面,英國與目前人工智能領域的全球領導者美國和中國之間的差距很大。英國不能也不應該以在規模上與這些國家的部門相媲美為目標,而應該尋求在優勢領域實現專業化,并在這些領域達到一流的先進水平。
人工智能對有效防務的重要性與日俱增,因此英國的目標必須是擁有一流的國防人工智能生態系統。國防部門應制定措施,將英國的部門與國際上的其他部門進行比較,以便跟蹤該部門相對于同行的實力。
為了應對太空領域日益增長的行動需求,太空部隊和太空領域感知(SDA)操作人員必須確定如何更有效地確定傳感器觀測的優先次序,擴大規模以滿足大量常駐太空物體的需求,并開發能夠反映軌道力學和太空操作復雜性的分析能力,同時保持作戰領域行動所需的響應速度。盡管人工智能和機器學習(AI/ML)工具具有幫助應對這些 SDA 挑戰的潛力,但人們對這些工具對 SDA 任務的整體成功所產生的影響還不甚了解,這種缺乏了解的情況阻礙了對這些工具的集成進行規劃和優化。
本報告記錄了在應用于美國太空部隊和太空領域感知任務時證明人工智能/機器學習可行性的技術方法。利用數學和數值技術估計駐留空間物體的當前和未來狀態及不確定性的能力是當前 SDA 流程的基礎。作者測試了 AI/ML 算法,特別是貝葉斯神經網絡,以確定它們是否適合這些任務。本報告中介紹的研究側重于更廣泛的 SDA 任務集下的高度資源密集型會合評估任務。兩個案例研究的重點是神經網絡的預測和分類能力,以及利用這些能力改進會合評估。作者發現,與傳統程序相比,貝葉斯神經網絡在最有可能與基于風險的 SDA 決策相關的指標上提供了適當的性能權衡,與標準神經網絡相比,在指標上提供了更高的性能。
人工智能(AI)是公認的先進技術,可幫助決策過程實現高精度和高準確性。然而,由于依賴于復雜的推理機制,許多人工智能模型通常被評價為黑盒。 人類用戶往往無法理解這些人工智能模型是如何以及為何做出決策的,從而擔心其決策的可接受性。以往的研究表明,由于缺乏人類可理解的相關解釋,最終用戶無法接受這些決策。在此,可解釋人工智能(XAI)研究領域提供了一系列方法,其共同主題是研究人工智能模型如何做出決策或解釋決策。這些解釋方法旨在提高決策支持系統(DSS)的透明度,這在道路安全(RS)和空中交通流量管理(ATFM)等安全關鍵領域尤為重要。盡管決策支持系統在不斷發展,但在安全關鍵型應用中仍處于演變階段。在 XAI 的推動下,透明度的提高已成為使這些系統在實際應用中切實可行、解決可接受性和信任問題的關鍵因素。此外,根據歐盟委員會目前的 “解釋權 ”授權和全球各組織的類似指令,認證機構不太可能批準這些系統用于一般用途。這種將解釋滲透到現有系統中的沖動,為 XAI 與 DSS 相結合的研究鋪平了道路。
為此,本論文主要為 RS 和 ATFM 應用領域開發了可解釋模型。特別是,通過分類和回歸任務,開發了用于評估駕駛員車內心理工作量和駕駛行為的可解釋模型。此外,還提出了一種利用互信息(MI)從車輛和腦電圖(EEG)信號生成混合特征集的新方法。該特征集的使用成功地減少了復雜的腦電圖特征提取計算所需的工作量。互信息(MI)的概念被進一步用于生成人類可理解的心理工作量分類解釋。在 ATFM 領域,本論文開發并展示了一個可解釋的模型,用于從歷史飛行數據中預測航班起飛時間延誤。通過開發和評估這兩個領域的可解釋應用所獲得的啟示強調了進一步研究 XAI 方法的必要性。
在本博士論文的研究中,DSS 的可解釋應用是通過加法特征歸因(AFA)方法開發的,該方法是當前 XAI 研究中流行的一類 XAI 方法。盡管如此,仍有一些文獻斷言,特征歸因方法通常會產生不一致的結果,需要進行合理的評估。然而,關于評估技術的現有文獻仍不成熟,提出了許多建議方法,卻未就其在各種場景中的最佳應用達成標準化共識。為了解決這個問題,我們還根據 XAI 文獻的建議,為 AFA 方法制定了全面的評估標準。建議的評估流程考慮了數據的基本特征,并利用了基于案例推理的加法形式,即 AddCBR。本論文提出了 AddCBR,并將其作為評估流程的補充進行演示,以此作為比較 AFA 方法生成的特征歸因的基線。iXGB 生成決策規則和反事實,以支持 XGBoost 模型的輸出,從而提高其可解釋性。通過功能評估,iXGB 展示了用于解釋任意樹狀集合方法的潛力。
從本質上講,這篇博士論文最初有助于為兩個不同的安全關鍵領域開發經過理想評估的可解釋模型。其目的是提高相應 DSS 的透明度。此外,論文還引入了新穎的方法,以不同的形式生成更易于理解的解釋,超越了現有的方法。論文還展示了 XAI 方法的穩健評估方法。
圖 1.1: 研究課題、研究貢獻和收錄論文的一般映射。
在國防和國家安全領域部署物聯網(IoT)系統面臨著一些限制,而邊緣計算(Edge Computing)方法可以解決這些問題。邊緣計算和物聯網范例的結合帶來了潛在的好處,因為它們正視了傳統集中式云計算方法的局限性,傳統云計算方法易于擴展、支持實時應用或移動性,但其使用在網絡安全等方面存在一定風險。本章確定了國防和國家安全機構可以利用商用現貨(COTS)邊緣物聯網功能為作戰人員或急救人員提供更高的生存能力,同時降低成本并提高運行效率和有效性的場景。此外,它還介紹了戰術邊緣物聯網通信架構的總體設計,指出了廣泛采用該架構所面臨的挑戰,并為國防和國家安全領域實現經濟高效的邊緣物聯網提供了研究指南和一些建議。
關鍵詞 物聯網、戰場物聯網、國防和公共安全、戰術物聯網、邊緣計算、公共安全響應者、信任管理、戰術邊緣
本章其余部分的內容安排如下。第 1.2 節介紹本章將使用的基本概念。第 1.3 節回顧了當前商用現成 (COTS) 邊緣物聯網應用為戰術環境創造的機遇。第 1.4 節介紹了一些有前景的戰術邊緣物聯網應用場景。第 1.5 節概述了戰術邊緣物聯網通信架構的總體設計。第 1.6 節概述了阻礙戰術邊緣物聯網技術應用的挑戰,并提出了一些進一步研究的建議。最后,第 1.7 節是結論部分。
圖 1.2:國防和公共安全領域戰術邊緣物聯網的目標場景。
以網絡為中心的戰爭(NCW)模式 [73] 將戰場資產與總部連接起來。這種概念通過促進用戶之間安全、及時地交換信息而帶來好處。此外,NCW 范式結合了三個域:物理域,在事件和行動發生的地方生成數據;信息域,傳輸和存儲數據;認知域,處理和分析數據,以實現決策和任務規劃。NCW 的三個域與當今商業邊緣物聯網的基礎相對應。
在以網絡為中心的 C2 行動中,責任被下放到戰場邊緣[74],形成了所謂的戰場物聯網 (IoBT),可將戰場上所有有助于做出明智決策的事物匯集在一起。然而,這些動態需要能確保網絡效率的網絡范例。在 [74] 中,作者將以信息為中心的網絡(ICN)與軟件定義網絡(SDN)結合起來,以滿足這些要求。
本節分析了一些與邊緣服務最相關的戰術物聯網應用場景,如圖 1.2 所示。指揮、控制、通信、計算機、情報、監視和偵察(C4ISR)和火控系統的應用主導了國防和 PS 物聯網相關技術的采用,因為傳感器主要用于收集和通信數據,以改進 C2。雖然物聯網和邊緣計算技術以前曾用于與后勤和訓練有關的應用,但它們與其他系統的集成往往有限。
如前所述,邊緣物聯網功能可用于在戰場上提供卓越的態勢感知。指揮官可根據從無人機/無人駕駛傳感器和戰場報告中提取的 AI/ML 數據整合后得出的實時分析結果做出決策。地面傳感器和攝像機,以及人或無人設備、車輛或士兵都能為指揮官提供廣泛的信息。上述物聯網設備能夠掃描任務環境,然后將信息發送到前沿基地的邊緣計算服務器。這些信息的一部分可由指揮中心收集,并在那里與其他來源的信息進行處理和融合。
圖 1.3:戰術邊緣物聯網系統的通信架構
小型無人駕駛航空器系統(sUAS)是一種易于獲取的技術,對美國關鍵系統的威脅越來越大。它們體積小、重量輕、難以探測,這使得小型無人機系統可以提供偵察、投放爆炸物,甚至撞擊敏感目標。這種具有威脅性的技術要求使用容錯、低成本、可更換和精確的傳感資源,以應對無人機系統無處不在的特性。因此,本文開發的方法是利用手機等可獲取的傳感資源來探測和跟蹤 sUAS。這項研究工作源于空軍研究實驗室(AFRL)的一次數據收集,在這次數據收集中,無人機飛越了記錄時間戳聲學數據的手機群。在第一項工作中,開發了一種基于聲學傳感器網絡的 SUAS 檢測方法。該方法使用一個集合表決管道(EVP),融合來自分散在機場各處的 28 部手機的時間同步、低保真聲學數據,以做出實時無人機探測決策。這項工作在模擬測試場景中實現了 0.846 的探測 F1 分數。該管道的性能還優于傳感器網絡中每部手機對無人機的檢測性能,后者的平均檢測 F1 分數為 0.582。
在后一項工作中,使用采集的聲學數據訓練了一個深度學習模型,以預測來自手機的 SUAS 范圍。一個二維卷積神經網絡(2DCNN)在四個不同的范圍類別中以 0.7492 的宏觀 F1 分數預測了 sUAS。這兩項工作結合在一起,證明了利用可獲取的傳感資源實現高保真無人機系統探測和跟蹤結果的優點。
在人工智能(AI)研究領域,制造人工通用智能(AGI)一直是一個難以實現的目標。AGI 將像人類一樣,有能力接觸新的問題領域,學習相關知識,然后使用推理過程做出決策。雖然人工智能技術已被廣泛應用于各種問題領域,但 AGI 要求人工智能能夠在編程和訓練之外進行推理。本文向制造 AGI 邁出了一小步。它描述了一種人工智能學習和開發推理路徑的機制,以便在先驗未知領域做出決策。它結合了一種經典的人工智能技術--專家系統和一種現代的改良技術--梯度下降訓練專家系統(GDTES),并利用生成式人工智能(GAI)為該系統創建網絡和訓練數據集。這些數據集可以從現有資源中創建,也可以借鑒 GAI 自己的預訓練模型中的知識。GDTES 中的學習過程用于優化人工智能的決策。雖然這種方法并不符合許多人對人工智能所定義的標準,但它提供了某種類似的能力,盡管在使用前需要一個學習過程。
本節介紹并描述 AMAIT 的設計,如圖 3 所示。首先,將提供一個概覽。然后,第 3.1 至 3.5 小節將更詳細地介紹 AMIT 系統的關鍵組成部分。
AMAIT 系統結合了 GAI、GDTES 和專家系統技術。為此,AMAIT 系統采用了 GDTES 形式的規則-事實專家系統,該系統利用小數/分數值(DFV)來表示規則。根據特定的應用領域和網絡設計,這些值可以代表部分成員資格、模糊性、置信度或其他類似內容。每種技術都發揮著關鍵作用。從根本上說,AMAIT 的長期目標是建立一個 DFV 專家系統,該系統可以對問題領域進行推理,除了設置所需的初始參數和幫助系統獲取相關數據外,無需人工干預。不過,可以在多個地方加入人工審核,以幫助學習過程并確保準確性和合規性。
系統首先要有一個 GAI 模型,能夠生成與問題領域相關的內容。這可以是一個預先訓練好的通用模型,也可以是一個為特定用途或應用領域創建的模型。該模型向翻譯/轉換器模塊提供內容,該模塊采用良好的數據格式、人類可讀的英語文本,并將其翻譯/轉換為專家系統網絡。
接下來,GAI 可用于以數據格式良好、人類可讀的英文文本形式創建訓練數據集。該數據集將提供給監督學習集創建者翻譯/轉換模塊,該模塊將為所有系統輸入生成輸入值,并為監督學習生成目標輸出。最初,該模塊用于優化應用于 GDTES 系統內規則的權重。
值得注意的是,如果有人工收集的數據,也可用于這一步驟。此外,也可以使用其他合成數據生成技術。
第三個主要步驟是利用 GAI 創建訓練數據集(同樣是格式化良好、人類可讀的英文文本),并將其提供給監督學習集創建翻譯器/轉換器模塊。在這種情況下,它被用來生成用于優化網絡本身的數據(如 [29] 中所述)。值得注意的是,在進行網絡優化后,應再次執行優化權重的過程,以最大限度地提高系統性能。為簡潔起見,圖中沒有單獨描述這一步驟。
如上所述,人工收集的數據或其他合成生成技術也可用于這一步驟。
最后,對 GDTES 模型進行測試,以確保其在投入使用前適合使用。首先,使用 GAI 提供的新數據(或人工收集的數據或以其他方式合成的數據)對其進行測試。然后,使用真實世界的數據(如果有的話)進行測試。如果適用于問題領域,還可在系統運行期間利用反饋機制對系統進行改進。
近幾十年來,學術界對無人駕駛飛行器(UAV)的關注明顯激增。先進的無人飛行器能夠執行復雜的飛行動作、在復雜的空間內飛行,并在不斷變化的環境中執行復雜的任務,因此其發展備受關注。這些環境包括采礦、城市搜索與救援 (USAR)、軍事行動等部門,以及包括維護和修理地下基礎設施在內的一系列工業應用。進入密閉空間并在其中作業的迫切需求已成為迫使研究人員推進無人機技術的驅動力。這些進步旨在克服與在受限環境中工作相關的復雜性,解決無人機當前的局限性,同時提高其整體性能能力。
在本論文中,介紹了一套相互關聯的工具,旨在使無人飛行器能夠在受限空間內自主規劃飛行動作。為實現這一目標,本文提出了一種改進的 "教學-重復-再規劃"(I-TRP)迭代策略。該解決方案是一種離線-在線混合方法,包括三個階段戰略中的四個主要模塊。根據手工繪制的路徑(教學階段)和感知到的環境幾何特征,開發了具有新穎占用檢查特性的先進 3D 飛行走廊。此外,結合生成的飛行走廊,還開發了一種通用全局路徑規劃算法 Field D* 的增強版,以通過離線流程(重復階段)制定出近乎最優和平滑的拓撲等效路徑。最后,通過順序凸優化過程(重新規劃階段),制定出具有在線碰撞檢查和避障功能的局部規劃算法。利用無人飛行器機載傳感器捕捉到的地形信息,這種局部規劃可生成后優化的動態可行路徑。
后置參考路徑被用于制定一套包含飛機位置、姿態、速度和加速度的制導指令,以引導無人機飛行在生成的飛行走廊(可能具有復雜的幾何特征)內飛行。所開發的路徑跟蹤方法是通過使用非線性模型預測公式制定的。
所開發的 I-TRP 策略可引導自主無人機在幾乎任何結構化或非結構化環境中到達目的地,這些環境具有不同程度的幾何復雜性,從開放的自由空間到高度雜亂的環境不等。仿真結果表明,在適合實時飛行導航的高效計算過程中,所開發的 I-TRP 策略的能力優于現有機制。
計算力(或稱 "計算")對于開發和部署人工智能(AI)能力至關重要。因此,政府和公司開始利用計算作為管理人工智能的手段。例如,政府正在投資國內計算能力,控制計算向競爭國家的流動,并對某些行業的計算訪問提供補貼。然而,這些工作只是從表面上了解了如何利用計算來管理人工智能的開發和部署。與人工智能的其他關鍵投入(數據和算法)相比,人工智能相關計算是一個特別有效的干預點:它是可檢測、可排除、可量化的,并且是通過極其集中的供應鏈生產出來的。這些特點,加上計算對尖端人工智能模型的獨特重要性,表明對計算的管理有助于實現共同的政策目標,如確保人工智能的安全和有益使用。更確切地說,政策制定者可以利用計算促進人工智能的監管可見性,分配資源以促進有益的結果,并對不負責任或惡意的人工智能開發和使用實施限制。然而,雖然基于計算的政策和技術有可能在這些領域提供幫助,但其實施的準備程度卻存在很大差異。一些想法目前正在試行,而另一些則因需要進行基礎研究而受到阻礙。此外,在隱私、經濟影響和權力集中等領域,樸素或范圍不清的計算治理方法會帶來巨大風險。最后,我們將提出一些建議,以最大限度地降低計算治理的這些風險。
圖 1:報告中的核心概念摘要。計算因其四種特性而對政策制定具有吸引力。可以利用這些特性來設計和實施政策,從而實現人工智能治理的三種關鍵能力。
在第 2 節 "人工智能能力、人工智能治理和計算概述 "中,我們提供了幾個主題的基本背景,作為后面章節的基礎。我們討論了作為人工智能發展關鍵投入的人力資本、數據、算法和計算。然后,我們描述了人工智能生命周期的各個步驟(包括設計、培訓、增強和部署)--其中每個步驟都是可能的干預點(并具有獨特的計算足跡)。我們接著討論了人工智能可能對社會產生的影響,以說明負責任治理的重要性。隨后,我們將回顧目前在治理計算方面所做的努力,以便為后面的章節提供背景資料。
在第 3 節 "為什么計算治理對決策具有吸引力 "中,將解釋計算的特點,這些特點使其成為人工智能治理的一個有吸引力的工具。這源于計算對前沿模型的獨特重要性,以及計算作為一種治理策略所具有的增強功效的若干特性。
讀者如果已經確信計算的重要性和特殊屬性,但又想知道如何將計算治理擴展到現有工作之外,可以考慮跳到第 4 節 "計算可以增強三種人工智能治理能力",在這一節中,我們將探討如何利用計算來增強關鍵的治理能力:(a)通過監控計算來提高人工智能發展的可見性;(b)改變計算的分配以實現有益的發展;以及(c)利用計算來執行人工智能相關規范和法規。
在第 5 節 "計算治理的風險與可能的緩解措施 "中,我們總結了之前關于計算治理可能存在的局限性的討論。
人工智能在軍事領域的前景之一是其廣泛的適用性,這似乎可以保證其被采用。在軍事方面,人工智能的潛力存在于所有作戰領域(即陸地、海洋、空中、太空和網絡空間)和所有戰爭級別(即政治、戰略、戰役和戰術)。然而,盡管有潛力,需求和人工智能技術進步之間的銜接仍然不是最佳狀態,特別是在軍事應用的監督機器學習方面。訓練監督機器學習模型需要大量的最新數據,而這些數據往往是一個組織無法提供或難以產生的。應對這一挑戰的絕佳方式是通過協作設計數據管道的聯邦學習。這種機制的基礎是為所有用戶實施一個單一的通用模型,使用分布式數據進行訓練。此外,這種聯邦模式確保了每個實體所管理的敏感信息的隱私和保護。然而,這個過程對通用聯邦模型的有效性和通用性提出了嚴重的反對意見。通常情況下,每個機器學習算法在管理現有數據和揭示復雜關系的特點方面表現出敏感性,所以預測有一些嚴重的偏差。本文提出了一種整體的聯邦學習方法來解決上述問題。它是一個聯邦自動集成學習(FAMEL)框架。FAMEL,對于聯邦的每個用戶來說,自動創建最合適的算法,其最優的超參數適用于其擁有的現有數據。每個聯邦用戶的最優模型被用來創建一個集成學習模型。因此,每個用戶都有一個最新的、高度準確的模型,而不會在聯邦中暴露個人數據。實驗證明,這種集成模型具有更好的可預測性和穩定性。它的整體行為平滑了噪音,同時減少了因抽樣不足而導致的錯誤選擇風險。
關鍵詞:聯邦學習;元學習;集成學習;軍事行動;網絡防御
隨著步伐的加快,人工智能(AI)正在成為現代戰爭的重要組成部分,因為它為大規模基礎設施的完全自動化和眾多防御或網絡防御系統的優化提供了新的機會[1]。人工智能在軍事領域[2]的前景之一,似乎保證了它的采用,即它的廣泛適用性。在軍事方面,人工智能的潛力存在于所有作戰領域(即陸地、海洋、空中、太空和網絡空間)和所有級別的戰爭(即政治、戰略、戰役和戰術)[3]。但與此同時,隨著參與連續互聯和不間斷信息交換服務的互聯系統數量的實時擴大,其復雜性仍在成倍增長[4]。從概括的角度來看,可以說人工智能將對以下任務產生重大影響:
1.太快的任務,反應時間為幾秒鐘或更少,在高復雜度(數據、背景、任務類型)下執行。
2.操作時間超過人類耐力的任務,或意味著長期的高操作(人員)成本。
3.涉及巨大的復雜性的任務,需要靈活地適應環境和目標的變化。
4.具有挑戰性的行動環境,意味著對作戰人員的嚴重風險。
支持上述任務的實時監測事件的應用程序正在接收一個持續的、無限的、相互聯系的觀察流。這些數據表現出高度的可變性,因為它們的特征隨著時間的推移而發生巨大的、意想不到的變化,改變了它們典型的、預期的行為。在典型情況下,最新的數據是最重要的,因為老化是基于它們的時間。
利用數據的軍事人工智能系統可以將軍事指揮官和操作員的知識和經驗轉化為最佳的有效和及時的決策[3,4]。然而,缺乏與使用復雜的機器學習架構相關的詳細知識和專業知識會影響智能模型的性能,阻止對一些關鍵的超參數進行定期調整,并最終降低算法的可靠性和這些系統應有的概括性。這些缺點正在阻礙國防的利益相關者,在指揮鏈的各個層級,信任并有效和系統地使用機器學習系統。在這種情況下,鑒于傳統決策系統無法適應不斷變化的環境,采用智能解決方案勢在必行。
此外,加強國防領域對機器學習系統不信任的一個普遍困難是,采用單一數據倉庫對智能模型進行整體訓練的前景[1],由于需要建立一個潛在的單點故障和對手的潛在戰略/主要目標[6],這可能造成嚴重的技術挑戰和隱私[5]、邏輯和物理安全等嚴重問題。相應地,可以使更完整的智能分類器泛化的數據交換也給敏感數據的安全和隱私帶來了風險,而軍事指揮官和操作人員并不希望冒這個風險[7]。
為了克服上述雙重挑戰,這項工作提出了FAMEL。它是一個整體系統,可以自動選擇和使用最合適的算法超參數,以最佳方式解決所考慮的問題,將其作為一個尋找算法解決方案的模型,其中通過輸入和輸出數據之間的映射來解決。擬議的框架使用元學習來識別過去積累的類似知識,以加快這一過程[8]。這些知識使用啟發式技術進行組合,實現一個單一的、不斷更新的智能框架。數據保持在操作者的本地環境中,只有模型的參數通過安全流程進行交換,從而使潛在的對手更難干預系統[9,10]。
在提議的FAMEL框架中,每個用戶在水平聯邦學習方法中使用一個自動元學習系統(水平聯邦學習在所有設備上使用具有相同特征空間的數據集。垂直聯邦學習使用不同特征空間的不同數據集來共同訓練一個全局模型)。以完全自動化的方式選擇具有最佳超參數的最合適的算法,該算法可以最佳地解決給定的問題。該實施基于實體的可用數據,不需要在遠程存儲庫中處置或與第三方共享[11]。
整個過程在圖1中描述。
圖1.FAMEL框架。
具體來說就是:
步驟1--微調最佳局部模型。微調過程將有助于提高每個機器學習模型的準確性,通過整合現有數據集的數據并將其作為初始化點,使訓練過程具有時間和資源效率。
步驟2--將本地模型上傳至聯邦服務器。
步驟3--由聯邦服務器對模型進行組合。這種集成方法使用多種學習算法,以獲得比單獨使用任何一種組成的學習算法都要好的預測性能。
步驟4--將集成模型分配給本地設備。
從這個過程中產生的最佳模型(贏家算法)被輸送到一個聯邦服務器,在那里通過啟發式機制創建一個集成學習模型。這個集成模型基本上包含了本地最佳模型所代表的知識,如前所述,這些知識來自用戶持有的本地數據[12]。因此,總的來說,集成模型提供了高概括性、更好的預測性和穩定性。它的一般行為平滑了噪音,同時降低了在處理本地數據的場景中由于建模或偏見而做出錯誤選擇的總體危險[13,14]。
將機器學習應用于現實世界的問題仍然特別具有挑戰性[44]。這是因為需要訓練有素的工程師和擁有豐富經驗和信息的軍事專家來協調各自算法的眾多參數,將它們與具體問題關聯起來,并使用目前可用的數據集。這是一項漫長的、費力的、昂貴的工作。然而,算法的超參數特征和理想參數的設計選擇可以被看作是優化問題,因為機器學習可以被認為是一個搜索問題,它試圖接近輸入和輸出數據之間的一個未知的潛在映射函數。
利用上述觀點,在目前的工作中,提出了FAMEL,擴展了制定自動機器學習的一般框架的想法,該框架具有有效的通用優化,在聯邦層面上運作。它使用自動機器學習在每個聯邦用戶持有的數據中找到最佳的本地模型,然后,進行廣泛的元學習,創建一個集成模型,正如實驗所顯示的那樣,它可以泛化,提供高度可靠的結果。這樣,聯邦機構就有了一個專門的、高度概括的模型,其訓練不需要接觸他們所擁有的數據的聯合體。在這方面,FAMEL可以應用于一些軍事應用,在這些應用中,持續學習和環境適應對支持的行動至關重要,而且由于安全原因,信息交流可能很難或不可能。例如,在實時優化有關任務和情況的信息共享方面就是這種情況。在部署了物聯網傳感器網格的擁擠環境中,FAMEL的應用將具有特別的意義,需要滿足許多安全限制。同樣,它也可以應用于網絡空間行動,在雜亂的信息環境和復雜的物理場景中實時發現和識別潛在的敵對活動,包括對抗負面的數字影響[45,46]。必須指出的是,在不減少目前所描述的要點的情況下,所提出的技術可以擴展到更廣泛的科學領域。它是一種通用的技術,可以發展和產生一種開放性的整體聯邦學習方法。
盡管總的來說,聯邦學習技術的方法論、集成模型以及最近的元學習方法已經強烈地占據了研究界,并提出了相關的工作,提升了相關的研究領域,但這是第一次在國際文獻中提出這樣一個綜合框架。本文提供的方法是一種先進的學習形式。計算過程并不局限于解決一個問題,而是通過一種富有成效的方法來搜索解決方案的空間,并以元啟發式的方式選擇最優的解決方案[47,48]。
另一方面,聯邦學習模型應該對合作訓練數據集應用平均聚合方法。這引起了人們對這種普遍方法的有效性的嚴重關注,因此也引起了人們對一般聯邦架構的有效性的關注。一般來說,它將單個用戶的獨特需求扁平化,而不考慮要管理的本地事件。如何創建解決上述局限性的個性化智能模型,是目前一個突出的研究問題。例如,研究[49]是基于每個用戶必須以聯邦的形式解決的需求和事件。解釋是可解釋系統的各種特征,在指定的插圖的情況下,這些特征有助于得出結論,并在局部和全局層面提供模型的功能。建議只對那些變化程度被認為對其功能的演變相當重要的特征進行再訓練。
可以擴大擬議框架研究領域的基本課題涉及元集成學習過程,特別是如何解決創建樹和它們的深度的問題,從而使這個過程自動完全簡化。還應確定一個自動程序,以最佳的分離方式修剪每棵樹,以避免負收益。最后,探索將優化修剪的樹的版本添加到模型中的程序,以最大限度地提高框架效率、準確性和速度。
(完整內容請閱讀原文)
完全依靠自主系統的技術在推動海底領域的環境研究方面發揮了重要作用。無人潛水器(UUV),如美海軍研究生院的UUV研究平臺,在推進用于研究目的的自主系統的技術水平方面發揮了作用。使用自主系統進行研究正變得越來越流行,因為自主系統可以將人類從重復性的任務中解脫出來,并減少受傷的風險。此外,UUVs可以以相對較低的成本大量制造。此外,由于計算和電池技術的進步,UUVs可以在沒有人類干預的情況下承擔更多的擴展任務。
UUV的重要部分之一是控制系統。UUV控制系統的配置可能會根據車輛的有效載荷或環境因素(如鹽度)而改變。控制系統負責實現和保持在目標路徑上的穩定飛行。PID控制器在UUV上被廣泛實施,盡管其使用伴隨著調整控制器的巨大成本。由于兩個主要問題,陡峭的成本并不能提供穩健或智能解決方案的好處。
第一個問題是,PID控制器依賴于復雜的動態系統模型來控制UUV。動態系統模型有簡化的假設,使控制問題得到有效解決。當假設不成立時,PID控制器可以提供次優的控制,甚至會出現完全失去控制的情況。第二個問題是,PID控制器并不智能,不能自主學習。PID控制器需要多名工程師和其他人員花數天時間收集和分析數據來調整控制器。調整PID控制器是一項手動任務,會帶來人為錯誤的機會。
在使用深度強化學習方法進行自主車輛控制系統方面,有很多正在進行的研究,并且已經顯示出有希望的結果[1,2]。深度強化學習控制器已被證明優于執行路徑跟蹤任務的UUV的PID控制器[3]。此外,與PID控制器相比,基于深度強化學習的控制器已被證明能夠為無人駕駛飛行器(UAVs)提供卓越的姿態控制[4-5]。雖然這個例子不是專門針對UUV的,但這個來自空中領域的概念可以轉化到海底領域。
一些最流行的深度強化學習算法被用于自主車輛控制系統的開發,包括近似策略優化(PPO)[6]和深度確定策略梯度(DDPG)[7]算法。本研究將重點關注DDPG算法。DDPG算法是一種角色批判型的深度強化學習算法。Actor-Critic算法同時學習策略和價值函數。Actor-Critic算法的概念是:策略函數(演員)根據當前狀態決定系統的行動,而價值函數(批評家)則對行動進行批評。在深度強化學習中,政策和價值函數是由DNNs近似的,在本研究中具體是多層感知器(MLPs)。
與UUV的傳統PID控制器相比,基于DDPG算法的深度強化學習控制器有兩個主要好處。第一個好處是,DDPG算法是無模型的。它不需要任何關于車輛或環境動態的知識來提供最佳控制。因此,它避免了有效解決復雜的車輛或環境動態系統模型所需的簡化假設的弊端。其次,基于深度強化學習的控制系統可以被自主地調整(訓練)。與PID控制系統相比,這將減少調整基于深度強化學習的控制系統所需的資源。
與UUV的傳統PID控制器相比,基于DDPG算法的深度強化學習控制器有兩個主要好處。第一個好處是,DDPG算法是無模型的。它不需要任何關于車輛或環境動態的知識來提供最佳控制。因此,它避免了有效解決復雜的車輛或環境動態系統模型所需的簡化假設的弊端。其次,基于深度強化學習的控制系統可以被自主地調整(訓練)。與PID控制系統相比,這將減少調整基于深度強化學習的控制系統所需的資源。
在利用降低精度來提高強化學習的計算效率方面,目前的研究很有限。[11]的作者展示了如何使用量化技術來提高深度強化學習的系統性能。文獻[12]的作者展示了一種具有6種方法的策略,以提高軟行為批評者(SAC)算法低精度訓練的數值穩定性。雖然正在進行的研究集中在基準強化學習問題上,但這一概念在科學應用上相對來說還沒有被開發出來,比如使用深度強化學習代理對UUV進行連續控制。
本研究將證明在混合精度和損失比例的情況下,訓練DDPG代理對UUV的連續控制不會影響控制系統的性能,同時在兩個方面使解決方案的計算效率更高。首先,我們將比較用固定和混合數值精度訓練的DDPG代理的性能與1自由度速度控制問題的PID控制器的性能。我們將研究用固定和混合精度訓練DDPG代理的訓練步驟時間。其次,本研究將研究DNN大小和批量大小的閾值,在此閾值下,用混合精度訓練DDPG代理的好處超過了計算成本。
本文的其余部分結構如下。問題表述部分將提供關于DDPG算法、NPSUUV動力學、PID控制和混合數值精度的簡要背景。實驗分析部分將描述本研究中運行的數值實驗的設置和結果。最后,在結論和未來工作部分將描述整體工作和未來計劃的工作。