在安全關鍵型應用中,驗證和認證人工智能驅動的自主系統(AS)所做的決策至關重要。然而,這些系統中使用的神經網絡的黑盒性質往往使實現這一目標具有挑戰性。這些系統的可解釋性有助于驗證和認證過程,從而加快其在安全關鍵型應用中的部署。本研究通過語義分組獎勵分解研究了人工智能驅動的空戰智能體的可解釋性。論文介紹了兩個使用案例,以展示這種方法如何幫助人工智能和非人工智能專家評估和調試RL智能體的行為。
圖 3. 訓練有素的 RL 智能體跟蹤性能。左上圖為鳥瞰圖。右上圖是從藍色智能體框架透視的,每個綠色圓圈的半徑為 1000 米。下圖是分解獎勵條形圖,黑色 x 符號代表選擇的行動,其他 x 符號代表與每個 DQN 的最大預期獎勵相關的行動,它們分別代表各自的獎勵類型。
無人機已成為現代戰爭中不可或缺的一部分,其向更大自主性的演進是不可避免的。本研究探討了軍用無人機向智能化、最小程度依賴人類方向發展的軌跡,并詳細介紹了必要的技術進步。我們模擬了無人機偵察行動,以確定和分析新出現的挑戰。本研究深入探討了對提高無人機智能至關重要的各種技術,重點是基于物體檢測的強化學習,并提供了實際實施案例來說明這些進步。我們的研究結果證實了增強軍用無人機智能的巨大潛力,為更自主、更有效的作戰解決方案鋪平了道路。
圖 3 智能無人機偵察場景和應用技術。
在最近的沖突中,如俄羅斯入侵烏克蘭和亞美尼亞-阿塞拜疆戰爭,無人機被認為是不可或缺的力量。目前,大多數可用于作戰的無人機都是遙控的。雖然無人機在一定程度上實現了自動化,但由于技術和道德問題,仍需要操作人員。從戰術角度看,無人機的最大優勢是 "低成本 "和 "大規模部署"。然而,這兩個優勢只有在無人機無需操作人員即可控制時,也就是無人機智能化時才能發揮作用。
自主無人機本身并不是一個新概念,因為人們已經進行了廣泛的研究。例如,我們生活在一個無人機用于送貨和搜救任務的時代 [1]、[2]、[3]。然而,民用智能無人機技術能否直接用于軍事目的呢?我們的答案是'不能',因為軍用無人機的操作在以下情況下與民用無人機有明顯區別。首先,軍用環境比民用環境更加復雜。想想特斯拉在未鋪設路面的道路上自動駕駛時,駕駛員必須干預的頻率有多高。軍事行動并不發生在 "鋪設良好的道路上"。此外,軍事行動涉及在任意地點分配任務。其次,伴隨軍事行動而來的是敵人無數次的反擊。這些反作用包括主動和被動拒絕,主動拒絕包括試圖攔截,被動拒絕包括隱藏和欺騙。這些敵方活動增加了問題的復雜性。第三,由于軍事的特殊性和安全性,缺乏與軍事行動相關的數據。例如,缺乏坦克和運輸機發射器(TEL)的鳥瞰數據,而這些都是物體探測的常用目標。第四,軍用智能無人機執行任務時需要考慮安全和道德問題。智能無人機在執行任務時如果缺乏穩定性,就會產生不可預測的行為,導致人員濫傷和任務失敗。從倫理角度考慮,即使無人機的整體操作實現了智能化,也需要有最終攻擊決策由人類做出的概念。換句話說,關鍵的考慮因素不應該是無人機是否能自主做出攻擊決定,而是無人機如何提供信息,協助人類做出攻擊的最終決定。這些倫理問題與人類的責任和機器的作用有關。
鑒于這些軍事方面的考慮,對自主軍用無人機和民用無人機的研究應以不同的理念推進。有關軍用智能無人機的研究正在積極進行中,但與民用研究不同的是,大部分研究都沒有進入公共領域。因此,本研究有以下目標。
首先,考慮到軍事行動的特殊性,本研究探討了智能軍用無人機的概念。
其次,我們對該領域出現的各種問題進行案例研究,從工程師的角度看待這些問題,并討論從案例研究中得出的直覺。
圖 1. 智能無人機在民用領域的工程研究
軍用無人機根據其使用目的分為偵察、攻擊、欺騙、電子戰和作為目標等類別 [38],[39]。在本案例研究中,我們重點關注偵察無人機的智能化。案例研究中的無人機以韓國 "Poongsan "公司的無人機為模型。根據應用模塊的不同,該模型可以執行多種任務。不過,本研究使用的是配備偵察模塊的無人機。模塊包括攝像頭、LRF、GNSS 等傳感器和系統。在規范假設方面,假定無人機能夠配備物體檢測和強化學習神經網絡。
圖 4. 用于訓練 YOLOv4 微型目標檢測模型的跟蹤車輛圖像。
圖 12. 根據 Unity 中的情景驗證技術應用
本研究論文介紹了軍用無人機系統盒(The NeuronDrone-Box)中用于攻擊或防御決策的全自主人工智能:硬件、算法和一種新型專用軍用無人機或無人機。第一部分介紹了軍用無人機系統盒(The NeuronDrone-Box)中的攻擊或防御決策全自主人工智能,以適應任何無人機的主控系統。第二部分是使用混沌理論和經濟地理學的算法。第三部分介紹了被稱為 "黑色噩夢 V.7" 的開創性原型機。黑色噩夢 V.7 無人機投彈手擁有一系列與眾不同的功能和應用,本技術報告將對此進行詳細介紹。首先,主張在軍用無人機系統箱(The NeuronDrone-Box)中實施全自主人工智能攻防決策,以控制與全自主人工智能攻防決策軍用無人機系統箱(The NeuronDrone-Box)相連的多副翼系統(MAS)和多導彈系統(MM-System)。
本文報告了在使用基于遺傳學的機器學習過程和戰斗模擬發現新型戰斗機機動系統方面的經驗。實際上,這一應用中的遺傳學習系統正在取代測試平臺,從經驗中發現復雜的動作。這項工作的目標與許多其他研究不同,因為創新和發現新穎性本身就是有價值的。這使得目標和技術的細節與其他基于遺傳學的機器學習研究有所不同。
本文討論了應用的細節、動機以及所采用技術的細節。介紹了一個玩家適應固定策略對手的系統和兩個玩家共同適應的系統的結果。論文還討論了這項工作在其他自適應行為應用中的普遍意義。
為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。
為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。
標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。
為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。
為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。
一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。
視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。
動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。
除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。
認識到當前軍事教育體系的特殊性,并考慮到軍事工程培訓快速現代化的必要性,人機界面需要采用創新技術來加強教育過程。我們的目的是詳細分析在培訓未來軍事工程軍官時人工智能技術的實施情況,概述現有策略,并制定通過人工智能技術強化教育過程的可行策略。為實現研究目的,通過五份問卷對 154 名教官進行了開放式和封閉式調查,以解決研究問題。采用傳統的內容分析法和數據統計處理法對答案進行了研究。結果揭示了人工智能在軍事工程訓練中應用的基本方向,以及人工智能在未來軍事工程軍官專業能力培養中的可能應用。但與此同時,研究結果表明,軍事工程訓練過程正面臨著一些挑戰,使人工智能驅動的轉型實施變得更加復雜。為了克服人工智能目前面臨的挑戰,并為人工智能在人機界面的應用提出建議,概述了通過人工智能技術加強軍事工程訓練的策略。
圖 3:通過人工智能技術加強軍事工程訓練的戰略。
根據調查結果,可以考慮通過人工智能技術加強軍事工程訓練的五項策略。
首先,對未來軍事工程軍官進行有效培訓和數據隱私控制需要制定使用人工智能的法律框架。特別是對于信息獲取受限的人機交互界面而言,這一點至關重要。由于所有烏克蘭教育機構都根據《歐盟-烏克蘭聯系協議》中烏克蘭立法與歐盟(EU)法律相協調的原則運作,因此擬議的歐盟人工智能法(歐盟委員會,2021 年)成為設計人工智能法規的基礎。同時,高校的教育過程近似于北大西洋公約組織(NATO)的標準,他們有義務在北約實施人工智能政策(Stanley-Lockman & Christie, 2021)。針對特定機構的規定可以幫助教師處理具體情況,并解決人工智能應用所帶來的具體風險。此外,官方指南還包括一份不能在人機界面中使用的高風險應用程序清單,并規定了人工智能用戶(包括教員和學員)的具體義務。我們預計,制定使用人工智能的法律框架將促進教育進程,并使學員能夠從已有的幾項創新技術中受益。
其次,將人工智能納入課程涉及將人工智能的原則、道德、法規和基本功能納入人機界面教授的課程,以及創建使用人工智能工具的綜合課程。該戰略以在培養未來軍事工程軍官的過程中有效應用人工智能工具為導向,可用于培養人工智能素養和數字能力。此外,這種影響可能有助于擴大工程單元的運作可能性,提高未來軍事工程軍官專業活動的生產力。將人工智能納入課程是培養教員和學員適應人機界面創新數字教育環境的必要條件。因此,修改現有課程將為在軍事工程訓練中正確和合乎道德地使用人工智能創造一個穩定的位置。
第三,教育過程參與者的高水平人工智能數字化能力意味著他們已準備好正確使用人工智能工具,能夠處理來自不同來源的大量信息,并理解在專業軍事活動中進行數字化轉型的必要性(Ng 等人,2023 年)。培養人工智能數字化能力需要為教官和學員開設專門課程,教授如何在數字化環境中操作以及如何避免可能出現的錯誤。人工智能數字化能力對于優化教育過程、在線環境下的工作、改善學習材料的視覺感知、使用人工智能工具創建高質量內容、收集和系統化數據、開發基于人工智能的項目、積極的在線交流、改善教學實踐、高效的課堂管理等都是必不可少的。
第四,通過人工智能技術加強軍事工程訓練需要制定具體的方法,旨在選擇教學方法和活動,使教學過程高效。適當的方法論可以讓教員合理使用學習材料,在學員中形成深厚的知識和技能,培養未來軍事工程軍官的持續學習能力。目前,人機界面的教學科目正面臨著快速轉型,我們看到的是從傳統教學方法向個性化學習和互動式教學方式的轉變。一方面,行為模型、數據分析和學習管理系統等人工智能工具促進了軍事教育的現代化,形成了有效的定制學習。另一方面,人工智能工具的使用要求根據教學科目和教學目標采用特定的教學方法。
有效決策是組織成功的核心。在數字化轉型時代,企業越來越多地采用數據驅動的方法來獲得競爭優勢。根據現有文獻,人工智能(AI)代表了這一領域的重大進步,它能夠分析大量數據、識別模式、做出準確預測,并為組織提供決策支持。本研究旨在探討人工智能技術對組織決策不同層面的影響。通過將這些決策按照其屬性分為戰略決策和運營決策,本研究可以更全面地了解人工智能在組織決策中實施的可行性、當前采用率以及阻礙因素。
我們的研究展示了如何將技術和數據科學實踐與用戶知識相結合,既提高任務性能,又讓用戶對所使用的系統充滿信心。在本手稿中,我們重點關注圖像分類,以及當分析師需要及時、準確地對大量圖像進行分類時出現的問題。利用著名的無監督分類算法(k-means),并將其與用戶對某些圖像的手動分類相結合,我們創建了一種半監督圖像分類方法。這種半監督分類方法比嚴格的無監督方法具有更高的準確性,而且比用戶手動標記每張圖像所花費的時間要少得多,這表明機器和人工優勢的結合比任何替代方法都能更快地產生更好的結果。
具有高度自主性的軍事系統發展帶來了許多作戰優勢。這些系統通常是高度協作的,并允許優化對復雜問題的多效應對。人工智能,包括深度強化學習,有助于提高這些系統的效率。這項工作提出了一個與信任這些算法有關問題的綜合觀點,并提出了一些改善人機信任的準則。這項工作是在由歐盟資助的30個合作伙伴歐洲財團委托編寫的報告框架內完成的。
法國和英國在2010年啟動了一項計劃,評估和開發 "海上反水雷"(MMCM)能力,包括在與母艦安全距離外遠程操作的無人系統。通過持續化解靜態水下威脅,這些系統將提供戰略、行動和戰術上的機動自由,確保海上力量的安全投送,包括在海峽等高風險地區。
MMCM計劃的目標是提供一種新的敏捷的、可互操作的和強大的水雷戰能力。它將有助于在現有水雷戰艦退役時取代它們。這一雙邊計劃于2010年底根據法國和英國之間的《蘭開斯特宮條約》正式啟動。在2018年1月的法國/英國峰會上,法蘭西共和國總統和英國首相申明了他們打算迅速將該系統投入作戰服務[13]。
特別是,在2020年測試了四種作戰方案,分別采用了:一個水面無人機及其探測聲納、一個拖曳聲納、兩個水下無人機和一個水下滅雷機器人。前兩種情況主要是隨著任務的進行對威脅進行探測、分類和定位,其次是通過與前一次任務的數據進行比較來改變探測結果,最后是重新定位和識別幾枚地雷并解除其中一枚地雷。
該計劃的核心是在水下環境中自主發展的能力。這種自主性是通過使用人工智能算法,特別是DRL來實現的,以便自主地將無人機從母艦上移開[14]。盡管水下無人機必須能夠自主行動,但仍有許多人機互動:任務準備、驗證地雷分類和實時任務監測、授權投擲炸藥。這種人機互動是由MMI(人機界面)實現的,比如你會發現下面這個界面。
有一些項目旨在優化這些關系并建立信任關系:例如,泰雷茲國防任務系統公司DxLab的AR{iA}NE項目,旨在顯示操作者和人工智能之間可以有真正的互動[14]。人工智能在這里由控制臺的下半部分代表。它的突出顯示取決于性能指數:這就是人工智能以非常直觀的方式與操作者交流的方式。這個演示設備是為工業展覽準備的。它的設計經過特別考慮,給人以未來主義的印象,讓客戶感覺到他正在與人工智能進行交流。該控制臺集成了一個軟件分析界面,為聲納數據的利用提供了實質內容,因此非常適用于研究人機互動,更確切地說,是人機互動。
國防公司,如泰利斯、空客和MBDA,正在開發項目,旨在提供反無人機(UAV:無人機)解決方案。商用無人機的擴散化和相當便宜的價格引發了安全和保障問題。例如,在無人機和飛機之間發生了一些事件,還有一些情況,如跨越邊界和在監獄中走私貨物(武器、毒品),或向目標運送爆炸物。這些公司提出了智能解決方案,可以檢測無人機,但也可以通過高度的自主性和人類的環形控制來消除它們。這些系統可以對敵方目標進行探測、識別、定位和消滅。反無人機問題被概念化,并通過以下步驟得到部分解決[16]:
最新項目的目標是創建和展示一個完整的反無人機系統,能夠解決上述六個步驟,并整合兩個主要部分,一個地面部分和一個空中部分。地面部分可由一個作為指揮和控制站的地面控制站和一些地面傳感器組成,其數量和在空間的分布可根據需要和保護空間的配置進行調整。空中部分可以由盟軍無人機隊組成,這些無人機可以是相同的,具有類似的能力(同質蜂群),也可以具有不同的能力,每個都有一套獨特的專長(異質蜂群)。擁有一個空中段提供了兩個優勢。首先,在傳感方面,它使系統具有盯住目標的能力,可能為人類操作員提供實時視覺反饋,但也能對敵方無人機及其有效載荷進行更詳細和有效的分類和識別。第二,在消滅方面,它應該允許防御者部署更多的外科手術式的反措施,特別是避免過多的附帶損害或不想要的副作用。許多國防公司正在為中和部分開發智能DRL解決方案[17],以便在盟軍無人機群中做出自主決定。DRL算法也可用于指揮和控制站,以監測整體作戰情況。
未來戰斗航空系統(FCAS)是一個 "系統簇",它涉及到新一代戰斗機(NGF)、遠程航母(RC)和一個將所有參與者連接在一起的戰斗云系統: NGF、RC群、衛星、戰艦、地面系統等。
遠程運載器是用來做什么的?設想的應用是非常多樣的:通過幾十架飛機的飽和來穿透敵人的防御,誘騙敵機,執行電子戰任務(干擾),為其他飛機指定目標,執行偵察任務,甚至發射導彈而不是作戰飛機。這些新型機組成員為未來幾十年的空中行動開辟了一個巨大的可能性領域:用無人機代替戰斗機發射導彈,這樣就不會有飛行員的生命危險,騷擾敵人的防線,執行偵察任務,等等。這些設備也可以假裝成駕駛飛機,吸引敵人的巡邏隊,為作戰飛機打開缺口。在遠程載具的核心,制造商正在開發人工智能算法,特別是DRL[18],以控制每架無人機,但也控制無人機群。DRL算法出色的適應性在這里被用來管理高層和自主決策。
"系統簇"的非常高的互連性也要求建立一個抗網絡攻擊的戰斗云。這些攻擊確實可以破譯通信以獲取情報,甚至干擾或破壞通信,或者更糟糕的是,向半自主系統發出錯誤指令。DRL算法可用于應對正在進行的網絡攻擊。這些攻擊確實可以快如閃電,而人類沒有能力做出足夠快的反應。因此,必須使用智能自動系統來抵御攻擊。DRL似乎再次成為快速、自主和適應性行動的良好解決方案[19]。
正如我們所說,在自主系統中使用人工智能有很多問題:倫理、法律、政治等等。這就是為什么有必要在這場技術革命的不同參與者之間建立一種信任關系,從研究人員到用戶和工程師。
數學上的保證。為了確保我們提出的技術解決方案的可靠性,最好能在理論上和數學上保證算法的性能。然而,重要的是要記住,有關的保證在性質上是概率性的,因為大多數ML算法的性質是不確定的。因此,我們將試圖證明,例如,如果該算法有無限量的訓練數據可供支配,它就能夠完成提交給它的任務。或者,人們可能會試圖證明該算法收斂到一個解決方案,而且幾乎可以肯定它是以一個已知的和可控的速度收斂的。這種類型的結果保證存在于許多經典的ML算法中,用于解決某些簡單的問題,并受制于關于訓練和測試數據的某些假設。人工智能的整個研究領域都是關于知道什么是或不是可以通過ML學習的問題,以及什么精度:可能是近似正確的學習[20]。在RL方面還有很多工作要做,它仍然是一種年輕的技術,但理論上的保證越來越多[21]。然而,這些理論結果一般都是基于非常強的假設,這些假設往往是還原性的,并沒有考慮無人機在實踐中使用的非常真實的環境,這有時會使它們不那么相關。
可解釋人工智能。第二個軸心是要建立對人工智能所支配的自主系統的信任,即其行動的可解釋性。當我們可以理解導致人工智能獲得結果的原因時,一個算法被認為是可解釋的。一般來說,目前可解釋的ML算法(XAIs)能夠報告相對簡單的決定,例如指出圖像的哪些區域被用來確定它是一個蘋果。關于RL,為算法的可解釋性設想了幾條途徑。
讓我們細化前面的觀點,像一些作者那樣考慮人工智能算法的區別,這些算法不僅是可解釋的,而且是可解釋的。事實上,為了解釋它們的推理,已經建立了一些后驗算法,但它們并不能幫助理解初始算法的 "黑匣子"。出于這個原因,人們正在對可解釋的人工智能方面進行研究,這樣就可以說明導致輸出的不同推理步驟[24]。即使DRL算法的參數數量非常大,仍然是廣泛實施這種方法的技術障礙,但可以預期在這個領域會有明顯的進展。
對受DRL支配的自主系統有信心的第二個論據是測試期間的性能測量。事實上,即使目前關于人工智能可解釋性的知識狀況不允許完美地理解算法是如何達到其輸出的,但實踐中的結果是好的,表明有非常大的發展潛力。
對其他問題進行歸納的能力。首先,用戶對人工智能技術的信心可以建立在算法解決其他問題的良好能力上,或多或少有些類似。例如,眾所周知,Deepmind的AlphaFold 2 DRL算法在預測蛋白質結構方面特別出色[25]。這種優秀的聲譽源于該算法的大量已發表的測試研究,這讓該領域的大多數科學家對其給予了極大的肯定。雖然蛋白質結構預測與自主無人機的使用無關,但將蛋白質中單個原子的放置與無人機在協作作戰任務中的放置相提并論是很容易和有意義的。在前一種情況下使用DRL,以及所獲得的結果,也有可能使最終用戶對DRL應用于另一個領域的潛力充滿信心。
算法驗證。然而,與經典的ML算法不同,不可能在RL中實現我們在第一部分討論的驗證測試。這是因為所涉及的數據是隨時間變化的,而且所提出的問題也是不同的。要限定所識別的對象是否被正確預測是很容易的(是的,它是一個蘋果,或者不是,它是一個梨子)。另一方面,量化無人機和飛機之間合作的成功要微妙得多:許多標準必須被評估(無人機的定位、它們的速度、它們不同行動的時間)。因此,RL算法的性能測量是通過建立針對要解決的任務的指標來完成的。例如,對于負責訪問一個空間區域的無人機來說,比較正確識別目標的比例、任務完成時間或其他更精確的指標是相關的,這取決于情況和要解決的具體問題。
爭取在RL中實現更好的可重復性。最近還強調了RL算法的一個臭名昭著的問題,即當一些研究人員想要復制他們同事的結果時,一些算法的不穩定性[26]。實驗的可重復性是科學中的一個基本問題,因為它構成了被測試定律(例如,萬有引力定律)的有效性證明。在這里,算法性能的證明之一是可以讓它多次承受相同的情況,并在不同的迭代中獲得非常相似的結果。為了克服缺乏可重復性的問題,新的算法開發框架、新的測試程序和明確的指導方針已經到位,使科學和開發團隊對他們的結果有了更大的信心。
優化人機互動
人機協作是現代(協作)戰爭的核心,但人類和智能機器之間的成功協作主要取決于信任。然而,安全與新興技術中心對自主性和人工智能相關的研究[27]發現,在美國軍方的科技項目投資中,789個自主性相關項目中只有18個,287個人工智能相關項目中只有11個提到 "信任 "一詞。研究人員沒有直接研究信任,而是將開發更透明、可解釋和可靠的人工智能作為優先事項。這些努力對于培養人機團隊的信任是必要的,但技術驅動的解決方案并不總是考慮這個等式中的人類因素。
對高性能技術的不充分信任會導致人工智能系統的使用不足或廢棄,而對有限的或未經測試的系統的過度信任會導致對人工智能的過度依賴。這兩種情況在軍事背景下都有獨特的風險,包括事故、友軍交火、對平民的意外傷害和附帶損害。為了讓士兵對自主系統有信心,他們必須知道系統在遇到障礙物時將會做什么。從系統工程的角度來看,這意味著要指定和實施一些能力,如通過假設查詢和信息交流進行信息檢索,以便系統能夠以人類操作者容易理解的方式解釋其推理和行為。換句話說,"在系統中建立信任 "是一種以技術為中心的方法,通過改善與信任密切相關的系統特性和能力,如透明度、可解釋性和可靠性,來建立人機團隊的信任。
DARPA的Squad X計劃[28]將美國陸軍和海軍陸戰隊的步兵小隊與配備先進傳感設備的無人地面和空中飛行器配對,以提高敵對環境中作戰人員的態勢感知和決策。X小隊在2019年初進行的一系列實驗[29]的主要收獲之一是,將人工智能納入任務的規劃和演練階段非常重要。這樣做,士兵可以 "在如何信任人工智能方面進行搏斗"。最終,目標是讓人類作戰人員更好地了解這些自主系統在戰場上的表現,并對它們作為未來任務中的伙伴更有信心。
要怎樣才能讓人們信任技術?在使用先進系統時,一些個人或群體是否更有可能感到自信,而另一些人則更不情愿?人機團隊的部署環境如何影響信任?認知科學、神經科學、心理學、通信、社會科學以及其他研究人類對技術的態度和經驗的相關領域的見解為這些問題提供了寶貴的啟示[30]。
解決道德問題
"殺手機器人 "一直引起人們對潛在自主能力的恐懼[31]。法國國防倫理委員會在2021年批準在武器系統中引入一定程度的自主能力[32]。在法國,沒有辦法授權 "殺手機器人"。這一表述指的是LAWS(致命性自主武器系統)。這只是證實了法國幾年來在這個問題上的立場。但事情很復雜,倫理委員會認為不反對引入一定程度的自主權,因此不反對使用PAWLS(部分自主武器致命系統)。將LAWS與PAWLS區分開來的是 "性質上的差異,這與人類在某些關鍵功能中的地位有關"。致命武器系統的設計是為了演化出自己的操作規則,并自行重新定義其任務。它們不需要指揮部對情況的評估。PAWLS可以自主地被賦予某些任務的責任和執行,但只是暫時的,而且只用于識別、分類、攔截或接觸任務。道德委員會明確表示,它不能在沒有人類控制的情況下采取致命的舉措。即使在這個限制性框架內,也必須制定技術和組織保障措施,以防止任何過度行為。委員會認為,應繼續在與國防有關的人工智能和武器系統自動化領域進行研究。其目的是避免任何 "科學和技術上的放棄",防止對手開發致命性自主武器,并在對手使用這種武器時進行防御。
自主系統不應
G1. 為自主軍事系統上嵌入式人工智能的操作使用案例制定并提供一個法律框架。
G2. 確保在所有情況下都有人類的監督,有人類在環形系統。
G3. 保證在發生事故時的責任追溯。這種責任必須始終由人承擔,而不是由機器承擔。
G4. 開發符合人體工程學的人機界面,允許人與機器之間的對話和理解。
G5. 開發穩健、安全、準確、可重復和可靠的算法,以及評估這些標準的方法。
G6. 為與人工智能互動的軍事人員建立培訓計劃,讓他們了解這些算法的機制、能力和局限性。
G7. 通過對算法、數據和設計過程的評估,確保責任、問責和可審計性。
G8. 制定技術評估程序,以評估對上述準則的遵守情況。
G9. 加快歐洲在人工智能技術方面的培訓工作,特別是針對學術和工業環境的DRL。
G10. 加快歐洲在整合人工智能的國防系統方面的立法工作,以保持歐洲在這一法律方面的領先地位,并確認其在這一領域的領先形象。
G11. 發展國際合作,在自主系統領域進行立法。
G12. 促進研究人員、哲學家、律師、政治家和業務人員之間關于自主系統的對話。
G13. 在有關國防人工智能的研究和應用項目中始終包括信任的概念。
G14. 對協同作戰的未來利害關系有一個明確而具體的看法,以便將人和他們的利益置于系統的中心。
本報告記錄了通過利用深度學習(DL)和模糊邏輯在空間和光譜領域之間整合信息,來加強多模態傳感器融合的研究成果。總的來說,這種方法通過融合不同的傳感器數據豐富了信息獲取,這對情報收集、數據傳輸和遙感信息的可視化產生了積極的影響。總體方法是利用最先進的數據融合數據集,為并發的多模態傳感器數據實施DL架構,然后通過整合模糊邏輯和模糊聚合來擴展這些DL能力,以擴大可攝入信息的范圍。這項研究取得的幾項進展包括:
出版物[1, 2, 3, 4, 5]進一步詳細介紹了取得的進展。
本報告是在 FA9453-19-1-0078 資助下編寫的。首先,提出了兩種數值方法來解決通信和導航中產生的非線性優化問題。其次,開發了兩個關于機器學習模型的解決方案質量和安全性的結果。
該研究項目的目標是開發高效的大規模非線性優化算法,以解決通信和導航方面的數據分析問題。這些問題被公認為在數學上具有挑戰性,并與空軍的利益直接相關。
在資助期間,我們成功研究了兩個研究方向。首先,我們設計了大規模非線性優化問題的最佳一階方法。在這個方向上,我們提出了兩個一階方法,可以對決策變量進行近似梯度更新。這兩種方法都可以解決分散通信的多Agent優化所產生的非線性優化問題。通過將多代理優化重新表述為約束性問題,我們開發的方法可以以最佳梯度/操作者評估復雜度來解決問題。我們開發的方法也可用于解決圖像重建問題。
第二,我們分析了機器學習模型中的解決方案質量和安全問題。在這個方向上,我們完成了兩個研究結果。我們的第一個成果是關于在多集群環境下,從二元結果的條件邏輯回歸模型中計算出來的估計值的屬性。我們表明,當每個單獨的數據點被無限次復制時,來自該模型的條件最大似然估計值漸進地接近最大似然估計值。我們的第二個結果是關于安全的矩陣乘法問題,我們設計了一種準確和安全地進行分布式矩陣乘法的方法。我們的安全協議可以確保在進行這種矩陣乘法的通信過程中沒有任何信息被泄露。