機器學習能夠分析和解釋大量數據、識別模式并做出高保真決策,這在過去可能是不可行的,因此在眾多不同領域都具有重要意義。機器學習在戰術領域也有豐富的應用,例如識別數據中與可疑活動或行為相對應的異常模式(這可能預示著潛在的安全威脅或漏洞),以及通過分析來自傳感器、情報報告和態勢感知平臺等多個來源的數據來協助實時決策。
深度學習是機器學習的一個分支,它利用人工神經網絡從大量數據中學習并執行復雜的任務[1]。與傳統機器學習算法通常利用領域知識手動設計相關特征進行操作不同,深度學習模型旨在直接從原始數據中自動學習特征或表征,無需特征工程。這是深度學習的主要優勢之一,特別是對于涉及圖像、音頻和文本等高維數據的任務。為此,深度學習的應用涉及計算機視覺、自然語言處理、語音識別和網絡安全等多個領域。
盡管深度學習模型好處多多,但也容易受到各種攻擊和利用。對抗式機器學習是一個新興領域,研究機器學習模型的漏洞和保護它們的機制[2]。在這種情況下,對手可以利用機器學習系統在設計、訓練過程或部署方面的弱點來操縱它們的行為或損害它們的性能。其中一個主要的安全問題是圍繞對抗(規避)攻擊展開的,這種攻擊涉及通過向輸入數據添加微小擾動,在模型中引入偏差或漏洞,從而惡意欺騙或降低模型的性能。在本文中,首先討論了深度學習在戰術領域的應用領域。接下來,將對抗式機器學習作為一種新興的攻擊載體,并討論對抗式攻擊對深度學習性能的影響。最后,討論了可用于抵御這些攻擊的潛在防御方法。
深度學習是機器學習的一個子領域,通過對輸入數據進行非線性變換來提取模式并執行回歸或分類任務。深度學習在戰術網絡領域有多種應用,包括
通過在這些應用領域利用深度學習,戰術系統可以從增強的性能、彈性和適應性中獲益,最終支持軍事行動的任務目標。
在戰術領域成功部署深度學習模型的一個關鍵步驟是確保所開發算法的可靠性、安全性、公平性、透明度和責任性。在戰術行動中,深度學習系統必須在具有挑戰性的動態條件下可靠運行,如惡劣的環境、有限的通信帶寬和對抗性威脅。人工智能保障涉及支持人工智能系統(如基于深度學習模型的系統)滿足嚴格的性能要求,包括準確性、魯棒性和響應性,以支持目標識別、威脅檢測和決策支持等關鍵任務。圖 1 說明了影響深度學習模型信任度的一些因素,即環境不確定性、可重復性、偏差、可解釋性、穩健性和安全性。
可解釋性對于在深度學習應用中建立信任、提高透明度、減少偏差和促進知情決策至關重要。可解釋的機器學習模型通過為模型預測和決策提供理由,支持監管合規性和問責制要求。通過了解模型是如何得出預測或建議的,軍事人員可以獲得對作戰背景、任務目標和潛在威脅的寶貴見解,從而提高對態勢的認識和決策能力。
偏差是指深度學習模型在預測或決策時出現的系統誤差或不準確,原因是模型無法代表輸入特征與目標變量之間的真實潛在關系。偏差可能來自不同方面,如算法偏差、標簽偏差或特征偏差。傳感器數據、情報報告或態勢感知數據中的偏差可能會導致錯誤的模型預測,或在動態和不確定的戰場條件下做出次優決策。通過解決戰術領域深度學習中的偏差問題,軍事組織可以提高自動決策支持系統的公平性、有效性和可信度。
可重復性是深度學習研究和應用的完整性、可信度和進步的基礎。當模型和實驗具有可重復性時,戰術領域的不同利益相關者就可以對研究過程中使用的方法、假設和多領域數據進行評估,從而提高對報告結果和結論的信任度。
深度學習的魯棒性指的是模型在不同和具有挑戰性的條件下保持性能和穩定性的能力,這些條件包括數據分布、環境變化和攻擊的變化,這些在現代戰場上經常會遇到。
環境的不確定性會降低從各種來源收集到的數據的質量。此外,根據特定環境中的數據訓練的機器學習模型可能難以泛化到具有不同特征的新環境或未見過的環境中。這對受制于動態戰場條件和未知敵方影響的戰術行動構成了重大挑戰。由于與數據驅動系統相關的潛在漏洞和風險,機器學習的安全性至關重要。敵人可能會試圖利用深度學習模型中的漏洞來欺騙或操縱它們,從而導致決策失誤和任務失敗。
應采取安全措施,幫助保護這些數據免遭未經授權的訪問,確保戰術行動中傳遞的關鍵信息的機密性和完整性。
在本文的其余部分,將重點介紹機器學習的安全性,解釋不同的攻擊類型,討論它們如何影響深度學習算法的性能,并回顧潛在的防御技術。
對抗式機器學習指的是研究如何理解和緩解機器/深度學習模型中的漏洞,在這種情況下,對抗者會利用模型設計、訓練過程或測試時輸入數據中的弱點來操縱或欺騙模型。對抗式機器學習包括各種攻擊,包括探索式攻擊、對抗式攻擊(規避)、中毒攻擊和后門(木馬)攻擊 [6]-[10]。
在探索式攻擊中,對手使用基于探測的策略,通過提交精心制作的查詢或輸入樣本來詢問深度學習模型。這些查詢旨在揭示模型的內部運作信息,例如其決策邊界、特征表征或敵方操縱的弱點。
對抗(規避)攻擊精心設計輸入樣本,以規避檢測或在操作過程中誤導模型的預測。對抗者可能會利用模型架構或特征表示中的漏洞來生成最終被錯誤分類的輸入。逆向輸入通常涉及對輸入數據進行微小、不易察覺的修改,從而導致模型輸出發生重大變化。
模型中毒攻擊涉及注入惡意數據或操縱訓練數據集,以損害深度學習模型的性能或完整性。攻擊者可能會在訓練數據中插入有偏見或誤導性的樣本,以影響模型的行為,或者引入后門,使未經授權的訪問或控制成為可能。
后門(木馬)攻擊涉及在訓練數據中插入惡意制作的輸入,以操縱機器學習模型的行為。
這些輸入包含微妙的改動,在正常運行時并不明顯,但在推理過程中會觸發模型的特定響應或錯誤分類。這種操縱會損害模型的完整性和可靠性。
隱私攻擊也可以通過成員推理和模型提取攻擊應用于深度學習算法。
成員推理攻擊旨在確定深度學習模型的訓練數據集中是否使用了特定的數據樣本。攻擊者利用模型輸出中的信息泄露來推斷訓練數據中是否存在特定樣本,從而損害敏感信息的隱私性和保密性。
模型提取攻擊涉及對深度學習模型進行逆向工程,以提取模型參數中嵌入的敏感信息或專有知識。攻擊者可能會使用黑盒查詢、模型反轉技術或成員推理攻擊來推斷模型架構、訓練數據或決策邊界的細節。
在深度學習中,攻擊也可以根據攻擊者對目標模型及其內部運作的了解程度進行分類。主要分為白盒攻擊、黑盒攻擊和灰盒攻擊三大類。
在白盒攻擊中,攻擊者完全了解目標模型,包括其架構、參數和訓練數據。攻擊者可以直接訪問模型的內部表示、梯度和決策邊界,這使他們在制作對抗性樣本時非常有效。
在黑盒攻擊中,攻擊者對目標模型內部參數或梯度的訪問有限或根本無法訪問。攻擊者只能通過查詢輸入樣本和觀察相應輸出來與目標模型交互。盡管缺乏對目標模型的詳細了解,黑盒攻擊者仍會利用可轉移性等技術精心制作對抗樣本,將在替代模型上生成的對抗性樣本用于攻擊目標模型。
灰盒攻擊介于白盒攻擊和黑盒攻擊之間,攻擊者對目標模型有部分了解。在灰盒攻擊中,攻擊者可以獲取目標模型的部分信息,如其架構或輸出預測,但無法獲取其內部參數或梯度。
在防御深度學習系統中的對抗性威脅時,每種類型的攻擊都會帶來獨特的挑戰和注意事項。下一節,我們將深入探討對抗性攻擊,并討論它們如何影響深度學習性能。
對抗性攻擊的目的是在測試時操縱輸入數據,使深度學習模型做出錯誤的決定。文獻中提出了許多發動對抗性攻擊的方法 [11]。我們重點分析快速梯度符號法(Fast Gradient Sign Method,FGSM)和投射梯度下降法(Projected Gradient Descent,PGD)。
FGSM 是制作對抗樣本最簡單、最有效的技術之一。它的工作原理是在模型損失函數相對于輸入特征的梯度方向上擾動輸入數據,同時保持在一定的擾動值(ε)之下。FGSM 攻擊速度快、計算效率高,只需一次梯度計算即可生成對抗樣本。然而,FGSM 生成的對抗樣本可能缺乏魯棒性,無法轉移到其他模型或防御方法中。
PGD 是一種迭代方法,用于確定可能誤導模型的擾動。換句話說,PGD 攻擊對輸入數據及其特征稍加處理,就會導致模型出錯。如果輸入數據足夠敏感,尤其是對微小變化足夠敏感,那么 PGD 攻擊導致模型分類錯誤的幾率就會更高。與 FGSM 相比,PGD 攻擊的計算量更大,因為它涉及梯度下降的多次迭代。不過,PGD 生成的對抗樣本通常更有效、更穩健,因為迭代優化過程能更徹底地探索損失景觀的局部幾何形狀。
為了說明對抗性攻擊的影響,考慮了針對 ImageNet 數據集 ResNet-50 模型的 FGSM 和 PGD 攻擊[14]。該數據集橫跨 1000 個對象類別,包含 1,281,167 張訓練圖像、50,000 張驗證圖像和 100,000 張測試圖像 [15]。ResNet-50 是一種卷積神經網絡(CNN)架構,由 50 層組成,包括卷積層、池化層、批處理歸一化層和全連接層。ResNet-50 在包括 ImageNet 在內的各種基準數據集上取得了最先進的性能,并被廣泛用作各種計算機視覺任務(包括圖像分類、物體檢測、圖像分割和圖像生成)中的特征提取器或骨干架構。圖 2 顯示了隨著擾動水平(我們稱之為ε)的增加,FGSM 方法的分類器準確率的攻擊性能結果。對抗性機器學習攻擊可分為非目標攻擊和目標攻擊。非目標攻擊的特點是試圖擾亂輸入數據,使機器學習模型做出錯誤的預測,而不指定任何特定的目標類別或結果。另一方面,有針對性的攻擊旨在操縱模型的行為,使其朝著特定類別或決策的方向發展。在我們的實施中,我們主要關注非目標攻擊。最初,在發動任何攻擊之前,分類器的準確率為 87.5%。隨著ε值的增加,準確率下降到 0%。與 FGSM 相比,PGD 方法能更有效地降低分類器的性能。另一方面,作為一種迭代方法,PGD 的計算時間較長。圖 3 顯示了 PGD 攻擊下分類器準確率隨迭代次數的變化情況。我們觀察到,隨著迭代次數的增加,分類器的準確率持續下降,在 13 次迭代后下降到 0%。
隨著深度學習在戰術行動中的應用越來越廣泛,對抗性機器學習攻擊將繼續成為一項挑戰。不過,重要的是要考慮防御策略,并采取積極措施來緩解這些問題。緩解深度學習中的對抗性攻擊需要強大而有彈性的防御機制。一種特殊的防御機制是對抗性訓練,即用對抗性樣本來增強訓練數據集,以提高模型的魯棒性和對對抗性攻擊的抵御能力。通過在訓練過程中將模型暴露在對抗性擾動下,深度學習系統可以學會更好地泛化,并在對抗性操作面前變得更加穩健。集合學習是另一種可用作防御機制的方法。集合方法結合多個深度學習模型進行預測,提高了模型的魯棒性和抵御對抗性攻擊的能力。通過利用不同的模型架構和訓練策略,集合方法可以幫助更有效地檢測和緩解對抗性實例。
開發實時檢測和防御對抗性攻擊的技術有助于保護基于深度學習的戰術系統免受惡意操縱。異常檢測、離群點檢測和對抗性魯棒性認證等對抗性檢測方法有助于在對抗性輸入對系統造成危害之前識別并減輕其影響。總之,對抗式機器學習是一個重要的研究領域,重點在于了解和緩解深度學習系統中的漏洞。通過開發強大的防御機制和彈性模型架構,研究人員和從業人員可以在對抗性威脅面前提高深度學習驅動系統的安全性、可靠性和可信度。
深度學習為各種軍事和國防應用中的戰術行動提供了重要優勢。在本文中,我們首先探討了深度學習可用于提高任務性能的一些應用領域。然后,我們強調了深度學習算法容易受到對抗性威脅的影響,對抗性威脅可以修改輸入數據,迫使深度學習模型做出錯誤的決策。我們討論了可對深度學習模型實施的不同攻擊類型,并展示了這些攻擊如何導致模型準確性大幅下降,即使對數據的擾動很小。最后,我們重點介紹了一些防御方法,這些方法可以用來檢測和盡量減少這些攻擊對深度學習算法的影響。
在需要做出重大決策的關鍵系統中,通常無法實現或不希望實現完全自動化。相反,人類-人工智能團隊可以取得更好的效果。為了研究、開發、評估和驗證適合這種團隊合作的算法,有必要建立輕量級實驗平臺,實現人類與多個智能體之間的互動。然而,此類平臺在國防環境中的應用實例非常有限。為了填補這一空白,我們提出了 Cogment 人機協同實驗平臺,該平臺實現了以異構多智能體系統為特征的人機協同(HMT)用例,可涉及學習型人工智能智能體、靜態人工智能智能體和人類。它建立在 Cogment 平臺上,已被用于學術研究,包括在今年的 AAMAS 的 ALA 研討會上展示的工作。希望通過這個平臺,進一步促進關鍵系統和國防環境中的人機協作研究。
圖 1:該圖顯示了 Cogment HMT 實驗平臺的主用戶界面。左側帶帽的圓圈是由五個藍色智能體組成的團隊防守的禁區。右側的單個紅點是無人機攻擊者。
嵌入式人工智能體,如無人駕駛飛行器(UAV,或無人機),有可能徹底改變各行各業,包括交通、農業和安防。然而,這些智能體在物理世界中發展,因此可能會產生危險影響,尤其是在無人監管的情況下。例如,無人機可能會出現故障或無法識別潛在危險,從而造成財產損失甚至人員傷亡。此外,智能體可以根據算法做出決策,而算法可能不會考慮倫理、道德或法律方面的影響。因此,人類必須有能力對這些智能體進行有意義的控制[2]和監督,以確保它們的安全和負責任的使用。人類操作員可以監控和干預系統故障,評估潛在風險,并在需要其判斷的復雜情況下做出道德或法律決定。
除了監督,人類還可以通過協作在幫助智能體實現任務方面發揮關鍵作用。例如,對于無人機,控制中心的人類操作員可以提供實時指導和支持,確保無人機準確、高效地執行所需的功能。此外,人類還可以在現場充當隊友,與具身的人工智能體并肩作戰,實現既需要人類判斷又需要機器精確度的復雜目標。
此外,必須認識到,人機協作(HMT),即人類與具身智能體建立雙向協作的能力,是安全有效使用人工智能的一個關鍵方面。這類人工智能體的設計、訓練、驗證和操作不能孤立地進行,必須考慮它們如何融入包括它們在內的更大系統中。人類,尤其是作為操作員或隊友的人類,從一開始就應被視為該系統不可分割的一部分。
除了這種雙向協作之外,具身人工智能系統在運行過程中往往沒有考慮到 “道德責任 ”和 “社會技術 ”因素[2]。有意義人類控制(MHC)的概念是由 Santoni de Sio 和 van den Hoven 提出的,目的是讓人類能夠影響具身人工智能體的行為[3]。然而,MHC 的原始定義并不一致,因為人類可能缺乏專業技能或知識,無法完全有效地控制人工智能系統。Cavalcante Siebert 等人[2]提出了四個附加屬性來改進 MHC 的原始定義:“明確的道德操作設計領域”、“適當且相互兼容的表征”、“控制能力和權限 ”以及 “人工智能與人類行動之間的明確聯系”。因此,至關重要的是設計一個協調平臺,將有意義的人類控制和人類在環相結合,以確保人工智能系統的訓練和操作方式符合人類價值觀、社會規范和道德行為。
Cogment HMT 提供了一個設計和實驗人機團隊的平臺,尤其是涉及無人機的人機團隊。它以我們的 Cogment [4] 平臺為基礎,解決了協調自動決策系統(包括人工智能體)、人類之間的協作及其對數據的訪問和對環境的影響等難題。Cogment HMT 實驗平臺目前使用一個模擬環境,可以很容易地進行調整,以適應更真實的模擬和現實世界的部署。我們將在第三節介紹該平臺及其特性。
利用 Cogment HMT 實驗平臺,人工智能從業者可以開發出能夠與人類協同工作的智能體,并從人類的知識和期望中學習,同時考慮有意義的人類控制、信任和認知負荷管理等因素,實現有效的雙向人機協作。我們將在第四部分介紹早期成果。
利用人工智能實現認知優勢的目的是從海量數據中提取相關信息,以建立軍事和非軍事態勢感知。對視覺信息進行可靠而及時的解讀是獲得這種優勢的有利因素。隨著大規模、多模態深度學習模型(如對比語言-圖像預訓練(CLIP))的興起,一種有前途的神經網絡正在出現,以執行此類視覺識別任務。這種網絡能夠通過一次性應用光學字符識別(OCR)、面部識別或對象分類從視覺輸入中提取知識,而無需進行顯式微調。通過選擇針對圖像中搜索對象的特定文本提示,CLIP 可以實現這種 "零樣本"功能。
本文將研究 CLIP 如何用于識別軍事領域的車輛,并利用從烏克蘭-俄羅斯戰爭中吸取的經驗教訓。為了進行分析,創建了一個新的數據集,其中包含有軍用和民用車輛的圖像,但也有沒有車輛的圖像。首先,我們搜索適當的查詢,利用單個搜索結果,然后組合多個提示。其次,探討這種方法是否可用于從基于監控攝像頭和智能手機的視頻流中識別軍用車輛。在圖像數據集上表明,經過深思熟慮的提示工程,CLIP 模型能夠以較高的精確度和召回率識別軍用車輛。視頻數據集的性能取決于物體大小和視頻質量。有了這種方法,盟軍和敵方都可以系統地分析大量視頻和圖像數據,而無需耗時的數據收集和訓練。
CLIP 是目前最好的零樣本模型之一。Radford 等人[10] 開發了一種全新的方法,利用簡單的對比預訓練目標來學習盡可能多的概念。CLIP 在 4 億個圖像-文本對上進行了預訓練。不過,該數據集尚未公開,因此不知道有關訓練數據的詳細信息。圖像由圖像編碼器嵌入,文本由單獨的文本編碼器嵌入。目標是使用對稱交叉熵損失來減少嵌入的距離,如圖 1(左)所示。余弦相似度被用作距離度量。基于這一簡單的預訓練目標,CLIP 可以在沒有監督注釋的情況下學習一般概念,因此具有很強的零誤差能力。ResNet [2] 及各種改進 [13], [14] 和 Vision Transformer [15] 被用作圖像編碼器,Transformer 架構 [16] 被用于文本嵌入。Radford 等人提供了其 CLIP 模型的九種不同配置。在我們的分析中,我們使用了 ViT-B/16,這是一個中等規模的模型,圖像編碼器和文本編碼器分別有 8620 萬和 3780 萬個參數。為了防止過擬合,通常會使用一些數據增強,但由于預訓練數據集的大小,這些增強可以忽略不計,只進行簡單的裁剪。預訓練數據集并不公開,因此在訓練過程中與軍事相關的數據量不得而知。在推理過程中,使用不同的提示(T1、...、TN)對搜索到的類別進行編碼,然后根據文本向量與圖像向量(I1)之間的距離確定類別,如圖 1 所示。
人工智能解決方案在陸軍野戰應用中的使用將在很大程度上依賴于機器學習(ML)算法。當前的ML算法需要大量與任務相關的訓練數據,以使其在目標和活動識別以及高級決策等任務中表現出色。戰場數據源可能是異構的,包含多種傳感模式。目前用于訓練ML方法的開源數據集在內容和傳感模式方面都不能充分反映陸軍感興趣的場景和情況。目前正在推動使用合成數據來彌補與未來軍事多域作戰相關的真實世界訓練數據的不足。然而,目前還沒有系統的合成數據生成方法,能夠在一定程度上保證在此類數據上訓練的ML技術能夠改善真實世界的性能。與人工生成人類認為逼真的語音或圖像相比,本文為ML生成有效合成數據提出了更深層次的問題。
人工智能(AI)是美國國防現代化的優先事項。美國國防部的人工智能戰略指示該部門加快采用人工智能并創建一支適合時代的部隊。因此,它自然也是陸軍現代化的優先事項。從陸軍多域作戰(MDO)的角度來看,人工智能是解決問題的重要因素,而MDO是建立在與對手交戰的分層對峙基礎上的。雖然人工智能本身沒有一個簡明和普遍接受的定義,但國防部人工智能戰略文件將其稱為 "機器執行通常需要人類智能的任務的能力--例如,識別模式、從經驗中學習、得出結論、進行預測或采取行動--無論是以數字方式還是作為自主物理系統背后的智能軟件"。這句話的意思是,當機器在沒有人類幫助的情況下獨立完成這些任務時,它就表現出了智能。過去十年中出現的人工智能解決方案的一個重要方面是,它們絕大多數都符合模式識別模式;在大多數情況下,它們根據經過訓練的人工神經網絡(ANN)對相同輸入數據的輸出結果,將輸入數據分配到數據類別中。具體來說,深度學習神經網絡(DNN)由多層人工神經元和連接權重組成,最初在已知類別的大量數據上進行訓練以確定權重,然后用于對應用中的實際輸入數據進行分類。因此,機器學習(ML),即自動機(這里指DNN)在訓練階段學習模式的過程,一直是一個主導主題。事實上,DNN在計算機視覺領域的成功是商業和政府部門加大對人工智能關注和投資的原因。訓練算法和軟件開發工具(如tensorflow)的進步、圖形處理器(GPU)等計算能力的可用性,以及通過社交媒體等途徑獲取大量數據,使得深度學習模型在許多應用中得到了快速探索。
在監督學習中,人類專家創建一組樣本來訓練ML算法,訓練數據與實際應用數據的接近程度對人工智能方法的性能起著重要作用。將ML模型應用于軍事問題的主要瓶頸是缺乏足夠數量的代表性數據來訓練這些模型。有人提出使用合成數據作為一種變通辦法。合成數據集具有某些優勢:
然而,最關鍵的問題是在合成數據或混合合成和真實數據上訓練ML模型是否能使這些模型在真實數據上表現良好。美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員和合作者使用合成生成的人類視頻進行機器人手勢識別所獲得的初步結果表明,在合成數據和真實數據混合的基礎上進行訓練可以提高ML手勢識別器的性能。然而,并沒有普遍或分類的結果表明,當全部或部分使用合成數據進行訓練時,真實世界的ML性能會得到一致的提高。因此,有必要進行系統調查,以確定使用合成數據訓練ML方法的可信度。我們有理由假設,合成數據在提高ML性能方面的有效性將受到實際應用領域、合成數據與真實數據的保真度、訓練機制以及ML方法本身等因素的影響。合成數據與真實數據的保真度反過來又取決于數據合成方法,并提出了通過適當指標評估保真度的問題。以圖像為例,合成數據訓練的ML方法的性能與人類視覺感知的真實場景的保真度是否成正比并不清楚。有可能數據的一些關鍵特征對于ML的性能比那些影響人類感知的特征更為重要。組織這次陸軍科學規劃和戰略會議(ASPSM)的一個主要目的是讓合成數據生成、人工智能和機器學習(AI & ML)以及人類感知方面的頂尖學術界和國防部專家討論這些問題。會議的技術重點主要是圖像和視頻數據,反映了組織者在計算機視覺和場景感知方面的任務領域。
根據上一節提出的問題,會議圍繞三個主題展開:
1.人類的學習和概括: 人類可以從最小的抽象和描述概括到復雜的對象。例如,在許多情況下,觀察一個物體的卡通圖像或線描,就足以讓人類在真實場景中識別出實際的三維物體,盡管后者比卡通圖像或線描具有更復雜的屬性。 這遠遠超出了當前人工智能和ML系統的能力。如果能夠開發出這種能力,將大大減輕數據合成機器的負擔,確保真實數據的所有屬性都嚴格保真。這個例子也說明了一個事實,即用于訓練ML模型的合成數據生成研究與提高ML模型本身的能力密切相關。因此,這項研究的重點是探索人類和動物的學習,以啟發ML和數據合成的新方法。
2.數據合成方法和驗證: 大多數應用ML方法的領域都有針對其領域的數據合成技術和工具。游戲平臺提供了一個流行的視頻合成商業范例。問題是如何評估特定領域中不同合成方法的性能。顯然,我們必須確定執行此類評估的指標或標準。通常情況下,合成工具的作者也會就工具的性能或功效發表聲明。驗證將是評估此類聲明的過程。本研究的目的是探討指導合成和驗證過程的原則。合成技術的例子包括基于計算機圖形的渲染器(如電影中使用的)、基于物理的模擬(如紅外圖像)和生成模型(目前傾向于基于神經網絡)。
3.領域適應挑戰: ML中的領域適應是指使用一個領域(稱為源領域)的數據訓練ML模型,然后將ML應用于不同但相關領域(稱為目標領域)的數據。例如,使用主要為民用車輛的源圖像數據集訓練識別車輛的ML算法,然后使用訓練好的算法識別主要為軍用車輛的目標數據集中的車輛。在使用合成數據進行訓練時,它們通常構成源域,而實際應用數據則是目標域。本次會議的重點是確定和討論有效領域適應中的關鍵問題和挑戰。
ASPSM的審議分四次會議進行。第一天的兩場會議討論了前兩個主題。第二天的第一場會議討論第三個主題,第二場會議在三個主題下進行分組討論。ASPSM兩天的日程安排分別如圖1和圖2所示。從圖中可以看出,每個主題會議首先由該領域的學術專家進行40分鐘的主講,然后由大學專家進行兩個20分鐘的講座。隨后由來自學術界和國防部的專家組成的小組進行討論。最后一個環節是分組討論,與會者可以討論與主題相關的各個方面。
麻省理工學院電子工程與計算機科學系的Antonio Torralba教授在第一分會場發表了關于人類學習與泛化的主題演講。他的演講題目是 "從視覺、觸覺和聽覺中學習",深入探討了深度學習方法如何在不使用大量標注訓練數據的情況下發現有意義的場景表征。舉例說明了他們的DNN如何在視覺場景和環境中的聲音之間建立聯系。讀者可參閱Aytar等人關于這一主題的代表性文章。
同樣來自麻省理工學院的James DiCarlo博士的下一個演講題目是 "視覺智能逆向工程"。他將 "逆向工程 "定義為根據對行為的觀察和對輸入的反應推斷大腦的內部過程,將 "正向工程 "定義為創建ANN模型,以便在相同輸入的情況下產生相應的行為。他的研究小組的一個目標是建立神經認知任務的性能基準,人類或其他靈長類動物以及ML模型可以同時達到這些基準。他的演講展示了大腦處理模型如何適應ANN實現的初步結果,并提出了ANN通過結合這些適應密切模擬人類行為,進而準確描述大腦功能的理由。
第一場會議的第三場講座由加州大學伯克利分校的Jitendra Malik教授主講,題為 "圖靈的嬰兒"。這個題目也許是指最早的電子存儲程序計算機之一,綽號 "寶貝",其創造者之一受到了阿蘭-圖靈的啟發。馬利克教授首先引用了圖靈的觀點:與其創建一個模擬成人思維的程序,不如從模擬兒童思維開始。從本質上講,這意味著創造一種人工智能,通過與環境互動以及向其他人工智能和人類學習來學習和成長。這被稱為具身機器智能。馬利克教授認為,監督學習本質上是處理靜態數據集,因此顯示了在精心策劃的時間點上運行的非實體智能。具體而言,他認為監督訓練方法不適合創建能夠提供人類水平的世界理解,特別是人類行為理解的人工智能。Malik教授介紹了 "Habitat",這是一個由他和他的合作者開發的平臺,用于嵌入式人工智能的研究。在隨后的小組討論中,與會人員討論了演講者所涉及的主題,以及與機器人學習和當前兒童智力發展模型相關的主題。
第二部分“數據合成:方法和驗證”以一個題為“學習生成還是生成學習?”,作者是斯坦福大學的Leonidas gu教授。在研究用于訓練ML的合成數據生成的動機中,他指出可以減輕大量人工注釋訓練數據的負擔。他的前提是,無論合成數據是用于訓練ML還是供人類使用,其生成效率和真實性都非常重要。不過,他表示其他質量指標還沒有得到很好的定義,需要進一步研究。他舉例說明了在混合合成數據和真實數據上訓練ML時,ML的物體識別性能有所提高,但他也承認很難得出可推廣的結論。
卡內基梅隆大學的Jessica Hodgins博士發表了第二場會議的第二個演講,題為 "生成和使用合成數據進行訓練"。演講展示了她的研究小組生成的精細合成場景。利用從真實場景到合成場景的風格轉移過程,她的研究小組創造了一些實例,說明在混合了大量風格適應的合成數據和一些真實數據的基礎上進行訓練的ML方法的性能優于僅在真實數據集或僅在合成數據集上進行訓練的方法。性能提高的原因在于風格轉移克服了合成數據集與真實數據集之間的 "分布差距"。
第二場會議的最后一場講座由加州大學伯克利分校的Trevor Darrell教授主講。他的演講題為 "生成、增強和調整復雜場景",分為三個部分。第一部分詳細介紹了演講者及其核心研究人員開發的一種名為 "語義瓶頸場景生成 "的技術,用于根據地面實況標簽合成場景。該技術可進一步與通過生成過程生成此類地面標簽的模型相結合。Azadi等人對該技術進行了詳細描述。 第二部分涉及增強和自我監督學習。發言人提出,當前的對比學習方法在合成增強數據時建立了不變量,而這些不變量可能是有益的,也可能是無益的。例如,建立旋轉不變性可能有利于識別場景中的花朵,但可能會阻礙對特定方向物體的有效識別。演講者介紹了他的研究小組考慮具有特定不變性的多種學習路徑的方法,并展示了與現有技術相比性能有所提高的結果。 第三部分介紹了一種名為 "Tent"(測試熵)的技術。其前提是DNN應用過程中遇到的數據分布可能與訓練數據不同,從而導致性能下降。因此,需要對DNN參數進行實時或測試時調整,以防止性能下降。Tent技術通過調整權重使DNN輸出的測量熵最小化來實現這一目標。演講者隨后用常用數據集展示了該技術相對于先前方法的改進性能。隨后的小組討論涉及合成方面的挑戰,尤其是紅外圖像方面的挑戰。
第二天的第三場會議以 "領域轉移的挑戰 "開始。約翰霍普金斯大學布隆伯格特聘教授Rama Chellappa博士發表了題為 "解決美國防部實際問題的綜合數據期望與最大化"的演講。演講首先回顧了過去二十年來國防部處理合成圖像的多個項目的歷史。他提出了一個重要論斷,即如果在合成過程中考慮到真實數據的物理特性,那么真實數據和合成數據之間的領域轉換就會減少。Chellappa教授還就領域自適應表示法提供了快速教程,涵蓋了正規數學方法以及較新的生成對抗網絡(GANs)。演講者及其核心研究人員開發的基于GAN的方法可以修改合成數據的分布,使之與目標分布相匹配。講座舉例說明了這種方法優于之前的非GAN方法。
佐治亞理工學院的Judy Hoffman教授發表了題為 "從多個數據源進行泛化的挑戰 "的演講。她考慮的問題是在模擬中學習模型,然后將模型應用于現實世界。她指出了四個挑戰: 生成、列舉、泛化和適應。發言人介紹了應對這些挑戰的幾種不同方法。具體來說,用于泛化的特定領域掩碼(DMG)方法通過平衡特定領域和領域不變特征表征來生成一個能夠提供有效領域泛化的單一模型,從而解決多源領域學習問題。
第三場會議的第三位也是最后一位演講者是波士頓大學的Kate Saenko教授,他的演講題目是 "圖像分類和分割的Sim2Real領域轉移的最新進展和挑戰"。Saenko教授延續了前兩場講座的主題,介紹了視覺領域適應的歷史,并探討了領域和數據集偏差問題。在糾正數據集偏差的不同方法中,講座詳細討論了領域適應。特別重要的是,Saenko教授及其合作者開發的技術能夠顯示合成到真實的適應性,就像從游戲引擎到真實數據一樣。隨后的小組討論提出了幾個有趣的問題,包括訓練域和測試域的不同,不是感興趣的對象不同,而是對象所處的環境不同,例如訓練時軍用車輛在沙漠環境中,而測試時則在熱帶植被背景中。
三個主題的分組討論同時進行。在 "人類學習與泛化 "分組討論中,首先討論了 "人類如何學習?"、"ML模型如何模仿人類過程?"以及 "合成數據如何實現這些過程?"等問題。從童年到青春期和成年期,學習和成長之間的關系成為關鍵點。其他被認為有助于人類學習的因素包括人類心理、情感、同時參與多維活動、記憶以及解除學習的能力。
關于 "數據綜合: 方法與驗證 "分論壇確定了數據合成的幾個問題,特別是圖像和視頻。主要問題涉及結合物理學的有用性、視覺外觀保真度與成本之間的權衡、保真度的衡量標準、保真度本身的重要性以及當前技術(包括GANs技術)的局限性。據觀察,合成圖像和視頻生成至少已有幾十年的歷史,但大多數產品要么是為視覺效果而設計,要么是為再現物理測量而設計(例如,紅外模擬中的輻射剖面)。它們并不適合用于ML培訓。提出的另一個問題是,合成的二維圖像必須與物體和環境的底層三維幾何圖形保持一致。還有人提出,能夠在特定的感興趣的環境中生成大量合成數據,可以作為第一道工序測試新的人工智能和ML方法,而不管這些方法是否能夠在真實數據中很好地工作。
專題3 "領域轉移挑戰 "的分組討論確定了MDO所需的關鍵人工智能能力,即從孤立學習到機器與人類之間的聯合或協作學習。會議還討論了在多種數據模式下同時訓練ML的聯合學習。人們認識到,這些領域的工作才剛剛開始。分組討論的牽頭人強調,需要向士兵明確說明基于人工智能的系統在特定情況下將會做什么。這引發了對系統魯棒性的討論。分組組長向ASPSM聽眾提供了討論摘要。
根據本次ASPSM的討論,我們確定了以下值得陸軍進一步進行科技投資的領域:
1.支持多模式互動學習的合成技術和數據集。與當前流行的捕捉 "時間瞬間 "的靜態數據集(如農村環境中的車輛圖像)相比,有必要開發更能代表支持持續學習的體現性體驗的模擬器,就像我們在人類身上看到的那樣,并實現對世界更豐富的表征。混合方法(如增強現實)也可將人類監督的優勢與合成環境的靈活性結合起來。
2.學習和合成因果關系和層次關系的算法和架構。最近的一些方法,如基于圖的卷積神經網絡,已經在學習空間和時間的層次關系(如物體-部件和因果關系)方面顯示出前景。鑒于在現實世界中收集和注釋此類數據的復雜性,合成數據的生成可能特別有用。識別層次關系是一般國防部和戰場情報分析的關鍵要素。
3.支持持續、增量、多模態學習的算法和架構。深度強化學習方法被成功地用于訓練虛擬或機器人代理的相關行動策略,如捕食者與獵物之間的相互作用。基于模仿的方法承認學習的社會性,通常讓代理與(通常是人類)教師合作學習新策略。這些類型的交互式持續學習可進一步與多模態學習(即融合來自多個傳感器的數據)相結合,以實現更豐富的世界表征,使其更穩健、更具通用性。同樣,在這一領域難以獲得大量經過整理的數據,這也為探索合成引擎提供了動力。
4.學習物理或具備相關物理領域知識的算法和架構。在許多領域(例如紅外光下的物體感知),從圖像感知和合成圖像需要了解世界的基本物理特性,例如光與材料之間的相互作用。然而,當前的深度學習模型缺乏這種物理知識。開發賦予ML物理領域知識的技術對這些系統的性能至關重要。
5.具有豐富中間表征的領域適應技術。為了縮小真實數據和合成數據之間的領域差距,必須進一步推動當前建立領域不變中間表征的趨勢,特別是使用語義詞典和生成式對抗網絡。能夠理解數據底層結構(如光照、旋轉、顏色)的表征更有可能成功抽象出合成數據中不重要的細節。
6.深入了解ML模型內部表征的方法,以及合成表征與真實表征的比較。網絡剖析技術 "打開 "了深度學習模型的隱藏層,允許解釋網絡中的每個階段正在學習哪些特定概念或其更細的方面。這些技術揭示了具有真實輸入和合成輸入的DNN的內部表征,有助于識別所學內容的關鍵差異,從而找到克服這些差異的解決方案。
為期兩天的虛擬ASPSM吸引了眾多美國防部科學家和工程師、頂尖學術專家以及科技項目管理人員的熱情參與。多學科的討論強化了這樣一種觀點,即開發用于訓練ML方法的生成合成數據的改進方法與理解和改進ML方法本身是分不開的。一個特別重要的需求是了解ML方法,尤其是當前的學習架構,是如何創建場景的內部表示的。另外兩個重要領域是:1)理解人類學習與ML世界中可能存在的學習之間的異同;2)多模態數據--從合成和ML的角度。我們預計近期國防部和學術研究人員將在本報告確定的領域加強合作。
監督下的深度學習算法正在重新定義目標檢測和分類的最先進技術。然而,訓練這些算法需要大量的數據集,而收集這些數據集通常是昂貴和耗時的。在國防和安全領域,當數據具有敏感性質時,例如軍用船只的紅外圖像,這可能變得不切實際。因此,算法的開發和訓練往往是在合成環境中進行的,但這使人懷疑解決方案對現實世界數據的通用性。
在本文中,我們研究了在不使用真實世界的紅外數據的情況下訓練紅外自動目標識別的深度學習算法。使用目標-導彈交戰模擬軟件和10個高保真計算機輔助設計模型,生成了一個長波紅外波段的海上船只紅外圖像的大型合成數據集。探索了訓練YOLOv3架構的多種方法,并隨后使用真實世界紅外數據的視頻序列進行了評估。實驗表明,用少量的半標記偽紅外圖像樣本來補充訓練數據,可以明顯提高性能。盡管沒有真實的紅外訓練數據,但在我們的真實世界測試數據上,平均精度和召回率分別達到了99%和93%的高分。為了進一步推動自動目標識別算法的發展和基準測試,本文還提供了我們的照片真實合成紅外圖像數據集。
具有高度自主性的軍事系統發展帶來了許多作戰優勢。這些系統通常是高度協作的,并允許優化對復雜問題的多效應對。人工智能,包括深度強化學習,有助于提高這些系統的效率。這項工作提出了一個與信任這些算法有關問題的綜合觀點,并提出了一些改善人機信任的準則。這項工作是在由歐盟資助的30個合作伙伴歐洲財團委托編寫的報告框架內完成的。
法國和英國在2010年啟動了一項計劃,評估和開發 "海上反水雷"(MMCM)能力,包括在與母艦安全距離外遠程操作的無人系統。通過持續化解靜態水下威脅,這些系統將提供戰略、行動和戰術上的機動自由,確保海上力量的安全投送,包括在海峽等高風險地區。
MMCM計劃的目標是提供一種新的敏捷的、可互操作的和強大的水雷戰能力。它將有助于在現有水雷戰艦退役時取代它們。這一雙邊計劃于2010年底根據法國和英國之間的《蘭開斯特宮條約》正式啟動。在2018年1月的法國/英國峰會上,法蘭西共和國總統和英國首相申明了他們打算迅速將該系統投入作戰服務[13]。
特別是,在2020年測試了四種作戰方案,分別采用了:一個水面無人機及其探測聲納、一個拖曳聲納、兩個水下無人機和一個水下滅雷機器人。前兩種情況主要是隨著任務的進行對威脅進行探測、分類和定位,其次是通過與前一次任務的數據進行比較來改變探測結果,最后是重新定位和識別幾枚地雷并解除其中一枚地雷。
該計劃的核心是在水下環境中自主發展的能力。這種自主性是通過使用人工智能算法,特別是DRL來實現的,以便自主地將無人機從母艦上移開[14]。盡管水下無人機必須能夠自主行動,但仍有許多人機互動:任務準備、驗證地雷分類和實時任務監測、授權投擲炸藥。這種人機互動是由MMI(人機界面)實現的,比如你會發現下面這個界面。
有一些項目旨在優化這些關系并建立信任關系:例如,泰雷茲國防任務系統公司DxLab的AR{iA}NE項目,旨在顯示操作者和人工智能之間可以有真正的互動[14]。人工智能在這里由控制臺的下半部分代表。它的突出顯示取決于性能指數:這就是人工智能以非常直觀的方式與操作者交流的方式。這個演示設備是為工業展覽準備的。它的設計經過特別考慮,給人以未來主義的印象,讓客戶感覺到他正在與人工智能進行交流。該控制臺集成了一個軟件分析界面,為聲納數據的利用提供了實質內容,因此非常適用于研究人機互動,更確切地說,是人機互動。
國防公司,如泰利斯、空客和MBDA,正在開發項目,旨在提供反無人機(UAV:無人機)解決方案。商用無人機的擴散化和相當便宜的價格引發了安全和保障問題。例如,在無人機和飛機之間發生了一些事件,還有一些情況,如跨越邊界和在監獄中走私貨物(武器、毒品),或向目標運送爆炸物。這些公司提出了智能解決方案,可以檢測無人機,但也可以通過高度的自主性和人類的環形控制來消除它們。這些系統可以對敵方目標進行探測、識別、定位和消滅。反無人機問題被概念化,并通過以下步驟得到部分解決[16]:
最新項目的目標是創建和展示一個完整的反無人機系統,能夠解決上述六個步驟,并整合兩個主要部分,一個地面部分和一個空中部分。地面部分可由一個作為指揮和控制站的地面控制站和一些地面傳感器組成,其數量和在空間的分布可根據需要和保護空間的配置進行調整。空中部分可以由盟軍無人機隊組成,這些無人機可以是相同的,具有類似的能力(同質蜂群),也可以具有不同的能力,每個都有一套獨特的專長(異質蜂群)。擁有一個空中段提供了兩個優勢。首先,在傳感方面,它使系統具有盯住目標的能力,可能為人類操作員提供實時視覺反饋,但也能對敵方無人機及其有效載荷進行更詳細和有效的分類和識別。第二,在消滅方面,它應該允許防御者部署更多的外科手術式的反措施,特別是避免過多的附帶損害或不想要的副作用。許多國防公司正在為中和部分開發智能DRL解決方案[17],以便在盟軍無人機群中做出自主決定。DRL算法也可用于指揮和控制站,以監測整體作戰情況。
未來戰斗航空系統(FCAS)是一個 "系統簇",它涉及到新一代戰斗機(NGF)、遠程航母(RC)和一個將所有參與者連接在一起的戰斗云系統: NGF、RC群、衛星、戰艦、地面系統等。
遠程運載器是用來做什么的?設想的應用是非常多樣的:通過幾十架飛機的飽和來穿透敵人的防御,誘騙敵機,執行電子戰任務(干擾),為其他飛機指定目標,執行偵察任務,甚至發射導彈而不是作戰飛機。這些新型機組成員為未來幾十年的空中行動開辟了一個巨大的可能性領域:用無人機代替戰斗機發射導彈,這樣就不會有飛行員的生命危險,騷擾敵人的防線,執行偵察任務,等等。這些設備也可以假裝成駕駛飛機,吸引敵人的巡邏隊,為作戰飛機打開缺口。在遠程載具的核心,制造商正在開發人工智能算法,特別是DRL[18],以控制每架無人機,但也控制無人機群。DRL算法出色的適應性在這里被用來管理高層和自主決策。
"系統簇"的非常高的互連性也要求建立一個抗網絡攻擊的戰斗云。這些攻擊確實可以破譯通信以獲取情報,甚至干擾或破壞通信,或者更糟糕的是,向半自主系統發出錯誤指令。DRL算法可用于應對正在進行的網絡攻擊。這些攻擊確實可以快如閃電,而人類沒有能力做出足夠快的反應。因此,必須使用智能自動系統來抵御攻擊。DRL似乎再次成為快速、自主和適應性行動的良好解決方案[19]。
正如我們所說,在自主系統中使用人工智能有很多問題:倫理、法律、政治等等。這就是為什么有必要在這場技術革命的不同參與者之間建立一種信任關系,從研究人員到用戶和工程師。
數學上的保證。為了確保我們提出的技術解決方案的可靠性,最好能在理論上和數學上保證算法的性能。然而,重要的是要記住,有關的保證在性質上是概率性的,因為大多數ML算法的性質是不確定的。因此,我們將試圖證明,例如,如果該算法有無限量的訓練數據可供支配,它就能夠完成提交給它的任務。或者,人們可能會試圖證明該算法收斂到一個解決方案,而且幾乎可以肯定它是以一個已知的和可控的速度收斂的。這種類型的結果保證存在于許多經典的ML算法中,用于解決某些簡單的問題,并受制于關于訓練和測試數據的某些假設。人工智能的整個研究領域都是關于知道什么是或不是可以通過ML學習的問題,以及什么精度:可能是近似正確的學習[20]。在RL方面還有很多工作要做,它仍然是一種年輕的技術,但理論上的保證越來越多[21]。然而,這些理論結果一般都是基于非常強的假設,這些假設往往是還原性的,并沒有考慮無人機在實踐中使用的非常真實的環境,這有時會使它們不那么相關。
可解釋人工智能。第二個軸心是要建立對人工智能所支配的自主系統的信任,即其行動的可解釋性。當我們可以理解導致人工智能獲得結果的原因時,一個算法被認為是可解釋的。一般來說,目前可解釋的ML算法(XAIs)能夠報告相對簡單的決定,例如指出圖像的哪些區域被用來確定它是一個蘋果。關于RL,為算法的可解釋性設想了幾條途徑。
讓我們細化前面的觀點,像一些作者那樣考慮人工智能算法的區別,這些算法不僅是可解釋的,而且是可解釋的。事實上,為了解釋它們的推理,已經建立了一些后驗算法,但它們并不能幫助理解初始算法的 "黑匣子"。出于這個原因,人們正在對可解釋的人工智能方面進行研究,這樣就可以說明導致輸出的不同推理步驟[24]。即使DRL算法的參數數量非常大,仍然是廣泛實施這種方法的技術障礙,但可以預期在這個領域會有明顯的進展。
對受DRL支配的自主系統有信心的第二個論據是測試期間的性能測量。事實上,即使目前關于人工智能可解釋性的知識狀況不允許完美地理解算法是如何達到其輸出的,但實踐中的結果是好的,表明有非常大的發展潛力。
對其他問題進行歸納的能力。首先,用戶對人工智能技術的信心可以建立在算法解決其他問題的良好能力上,或多或少有些類似。例如,眾所周知,Deepmind的AlphaFold 2 DRL算法在預測蛋白質結構方面特別出色[25]。這種優秀的聲譽源于該算法的大量已發表的測試研究,這讓該領域的大多數科學家對其給予了極大的肯定。雖然蛋白質結構預測與自主無人機的使用無關,但將蛋白質中單個原子的放置與無人機在協作作戰任務中的放置相提并論是很容易和有意義的。在前一種情況下使用DRL,以及所獲得的結果,也有可能使最終用戶對DRL應用于另一個領域的潛力充滿信心。
算法驗證。然而,與經典的ML算法不同,不可能在RL中實現我們在第一部分討論的驗證測試。這是因為所涉及的數據是隨時間變化的,而且所提出的問題也是不同的。要限定所識別的對象是否被正確預測是很容易的(是的,它是一個蘋果,或者不是,它是一個梨子)。另一方面,量化無人機和飛機之間合作的成功要微妙得多:許多標準必須被評估(無人機的定位、它們的速度、它們不同行動的時間)。因此,RL算法的性能測量是通過建立針對要解決的任務的指標來完成的。例如,對于負責訪問一個空間區域的無人機來說,比較正確識別目標的比例、任務完成時間或其他更精確的指標是相關的,這取決于情況和要解決的具體問題。
爭取在RL中實現更好的可重復性。最近還強調了RL算法的一個臭名昭著的問題,即當一些研究人員想要復制他們同事的結果時,一些算法的不穩定性[26]。實驗的可重復性是科學中的一個基本問題,因為它構成了被測試定律(例如,萬有引力定律)的有效性證明。在這里,算法性能的證明之一是可以讓它多次承受相同的情況,并在不同的迭代中獲得非常相似的結果。為了克服缺乏可重復性的問題,新的算法開發框架、新的測試程序和明確的指導方針已經到位,使科學和開發團隊對他們的結果有了更大的信心。
優化人機互動
人機協作是現代(協作)戰爭的核心,但人類和智能機器之間的成功協作主要取決于信任。然而,安全與新興技術中心對自主性和人工智能相關的研究[27]發現,在美國軍方的科技項目投資中,789個自主性相關項目中只有18個,287個人工智能相關項目中只有11個提到 "信任 "一詞。研究人員沒有直接研究信任,而是將開發更透明、可解釋和可靠的人工智能作為優先事項。這些努力對于培養人機團隊的信任是必要的,但技術驅動的解決方案并不總是考慮這個等式中的人類因素。
對高性能技術的不充分信任會導致人工智能系統的使用不足或廢棄,而對有限的或未經測試的系統的過度信任會導致對人工智能的過度依賴。這兩種情況在軍事背景下都有獨特的風險,包括事故、友軍交火、對平民的意外傷害和附帶損害。為了讓士兵對自主系統有信心,他們必須知道系統在遇到障礙物時將會做什么。從系統工程的角度來看,這意味著要指定和實施一些能力,如通過假設查詢和信息交流進行信息檢索,以便系統能夠以人類操作者容易理解的方式解釋其推理和行為。換句話說,"在系統中建立信任 "是一種以技術為中心的方法,通過改善與信任密切相關的系統特性和能力,如透明度、可解釋性和可靠性,來建立人機團隊的信任。
DARPA的Squad X計劃[28]將美國陸軍和海軍陸戰隊的步兵小隊與配備先進傳感設備的無人地面和空中飛行器配對,以提高敵對環境中作戰人員的態勢感知和決策。X小隊在2019年初進行的一系列實驗[29]的主要收獲之一是,將人工智能納入任務的規劃和演練階段非常重要。這樣做,士兵可以 "在如何信任人工智能方面進行搏斗"。最終,目標是讓人類作戰人員更好地了解這些自主系統在戰場上的表現,并對它們作為未來任務中的伙伴更有信心。
要怎樣才能讓人們信任技術?在使用先進系統時,一些個人或群體是否更有可能感到自信,而另一些人則更不情愿?人機團隊的部署環境如何影響信任?認知科學、神經科學、心理學、通信、社會科學以及其他研究人類對技術的態度和經驗的相關領域的見解為這些問題提供了寶貴的啟示[30]。
解決道德問題
"殺手機器人 "一直引起人們對潛在自主能力的恐懼[31]。法國國防倫理委員會在2021年批準在武器系統中引入一定程度的自主能力[32]。在法國,沒有辦法授權 "殺手機器人"。這一表述指的是LAWS(致命性自主武器系統)。這只是證實了法國幾年來在這個問題上的立場。但事情很復雜,倫理委員會認為不反對引入一定程度的自主權,因此不反對使用PAWLS(部分自主武器致命系統)。將LAWS與PAWLS區分開來的是 "性質上的差異,這與人類在某些關鍵功能中的地位有關"。致命武器系統的設計是為了演化出自己的操作規則,并自行重新定義其任務。它們不需要指揮部對情況的評估。PAWLS可以自主地被賦予某些任務的責任和執行,但只是暫時的,而且只用于識別、分類、攔截或接觸任務。道德委員會明確表示,它不能在沒有人類控制的情況下采取致命的舉措。即使在這個限制性框架內,也必須制定技術和組織保障措施,以防止任何過度行為。委員會認為,應繼續在與國防有關的人工智能和武器系統自動化領域進行研究。其目的是避免任何 "科學和技術上的放棄",防止對手開發致命性自主武器,并在對手使用這種武器時進行防御。
自主系統不應
G1. 為自主軍事系統上嵌入式人工智能的操作使用案例制定并提供一個法律框架。
G2. 確保在所有情況下都有人類的監督,有人類在環形系統。
G3. 保證在發生事故時的責任追溯。這種責任必須始終由人承擔,而不是由機器承擔。
G4. 開發符合人體工程學的人機界面,允許人與機器之間的對話和理解。
G5. 開發穩健、安全、準確、可重復和可靠的算法,以及評估這些標準的方法。
G6. 為與人工智能互動的軍事人員建立培訓計劃,讓他們了解這些算法的機制、能力和局限性。
G7. 通過對算法、數據和設計過程的評估,確保責任、問責和可審計性。
G8. 制定技術評估程序,以評估對上述準則的遵守情況。
G9. 加快歐洲在人工智能技術方面的培訓工作,特別是針對學術和工業環境的DRL。
G10. 加快歐洲在整合人工智能的國防系統方面的立法工作,以保持歐洲在這一法律方面的領先地位,并確認其在這一領域的領先形象。
G11. 發展國際合作,在自主系統領域進行立法。
G12. 促進研究人員、哲學家、律師、政治家和業務人員之間關于自主系統的對話。
G13. 在有關國防人工智能的研究和應用項目中始終包括信任的概念。
G14. 對協同作戰的未來利害關系有一個明確而具體的看法,以便將人和他們的利益置于系統的中心。
現代戰爭越來越多地在信息環境中進行,通過開源媒體使用欺騙和影響技術。北約國家的政府、學術界和工業界已經通過開發各種創新的計算方法,從大量的媒體內容中提取、處理、分析和可視化有意義的信息來做出回應。然而,目前仍不清楚哪些(組合)工具能滿足軍事分析人員和操作人員的要求,以及是否有些要求仍未得到滿足。為此,加拿大DRDC和荷蘭TNO啟動了一項合作,以開發一個標準化和多方位的媒體分析需求圖。本文介紹了該合作的第一階段所完成的工作。具體來說, (1) 開發了一個可能的媒體分析工具功能框架;(2) 收集了CAN和NLD利益相關者的當前用戶需求;以及(3) 分析了差距,以顯示哪些用戶需求可以通過哪些功能來滿足。這個項目直接建立在SAS-142的基礎上,通過使用互聯網開發科學和技術評估框架(FIESTA)。本文說明了FIESTA在兩個突出的媒體分析能力中的應用:(1)情緒分析和(2)敘事分析。研究結果表明,盡管這些能力有一些獨特的功能,但它們有非常多的共同功能。因此,研究和開發工作可以通過專注于獨特(新穎)的功能,同時回收多用途的功能而得到優化。通過將FIESTA應用于多種媒體分析能力并與多個北約國家合作,這些效率的提高可以成倍增加。
在過去的幾年里,人工智能(AI)系統的能力急劇增加,同時帶來了新的風險和潛在利益。在軍事方面,這些被討論為新一代 "自主"武器系統的助推器以及未來 "超戰爭 "的相關概念。特別是在德國,這些想法在社會和政治中面臨著有爭議的討論。由于人工智能在世界范圍內越來越多地應用于一些敏感領域,如國防領域,因此在這個問題上的國際禁令或具有法律約束力的文書是不現實的。
在決定具體政策之前,必須對這項技術的風險和好處有一個共同的理解,包括重申基本的道德和原則。致命力量的應用必須由人指揮和控制,因為只有人可以負責任。德國聯邦國防軍意識到需要應對這些發展,以便能夠履行其憲法規定的使命,即在未來的所有情況下保衛國家,并對抗采用這種系統的對手,按照其發展計劃行事。因此,迫切需要制定概念和具有法律約束力的法規,以便在獲得利益的同時控制風險。
本立場文件解釋了弗勞恩霍夫VVS對當前技術狀況的看法,探討了利益和風險,并提出了一個可解釋和可控制的人工智能的框架概念。確定并討論了實施所提出的概念所需的部分研究課題,概述了通往可信賴的人工智能和未來負責任地使用這些系統的途徑。遵循參考架構的概念和規定的實施是基于人工智能的武器系統可接受性的關鍵推動因素,是接受的前提條件。
以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言
在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。
盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。
**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:
**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。
安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。
**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。
**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。
具體而言,我們的貢獻總結如下:
據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。
創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。
3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。
人工智能(AI)是一項具有廣泛用途的新興技術。《美國防戰略》強調了人工智能對軍事行動的重要性,以使美國保持對其近似競爭對手的優勢。為了充分實現這一優勢,不僅要在戰術層面,而且要在戰爭的作戰層面整合人工智能。人工智能可以最有效地融入作戰計劃的復雜任務,方法是將其細分為其組成部分的作戰功能,這些功能可以由狹義的人工智能來處理。這種組織方式將問題減少到可以由人工智能解析的規模,并保持人類對機器支持的決策的監督。
人工智能是一套新興的、變革性的工具,有可能幫助軍事決策者。美國國家戰略將人工智能(AI)納入戰爭。《2020年國防授權法》11次提到了人工智能。國防戰略強調了利用人工智能和機器學習方面的商業突破的重要性。人工智能的軍事用途是保留國家安全的一個引人注目的方式。創造工具來支持戰術行動,如摧毀敵軍和從一個點導航到另一個點,具有顯著和可見的效果,使他們在資源有限的環境中在政治上可以接受。它們在訓練和測試方面的可重復性,使它們在采購過程中成為人工智能系統的快速贏家。然而,戰術行動的范圍和時間是有限的。僅在戰術層面上整合人工智能,忽視了在作戰層面上發生的決定性影響。
作戰,也就是實踐者將戰術行動轉化為戰略效果的層面,取決于領導者做出正確決策的能力。聯合部隊海事部分指揮官(JFMCC)的艱巨任務是制定計劃,將戰區戰略和聯合部隊指揮官(JFC)的目標結合起來,通過決定性的海軍交戰來塑造環境。在人工智能的快速認知能力的幫助下,JFMCC將能夠制定并更徹底地分析行動方案(COA)。這些品質對于未來的沖突是必要的。
人工智能必須在戰爭的各個層面進行整體集成,以充分實現其優勢。除了局部的、短期的戰斗,它還需要應用于主要的行動和戰役,涉及整個戰區的數月或數年。在戰爭的戰役(作戰)層面上的實施,放大了為實現戰略目標而進行的有序交戰和同步行動之間的協同作用。除了技術發展之外,行動上的整合將刺激政策和理論的建立,以使作戰人員有意愿使用人工智能。隨著使用人工智能的經驗的增加,其采用率也會增加。為協助海軍作戰計劃而實施的特定人工智能技術可能與那些用于計算射擊方案或在被拒絕的淺灘水域規劃路線的技術不同。然而,在作戰層面的接受度將推動戰術上的使用。
在JFMCC層面,人工智能系統網絡將為決策者提供決定性的優勢,將專注于作戰功能的獨立的人工狹義智能(ANI)單位統一起來將實現最顯著的好處。首先,人工智能解決方案比它們的通用人工智能(AGI)同行更適合于軍事問題的解決。其次,戰爭的性質促使有必要在作戰層面上整合人工智能。最后,雖然有許多方法可以整合,但沿著功能線這樣做會帶來最顯著的好處。不僅在技術意義上吸收人工智能,而且描述其在政策、理論和培訓中的使用,將使海軍能夠充分使用它,并在與我們的戰略競爭對手的競爭中獲得優勢。
目前人工智能在海上行動中的最佳應用是將復雜的海上行動問題分解成子問題,由人工智能來解決,并組合成COA建議。解決小問題的人工智能需要更少的訓練數據,有更直接的邏輯,并且可以連鎖起來解決更重要的問題。麻省理工學院人工智能實驗室前主任羅德尼-布魯克斯(Rodney Brooks)認為,創建動態環境的符號表示是困難的或不可能的。然而,特定任務的智能體可以利用足夠的傳感器數據智能地行動,更重要的是,可以連貫地互動。通過將簡單的活動連鎖起來,失敗的風險很低,更復雜的問題就可以得到解決。多個簡單的行動可以在低認知層平行運行,并將其輸出結合起來,為更高層次的復雜活動提供支持。這種結構的優點是允許軍事工程師開發和訓練人工智能,以首先解決可操作的問題。對人工智能開發者來說更具挑戰性的功能可以保留只由人類決定的方法,直到他們產生解決這些問題的專業知識。與其等待一個完整的系統,部分系統將提供一個臨時的邊際優勢。
鑒于人工智能可以通過將問題分解成更小的決策來最好地解決問題,問題仍然是如何劃分這些問題。重述作戰任務的一個模式是將它們分成作戰功能:指揮和控制(C2)、通信、情報、火力、運動和機動、保護和維持。這些作戰功能為開展有效行動提供了基礎。它們為一個行動提供了采用手段實現其目的的方法。因此,與決定如何實施這些功能以實現目標的決策者一起使用人工智能是很自然的。
如同應用于海上作戰戰爭,最低層的決策支持系統將由感知環境的活動組成:探測艦艇、飛機和潛艇;燃料水平;天氣;以及其他客觀的戰斗空間數據。通過將外部輸入限制在特定的、低層次的任務上,該系統將最大限度地減少對抗性例子或旨在消極操縱自動系統的數據的風險。中間層將把下層的輸出與作戰目標和因素結合起來,如時間、空間和力量的限制,以提供解決問題的方法和作戰功能。由于上層的對抗性數據注入的威脅較小,這些系統可以使用深度學習。深度學習是機器學習的一個子集,它不像其他形式那樣需要高度格式化的數據,但計算成本會更高,而且容易受到欺騙。深度學習將增加這一層的人類互動,并暴露出更復雜的關系。最高層將把C2流程應用于其他六個業務功能,以產生業務建議。中間層的每個功能人工智能將向其他功能人工智能和最高C2層提供建議。中間層的人工智能對復雜的數據和相鄰單位及C2功能的建議進行理解。
如果將中間層人工智能納入規劃和指導、收集、處理、分析和傳播的情報周期,將促進收集資產的更好分配。判斷對有限的收集資產的請求以滿足行動和戰術信息需求是JFMCC關注的一個問題。在收集計劃期間,人工智能可以使用已知的對手軌跡、地點、個人和組織來定義和優先考慮指定的利益區域(NAI)。在執行過程中,人工智能可以根據優先級驅動收集路線,就像企業用它來規劃送貨路線以減少勞動力、燃料和維護成本一樣。采集計劃者可以通過增加對手監視點的位置和范圍來減少反偵查的風險。在C2層面,指揮官和情報官員可以利用收集成果來證明更多的JFMCC收集資產和COA的修改。這種方法適用于其他功能。
人工智能可以在部隊部署不斷變化和對手存在不確定的環境中改善維持能力。相互沖突的要求使如何使用有限的后勤資產來滿足作戰人員的需求的決策變得復雜。后勤單位較低的生存能力促使人們決定是將它們帶入被對手防御系統拒絕的區域,還是將戰斗飛船引離目標。人工智能可以利用軍事和民用運輸的可用性、預先部署的庫存和供應商的響應能力來制定船舶和飛機需求的解決方案。企業利用人工智能準確預測需求,并分辨出影響運輸和倉儲的采購模式。維持型人工智能可以使用這個過程的一個變種,來計劃在高級后勤支持站點(ALSS)或前方后勤站點(FLS)的材料堆放。它可以決定如何以及何時使用穿梭船和站立船來運送到攻擊組。機器學習將使用燃料、食品和武器庫存、威脅環、戰備水平和維修時間來訓練維持人工智能。維持型人工智能可以提供比人類單獨完成的更有效的量化解決方案,并將其反饋給其他功能區和C2高層。
C2層將對來自下層的決定進行仲裁,并提供一個統一的建議。就像一個軍事組織的指揮官一樣,它將把其副手AI的建議合并起來。人工智能過程的早期階段使用傳感器數據和其他客觀信息來確定指揮官的方向;決定行動方案需要建立對戰斗空間的理解,這是一種更高層次的欣賞。戰斗空間的可變性和模糊性將使這一層的人工智能元素最難開發。最終,該系統將作為一個可信的智能體,壓縮指揮官負責的信息量。壓縮的信息減輕了時間有限的決策者工作時的疑慮負擔,使她能夠向下屬單位發出更及時的命令。
圖1說明了基于這些原則的系統的擬議架構。以對手預測為例,許多單一用途的ANI將在最低層結合原始傳感器和單位報告數據。它將評估敵方單位的最可能位置。公司分析評論、社交媒體和論壇發帖的情緒,以確定產品的滿意度。同樣地,這個系統將通過公開的言論和秘密的報告來確定對手的意圖。它將評估當前和歷史天氣模式,以評估氣候對敵人行動的影響。這三個輸入和其他信息將被功能情報ANI用來形成對敵方COA的評估。同樣,火力節點將使用敵人的組成、JFC的優先級和預測的彈藥可用性來產生目標指導。中間層節點將橫向傳遞他們的評估,以完善鄰近的建議,如部隊保護水平。獨立的功能建議也將直接反饋給C2層,以創建整體行動方案。
圖1. 海上人工智能系統的擬議架構
首先,利用聯合人工智能資源的優勢,針對海軍的具體問題修改標準組件。擅長開發軍事人工智能系統的工程師的稀缺性將限制新系統的開發。美國防部的人工智能戰略具體規定了建立通用的工具、框架和標準,以便進行分散的開發和實驗。使用這些現成的組件,為人工智能決策網的所有子系統創建低級別的系統和標準接口。將海軍的資源集中于采購和實施用于海事具體決策的中層和高層系統。避免技術上令人著迷但無效的解決方案,并通過將職能領域的專家與設計團隊相結合來保持解決海事問題的目標。
第二,創建并維護可通過機器學習攝入的作戰數據數據庫,以訓練海軍人工智能。實施能夠在海上作戰中心(MOC)讀取和集中匯總基本作戰數據報告的技術和工藝,如燃料狀態、導彈裝載量。開發記錄和定性評分作戰決策結果的方法,如對手態勢的變化、傷亡修復率和公眾對行動的反應。將輸入與作戰決策和結果聯系起來的數據庫將加速開發符合現實世界標準的系統。
第三,將人工智能的使用納入政策和條令。條令應該編纂人工智能可以被整合到戰爭戰役層面決策中的領域。明確地說,關于情報、行動、火力、后勤、規劃和通信的海軍作戰出版物應說明人工智能在決策過程中產生優勢的地方和方式。描述海上聯合行動的聯合出版物應明確說明如何將JFC的要求解析為JFMCC的AI系統。如果國防部和海軍的政策對指揮官因整合人工智能的決策建議而產生的責任量進行了定性,那么他們在使用人工智能時就可以采取經過計算的風險。讓指揮官和作戰人員掌握使用人工智能的戰術、技術和程序將加速其在艦隊中的應用。
人工智能是有望改變未來幾年戰爭面貌的眾多熱門技術之一。描述其可能性并警告那些在人工智能競賽中落后的人的文章比比皆是。美國防部已經創建了聯合人工智能中心,希望能在人工智能的戰斗中獲勝。人工智能的愿景是使自主系統能夠執行任務、實現傳感器融合、自動化任務以及做出比人類更好、更快的決策。人工智能正在迅速改進,在未來的某一天,這些目標可能會被實現。在此期間,人工智能的影響將體現在我們軍隊在無爭議的環境中執行的更平凡、枯燥和單調的任務上。
人工智能是一種快速發展的能力。學術界和工業界的廣泛研究正在縮短系統訓練時間并獲得越來越好的結果。人工智能在某些任務上很有效,例如圖像識別、推薦系統和語言翻譯。許多為這些任務設計的系統今天已經投入使用,并產生了非常好的結果。在其他領域,人工智能非常缺乏人類水平的成就。其中一些領域包括處理人工智能以前從未見過的場景;理解文本的上下文(理解諷刺,例如)和對象;和多任務處理(即能夠解決多種類型的問題)。今天的大多數人工智能系統都被訓練來完成一項任務,并且只在非常特定的情況下這樣做。與人類不同,它們不能很好地適應新環境和新任務。
人工智能模型每天都在改進,并在許多應用中顯示出它們的價值。這些系統的性能可以使它們在信息戰中展示出非凡的能力,諸如在衛星圖像中識別 T-90 主戰坦克、使用面部識別識別人群中的高價值目標、為開源情報翻譯文本以及文本生成等任務。人工智能最成功的應用領域是那些有大量標記數據的領域,如 Imagenet、谷歌翻譯和文本生成。 AI 在推薦系統、異常檢測、預測系統和競技游戲等領域也非常有能力。這些領域的人工智能系統可以幫助軍方在其承包服務中進行欺詐檢測,預測武器系統何時因維護問題而失效,或在沖突模擬中制定制勝策略。所有這些應用程序以及更多應用程序都可以成為日常操作和下一次沖突中的力量倍增器。
當軍方希望將人工智能在這些任務中的成功經驗納入其系統時,必須承認一些挑戰。首先是開發人員需要獲得數據。許多人工智能系統是使用由一些專家系統(例如,對包括防空炮臺的場景進行標注),通常是人類標注的數據進行訓練。大型數據集通常由采用人工方法的公司進行標注。獲得這種數據并分享它是一個挑戰,特別是對于一個喜歡對數據進行分類并限制其訪問的組織來說。一個軍事數據集的例子可能是由熱成像系統產生的圖像,并由專家進行標注,以描述圖像中發現的武器系統(如果有的話)。如果不與預處理器和開發人員共享,就無法創建有效使用該數據集的人工智能。人工智能系統也很容易變得非常大(因此很慢),并因此容易受到 "維度問題 "的影響。例如,訓練一個系統來識別現有的每一個可能的武器系統的圖像將涉及成千上萬的類別。這樣的系統將需要大量的計算能力和在這些資源上的大量專用時間。而且由于我們正在訓練一個模型,最好的模型需要無限量的這些圖像才能完全準確。這是我們無法實現的。此外,當我們訓練這些人工智能系統時,我們經常試圖強迫它們遵循 "人類 "的規則,如語法規則。然而,人類經常忽視這些規則,這使得開發成功的人工智能系統在情感分析和語音識別等方面具有挑戰性。最后,人工智能系統在沒有爭議的、受控的領域可以很好地工作。然而,研究表明,在對抗性條件下,人工智能系統很容易被愚弄,導致錯誤。當然,許多國防部的人工智能應用將在有爭議的空間運作,如網絡領域,因此,我們應該對其結果保持警惕。
忽略敵人在人工智能系統方面的努力,其靠此擊敗我們,因為這些看似超人類的模型也有局限性。人工智能的圖像處理能力在給定不同于其訓練集的圖像時并不十分強大--例如,照明條件差、角度不對或部分被遮擋的圖像。除非這些類型的圖像在訓練集中,否則模型可能難以(或無法)準確識別內容。幫助我們信息戰任務的聊天機器人僅限于數百個字,因此不能完全取代一次可以寫幾頁的人類。預測系統,如IBM的Watson天氣預測工具,由于它們試圖模擬的系統復雜性,在維度問題和輸入數據的可用性方面很困難。研究可能會解決其中的一些問題,但很少有問題會像預測或期望的那樣迅速得到解決。
人工智能系統的另一個弱點是他們沒有能力進行多任務處理。人類有能力識別敵方車輛,決定對其采用何種武器系統,預測其路徑,然后與目標交戰。這套相當簡單的任務目前對人工智能系統來說是不可能完成的。充其量,可以構建一個人工智能的組合,將個別任務交給不同的模型。這種類型的解決方案,即使是可行的,也會帶來巨大的傳感和計算能力的成本,更不用說系統的訓練和測試了。許多人工智能系統甚至沒有能力在同一領域內轉移他們的學習。例如,一個被訓練來識別T-90坦克的系統很可能無法識別中國的99式坦克,盡管它們都是坦克,而且都是圖像識別任務。許多研究人員正在努力使系統能夠轉移他們的學習,但這樣的系統離實際應用還有長久的時間。
人工智能系統在理解輸入和輸入中的背景方面也非常差。人工智能識別系統并不理解圖像是什么,它們只是學習圖像像素的紋理和梯度。給予具有這些相同梯度的場景,人工智能很容易錯誤地識別圖片的一部分。這種缺乏理解的情況可能會導致作出錯誤分類,例如將湖面上的一艘船識別為BMP,但人類缺不會。
這導致了這些系統的另一個弱點--無法解釋它們是如何做出決定的。人工智能系統內部發生的大部分事情都是一個黑盒,人類幾乎無法理解系統是如何做出決定的。這對于高風險的系統來說是一個關鍵問題,比如那些做出參與決定的系統,或者其輸出可能被用于關鍵決策過程的系統。對一個系統進行審計并了解其犯錯原因的能力在法律上和道德上都很重要。此外,在涉及人工智能的情況下,我們如何評估責任的問題是一個公開研究點。最近,新聞中出現了許多例子,人工智能系統在貸款審批和假釋決定等領域基于隱藏的偏見做出了糟糕的決定。不幸的是,關于可解釋的人工智能的工作多年來一直沒有取得成果。
人工智能系統也很難區分相關性和因果關系。經常用來說明兩者區別的臭名昭著的例子是溺水死亡和冰激凌銷售之間的相關性。一個人工智能系統得到了關于這兩個項目的統計數據,卻不知道這兩個模式之所以相關,只是因為兩者都是天氣變暖的結果,并可能得出結論,為了防止溺水死亡,我們應該限制冰淇淋的銷售。這類問題可能表現在一個軍事欺詐預防系統中,該系統被告知按月采購的數據。這樣一個系統可能會錯誤地得出結論,認為9月份的欺詐行為會隨著支出的增加而增加,而實際上這只是年終消費習慣的一個結果。
即使沒有這些人工智能的弱點,軍方目前應該關注的主要領域是對抗性攻擊。我們必須假設,潛在的對手將試圖愚弄或破解我們使用的任何可獲得的人工智能系統。將試圖愚弄圖像識別引擎和傳感器;網絡攻擊將試圖躲避入侵檢測系統;后勤系統將被輸入篡改的數據,用虛假的需求堵塞供應線。
對抗性攻擊可分為四類:規避、推理、中毒和提取。事實證明,這些類型的攻擊很容易完成,通常不需要計算技能。逃避攻擊試圖愚弄人工智能引擎,往往是希望避免被發現--例如,隱藏網絡攻擊,或說服傳感器相信一輛坦克是一輛校車。未來的主要生存技能可能是躲避人工智能傳感器的能力。因此,軍方可能需要開發一種新型的人工智能偽裝,以擊敗人工智能系統,因為事實證明,簡單的混淆技術,如戰略性的膠帶放置,可以愚弄人工智能。逃避攻擊通常是通過推理攻擊進行的,推理攻擊可以獲得關于人工智能系統的信息,這些信息可以用來實現逃避攻擊。中毒攻擊的目標是訓練期間的人工智能系統,以實現其惡意的意圖。這里的威脅將是敵人獲得用于訓練我們工具的數據集。可能會插入誤標的車輛圖像以愚弄目標系統,或篡改維護數據,旨在將即將發生的系統故障歸類為正常操作。考慮到我們的供應鏈的脆弱性,這將不是不可想象的,而且很難發現。提取攻擊利用對人工智能界面的訪問來了解人工智能的運行情況,從而創建一個系統的平行模型。如果我們的人工智能不被未經授權的用戶所保護,那么這些用戶可以預測我們的系統所做的決定,并利用這些預測為自己服務。人們可以設想對手預測人工智能控制的無人系統將如何應對某些視覺和電磁刺激,從而影響其路線和行為。
人工智能在未來的軍事應用中肯定會有作用。它有許多應用領域,它將提高工作效率,減少用戶的工作量,并比人類更迅速地運作。正在進行的研究將繼續提高其能力、可解釋性和復原力。軍隊不能忽視這項技術。即使我們不擁有它,但我們的對手肯定會發展AI,我們必須有能力攻擊和擊敗他們的AI。然而,我們必須抵制這種重新崛起的技術誘惑。將脆弱的人工智能系統放置在有爭議的領域,并讓它們負責關鍵的決策,這將為災難性的結果打開了機會。在這個時候,人類必須繼續負責關鍵決策。
鑒于我們暴露的人工智能系統被攻擊的概率很高,以及目前人工智能技術缺乏彈性,投資軍事人工智能的最佳領域是那些在沒有爭議的領域運作的人工智能。由人類專家密切監督或具有安全輸入和輸出的人工智能工具可以為軍隊提供價值,同時減輕對漏洞的擔憂。這類系統的例子有醫學成像診斷工具、維修故障預測應用和欺詐檢測程序。所有這些都可以為軍隊提供價值,同時限制來自對抗性攻擊、有偏見的數據、背景誤解等等的風險。這些并不是由世界上的人工智能推銷員贊助的超級工具,但卻是最有可能在短期內獲得成功的工具。
保羅-麥克斯韋中校(退役)是美國軍事學院陸軍網絡研究所的計算機工程網絡研究員。他在服役的24年中曾是網絡和裝甲部隊的軍官。他擁有科羅拉多州立大學的電子工程博士學位。
所表達的觀點僅代表作者本人,不反映美國軍事學院、陸軍部或國防部的官方立場。