本報告介紹了人工智能(AI)算法及其在人機交互(HRI)背景下的聽覺應用。為聽覺感知選擇的人工智能算法最終會對計算的透明度、系統行為的可解釋性以及最終的HRI的質量產生影響。應用于聽覺感知的人工智能算法包括由軟件系統感知和處理的聲音,以及由軟件系統發出的、旨在被人類聽眾識別的語音。一些主要的人工智能算法類別,特別是神經網絡、深度學習、隱馬爾科夫模型和混合模型,將在機器的語音處理方面進行審查。此外,每一類算法對透明度和HRI的影響也將被討論。最近在人工智能算法開發方面的工作表明,混合模型可能是語音處理的最佳方法,因為它們被推薦用于復雜的數據處理和決策。混合模型融合了各種方法,以最大限度地提高效益,同時盡量減少多種技術的局限性。報告的最后一節中包括了一系列的一般性建議。
大數據、人工智能和機器學習代表了當今最前沿的一些技術,并可能成為未來幾十年甚至更久的主導技術。大多數專家都認為,人工智能的發展將比1879年電力發明以來的任何技術都更能改變我們的生活,這一點通常被稱為人工智能或簡稱AI。
可悲的是,在人工智能和無人系統(或用老話說的 "機器人")的編隊協作問題上,熱度遠遠高于光度,其中大部分是由大眾媒體推動的。普通大眾被不斷喂食關于 "壞"機器人的書籍和電影(例如《世界大戰》、《終結者》),甚至是關于 "好"機器人叛變的書籍和電影(例如《2001:太空漫游》和《機器之家》),普遍擔心今天的機器人--使用人工智能的無人駕駛機器--將以我們在2021年只能模糊感知的方式來主宰我們的生活。
當涉及到人工智能的軍事應用時,這些擔憂就會變得異常強烈。許多人表示擔心,美國軍方可能會失去對其無人系統的控制,特別是其武裝的無人系統。這些擔心已經表現在許多方面,最明顯的是谷歌停止了美國國防部的算法戰爭跨功能團隊的工作,也就是所謂的Maven項目。這尤其令人擔憂,因為Maven項目與武裝無人系統毫無關系。
在許多國家,關于人工智能的軍事用途的對話已經變得尖銳,并阻礙了人工智能在美國軍事武器系統中的有效插入。當人工智能、自主性、無人駕駛和武裝在同一個句子中使用時,這些擔憂被放大了。同時,美國的同行競爭者,中國和俄羅斯,認識到了人工智能在控制他們自己的社會以及其他社會方面的價值,并且正在投資數千億于人工智能,其中大部分是為了給他們的軍隊提供一個與美國軍隊不對稱的優勢。
此外,也許更重要的是,由于今天的戰爭速度往往超過了人腦做出正確決定的能力,美國軍隊需要大數據、人工智能和機器學習,以使其作戰人員在戰斗中獲得優勢,特別是在決策領域。美國軍隊--以及其他國家的軍隊--曾發生過決策者在正確的時間沒有得到正確的信息,來支持時間緊迫的作戰決策而導致悲劇發生的一些情況。
重要的是要注意到,做出這些次優決策的軍事人員在手頭的工具下做了他們能做的最好工作。發生的情況是,戰爭的速度往往超過了人腦做出正確決策的能力。事實上,正如美國陸軍研究實驗室首席科學家亞歷山大-科特博士在一次指揮和控制會議上所說:"人類的認知帶寬將成為戰場上最嚴重的制約因素。"
直到最近,將強化決策提高到新水平的技術根本不存在。今天,它確實存在,而且利用大數據、人工智能和機器學習能夠為作戰人員提供的東西,很可能導致海戰的下一個突破,特別是在決策領域。海軍太平洋信息戰系統中心與海軍研發界、工業界和學術界的合作伙伴一起,正在領導各種努力,以確保美國作戰人員有能力以更少的人和更少的錯誤做出更好的決策。
21世紀在世界秩序、地緣政治和戰爭方式方面迎來了巨大的變化。正如美國國家情報委員會的頂點出版物《全球趨勢:進步的悖論》所說:
《全球趨勢:進步的悖論》指出,未來五年,國家內部和國家之間的緊張局勢將不斷加劇。全球增長將放緩,就像日益復雜的全球挑戰即將到來一樣。范圍越來越廣的國家、組織和有能力的個人將塑造地緣政治。無論好壞,新出現的全球格局正在結束冷戰后美國占主導地位的時代。以公眾期望的方式進行國際合作和治理將變得更加困難。Covid-19危機放大了這些困難,暴露了國際合作的極限。擁有否決權的人處處威脅要阻止合作,而信息回音室效應將強化無數相互競爭的現實,破壞對世界事件的共同理解。因此,未來幾年發生沖突的幾率將比近期任何時候都要高。
這一評估在美國國家情報局局長的《世界范圍內的威脅評估》中得到了再次確認,其中部分內容指出。"隨著大國和地區侵略者利用復雜的全球趨勢,同時適應美國外交政策的新優先事項,各國之間的競爭將在未來幾年內增加。國家間沖突的風險,包括大國之間的沖突,比冷戰結束以來的任何時候都要高。"雖然現在評估Covid-19大流行病的全面影響還為時過早,但初步跡象表明,這場危機加劇了美國與其同行競爭對手之間的緊張關系。
2021年,美國仍然在世界各地參與活動。國家安全戰略涉及對美國安全和繁榮的廣泛威脅。這些威脅包括從中國和俄羅斯這樣的高端同行競爭對手,到朝鮮和伊朗,以及以伊黎伊斯蘭國為代表的恐怖主義的持續威脅。在里根國防論壇上的國家安全戰略預演中,當時的國家安全顧問麥克馬斯特將軍強調了這些威脅,并再次確認了前政府的 "4+1戰略",將俄羅斯、中國、伊朗和朝鮮這四個國家以及 "+1"--恐怖分子,尤其是ISIL--列為美國今天必須應對的緊迫威脅。
國際安全范式的這一巨大變化的程度怎么強調都不過分。引起這一新焦點的原因并不神秘,那就是與中國和俄羅斯的大國競爭。事實上,《國家安全戰略》提出了保護美國人民和維護他們的生活方式、促進繁榮、通過實力維護和平以及提升美國在世界上的影響力的戰略愿景。值得注意的是,這個新的、發達的戰略代表了與以前版本的巨大轉變,以前的版本側重于安全、繁榮和國際秩序這三大支柱,都是一些沒有什么具體內容的理想。這個新的國家安全戰略強化了美國對中國和俄羅斯的立場,拋棄了 "朋友 "和 "伙伴 "的字眼,取而代之的是 "修正主義國家 "和 "競爭對手"。
《國防戰略》進一步發展了《國家安全戰略》中提出的主題,更直接地處理了對美國安全和繁榮的威脅。這份文件指出,美國面臨的核心挑戰是被《國家安全戰略》歸類為修正主義大國的長期戰略競爭的重新出現。它指出,越來越明顯的是,中國和俄羅斯想要塑造一個符合其“獨裁”模式的世界--獲得對其他國家的經濟、外交和安全決定的否決權。《國防戰略》發表后不久,美國防部高級官員從詞典中刪除了 "4+1戰略 "一詞,現在以 "2+3戰略 "的方式談論,以承認俄羅斯和中國構成的生存威脅。美國防部領導人已經公開表示,"中國是第一,俄羅斯是第二"。此外,他們還說,俄羅斯仍然是我們最大的近期安全挑戰,而中國是我們最大的長期挑戰。
這份國防戰略繼續說:"與中國和俄羅斯的長期戰略競爭是國防部的主要優先事項,需要增加和持續的投資,因為它們今天對美國的安全和繁榮構成了巨大的威脅,而且這些威脅在未來可能會增加。"
國會研究服務處的一份文件《向國會提交的關于大國競爭和國防的報告》中描述了這種急劇變化的戰略格局。以下是這份報告對今天的戰略環境的描述:
國際關系的后冷戰時代--始于20世紀90年代初,有時被稱為單極時刻(美國是單極大國)--在2006-2008年顯示出消退的初步跡象,到2014年已經讓位于與中國和俄羅斯重新開始的大國競爭以及這兩個國家和其他國家對二戰以來美國主導的國際秩序要素的挑戰,這是一種根本性的不同情況。
在奧巴馬政府2015年6月的《國家軍事戰略》中,大國競爭的恢復與其他考慮因素一起被承認,并被置于特朗普政府2017年12月的《國家安全戰略》(NSS)和2018年1月的《國防戰略》(NDS)的中心位置。2017年12月的NSS和2018年1月的NDS正式調整了美國國家安全戰略和美國國防戰略的方向,明確將主要精力放在與中國和俄羅斯的大國競爭上。國防部(DOD)官員隨后將對抗中國的軍事能力確定為國防部的首要任務。
國會研究處隨后的一份報告《國防初探:地理、戰略和部隊設計》強調了將美國的戰略重點轉向這兩個歐亞大國的重要性,指出:
以下是《紐約時報》的一篇社論如何看待美國面臨的長期挑戰問題。"冠狀病毒可能幾乎改變了一切,但它并沒有改變這一點。美國面臨的全球挑戰還在繼續,美國的對手在測試極限,看看他們能在最小的反擊下取得什么成果。"
雖然通常留給更高級別的文件,但美國海軍的《維持海上優勢的設計2.0》也強調了這種同行(而且明顯不再是 "近鄰")競爭的首要重要性,指出:"中國和俄羅斯正在部署其國家力量的所有要素以實現其全球“野心”......中國和俄羅斯試圖以對自己更有利的條件重新定義整個國際體系的規范"。
邁克爾-吉爾德伊上將在就任美國海軍作戰部長后的指示中,強調了這種對高端作戰的需求,以及與美國海軍陸戰隊整合的重要性,在他的FRAGO 01/2019中指出:"我們將確保作戰能力和致命部隊的整體性,使分布式海上作戰、遠征先進基地作戰和有爭議環境中的瀕海作戰效益最大化。"
雖然是聯合部隊集體為國家作戰,但海軍部隊在應對大國競爭方面的重要性在一份題為《海上安全和大國競爭》的報告中得到強調。《維護以美國為首的國際秩序》,其中部分內容指出:
這并不是說海軍比美國其他軍種更重要,也不是說像一些海軍專家所建議的那樣,海軍應該在有限的國防預算中獲得更大的份額,而是說大國競爭的前線是,而且可能繼續是廣闊的歐亞大陸的沿海地區。南中國海的持續摩擦只是大國競爭中的一個爭論點,還有很多其他爭論點。
美國在2020年12月發布的新海洋戰略《海上優勢》毫不含糊地將海上事務置于這一大國競爭的最前沿,其中部分內容指出:
自我們上次在2015年發布《21世紀海權合作戰略》以來,安全環境發生了巨大的變化。一些國家正在爭奪關鍵地區的權力平衡,并試圖破壞現有的世界秩序。我們的對手的重大技術發展和積極的軍事現代化正在侵蝕我們的軍事優勢。遠程精確導彈的擴散意味著美國不能再假定在沖突時可以不受限制地進入世界海洋。
自21世紀初以來,我們的三個海務部門一直在警惕地注視著中國日益增長的海軍力量和俄羅斯聯邦日益增長的侵略行為。我們部署在全球的海軍部隊每天都與中國和俄羅斯的軍艦和飛機互動。我們親眼目睹了他們越來越復雜和越來越有侵略性的行為。中國代表著最緊迫的、長期的戰略威脅。
《國防戰略》高度關注技術,并指出,如果不利用先進的技術來支持我們的作戰人員,美國將無法實現它所尋求的安全和繁榮,并指出:
安全環境也受到快速的技術進步和戰爭性質變化的影響。開發新技術的動力是無情的,以較低的準入門檻擴大到更多的行為者,并以加速的速度發展。新技術包括先進的計算、大數據分析、人工智能、自主性、機器人、定向能、高超音速和生物技術--正是這些技術確保我們能夠打贏未來的戰爭。
新的商業技術將改變社會,并最終改變戰爭的性質。許多技術發展將來自于商業部門,這意味著國家競爭者和非國家行為者也將有機會獲得這些技術,這一事實有可能侵蝕我們國家已經習慣的傳統的超強對抗。保持技術優勢將需要改變行業文化、投資來源和保護整個國家安全創新基地。
《全球趨勢》中強調的發展。《全球趨勢:進步的悖論》以及《國家安全戰略》和《國防戰略》中強調的發展,在美國軍方的未來展望出版物《2035年聯合行動環境》(又稱JOE)中得到了呼應。《聯合作戰環境》的副標題是 "有爭議和無序世界中的聯合部隊",它著眼于20年后,研究未來將如何影響作戰和聯合部隊。《聯合作戰環境》強調,即使在伊拉克和阿富汗的沖突逐漸結束時,美國軍隊在本十年的剩余時間和以后將面臨越來越大的壓力。
《2035年聯合行動環境》有一節專門討論技術。報告的作者解釋了這樣處理技術問題的理由:
聯合部隊將面臨一個主要由加速的技術變革定義的未來技術環境。在過去的20年里,美國對高技術戰爭的做法鼓勵了對手發展非對稱、非常規、不規則和混合的方法。敵人將繼續創新,應用不同的高低技術組合來挫敗美國的利益和軍事力量。
到2035年,美國將面對一系列尋求在一些關鍵領域實現技術平等的競爭對手。累積的結果將是這樣一種情況,用前國防部副部長羅伯特-沃克的話說,"我們的部隊面臨著非常現實的可能性,即到達未來的一個戰區,發現自己面臨著一個先進的、破壞性的技術庫,這可能會使我們以前的技術優勢被推翻--我們的武裝部隊不再擁有無爭議的戰區準入或不受約束的行動自由。"
很明顯,美國情報界和美國軍方都認識到,世界秩序的變化速度與技術生態系統的快速變化如出一轍。此外,在美國政府的最高層,人們承認美國曾經享有的技術優勢已經被削弱,美國軍隊不能再以純粹的技術優勢來支配其對手了。事實上,一些寫軍事和技術的專家已經預示了這種認識。
軍事歷史學家馬克斯-布特(Max Boot)在他的暢銷書《全新的戰爭》(War Made New)中指出:"我的觀點是,技術設定了可能的參數;它創造了軍事革命的潛力。"他用歷史實例支持他的論點,說明技術驅動的 "軍事革命 "如何改變了戰爭并改變了歷史的進程。重要的是,布特指出了技術的重要性,它使那些迅速創新和運用新軍事技術的國家獲得了戰爭勝利的優勢。
美國軍隊已經接受了技術變革的浪潮,這構成了戰爭方式的真正革命。隨著全球技術變革的步伐加快,美國特別善于運用新技術來應對威脅。正如布魯斯-伯科維茨在《戰爭的新面貌》中指出的那樣:
雖然所引用的兩本書都是十多年前的舊書,但它們關于技術的論述在美國軍隊接受新工具的方式上仍然是正確的。但正如《2035年聯合作戰環境》以及其他高級別政府、情報界和軍事出版物所指出的,雖然美軍一直善于采用新技術用于軍事用途,但這一過程一直處于壓力之下。有許多因素阻礙了新技術在美國軍隊中的應用,包括這些部隊在過去20年中所面臨的高操作節奏、預算壓力和持續的扣押幽靈,以及往往是笨重的軍事采購系統。盡管有這些壓力,各軍種已經找到了接受新技術的方法,這些技術有望使平衡重新向美國的優勢傾斜。
今天,美國軍隊采用的創新技術中增長最迅速的領域之一涉及無人駕駛系統。在過去的幾十年里,美軍使用的無人駕駛飛行器(UAVs)已經從寥寥無幾增加到1萬多架,而無人駕駛地面車輛(UGVs)的使用已經從零爆炸到12000多架。無人水面飛行器(USV)和無人水下飛行器(UUV)的使用也在增長,因為USV和UUV被證明在廣泛的軍事應用中越來越有用。軍事無人系統(UxS)的擴大使用已經在創造十年前不存在的戰略、作戰和戰術的可能性。
武裝無人系統的擴大使用不僅改變了現代戰爭的面貌,而且還改變了戰斗行動的決策過程。事實上,有人認為,無人機戰爭的興起正在改變我們對 "戰爭 "本身的概念和定義。這些系統在伊拉克和阿富汗的沖突中被廣泛使用,并且隨著美國的戰略重點轉向印度-亞洲-太平洋地區以及這一戰略所要求的高端戰爭,這些系統將繼續具有同樣的相關性,甚至更加重要。無人系統,尤其是它們的效用,不是作為獨立的實體,而是作為被稱為 "人-機-隊 "的作戰伙伴,是美國 "第三抵消戰略 "的一個基本原則。
美國防部已經啟動了 "第三次抵消戰略",以確保美國保持對潛在對手的軍事優勢。"抵消"戰略是一種軍事競爭的方法,它試圖以不對稱的方式彌補不利的地位。與其在潛在對手也可能擁有巨大實力的領域進行正面競爭,抵消戰略試圖通過引入新的作戰概念和技術,將競爭的軸心轉向美國具有顯著和可持續優勢的領域。
美國在冷戰期間成功地推行了兩種不同的抵消戰略。這些戰略使美國能夠 "抵消"蘇聯在常規部隊中的數量優勢,而不需要在前沿部署的部隊中進行巨大的投資,因為這需要以士兵對士兵、以坦克對坦克的方式提供超額補償。這些抵消戰略依賴于技術、作戰方法和組織結構的根本創新,以彌補蘇聯在時間、空間和部隊規模上的優勢。
這些抵消戰略中的第一個發生在20世紀50年代,當時艾森豪威爾總統試圖通過利用美國的核優勢來克服華沙條約組織的數量優勢,引入戰場核武器--從而將競爭的軸心從常規部隊數量轉移到美國擁有不對稱優勢的領域。這種方法提供了穩定性并為威懾提供了基礎。
第二種抵消戰略產生于20世紀70年代末和80年代初,因為人們認識到蘇聯已經實現了核均勢。第二個抵消戰略試圖通過追求一種新的聯合行動方式來創造一種持久的優勢,即利用常規精確武器、支持實時精確瞄準的實時遠程ISR(情報、監視、偵察)傳感器能力以及允許這些能力在整個戰斗空間同步執行的聯合戰斗網絡的綜合效應。
幸運的是,構成 "第二次抵消戰略 "的軍事技術從未在與蘇聯的正面交鋒中得到檢驗。然而,在 "沙漠風暴 "行動中,這些技術被部署在一支由蘇聯訓練和裝備的軍隊面前。如前所述,正如《戰爭的新面孔》所描述的那樣,伊拉克的失敗是徹底的,代表了現代戰爭中最一邊倒的運動之一。顯然,美國的潛在敵人注意到技術在這場勝利中發揮的關鍵作用。
在20世紀80年代初引入第二套抵消戰略時,美國是唯一擁有知識和能力來開發、部署和成功執行情報、監視和偵察能力、天基系統以及支持這種方法的精確武器的國家。今天,像俄羅斯和中國這樣的競爭對手(以及這些國家向其擴散先進能力的國家)正在追求和部署先進的武器和能力,這些武器和能力展示了許多與傳統上為美國優勢提供高科技基礎的技術力量,如精確制導彈藥。在俄羅斯在敘利亞的力量投射行動中,可以看到美國技術能力與潛在競爭對手之間的這種日益對稱性。
國際安全環境中出現的越來越多的均勢,使得美國必須開始考慮各種技術、系統概念、軍事組織和作戰概念的組合,這些技術、系統概念、軍事組織和作戰概念可能會改變競爭的性質,使美國比潛在對手更有優勢。這一系列的能力為第三個抵消戰略提供了基礎。如同以前的抵消戰略一樣,第三個抵消戰略尋求在預算有限的環境下,通過確定美國獨特的力量和能力所帶來的不對稱優勢,保持并擴大美國的技術和作戰競爭優勢。第三套抵消戰略確保美國的常規威懾態勢在未來仍像今天一樣強大,并為將這一優勢擴展到未來創造條件。
在解釋《第三次抵消戰略》的技術要素時,當時的國防部副部長羅伯特-沃克強調了無人系統、人工智能、機器學習和自動駕駛方面新興能力的重要性。他指出,這些技術為聯合部隊提供了巨大的優勢,使未來的部隊能夠開發和操作先進的聯合、協作的人機戰斗網絡,在太空、空中、海上、海底、地面和網絡領域同步作戰。人工智能將使聯合作戰網絡的自主性達到新的水平--決策權的有限授權,從而為人機協作和作戰團隊帶來全新的機會。
無人系統、人工智能和機器學習等技術在第三個抵消戰略中,特別是在該戰略的長期研究和發展計劃(LRRDP)中的突出地位很難被夸大。
也就是說,該戰略有一個強有力的組成部分,強調在使用具有日益復雜的人工智能和機器學習能力的無人系統時,要讓人類處于循環之中。事實上,人機協作是現存的 "第三抵消戰略 "文件以及國防部高級官員的演講和訪談中所強調的一個必要條件。雖然深入研究 "第三抵消戰略 "技術主旨的全部細節超出了本文的范圍,但重要的是要注意,該戰略的主要技術路線集中在人機協作和戰斗團隊的概念上。這一概念的五個基本組成部分是:
自主深度學習系統,它將利用機器學習,在人類反應時間太慢的領域 "以光速 "運作,例如網絡攻擊、電子戰攻擊或大型導彈突襲攻擊。
人機協作,這將使機器能夠幫助人類更快地做出更好的決定。工部長列舉了F-35聯合攻擊戰斗機和海軍綜合火控反航(NIFC-CA)作為這些概念的例子。
輔助人類作戰,這將專注于人和機器可以一起行動的方式,通過可穿戴電子設備、外骨骼和戰斗應用等工具,在各種可能的緊急情況下協助作戰人員。
先進的人機作戰團隊,將側重于人類與無人系統合作作戰;其中一個例子是海軍的P-8 "海神 "與MQ-4C "海神 "的作戰。展望未來,團隊合作的下一個層次將研究蜂群戰術和合作自主。
網絡支持的、網絡硬化的自主武器,將有彈性地在電子戰和網絡環境中運行。目前的一個例子包括戰術戰斧Block IX,其目標可以在飛行中更新。
知識淵博的外部觀察家參考了《第三次抵消戰略》,并強調了無人駕駛系統在實現美國戰略目標方面的重要性。前歐洲盟軍最高司令官詹姆斯-斯塔夫里迪斯(James Stavridis)上將在其發表在《外交政策》上的文章《新三體》中指出,無人系統是這個新三體的三大支柱之一,他指出:"新三體的第二個能力是無人駕駛車輛和傳感器。三合會的這一分支不僅包括空中攻擊無人機,還包括空中、地面和海洋表面的無人監視車......這種系統有一個明顯的優勢,即不需要所有最昂貴的部件:人。"
美國陸軍的一份報告描述了在2014年首次闡述的第三次抵消戰略,而且遠在美國開始稱中國和俄羅斯為同行競爭對手之前,該戰略必須在21世紀的第三個十年中變形和改變:
蘇聯軍隊在數量上的優勢促成了前兩個抵消戰略。隨著美國軍事技術進步的應用已經擴散到近似的對手,它已經有效地重新平衡了戰場。為確保第三次抵消戰略的成功實施,國防部與美國政府必須就我們試圖抵消的東西以及如何平衡這些優先事項以對付處于巨大不同區域和能力的對手達成一致。
第三抵消戰略的運用將恢復美國的力量投射能力,通過可靠的拒絕和懲罰威脅來加強常規威懾力,并作為長期競爭的一部分對潛在的對手施加代價。平衡或擊敗對手能力的能力需要資源,為確保有效運用該戰略,我們必須解決我們試圖抵消的問題。
鑒于第三個抵消戰略的強烈技術重點,在美國尋求在本十年及以后實施這一戰略時,這一戰略的表現將由聯合部隊放置在戰場上的軍事平臺、系統、傳感器和武器所代表。同樣明顯的是,美國各軍種--特別是美國海軍--已經表示希望將無人系統作為其部隊結構中一個日益重要的部分投入戰場。
在國會作證時,前國防部長邁克爾-埃斯珀回答了一個問題:"美國防部技術現代化的首要任務是什么?"他指出,"對我來說,是人工智能。我認為人工智能將可能改變戰爭的特征,我相信誰先掌握了它,誰就會在戰場上主宰很多很多年。這是一個根本性的游戲改變者。我們必須先到達那里。"
美國軍方有許多理由主動利用大數據、人工智能和機器學習來使其武器系統變得更好。也許最令人信服的理由是,我們的潛在對手--特別是我們的同行競爭對手--正在積極地這樣做。一個古老的觀點是軍事術語,"敵人有投票權"。在這種情況下,俄羅斯正在用盧布投票,中國正在用人民幣投票。
這些國家正在對這些技術進行巨大投資。雖然這兩個國家出于國內原因進行這些投資,但他們正在有意和有條不紊地將這些技術盡可能快地插入他們的軍事系統,以便創造一個與美國軍隊不對稱的優勢。鑒于俄羅斯和中國注重保密,這些舉動似乎有悖常理,但這兩個國家都沒有試圖對這些目標保密。
在一次被廣泛宣傳的講話中,俄羅斯總統弗拉基米爾-普京這樣說。"人工智能是未來,不僅是俄羅斯的,而且是全人類的。它帶來了巨大的機遇,但也有難以預測的威脅。誰成為這個領域的領導者,誰就會成為世界的統治者。"
很明顯,其他 "大國 "將人工智能的發展視為一場競賽,并將從中利用競爭性軍事應用。
從美國的角度來看,以及從一些美國盟國的角度來看,這場競賽在很大程度上是,盡管不完全是,軍事競爭的一個方面。美國和盟國對一個或多個潛在對手在人工智能發展中領先的可能性表示擔憂。第三套抵消戰略被設想為一種在人工智能等新技術的軍事競爭中保持領先的方法。
軍事大國競爭的歷史表明,人工智能競爭,本質上是一場軍備競賽,是一種自然發展。然而,比技術跨越更令人擔憂的是,美國的軍事對手--所有某種形式的專制政權--可能不會像以前那樣致力于維持 "人在回路中 "的方法,將人工智能納入軍事事務。這在目前俄羅斯的軍事人工智能發展中似乎尤其如此。
俄羅斯、中國和美國這三個主要軍事大國都認識到,大數據、人工智能和機器學習有可能應用于軍事能力。在政府參與人工智能研究、他們愿意在人工智能發展中承擔的風險、他們將在多大程度上讓位于人工智能系統的自主權以及他們尋求的直接應用方面,這三者的近期目標都有所不同。
鑒于潛在對手將大數據、人工智能和機器學習植入其軍事武器系統的程度,美國軍方非常有必要采取同樣的措施,以確保這些國家不會獲得不對稱的優勢。也就是說,美國軍方的重點必須是證明人工智能武器系統將 "首先不造成傷害"。因此,將人工智能插入軍事系統不是一個 "非此即彼 "的問題,而是一個 "多少?"的問題。換句話說,美國軍方必須專注于在正確的時間和地點應用適量的人工智能。
正如我們前面所指出的,美國防部已經接受了第三套抵消戰略,試圖為美國提供對同行和其他對手的不對稱優勢。雖然這一戰略有許多方面,但其中一個支柱涉及技術,而這一支柱在很大程度上取決于大數據、人工智能和機器學習來獲得這一優勢。作為這一技術重點的一個子集,人機合作被認為是利用人工智能的無人系統獲得軍事優勢的一種方式。
在軍事系統中找到這種恰到好處的自主權平衡所需的能力必須利用許多仍在出現的技術。軍方知道它想實現什么,但往往不知道它需要什么技術或甚至能力,以使系統在自主性和人際互動之間達到適當的平衡。這種探索的一個關鍵因素是,不要擔心機器本身擁有什么屬性--速度、耐力和其他屬性,而是要關注機器內部的東西。美國國防科學委員會的報告《自主性在國防部系統中的作用》是這樣說的:
關于將人工智能植入軍事系統的一些爭議源于術語的不精確。幫助澄清這種模糊性的方法之一是確保在使用自主性一詞時,它指的是人和機器之間的關系。在一段時間內執行某項功能,然后停止并等待人類的輸入,然后再繼續,這樣的機器通常被稱為半自主或有人類在環。可以完全依靠自己的力量完成某項功能的機器,但有一個人在監督,并能夠在機器出現故障或失靈時進行干預,通常被稱為人類監督下的自主或人類在環。能夠完全獨立完成某項功能而人類無法干預的機器通常被稱為完全自主或人類不參與的機器。
這表明,我們需要重新調整關于自主武器的一些辯論,以更準確地區分增加武器的自主性和自主武器。在這個意義上,自主性不是指機器的智能,而是指它與人類控制器的關系。對于相對較少的無人系統將用武器與敵人作戰,這種平衡是至關重要的。在發射武器之前,無人平臺需要向操作者--必須有一個操作者在其中--提供一個關于發射決定可能帶來的利弊的決策矩陣。
可以說,即使是一些在美國軍事人工智能領域工作的人,對于將人工智能插入美國軍事武器系統也會有一些矛盾。也許解決這個問題的最好方法是考慮二戰中最知名的照片之一。這張照片由美國信號部隊的約翰-摩爾中尉拍攝,描述了德懷特-艾森豪威爾將軍在1944年6月5日,即入侵諾曼底的前一天與第101空降師的士兵交談。在此之前,艾森豪威爾已經聽取了空軍元帥利-馬洛里的匯報,101師是入侵期間將遭受80%傷亡的兩支部隊之一。
那些研究無人系統對軍事行動的影響的人--特別是那些大力提倡無人系統的人--看了這張照片,可以設想艾森豪威爾將軍不是與美國空降兵對話,而是與他將派往戰場的機器人對話。那些害怕無人系統的人可能會想象美國空降兵就像照片中描述的那樣,但他們會設想一個機器人來指揮這些士兵,而不是艾森豪威爾將軍--顯然這是一個站不住腳的情況。但是,那些深思熟慮地考慮人工智能無人系統對軍事行動的影響的人,會設想艾森豪威爾將軍向一隊美國空降兵講話,與他們的機器人伙伴站在一起。顯然,需要做更多的工作來充分解決人機合作對今天的軍隊意味著什么。
但這種利用大數據、人工智能和機器學習的普遍愿望未能解決一個關鍵問題,即我們希望這些技術能夠幫助作戰人員執行哪些具體任務。問題的根源可能是美國軍方沒有能力將作戰人員的需求轉化為大數據、人工智能和機器學習所帶來的技術解決方案。除非或直到這樣做,否則這些技術不太可能被充分利用來支持美國的作戰人員。
作為上個世紀最具代表性的電影之一,斯坦利-庫布里克的《2001:太空漫游》將機器人(當時的無人駕駛車輛)的自主性問題作為其中心主題。看過這部電影的人很少能忘記這樣一個場景:宇航員大衛-鮑曼和弗蘭克-普爾考慮斷開HAL(啟發式編程的算法計算機)的認知電路,因為他似乎錯誤地報告了航天器的通信天線中存在故障。他們試圖隱瞞他們所說的話,但不知道HAL能讀懂他們的嘴唇。面對斷線的前景,HAL決定殺死宇航員,以保護并繼續其程序化的指令。
雖然今天很少有人擔心21世紀的HAL會背叛它的主人,但在使用日益自主的無人系統方面所涉及的問題是復雜的、具有挑戰性和有爭議的。庫布里克1968年的電影是有先見之明的。半個多世紀后,雖然我們接受了無人系統其他方面的改進,如推進力、有效載荷、隱身性、速度、耐力和其他屬性,但我們仍在處理多少自主權是足夠的,多少可能是太多的問題。這可以說是我們在未來十年內需要解決的有關軍事無人系統的最重要問題。
這些正在進行的辯論已經催生了一個山寨的書籍產業,試圖解決人工智能、自主性和無人系統的問題,特別是武裝的軍事無人系統。諸如《為戰爭而生》(Wired for War)、《遙控殺人》(Killing by Remote Control)等書。無人駕駛軍隊的倫理;無人駕駛。無人機、數據和完美戰爭的幻覺;反思無人機戰爭;無主之軍。自主武器與戰爭的未來》和《無人機下的國家》只是試圖以深思熟慮的方式解決這一復雜問題的書籍中的一個例子。
無人系統將變得更加自主,與它們感知環境和適應環境的能力成正比。這種能力使無人系統能夠實現更高的決策速度,并使友軍能夠在對手的OODA(觀察、定向、決定和行動)環路內行動。隨著環境或任務的變化,感知和適應的能力將使無人系統能夠找到實現其任務的最佳解決方案,而無需依賴人類操作員的持續監督、輸入和決策。然而,雖然我們需要無人系統在敵人的OODA環內運作,但我們是否準備好讓它們在沒有我們的決策下運作--在我們的OODA環內運作?
《經濟學人》雜志的一篇文章《道德與機器》以這種方式討論了自主權和人在回路中的問題:
隨著機器變得越來越聰明,越來越普遍,自主機器最終必然會在不可預測的情況下做出生死攸關的決定,從而承擔--或者至少看起來承擔--道德機構。目前,武器系統有人類操作員 "在環",但隨著它們越來越復雜,將有可能轉為 "在環 "操作,由機器自主執行命令。
隨著這種情況的發生,它們將面臨著倫理上的困境。一架無人機是否應該向已知目標藏身的房屋開火,而該房屋可能還藏有平民?無人駕駛汽車是否應該轉彎以避開行人,如果這意味著撞上其他車輛或危及車內人員?參與災難恢復的機器人是否應該告訴人們正在發生的真相,如果這有可能引起恐慌?
這些問題導致了 "機器倫理"領域的出現,其目的是讓機器有能力做出適當的選擇--換句話說--分辨是非。工程師、倫理學家、律師和政策制定者之間需要更多的合作,如果讓他們自己來決定,他們都會制定出非常不同的規則。
在《紐約時報》的一篇題為 "智能無人機 "的專欄文章中,比爾-凱勒這樣描述無人系統的自主權問題:
如果你覺得使用遙控戰士無人機令人不安,想象一下,殺死一個可疑敵人的決定不是由遠處控制室的操作員做出的,而是由機器本身做出的。想象一下,一個空中機器人研究下面的景觀,識別出敵對活動,計算出附帶損害的風險最小,然后,在沒有人類參與的情況下,扣動扳機。
歡迎來到戰爭的未來。當美國人在爭論總統是否有權下令用無人機進行暗殺時,強大的動力--科學、軍事和商業--正在推動我們走向將同樣的致命權力讓給軟件的那一天。
最近,雖然看起來有些反常,但對自主機器和人工智能的擔憂也來自于在開發這些技術能力方面最為突出的行業。《紐約時報》的一篇文章,題為 "機器人霸主?也許不是",引用了電影《機器之家》的導演亞歷克斯-加蘭(Alex Garland)的話,他談到了人工智能,并引用了幾個科技行業領導人的話。
美國防部正在把人類對無人系統的控制問題作為第一要務來處理,并發布了政策指示,以確保人類確實保持在OODA循環中。時任美國防部副部長阿什頓-卡特(Ashton Carter)的一項指令發布了以下指導:
這些指令和討論是--而且應該是--政策制定者、軍事領導人、工業界、學術界和科技界之間對話的一部分,因為明天的自主系統的設計和運作是經過深思熟慮的。正如當時的國防部副部長羅伯特-沃克在新美國安全中心國防論壇上發言時指出的那樣,"我們堅信,人類應該是唯一能夠決定何時使用致命武力的人。但當你受到攻擊時,特別是在機器的速度下,我們希望有一臺機器可以保護我們"。
發布政策聲明是一回事,但實際設計自主系統來執行預期的計劃又是另一回事。從政策的角度來看,這是一個關鍵點,因為盡管人們可以選擇把各種層次的決策權交給自主機器,但卻不能逃避對由此產生的行動的責任。在高度自主的系統中,系統對操作者來說變得不透明,這些操作者經常會問一些問題,如:。它在做什么?它為什么要這樣做?它接下來要做什么?如果被問到這些問題,很難看到操作者如何能履行對自主系統行動的責任。
由于這些原因,美國政府,特別是美國軍方要向美國公眾證明它不會失去對機器人的控制,其門檻是異常高的。許多人表示擔心,美國軍方可能會失去對其無人系統的控制,特別是其武裝的無人系統。這些擔心已經表現在許多方面,最明顯的是谷歌停止了國防部算法戰爭跨職能團隊的工作,也就是所謂的Maven項目。這尤其令人擔憂,因為Maven項目與武裝無人系統無關。
在美國最高級別的政策和戰略文件中,無人系統被作為聯合部隊未來作戰方式的一個重要部分。最近的《四年期國防審查》(QDR)指出:"延續1990年代末開始的趨勢,美軍將增加對無人系統的使用和整合。" 在QDR的其他地方,無人駕駛系統被確定為。"保持我們投射力量的能力"。重要的是,《QDR》強調無人系統是國防部致力于創新和適應的一個關鍵部分。
美國國防部對無人系統的愿景是將這些系統納入聯合部隊。由于無人系統被所有軍種使用,國防部發布了一個路線圖,為軍隊使用無人系統提供一個總體愿景。在新的路線圖發布后不久,《海軍內部》雜志發表的一篇文章指出:"國防部新的30年無人系統計劃--四年來第一次更新路線圖--旨在為快速發展的無人系統技術領域制定一個三十年的指南。"最近的路線圖,即2017-2042財年無人系統綜合路線圖,特別指出需要加強無人系統的自主性,指出。
2017-2042財年無人系統綜合路線圖接著列出了四個感興趣的基礎領域,將加速無人系統的整合。這些領域包括:
互操作性。互操作性在歷史上一直是,并將繼續是無人系統集成和運行的主要推動力。載人和無人系統已經越來越多地將其能力協同起來,重點關注使用開放和通用架構的關鍵需求。一個強大的互操作性基礎提供了一個結構,將使未來的作戰取得進展。
自主性。自主性和機器人技術的進步有可能徹底改變作戰概念,成為一個重要的力量倍增器。自主性將大大提高載人和無人系統的效率和效力,為國防部提供戰略優勢。
網絡安全。無人系統操作通常依賴于網絡連接和有效的頻譜訪問。必須解決網絡漏洞,以防止破壞或操縱。
人機協作。如果說互操作性奠定了基礎,那么人機協作則是最終目標。人類力量和機器之間的協作將實現革命性的合作,機器將被視為重要的隊友。
報告接著討論了機器人和無人系統的聯合概念(JCRAS),它為這些系統在未來戰爭場景中的應用提供了一個愿景,直到2035年。JCRAS與之前討論的2035年聯合行動環境直接保持一致,指出了機器人和自主系統(RAS)給聯合部隊帶來的八個關鍵屬性:
學習能力。未來的RAS將通過與環境、人類的互動以及訪問網絡資源來學習。
更強的態勢感知。未來的RAS將通過收集、處理和優先處理來自先進傳感器網絡的信息來增強意識,這將為作戰人員將數據轉換成知識。這將使復雜、擁擠的戰斗空間中的行動更加有效。
實現更高的性能。與載人和可選擇的載人系統不同,RAS沒有人類生理上的限制(如疲勞)。這允許在單一平臺上延長射程和徘徊時間,進行持久監視,并對傳感器和有效載荷進行全新組合。
提高效率和效益。能力更強的RAS將能夠在軍事行動范圍內執行更多的聯合任務,如戰區內空運、地雷行動、打擊大規模殺傷性武器、供應和維持,同時提高部隊的效率和效力。
提供更大的靈活性。未來的RAS系統將可以通過交換模塊硬件和/或下載新的軟件來快速重新配置,從而賦予新的能力。未來的RAS多任務功能將使聯合部隊能夠快速適應,以滿足不同或不斷變化的任務要求。
通過以機器速度運行來提高節奏。RAS以不斷增加的機器速度 "思考"。RAS可以融合來自網絡ISR傳感器的數據,機動到一個有利的位置,并比對手的人類和RAS更快采取行動。先進的數據分析、實時處理和替代性決策框架將使指揮官能夠比對手更快地做出決定和采取行動。
提供產生大規模的潛力。目前聯合部隊的載人庫存是基于相對較少的高能力、復雜和昂貴的武器裝備,無法迅速再生。RAS提供了使用大量廉價系統以產生大規模的機會。
啟用分布式和分散式行動。敵方的技術將以更高的精度和范圍瞄準美國部隊,使傳統部隊面臨更大的風險。使用RAS進行分布式和/或分散式作戰將提高未來作戰環境中的能力。
正如《質量發展報告》和《無人系統綜合路線圖》都指出的那樣,在美軍面臨具有強大防御能力的同行競爭者的那些地區,無人系統是特別重要的資產。聯合行動準入概念認為,"無人系統,可以在目標區域內徘徊以提供情報收集或火力",是一種關鍵能力,在對手擁有大量防御設施,可以限制美國和聯軍進入的地區,這種能力特別有價值。 此外,無人系統是在西太平洋等高威脅地區執行美國 "空海作戰概念"(現更名為 "全球公域準入和機動聯合概念",簡稱JAM-GC)的一個關鍵組成部分,在這些地區,對手的防御系統對有人駕駛飛機和水面平臺構成了不可接受的高風險。
海軍部已經為海軍和海軍陸戰隊的無人系統開發制定了雄心勃勃的目標。在一份備忘錄中,負責研究、開發和采購的海軍助理部長James Geurts閣下強調了無人駕駛系統的重要性,他在求職信中指出:
這份詳細的備忘錄繼續指出:"無人駕駛和自主技術正在改變各國開展軍事行動的方式......無人駕駛和自主系統的使用將改變我們的戰斗方式。" 美國防部的無人系統愿景隨后引出了無人系統戰略和計劃,最后引出了一系列高級無人系統目標:
通過載人、無人和自主能力的綜合團隊實現空中優勢。
通過擴大我們的海底星座的全球范圍來實現海底優勢。
通過載人和無人自主能力的綜合團隊,實現地面優勢。
吸收我們未來的地面戰斗力。
實行多領域的無人駕駛和自主系統。
實現無人駕駛的大規模。
通過整合無人駕駛和自主系統,實現持久的供應、支持和維持。
實現全面的無人操作能力和先進的自主性和機器學習。
這八個高層次目標中的每一個都有一個段落來支持,該段落提供了關于總體目標所需的更多細節,以及海軍部打算采取的步驟來實現這些預期結果。備忘錄接著詳細介紹了近期的促進因素和塑造努力,然后在結論中指出。"增加無人駕駛和自主系統的作戰使用,有望為我們的海軍部隊釋放出一種革命性的能力。"
最近,海軍部公布了期待已久的《無人駕駛作戰框架》。該文件旨在協調整個部門的無人系統工作,列出了雄心勃勃的目標,旨在幫助使無人系統成為海軍平臺庫存中越來越重要的一部分。該框架有五個目標。
在海軍和聯合行動的全部范圍內推進有人-無人的團隊效應。
建立一個數字基礎設施,快速和大規模地整合和采用無人駕駛能力。
激勵無人駕駛系統的快速增量開發和測試周期。
分解共同的問題,一次解決,并跨平臺和領域擴展解決方案。
為無人駕駛貢獻(平臺、系統、子系統)創造一個以能力為中心的方法。
盡管如此,這份38頁的報告確實為海軍部打算如何將無人駕駛系統引入艦隊和緬因州部隊提供了一個組織動力和指南。
大多數人都熟悉兒童寓言故事《金發姑娘和三只熊》。當金發女郎品嘗三碗粥時,她發現一碗太熱,一碗太冷,還有一碗恰到好處。當美國防部和各軍種尋求實現自主性和人類互動的最佳平衡--平衡這兩種經常對立的力量并使其 "恰到好處"--在一開始就將這種能力設計到未來的無人系統中,而不是試圖在事后將其固定下來,這可能是唯一可持續的前進道路。如果我們不能做到這一點,幾乎不可避免的是,對我們的武裝無人系統將具有 "HAL"式的力量并超出我們的控制的擔憂將破壞這些重要作戰伙伴的承諾。
在用于軍事用途的無人系統中建立適當程度的自主性的一個關鍵是要記住一句老話:"你站在哪里取決于你坐在哪里。" 用戶和設計無人系統的人經常從不同的--通常是明顯不同的--觀點來對待他們試圖完成的任務。海軍研究咨詢委員會的一份報告指出,在設計具有適當程度的自主性的無人系統時,必須調和四個不同的觀點:
用戶觀點。我可以給這個平臺一個任務,并相信它能在沒有持續關注的情況下完成它嗎?它能識別和處理意外事件或模糊的任務嗎?
機器人學觀點。我能否建立一個實用的機器人,在正確的時間做正確的事情?我可以動態地控制、導航、執行和測量我的機器人嗎?它能管理和融合數據嗎?
機器學習觀點。我的機器能解釋復雜的傳感器嗎?它能理解口頭語言,解釋手勢,或識別人或物嗎?
認知的觀點。我的機器能不能復制人類智能的元素,如認知、推理和推理?
隨著美國軍方出于各種原因增加對無人系統的依賴,它最好在某個時候決定該平臺是否足夠好,也就是說,它具有執行任務所需的速度、耐力和其他物理屬性。一旦確定了這一點,那么正如國防科學委員會報告所建議的那樣,軟件開發的艱苦工作必須成為優先考慮的因素。
利用大數據、人工智能和機器學習的普遍愿望未能解決一個關鍵問題,即我們希望這些技術能夠幫助作戰人員執行哪些具體任務。問題的根源可能是美國軍方缺乏將作戰人員的需求轉化為建議由大數據、人工智能和機器學習實現的技術解決方案的能力。作為前美國海軍軍官和艦艇指揮官,我們思考這個問題的方式讓我們很自然地想到海軍的例子。
開始解決這個問題的一個方法是思考海上的指揮官需要什么信息。無論是1812年8月艾薩克-赫爾艦長試圖帶著憲法號對蓋瑞爾號采取行動,還是今天的航母打擊群指揮官考慮將他的艦艇帶入一個可能有爭議的地區,指揮官需要三個主要東西來幫助他做出最佳決定。
他或她需要知道部隊前方的情況,需要將這些信息傳達給旗艦,并需要做出明智的決定。雖然今天的海軍指揮官擁有豐富的資產來幫助實現這些目標,但現在大數據、人工智能和機器學習可以幫助彌補一些差距。
一個打擊小組的指揮官擁有許多資產,可以展望部隊未來,以評估戰術形勢。他可能使用MQ-4C “海衛一”無人機系統來執行這種偵察任務。今天,"海衛一"操作人員會收到MQ-4C看到的流媒體視頻。但這需要他連續幾個小時盯著這段視頻(海衛一的續航時間為30小時),看到的主要是空曠的海洋空間。
利用大數據、人工智能和機器學習,MQ-4C可以被訓練成只發送它遇到的每艘船的視頻,從而大大壓縮了人類的工作量。更進一步,"海衛一"可以對每一次接觸進行機載分析,以標明其可能的興趣。例如,如果一艘船在航道上運行,已向海事當局提交了航行計劃,并提供了AIS(自動識別系統)信號,那么它很可能只值得操作者注意,“海衛一”將相應地標記它。然而,如果它不符合這些標準(例如,該船突然改變航線,離開了航道,或者沒有AIS信號),操作人員將被提醒。隨著這項技術的不斷發展,“海衛一”或其他無人機系統最終可能會配備分類算法,有可能導致自動識別目標。
一旦“海衛一”處理了這些信息,大數據、人工智能和機器學習可以幫助確定如何與旗艦溝通。在今天有爭議的電子戰環境中,不同的通信路徑具有不同程度的脆弱性。在 “海衛一”號發射之前,指揮官可以確定可接受的通信截獲風險水平,以及泄露打擊群存在的風險。
掌握了這個指揮官的意圖,并利用大數據、人工智能和機器學習,"海衛一"可以評估電子環境,從多個通信路徑中進行選擇,并確定哪條路徑提供最小的攔截漏洞。鑒于 "海衛一"號的尺寸和增長潛力,它甚至可以攜帶一個較小的無人機,并將其發射回部隊,以傳遞這種監視信息。
在旗艦上,指揮官必須了解他的傳感器所收集的數據,然后做出一些時間關鍵性的決定。他應該繼續前進,等待,還是撤退?他應該在前面偵察,還是在另一個方向?他是否應該調用其他部隊,或者他的有機資產是否足以成功地完成任務而不會給他的部隊帶來不必要的風險?
這就是大數據、人工智能和機器學習可以做出重要貢獻,幫助指揮官做出關鍵決策的地方。
如果指揮官選擇勇往直前,強制進行交戰,大數據、人工智能和機器學習可以做到今天的初級戰術決策輔助工具無法做到的事情--提供一系列選擇,并評估每個選擇的利弊。重要的是,這些技術并不--也不應該--做出決定,而是為指揮官提供足夠的、經過精心策劃的信息,以便他能比對手更快地做出最佳決定。
對于致命的軍事無人系統來說,在授權無人作戰伙伴發射武器之前,操作者必須知道什么,或者像經常發生的那樣,建議上級當局授權采取致命行動,這個標準更高。例如,考慮軍事操作人員管理一系列正在進行的無人駕駛航空系統飛行的情況,他們一直在觀察一個恐怖分子,并等待上級當局授權使用從該無人駕駛航空系統發射的空對地導彈來消除威脅。
利用大數據、人工智能和機器學習,操作者可以訓練無人駕駛航空系統預測上級主管部門在授權發射前會問什么問題,即使不能提供點解決方案,至少也可以提供百分比概率或信心水平的問題,例如。這個人是預定目標的信心水平是多少?這種信心是基于什么?是面部識別、聲音識別、行為模式、與某些人的聯系、與已知家庭成員的接近或與已知同伙的接近?對家庭成員、已知同伙或未知人員造成附帶損害的可能性是什么?等待與現在出擊的潛在影響是什么?
這些考慮只是操作者必須訓練其配備致命武器的無人系統處理的問題的一個子集。用大數據、人工智能和機器學習來增強這些系統,并利用它們在敵人和我們的決策圈內運作的能力,遠不是把致命的權力讓給無人系統,而是使這些系統能夠在戰斗的壓力下把人類操作員從不得不做出實時的、往往是即時的決定中解放出來。從一開始就將這種能力設計到無人系統中,最終將使它們成為其軍事操作者的有效伙伴。
這使我們回到了美國防部副部長羅伯特-沃克提出的一些擔憂。他指出,當敵人以 "機器速度 "攻擊我們時,我們需要利用機器來幫助保護我們。建立具有強大的大數據、人工智能和機器學習水平的無人系統,能夠與操作人員合作進行這項工作,才能最終確保我們建造的無人系統充分發揮其潛力,幫助我們的作戰人員在戰斗中獲勝。
有令人信服的證據表明,美國,特別是美國軍隊,必須在利用大數據、人工智能和機器學習方面超過我們的同行競爭對手。人工智能國家安全委員會在其2019年的臨時報告中明確分析了人工智能將如何成為游戲規則的改變者。"人工智能將塑造權力的未來。"2020年,《未來國防工作組報告》這樣提出將大數據、人工智能和機器學習插入美國軍事武器系統的必要性:
我們通過使用無人機系統的例子討論了插入大數據、人工智能和機器學習的影響,在這種情況下,MQ-4C “海衛一”,因為當插入這些技術的問題出現時,這是大多數人想到的戰爭領域。但還有一個領域,大數據、人工智能和機器學習可以在戰爭中產生更大的影響,那就是決策領域。
伊恩-托爾在其獲獎的美國海軍誕生和成熟的歷史《六艘護衛艦》中,不僅記錄了海軍的早期發展,還記錄了它在多場戰爭中的掙扎。67很少有人在讀完這本書后,會對1775年至1815年間海軍和國家的生存是如何的近在眼前。
雖然我們很容易被托爾的敘述所吸引,像讀小說一樣快速閱讀這段歷史,但至關重要的是,不要錯過決策在海軍的勝利和失敗中的重要性。從在哪里建造這些護衛艦,到選擇它們的活動區域,到它們要打哪場戰役和避免哪場戰役,以及其他一系列的決定,主要是使國家能夠在那危險的幾十年中生存下來的正確決定。
雖然今天美國海軍的平臺和武器與迪凱特、普雷布爾、班布里奇、赫爾、佩里、勞倫斯等艦長的海軍沒有任何相似之處,但今天的艦長仍然必須做出他們的前輩所做的那種生死攸關的決定。大不相同的是今天的決策速度。像憲法號、星座號和其他早期護衛艦的艦長往往有幾個小時甚至幾天的時間來做出關鍵的選擇,而今天的艦長必須在幾分鐘甚至幾秒鐘內做出決定。
軍事史上不乏這樣的例子:做出更好決定的指揮官獲得了勝利,即使他們的對手擁有地理或物質優勢,這些事件在此無需重述。值得注意的是,在過去的幾個世紀里,各級領導人有幾個小時,甚至幾天的時間來做出關鍵決定。但到了上個世紀中期,戰爭的變化極大地壓縮了決策周期。
在朝鮮戰爭期間,俄羅斯的米格-15戰斗機和美國的F-86 "佩刀 "戰斗機為爭奪制空權展開了激烈的戰斗。空軍上校約翰-博伊德(John Boyd)為了找到一種減輕美國戰斗損失的方法,創造了我們今天所知的OODA循環。OODA是指:觀察、定向、決定和行動。
博伊德的概念是,勝利的關鍵是創造一個比對手更快地做出適當決定的環境。博伊德的構思最初是一種在空對空作戰中獲得成功的理論,是根據他的能量-機動性理論和他對米格-15戰斗機和北美F-86佩刀戰斗機在朝鮮的空對空作戰的觀察而發展出來的。哈利-希拉克--F-16戰斗機的總設計師在談到OODA理論時說:"時間是主導參數。在最短的時間內完成OODA循環的飛行員占了上風,因為他的對手在應對已經發生變化的情況時被抓住了。"
即使是非軍事觀察員也清楚,空對空作戰可以說是壓力最大的軍事行動之一。但是,軍事領導人越來越意識到,壓力--尤其是無法處理信息--導致軍事操作人員開始出現自己的OODA環,并做出次優的決定。
在壓力下做出關鍵軍事決策的挑戰在1965年的電影《貝德福德事件》中進入流行文化。這部電影松散地基于美國海軍艦艇和蘇聯潛艇之間的一些冷戰事件,其情節線圍繞著美國驅逐艦貝德福德號(DLG 113)和一艘蘇聯潛艇之間的貓捉老鼠游戲。
貝德福德號的船員在長達數日的潛艇搜尋中變得越來越疲憊。隨著尋找蘇聯對手的緊迫性加劇,貝德福德號的船長無視他的船員在壓力下萎靡不振的警告,提高了他的要求,甚至碾壓了柴油潛艇的呼吸器。當有人問船長他是否會對他的對手開第一槍時,他回答說他不會,但 "如果他開一槍,我就開一槍"。一個疲憊的少尉把他的船長的話誤認為是 "開一槍 "的命令,于是發射了一枚反潛火箭,摧毀了潛艇,但在它發射一枚核武魚雷之前,潛艇就被消滅了。
雖然是虛構的,但《貝德福德事件》對55年后的一個真實世界的事件卻有可怕的預見。雖然對2020年1月伊朗革命衛隊擊落一架烏克蘭噴氣式客機的全面調查需要幾個月,甚至幾年的時間,但今天已知的是,在戰斗的壓力下,伊朗剛剛向美國軍隊發射了一連串彈道導彈,該國對美國的反擊保持高度警惕。
在伊朗情報或軍事指揮系統的某個地方,發出了巡航導彈來襲的警告。負責一個防空導彈組的軍官試圖聯系他的上級指揮中心,以獲得開火的授權。可悲的是,他無法接通,帶著不完整的信息,他發射了兩枚防空導彈,176人死亡。
這些事件--一個是虛構的,一個是非常真實的--有一個共同點:人類被迫在信息不充分或錯誤的情況下做出關鍵決定。在《貝德福德事件》中,它是人類之間相隔幾英尺的空氣間隙。在烏克蘭飛機被擊落的案例中,是無法溝通,以及對威脅的錯誤認知。
很容易將上述事件視為難以置信的虛構或不如美國軍隊的決定,但這將是一個悲劇性的錯誤。美軍人員做出錯誤決定導致生命損失的引人注目的事件已經困擾了美國軍隊四十多年。
1987年5月,美國海軍斯塔克號(FFG 31)在兩伊戰爭的禁區邊界附近巡邏。由于錯誤地認為交戰雙方都不會以美國軍艦為目標,當斯塔克號試圖與來襲的飛機進行溝通時,艦長一開始并沒有感到震驚。伊拉克的 "幻影 "噴氣機發射了兩枚 "飛魚 "導彈,造成37名美國人死亡,近二十人受傷。
1988年7月,懷著對斯塔克號艦長未能采取行動保護他的艦艇的回憶,在兩伊戰爭仍然激烈的情況下,當他的艦艇被伊朗炮艇圍攻時,文森斯號(CG49)的艦長錯誤地認為,一架接近的飛機正在接近并以攻擊姿態下降。他發射了一枚SM- 2ER導彈,擊落了伊朗航空公司655號航班,機上290人全部死亡。
1994年4月,兩架美國空軍F-15 "攻擊鷹 "在伊拉克上空擊落兩架美國陸軍UH-60 "黑鷹 "直升機,認為它們是伊拉克的米-24 "雌鹿 "直升機,機上26名軍人和平民全部死亡。空軍AWACS控制飛機和 "攻擊鷹 "之間的誤傳,以及自動識別敵我系統的故障,是造成這場悲劇的近因。
2001年2月,在瓦胡島以南10英里處,在為VIP平民游客進行的演示中,美國海軍格林維爾號核潛艇(SSN 772)進行了一次緊急壓載打擊機動,并在日本漁船愛媛丸號下浮出水面。船上的三十五人中有九人死亡。
2017年6月,美國海軍菲茨杰拉德號(DDG 62)與集裝箱船MV ACX Crystal相撞。她的七名船員被殺,其他幾人受傷。僅僅三個月后,美國海軍約翰-S-麥凱恩號(DDG 56)與懸掛利比里亞國旗的油輪Alnic MC相撞。她的10名船員在這次事故中死亡。
雖然所有這些悲慘的事故背后有多種原因,最明顯的是涉及美國海軍菲茨杰拉德號和美國海軍約翰-S-麥凱恩號的致命碰撞,但很明顯,在每個案例中,都有可用的數據,如果使用得當,可能會打破安全專家所說的 "事故鏈",并防止悲劇的發生。
值得注意的是,做出這些次優決策的軍方人員是在手頭的工具下做了他們能做的最好工作。發生的情況是,戰爭的速度往往超過了人腦做出正確決定的能力。事實上,正如美國陸軍研究實驗室的首席科學家亞歷山大-科特博士在一次指揮和控制會議上所說,"人類的認知帶寬將成為戰場上最嚴重的制約因素"。
美國空軍技術地平線報告這樣描述這一挑戰:"盡管今天人類在許多任務上仍然比機器更有能力,但人類的自然能力正變得與技術提供或要求的巨大數據量、處理能力和決策速度越來越不匹配。更緊密的人機耦合和增強人的表現將成為可能和必要。"由于這些原因和其他原因,海軍需要大數據、人工智能和機器學習,以使其作戰人員在戰斗中獲得優勢。
對于我們今天使用技術的人來說,這一挑戰應該不足為奇。正如任何擁有智能手機的人在打開機器后不久就知道的那樣,獲得足夠的數據很少是個問題。有時讓人不知所措的是對大量的數據進行分類,并試圖只挑出當下必要的數據。從戰爭的角度來看,這意味著系統只向決策者提供經過精心策劃的信息,以幫助他或她做出更好的決定,而且往往是在戰斗的壓力下。
每年春天在海軍戰爭學院舉行的當前戰略論壇是美國海軍的年度會議,討論和評估海軍對國家和國際安全的貢獻。雖然每個論壇都有其亮點,但2017年的活動可能會被人們記住,因為海軍作戰部長在會上用手說話。沒錯,約翰-理查森上將,一個核潛艇兵--而不是一個戰斗機飛行員--用他的手說話,把聽眾帶回了70多年前發明的航空戰術。
CNO將時鐘撥回到20世紀50年代的空軍上校約翰-博伊德和OODA循環。理查森上將用OODA環路來討論美國海軍正在使用的各種新技術。他指出,海軍已經在博伊德分類法中的觀察和行動部分進行了大量投資。他指出,在大數據、機器學習和人工智能等新興技術出現之前,我們對OODA環路中的 "觀察和決定 "部分無能為力,但今天我們可以。
這正是CNO在他的講話中使用博伊德的OODA循環的原因。他解釋說,今天的海軍作戰人員有大量的--甚至是壓倒性的--數據需要處理。他們需要大數據、人工智能和機器學習來整理這些數據,只呈現那些有助于決策者和扣動扳機者更快做出更好決策的信息。不難看出,這種將數據轉化為戰術上有用的信息的努力對作戰的所有方面都很重要,而不僅僅是戰斗機戰術。
現在可能是時候在美國海軍幾十年來幫助作戰人員做出更好決策的努力基礎上再接再厲了。海軍在利用技術幫助作戰人員在緊張的情況下以更少的人和更少的錯誤更快地做出更好的決定方面一直走在前列。在20世紀80年代,海軍研究辦公室啟動了一項計劃,研究作戰人員如何在高度緊張的情況下做出更好的決定。這項計劃被稱為TADMUS(壓力下的戰術決策),它利用認知科學在了解決策者如何做出決策方面取得了新的突破。這導致了海軍太平洋信息戰中心的科學家和工程師設計了幾個原型(多模式觀察站、知識墻和其他),并進行了測試,在幫助決策者實現改進決策方面取得了令人鼓舞的成果。
TADMUS與類似的海軍項目一樣,就其本身而言是好的。但正如理查德森上將在其當前戰略論壇的發言中所指出的,直到最近,將強化決策提升到新水平的技術還不存在。今天,它確實存在,而且利用大數據、人工智能和機器學習能夠為作戰人員提供的東西,很可能導致海戰的下一個突破,特別是在決策領域。海軍太平洋信息戰中心與通過海軍研發界、工業界和學術界的合作伙伴一起,正在領導各種努力,以確保美國作戰人員有能力以更少的人和更少的錯誤做出更好的決定。
在美國戰略和軍事指導的最高層,大數據、人工智能和機器學習被認為對為美國軍隊提供作戰優勢極為重要。而且,那些負責將這些技術整合到美國軍事平臺、系統、傳感器和武器的人越來越多地將決策確定為這些技術可以增加最大價值的一個重要領域。
在AFCEA/海軍研究所 "西部 "會議上的講話中,海軍預算主任迪特里希-庫爾曼少將這樣提出了海軍如何能夠最好地利用大數據、人工智能和機器學習的問題。"我們如何利用人工智能,不是為了生產殺人的自主平臺,而是為了讓指揮官在戰斗中獲得優勢?"的確,美國海軍--進而是美國軍隊--想要利用大數據、機器學習和人工智能的本質,不是在沒有人類監督的情況下向遠方發射終結者般的無人系統,而是幫助操作員做出更快、更明智的決定。
軍事作戰人員將始終處于循環之中,并將得到大數據、機器學習和人工智能的協助。軍方希望通過這些尖端技術--無論是應用于無人系統還是戰爭的其他方面--來實現的是進入對手的OODA循環。負責研究、開發和采購的海軍助理部長詹姆斯-格茨閣下在一次軍事工業會議上這樣說:"如果一支部隊能夠利用人工智能讓決策者比對手更快地做出決定,那么它每次都會贏。"
在海軍戰爭學院的一次演講中,美國防部聯合人工智能中心主任杰克-沙納漢中將這樣說。"人工智能對美國國防最有價值的貢獻將是它如何幫助人類做出更好、更快、更精確的決定,特別是在高后果的行動中。"
很明顯,美國國防部已經認識到,淹沒在數據海洋中的作戰人員無法做出有效的決策,并試圖利用人工智能和機器學習等技術來幫助整理數據,只呈現在激烈戰斗中有用的信息。
沙納漢將軍在戰爭學院的講話中談到了利用大數據、人工智能和機器學習幫助作戰人員做出更好決策的機會和挑戰,他指出:"在思考、書寫和談論人工智能與實踐之間存在著鴻溝。卷起袖子,投入到人工智能項目中,這是無可替代的。
最近,國防部聯合人工智能中心的新主任邁克爾-格羅恩中將這樣強調了決策:
在20世紀的戰爭中,衡量軍事優勢的單位是坦克、艦艇或飛機,以及 "勝過槍炮和棍棒 "對手的能力。在21世紀的戰爭中,軍事領導人只有幾分鐘甚至幾秒鐘的時間來做出關鍵的決定,超越對手的思維能力將決定勝利和失敗的區別。
當美國軍方及其國防工業伙伴在21世紀的第三個十年中制定他們的研發投資決策時,早就應該關注一個長期被忽視的領域--我們的軍事決策者的思想,并確保他們能夠做出更好的決定,比他們的對手更快和更少的錯誤。
機器學習(ML),從廣義上講,是一類自動優化參數以處理給定輸入并產生所需輸出的計算機算法。ML的一個經典例子是線性回歸,據此找到一條最適合(通過)一組點的線。最近的一個例子是分類任務,如用 "貓 "這樣的單字來標記一張百萬像素的圖像。
對于許多應用,ML完成了人類可以做得同樣好的任務。然而,ML在兩種情況下大放異彩:1)任務的數量巨大,例如數百萬;2)問題的維度超出了人類思維的理解。一個簡單的例子是同時實時監控成千上萬的安全攝像頭,尋找可疑的行為。也許一個ML方法可以發現異常事件,并只與人類觀察者分享這些視頻片段。更好的是,異常圖像可以被暫時貼上諸如 "1號入口處的蒙面入侵者 "之類的標簽,以幫助保安人員只關注相關的信息。
除了減少人類的負擔外,ML還可以將人類可能無法識別的復雜的相互聯系拼湊起來。例如,一個ML算法可以發現,在一百萬個銀行賬戶中,有五個賬戶的交易似乎是同步的,盡管它們沒有相互發送或接收資金,也沒有向共同的第三方發送或接收資金。
鑒于手持和固定設備的計算資源不斷增加,我們有必要想象一下,ML可以在哪些方面改變戰爭的打法。當然,ML已經對美國陸軍的科學研究產生了影響,但我們也可以很容易地想象到自主車輛和改進的監視等作戰應用。
本文件的主要目標是激勵美國陸軍和美國防部的人員思考ML可能帶來的結果,以及為實現這些結果,哪些研究投資可能是有成效的。
在ARL的許多研究項目中,機器學習目前正在被使用,或者可以被使用。我們列出了一些使用ML或可能從ML中受益的研究項目。我們列出的與ML相關的ARL研究工作絕非完整。
雖然從技術上講,機器學習自19世紀初高斯發明線性回歸以來就一直存在,但我們相信,ML的最新進展將以我們目前無法想象的方式影響軍隊。在本節中,我們概述了我們認為將得到加強的軍隊行動的許多領域,以及可能采用的ML方法的種類。
軍事情報包括信息收集和分析,因為它涉及到指揮官做出最佳決策所需的信息。由于收集的數據量越來越大,處理必須自動化。需要考慮的主要問題是數據的數量、速度、真實性和多樣性。大量的數據(又稱大數據)需要在許多計算節點上對數據進行智能分配。速度要求快速計算和網絡連接到數據流。真實性是對信息來源和異常檢測的信任問題。多樣性相當于使用許多不同的ML算法的不同訓練模型的應用。我們在本小節中概述了不同類型的數據和分析要求。
讓計算機從從各種媒體來源收集到的大型文本數據庫中提煉出重要的概念和文本部分,有很大的好處。最近報道的另一個ML突破是不同語言之間的精確文本翻譯。 軍隊的一個獨特挑戰是翻譯不常見的語言,因此專業翻譯人員較少。在人工通用智能(AGI)領域,一些團體聲稱,自然語言處理將是類似人類認知的基礎。
鑒于人類、傳感器和代理產生的數據的激增,一個很大的問題是,除了證明其收集的直接用途之外,這些數據還包含什么剩余價值。數據挖掘可以是統計學和機器學習的努力,以發現數據中的模式,否則人類操作者就會錯過。
傳統上,異常檢測是通過首先識別已知數據的群組和描述數據的分布來進行的。然后,當新的輸入被處理時,它們被識別為屬于或不屬于原始分布。如果它們在已知分布之外,就被認為是異常的。以下許多類型的異常檢測系統可能對軍隊有用。
網絡入侵檢測:超出常規的網絡流量。McPAD和PAYL是目前使用的軟件中的2個這樣的例子,它們使用了異常檢測。
生活模式異常:人們的視覺和生物統計學上的行為方式與常人不同,表明他們可能正在進行一些對抗性行動。
基于條件的維護:在當前生命周期中,材料/系統在其年齡段不典型的信號。
士兵異常:有理由相信士兵的生物識別技術不正常。
異物檢測:在已知物資數據庫中無法識別的物體的視覺效果。
自動目標識別(ATR)是一個非常成熟的領域,已經使用機器學習幾十年了。
1)目前深度學習的進展將在多大程度上增強ATR?
2)更復雜的算法是否需要更復雜/更耗電的機載計算?
ML是否能對目標的各種欺騙性的混淆行為具有魯棒性?
強化學習在多大程度上可以用來進行實時軌跡調整?
機器學習在機器人學中的應用也是一個巨大的領域。ML應用領域包括傳感、導航、運動和決策。目前,傳感將從計算機視覺的所有進展中受益。導航,除了使用標準的GPS之外,還可以從自我運動中受益,也就是基于自身感知的運動估計。運動可以被學習,而不是規劃,這不僅會導致更快的開發時間,而且還能在新的環境或受損的模式下重新適應(例如,失去四條腿中的一條)。最后,隨著機器人的數量超過人類操作員的數量,機器人將有必要自行決定如何執行其規定的任務。它將不得不做出這樣的決定:"由于電池電量不足,我是否要回到大本營?"或者 "我是否繼續前進一點,然后自我毀滅?"
除了機器人技術,人們最終希望任何系統在損壞或不能滿負荷工作時能夠自我糾正。這需要在某種程度上的智能,以自主診斷缺陷和問題,并利用其可用的資源糾正這些問題。
在通過機器學習來學習自主權的情況下,問題將是:"自主系統將如何應對X情況?" 這里的問題是,對于一個擁有潛在致命武力的系統,我們怎么能確定它只會正確合法地使用武力?我們推測,在機器學習的算法擁有使用致命武力的實際能力之前,必須對其進行廣泛的測試,即使它與人類的環形決策相聯系。
近年來,大量的研究都在研究使用機器學習來自主地玩各種視頻游戲。在某些情況下,報告的算法現在已經超過了人類玩游戲的水平。在其他情況下,仍然存在著處理長期記憶的挑戰。對于美國空軍來說,智能代理已經成功地在以戰斗為中心的飛行模擬器上進行了訓練,這些模擬器密切模仿現實生活。陸軍的問題包括以下內容。
智能代理能否附加到機器人平臺上?
智能在多大程度上可以通用于處理現實生活與視頻游戲中遇到的各種情況?
當我們可能不理解一個訓練有素的代理的邏輯時,我們能相信它的行動嗎?
代理在多大程度上能夠與人類合作?
在過去的十年里,機器學習在網絡安全方面發揮了不可或缺的作用。具體來說,ML可以用于異常檢測,檢測已知威脅的特定模式,并辨別網絡行為是否可能由惡意代理產生。隨著該領域的不斷加強,問題是ML是否能使安全比對手領先一步,因為對手可能利用ML來混淆檢測。
一個長期的設想是,軍隊使用的每一個機械系統都有一些關于系統當前和預測健康的內部感應。相關問題如下。
我們能從有限的傳感器中辨別出一個系統或系統組件的當前健康狀況嗎?
機載ML能否預測一個系統或系統部件在暴露于特定環境或彈道侮辱之后的健康狀況?
隨著基因組序列的數量繼續呈指數級增長,比較在現場獲得的序列所需的計算工作可能變得無法管理。機器學習可以通過對序列進行不同層次的分類來減少必要的比較。
93 近年來,機器學習已經在檢測各種組織中的惡性腫瘤方面取得了長足的進步。94 它同樣可以被用來描述創傷或創傷后應激障礙(PTSD)95,并制定治療計劃。
陸軍的一個重要組成部分集中在對行動、系統、研究和測試的分析上。傳統上,分析人員使用大量的工具,包括機器學習,以多維回歸、聚類和降維的形式。隨著深度學習的出現,一套新的工具應該是可能的,可以更有效地處理需要更復雜模型的大型數據集。例如,應該有可能從測試期間拍攝的視頻流中提取特征和物理屬性,這可能超過目前的標準做法。
自適應用戶界面(AUI)和情感計算。ML可以用來確定用戶的心理和/或情緒狀態,并提供適合這種狀態的界面。此外,可變的AUI可以服務于用戶的變化。例如,一些用戶可能喜歡音頻反饋而不是視覺反饋。
推薦系統。最流行的推薦系統之一是根據以前看過的電影的評分來選擇用戶想看的下一部電影(例如,所謂的 "Netflix問題")。對于軍隊來說,可以根據以前的使用情況和庫存核算的反饋來推薦后勤補給的情況。
搜索引擎/信息檢索。傳統上,搜索引擎返回文件的 "點擊率"。新的范式是以簡明的形式回答用戶的問題,而不是簡單的模式匹配。
情感分析。社交媒體上的流量和對環境進行訓練的各種傳感器不僅可以檢測關鍵的關鍵詞或特定物體的存在,還可以推斷出可能的攻擊的可能性。
有針對性的宣傳。傳統上,宣傳是通過散發傳單來完成的,如今,宣傳可以通過社交媒體來傳播。ML的角度是如何以最有說服力的信息向正確的人口群體進行宣傳。此外,重要的是快速檢測和顛覆來自對手針對我們自己的人員/人民的宣傳。
本研究的目標之一是確定當前研究中的差距,這些差距可能會限制ML在軍隊研究和行動中的全部潛力。本節借用了ARL運動科學家Brian Henz博士和Tien Pham博士(未發表)的戰略規劃工作。
傳統上,在一個特定領域采用ML的一半戰斗是弄清楚如何適應現有的工具和算法。對于陸軍所面臨的許多問題來說,這一點更為突出,與其他學術、商業或政府用途相比,這些問題可能是獨一無二的。任何數據分析員面臨的第一個問題是使數據適應他們想要使用的統計或ML模型。并非所有的數據都使用連續變量或者是一個時間序列。離散/標簽數據的管理可能非常棘手,因為標簽可能不容易被轉換成數學上的東西。在自然語言處理中的一個例子是,單詞經常被轉換為高維的單熱向量。另一個例子可能是如何將大量的維修報告轉換為對某一特定車輛在一段時間內的表現的預測。
此外,陸軍的要求超出了典型的商業部門的使用范圍,不僅需要檢測物體和人,還需要檢測他們的意圖和姿態。這將需要開發新的模型。另一個大的要求是可解釋性,正如DARPA最近的一個項目所概述的那樣:是什么因素導致ML算法做出一個特定的決定?在一個真實的事件中,如果一個ML算法在沒有人類驗證的情況下宣布一個重要目標的存在,我們能相信這一決定嗎?
隨著對計算要求高的ML任務的設想,開發人員正在使用多線程、并行和異構架構(GPU、多核)來加快計算速度。ML的分布式實現遠不如GPU版本常見,因為分布式計算中的節點間通信存在固有的網絡瓶頸,而且在單精度浮點性能方面,GPU相對于CPU有很大優勢。除了目前對GPU的強烈依賴,生物啟發式神經計算旨在尋找非馮-諾伊曼架構來更有效地執行ML,并可能更快。這方面的一個例子是IBM的神經形態芯片。97 未來的研究應該關注如何分配ML處理,使節點之間的網絡通信最小化。另外,像聚類這樣的無監督學習算法在多大程度上可以被映射到神經網絡中?
其他需要考慮的事情。
目前的ML軟件(特定的神經網絡)在一個小型的GPU集群中表現最好。
大多數基于非神經網絡的ML算法的并行性不高,或者根本就沒有并行。
另一個軍隊的具體挑戰是分析基本上沒有標記的數據集(例如,用無監督學習)。手動標注集群將是一種半監督學習的形式。
隨著進入偏遠地區或任何遠離基地的地區,軍隊必須限制系統的尺寸、重量和功率。此外,在 "激烈的戰斗 "中,時間是關鍵。例如,人們不能在遭到槍擊時等待作戰模擬的完成。最后,在其他商業發射器占主導地位的地區,或者在限制無線電通信以提高隱蔽性的情況下,網絡帶寬可能會受到很大限制。
在這種倍受限制的環境中,機器學習將需要有效地進行,而且往往是以一種孤立的方式進行。截然相反的條件是使用大型數據庫訓練大型神經網絡,這往往是最先進的機器學習功力的情況。商業部門正在開發自動駕駛汽車,據推測將使用低功耗的計算設備(如現場可編程門陣列、移動GPU)進行自主駕駛、道路/障礙物檢測和導航。然而,陸軍將有更多的要求,包括自主傳感器和執行器、態勢感知/理解、與人類的通信/合作,以及廣泛的戰場設備。這將需要多幾個因素的計算能力和特定算法的硬件,以實現最佳的小型化和低功耗。
在混亂的環境中,操作環境預計會有比通常密度更高的靜態和動態物體。此外,人們完全期待主動欺騙以避免被發現。我們也希望能夠開發出足夠強大的算法,至少能夠意識到欺騙,并相應地調低其確定性估計。
基于CNN的目標分類的突破可以部分歸功于每個物體類別的成千上萬個例子的可用性。在軍隊場景中,某些人和物體的數據可能是有限的。人們最終將需要one-hot99或multishot分類器,其中幾個有代表性的數據條目就足以學習一個新的類別。到目前為止,最好的選擇是 "知識轉移",通過調整以前訓練的模型的所有參數的子集來學習新的類別。我們的想法是,由于需要優化的參數較少,修改這些參數所需的數據也較少。
即使對于我們可以產生大量圖像的目標類別(例如,友好物體),我們也需要訓練自己的模型,以便從每個類別的潛在的數千張圖像中識別軍隊相關類別。軍隊還使用商業車輛中通常不存在的其他傳感模式(例如,熱能和雷達)。因此,需要為這些非典型的傳感設備訓練模型。從根本上說,非典型傳感設備可能需要新的神經網絡拓撲結構以達到最佳的準確性和緊湊性。
一個值得研究的有趣領域是將模型和模擬與機器學習相結合。有很多方法可以做到這一點。例如,ML可以用來推導出模擬的起始參數。此外,ML還可以用來處理模擬的輸出。一個耐人尋味的新領域是開發基于物理學或類似物理學的模擬,使用類似ML的模型/方程。一個這樣的應用是預測 "如果?"的情景。例如,"如果我跑過這棵樹呢?接下來會發生什么?"
機器學習在傳統上被認為是人工智能的硬性(即數學)表現形式。有可能最終,所有的人工智能任務都會被簡化為數學。然而,就目前而言,一些智能任務似乎更多的是基于推理或情感。對于之前描述的方法中的任務,ML并不能充分解決以下軟性人工智能的特點。
人類并不總是完全按邏輯推理,但他們也有能力將不完整的信息拼湊起來,做出 "最佳猜測 "的決定。幾十年來,對這種行為進行編碼一直是一個挑戰。
情緒似乎是驅動人類達到某些目的的動機/目標功能。例如,快樂可能會導致不活動或追求生產性的創造力。另一方面,恐懼則可能會導致忍氣吞聲。計算機是否需要情感來更有效地運作,還是說它們最好擁有100%的客觀性?這既是一個哲學問題,也是一個未來的研究方向。不過現在,毫無疑問的是,在人與代理人的團隊合作中,計算機需要準確地解釋人類的情感,以實現最佳的團體結果。
與人類的互動性是陸軍研究未來的首要關注點。一個類似的問題是,不同的計算機系統之間如何進行交流,而這些系統不一定是由同一個實驗室設計的。研究的一個領域是用計算機來教那些在這方面有困難的人進行社會交流。 再一次,對于人與代理的合作,代理將需要能夠參與社會互動,并在人類的陪伴下遵守社會規范。
創造力通常被認為是隨機合并的想法,與新的元素相結合,由一個鑒別功能決定新創造的項目的功能和/或美學。在某些方面,創造力已經被某些計算機實驗室所證明。例如,為了設計的目的,計算機可以被賦予某些方面的創造力。
人工智能的最終目標是將許多狹義的智能算法合并成一個統一的智能,就像人類的頭腦一樣。75鑒于許多狹義的人工智能任務已經比人類的某些任務要好,即使是早期的所謂人工通用智能(AGI)也可能具有一些超人的能力。AGI的一個主要目標是將目前由人類執行的某些任務自動化。
如果不提及許多哲學家的猜測,機器學習將最終能夠改進自己的編程,導致能力的指數級提高,也許會遠遠超過人類智能,那么機器學習的研究就不完整了。這些設想既是烏托邦式的104,也是烏托邦式的105。希望超級智能能夠解決世界上的許多問題。
在這項工作中,我們回顧了機器學習的不同類別,并描述了一些更常用的方法。然后,我們指出了一小部分關于ML在ARL中的應用的例子。最后,我們預測了ML在未來可以應用于軍隊的各個領域,并概述了為實現這一結果需要解決的一些挑戰。我們希望這份文件能夠激勵未來的研究人員和決策者繼續投資于研究和開發,以充分利用ML來幫助推動美國陸軍的發展。
由于人工智能(AI)、機器學習,特別是深度學習的進步,可解釋人工智能(XAI)研究領域最近受到了很多關注。XAI是一個研究領域,重點是確保人工智能系統的推理和決策可以向人類用戶解釋。在軍事背景下,這種解釋通常是為了確保:
人類用戶對他們操作的人工智能系統有適當的心智模型。
專家可以從人工智能系統及其隱藏的戰術和戰略行為中獲得洞察力并提取知識。
人工智能系統遵守國際和國家法律。
開發人員甚至在部署前就能發現人工智能系統的缺陷或漏洞。
本報告的目的是為基于深度學習的人工智能系統提供解釋而開發的XAI技術。這類系統本身就很難解釋,因為它們所模擬的過程往往過于復雜,無法使用可解釋的替代方法來建模。
盡管深度學習XAI領域仍處于起步階段,但科學文獻中已經提出了許多解釋技術。今天的XAI技術主要用于開發目的(即識別錯誤)。需要進行更多的研究來得出結論,這些技術是否也有助于支持用戶為他們所操作的人工智能系統建立適當的心智模型、戰術開發,并確保未來的軍事人工智能系統遵循國家和國際法律。
人工智能、可解釋人工智能、透明度、機器學習、深度學習、深度神經網絡
人工智能(AI)是一個對瑞典[1]和瑞典武裝部隊(SwAF)具有戰略意義的研究領域。當今人工智能成功的主要因素是機器學習(ML)的突破,更確切地說,是深度學習(DL)的突破。DL是一種潛在的顛覆性技術,使我們能夠使用深度神經網絡(DNN)來模擬以前使用傳統技術無法模擬的復雜過程。例如,DL可以用來準確地轉錄(語音到文本)[2,3],翻譯(文本到文本)[4],合成語音(文本到語音)[5],玩實時戰略游戲(視頻到行動)[6,7],讀取唇語(視頻到文本)[8],識別人臉(圖像到身份)[9]和控制自動駕駛車輛(視頻到行動)[10,11]。
然而,DL仍然處于起步階段,沒有一個數學框架可以用來保證模型的正確性[12]。因此,在軍事應用中開發、部署、使用和維護DNN模型時,有許多挑戰需要考慮和解決。
從軍事用戶(操作員、數據分析師等)的角度來看,最重要的挑戰也許是可解釋性。根據經驗,當人的生命受到嚴重影響時,對可解釋性的需求更大。在軍事領域是這樣,在醫學、執法和其他民事服務領域也是如此。可解釋性很重要,因為它影響著用戶對系統的信任和依賴。信任關系必須是平衡的;過多的信任可能導致對系統的誤用,而過少的信任則可能導致對系統的完全廢棄[13]。最終,解釋的目的是幫助用戶建立一個適當的系統心智模型,以確保它能被有效使用[14]。
深度學習有可能改善復雜軍事系統的自主性,如戰斗機、潛艇、無人機和衛星監視系統。然而,它也會使這些系統變得更加復雜和難以解釋。主要原因是,DL是一種端到端的機器學習技術,意味著機器學習從輸入數據中提取最重要的特征,以實現高性能。這被稱為表征學習,它與傳統技術不同,傳統技術是用人類的直覺來手動提取這種特征。表征學習往往能帶來高性能,但它也要求模型具有高度的表現力和非線性。因此,使用DL訓練的DNN可能由數百萬甚至數十億的參數組成。這使得它們很難向人類解釋和說明,即使學習算法、模型結構、訓練數據等都是已知的和很好理解的。
美國國防部高級研究計劃局(DARPA)于2016年啟動的可解釋人工智能(XAI)計劃也許是為解決這一挑戰而采取的最全面的軍事舉措。該計劃的目的是:
"產生更多可解釋的模型,同時保持高水平的學習性能(預測精度)。"
"使人類用戶能夠理解、適當地信任并有效地管理新一代的人工智能伙伴"。
自XAI計劃開始以來,已經取得了許多技術上的進步。一些XAI技術甚至已經實現并打包在軟件庫中,可用于深入了解、調試和驗證DNN[16, 17, 18]。這是朝正確方向邁出的一步,但從軍事角度來看,關鍵是XAI技術和工具也要為軍事用戶量身定做,因為在這些地方需要高級解釋,以確保信任、使用和性能。
本報告的目的是介紹在DL背景下開發的代表性XAI技術。本報告并非詳盡無遺,它并不涵蓋文獻中提出的所有XAI技術。
本報告的目標讀者是操作、獲取或開發AI、ML和DL技術以用于系統或嵌入系統的軍事人員。
第2章介紹了智能Agent、機器學習和深度學習的概念。第3章介紹了文獻中提出的各種XAI技術。第4章介紹了可用于評估XAI技術所提供的解釋的方法和技術。第5章介紹了一個案例研究,其中XAI被用來解釋一個深度學習模型的行為。最后,第6章對報告進行了總結,并對未來的工作提出了建議。
本章介紹了一些概念、方法、術語和技術,是本報告的其余部分的基礎。已經對智能Agent、機器學習和深度學習有基本了解的讀者可以跳過本章。
人工智能是一個廣泛的術語,可以有很多定義。在本報告中,人工智能是指對智能Agent(IA)的研究和設計。一個IA是一個能夠在環境中感知、推理和行動的自主實體。通常情況下,IA與環境中的其他Agent(即多Agent系統)以及人類(如人機合作)進行互動。
當在物理世界中實施時,IAs可以代表從簡單的恒溫器到復雜的自動駕駛車輛、自主機器人、無人機等任何東西。在虛擬環境中,人工智能通常由能夠翻譯、轉錄等的機器人或虛擬助理來代表。在軍事模擬中,IAs通常被稱為非玩家角色(NPCs)或計算機生成部隊(CGFs)。
圖2.1說明了IA的主要組成部分。這些組件通常使用傳統編程和人工智能技術的組合來實現,如專家系統、狀態機、行為樹和機器學習。本報告重點討論完全或部分使用DNN實現的IA的XAI。
圖2.1 - 智能Agent(IA)是一個能夠在環境中感知、推理和行動的自主實體。環境可以是物理的(即現實世界)或虛擬的(如互聯網、虛擬仿真、嚴格游戲)。IA通常與其他Agent、人類互動,分別形成多Agent系統和人機團隊。
ML是人工智能的一個子領域,重點是開發能夠從觀察和經驗中學習的智能系統或IA。在本節中,將介紹ML中使用的主要學習策略。
在監督學習中,IA從已被標記或標注的訓練樣本中學習。學習的目的是使與這些樣本的偏差最小化,同時保持對未見過的輸入的概括能力。實際上,IA將模仿訓練數據中的行為。圖2.2說明了監督學習過程。
在監督學習中,標記過程通常是由人類手動完成的,這就是為什么這種方法在許多應用中可能是昂貴和不實用的。監督學習的主要優點是,一旦數據集建立起來,學習過程是穩定的,而且相對容易監控。
監督學習的主要應用是分類和回歸,其中,離散類標簽和連續值分別代表模型的輸出。分類器可用于檢測代理人視野中感興趣的物體,或識別某一特定情況是否危險。回歸通常用于對Agent的執行器(機器人肢體、方向盤位置等)進行低層次的連續控制。
圖2.2 - 監督式學習。IA從已被標記或標注的樣本中學習。學習過程的目標是創建一個模型,使其與所提供的訓練樣本的偏差最小。淺灰色的方框代表訓練樣本(即輸入和它們的標簽)。
在強化學習中,IA通過在一個通常是模擬的環境中執行動作來學習。學習的目的是IA在模擬器中執行動作時使其獎勵最大化。獎勵通常由游戲的結果來表示,因此用于獲勝或失敗的行動分別由學習算法進行正向和負向強化。學習過程如圖2.3所示。
強化學習的一個主要優點是,不再需要手動標注訓練數據。相反,在某種意義上,獎勵函數被用來自動標記數據。然而,為現實世界的問題設計一個獎勵函數是一項非艱巨的任務。它要求隨著時間的推移,適當的獎勵可以被分配給IA的行動[19]。一個設計不良的獎勵函數可能會導致不理想的和意外的行為。
強化學習被用于IA需要學習最佳行動選擇策略的應用中。當應用于實時戰略游戲時,IA可以比大多數人類專家更好地學習選擇行動[6, 7]。因此,我們有理由相信,強化學習最終也能為軍事目的產生替代的甚至是新的戰術和戰略。
圖2.3 - 使用強化學習,IA通過在模擬環境中采取行動來學習。學習過程的目標是使環境提供的獎勵信號最大化。淺灰色的方框代表輸入,在這種情況下是一個模擬器和一個獎勵函數,是這個學習策略所需要的。
在無監督學習中,IA學習識別無標簽數據中的模式和結構,如圖2.4所示。請注意,盡管被稱為無監督學習,但總是由一個預先定義的指標指導。例如,k-means聚類算法使用歐氏距離對數據進行聚類。同樣,自動編碼器(AE)需要存在一個損失或誤差度量函數。
無監督學習的最常見應用包括聚類、可視化、降維和異常檢測。無監督學習在DL中的一個較新的應用是元學習,其中IA被訓練的目標是成為更快的學習者(即學習如何去學習)。
圖2.4 - 在無監督學習中,IA學習在未標記的數據中識別模式和集群。無監督學習由預先定義的指標(例如k-means聚類中的歐幾里得距離)指導,從數據中學習。
深度學習是一種機器學習方法,可用于上述所有的學習策略(即監督式學習、強化式學習和無監督式學習)。
在DL中,用于捕捉和學習經驗的模型由DNN來表示。DNN本質上是一個數學表達式,由大量的嵌套和可微分的子函數組成。第 2.3.3 節解釋了 DNN 必須是可微分的原因。
DNN 通常使用圖形進行可視化,其中各層節點用邊相互連接,如圖 2.5 所示。在這種表示方法中,每條邊代表一個可訓練的參數或權重,每個節點代表一個神經元(即一個可區分的子函數),使用權重將輸入轉化為輸出。圖2.6說明了一個神經元所進行的操作。該神經元首先計算其輸入和權重的乘積之和。然后這個值被神經元的非線性激活函數處理,產生一個輸出。然后,該輸出被用作下一層神經元的輸入。
在現實世界的應用中,權重(圖2.5中的邊)的數量通常會增長到數百萬甚至數十億。還要注意的是,除了圖2.5中說明的全連接神經網絡(FCNN),還有不同類型的DNN。卷積神經網絡(CNN)用于數據中存在空間關系的情況,這在圖像中是典型的情況。同樣地,當數據中存在已知的時間關系時(如文本和音頻),經常使用遞歸神經網絡(RNN)。在現實世界的應用中,模型的設計通常是使用精心挑選的CNN、RNN和FCNN的混合。本節的其余部分主要討論FCNN。然而,推理和訓練的原則也同樣適用于CNN和RNNs。
在本報告中,用來表示DNN的數學符號是fθ,其中θ代表DNN的可訓練權重或參數。
圖 2.5 - 一個具有四個輸入、兩個隱藏層和一個輸出的全連接 DNN 的可視化。在這個表示中,每條邊代表一個可訓練的參數或權重,每個節點代表一個神經元(即一個可微分的子函數),使用權重將輸入轉化為輸出。每個神經元計算其輸入和權重的乘積之和。然后,該值由神經元的非線性激活函數處理,產生一個輸出。
圖2.6 - DNN中的神經元的可視化。首先,使用輸入x和權重ω的乘積之和被計算。然后,這個值被送入神經元的非線性激活函數g,以產生一個輸出,可以被送入下一層的神經元。代表一個神經元的數學表達式是。請注意,偏差b,也是一個可訓練的參數,與權重不同,它不與輸入相連。
推理是一個過程,在這個過程中,輸入被已經訓練好的 DNN 處理,產生一個輸出。在DNN中,處理是通過網絡的各層向前傳遞進行的。計算圖也許是描述推理的最直觀的方式。在計算圖中,DNN被模塊化為原始的子函數,代表網絡中嵌入的操作。作為一個例子,圖2.7中的計算圖表示有一個輸入的神經元。使用這種表示方法,很容易看到輸入是如何在圖中向前移動(從左到右)時被轉化的。
計算圖可以被擴展到具有任意數量的輸入、神經元和輸出的DNN模型。在實踐中,使用代表聚合層的計算圖來設計DNN是很常見的。然后,不同的層可以相互連接,形成最終的 DNN。
圖2.7--計算圖表示一個神經元的操作,fθ(x)=g(x×ω+b),有一個輸入x和預訓練的參數θ={ω,b}。計算圖可以擴展到包括任意的輸入和輸出。在現實世界的應用中,DNN由代表神經元聚集層的計算圖組成。
訓練是DNN,fθ,及其可訓練參數或權重θ,被更新的過程。訓練是一個迭代過程,目的是調整θ,使損失函數L(fθ)達到最小。在實踐中,方程2.1中的梯度下降(GD)優化方法或其變體被用來執行更新。
在GD方法中,α代表一個超參數(即一個用于控制學習過程的用戶定義參數),稱為學習率。學習率α,控制著學習過程的速度。重要的是,α被適當地初始化,以確保可訓練的參數能夠收斂到一個最佳的解決方案。一般來說,如果α太大,訓練過程就會變得不穩定,可訓練參數就不會收斂。此外,如果α太小,訓練將是穩定的,盡管它將花費太多的時間來收斂。由于這個原因,使用能在學習過程中動態地改變學習速率的調度器已經成為常見的做法。
方程2.1中的項表示可訓練參數的梯度。梯度決定了更新可訓練參數θ的方向,從而使損失函數
增加。請注意,更新的方向與梯度的方向相反,以便使損失最小化。
為了找到這些梯度,我們使用了反向傳播算法。給定一個訓練實例(x, y?),反向傳播算法首先執行一個前向傳遞來計算損失。給定損失后,再進行后向傳遞,使用鏈式規則公式計算梯度。同樣,解釋反向傳播的最直觀的方法是使用計算圖,其中DNN由子函數的集合表示。要進行反向傳播,所需要的就是找到這些子函數的導數。讓我們用一個簡單的例子來說明反向傳播,其中DNN由線性函數fθ(x)=ωx+b表示,只有兩個可訓練參數θ={ω,b}。在這種情況下,損失函數可以定義為fθ(x)和期望輸出y?的平方誤差:
因此,損失衡量了DNN的預測是否接近已知的輸出值,即y。當損失較小時,預測是好的。同樣地,當損失大時,預測就很差。
圖2.8顯示了代表方程2.2中損失函數的計算圖。除了前向傳遞,這個計算圖還包括一個后向傳遞,利用鏈式規則將損失(或誤差)傳播到可訓練參數θ={ω,b}。請注意,訓練中只需要損失相對于可訓練參數的導數(即)。逆向傳播從
設置開始。從這里很容易看出鏈式規則是如何將誤差向后傳播的(從右到左),從而找到
和
。關于本節所述的訓練過程的演示,見附錄A。
即使訓練過程很簡單,可以用計算圖來解釋,也很難理解和解釋模型的行為。下一章將介紹為這些目的而開發的XAI技術。
圖2.8 - 表示平方誤差損失函數的計算圖,。在這個例子中,fθ(x) = ωx + b和θ = {ω, b}分別代表模型和它的可訓練參數,x和y?代表輸入和它的期望輸出(即訓練數據)。
可解釋人工智能(XAI)研究的重點是確保人工智能系統的推理和決策能夠被解釋給人類用戶。盡管由于DL的進步,XAI最近受到了很多關注,但XAI的研究領域并不新鮮。它至少在20世紀80年代就已經存在了[20]。對于XAI研究及其歷史的全面回顧,讀者可以參考[21]。
可解釋人工智能是任何用于影響人類生命高風險決策的軍事人工智能系統的關鍵組成部分。戰術層面上的人工智能應用的例子,重點是短期決策,包括無人駕駛車輛的自主控制以及武器和監視系統的目標識別、跟蹤和交戰。此外,XAI在戰爭的戰役和戰略層面同樣重要,甚至可能更重要,因為長期決策和規劃活動可能影響整個團體。在這個層面上,人工智能系統通常用于信息分析,但也可以通過模擬來提出規劃或行動方案(COA)。XAI在軍事應用中的主要目的是:
心智建模[14, 22]。XAI可用于支持用戶為其操作的人工智能系統建立適當的心智模型。在任何軍事系統中,無論是否啟用了人工智能,用戶都必須清楚地了解系統的運行邊界,以確保適當和有效的使用。
洞察力[23,24]。事實表明,DNN可以用來捕捉知識,并在對復雜過程的觀察中找出人類未知的模式。使用XAI技術,人類有可能解開這些知識并從中學習。使用強化學習的戰術和戰略發展是一個典型的應用,XAI有可能在軍事領域產生更深入的洞察力。
法律和法規[25, 26, 27]。XAI有可能被用來確保AI系統遵循國家和國際法律。也許人工智能最具有爭議性的應用是致命的自主武器系統(LAWS)[26]。一些人希望完全禁止這種系統,而另一些人則認為應該允許使用致命性武器系統,因為它們有可能提高精確度并將附帶損害降到最低[27]。盡管如此,作者認為XAI可以在制定政策的過程中發揮重要作用,以規范何時、何地以及是否可以使用LAWS等AI系統。
排除故障[23, 28]。在文獻中,有許多XAI被用來識別DNN中的錯誤的案例。當圖像中的版權水印或模擬器和游戲中的未知作弊器等現實世界數據中不存在的人工制品出現在訓練數據中時,通常會出現BUG。第2.3.3節中介紹的訓練過程可以學會利用,或走捷徑,利用這種人工制品。其結果是,當呈現測試數據時,DNN工作得很好,但當呈現真實世界的數據時卻失敗了。如果將XAI技術作為開發過程的一個組成部分,這種問題可以在部署前被發現和解決。
本章介紹了在DL背景下專門開發的幾種XAI技術。DL的XAI是一個重大挑戰,因為DNN可能由數百萬甚至數十億的參數組成,使得它們不透明,難以被人類解釋。請注意,據我們所知,擬議的技術還沒有在軍事背景下進行科學評估。因此,在這種情況下,這些技術能在多大程度上提供有用的解釋還不得而知。第四章介紹了如何進行這種評估。
全局解釋技術提供了對 DNN 及其整體行為的洞察力。在本節中,我們主要關注可用于分析和可視化高維訓練數據集的技術,但也關注如何獲取和解釋用于模型評估的性能測量。
在DL中,訓練數據集通常由大量的高維樣本組成。為了直觀地檢查這些數據集,它們必須被降低到人類可以觀察到的維度(即一維、二維或三維空間)。在可視化中總結大型數據集可以提供關于DNN所要學習的任務復雜性的有用見解。它也可以用來識別數據集中可能對DNN的性能產生負面影響的假象[23]。下面是三種無監督的技術,可用于降低維度以達到可視化的目的。
主成分分析(PCA)[29]。這項技術確定了數據集的主成分。數據被投射到被認為是最重要的成分或向量上。PCA的主要缺點是它是一種線性技術,因此,它可能無法識別非線性數據的模式。PCA的主要優點是該技術很好理解(即它可以被解釋),而且與其他技術相比,它的計算效率高。
可變自動編碼器(VAE)[30]。這是一種DL技術,使用DNNs來降低維度。VAE由兩個DNN組成:編碼器和解碼器。編碼器的目的是將高維的輸入數據壓縮成一個潛在的空間向量(在這種情況下是一維、二維或三維)。解碼器的目的是盡可能準確地使用低維潛空間表示重建高維數據。如第2.3.3節介紹的那樣,使用損失函數對DNN進行訓練,使原始輸入和其重建的誤差最小。一旦訓練完成,只需要編碼器來降低維度。這種技術的主要優點是它能夠學習數據中的非線性因素。缺點是VAE是用不透明的DNN構建的,不容易向人解釋。
t-分布式隨機近鄰嵌入(t-SNE)[31]。這項技術是專門為可視化目的開發的。與VAE類似,t-SNE使用GD程序來學習如何最佳地降低數據的維度。在這種情況下,目標函數的目標是保持鄰域距離。t-SNE的優點是,它通常會產生更好的可視化效果。缺點是它的計算很復雜。
為了證明上述技術,將使用MNIST數據集[32]。這個數據集包含灰度圖像,包括代表70000個手寫數字的標簽。每個圖像由28×28像素組成,因此,數據的維度為784。圖3.1說明了從數據集中隨機抽取的15個樣本。
圖3.2中的可視化圖(散點圖)是使用從MNIST數據集中隨機抽取的10000張圖像的子集創建的。在這種情況下,使用PCA(圖3.2a)、VAE(圖3.2b)和t-SNE(圖3.2c和圖3.2d)將維數從784降低到2。這些圖是用所有10000個數據點渲染的,每個數據點的標簽都用顏色編碼,這樣人類就可以直觀地檢查出聚類趨勢。在圖3.2d中,數據集首先使用PCA進行預處理,在使用t-SNE之前將維度從784降低到50。這是使用t-SNE時的標準做法,以確保計算效率。圖3.2中的可視化圖提供了對數據集復雜性的洞察力。如果集群可以被直觀地識別,那么DNN也很可能能夠有效地從數據中學習。同樣地,如果集群不能被識別,那么DNN也將更難從數據中學習。在這種情況下,PCA技術無法分離聚類。因此,不能指望線性分類器能有好的表現。
圖3.1 - 從MNIST數據集中隨機抽取的樣本。樣本的標簽在圖的說明中提供。
圖3.2 - 使用主成分分析(PCA)、可變自動編碼器(VAE)和t分布式隨機近鄰嵌入(t-SNE)在二維散點圖中對高維數據進行可視化。在這種情況下,維度從784(代表28×28像素的圖像)減少到2。這些圖是用10000個數據點呈現的,每個數據點用其標簽(0到9)進行顏色編碼,以便人類可以直觀地檢查聚類情況。在圖3.2d中,在使用t-SNE之前,數據集使用PCA進行了預處理,將維度從784降低到50。這是使用t-SNE時的標準做法,以確保計算效率。可視化提供了對數據集復雜性的洞察力。如果集群可以被直觀地識別,那么DNN也很可能能夠有效地從數據中學習。同樣地,如果集群不能被識別,那么DNN也將更難從數據中學習。
在訓練機器學習模型時,模型開發者會不斷測量模型在它之前未見過的輸入數據上的表現,以確認模型是否在向有用的行為發展。當開發者對模型的表現感到滿意時,就會停止訓練過程,并使用未見過的測試數據進行最終評估。這個最終的測試衡量了模型在現實世界中應用時的預期性能,在那里它通常會遇到訓練時沒有看到的輸入。測試數據集能在多大程度上被用來測量實際性能,取決于測試集與現實世界數據的對應程度。雖然在模型訓練和調整過程中對性能的持續測量主要是對模型開發者有意義,但從XAI的角度來看,最終的性能測量對用戶也是有價值的。
(1)對分類器的評估
在從圖像中對軍用車輛進行分類的例子中,每一類車輛都有數千張圖像,相當一部分圖像將被用于訓練,另外一組圖像將被分開,用于在訓練期間對模型進行微調和測試,還有一組圖像將被保留用于最終的性能測量。由于分類器在訓練過程中沒有看到測試集中的圖像,因此測量它在這些圖像上的表現可以了解模型在新數據上的表現如何。
在一個分類任務中,最直接的性能測量是計算正確分類的比例。這個衡量標準被稱為準確性:
也就是說,如果車輛分類模型在100張圖片上進行測試,85張圖片被正確分類,則該模型在測試數據上的準確率為85%。如果不同類別的實例出現的頻率相同,也就是說,數據是平衡的,那么準確率就會很高。
在水雷分類的例子中,任務是分析類似雷的聲納圖像,并將該物體分類為雷或其他東西(通常是巖石)。在這種情況下,可能相對缺乏可供訓練的雷圖像,因為關于巖石的數據很容易收集,而關于雷的數據,特別是由敵對勢力部署的雷,則不容易收集。
雷檢測案例是一個不平衡問題的例子,如果測試數據集要反映真實世界的發生情況,那么它將包含比雷圖片更多的巖石圖片。作為一個例子,假設測試數據集中千分之一的例子是雷(其余都是巖石)。一個總是返回負面分類(不是雷)的分類器將在測試集上達到99.9%的準確率,因為999個分類中實際上是正確的。然而,它在尋找雷方面是無用的,因為在提交給它的實際雷中,它沒有檢測到任何雷。它的召回率為0%。
通過使分類器更容易對可疑物體返回正面分類(雷),可以提高召回率。在極端的情況下,一個總是返回正面分類的分類器可以達到100%的召回率,因為它可以捕捉到所有的雷和所有的巖石。然而,同樣,它也是無用的,因為每一千次正面預測中,只有一次是正確的。它的精確度將是0.1%。
顯然,一個好的探雷器,或任何分類器,都需要有合理的高精確度和高召回率的數值。也就是說,必須有可能相信正面的分類結果,足以投入更多的資源(如部署潛水員)。也必須有可能足夠信任負面輸出,以期望它能找到相當比例的實際存在的雷。然而,在現實中,這兩者之間總是有一個權衡,正確的平衡取決于特定的操作要求。例如,如果不遺漏雷是很重要的,那么分類器將被調整為高召回率。然而,要付出的代價是較低的精度,導致更多的時間被用于調查巖石。
通過在測試數據集上運行分類器,計算有多少雷被正確分類(真陽性或TP),有多少巖石被正確分類(真陰性或TN),有多少巖石被誤認為是雷(假陽性或FP),有多少雷被誤認為是巖石(假陰性或FN),可以計算出準確率、精確度和召回率。這就產生了一個混淆矩陣,如表3.1所示。
表3.1--混淆矩陣的結構,將正確的正面分類(TP)、正確的負面分類(TN)、錯誤的正面分類(FP)和錯誤的負面分類(FN)的數量列表。
混淆矩陣是代表模型性能的一種緊湊但豐富的方式,從中可以推導出許多不同的度量。與同一行的其他數值相比,一個高精確度的模型具有較高的TP值(FP),或者更正式地說:
與同列的其他數值相比,一個高召回率的模型具有較高的TP值(FN),或者更正式地說:
與非對角線位置相比,一個高精確度的模型在所有對角線位置都有很高的數值,或者更正式地說:
矩陣中數值的其他組合產生了其他指標,每個指標都揭示了模型性能的某些方面。一般來說,一個具有不平衡數據的案例(這往往是現實中的常態)將需要更多的指標來衡量模型的性能。然而,對于面臨問題,正確的指標集可以提供一個簡明的圖片,說明模型在實際環境的表現是怎樣的。由于所有的指標都是從混淆矩陣中計算出來的,一個訓練較好的分類器很快就能從中提取這些信息。
(2)多類分類器的評估
如果一個車輛分類器要區分坦克、摩托車和運輸車輛,就存在一個多指標或多類分類問題。在這種情況下,混淆矩陣的行和列的數量將與類別的數量相同。圖3.3是一個多類混淆矩陣的例子,任務是將手寫數字的圖像從0到9分類,也就是10個類別。
從混淆矩陣中計算出的度量可以概括為:通過比較對角線和其余部分給出準確度,而通過比較每個特定類別的對角線值與其行的總和(準確度)或其列的總和(召回率)給出準確度和召回率。因此,通過對矩陣進行顏色編碼,就像在數字分類的例子中那樣,僅僅通過檢查就可以收集到很多信息。例如,從這個例子中可以看出,總體準確率非常高(將對角線與其他部分進行比較),但在不同的數字類別中,表現卻有些不同。數字5有時會被誤歸為3或6或其他,反之,5有時會被誤認為3。然而,數字1幾乎不會與其他東西混淆。
圖3.3 - 混淆矩陣說明了使用MNIST數據集識別手寫數字而訓練的DNN的性能。混淆矩陣可以用來深入了解該模型最可能與其他數字混淆的數字。
(3)回歸模型的評估
在回歸任務中,不可能計算正確的分類。相反,有必要將模型產生的連續值與測試集中的正確值進行比較。
作為一個例子,假設一個自主地面車輛(AGV)的避障模型正在被訓練。AGV必須根據安裝的傳感器的輸入產生一個轉向信號。轉向信號表示為-1和1之間的數字,其中-1表示左急轉,1表示右急轉,0表示不轉,而兩者之間的所有數字都是相應方向上的轉彎等級。AGV已經根據人類操作員記錄的數據進行了訓練。它的測試方法是將它對給定的傳感器刺激產生的轉向信號,與記錄的數據進行比較。例如,記錄可能表明,檢測到遠處左側的障礙物應該產生有限的右轉信號(例如0.2),而檢測到近處左側的障礙物應該產生一個急劇的右轉(接近1)。一個在后一種情況下產生急劇左轉信號(-1)的模型,應該被判定為比另一個產生輕微右轉信號(如0.2)的模型B表現更差。將模型的預測值與期望值相比較,顯然,模型A與該值的距離是2,而模型B的距離是0.8。因此,模型B更接近于正確的行為。如果對測試數據集中所有實例的這種誤差進行測量和匯總,例如計算平均誤差,就可以得到模型性能的總體衡量。
回歸的評估技術主要在如何進行匯總方面有所不同。平均絕對誤差(MAE)取的是誤差絕對值的平均值。該指標衡量模型預測與期望值的偏差程度。均方根誤差取的是誤差平均平方根。它對應于誤差的標準偏差,與MAE不同的是,它對大偏差的懲罰更大。R平方(R2)將平均平方誤差與信號本身的方差進行比較。因此,它首先對變化很大的信號容忍較大的誤差。
與全局解釋技術相比,局部解釋是用來解釋對感興趣的特定輸入的預測的。這些輸入可以是真實世界的例子,也可以是訓練或測試數據集中的例子。DNN的輸入基本上是由一串數值構成的,代表了一些現實世界的過程,如圖像中的像素、文本中的字母、科學數據等等。因此,一個有300個像素的灰度圖像在300個維度上表示它的數據,每個維度講述故事的一部分(所有維度一起提供整體)。
本節重點討論局部解釋技術,其中顯著性地圖被用于解釋。顯著性地圖通過對每個輸入維度的相關性或顯著性打分,來解釋一個模型的輸出。也就是說,它顯示了每個維度在產生與該例子相對應的特定輸出方面的重要性。對于一幅圖像來說,這些顯著性分數可以轉化為熱圖,疊加在圖像上,以表明模型在產生其決定時注意到哪些像素。圖3.4提供了一個在模擬自動駕駛汽車的背景下生成的顯著性地圖的例子。
這里介紹的前兩種技術是白盒技術。這些技術依靠訪問DNN的內部表示(子函數、梯度等)來產生解釋。其他技術是黑盒技術,可以通過查詢模型(通常是多次)和選定的輸入來產生解釋。因此,黑盒技術往往需要更多的計算資源來產生其解釋。
圖3.4 - 突出顯示了DNN用來控制模擬自駕車的最重要的輸入像素的Saliency圖。在這種情況下,代表道路右側的像素似乎是最重要的。
梯度顯著性(也叫敏感性分析)是最早的局部解釋技術之一,它被用來解釋神經網絡的行為已經有很長時間了[33, 34]。梯度顯著性的想法是通過計算輸入值的變化會在多大程度上改變模型的輸出值來產生解釋。輸入值的變化會對模型輸出值產生最大影響的輸入被認為比其他輸入對模型輸出值更重要。在數學術語中,這被稱為模型輸出對給定輸入(如圖像)的導數。由于DNN訓練使用導數,許多深度學習軟件庫可以直接計算梯度顯著性。
圖2.8中用來解釋DNN訓練過程的計算圖也可以用來理解梯度顯著性的工作原理。梯度顯著性技術不是計算相對于可訓練參數的導數,也就是訓練過程中所做的,而是計算相對于輸入的導數(即)。
梯度顯著性的問題是,它不能區分影響模型輸出的信號和DNN被訓練為過濾掉的干擾物[35]。使用梯度顯著性技術產生的解釋往往是嘈雜的,也會隱藏模型實際使用的特征。解釋哪些特征使輸入的物體類型更多或更少,并不像解釋哪些特征使其成為現實中的物體類型那樣具有信息量[34]。
分層相關性傳播(LRP)發表于2015年,是第一批使用理論框架來指導局部解釋啟發式方法發展的技術之一[36, 34, 37]。該理論框架的主要好處是,它提供了一種方法,可以找到適合于DNN中各層的多種類型的局部解釋啟發式,以及其他類型機器學習模型的局部解釋啟發式。
LRP首先假設為低層對每個輸出值的貢獻分配相關性,應該考慮哪些激活對輸出值是必要的。從輸入中去除這些相關的激活,最好能取消該輸出值。例如,去除被歸類為汽車的圖像中的所有汽車特征,應該意味著該模型的汽車輸出值為零。在數學術語中,這被稱為模型函數的根,而LRP的想法是使用適合搜索這個根的局部解釋啟發式方法。
雖然沒有已知的技術來優化搜索模型函數的根,但有一些對搜索的限制已被證明是足夠的。例如,根的激活應該在輸出值的激活附近,相關的激活應該在可能的輸入空間內,而且只有輸出值的可用相關性應該被用來給激活分配相關性。事實證明,這些約束條件足以找到將相關性從模型輸出傳播回輸入的局部解釋啟發式方法。
LRP假設模型函數可以用數學技術泰勒擴展來近似。泰勒擴展將模型函數分解為簡單的加法項,可以直接映射到神經網絡組件。加法項意味著模型函數可以被分解為作為模型輸出基礎的每個激活的相關性分數。
LRP是一個局部解釋啟發法系列,使用這些技術進行相關性傳播[37]。這些啟發法專門適用于不同類型的神經網絡層和層級。一些啟發式方法還可以將輸出相關性傳播為有助于模型輸出的正向激活和有損于模型輸出的負向激活。這可能有助于識別缺失的特征,使模型輸出的可能性更大。
沙普利加和解釋(SHAP)發表于2017年[38],改進以前的一些方法,指出它們之間的數學共性,然后證明它們都可以通過使用一個特定的數學公式進行改進。
該公式由諾貝爾獎得主勞埃德-沙普利于1953年[39]在經濟學的一個分支--博弈論領域提出。它計算出所謂的沙普利值,用于在參與方之間分配一些聯合游戲的收益。該公式旨在根據一組合理性條件公平地分配收益,因此所有的收益都應該被分配;貢獻大的行為者應該獲得更多的收益;沒有貢獻的行為者應該一無所獲;而且應該有可能將不同游戲的收益相加。事實上,沙普利表明,他的公式是唯一可能滿足所有條件的公式。
就解釋而言,第一步是觀察機器學習模型的輸入維度可以被視為參與模型產生輸出預測的游戲的行為者。輸出值可以看作是游戲的總收益,也就是要在玩家之間進行分配。進行公平分配就是在輸入維度之間按其貢獻比例分配輸出值。換句話說,這樣應用沙普利值,就會產生一個突出性掩碼。這個觀察在SHAP方法之前就已經提出了,例如在[40]和[41]。
最初的SHAP工作的貢獻是觀察到一些早期的方法所產生的解釋都可以統一在一個共同的線性形式下,稱為加和特征歸屬,也就是說,它們都有一個共同的屬性,即它們產生的突出度值加起來就是要解釋的模型的輸出值。然后,[38]的作者設定了與上述條件相對應的穩定性條件,并證明沙普利公式是特征歸屬方法滿足所有條件的唯一途徑。由于之前的所有方法都在某種程度上偏離了沙普利公式(通常是通過應用一些沒有太多理論基礎的啟發式方法),作者認為可以通過調整這些方法使其符合該公式來改進。因此,SHAP實際上是一個基于這些調整的方法系列。例如,調整LIME(見第3.2.4節)以符合沙普利公式,可以得到KernelSHAP,即SHAP的一個模型無關的版本。基于特定模型解釋方法的SHAP版本繼承了相同的模型特定性約束。
局部可解釋模型-診斷性解釋(LIME)在2016年發表時引起了極大的關注[42],因為它是首批可以作為黑盒應用于任何模型的解釋方法之一。LIME通過對樣本進行擾動并觀察所發生的情況來解釋模型對輸入樣本的預測。
任何機器學習模型都將其輸入和輸出之間的關系表示為某種數學函數,由神經網絡的權重和結構或其他參數來定義。這個函數反過來旨在捕捉一些現實世界的關系,例如,一串聲音和一串單詞之間的關系。一個典型的現代機器學習系統所模擬的功能是復雜的,這就是為什么簡單地檢查神經網絡的權重并不能做很多解釋。LIME不考慮函數的整體性,而是試圖描述函數在要解釋的例子附近的作用。通過以不同的方式擾動輸入,它能夠創建一個線性的,因此更簡單的模型,該模型在與所提供的樣本相似的情況下表現得接近于復雜的模型。這個線性模型的系數構成了對輸入的哪些維度對模型的輸出影響最大的直接測量,或者換句話說,這些系數是LIME版本的顯著性掩碼。由于LIME對模型所要做的就是給它提供不同的輸入擾動并觀察它的輸出,所以對模型的內部工作沒有任何了解。
用于解釋黑盒模型的隨機輸入采樣(RISE)是一種模型無關的局部解釋技術,于2018年發表[43]。與LIME類似,RISE通過擾動輸入并觀察模型的反應來生成解釋。因此,對于解釋的生成,不需要了解模型的內部工作。
RISE通過隨機生成掩碼來擾亂圖像,掩碼使圖像像素變暗。掩碼是通過將圖像劃分為較大的區域,并隨機選擇哪些區域包括在擾動的圖像中來生成的。模型對擾動圖像的輸出值描述了掩碼覆蓋圖像區域的程度,這些區域對該模型類別的分類很重要。與覆蓋較少重要圖像區域的掩碼相比,覆蓋許多對分類很重要的圖像區域的掩碼會導致更高的模型輸出值。通過隨機生成許多掩碼,RISE計算出每個圖像區域的平均重要性。圖像區域的重要性解釋了模型的分類。
RISE的一個好處是,它使用大小均勻的圖像區域來生成解釋。因此,這些解釋涵蓋了與圖像中的物體相同的圖像區域。另一方面,LIME使用超級像素(類似像素值的連續區域),這可能無法捕捉到正確的圖像區域。
混合解釋技術通過結合全局和局部XAI技術提供洞察力。混合解釋技術不是只在個案的基礎上使用局部XAI技術,而是在大量的案例上自動應用局部XAI技術,通常是整個數據集。然后,混合解釋技術會比較所有的本地XAI結果,以確定模型表現不符合預期的情況。這種異常情況可以為進一步的模型開發提供信息,或者指出使用模型時需要考慮的性能限制。
譜系相關性分析(SpRAy)技術是在[23]中介紹的。SpRAy是一種半自動化的技術,它使用整個數據集的分析方法來尋找模型性能不符合預期的情況。例如,在圖像分類中,一個一般類型的物體,如狗或汽車,可能會出現在許多形式和背景中,但類似的物體形式和背景應該有類似的局部XAI結果。如果某些情況下的本地XAI結果與預期的不一樣,這可能表明模型行為異常。依賴于現實世界中可能不存在的虛假和人為的相關性的決策策略,也被稱為 "聰明的漢斯"行為。SpRAy包括五個步驟來尋找異常的模型行為:
用LRP計算相關性圖(見3.2.2節)。
對所有的相關性圖進行預處理,使其具有統一的形狀和大小。
對相關性圖進行譜聚類。譜聚類是一種成熟的技術,它將相似性矩陣(衡量案例之間的相似性)轉化為增強相似性矩陣的聚類特性的表示方法[44]。然后可以在新的表示法中檢測到集群。相關性地圖之間的相似性是由成對的相關性圖之間的歐氏距離計算出來的最近的鄰居。兩個相關性圖之間的歐氏距離是由每個像素的每個顏色通道的強度差異計算出來的。
識別有趣的聚類。譜聚類計算出表明不相交或弱聯系的集群的措施(特征值)。特征值的巨大差距表明集群是不同的。
一個可選的步驟是使用例如t-SNE(見第3.1.1節)對聚類進行可視化。
在[23]中,SpRAy被用來證明上一代機器學習技術--支持向量機(SVM)在圖像分類中學習了虛假的相關關系。例如,SpRAy顯示,該分類器使用了四種不同的策略對馬匹的圖像進行分類,檢測馬匹和騎手,在橫向或縱向的圖像中檢測源標簽,以及檢測障礙物和其他環境元素。因此,在沒有源標簽和背景元素的實際應用中,這個分類器是不可靠的。將源標簽添加到其他物體的圖像上,如汽車,他們可以將分類改為馬。
XAI的一個經常被忽視但很重要的方面是評估擬議的XAI技術的能力。第 4.1節從人類因素的角度介紹了評價標準,其中用戶(如操作員或分析師)是衡量XAI加入人工智能系統后的效果的核心。此外,第4.2節介紹了可用于比較本地XAI技術的測試,如第3.2章中介紹的使用啟發式的技術。
對XAI技術的人為因素評估測試了解釋是否考慮了所有對用戶充分利用AI系統的重要因素。例如,用戶可能有不同的目標、需求、知識、經驗、任務背景、用例等。和許多類型的系統開發一樣,在人工智能系統的整個開發過程中,從系統規范到最后的用戶測試,都必須考慮這些因素。由于用于DL的XAI技術是一個新興的研究領域,這些技術的最初用戶往往是對評估模型性能感興趣的系統開發者。這些XAI技術是否對軍事用戶也有用,在很大程度上仍然是一個開放的問題。在[22]中,已經提出了六個指標來評價解釋。
解釋善意。由一份檢查清單組成,其中包括在開發XAI技術時從用戶角度考慮的重要方面。該清單是基于對現有文獻中關于解釋的全面回顧,包括解釋的七個重要方面,例如,解釋是否有助于用戶理解人工智能系統的工作原理,解釋是否令用戶滿意,以及解釋是否足夠詳細和完整。
解釋的滿意度。一個衡量用戶在解釋的好壞方面如何體驗解釋的量表。該量表由八個項目組成,這些項目被表述為聲明(七個好的方面和一個關于解釋對用戶的目標是否有用的項目)。有效性分析表明,該量表是可靠的,可以區分好的和壞的解釋。
促進心智模式的發展。好的解釋會加強用戶對人工智能系統如何工作以及為什么會做出特定決定的理解。在認知心理學中,這種表述被稱為用戶對人工智能系統的心理模型。推薦四個任務來測量用戶對人工智能系統的心智模型,例如,一個提示性的回顧任務,要求用戶在用人工智能系統執行任務后描述他們的推理,以及一個預測任務,讓用戶預測人工智能系統會做什么。用戶的心理模型和專家的心理模型之間的比較顯示了用戶心理模型的完整性。
促進好奇心。好的解釋會促進用戶的好奇心,以調查和解決心理模型中的知識差距。我們建議通過讓用戶識別促使他們要求解釋的觸發因素來衡量好奇心。一些觸發因素的例子是:人工智能系統行動的理由,為什么其他選項被排除在外,或者人工智能系統的行為不符合預期。
對解釋的信任。一個好的心理模型能使用戶適當地信任人工智能系統,并在其操作范圍內使用它。建議使用一個包含八個項目的量表來衡量用戶對人工智能系統的信任。例如,這些項目涉及用戶對使用系統的信心以及系統的可預測性和可靠性。
系統性能。與只使用人工智能系統而不使用XAI相比,XAI的最終目標是提高系統的整體性能。性能測量的例子包括主要任務目標的完成,用戶預測人工智能系統反應的能力,以及用戶的接受度。
未來的研究將提供更多關于在評估人工智能系統的XAI技術時如何解釋這些指標的信息。
第3.2章中描述的本地XAI技術產生了突出性地圖,以突出每個輸入維度的重要性。根據模型所處理的數據類型,顯著性圖的可視化程度是不同的。例如,在處理圖像時通常使用熱圖,而在處理文本時通常使用彩色編碼的字符和詞。
圖4.1展示了一個使用熱圖可視化的顯著性圖的例子。在這個例子中,熱圖是為數字0(圖4.1a)生成的,使用了梯度顯著性(圖4.1b)和LRP技術(圖4.1c)。重要的維度(即圖像中的像素)由較暖的顏色(如紅色、橙色、黃色等)表示,而非重要的維度則由較冷的顏色(深藍、藍、淺藍等)表示。這兩種技術之間的明顯區別可以從高亮維度的位置上直觀地觀察到。本節的其余部分介紹了可以用來定量比較和評估不同技術所產生的局部解釋的技術。最終,我們的目標是找出哪個解釋是最準確的。
圖4.1 - MNIST圖像及其相應的熱圖,使用梯度顯著性和LRP技術生成。圖像中的重要維度或像素用較暖的顏色(如紅色、橙色、黃色等)表示。
刪減[43, 34]是一個指標,通過測量模型在輸入逐漸被扭曲或刪減時準確做出預測的能力來計算。請注意,在這種情況下,刪減意味著將輸入的值轉換為中性的東西(例如,圖像的背景)。刪減過程是由XAI技術產生的顯著性圖指導的,因此更重要維度的值會在不太重要的值之前被刪減。這個指標的直覺是,如果在刪減過程中,性能下降很快,而不是很慢,那么解釋會更好。
圖4.2使用圖4.1b中的梯度顯著性圖說明了刪減過程。在圖4.2b中,50個最突出的像素已經被刪減。在這個階段,很容易推斷出該圖像仍然代表一個0。在圖4.2f中,超過一半的像素(400)已經被刪減。在這個階段,要推斷出圖像實際代表數字0要困難得多。
圖4.2 - 由MNIST圖像的刪減過程產生的圖像,其中0、50、100、200、300和400像素被刪除。
插入指標[43]是對刪減的補充方法。圖4.3說明了在刪減例子中使用的同一MNIST圖像的插入過程。從最初的輸入(用黑色圖像表示)開始,隨著越來越多的輸入維度被插入,按照突出度圖的優先順序,測量準確度的增加。這里的直覺是,當更多的信息被插入到輸入中時,模型預測的準確性應該增加。也就是說,當增加的速度快時,與增加的速度慢時相比,解釋會更好。
圖4.3 - 從MNIST圖像的插入過程中產生的圖像,其中0、50、100、200、300和400像素被插入。
為了證明刪減和插入的使用,使用梯度顯著性和LRP技術來衡量這些過程。在這種情況下,使用分類器對XAI技術進行了評估,該分類器從MNIST數據集中隨機抽取了100張圖像。
圖4.4和圖4.5分別顯示了刪減和插入過程的結果。曲線下的面積(AUC)是一種測量方法,可以用來定量比較XAI技術。對于刪減,較小的AUC值要比較大的值好。同樣,對于插入,較大的AUC值比較小的值要好。
在圖4.4中可以看到,LRP技術的性能曲線的下降更加尖銳,并在使用刪減過程時收斂到一個較低的平均概率值。這與它的熱圖是一致的,與梯度顯著性的熱圖相比,它突出了較少的特征(圖4.1c和4.1b),表明與梯度顯著性相比,LRP在較少的特征下更快地找到了解釋。同樣的結論可以從使用插入過程的結果中得出(圖4.5)。在這里,只需插入幾十個特征,就能觀察到平均概率的快速增加,在插入大約100個特征后達到高性能。
圖4.4 - 梯度顯著性和LRP的刪減曲線。
圖4.5 - 梯度突出性和LRP的插入曲線。
在自然語言處理(NLP)領域,一個常見的機器學習任務是讓人工智能系統評估一個文本在多大程度上表達了消極、積極或中性的情緒(即情緒分析)。諸如 "我非常高興和感激!"這樣的句子顯然表達了積極的情緒,而 "我希望他很快見到他的造物主 "顯然是消極的,而 "他昨天到達 "可以被認為是中性的。積極的例子包含了直接標明它是積極的詞語,而消極的例子則需要對語言有更深的理解,才能抓住其明顯的消極含義。因此,一個文本可以在它所表達的情緒的種類和程度方面有所不同,也可以在它如何直接表達方面有所不同。為了理解人工智能系統是如何試圖理解輸入到它的文本中的情感,可以應用第4.2章中用來解釋圖像分類的同類技術。
情緒分析模型是所謂的SentimentTagger模型的簡化版,該模型主要被內部用來預測推文(即Twitter上的帖子)中的情感。SentimentTagger模型由一個DNN和一個更傳統的NLP模塊組合而成。在這項工作中,只使用了該模型的DNN部分。DNN模型是使用遞歸(即RNN)和全連接(即FCNN)神經網絡層的組合設計的。RNN部分使用一種叫做長短時記憶(LSTM)的技術來實現,該技術專門為一個句子中的單詞或字符之間,甚至是跨句子的遠距離依賴關系建模。例如,在 "我昨天以便宜的價格買的車今天壞了 "這句話中,事件 "壞了 "指的是 "車",盡管它們被其他文字分開。
在SentimentTagger中使用的特定LSTM是通過將傳入的文本(一條推文)分解成其組成字母來觀察的。更確切地說,它看的是字符,如字母,但也包括標點符號、空白、表情符號等等。然后,該模型提取出一個善于模擬情感的中間表征。這個中間表征然后被送入FCNN以產生最終的情感預測。預測是一個在0和1之間的連續值,其中0是最消極的,1是最積極的。因此,這是一個回歸模型,就解釋而言,這意味著解釋不是對預測一個特定類別的貢獻,而是對該特定輸出值的貢獻。
SentimentTagger的預測過程如圖5.1所示。表5.1中還提供了該模型預測的一些例子。表5.1中前三條推文的預測結果與人類判斷的真實情感值很一致。接下來的三條是低估了積極情緒的例子,而最后三條是低估了消極情緒的例子。對于一些例子,如第六個例子,可以說SentimentTagger比人類標簽者做得更好。在所有情況下,了解SentimentTagger的估計依據是什么,將是有益的。
圖5.1 - SentimentTagger的結構。一條推文被送入LSTMRN,它產生一個中間表征。然后將其送入FCNN,反過來產生最終的情感預測。
表5.1 - SentimentTagger對推文進行情感預測的例子。
為了對SentimentTagger產生的預測進行解釋,我們采用了模型診斷性的LIME和SHAP技術。SHAP的版本(KernelSHAP)實際上是對LIME的修改(根據[38]中提出的一般公式),這使得比較變得有趣。在這種情況下,選擇與模型無關的方法的原因是,不同類型的神經網絡的串聯使得應用特定模型的方法變得非同尋常。
SentimentTagger分析推文所包含的字符,而不是在詞的層面。顯著性解釋的最直接表述是指出一條推文的每個字符對該推文的情緒預測有多大貢獻。圖5.2a給出了這樣一個解釋的例子,SentimentTagger預測該條推文的情緒為中性(0.47),而人類判斷的數值為輕微的消極(0.31)。那么,是什么推動了這種預測呢?在這里,顏色編碼被用來表示每個字符對增加或減少情感預測的貢獻。藍色表示消極貢獻(即消極情緒),紅色表示積極貢獻(即積極情緒)。接近透明紫色的顏色代表中性情緒。
這個例子似乎表明,"更好 "這個詞中的字符做出了積極的貢獻,而 "壞 "這個詞中的字符做出了消極的貢獻,而其他字符則提供了一個不太清晰的畫面。從單個字符的顯著性歸因中得出結論是很困難的,因為字符本身并不真正意味著什么。因此,雖然可能有理由讓情感預測模型在角色層面上工作,但可能應該在一個綜合的層面上提供解釋,以更好地映射到實際意義。
如果將字符級別的歸因匯總到包含相應字符的每個詞上,結果就會出現圖5.2b中的可視化。出現的畫面更加清晰,不僅可以看到 "更好 "和 "壞 "對預測的推動作用有多大,而且還可以看出 "什么時候"的輕微積極作用和 "某人 "和 "不耐煩"的輕微消極作用。最后,還可以注意到,"紅色 "和 "藍色 "的數量似乎大致相當,這解釋了為什么SentimentTagger決定對情緒進行中性評價。在后面的例子中,到單詞級別的解釋是可視化的。
圖5.2 - 一條推文,根據其對該推文的情感預測的貢獻,對字符和詞進行了顏色編碼。紅色表示對積極情緒的貢獻;藍色表示對消極情緒的貢獻。在這個案例中,模型預測的是中性情緒(0.47),而人類標注者對情緒的判斷是輕微的消極(0.31)。詞級顯著性的可視化似乎更清楚地映射了句子語義的重要性。
表5.2顯示了九個在不同方面都很有趣的推文例子。顏色對應的是由SHAP做出的顯著性歸因(然后如上文所解釋的那樣匯總到詞級)。預測欄列出了由SentimentTagger預測的情感值,而真實值欄則顯示了由人類判斷分配的值。一個詞越紅,說明組成它的字符越多,共同推動了預測值的上升。反之,一個詞越是藍色,它的字符越是把預測值推低。
對于前三條推文,SentimentTagger的預測與人類的情緒判斷(在真值一欄)相當一致。盡管達成了一致,但有趣的是,SentimentTagger看了哪些詞來得出其預測結果。在第一條推文中,"愚蠢的"、"可怕的"、"丑陋的"、"糟糕的 "和 "不 "促使情緒向消極方向發展,但 "父親 "一詞是一個更強大的消極驅動因素。可以詢問SentimentTagger是否發現了消極形容詞與 "父親 "的組合,或者它是否足夠成熟,能夠識別出 "不是他們的父親 "是一個有害的聲明。第三條推文更清晰;"微笑 "做了大部分的積極作用。
第4條和第5條推文是SentimentTagger將消極情緒分配給實際上相當積極的推文例子。諸如 "醫院"、"走了 "和 "眼淚 "等詞被表面上解釋為消極的,而對上下文的正確理解會否定這種判斷。6號推文似乎也顯示了預測和真實情緒之間的差異。然而,可以說,問句形式所表達的不安全感實際上使預測比指定的標簽更接近事實。
在例子7到9中,關系是相反的,即預測嚴重低估了推文中表達的消極程度。一些被遺漏的消極情緒可能源于拼寫錯誤,如 "appauling"(7),缺失空格,如 "worstairline "和 "beyondajoke"(7),以及口語化的縮寫,如 "tf"(9),盡管一個字符級的LSTM預計會比一個單詞級的更好地處理輕微的拼寫錯誤和空格缺失。其他錯誤則更難解釋,如 "令人震驚"、"可怕"、"凄慘"(7)和 "刺激"(9)。例子8似乎表明,SentimentTagger錯過了 "刺激 "和 "高 "之間的聯系。
表5.3顯示了LIME對相同推文產生的顯著性歸因。雖然SHAP的歸因在很大程度上是可理解的,但并不完全符合直覺,LIME的版本則在很大程度上令人困惑。少數與直覺相符,如 "可笑"(1)、"欣賞"(2)和 "樂觀"(6),其中前兩個沒有被SHAP強調。有些直接與直覺相抵觸,例如 "無用"(7)和 "微笑"(3),后者也與SHAP相抵觸。然而,大多數只是顯得很隨意,如 "ajahnae"(1)、"ago"(2)、"will"(5)和 "today"(8)。這些不直觀的解釋是否表明SentimentTagger存在SHAP沒有發現的故障,或者SHAP的更直觀的歸因是否更準確地描述了LSTM實際在做什么?KernelSHAP在理論上是LIME的一個更好的基礎版本,這一事實表明了后者,但這些定性的結果不能提供任何證明。為了更客觀地比較這兩種解釋方法,在下一節將進行定量分析。
表5.2 - 選定的推文,按SHAP的顯著性數值進行著色,這些數值已經匯總到單詞級別。
表5.3 - 選定的推文,按照LIME的顯著性數值進行著色,這些數值已經匯總到單詞級別。
正如第4.2.1節所解釋的,刪減指標通過按照XAI技術賦予特征的顯著性順序來測試解釋方法的性能。一個好的XAI技術應該對那些對預測模型的輸出很重要的特征賦予很高的顯著性,因此按照這個順序刪減特征會使模型的性能急劇下降。在本案例中,按照突出性順序要刪減的特征是字符,在這種情況下,刪減一個特征意味著用一個空字符來代替它,比如一個制表符或一個空格,而預測模型是SentimentTagger。我們在一批500條推文的例子上對SentimentTagger的SHAP解釋和LIME解釋都進行了刪減測試,然后繪制了模型的預測性能如何隨著刪減的特征(字符)數量而下降。此外,作為一個基線,我們用一個隨機掩碼進行刪減,導致特征以隨機順序被刪減。由于SentimentTagger是一個回歸模型,它的性能不能用準確性來衡量。相反,我們使用了R2指標,該指標代表了對訓練好的模型解釋測試數據中的差異的程度的衡量。
圖5.3顯示了SentimentTagger的R2性能作為刪減數量的函數,分別按SHAP、LIME和隨機掩碼排序。很明顯,刪減測試有利于SHAP,因為它的曲線按照突出性歸因的順序迅速下降,而LIME的相應曲線則明顯不那么陡峭。LIME在刪減測試中的表現只比隨機掩碼略好。因此,SHAP似乎在識別少數特征(字符)方面做得更好,沒有這些特征,模型就無法準確預測。這也許并不奇怪,因為Shapley公式的設計就是為了做到這一點,而LIME則依賴于更多技術上的啟發式方法。然而,通過有選擇地將少數幾個字符替換為空白,甚至有可能完全消除SentimentTagger的性能,這一事實可能是關于此類模型的穩健性(或缺乏穩健性)的一個有趣的跡象。
更值得注意的是,在SHAP案例中,R2值在最初的10次左右的刪減后實際上下降到了零以下,然后隨著更多的刪減被執行,又向零移動。這意味著第一組刪減實際上導致模型的表現比忽略其輸入并總是做出相同預測的模型要差。隨著更多的刪減,模型的預測將趨向于中性預測,即對應于一個空推文,這相當于忽略輸入。因此,R2值會收斂到零。
圖5.3 - 對SentimentTagger預測的SHAP和LIME解釋的刪減分析。隨機順序的刪減被用作基線。該圖顯示了對模型性能的影響,如R2指標所衡量的,當特征按突出性順序被連續刪減(即字符被連續刪減)時。SHAP曲線最初的陡峭下降表明,SHAP善于發現哪些特征對模型性能最為關鍵。低于零的跌幅表明,戰略性的刪減會導致模型做出的情感預測與人類標注的真實情感相矛盾。LIME的緩慢下降表明LIME的顯著性值在尋找哪些特征對模型性能最關鍵方面不如SHAP值,只比隨機刪減稍好。
深度學習將被用于補充和取代軍事系統的某些功能。事實上,DL技術已經在軍事監控系統中得到了應用,以自動檢測和跟蹤大量圖像數據中感興趣的物體[45]。與傳統的軟件技術相比,DL有幾個優勢。最重要的是,DL可以用來為那些使用傳統軟件技術無法建模的復雜過程建模。它還可以促進主動學習,即人工智能系統與用戶互動,以獲得高質量的數據,這些數據可用于增強運行中系統模型(即部署后)。
不幸的是,這些優勢也帶來了重大挑戰,不僅在技術上,而且在操作上都需要解決。在本報告中,重點是可解釋性的挑戰。DL的一個主要缺點是,即使學習算法、模型結構和訓練數據是已知的,并且被很好地理解,但模型本身的行為卻不是可解釋的。在許多用于音樂推薦和廣告目的民用應用程序中,這通常不是一個問題。然而,在軍事領域,理解和解釋人工智能系統的行為是至關重要的。在這種情況下,人工智能系統提供的決定和建議可能會對人類的生活產生深刻的影響。這在使用自主武器和無人機的戰術層面是有效的,在軍事領導人和政治決策者做出長期決定的作戰和戰略層面也是有效的。
也許有人會說,復雜的軍事系統,如戰斗機、潛艇、坦克和指揮與控制的決策支持工具,也是難以掌握的。雖然這是事實,但用于建立這些系統的技術本質上是可以解釋的。因此,如果出了問題,有可能完整地檢查系統以識別和糾正問題。而在DL中,情況并非如此。主要原因是,在現實世界的應用中,DNN經常由數百萬甚至數十億的參數組成。因此,即使是這些模型的創建者也沒有能力系統地解決模型中可能存在的錯誤。
在這份報告中,探討了為解決可解釋性挑戰而提出的幾種最先進的XAI技術。盡管已經取得了一些進展,但可以得出結論,用于軍事領域DL應用的XAI仍然處于起步階段。最終,即使已經提出了許多XAI技術,它們還沒有在軍事背景下被檢測過。因此,不能保證現有的XAI技術能夠在高風險的軍事AI系統中使用DL。
在為軍事目的開發人工智能系統時,我們建議在采購和開發過程中盡早確定可解釋性和可解釋性要求。最重要的是,這些要求的定義是可行的和可驗證的。也就是說,這些要求必須符合在可解釋性方面實際可能的期望。
在未來的工作中,我們打算開發一個評估框架,可以用來支持軍事人工智能系統中XAI能力的發展。
FOI,瑞典國防研究局,是瑞典國防部下屬的一個主要任務資助機構。其核心活動是研究、方法和技術開發,以及為瑞典國防和社會安全利益而進行的研究。該組織雇用了約1000名員工,其中約800名是科學家。這使得FOI成為瑞典最大的研究機構。FOI為其客戶提供了大量領域的前沿專業知識,如安全政策研究、國防和安全相關分析、各種類型威脅的評估、危機控制和管理的系統、有害物質的保護和管理、IT安全和新傳感器提供的潛力。
本報告重點討論了如何利用模擬或生成模型創建的合成數據來解決深度學習的數據挑戰。這些技術有很多優點:1)可以為現實世界中難以觀察到的罕見情況創建數據;2)數據可以在沒有錯誤的情況下被自動標記;3)數據的創建可以很少或沒有侵犯隱私和完整性。
合成數據可以通過數據增強等技術整合到深度學習過程中,或者在訓練前將合成數據與真實世界的數據混合。然而,本報告主要關注遷移學習技術的使用,即在解決一個問題時獲得的知識被遷移到更有效地解決另一個相關問題。
除了介紹合成數據的生成和轉移學習技術,本報告還介紹了實驗結果,這些結果對合成數據方法在飛行員行為克隆、車輛檢測和人臉驗證任務中的潛力提供了寶貴的見解。實驗的初步結果表明,軍事模擬器和生成模型可以用來支持深度學習應用。然而,性能往往受限于合成數據和真實世界數據之間的保真度差距。
深度學習(DL)是一種技術,它提高了在廣泛的現實世界應用中實現復雜任務自動化的能力。翻譯、轉錄、視頻監控、推薦系統和自動駕駛汽車都是基于DL的解決方案已經被開發和部署用于商業目的的例子。在軍事領域,DL有可能支持人類在所有領域和戰爭級別的決策,其應用包括自動目標識別、預測性維護和無人駕駛車輛的自動控制。
與其他機器學習(ML)技術類似,DL使用算法來從數據中提取知識。在這種情況下,知識被編碼在大容量的深度神經網絡(DNNs)中,這些網絡可能由數千、數百萬甚至數十億的可調整參數組成,這取決于所考慮的任務的復雜性。為了正確調整這些參數,學習算法需要大量的訓練數據。沒有這些數據,DNN將無法泛化,因此,當遇到以前未見過的數據時,它將不會有好的表現。
獲取DL的訓練數據是困難的。這在商業應用中是存在的,而在軍事領域更是如此。瓶頸之一是,學習算法通常需要經過人工標注的數據(即為每個輸入數據點提供一個正確的答案)。因此,即使在獲取大量輸入數據相對低成本的情況下,正確標記所有的數據也往往是高成本和費時的。例如,Cityscapes數據集中的5,000個樣本中,每個樣本平均需要1.5個小時來標注(整個數據集大約需要十個月)[1]。此外,由于標注是由人類來完成的,其結果可能是不正確的、有偏見的甚至是有成見的,這也會反映在訓練過的模型的行為上。
此外,訓練數據往往存在長尾分布的問題。也就是說,對于數量有限的普通案例,訓練數據相對容易獲得,但對于大量重要的邊緣案例,訓練數據本身就很難獲得。例如,考慮一個基于無人機的軍用車輛監視和跟蹤系統。在這種情況下,友好車輛的空中圖像相對容易獲得。車輛數據可以在不同的地點、高度、角度、天氣條件、環境等方面獲得。獲取代表合格敵方車隊的類似現實世界的數據集通常是不可能的,因為這種侵入性的情報行動會導致對手的行動。使用遵循長尾分布的數據集訓練的系統通常實用價值有限,因為它只能在條件理想時使用(即,輸入數據與常見情況相似)。當遇到代表邊緣案例的真實世界的數據時,該系統將不會有好的表現,也不能被依賴。
本報告的目的是介紹可用于解決軍事背景下有限訓練數據所帶來的一些挑戰的技術。具體來說,本報告重點討論如何將使用軍事模擬或生成模型創建的合成數據與微調、領域適應、多任務學習和元學習等遷移學習技術結合起來,以加速未來DL在軍事領域應用的開發和部署。
本報告的目標讀者是操作、獲取或開發AI/ML/DL技術,用于或嵌入軍事系統的人員。
本報告假定讀者具有關于ML和DL概念的基本知識,如監督學習、強化學習、損失函數、梯度下降和反向傳播。鼓勵缺乏此類知識的讀者在繼續閱讀本報告之前,先閱讀FOI-報告FOI-R-4849-SE[2]中的第二章。
第2章概述了在深度學習中可以用來生成和整合合成訓練數據的技術和方法。第3章概述了轉移學習技術,可以用來促進知識從一個任務到另一個任務的重用。在第4章中,對這些技術的一個子集進行了評估,并提供了深入了解合成數據方法潛力的實驗結果。第5章中提出了結論。
圖2.2: 一幅戰斗機的圖像(2.2a)通過添加噪聲(2.2b)、濾色器(2.2c)和模糊(2.2d),以及通過縮放(2.2e)和縮放后的旋轉(2.2f)得到增強。每幅圖像都附有所有像素的平均RGB值分布的相應圖表。雖然所有圖像在語義上是不變的,但分布的形狀卻有很大的不同。
圖4.7:從我們的訓練數據集中隨機選擇的合成圖像。對于每一對圖像,左邊顯示的是最初生成的臉,右邊顯示的是編輯過的臉。請注意,所有圖像都在臉部周圍進行了裁剪。
基于人工智能 (AI) 實現的軍事情報(MI)自動化,在許多方面拓寬了情報收集程序和分析功能范圍。在當今的數字化世界中,每分鐘都以指數方式產生數據。世界各地的情報機構正在體驗新的信息維度,而這些信息在過去由于人類處理龐大數據集的能力有限而被忽視。人工智能/機器學習 (ML)的發展帶來了一種革命性的方法,可以收集大量數據并使用 ML 算法進行分析,從而為非戰時時期和戰時戰略、作戰和戰術指揮官生成各種情報信息摘要。為了應對傳統和非傳統威脅,基于機器學習的軍事情報數據收集和分析,將通過有監督、無監督、強化和深度學習方法進行,其中自動化程度通過人在回路和人在回路之外的方法確定。這些 ML 工具將有助于開發系統框架,能夠通過自適應學習技術感知和響應運行環境,從而從其經驗中學習,根據以前的學習和經驗適應不斷變化的環境。結合智能安全傳感器、監控無人機、地球觀測衛星、電子和虛擬源監控系統,可以增強軍事情報信息收集系統。數據分析和數據融合可以在信息源收集、存儲與處理、融合與分析、數據共享4層框架內,通過回歸、分類、時序分析、聚類分析、主題建模、協同過濾和關聯規則等方式進行。軍事云網絡和物聯網 (IoT)可以增強數據共享。與其他武裝軍種、相關部委、工程大學和商業利益相關者合作,將有助于制定未來的策略指南、研發、ML 算法開發計劃以及為各種基于 ML 的 MI 平臺和應用程序生產兼容的硬件。
軍事情報 (MI) 是收集、解釋和向軍事指揮官傳播信息以協助其決策的過程。它研究廣泛的作戰環境,分析各種參與者,同步相關信息并監控非戰時、戰時正在進行的事件。隨著技術的進步,多源數據呈現多倍和多維度增加。這些數據來自戰略、作戰和戰術層面,包括政治、軍事、經濟、社會、商業、媒體和多背景職業人員。情報分析人員經常面臨從大量信息中得出適當結論的復雜任務。從可用數據中得出的假設不能被認為是結論性的,因為它無法通過最大程度收集的信息源進行驗證。由于生成的信息在時間和空間上是動態的,隨著形勢變化而快速演變;從一組信息中得出的結論通常需要驗證,由于處理如此大量的數據和信息的限制,有時甚至在給定的上下文中排除了驗證。此外,需要通過與其他來源的各種相關性分析,定期檢查來源的真實性,這對從這些信息中得出的假設有明顯的影響。
不可否認,由于各種來源的數據生成激增,在信息的收集、分析和相關性評估方面將有很大的改進空間。在收集和分析過程中使用人工智能 (AI) 和機器學習 (ML) 可能是未來最有效的方法。許多技術先進的國家正在用AI/ML改造他們的智能系統。因此,需要評估機器學習是否可用于情報信息的收集和后續分析,處理非戰時、戰時的海量數據流,以獲得戰場環境和當代全球形勢最準確的結論性圖景。
軍事情報是一個動態過程,這是由于各種參與者無處不在的活動,他們產生了連續的數據流。對數據進行評估和分析,將數據分發給利益相關者,采取適當的行動并監測相應的影響,這些都是不可分割的過程,可以通過機器學習系統驅動的自動化進行。此外,通過 ML 系統可以提高和更有效地運行指揮、控制、通信、計算機、情報、監視和偵察 (C4ISR) 系統的功能,其中集成系統可以從環境中學習,并根據迭代學習過程提出評估方法。因此,可以將軍事情報、偵察和監視集成在一個綜合指揮系統下,通過機器學習可以拓寬軍事視野。
Shu-Hsien 等人(2003 年)強調了基于知識的未來軍事情報規劃系統架構。已經討論了許多應用 ML的系統架構和系統配置,其中介紹了自動和半自動分析方法的過渡。此外,還討論了一個具有假設系統實施策略的典型模型。
Prelipcien 等人 (2010) 強調了可用于分析和決策行為模型的各種 AI 算法。簡要介紹了神經網絡的應用、泛型算法、模糊邏輯和專家系統。一些模型描述了神經網絡可用于模式識別但在決策應用方面存在不足。泛型算法具有對環境動態適應的自學習原理,可廣泛用于開發多種決策方案。模糊邏輯被推薦用于基于輸入和期望輸出之間關系的決策規則。它有助于機動計劃和兵力分配,但缺乏具體的判斷決定。專家系統是基于知識規則進行識別和確定特定情況下的行動時間。并重點討論了各種算法模型設計的 ML 應用。
Dijk (2019) 在他之前關于國防應用中的 AI 和 ML 的會議上,為軍事情報分析方法編譯了許多 ML 模型。與實現研究目標相關的方法是無人傳感器和系統、使用 ML 方法對無人機進行聲學檢測、通過無人機系統進行態勢感知、可見光和熱光譜范圍內的視頻監控、用于視覺識別的神經網絡、用于行為識別的深度學習,提出了用于危險分類、信息提取和語義世界建模的深度神經網絡模型,和基于對象的深度學習多光譜圖像融合方法,應用于軍事情報分析。
Ahmed (2019) 強調了人工智能在孟加拉國 (BD) 武裝部隊監視領域應用的重要性。詳細闡述了 AI 實施路線圖架構,可用作探索預期目標的初始參考方案。調查已用于基于ML進行軍事情報分析框架的意見和指南。
Mitchell 等人(2019 年)討論了情報周期元素之間的相互聯系,并列舉了如何將 ML應用于情報周期的各個階段。通過人工智能實現自動化,所有情報機構都可以利用潛在的工作時間,這為情報機構在量化價值方面的效率加速程度提供了深入的見解。這為情報主體在情報過程中應用數學模型時的效率提供了定量比較。
中國(2017)強調了潛在的通用技術、支撐平臺和未來人工智能產業,以開發智能計算技術,用于未來人工智能驅動的重大科技項目。重要的是要發現知識計算技術是建立在自適應機器學習和分析推理技術之上的。其中,關鍵群體智能技術、跨媒體分析推理技術、知識計算與服務技術、混合增強智能架構、智能自主無人系統、智能虛擬現實技術、智能計算芯片與系統、自然語言處理技術,已成為探索未來軍事情報分析的重要創新。大數據智能理論、跨媒體感知理論、混合與增強智能理論、群體智能理論、自主協調與控制、優化決策理論、高級機器學習理論、類腦智能計算等學術研究發展規劃理論、群體智能理論和量子智能計算理論已被預測為 ML 應用于情報分析的指導學術話語。這些將通過機器學習為未來的軍事情報分析構建基于知識的架構。這些是基本的學術指導方針,持續發展將為 ML 用于軍事情報分析創建研發計劃。結合這一理論框架,Haridas(2015)提出了用于國家和軍事情報收集的大數據分析,基于大數據分析的情報可以為決策提供必要的支持。ML 被用作情報大數據分析工具,通過該工具可以實現威脅警報、社交媒體監控、信息挖掘、文檔分析和網絡安全監控。討論了基于大數據應用的情報收集系統的概念布局,其中可以對來自多個收集源的各種信息數據進行實時高級分析,以提供態勢感知、決策制定和戰斗評估。這些都為今后的研究和開發提供了較為詳細的理論概念。
Michael O'Hanlon (2019) 預測未來 20 年軍事技術將發生顯著變化,他專注于軍事技術的未來趨勢。在四類技術突破中,第一類是收集與軍事行動相關數據的傳感器,第二類是處理和分發這些數據的計算機和通信系統。預測了 2020-2040 年關鍵可部署技術的預計進展,其中顯示了傳感器和其他通信系統的部署概率。它對情報采集源、通信和信息處理技術的未來發展做出了清晰的預測。 Connable (2012) 強調了各種形式和格式的情報數據融合過程,并介紹了融合過程對于相關國家和國際參與者分析未來復雜環境的重要性。一個包含政治、經濟、軍事、社會和信息基礎設施的系統分析圖,解釋了信息流如何影響戰略和作戰重心,這驗證了未來情報數據收集和處理熱潮的顛覆性轉變。它描繪了融合的情報圖片如何更好地反映地面圖片,從而幫助情報人員了解復雜的社會-政治-軍事環境,并與大局建立聯系。因此,在未來復雜的作戰和戰略場景中,將在情報數據融合分析方面尋求范式轉變。
為了對來自不同來源的數據進行融合,Cruickshank (2019) 提出通過應用數據科學來開發軍事情報架構,為了從原始數據中提取知識的能力。建議使用 ML 和其他 AI 技術,數據科學將成為分析來自各種收集源結構化和非結構化數據的首選學科。在這方面,Kendrick (2019) 展示了一個在所有陸軍梯隊采用以數據為中心的框架。這允許在陸軍決策和執行的每一層面將數據科學有效地整合到陸軍情報中。數據科學工具可以自動化情報過程的復雜步驟,最終開發軍事情報數據庫。這些概念可以提供為軍事情報過程開發合適的 ML 模型。
Dopico 等人(2009 年)在他們的《人工智能百科全書》中匯編了大量關于當前人工智能技術發展的研究文章。在這些文章中,各種最新的智能系統建模、自適應技術、人工神經網絡、用于信息檢索的人工智能、認知建模、基于行為的神經網絡聚類、智能代理中的決策、面部表情識別程序、分層強化學習、自然語言處理程序、模糊邏輯系統的監督學習和群體智能方法模型,可以提供一個啟動框架,可用于說明 ML 如何用于解釋情報數據并將其轉換為可用信息。有了 ML 程序開發指南,對用于軍事情報分析的 ML 系統的研究和開發可能非常重要。
機器學習是人工智能的一個子集,已被發達國家和發展中國家的軍隊廣泛用于其各種軍事應用和作戰平臺。 ML算法用于分析和學習數據(Bhatnagar,2018)。 ML 旨在通過分析示例和信息中有意義的關系和數據模式,來學習和調整其思維模式,這些示例和信息旨在以類似于人類認知邏輯的性質工作(Janiesch & Heinrich,2021)。在 2018 年美國國防戰略(Defense, 2018)中宣布,將人工智能作為未來打贏戰爭的關鍵技術,這已被美國(US)列為未來戰略。俄羅斯在 2017 年重申追求人工智能技術,因為俄羅斯總統公開宣布了其對未來軍事前景的立場(Simonite,2017)。中國在 2017 年發布了一項戰略,詳細說明了到 2030 年通過人工智能引領軍事技術的路線圖(Council,2017 年)。 Maven 項目是正在進行的領先的軍事 AI 實施項目之一,在伊拉克和敘利亞打擊 ISIS 的行動中,五角大樓通過算法戰跨職能團隊將無人機視頻轉換為可操作的情報,從而開始對 ML 進行軍事應用(WEISGERBER,2017 年)。
軍事情報(MI)流程集成了情報、監視和偵察 (ISR),ISR開發了情報發送 (IC) 流程。通常,它結合了空間數據庫、屬性數據庫、案例庫、規則庫和知識庫,MI 過程通過這些知識庫進行工作。軍事偵察是獲取有關敵對部隊和自身作戰利益地形信息的過程。軍事監視是根據偵察數據對活動進行監測,以便保持有關的最新情況 。MI 結合了分析偵察和監視數據,并將原始信息轉換為對當前和未來行動具有軍事利益的有用情報的過程(Liao 等人,2003 年)。軍事 ISR 的框架如圖 1 所示。
圖1:軍事ISR框架(Liao等,2003)
從圖 1 可以明顯看出,MI 的相互交織的過程列舉了每個過程都與其他過程相輔相成,并且任何過程中缺乏活動都會導致整個 IC 過程出現故障。可以通過自動化以最小的錯誤概率加速持續的協調、修訂、更新和執行。因此,最新的人工智能強化學習方法通??過人機協作將整個過程納入情報分析框架。
MI過程是通過使用管理信息系統(MIS)進行的,通過該系統處理顯性知識。但在當今世界,有大量的數據產生,包括物理數據和虛擬數據,有屬性數據庫、空間數據庫、案例庫和知識庫等多種數據庫。地理信息系統(GIS)和基于知識的決策支持系統(KBDSS)被用于整合決策支持和知識管理功能,以增強顯性和隱性知識庫。在這方面,提出了結合情報戰支持系統(IOSS)結構,通過混合推理策略完成豐富的知識表示,證明了其在生產決策系統中的適用性(Xia & Rao,1999)。該系統的運行基于從書面知識中學習、從問題解決中學習、從問題解決失敗中學習和從遺忘中學習。這稱為自適應和強化學習,它是 ML 的主要屬性和 AI 的核心功能。由于情報收集、積累、分析和傳播功能的動態特性,基于強化學習的 ML 功能正變得越來越流行,并且依賴于 MI 過程。
MI 流程的層次結構和配置大致分為三個層次(Liao 等,2003)。第一層由作戰和戰術情報收集組織和單位組成,其通過偵察和監視手段收集數據、圖片、信號和網絡信息。這些手段大致可細分為人類智能、信號智能、圖像智能和通信智能。第二層次對提供的數據和信息進行不同的情報分析。在此層面上,分別根據日常和緊急需求提供常規和特殊情報報告。常規情報的存檔是這一層面的重要組成部分之一,它會定期更新并根據需要進行檢索。第三層是經常提出智能化要求的用戶組織、上級指揮部和高層領導。他們還定期更新態勢感知以及具有作戰和戰術價值的特殊情況。
MI的作戰流程分為常規任務和特殊任務。在常規任務中,作戰注意力集中在基于常規和標準操作程序的基本情報收集上。有時限的特殊任務側重于從特定事件、情況和人員中獲取特定情報。因此,這兩個作戰過程都闡釋了如圖 2 所示的 IC。
圖2:軍事情報作戰流程(Liao等,2003)
廣義情報作戰流程建立在對第一層情報采集組織和單位采集的原始數據處理之上。將原始數據轉換為信息的過程是由隱性和顯性知識庫完成的。這兩種類型的知識庫之間存在核心差異。隱性知識是任何智力主體的經驗、邏輯思維和膽識的積累,本質上更多的是個人屬性(Oliver, et al., 1997)。它因人而異,并且根據此類知識庫做出的決定通常是出乎意料的,可能不是基于邏輯推理(Hedlund,1994)。盡管在某些情況下,隱性知識被證明是根據情報預測任何結果的合理正確方法。但另一方面,顯性知識基于教義基礎的規則、方法和技術,本質上更精確、清晰和結構化(Zhang & Griffith,1997)。此外,程序性知識是由顯性知識支持的標準操作程序(Anderson,1985)。
在當今的數字化世界中,人類處于大量數據中,這些數據正以指數方式增長。數據的多樣性、數量、速度、矢量和無處不在不僅擾亂了當今的作戰前景,而且忽視了對通過它所承載的信息解釋,從而危及國家安全。在“信息就是力量”的格言下,作戰部隊必須具備解讀這種不斷增加的結構化和非結構化數據的能力,并找到有助于促進非戰時、戰時情報數據庫發展的模式。世界各地的情報機構正在重新定位和重組其傳統的情報作戰方法,以適應動態數據流并準備分析大型數據集。很明顯,在未來的技術時代,情報前景必須拓寬,并依賴于收集和組織大部分自己感興趣的數據來可視化未來態勢。
一般情報作戰由五個相互關聯、相互依賴的循環組成。分別是計劃、收集、處理、分析和傳播 (PCPAD)。收集、處理和分析 (CPA) 階段至關重要,需要從技術方面加以重視,因為操縱和處理的數量已經超過了人類的能力。數據收集來源包括傳感器、航空系統、衛星、無線電信號、開源互聯網、社交網絡、不同的組織、代理、對手等等。這些數據在不同的時間和空間以不同的格式在不同的介質中以二進制數據的數字格式或書面和口頭數據的形式出現。因此,它需要一個通用的解釋系統,可以處理、存儲、解釋所有類型的數據格式,并可以制作通用的情報圖。
根據 Desjardins(Desjardins,2019 年)的說法,世界正在產生大量數據,如圖 3 所示。
圖3:2019年中一天的數據(Desjardins, 2019)
Bulao (Bulao, 2020) 總結了以下關于互聯網世界中通過信息高速公路產生了多少數據的細節。
表 1:通過信息高速公路生成數據(Bulao,2020)
這些是在非戰時時期準備情報數據庫時需要分析的數據量和數據類型,以便在需要的時候幫助提取必要的信息。此外,在過去十年中,非傳統安全 (NTS) 威脅仍然很高,并且已經成為新的安全問題。因此,需要每天開發、更新和監控針對 NTS 威脅的情報,以便及時了解由于參與者的不可預測行為而導致的任何即將發生的情況。在戰時,在活躍的戰場情景下,持續的偵察和監視是任何作戰活動必不可少的組成部分。在戰場環境中,這些來自各種來源的數據被添加到以前的數據庫中,從而產生海量的數據流,這是人類操作員使用傳統的收集、存儲和分析方法無法處理和組織的。在正在進行的 AI 技術時代,有監督和無監督 ML 被廣泛用于收集大量數據。使用 ML 的優點是它可以自主或半自主地訓練自己來整理 MI 所需的數據,這使它能夠用可用的模式標記數據。因此,機器學習系統可以輕松篩選數十億字節的數據并捕獲所需的數據類型,為機器學習創建有意義的信息。雖然機器學習應用于數據收集,但系統通過數據挖掘(Chan,2020)通過正確識別、定位、分析、集成、清理和存儲來準備數據。
在討論了 MI 流程和系統架構的廣泛結構之后,不同國家的軍隊一直在通過監督學習和強化學習關注隱性知識和顯性知識來開發和重新定位其 MI 流程。隨后,對各種正在進行的MI流程系統進行了徹底的重組,這些系統將在可預見的未來主導MI流程的制定。簡要討論了一些最近開發的用于收集和分析 MI 流程的自動化系統。
? 多域指揮和控制系統(MDC2)是集中式平臺之一,收集和分析通過傳感器從陸地、空中、海洋和網絡空間收集的原始數據。這些數據與中央系統的融合是為了創建一個單一的信息庫,從而為決策者創建一個通用的作戰圖(CLARK,2017)。
? 邊境監視系統(BSS),對邊境沿線的物體和人員進行自動監視。它由傳感器、網絡資源和數據庫組成,其中開發了算法來計算指標,從而為威脅提供預測值。它不僅可以估計威脅程度,還可以評估一系列事件的不確定性程度。貝葉斯推理、背書理論、模糊推理和 Dempster Shafer 理論與編程算法一起用于 BSS 的設計(Albertus C. van den Broek,2019)。
? 聲學探測器,是一種通過機器學習方法運行的主動探測系統,可以跟蹤和探測空中和地面中的小型微型物體。 ML 方法用于使用來自各種傳感器和雷達的實時數據來檢測和評估多種算法的性能。這可以將各種音頻特征與可聽和不可聽頻譜區分開來。基于 ML 的檢測算法可以剔除噪聲并通過作戰環境產生可用的情報(Alexander Borghgraef,2019 年)
? 通過增強技術在可見光和熱光譜范圍內進行視頻監控,采用深度神經網絡記錄和檢測紋理和熱圖像。卷積神經網絡是在自適應學習算法下設計的,通過從各種來源獲取傳感器數據并做出決策。它在長波紅外和可見光譜范圍內的大規模多光譜熱世界數據集中特別有用(Vanessa Buhrmester,2019)。
? 基于深度學習的行為識別已經應用于監控系統中的傳感器數據分析。該系統致力于識別人的異常行為并跟蹤具有特定行為模式的人員(Maria Andersson,2019)。該系統通過預設的人與人、人與物、人在特定環境的行為模式來分析不同的行為特征。這是在監督學習模型上設計的,其中具備不同的行為類別和模式,通過這些模型分析和檢查受試者的行為特征,以篩選和檢測所需的感興趣的人。
? 通過結合和分析不同的情報輸入,開發了基于語義世界模型的信息提取技術。這些情報輸入的形式有人力情報(HUMINT)、圖像情報(IMINT)、開源情報(OMINT)、虛擬源情報(VIRINT)等。通過使用數據驅動的機器學習機制和語義世界建模,將信息整合、處理、融合產生一個通用的情報。這些是基于深度學習方法面向結構化和非結構化數據開發的(Almuth Hoffmann,2019)。
ML 在國防、經濟、醫療保健、交通、航空、空間技術、商業等領域的應用領域已經具有較大發展。有趣的是,這些領域的應用成果可以加速國防應用的發展。對于 MI,這些 ML 算法可以用于探索未來的應用,這些應用已經在理論研究中或已經在實際工業應用中。在此基礎上,討論了算法模型及其在模型分析中的應用范圍:
? 從互聯網資源和通信媒體中檢索多媒體信息會在高維空間中產生大量數據。主動學習支持向量機 (ALVSM) 一直在開發以處理此類高維系統,因此可以作為 MI 數據收集和分析的基本系統 (Jiang & Horace, 2009)。
? 基于智能體的智能系統建模被開發用于感知和響應作戰環境,作為一個自適應系統來獲取和存儲信息,從其經驗中學習,通過自動化或半自動化控制,調整方向,適應變化的環境。通過自適應學習不斷修改規則,使系統在不斷變化和演變的環境中做出必要的決策輸出。智能體的工作原理是通過基于代理的建模 (ABM) 結合人類和基于機器的數據進行監控、傾聽和響應 (Tang, et al., 2009)。
? 環境智能 (AmI) 通過物聯網 (IoT) 無縫集成智能設備和基礎設施。它通過語音識別和圖像轉換集成了所有的采集和監視傳感器、智能系統、人、計算機和社會交互。該系統通過認知推理的直觀界面工作,并向智能體提供合適的策略選擇(Sadri & Stathis,2009)。
? 面部表情識別系統 (FERS) 用于識別人類情緒并捕捉大量圖像序列中的面部表情。人機交互解釋面部運動并分析情緒狀態(Dornaika & Raducanu,2009)。
? 數據挖掘和數據倉庫被廣泛用于管理和分析大型數據集(基于模式識別技術)。數據倉庫可用于存儲可在需要時檢索的數據。數據挖掘用于壓縮龐大的信息存儲庫。它是一個涵蓋大數據集、模式識別、機器學習、信息與控制理論、信息檢索、并行與分布式計算和數據可視化的多學科領域(Zhou,2003)。與 MI 分析最相關的數據挖掘活動可能是關聯、序列、分類、聚類和通過神經網絡、決策樹、回歸分析和基于記憶的推理進行的預測(Wang 等人,2009 年)。
? 帶有傳感器、AI 和 ML 的地理信息系統 (GIS) 生成數字地圖,其中輸入來自地面傳感器、空中平臺和衛星。它生成定制的便攜式地圖,其中包含實時和空間放置的更新對象以及用于檢測和跟蹤系統的準確地理坐標。圖像和對象處理是通過自適應和監督機器學習的深度挖掘建模完成的(Matheson,2020)。
? 基于傳感器的認知平臺通過廣泛的神經網絡系統中的各種數據和圖像收集傳感器工作。該平臺通過模糊邏輯和遺傳算法進行操作,形成專家和學習系統(Hamblem,2017)。
要在大局下開發完整的情報概要,顯然需要關聯和融合來自多個收集源的所有情報數據。基于機器學習方法的工具可以分為三類,例如監督學習、無監督學習、強化學習和深度學習。 Alkire (Alkire, et al., 2016) 將分析工具分類為啟用分析、執行分析和支持分析。啟用監督學習方法下的分析工具可幫助智能體快速、準確、完整地執行特定的分析任務。這種半自動化工具通過人機交互和人在環結構中執行分析任務。執行分析是替代智能體的全自動工具;從而在具有人外循環結構的無監督學習方法下運行。執行分析工具可以通過基于任務和基于周期的方式進行操作。基于任務的工具從情報代理中卸載指定的任務并自主完成任務。基于循環的工具完全無需人工??干預即可執行智能循環的所有步驟。強化學習和深度學習下的分析工具通過自適應學習運行,它通過知識管理數據庫、建模、模擬環境、人際協作、縱向和橫向協作來支持智能體。
數據合成是情報數據分析的重要步驟。其目的是將來自各種收集源的所有不同元素組合在一起,以開發單個事件和情況的情報摘要。這種合成一般分三個層次進行。初級階段是基礎分析和開發,其中匯總來自單一來源的數據以制作情報產品。這是關鍵基礎,因為到下一層次的合成鏈取決于此數據組合階段。高級分析和開發層次目的在于解釋多源數據,由于來自多個來源的數據量和類型,分析和開發變得更加復雜。與此層次并行,可以創建多源分析和多情報融合,以發現情報產品之間的關系,這可以被認為是更深層次的階段。這樣做主要是為了找出數據模式,以便可以預測任何情報事件的概率。最后一個層次是所有源分析,其中所有可用數據被融合和合成在一起,并在時間、地點和行為方面對目標進行更準確的預測。這種類型的分析需要一種整體方法來組合所有類型的數據格式,這可以通過監督學習 ML 方法較好地完成。
人機界面和人機協作是將機器學習納入 MI 的重要階段。在 MI 流程的自主化方面,人在環系統一直是首選。可以通過多個層次開發將 ML 納入 MI 流程。這些層級是相互關聯的,可以從總部放置到外勤單位,以促進各種來源的信息流動。
第 1 層將主要包括人力、機械和電子來源。可以放置傳感器、無人機、衛星和雷達,以全天候收集來自全國各地和感興趣區域的圖像源,以用于作戰目的。傳感器是靜態設備,低成本設備,可以很容易地放置在感興趣的地方。傳感器之間可以建立局部連接,其中圖像數據可以收集在全國分布式服務器的數據庫中。此數據存儲功能將在第 2 層(存儲和處理)中進行協調,其中可以在中央數據庫中收集、分類和篩選來自傳感器的所有圖像數據。無人機和衛星分別是可以探測、跟蹤和定位靜止和移動物體的戰術和戰略設施。無人機可以將圖像數據發送到本地和中央數據庫,而衛星數據可以發送到中央數據庫。由于衛星范圍超出國家邊界,它可能用一個單獨的數據庫用于外部圖像存儲。雷達是靜態檢測系統,可以檢測飛行物體、移動物體。這些圖像數據可以通過光纖網絡直接存儲到中央數據庫。
圖4:第1層(數據來源)
智能安全傳感器、無人駕駛航空器(UAV)、地球觀測衛星(EOS)以及電子和虛擬源的功能
非戰時監視是 MI 部門的主要職能之一。為此,除了人工收集信息外,傳感器、無人機和地球觀測衛星(EOS)也可以在收集大量數據和信息方面發揮重要作用。
? 智能安全傳感器
智能安全傳感器是構建 MI 采集系統的關鍵元素。靜態的、通過物聯網(IoT)互聯的傳感器,可以在國家邊境形成一個大型監控網絡系統。它們可以執行各種功能,包括環境監測、武器控制、通信和信號攔截、監測軍事行動、犯罪檢測、入侵檢測、NBC 檢測等。有多種類型的傳感器可用 MI 目的。有源傳感器通過自己的輻射源發揮作用??,該輻射源在電磁頻譜的微波和無線電波長區域工作。它支持包括運動檢測和入侵檢測在內的各種 ML 算法。這些都是通過ML算法下的自動提取過程,從復雜的噪聲頻譜中處理無線電信號。智能傳感器通過強化學習機制發揮作用,這是一種多功能、自我診斷和自我補償的裝置。這些是由具有更高處理芯片的高分辨率圖像傳感處理器構建的,可以將數據從遠程站快速傳輸和共享到中央數據庫或本地數據庫。短波圖像輻射機制已證明它是用于 MI 目的的精密和可靠傳感器之一。微機電系統 (MEMS) 傳感器通過機電傳感器發揮作用,小型化機電傳感器尺寸,因其在短時間內快速部署而廣受歡迎。這些是在崎嶇不平地形和環境中長時間工作的理想傳感器。視覺解釋數據生成過程使其成為值得信賴的軍事檢測傳感器之一。納米傳感器被認為是用于 MI 的最先進技術。它們耐用、堅固、重量輕,并通過自適應學習算法工作。這些新興技術通過創建本地虛擬云網絡來共享數據。這些在難以接近的地形配置中提供了更好的連接性,該配置通過認知學習方法和通過增強現實 (AR) 界面進行工作(Electronicsforu,2018 年)。
? 監視無人機(UAV)
監視無人機(UAV) 是收集難以接近和易受攻擊的地形圖像和視頻數據的基本系統之一。由高分辨率計算機視覺和圖像處理技術建模的移動對象檢測和跟蹤 (MODAT) 框架,用于創建地理空間地圖和其他圖像文檔。對地形物體的監測、對運動物體的跟蹤和實時位置數據的更新,有助于對感興趣區域進行24小時監控。它們獨立運行,集群工作,分散方式通信,以確保最佳的安全性和應用靈活性。自動化 MODAT 框架在圖像對齊、運動檢測和對象跟蹤等三個模塊下運行。圖像數據的大量計算是基于強化學習的各種圖像處理算法進行的(Ibrahim等人,2010)。
? 地球觀測衛星
地球觀測衛星(EOS) 是一個覆蓋廣泛地形的寶貴情報收集系統,因此可以作為任何軍隊的戰略資產設施。 EOS可以從不同高度觀察獲取地形衛星圖像并將其發送回中央控制站。經過適當處理后,這些圖像可以通過機器學習研究地形配置模式的變化,并為潛在的越境入侵提供警報。對衛星圖像進行采集、存儲、處理和解釋的整個過程都是由各個ML算法模型自主完成的。
? 電子和虛擬來源
除了其他傳統和現有的情報來源之外,電子和虛擬來源對 MI 至關重要。數字簽名和潛在信息出現在各種電子媒體和虛擬信息高速公路(互聯網、社交媒體網絡和其他媒體資源)中,可以對任何即將發生的情況建立 360 度的視角和評估。通過有監督的算法建模框架來強化人工智能學習,可以從這些媒介中提取所需的信息。這需要人工的持續監督,可以通過監督學習程序來實現。互聯網上的電子資源是 ML 在檢測和提取所需信息方面發揮重要作用的主要信息來源之一。它可以通過自動化過程對所需信息進行分類和收集,由于數據量大,情報人員經常忽視這一過程。潛在情報來源包括互聯網網站、社交媒體平臺(Facebook、Twitter、Instagram 等)、視頻共享平臺(YouTube、Vimeo、TikTok 等)、新聞門戶(國內和國際)、媒體頻道(國內和國際)。這些來源的數據通常以非結構化的圖像和語音數據格式出現。外交機構是提供該國家最近在政治、經濟和軍事方面發展情況的真實來源之一,這些發展通常以結構化的形式出現。全球軍備合同和交易細節可以提供潛在對手的最新軍備能力。這些主要是結構化數據,收集來源通常需要在第 2 層進行驗證。除此之外,各種軍事技術開發計劃可能是了解未來軍事發展趨勢的最重要來源。這些數據采用結構化格式,通常需要在第 2 層進行驗證。
? 人力情報
人力資源仍將是最重要的信息來源,正如孟加拉國陸軍所流行的那樣。人力情報(HUMINT)可以通過各種人力和其他來源收集。這些可以分為常規、非常規、專業、按需和共享 HUMINT。常規 HUMINT 是從一般收集來源收集的,這些來源經過培訓并符合常規就業原則。從需要定期驗證的來源收集非常規的 HUMINT。這些來源必須符合個性配置文件下第 3 層中設置的驗證參數。專業的 HUMINT 是從高度機密的來源收集的,這些來源通常在感興趣的地方處于休眠狀態,基于自驅動機制收集信息。專業的來源通常在放置之前進行驗證,但需要與在第 3 層中執行的活動模式相匹配。 按需HUMINT 是常規 HUMINT 的擴展,其中來源通常在特定情況下放置在特定的時間范圍內。共享 HUMINT 是經常從其他組織按需或出于共同目的收到的共同情報。 HUMINT 的模式有書面、口頭和編碼格式的數據。這種結構化、半結構化甚至非結構化數據可以通過數據挖掘、NLP 和文本分析方法進行分析。非結構化信息管理架構 (UIMA) 可用于第 2 層,以處理半結構化和非結構化數據并創建通用結構化數據庫。
在第 2 層中,將協同進行數據存儲、數據處理、數據流、數據處理硬件。來自各種來源的數據可以存儲在分散的服務器中,該服務器可以將數據傳輸到中央數據庫。按需數據也可以通過軍用云網絡進行提取。數據處理可以通過 ML 算法進行。對于結構化數據,監督學習系統可以在有限的自主性下使用。對于圖像和語音數據,可以使用強化學習,使其可以從環境中學習,并可以繼承具有情境經驗的自適應配置。 NLP 可以應用于各種語音識別、語音解釋和語音定向。數據存儲可以通過大數據框架內的神經網絡來實現。數據流可以通過安全的光纖網絡進行。此外,機械采集源可以通過物聯網互連,從而可以即時和集中地執行數據流和設備控制。
圖5:第2層(存儲和處理)
基于機器學習的情報數據處理
通過各種收集源獲得的數據將形成大數據。不斷變化的數據結構需要基于ML的數據處理算法,這是一個不斷發展的研究領域。 ML算法對數據的處理是通過數據選擇(結構化、半結構化和非結構化)、數據處理、數據轉換、數據輸出和最終數據存儲來進行的。在不斷發展的數據科學領域,有多種 ML 算法方法。其中,回歸、分類、時間序列分析、主題建模、聚類分析、協同過濾、關聯規則和降維很流行,并在軍事和商業中得到廣泛應用(Bhatnagar,2018)。在使用 ML 算法進行數據處理時,可以采用三種學習類型的 ML 技術。被廣泛使用的 ML 的三個子領域是監督學習、強化學習和自動/無監督學習。在 ML 的這些子領域中,監督學習(神經網絡、貝葉斯網絡、樸素貝葉斯、支持向量機和馬爾可夫模型算法)用于對數據處理任務進行分類和估計。強化學習(Q-Learning、R-learning、TD 學習和 Sarsa 學習算法)用于從情報數據集中開發決策任務。無監督學習(k 均值、高斯模型、X 均值和 Dirichlet 過程模型算法)的主要功能是通過對形勢趨勢分析來產生數據聚類,以做出未來的預測事件(Bhatnagar,2018)。處理和分析各種來源生成的情報數據需要使用大數據框架。在眾多大數據處理框架中,Hadoop 框架最適合 MI 分析(Chowdhury,n.d.)。
第 3 層通過融合各種數據集發揮作用,從而可以開發人格剖析模型、決策模型、動態情境模型和綜合預警 (EW) 系統。結合HUMINT,收集、協作和融合個人在社交網絡(OSN)和其他網站中的互動,創建軍事和非軍事感興趣者的內部動態人格檔案。這類人員的選擇范圍可能包括敵人的軍事和非軍事領導層以及非傳統威脅集團的嫌疑行為者。根據 (Souri, et al., 2018),艾森克三因素模型(精神病、外向、神經質 (PEN) 模型)、大五模型和另類五模型被廣泛用于描述人格概況。為此,可使用樸素貝葉斯、決策樹、神經網絡和支持向量機等 ML 算法來分析在線數據集。
基于強化學習,可以實現定期更新和重構的人格輪廓。根據一個人在不同情況下的各種行為反應所形成的一系列人格特征,編制了人格模型。這種個性模型將被廣泛用于開發大量決策模型,這些模型將成為戰略和作戰領導力的重要成分。類似地,基于某種情況下的各種活動,可以將活動元素的組合以隨機方式融合在一起,以預測即將到來的情況。因此,情景元素的融合將利用機器學習的自適應學習方法構建動態情景模型。所有這些模型將有助于創建關于相關人員和任何情況的綜合電子戰,特別是高級領導和一般部隊。
圖6:第3層(融合和分析)
MI 數據融合的特點
? 數據融合是機器學習將所有類型的數據處理成可用的格式,并為當前和未來情況準備統一圖景的方法。 ML一般通過數據的不不完整、數據的關聯、數據的不一致性和數據的分散性來進行這種數據融合。數據融合是處理多源數據和信息的集自動檢測、因果、關聯、估計和組合的多層次、多方面的過程(F.E.White,1991)。它是信息從不同來源和不同時空點轉換的過程。該過程提高了檢測能力和可靠性,減少了數據模糊性,并擴展了從國家邊界到興趣點區域的空間和時間覆蓋范圍。JDL模型是軍事領域中最常見、最流行的融合模型之一,它基于輸入的結構數據,通過對象、影響、情境和過程細化四個不斷增加的抽象層次產生輸出。 JDL 模型主要側重于輸入輸出數據,而不是處理。相反,Dasarthy 的框架允許輸入/輸出數據流和功能處理(Dasarthy,1994)。基于全球、區域和國家層面事件的不確定性,MI 通常需要適應隨機數據集。根據這些隨機數據集構建大量決策模型將很有用。在這方面,Goodman (Goodman, 1997) 隨機集就是一個非常有用的過程,它具有結合決策不確定性以及呈現不確定性選項的一般模式能力。
? 用于 MI 數據轉換的數據融合技術必須經過魯棒的自適應編程框架,以解決數據類型的不完善、數據類型的多樣性、傳感器技術的多樣性以及操作環境的性質和類型。
? 數據融合算法需要能夠承受智能體和傳感器從現場收集的不完美、不精確的數據類型。它還應該能夠導出冗余數據,從而減少測量中的噪聲。
? 數據融合系統應該能夠避免反直覺的結果,并且能夠以適當的注意力處理高度沖突的數據,從而消除決策錯誤的增加。
? 數據融合方案應該能夠同時處理同質和異構數據,如音頻、視頻、無線電信號和其他形式的信號源。
? 數據融合系統需要通過傳感器注冊來克服由單個傳感器模式引起的校準誤差。該處理可以集中式和分布式兩種方式完成。分布式融合過程在必須建立無線傳感器網絡的偏遠地區非常有用。
? 數據融合方法應針對多個時間尺度,以處理傳感器接收和發送數據的多個時間尺度變化。由于數據流通過的路由是可變的,因此可能存在數據亂序到達的可能性。為了解決這種性能變化的潛在缺陷,融合中心應該具有分布式融合設置。
? 融合過程必須通過強化學習方法進行操作,以便能夠快速適應變化并相應更新。
數據融合方法
實時數據融合系統將面臨許多挑戰,因為該方法仍在探索中。主要挑戰來自非結構化、不完整和不精確的數據。很明顯,MI 數據永遠不會具有完整的結構化格式,因為預測的來源包括人類傳感器、無人機、衛星和其他虛擬和在線平臺。 Khaleghi (Khaleghi, et al., 2011) 描述了數據融合系統中的幾個與數據相關的挑戰。數據融合方法的分類如圖 7 所示
圖7:數據融合方法的分類(Khaleghi等,2011)
無論數據結構如何,ML都可以使用數據融合算法,在多個數據模型中創建數據結構,以滿足MI的各種需求。其中,數據不完備性是數據融合系統面臨的最基本的挑戰,主要表現為不確定性、模糊性、不完全性和粒度性。有許多建議的不完善的數據融合框架來解決這些限制。流行的數據融合框架是概率、證據、模糊推理、可能性、粗糙集理論、混合和隨機集理論融合。該框架具有處理數據不確定性、模糊數據融合、模糊數據處理、不完整數據處理和不完整數據融合的能力。
第 4 層是數據共享平臺,將與內部和外部利益相關者共享完整的態勢模型和集成電子戰信息。這個集中的數據共享平臺將連接到所有編隊指揮部,使態勢感知可以即時到達。這些可以通過具有單獨通信集線器的光纖網絡連接到其他組織和利益相關者。
圖8: 第4層(數據共享)
軍事云計算在MI融合中的應用
軍事云計算(MCC)可以為通用情報數據和資源提供方便的按需共享網絡訪問。 MCC 至關重要的可訪問性功能使其可靠、耐用且安全,具有軍事級別的網絡攻擊保護。它將為所有情報大數據和其他資源提供一個動態的資源池和存儲設施,以便任何情報人員可以在世界任何地方隨時訪問它,同時可以在任何地方、時間上傳各種數據。這樣,MI 資源可以 24 小時共享和訪問。 MCC 可以在 4 層單獨的分散功能中構建。 Cheng & Liao (Cheng & Liao, 2011) 將它們命名為資源層、面向服務的架構層、面向服務的工具層和云計算應用層。資源層將保存所有的物理資源和邏輯資源。物理資源包括存儲配件、網絡設備、物理數據庫配件、服務器等。邏輯資源包括應用軟件和其他相關軟件。面向服務的架構層執行情報服務、通用服務和專業服務的資源共享。面向服務的工具層提供用戶接口和訪問接口,進行仿真建模和調試加密數據。
用于情報數據傳輸的軍事物聯網
軍事物聯網 (MIoT) 將是一個新興且必不可少的系統,用于連接同一軍用級網絡下的所有設備、傳感器、無人機、衛星和其他采集設備。它將人和機器互連在一起,促進人機協作。 MIoT將由除了采集設備之外的所有軍事平臺組成,因此也可以傳遞執行部署指令。這不僅允許信息不斷地流入中央數據庫,而且還將流出的信息傳播給最終用戶。
基于上述關于將機器學習納入 MI 過程的各種因素討論,提出以下建議:
? 除了傳統的 MI 收集源之外,還可以在感興趣的領域中加入基于機器學習的收集源。
? 可引入數據融合中心,對各類數據進行組合融合,形成統一的情報圖。
? 可以與工程機構、政府機構和相關行業合作啟動研發,以幫助推動機器學習算法和配套硬件的自主創新和開發。
? 可規劃ML算法開發時間線及相關MI應用平臺,將MI過程向人機協作轉變。
? 可以在 MI 框架內引入情報層級框架,以便協同實現自動化。
? 必須通過充分更新的防火墻系統確保每一層來源的信息安全。
? 在 MI 流程的每一層都需要確保備份數據存儲。
機器學習是人工智能的一個子集,已被發達國家和發展中國家的軍隊廣泛用于各種軍事應用和作戰平臺。為支持這一趨勢,發達國家通過機器學習重新定位其情報收集和分析過程,以更深入地了解情況并從各個角度進行分析。軍事ISR的框架包括空間數據庫、屬性數據庫、案例庫、規則庫和知識庫,這些過程相互交織。在機器學習應用的情報分析框架中,可以通過自動化以最小的錯誤概率要求人機協作,來加速持續的協調、修訂、更新和執行。地理信息系統(GIS)和基于知識的決策支持系統(KBDSS)被用于整合決策支持和知識管理,以增強顯性和隱性知識庫這兩種形式的情報知識方法。結合智能作戰支持系統(IOSS)結構,通過混合推理策略完成豐富的知識表示,證明了其在決策系統中的適用性。 MI的層次結構和配置大致分為三個層次;第一級由作戰和戰術情報收集組織和單位組成,第二級對收集組織和單位提供的數據和信息進行不同的情報分析,第三級是用戶組織,上級總部和高層領導經常對情報提出要求。第一級和第二級的數據收集和分析步驟可以通過結合基于人工智能的功能系統來實現自動化。
ML 在 MI 中的全球軍事應用的最新發展范圍,包括多域指揮和控制系統 (MDC2)、邊境監視系統 (BSS)、聲學探測器、視頻監視、基于深度學習的行為識別,及通過語義世界建模進行信息提取。這些系統或技術通過使用監督、強化和深度學習方法,來分析來自人力情報 (HUMINT)、圖像情報 (IMINT)、開源情報 (OMINT)、虛擬源情報 (VIRINT) 和許多其他來源的信息。用于 MI 分析的 ML 算法模型已經開發出來,該領域的一些重要成就是主動學習支持向量機 (ALVSM)、基于智能體的智能系統建模、環境智能 (AmI)、面部表情識別系統 (FERS)、數據挖掘和數據倉庫、帶有傳感器的地理信息系統 (GIS) 和基于傳感器的認知平臺。
MI 的收集、處理和分析 (CPA) 階段至關重要,需要從技術方面予以重視,因為操縱和處理龐大的數據量已經超過了人類的能力。數據來源的類型包括傳感器、航空系統、衛星、無線電信號、開源互聯網、社交網絡、不同的組織、代理、對手等等。在非戰時時期,非傳統安全 (NTS) 威脅在過去十年中一直居高不下,并已成為新的安全問題。在戰時,在活躍的戰場情景下,持續的偵察和監視是任何作戰活動必不可少的組成部分。在戰場環境中,這些來自各種來源的數據被添加到以前的數字數據庫中,從而產生大量數據流。 ML 系統可以輕松篩選數十億字節的數據,并捕獲所需的數據類型,為 MI 創建有意義的信息。當機器學習應用于數據收集時,系統通過正確識別、定位、分析、清理和存儲來準備數據。有各種 ML 方法利用復雜算法和預測建模來進行數據分析以預測未來的結果。監督學習適用于訓練和測試數據集,其中訓練數據集可用于 MI 智能體訓練 ML 系統。無監督學習用于查找數據集中的數據結構模式。強化學習使用復雜的算法從其經驗中學習并重新設計其程序以分析預測情況。深度學習通過人工神經網絡發揮作用,其中數據保存在多個層級中,以便通過可變數據接口層使用。在 MI 的自動化中,發現 AI的應用在 MI 過程的處理和分析階段帶來了最大影響。因此,機器學習的內在價值將為 MI 組織促進和利用“自動化紅利”,以便人類可以將節省的時間用于其他高優先級任務。
非戰時監視是 MI 部門的主要職能之一。除了手動和人工收集信息外,傳感器、無人機和 EOS 還可以在收集大量數據和信息方面發揮重要作用。智能安防傳感器可以通過物聯網互聯,可以形成跨越國界的大型監控網絡系統。監視無人機 (UAV) 是通過移動目標檢測和跟蹤 (MODAT) 框架收集無法訪問和易受攻擊的地形圖像和視頻數據的基本系統之一。地球觀測衛星 (EOS) 是一種覆蓋廣泛地形的寶貴情報收集系統,因此可以作為任何軍隊的戰略資產設施。通過監督算法建模框架來強化人工智能學習,可以從電子和虛擬資源中提取所需信息。 ML算法對數據的處理是通過數據選擇(結構化、半結構化和非結構化)、數據處理、數據轉換、數據輸出和最終數據存儲來進行的。用于情報數據處理的 Hadoop 框架作為大數據框架執行,用于處理和分析從各種來源生成的情報數據。數據融合是 ML 將所有類型的數據處理成可用的格式并準備好當前和未來情況的統一圖景的方法。 ML一般通過數據的不完善、數據的關聯、數據的不一致性和數據的分散性來進行數據融合。在各種融合系統中,Joint Director of Laboratories (JDL) 模型、Dasarthy 框架和 Goodman 隨機集執行各種數據融合、特征融合、決策融合和信息融合。流行的數據融合方法涵蓋了概率、證據、模糊推理、可能性、粗糙集理論、混合和隨機集等多種理論。數據合成是情報數據分析的一個重要步驟,它可以將來自各種收集源的所有不同元素組合在一起,以開發單個事件和情況的情報摘要。軍事云計算(MCC)的動態資源池和所有情報大數據及其他資源的存儲設施,可以為通用情報數據和資源提供便捷的按需共享網絡訪問,讓任何情報人員可以在世界任何地方的任何時間訪問它,同時可以在任何時間上傳各種數據。
數據收集、數據存儲和處理、數據融合和分析以及最后的數據共享四個層次的功能,可以通過監督和強化學習方法開發。這將允許全方位擴展 MI 的范圍,并且可以監視感興趣的物理和虛擬區域。因此,ML 的應用將促進 MI 收集和分析過程的自動化,以便可以查看自己興趣點的所有情況,并且戰略、作戰和戰術領導者清楚接下來會發生什么。
Nizam Uddin Ahmed 中校, 在孟加拉國國防學院擔任高級研究員。他對國防技術發展有著廣泛的興趣。他在 Springers、Mirpur Papers 和 NDC 期刊上發表了多篇論文。目前,他正在研究將人工智能納入武裝部隊的可行性,并開發各種深度學習模型。
由于軍事戰場日益復雜,國防部門正在尋找最先進的解決方案,為操作人員提供工具,以實現比對手更快和更有效的決策過程。這些工具通常被稱為決策支持系統(DSS),在過去幾十年里一直在使用。人工智能技術通常被應用在決策支持系統中,以確保與個人行為相比,錯誤率更低,決策更快。在決策支持系統中,這種實現的有效性在很大程度上取決于操作者對人工智能提供的建議的理解能力,以及由此產生的信任。可解釋的人工智能(XAI)允許用戶通過在DSS的用戶界面(UI)中可視化的過程來了解系統是如何得出關于某個決策的建議的。然而,這也帶來了一個固有的問題,即:在用戶超載、降低操作者的決策性能之前,應該向用戶展示多少過程?
在這項研究中,一個人工智能驅動的應用程序已經被開發出來,它可以幫助操作員規劃一個軍用直升機任務。在這個場景中,操作者需要為直升機上的士兵找到兩個合適的著陸區域(LZs),以便接近一個小城市地區的恐怖分子營地。DSS支持選擇合適的降落區域的過程,考慮到各個方面,例如到目標區域的距離、光斑大小、表面類型和坡度。為了評估達到信任和任務績效的最佳水平需要多少透明度,我們定義了四個可解釋性級別,每個級別都增加了信息透明度和控制級別。對于這四個關卡中的每一個,都需要在測試階段設計、開發和評估獨特的ui。結果表明,第三和第四UI設計的性能有所提高(決策制定的時間更少,LZ決策的正確百分比更高,提交的LZ反映了良好的人機交互,感知和實際得分之間的偏差較低),這比前兩層提供了更多的信息和更多的互動可能性。結果還表明,用戶更喜歡個性化他們的UI,以滿足他們的角色、體驗水平和個人偏好。