本報告全面總結了作為機器人語言項目的一部分所做出的貢獻,該項目是由美國陸軍作戰能力發展司令部陸軍研究實驗室牽頭,與南加州大學創意技術研究所和卡內基梅隆大學的研究人員合作開展的一項為期五年的倡議。特別是,本報告描述了在 "用智能系統進行共同理解和解釋的自然行為 "項目下資助的成就。這項研究的目標是為人們使用語言與機器人交流提供更自然的方式。愿景是使機器人能夠與人類隊友進行來回對話,機器人可以提供狀態更新,并在適當的時候要求澄清。為此,我們進行了四個分階段的實驗,在這些實驗中,人類參與者向遠程的機器人發出導航指令,而機器人的對話和導航過程最初由人類實驗者控制。在實驗過程中,自動化被逐步引入,直到對話處理完全由一個在以前的實驗中收集的數據上訓練出來的分類器驅動。
機器人語言項目的新貢獻包括:1)這種多階段的方法來收集無約束的自然語言,作為機器學習算法的訓練數據,以支持對話互動;2)收集對話和機器人數據的語料庫,并策劃成SCOUT語料庫(理解交易的情景語料庫);3)一系列完全自動化的、 3)一系列全自動的概念驗證系統,顯示了所采取的方法的技術前景,4)作為項目一部分創建的算法,現在構成了陸軍聯合理解和對話接口能力的基礎,使士兵和自主系統之間的對話互動成為可能,以及5)通過對話-AMR(抽象意義表示)形式主義在人類-機器人對話的指令語義方面的創新。
圖1 指揮官向機器人發出口頭指令,機器人的能力由兩個向導來執行,分別代表對話管理和機器人導航的能力。
這項研究的重點是通過采用對話作為交流模式,使士兵與智能體的互動,特別是與機器人等具身智能體的互動,既安全又更有效。對話,特別是使用自然語言的來回口頭對話,比傳統的圖形用戶界面有許多好處。其中,對話使智能體能夠在指令不明確時提示人類隊友進行澄清,并在任務完成后提供狀態更新。自然語言對話可以幫助實現智能智能體作為士兵身邊的隊友的愿景,提供士兵今天在完成任務時使用的直觀的無約束的交流模式。
以收集與智能體的自然對話為目標,我們希望采用一種實驗方法,使我們能夠解決以下問題: 1)智能體如何作為隊友與人類進行有效的交流,以完成共同的任務? 2)當人類指導機器人等智能體時,交流的協議如何能以智能體可以使用的形式,從人類那里引出自然的多樣性交流策略?為了回答這些問題,我們與陸軍大學附屬研究中心南加州大學創意技術研究所(USC ICT)的研究人員合作,通過實驗確定如何將開發智能虛擬人的方法適應于機器人。雖然物理機器人平臺是我們的主要任務,但我們的目標是確定可以推廣到各種可以從對話中受益的軟件智能體的方法。
在南加州大學ICT的SimSensei項目中,研究人員使用了一種我們稱之為數據驅動的 "Wizard-of-Oz"(DWoZ)的方法來觀察人類如何與他們認為是自主的虛擬化身聊天。實際上,他們在屏幕上看到的頭像是由人類 "巫師 "實驗者控制的。在與南加州大學ICT的合作中,我們的目標是評估這些貢獻是否可以擴展到自主系統,即地面機器人,以支持與人類隊友的合作搜索和導航任務。該項目由美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的資助項目 "與智能系統共同理解和解釋的自然行為 "贊助,對外稱為 "機器人語言 "項目,由一系列實驗組成,執行多階段實驗的設想,其中向導代表人工智能(AI)組件,在后期階段 "自動消失"。操作上的假設是,像移動機器人這樣的物理智能體的對話系統可以通過基于DWoZ的對話收集來訓練。
這項研究對對話、人機交互、人類因素和自然語言處理領域的新貢獻如下:
一種多階段的、經驗性的方法來收集機器學習算法的訓練數據,以支持與指向物理世界的智能體(如移動機器人)的對話互動(第4和第5節)。
一個對話和機器人數據的語料庫(Situated Corpus of Understanding Transactions [SCOUT]),作為告知智能體在協作搜索和導航任務中如何回應人類隊友的基礎(6.1節)。
在研究過程中開發的一系列完全自動化、端到端的概念驗證系統,顯示了使用DWoZ方法與智能體進行自然對話互動的技術前景(第6.2節)。
作為項目的一部分而創建的算法,現在構成了陸軍聯合理解和對話界面(JUDI)能力的基礎,使士兵和自主系統之間的對話互動得以實現(第6.3節)。
一套新穎的注釋方案,對指導智能體和控制機器人行為的向導實驗者之間的對話交流的結構、內容和語義進行建模(第6.4節)。
本報告的其余部分組織如下。第2節提供了相關工作的基本概述。第3節將先前的研究和本項目之前進行的預試驗研究與DWoZ設計的選定配置聯系起來。第4節概述了任務和實驗設置。第5節對實驗及其結果進行了高水平的描述。最后,第6節討論了項目的影響,第7節是衡量標準,第8節是總結性意見。
美國陸軍作戰能力發展司令部陸軍研究實驗室正在研究行為,建立數據集,并開發異常分類和解釋的技術,其中自主智能體生成自然語言描述和對可能包含異常屬性的環境的解釋。這項技術將支持在不確定條件下的決策,以及士兵和機器人隊友在網絡限制的情況下,在未知或危險的環境中完成探索性的導航任務(例如,自然災害后的搜索和救援)的彈性自主機動。在本報告中詳細介紹了貢獻:借鑒視覺異常檢測的相關工作,設計了一個異常分類法;設計了兩個在虛擬環境中進行的實驗,這些環境被操縱以顯示基于分類法的異常屬性;為異常檢測和解釋任務收集了一個小型人類語音和人類-機器人對話的語料庫;最后,設計了一個新的注釋模式,并將其應用于語料庫的一個子集。
圖1. 帶有實例樣本的類的異常分類法。矩形框包含了類的類型(例如,實體的 "顏色"),橢圓是類屬性的實例或例子(例如,"粉色小貓")。
美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL),正在研究行為,建立數據集,并開發異常分類和解釋的技術,其中自主代理生成自然語言描述和對可能包含異常屬性的環境的解釋。這項技術將支持在不確定條件下的決策,以及士兵和機器人隊友在網絡受限的情況下,在未知或危險的環境中完成探索性的導航任務(例如,自然災害后的搜索和救援)的有彈性的自主操作。自動生成的自然語言解釋將促進在篩選大量低質量或重復的視覺數據時遇到的信息過載問題,迅速引起對非典型情況的注意。
將異常情況檢測的任務放在士兵由于可能對他們有危險的條件而無法穿越環境的場景中。此外,由于可用帶寬的限制和約束,接收環境的圖像或實時流可能是不可行的。因此,機器人隊友的作用就變成了在空間中導航,并通過簡潔和信息豐富的自然語言陳述或文本報告向士兵傳達信息。這種設想中的異常情況檢測技術的成功部署必須能夠:
由ARL主持并通過國家安全創新網絡X-Force獎學金招募的兩名實習生組成的團隊花了10周時間探索這個問題的空間。在本報告中詳細介紹了貢獻:借鑒視覺異常檢測的相關工作,設計了一個異常分類法(第2和第3節);設計了兩個在虛擬環境中進行的實驗,根據分類法,這些實驗被操縱以表現出異常屬性(第4節);為異常檢測和解釋任務收集了一個人類語音和人類-機器人對話的小型語料庫(第5節);最后,設計了一個新的注釋模式,并將其應用于我們語料庫的一個子集(第6節)。
創造能夠適應人類的人工智能隊友的一個必要步驟是,開發能夠向人工智能系統表達人類目標和意圖的計算建模方法。用各種各樣的方法來實現這個目標是可能的,從基于過去數據的純粹預測模型到僅基于理論的生成模型。一種有希望的方法是所謂的從示范中學習的方法(Argall等人,2009;Ravichandar等人,2020),這種研究主旨是利用示范數據,如專家執行任務的行為,并訓練模型(通常被稱為 "智能體")來執行專家的任務。在本報告中,我們采用了從示范中學習的方法來模擬和預測模擬機器人在避撞的團隊任務中的行為。具體來說,我們采用了逆向強化學習(IRL)(Ng和Russell,2000年;Arora和Doshi,2021年),這是一種從演示中推斷獎勵函數的方法。
這項任務是基于一個研究性的視頻游戲,被用來研究人類自主性的團隊合作(Adamson等人,2017年),涉及一個由人類玩家和一個AI智能體共同控制的機器人。在沒有玩家輸入的情況下,AI智能體控制機器人,但玩家可以在任何時候推翻智能體,類似于現實世界中與自動駕駛助手一起駕駛的情況。這項任務對旨在模擬人類意圖的示范學習方法提出了挑戰,因為觀察到的任務行為來自兩個示范者的控制:一個是人類,一個是自動駕駛。例如,人類的行為可能是由對自己的目標的理解和對人工智能的目標的估計產生的。此外,當人工智能處于控制狀態時,所有關于人類的信息都是他們不提供輸入的,人類同意人工智能選擇的程度是隱藏的。
我們對這一特定任務的關注是由我們的團隊正在進行的工作所激發的,即利用激發這一任務的研究視頻游戲從參與者那里收集數據。最終,我們將嘗試模擬真實的人在長時間內的行為--每天玩180天--以促進適應性AI智能體的發展。這里描述的工作是對一種方法的驗證,這種方法將推動我們的團隊實現這一目標;然而,這種方法具有足夠的通用性,其核心概念可以應用于其他地方。
(2020年2月5日,美海軍陸戰隊網絡空間司令部的海軍陸戰隊員在馬里蘭州米德堡拉斯韋爾大廳的網絡作戰中心觀察計算機運行情況。海軍陸戰隊開展進攻性和防御性網絡作戰以支持美國網絡司令部,并操作、保護和保衛海軍陸戰隊事務網絡)
沖突的勝負取決于軍事抵消,也就是國防單位可以用不對稱的方式來打擊對手的優勢。隨著大國競爭、對手技術的超常發揮以及不斷擴大的戰場,傳統的抵消手段往往被人工智能(AI)所增強。然而,國防部(DOD)將人工智能投入使用的能力剛剛起步。五角大樓采用的最初的人工智能計劃側重于將商業能力轉移到國防部門,因此強調技術性能,不強調以任務為導向的功能。因此,最初的試點項目未能進入現實世界的作戰環境(OE)。
實用化取決于這樣一種認識,即人工智能不是一種最終狀態,而是實現軍事優勢的一種方式。為此,人工智能相關方法的技術執行必須與作戰環境相結合。這種考慮與傳統思維不同,因為人工智能解決方案的開發通常是為了實現某種統計閾值(例如,召回率、精確度),而不是軍事目標(例如,增加對峙距離)。
這一動態被 "算法戰"一詞所混淆,目前該詞混淆了技術和軍事特征。算法戰旨在減少處于危險境地的作戰人員的數量,在時間緊迫的行動中提高決策速度,并在人類無法操作的時候和地方進行操作。然而,這些目標都不涉及數學或計算機科學;它們完全建立在軍事最終狀態之上。問題是,在五角大樓走上人工智能的道路之前,科學、技術、工程和數學學科與軍事目的之間的橋梁從未建立。
所需的橋梁是一個指導和評估人工智能實用化的框架,一邊是算法性能,另一邊是任務效用。這樣的組合確保了數學方程可以證明或從數字上驗證一個人工智能系統,而定性的基準則保證了實際應用。其結果是算法戰不僅基于統計數據,而且基于更廣泛的作戰相關性架構。這種相關性體現在五個要求上:
為軍事人工智能項目制定有效性措施(MOE)需要將研究和技術方法(例如,基礎理論)與美國防部的條令相結合。如果沒有這種映射,算法戰就會淪為算法開發過程,而不是作戰部署。例如,一個旨在檢測視頻中目標的計算機視覺算法(如地理空間情報分析)被簡化為該模型發現的車輛數量或其發現這些車輛的準確性。那么,成功是指該算法在85%的時間內正確找到車輛。
但在軍事行動中,85%的時間檢測到車輛有什么用?這就是維護理論的完整性所帶來的背景。以上面的例子為例,評估同一算法時不是看它正確探測車輛的頻率,而是看它對任務的影響:由于該模型的存在,分析人員識別感興趣的車輛的速度提高了95%。這樣的方法將算法的設計與任務的部署聯系起來。雖然這似乎是常識,而且這種關系甚至可能在項目文件中被模糊地表示出來,但在國防部的任何地方都沒有一個表示的標準。
評估標準仍然需要保持解決方案的獨立性(即,無論情報類型、使用的算法、部署的作戰環境或任務要求如何,這些標準都適用)。因此,在這項研究中,人工智能原則被編入可量化的屬性和指標中,與系統和程序無關。評估標準也以 "去 "與 "不去 "的方式進行表述,以創建一個符合邏輯的、自上而下的層次結構,與相關的聯合出版物同義。其結果是規范、監測和評估國防部人工智能系統的基線。
如前所述,可實操化的人工智能是由任務效用的五個方面定義的人工智能:最低限度的可行性、適應未知和不可知情況的能力、洞察力優先于信息、應用所需的自主性水平以及戰場準備情況。這些MOE中的每一個都是算法戰的基礎。對這些信息的分析產生了一個全面的框架,其中包括每個MOE的指標和效果。整個框架是以條令定義和程序為基礎的。
(2017 年 11 月 1 日在華盛頓特區舉行的 NVIDIA GPU 技術大會期間,顯示屏展示了用于執法的車輛和人員識別系統。該大會展示了人工智能、深度學習、虛擬現實和自主機器。)
衡量有效性的軍事程序依賴于一個自上而下的架構。這意味著,只有當一項措施的每一個指標也存在時,該措施才會存在。同樣,一個指標只有在該指標的所有影響也存在時才會存在。這是一個二元的、全有或全無的過程,可以像常規軍事活動一樣隨時適用于人工智能。
在傳統的高價值目標(HVT)生命模式分析中,一個MOE定義了軍事行動的一個預期結果(例如,高價值目標移出責任區[AOR])。該MOE的所有定義指標必須得到滿足,因此不能任意或有選擇地稱之為成功。例如,情報應該表明:(a) 在新的責任區發現了HVT,(b) 在新的責任區發現了已知的HVT同伙,以及(c) HVT在新的責任區獲得了基本的生活支持系統(例如,住房,交通)。隨后的效果遵循同樣的過程:支持指標 "a "的效果可能包括識別已知的物理特征和探測通信信號。
因此,盡管常規和人工智能MOE在戰術執行上有所不同,但決策驗證的基本系統是相同的。只有在對人工智能領域有基本了解的情況下,才能驗證人工智能MOE,這與情報部門制定的MOE不能由作戰部門驗證的情況是一樣的。
算法戰是通過人工智能手段進行的戰爭。人工智能手段是指那些不僅是智能的(收集和應用洞察力),而且是人工的(以人類無法做到的方式對智能采取行動)。在沒有人類干預的情況下,系統必須學習如何為自己表示數據。這方面的另一個術語被稱為機器學習。有不同類型的機器學習,但當涉及到戰場時,無監督的機器學習將成為黃金標準,因為它的靈活性和從未知和非結構化信息中獲取輸出的能力。在這個黃金標準中,一種被稱為深度學習的特定方法是獨一無二的,它能夠更精確地表示復雜的問題。鑒于戰場的動態性質,更精確地表示復雜問題的能力是最重要的。
因此,算法戰只能通過以下方式實現:(a) 工作系統(最低限度可行)能夠(b)從未知和不可知的場景(無監督)中自行學習,同時(c)將復雜的戰場環境轉化為有用的洞察力(啟用深度學習)(d)幾乎沒有無指導(自主)和(e)在實時任務環境中(戰場準備)。這些MOE和圖中的架構是人工智能實操化的第一步;它們為如何凝聚技術和操作因素奠定了基礎,同時也使任何人工智能項目的 "成功 "標準化。
(圖 數字算法(人工智能)戰爭的有效性度量)
最低限度的可行性檢驗了算法戰是否積極地改變了作戰環境。"積極改變作戰環境 "意味著存在著競爭優勢和性能改進,證明人工智能的部署是合理的。該理由來自行業指標(技術因素)、針對類似系統的排名以及對人類操作員的效用。
在翻譯的例子中,一個自然語言處理算法在以下情況下是最可行的:(1)行業指標證實它準確地將地面真相數據翻譯成正確的語言;(2)該算法在同一技術類別和OE中優于其他可用算法;(3)機器翻譯優于人類。
與最低生存能力相關的競爭優勢和性能改進因素是必要的,因為如果沒有這些因素,非算法衍生的戰爭將更加有效--因此,否定了對可操作人工智能的需求。
無監督算法是實戰任務的理想選擇,因為它們的靈活性和即使在未知情況下也能得出洞察力的能力。簡而言之,無監督系統可以在沒有預設信息的情況下運行,并在新信息出現時學習。
可以從敵人交戰的例子中得出一個常規的等價物。例如,部署的服務成員在交火結束之前并不知道交火會如何發展。然而,他們被期望在沒有警告的情況下對敵人的火力做出適當的反應,并對新的對手的運動和活動得出相關結論。
成功的算法戰項目將需要在戰術執行和長期學習能力方面表現出與軍人相同的適應性。
回顧一下,深度學習可以降低復雜性。在實際任務中降低復雜性是關于如何表示和理解信息。正如人類一樣,有效的算法戰是以模式檢測、推理和問題解決為前提的。
模式檢測本質上是獲得知識,然后可以概括地預測未來的未知情況。假設一個部署在機場的非航空部門的軍人看到一架直升機從頭頂飛過。這個人注意到該直升機獨特的物理特征,如整體尺寸或串聯旋翼。這些獨特的特征將直升機與其他變化區分開來,隨著時間的推移,服役人員可以利用學到的視覺線索在整個機群中選擇正確的直升機。人工智能以同樣的方式識別視覺模式;在隨后的觀察中反復學習直升機特征。然后,這些特征被概括為區分一架直升機和另一架直升機或一架直升機和非直升機。
推理改進了知識的獲得,以便發現環境中的微妙之處,并將這些微妙之處邏輯地聯系起來。例如,如果在某些天氣模式下從未見過直升機,推理將推斷出天氣(OE的次要元素)影響了飛行能力。有了人工智能,惡劣的天氣會增加二次確認,即沒有旋翼的飛行物不是直升機。
最后,順序問題的解決將一個大問題(即如何駕駛直升機)分解成更小的問題(即飛行路徑是什么,有多少燃料,需要多少飛行員,等等)。因此,如果不降低復雜性,算法戰將缺乏將信息轉化為洞察力的能力。
由于算法戰假定利用了非人類的手段,人工智能必須獨立地制定和裁決行動方案。而人工智能必須根據自己的決策、反應能力和對形勢的認識來完成這一裁決。
決策是一個在環境中發展和解決選擇的問題。在一個慣例的環境中,一個指揮官面對相互沖突的情報、監視和偵察飛行路線,會制定一個資產優先級矩陣,然后根據這些要求進行沖突處理。這不僅僅是一個產生可行方案的問題,而且還要弄清楚這些方案中哪個對整個任務最有利。為了做到這一點,系統必須能夠融合決策標準(例如,資產的數量、收集要求、飛行時間等)。必須有傳感器來定義決策標準(例如,飛機燃油表或人類/口頭提示)。然后,必須對所有可用的選項進行修剪。最后,系統必須認識到當前狀態的變化,并對該變化產生的新信息做出反應(例如,航空資產的駐留時間結束,所以不再需要解消沖突)。
響應性是對決定性的補充。也就是說,系統能否在規定的時間內對它從未見過的情況作出適當的反應?要做到這一點,系統必須具備必要的態勢感知功能:攝入、處理、迭代和行動。所有的指標都能確保可操作的人工智能改善決策時間表,而不是抑制它們。
戰場準備度是衡量系統是否能在實際任務空間中運作的標準。由于任務限制是巨大的,人工智能不能在實驗室里開發,而不預先考慮它將如何在現實世界中運作。明確地說,實驗室人工智能的局限性并沒有被戰場所規避,而是被放大了。開放式架構受到軍事基礎設施的限制。不可知的管道被孤立的、傳統的系統所困。普及的高速網絡一旦部署到前方就會變得零星或斷斷續續。而商業部門普遍存在的未經審核的專家則被訪問受限的用戶社區取代,他們幾乎沒有人工智能的專業知識。
簡而言之,人工智能必須補充,而不是混淆正在進行的行動。從一開始就解決任務限制,然后必須包括與現有系統的整合和溝通。此外,這種整合應該進行測試或鑒定,以便在部署前證明效用,以及這種效用的左右限制。這就像軍事人員被授予可部署性的范圍一樣,或者反過來說,糟糕的體能測試會導致不可部署性的發生。
五個可操作的人工智能MOE共同代表了初始和完全操作能力(IOC/FOC)的標準閾值。使用MOE框架中的決策門做出的IOC/FOC決定將加速人工智能的采用并改善美國在算法戰爭領域的定位。
(圖 軍事人工智能發展的目標之一是在人類智能代理團隊中將戰場上的士兵與無人駕駛車輛直接聯網,這將加速情報收集、目標識別和火力任務執行。)
如果沒有一個支持算法戰的人工智能操作框架,當前的美國防部計劃將會失敗。本文提出的框架是第一個在國防人工智能領域定義成功的框架,并將為政府監督提供必要的問責措施。
雖然本文的意圖是對算法戰爭的不可知的解決方案,但額外的研究是必要的。應指定資金用于將這一框架串聯到具體的系統、學科和項目。為了支持這一努力,獲取機密材料和對機密系統進行定量實驗將是至關重要的。定量實驗不僅可以驗證本文的前提,還可以開始創建一個網絡來比較和改進國防人工智能測試和評估。也就是說,在多種環境、系統和問題集中持續、一致地使用MOE架構將使人工智能項目在一個單一、共同的評估框架下保持一致。為此,本文介紹的MOE架構支持兩種功能:(1)通過迭代改進 "走-不走 "決策門的結果來實現更有效的系統;(2)通過比較各自的MOE來決定各種系統。
從戰略上講,圖中概述的架構應該被整合到國防部的采購、技術和后勤流程中。目前的范式不是為人工智能項目的指數增長和非傳統性質而建立的。圍繞普遍的評估標準校準當前和未來的國防部人工智能解決方案將實現標準化,同時加快耗時的采購流程。此外,負責企業人工智能活動的組織應在其工作中實現框架的標準化,以便更迅速地將應用研究和開發過渡到業務使用。
不過,組織的努力不應停留在政策上。目前,國防部沒有利用軍事人員進行人工智能活動的機制。具體來說,沒有與人工智能相關的軍事職業專業(MOS),也沒有官方系統來識別和分配熟練人員到人工智能項目。其結果是缺乏可用的混合人才;也就是說,既精通人工智能又精通任務的人員。建立一個數據科學或以人工智能為導向的MOS,類似于在網絡領域發生的情況,將使人工智能能力的運作更具可持續性。它還將以越來越多的合格軍事人員來充實小規模的合格人工智能專業人員庫。另外,傳統的MOS可以適應現代戰爭的特點。例如,在一個多情報融合普遍存在的世界中,特定學科的情報分析員可能并不重要。修改或增加人工智能技能標識或專業將遏制MOS相關性的下降。
在戰術上,五角大樓對人工智能的推動需要伴隨著一場自下而上的運動,這樣采用人工智能的組織就不會簡單地被賦予一種沒有背景的能力。相反,他們應該在他們帶來的抵償中擁有積極的發言權。基層的努力可能包括在IOC/FOC設計計劃之前在單位層面進行影響分析和壓力測試,以了解脆弱性和優先需求。
人工智能的操作是一項以任務為中心的努力,必須在戰術上有意義,才能產生任何戰略影響。在為地面部隊帶來切實的投資回報之前,人們對算法戰爭的價值普遍猶豫不決;因此,對抗性的超限戰將成為一個越來越無法獲勝的現實。
國防部不能在沒有操作這些項目的框架下繼續執行人工智能項目。本文介紹的架構正是通過加速和規范政府通過高度創造性的、具有操作性的技術發展人工智能能力的努力來實現的。
這項研究考察了通信方式對人與機器人團隊中的人類表現、信任、態勢感知和對機器人的感知的影響。在一項2×2的混合因素研究中,32名參與者在與機器人組隊時進行了模擬的封鎖和搜索式任務。參與者被分配到一種通信方式(指令性與非指令性;內部),兩組都經歷了高與低的任務負荷期(在被試中)。結果表明,與通信方式相比,任務負荷對參與者的任務表現影響更大,盡管由于通信方式對反應時間和工作量有一些不同的影響。這可能是由于不同的通信方式所固有的反饋的差異。
在單向通信模式中,雙方都沒有意識到或能夠解決對方的需求(Héder 2014)。雙向通信被認為比單向通信對認知的要求要低(Héder 2014),以及本質上更準確(因為接收者可以根據需要要求更多的信息)和及時(因為接收者不必懷疑信息是否不再相關)。在人類-智能體團隊中,通過通信進行的知識轉移支持共享態勢(Lyons 2013;Sycara和Sukthankar 2006)。當考慮到這些優勢的綜合影響時,我們有理由期待,與使用單向通信方法的團隊相比,使用雙向通信的人類-智能體團隊會有更好的績效結果。本研究擬通過一系列班組級的、類似于警戒線和搜索的任務來研究人類-智能體團隊中雙向通信的影響。
人與智能體通信的研究主要集中在智能體理解人類的能力上。研究人員從理論上提出了機器人需要理解自然語言(Lueth等人,1994年;Mavridis,2015年)、語義建模(Labrou等人,1999年;Yi和Goodrich,2014年)、手勢識別(Carinon和Billard,2007年;Fiore等人,2011年;Mavridis,2015年)和意圖識別(Hayes和Scassellati,2013年),許多人已經開始開發這些能力并通過實驗探索其相關問題(Calinon和Billard,2007年;Kaupp等人,2010年)。很明顯,許多研究人員認為能夠理解人類語言、語境和意圖的機器人是機器進化的下一步。讓智能體通過與人類隊友的通信獲得信息,也被證明可以提高智能體的性能(Breazeal和Thomaz 2008;Cakmak和Thomaz 2012)。雖然許多研究人員已經調查了人類-智能體團隊內的通信對人類隊友的表現和感知的影響(Rau等人,2009;Selkowitz等人,2016;Wright等人,2017;Lakhmani等人,2019a;Stowers等人,2020;Wright等人,2020),但相對來說,很少有人將這一研究擴展到考察機器人的通信方式的影響。
本研究的目的是考察機器人的通信方式在多大程度上影響人類隊友對自主機器人伙伴的看法。之前的工作已經探討了團隊內部的通信如何影響人類隊友的單向通信,即智能體向人類提供有關其感知、目標和行動的信息(沒有人類的輸入)(Selkowitz等人,2016;Lakhmani等人,2019a;Wright等人,2020)。有證據表明,在這種單向通信的環境中,智能體在通信目標、動機、預測結果和不確定性信息方面的透明度越高,人類隊友就越信任智能體,將代智能體擬人化,并認為它更有智慧和活力(Lakhmani等人,2019a;Wright等人,2020)。此外,智能體的透明度增加,可以更好地支持人類隊友的態勢感知(SA;Selkowitz等人,2016)。
尚待探討的是,人類與智能體通信的能力(即改變目標和動機以及保存資源)將如何影響人類對所述智能體的看法、對智能體的信任以及智能體的態勢感知。不可避免的是,當智能體被部署在下馬隊中時,組長將有能力和必要向智能體傳達不斷變化的目標和指令。當務之急是事先了解這種雙向通信的結果,以了解和避免(在可能的情況下)在戰場上可能遇到的潛在困難。
人與機器人的對話可能會影響人類對機器人的認知(Kaupp等人,2010),盡管人類對機器人的認知可能是不準確或不正確的。在Fong等人(2003)的遠程操作研究中,人類引導機器人通過一個擁擠的區域,同時與機器人保持通信。機器人可以詢問人類,人類也可以詢問機器人的狀態、進展和當前狀態。大多數參與者在被機器人詢問時都做出了回應,盡管有些人在完成當前任務后才做出回應。然而,所有參與者都拒絕主動向機器人提問,這表明他們可以通過機器人的表現來推斷機器人的狀態(Fong等人,2003)。這一反應表明,人類參與者并沒有將很高的靈性賦予機器人。當被問及為什么不詢問機器人時,參與者透露了對機器人如何工作或機器人發起的通信的重要性的錯誤認識。參與者可能試圖用人類的通信模式來理解與機器人的通信,但事實證明這是不充分的。
人與人之間的通信往往有細微的差別,除了簡單的信息通信或收集外,還有很多原因。人際通信動機(ICM)模型(Rubin等人,1988)概述了影響人們通信動機的六個因素。人類通信是為了快樂,為了表達愛意,為了感受被包容,為了逃避或放松,以及為了施加控制。通信是由三個方面組成的:我們與誰交談,我們如何與他們交談,以及我們談論什么(Graham等人,1993)。誰 "可以是與他們交談,我們談什么,因為通信者之間的關系集中并形成了互動(Rubin 1977)。然而,在一個進行聯合任務的兩人團隊中,"誰 "是預先確定的,而在進行任務時討論的 "什么 "將大多限于與任務相關的信息(Klein等人,2005)。這就留下了 "如何 "形成通信的問題,而這將取決于通信者的通信方式。
諾頓的通信者方式(1978)包括兩個維度(即指令性與非指令性),可以是主動的,也可以是不主動的,是基于人際交往的動機、功能和個人需求的滿足。指導性(DIR)風格是主導的,精確的,并且經常有爭議,而非指導性(NDIR)風格是友好的,細心的,圓滑的,并且鼓勵他人的想法。積極的風格是戲劇性的和生動的,而不積極的風格是放松和平靜的。諾頓爭辯說,一個人的通信者風格帶有意義,并構造了通信。已經發現DIR風格與ICM通信動機中的控制、包容、逃避和快樂正相關,而非直接與快樂、感情、包容和放松的動機正相關(Graham等人,1993)。人類隊友對機器人的通信方式很敏感,這已被證明會影響他們對機器人的接受和看法(Rau等人,2009)。在一項跨文化研究中,當機器人以隱性(即非指令性)通信方式而非顯性(即指令性)通信方式進行通信時,中國參與者更有可能接受機器人的建議,并表示更加信任、喜歡和可信。然而,德國參與者對使用隱性通信方式的機器人的評價遠遠低于顯性機器人,并且不太可能聽從其建議(Rau等人,2009)。這表明,為了提高人-智能體團隊的互動效率,匹配人類偏好的通信方式可能很重要(Chien等人,2020年;Matthews等人,2019年)。
在人類-智能體團隊中,信息共享的方式由界面設計決定(Kilgore和Voshell 2014),其中一個方面將是團隊成員的通信風格。機器人是簡單地分享關于其狀態和對周圍環境的信念的信息(單向通信),還是團隊成員有能力相互查詢,更新目標和糾正錯誤信息(雙向通信),這不是由團隊決定的,而是由界面內置的能力決定的。因此,在某種程度上,人類對智能體的看法可能不是由智能體的任務表現或能力決定的,而是由團隊部署前很久做出的設計決定決定的。在這項工作中,將評估通信方式對人類的任務表現、SA、感知的工作量、信任和對自主智能體的看法的影響。此外,還將評估可能影響調查結果的幾個個體差異因素。
發展適當的SA已被證明是人類-機器人團隊的一個關鍵任務目標(Evans 2012)。有幾個關于SA的概念;最流行的是Endsley(1995)的基于信息處理的模型。基于信息處理的模型認為,個人的SA包括三個層次,每個層次都與其他層次不同,但都是累積性的。這三個層次是:第一層次:對環境中的元素的感知;第二層次:對其意義的理解;第三層次:對其在不久的將來的狀態的預測(Endsley 1995)。
基于SA的智能體透明度(SAT)模型(Chen等人,2014年)為智能體應該提供支持個人SA的信息提供了一個框架。與Endsley的模型類似,它也有三個層次,每個層次都概述了支持Endsley模型中相關層次所需的信息類型。然而,維持SA是一個持續的、個體與環境之間的互動過程(Smith和Hancock 1995)。當一個人與一個智能體合作完成一個共同的任務時,每個人都必須保持他們自己對環境的SA,以及他們對對方的知識、理解和能力的SA,才能有效(Bradshaw等人,2011)。動態SAT模型(Chen等人,2014年)代表了從事共享任務的人類和智能體之間不斷更新的互動。通過比較單向交流條件和雙向交流條件下的表現,我們可以探索這兩種SAT模型的相對效用。
為了評估個人當前的SA水平,我們將使用類似于情況意識全球評估技術(SAGAT)的查詢方法。SAGAT是一種在分析的任務中,在預定的模擬暫停期間對參與者進行SA相關查詢的方法(Jones和Kaber 2004;Salmon等人2009;Stanton等人2012)。我們還將使用每個SA探針中包含的五點李克特量表(McGuinness 2004)評估相關的對自己SA的信心概念(Endsley and Jones 1997)。除了SA之外,我們還將測量參與者在與智能體通信時的感知工作量。
Parasuraman等人(2008)將心理工作負荷定義為:"任務所要求的心理資源與人類操作者可提供的資源之間的功能關系"。因此,認知工作負荷不是由任務的要求決定的,而是由操作者在特定任務負荷要求下的能力決定的。在擬議的研究中,一個優先事項是看看工作量與團隊成員之間用于傳遞信息的通信方式之間是否存在關系。為此,每個參與者將完成兩個場景,在每個任務負荷水平(高與低)下完成一個場景。
將使用兩種不同的工作負荷測量方法。第一個衡量參與者感知到的工作負荷的方法是NASA任務負荷指數(TLX)(Hart和Staveland 1988)。NASA-TLX要求參與者對他們在實驗中的主觀工作量水平進行評價。NASA-TLX由六個子量表組成:精神需求、身體需求、時間需求、表現、努力和挫折感。這項測量將在每個場景之后進行。
第二項是眼睛的工作負荷測量。這些將使用連接到顯示任務的計算機顯示器上的眼球追蹤器進行記錄。眼部測量已被證明是測量工作負荷的一種有效方式(Ahlstrom和Friedman-Berg,2006年)。眨眼時間和平均瞳孔直徑已被證明與認知工作負荷呈正相關(Ahlstrom和Friedman-Berg 2006)。固定的次數與任務難度正相關(Ehmke和Wilson,2007)。擬議的研究將使用這些工作負荷測量方法來評估不同溝通方式所引起的認知工作負荷的任何差異。
該研究的另一個研究問題是,參與者對智能體的信任將如何受到隊友通信方式的影響。操作者的信任被定義為 "在以不確定性和脆弱性為特征的情況下,智能體將幫助實現個人的目標的態度"(Lee and See 2004)。為了正確地校準操作者的信任,機器人需要有意義地提供關于其行動和為什么執行這些行動的洞察力(Chen等人,2014)。太多的信任會導致自滿或誤用,而信任不足則會導致誤用(Parasuraman和Riley 1997)。在擬議的研究中,信任將使用修改后的自動化信任量表(Jian等人,2000)進行測量。該量表被修改為評估Parasuraman等人(2000)描述的四類自動化功能中的信任。操作人員對自動化的態度影響了他們對自動化的信任程度(Chen等人,2014)。操作人員的顯性態度是有意識的,而且是認知上的努力,可以用自我報告的方式來測量(Merritt等人,2013)。另一方面,對自動化的隱性態度,無意識的 "直覺反應",仍然可以影響操作者對信息的感知和隨后的行為(Merritt等人,2013;Krausman等人,2022)。與明確的對應物不同,內隱態度是由 "概念(如黑人、同性戀者)和評價(如好、壞)之間的關聯強度 "決定的(Project Implicit 2017)。
對自動化的積極內隱態度在人與自動化的團隊合作中可能導致好的和壞的后果;它可能支持用戶對不可靠的系統的信任;然而,它也可能導致用戶在與自動化合作時更容易表現出自滿行為(Singh等人,1993;Merritt等人,2013)。在目前的研究中,顯性信任是使用自動化信任量表的修改版(Jian等人,2000年)來評估的,而對自動化的隱性態度是使用基于計算機的隱性關聯測試(IAT)來評估對自動化的態度(Merritt等人,2013年;Project Implicit 2017)。
機器人被認為是智能的程度和它的擬人化傾向也會影響信任(Ososky等人,2014;Lee和See,2004)。Hinds等人(2004年)發現,在人類與機器人的合作任務中,人類操作者在與類似人類的機器人合作時,感覺對任務的責任比與類似機器的機器人合作要小。這一發現表明,當機器人更像人的時候,操作者更愿意把對任務結果的責任讓給他們的機器人隊友。在之前的研究中(Selkowitz等人,2016年),研究表明,當機器人傳達有關其不確定性和預測結果的信息時,與只傳達其推理和當前對環境的理解的機器人相比,操作員將機器人評為更像人類。此外,機器人被評為更值得信賴,盡管其可靠性沒有變化(Selkowitz等人,2016)。Godspeed問卷(Bartneck等人,2009年)將被用來評估參與者對代理的人性化、生動性、可親性和智能的看法。
此外,還將研究影響操作者在多任務環境中表現的幾個個體差異(ID)變量的影響。這些變量包括感知的注意力控制(PAC)和工作記憶能力(WMC)。以前的研究表明,高PAC和WMC有助于在模擬環境和機器人監督任務中的表現(Chen和Terrence 2009;Wright等人2018)。PAC已被證明與操作者在需要注意力集中和轉移注意力的任務中的表現和SA有關(Chen和Barnes 2012),并將使用Derryberry和Reed(2002)的自我報告調查來評估。WMC差異已被證明會影響多機器人監督任務的表現(Ahmed等人,2014年)和SA(Endsley,1995年;Wickens和Holland,2000年),將使用自動閱讀跨度任務進行評估(Redick等人,2012年;Unsworth等人,2005年)。
本研究探討了在多任務的動態環境中,雙向通信方式如何與任務負荷相互作用,影響操作者的表現、信任、工作負荷和對通信的看法。該實驗是一個混合因素設計,通信方式(即DIR與NDIR)是主體間因素,任務負荷(即低與高)是主體內變量。
在一個模擬的多任務環境中,參與者與一個機器人隊友在繁忙的道路附近進行封鎖和搜索類型的任務。機器人負責搜索和保護建筑物的后部,而參與者則負責監測道路上的潛在威脅(威脅探測),并向機器人警告即將到來的叛亂分子。任務負荷(低與高)是通過增加威脅檢測任務的事件率來操控的。
每位參與者被分配到一種與機器人通信的方式,然后完成兩個試驗,每個任務負荷條件下一個。在這兩種交流條件下,機器人還監測道路,并試圖識別進入該區域的人,并確定他們的行動。然后,機器人詢問參與者它對該人的評估是否準確。在DIR條件下,參與者同意或糾正了在智能體,智能體沒有進一步的回應。在NDIR條件下,在參與者同意或糾正后,智能體審查信息并通知參與者它是否同意或不同意參與者的反應。
本研究的目標是了解不同的通信方式如何與任務負荷相互作用,在人與智能體的合作背景下,影響人的表現、信任、工作量、SA和對智能體的看法。
假設1(H1)任務表現:
H1a: 在DIR條件下的參與者在通信任務上的表現將比在NDIR條件下的參與者更好。通信任務的表現將由正確的反應和反應的速度來評估。
H1b: 在每個溝通方式條件下,低任務負荷(LTL)條件下的溝通任務表現將高于高任務負荷條件。
H1c: 在DIR條件下,參與者在目標識別任務上的表現將優于NDIR條件下的參與者。目標識別任務的表現將由正確的識別和識別目標的速度來評估。
H1d: 在每個通信方式條件下,低任務負荷條件下的目標識別表現將高于高任務負荷條件。
假設2(H2)信任:
H2a: 與NDIR條件下的參與者相比,DIR條件下的參與者將對機器人有更高的信任。
H2b: 在每個通信方式條件下,高任務負荷條件下的參與者對機器人的信任度將高于低任務負荷條件下的參與者。
假設3(H3)工作負荷:
H3a: 在NDIR條件下,參與者的工作負荷將大于DIR條件下的參與者。
H3b:在每個通信方式條件下,高任務量條件下的參與者感知的認知工作負荷將大于低任務量條件下的參與者。
假設4(H4)SA:
H4a: 在DIR條件下的參與者將比在NDIR條件下的參與者有更高的SA。
H4b: 在每個通信方式條件下,高任務負荷條件下的參與者SA將高于低任務負荷條件下的參與者。
假設5 (H5) 對機器人的感知:
H5a: 與NDIR條件下的參與者相比,DIR條件下的參與者會認為機器人的生動性較低,不討人喜歡,智力較低,安全性較低。
H5b: 在每個通信方式條件下,任務負荷將影響參與者對代理的感知,低任務負荷條件下的感知將高于高任務負荷條件下的感知(即,更有活力、更討人喜歡、更有智慧和更安全)。
假設6(H6)個體差異:
H6:由于ID(即IAT、WMC和PAC)的原因,在所有因果測量(即目標探測性能、信任、工作量、SA和對代理的感知)上會有不同的結果。
這期雜志專門介紹了最近的多領域作戰研討會的成果。邀請了來自北約、學術界和工業界的專家來分享觀點,并建立一個共同的基礎,探討多域作戰對軍團總部的意義,特別是考慮到作為小型聯合行動(陸軍)的聯合特遣部隊總部的作用。戰爭正在快速變化,技術在戰場上的地位是我們可能沒有預料到的。研討會是磨練頭腦和避免意外的另一個步驟。必須努力確保我們的程序、戰法和產品能夠抓住進步帶來的機會。作為那些以指揮和控制為生的人,需要確保統一的意圖和任務,以及完成任務的效果,這些都是明確的,并且能夠有利于跨領域的協調工作。必須務實,集中精力解決需要解決的問題,并提醒自己,我們的行為很重要:這是合作的第一層,因為它確保我們都覺得是解決方案的一部分。
這項研究是一個更大的項目的一部分,該項目專注于自然語言理解(NLU),開發搜索和導航領域的雙向人機對話系統。我們利用抽象意義表示(AMR)來捕捉和結構自然語言指令的語義內容,使其成為一個機器可讀的、有向的、a-循環的圖。在這項任務中,NLU面臨兩個關鍵的挑戰:1)如何有效地將AMR映射到特定領域內受限的機器人行動規范中;2)如何保留人類語言的一般理解的必要元素,以便我們的機器人可以將其能力擴展到單一領域之外。為了應對這些挑戰,我們建立了一個兩步的NLU方法,其中自動獲得的輸入語言的AMR圖被轉換成 "對話-AMR "圖,這是一個新版本的AMR,其中增加了時態、方面和語言行為信息。在這里,我們詳細介紹了基于規則和分類器的方法,將AMR圖轉化為Dialogue-AMR圖,從而彌合了從無約束的自然語言輸入到固定的機器人動作集的差距。
這個轉換系統是人類與機器人對話的兩步自然語言理解(NLU)管道的一部分。如圖1所示,第一步是以AMR圖的形式從無約束的語言輸入中捕捉核心語義,我們將其稱為 "標準-AMR"。第二步,特別是圖到圖(G2G)的轉換過程,將標準AMR圖轉換為對話AMR。對話-AMR包含對人與機器人交流和機器人執行至關重要的信息。
這個轉換系統旨在有效地自動產生用于人與機器人對話的對話-AMR,并擴展到也能從對話-AMR中受益的新領域,如Minecraft積木世界領域,其中對話的重點是在虛擬環境中用積木建造結構。
2022 年 10 月 11 日,美國陸軍發布了一份綜合數據計劃(ADP),這是一種全軍范圍內改進數據管理以確保陸軍成為以數據為中心的組織的方法。
該計劃是一項為期三年的工作,將改善整個陸軍的數據管理、數據治理和數據分析。作戰任務是陸軍數據計劃的當前重點。ADP 在該任務領域的成果是通過進行必要的更改來確保作戰人員的數據得到正確管理和使用,從而為作戰人員提供優勢。陸軍已經開始對數據管理能力、工具和模型進行原型設計,以實現這一目標。
陸軍首席信息官 Raj Iyer 博士說:“數據以及如何在所有梯隊中整合這些數據以實現真正快速、敏捷的決策,才是真正為陸軍提供其在未來戰爭中所需的競爭優勢的關鍵。”
數據和數據分析將為 2030 年的陸軍提供動力。士兵將需要在正確的時間和正確的地點獲得正確的數據,以便在每個梯隊做出更快、更好的決策——以超越任何對手的思維和步伐。
與早期的軍事行動相比,現在的戰爭范圍更大且范圍不斷擴大。作為聯合全域作戰的一部分,多域作戰是陸軍必須準備并贏得下一場戰斗的地方。這是一個數據豐富的環境。
每個領域都有自己的信息和數據流,一些信息來自開源情報,一些來自天基傳感器,還有一些來自網絡空間。今天的士兵和指揮官需要跨領域的綜合來主宰戰場。
ADP 概述了工作的組織并提供了總體戰略目標。它側重于中期努力,未來將被另一個更新所取代。
通過陸軍數據計劃實現這一決策優勢是陸軍的關鍵目標。
本報告涵蓋了與設計評估人類和智能軟件Agent之間通信有關的問題,這些通信是實現協作關系所必需的。為了使人與Agent之間的互動在動態的現實世界中保持穩定,軟件Agent和人類都必須能夠在任務目標方面溝通他們的整體意圖。由于推理過程、能力和知識庫的不同,人類和Agent并不是人類團隊的模擬。我們討論了有效通信所涉及的技術問題,包括相互透明的模型、自然語言處理(NLP)、人工智能(AI)和可解釋的AI。由于缺乏使人類能夠洞察其隊友心理過程的心智理論,Agent很難預測人類的信息需求和未來行動。涉及多個Agent的協作計劃研究和合成共享心智模型的研究被作為嘗試將人類和Agent整合成一個協同單位典范。然而,我們的結論是,在人類和Agent在復雜的、不確定的任務中像人類團隊一樣通信之前,NLP、可解釋人工智能和人類科學的進展將是必要的。
自主系統的前景和問題都將改變未來系統的動態,這不僅體現在自主系統對社會的影響上,也體現在它們與人類的互動上(《經濟學人》2016;Schaefer等人,2017)。人類和自主系統之間的伙伴關系涉及到將人工和人類融合成一個有凝聚力的系統,這種結合意味著所有的優勢和限制(Bradshaw等人,2009;Chen和Barnes,2014)。自主系統的范圍可以從那些獨立的、只由人類偶爾監控的系統到由人類指導的、受到密切監督的系統(Barnes等人,2017)。能夠自主行動并根據新信息更新行動以實現其目標的軟件系統被確定為智能Agent(IA);Russell和Norvig 2009)。在人類與IA的合作關系中,人類和IA共享決策空間的混合倡議能力,但人類擁有最終的權力,在危險的時間有限的情況下,允許靈活性,同時保持人類的責任(Chen和Barnes 2015;Barnes等人2017)。在大多數情況下,不可能先驗地將每個人分配到動態環境中的特定角色,因為他們的角色可以隨著情況的變化而改變。例如,自適應Agent可以在高工作負荷的任務段中掌握決策主動權,而不需要等待操作者的許可,但在正常的操作中會將決策主動權還給操作者(Chen和Barnes 2014)。一些與任務分配有關的規定性規則可以根據任務的優先級預先設定。其他規則可能會根據情況的緊急程度而改變(例如,在時間期限過后自主擊落來襲導彈[Barnes等人,2017;Parasuraman等人,2007])。然而,在動態環境中,溝通、對意圖的理解和共同的態勢感知(SA)是有效協作的必要條件(Barnes等人,2017;Evans等人,2017;Holder,2018;Chen等人,2018)。
隨著IA復雜性的增加,有效通信的必要性也隨之增加。Cooke(2015)認為,高效的團隊合作關系更多的是取決于有效的互動,而不是擁有廣泛的共享知識庫。除了有一個共同的語言框架,每個團隊成員都必須知道什么時候向他們的伙伴推送信息,什么時候要求提供信息。因此,人類和IA不僅要有任務環境的SA,而且要有彼此角色的SA,以便在沒有公開交流的情況下回應伙伴的要求(Scherri等人,2003;Chen等人,2018)。我們討論三個主要的主題。第一個主題是對人-Agent架構的描述,以及為什么它與人-人團隊不同,強調相互透明度的重要性。接下來,我們討論了人類與人工智能(AI)系統通信所涉及的技術問題,包括多模態交互、語言限制、AI的類型以及可解釋AI(XAI)的重要性,以確保相互理解。最后,我們討論了共享意圖的重要性,以促進操作者和人工智能之間信息交互的自然節奏。
機器學習(ML),從廣義上講,是一類自動優化參數以處理給定輸入并產生所需輸出的計算機算法。ML的一個經典例子是線性回歸,據此找到一條最適合(通過)一組點的線。最近的一個例子是分類任務,如用 "貓 "這樣的單字來標記一張百萬像素的圖像。
對于許多應用,ML完成了人類可以做得同樣好的任務。然而,ML在兩種情況下大放異彩:1)任務的數量巨大,例如數百萬;2)問題的維度超出了人類思維的理解。一個簡單的例子是同時實時監控成千上萬的安全攝像頭,尋找可疑的行為。也許一個ML方法可以發現異常事件,并只與人類觀察者分享這些視頻片段。更好的是,異常圖像可以被暫時貼上諸如 "1號入口處的蒙面入侵者 "之類的標簽,以幫助保安人員只關注相關的信息。
除了減少人類的負擔外,ML還可以將人類可能無法識別的復雜的相互聯系拼湊起來。例如,一個ML算法可以發現,在一百萬個銀行賬戶中,有五個賬戶的交易似乎是同步的,盡管它們沒有相互發送或接收資金,也沒有向共同的第三方發送或接收資金。
鑒于手持和固定設備的計算資源不斷增加,我們有必要想象一下,ML可以在哪些方面改變戰爭的打法。當然,ML已經對美國陸軍的科學研究產生了影響,但我們也可以很容易地想象到自主車輛和改進的監視等作戰應用。
本文件的主要目標是激勵美國陸軍和美國防部的人員思考ML可能帶來的結果,以及為實現這些結果,哪些研究投資可能是有成效的。
在ARL的許多研究項目中,機器學習目前正在被使用,或者可以被使用。我們列出了一些使用ML或可能從ML中受益的研究項目。我們列出的與ML相關的ARL研究工作絕非完整。
雖然從技術上講,機器學習自19世紀初高斯發明線性回歸以來就一直存在,但我們相信,ML的最新進展將以我們目前無法想象的方式影響軍隊。在本節中,我們概述了我們認為將得到加強的軍隊行動的許多領域,以及可能采用的ML方法的種類。
軍事情報包括信息收集和分析,因為它涉及到指揮官做出最佳決策所需的信息。由于收集的數據量越來越大,處理必須自動化。需要考慮的主要問題是數據的數量、速度、真實性和多樣性。大量的數據(又稱大數據)需要在許多計算節點上對數據進行智能分配。速度要求快速計算和網絡連接到數據流。真實性是對信息來源和異常檢測的信任問題。多樣性相當于使用許多不同的ML算法的不同訓練模型的應用。我們在本小節中概述了不同類型的數據和分析要求。
讓計算機從從各種媒體來源收集到的大型文本數據庫中提煉出重要的概念和文本部分,有很大的好處。最近報道的另一個ML突破是不同語言之間的精確文本翻譯。 軍隊的一個獨特挑戰是翻譯不常見的語言,因此專業翻譯人員較少。在人工通用智能(AGI)領域,一些團體聲稱,自然語言處理將是類似人類認知的基礎。
鑒于人類、傳感器和代理產生的數據的激增,一個很大的問題是,除了證明其收集的直接用途之外,這些數據還包含什么剩余價值。數據挖掘可以是統計學和機器學習的努力,以發現數據中的模式,否則人類操作者就會錯過。
傳統上,異常檢測是通過首先識別已知數據的群組和描述數據的分布來進行的。然后,當新的輸入被處理時,它們被識別為屬于或不屬于原始分布。如果它們在已知分布之外,就被認為是異常的。以下許多類型的異常檢測系統可能對軍隊有用。
網絡入侵檢測:超出常規的網絡流量。McPAD和PAYL是目前使用的軟件中的2個這樣的例子,它們使用了異常檢測。
生活模式異常:人們的視覺和生物統計學上的行為方式與常人不同,表明他們可能正在進行一些對抗性行動。
基于條件的維護:在當前生命周期中,材料/系統在其年齡段不典型的信號。
士兵異常:有理由相信士兵的生物識別技術不正常。
異物檢測:在已知物資數據庫中無法識別的物體的視覺效果。
自動目標識別(ATR)是一個非常成熟的領域,已經使用機器學習幾十年了。
1)目前深度學習的進展將在多大程度上增強ATR?
2)更復雜的算法是否需要更復雜/更耗電的機載計算?
ML是否能對目標的各種欺騙性的混淆行為具有魯棒性?
強化學習在多大程度上可以用來進行實時軌跡調整?
機器學習在機器人學中的應用也是一個巨大的領域。ML應用領域包括傳感、導航、運動和決策。目前,傳感將從計算機視覺的所有進展中受益。導航,除了使用標準的GPS之外,還可以從自我運動中受益,也就是基于自身感知的運動估計。運動可以被學習,而不是規劃,這不僅會導致更快的開發時間,而且還能在新的環境或受損的模式下重新適應(例如,失去四條腿中的一條)。最后,隨著機器人的數量超過人類操作員的數量,機器人將有必要自行決定如何執行其規定的任務。它將不得不做出這樣的決定:"由于電池電量不足,我是否要回到大本營?"或者 "我是否繼續前進一點,然后自我毀滅?"
除了機器人技術,人們最終希望任何系統在損壞或不能滿負荷工作時能夠自我糾正。這需要在某種程度上的智能,以自主診斷缺陷和問題,并利用其可用的資源糾正這些問題。
在通過機器學習來學習自主權的情況下,問題將是:"自主系統將如何應對X情況?" 這里的問題是,對于一個擁有潛在致命武力的系統,我們怎么能確定它只會正確合法地使用武力?我們推測,在機器學習的算法擁有使用致命武力的實際能力之前,必須對其進行廣泛的測試,即使它與人類的環形決策相聯系。
近年來,大量的研究都在研究使用機器學習來自主地玩各種視頻游戲。在某些情況下,報告的算法現在已經超過了人類玩游戲的水平。在其他情況下,仍然存在著處理長期記憶的挑戰。對于美國空軍來說,智能代理已經成功地在以戰斗為中心的飛行模擬器上進行了訓練,這些模擬器密切模仿現實生活。陸軍的問題包括以下內容。
智能代理能否附加到機器人平臺上?
智能在多大程度上可以通用于處理現實生活與視頻游戲中遇到的各種情況?
當我們可能不理解一個訓練有素的代理的邏輯時,我們能相信它的行動嗎?
代理在多大程度上能夠與人類合作?
在過去的十年里,機器學習在網絡安全方面發揮了不可或缺的作用。具體來說,ML可以用于異常檢測,檢測已知威脅的特定模式,并辨別網絡行為是否可能由惡意代理產生。隨著該領域的不斷加強,問題是ML是否能使安全比對手領先一步,因為對手可能利用ML來混淆檢測。
一個長期的設想是,軍隊使用的每一個機械系統都有一些關于系統當前和預測健康的內部感應。相關問題如下。
我們能從有限的傳感器中辨別出一個系統或系統組件的當前健康狀況嗎?
機載ML能否預測一個系統或系統部件在暴露于特定環境或彈道侮辱之后的健康狀況?
隨著基因組序列的數量繼續呈指數級增長,比較在現場獲得的序列所需的計算工作可能變得無法管理。機器學習可以通過對序列進行不同層次的分類來減少必要的比較。
93 近年來,機器學習已經在檢測各種組織中的惡性腫瘤方面取得了長足的進步。94 它同樣可以被用來描述創傷或創傷后應激障礙(PTSD)95,并制定治療計劃。
陸軍的一個重要組成部分集中在對行動、系統、研究和測試的分析上。傳統上,分析人員使用大量的工具,包括機器學習,以多維回歸、聚類和降維的形式。隨著深度學習的出現,一套新的工具應該是可能的,可以更有效地處理需要更復雜模型的大型數據集。例如,應該有可能從測試期間拍攝的視頻流中提取特征和物理屬性,這可能超過目前的標準做法。
自適應用戶界面(AUI)和情感計算。ML可以用來確定用戶的心理和/或情緒狀態,并提供適合這種狀態的界面。此外,可變的AUI可以服務于用戶的變化。例如,一些用戶可能喜歡音頻反饋而不是視覺反饋。
推薦系統。最流行的推薦系統之一是根據以前看過的電影的評分來選擇用戶想看的下一部電影(例如,所謂的 "Netflix問題")。對于軍隊來說,可以根據以前的使用情況和庫存核算的反饋來推薦后勤補給的情況。
搜索引擎/信息檢索。傳統上,搜索引擎返回文件的 "點擊率"。新的范式是以簡明的形式回答用戶的問題,而不是簡單的模式匹配。
情感分析。社交媒體上的流量和對環境進行訓練的各種傳感器不僅可以檢測關鍵的關鍵詞或特定物體的存在,還可以推斷出可能的攻擊的可能性。
有針對性的宣傳。傳統上,宣傳是通過散發傳單來完成的,如今,宣傳可以通過社交媒體來傳播。ML的角度是如何以最有說服力的信息向正確的人口群體進行宣傳。此外,重要的是快速檢測和顛覆來自對手針對我們自己的人員/人民的宣傳。
本研究的目標之一是確定當前研究中的差距,這些差距可能會限制ML在軍隊研究和行動中的全部潛力。本節借用了ARL運動科學家Brian Henz博士和Tien Pham博士(未發表)的戰略規劃工作。
傳統上,在一個特定領域采用ML的一半戰斗是弄清楚如何適應現有的工具和算法。對于陸軍所面臨的許多問題來說,這一點更為突出,與其他學術、商業或政府用途相比,這些問題可能是獨一無二的。任何數據分析員面臨的第一個問題是使數據適應他們想要使用的統計或ML模型。并非所有的數據都使用連續變量或者是一個時間序列。離散/標簽數據的管理可能非常棘手,因為標簽可能不容易被轉換成數學上的東西。在自然語言處理中的一個例子是,單詞經常被轉換為高維的單熱向量。另一個例子可能是如何將大量的維修報告轉換為對某一特定車輛在一段時間內的表現的預測。
此外,陸軍的要求超出了典型的商業部門的使用范圍,不僅需要檢測物體和人,還需要檢測他們的意圖和姿態。這將需要開發新的模型。另一個大的要求是可解釋性,正如DARPA最近的一個項目所概述的那樣:是什么因素導致ML算法做出一個特定的決定?在一個真實的事件中,如果一個ML算法在沒有人類驗證的情況下宣布一個重要目標的存在,我們能相信這一決定嗎?
隨著對計算要求高的ML任務的設想,開發人員正在使用多線程、并行和異構架構(GPU、多核)來加快計算速度。ML的分布式實現遠不如GPU版本常見,因為分布式計算中的節點間通信存在固有的網絡瓶頸,而且在單精度浮點性能方面,GPU相對于CPU有很大優勢。除了目前對GPU的強烈依賴,生物啟發式神經計算旨在尋找非馮-諾伊曼架構來更有效地執行ML,并可能更快。這方面的一個例子是IBM的神經形態芯片。97 未來的研究應該關注如何分配ML處理,使節點之間的網絡通信最小化。另外,像聚類這樣的無監督學習算法在多大程度上可以被映射到神經網絡中?
其他需要考慮的事情。
目前的ML軟件(特定的神經網絡)在一個小型的GPU集群中表現最好。
大多數基于非神經網絡的ML算法的并行性不高,或者根本就沒有并行。
另一個軍隊的具體挑戰是分析基本上沒有標記的數據集(例如,用無監督學習)。手動標注集群將是一種半監督學習的形式。
隨著進入偏遠地區或任何遠離基地的地區,軍隊必須限制系統的尺寸、重量和功率。此外,在 "激烈的戰斗 "中,時間是關鍵。例如,人們不能在遭到槍擊時等待作戰模擬的完成。最后,在其他商業發射器占主導地位的地區,或者在限制無線電通信以提高隱蔽性的情況下,網絡帶寬可能會受到很大限制。
在這種倍受限制的環境中,機器學習將需要有效地進行,而且往往是以一種孤立的方式進行。截然相反的條件是使用大型數據庫訓練大型神經網絡,這往往是最先進的機器學習功力的情況。商業部門正在開發自動駕駛汽車,據推測將使用低功耗的計算設備(如現場可編程門陣列、移動GPU)進行自主駕駛、道路/障礙物檢測和導航。然而,陸軍將有更多的要求,包括自主傳感器和執行器、態勢感知/理解、與人類的通信/合作,以及廣泛的戰場設備。這將需要多幾個因素的計算能力和特定算法的硬件,以實現最佳的小型化和低功耗。
在混亂的環境中,操作環境預計會有比通常密度更高的靜態和動態物體。此外,人們完全期待主動欺騙以避免被發現。我們也希望能夠開發出足夠強大的算法,至少能夠意識到欺騙,并相應地調低其確定性估計。
基于CNN的目標分類的突破可以部分歸功于每個物體類別的成千上萬個例子的可用性。在軍隊場景中,某些人和物體的數據可能是有限的。人們最終將需要one-hot99或multishot分類器,其中幾個有代表性的數據條目就足以學習一個新的類別。到目前為止,最好的選擇是 "知識轉移",通過調整以前訓練的模型的所有參數的子集來學習新的類別。我們的想法是,由于需要優化的參數較少,修改這些參數所需的數據也較少。
即使對于我們可以產生大量圖像的目標類別(例如,友好物體),我們也需要訓練自己的模型,以便從每個類別的潛在的數千張圖像中識別軍隊相關類別。軍隊還使用商業車輛中通常不存在的其他傳感模式(例如,熱能和雷達)。因此,需要為這些非典型的傳感設備訓練模型。從根本上說,非典型傳感設備可能需要新的神經網絡拓撲結構以達到最佳的準確性和緊湊性。
一個值得研究的有趣領域是將模型和模擬與機器學習相結合。有很多方法可以做到這一點。例如,ML可以用來推導出模擬的起始參數。此外,ML還可以用來處理模擬的輸出。一個耐人尋味的新領域是開發基于物理學或類似物理學的模擬,使用類似ML的模型/方程。一個這樣的應用是預測 "如果?"的情景。例如,"如果我跑過這棵樹呢?接下來會發生什么?"
機器學習在傳統上被認為是人工智能的硬性(即數學)表現形式。有可能最終,所有的人工智能任務都會被簡化為數學。然而,就目前而言,一些智能任務似乎更多的是基于推理或情感。對于之前描述的方法中的任務,ML并不能充分解決以下軟性人工智能的特點。
人類并不總是完全按邏輯推理,但他們也有能力將不完整的信息拼湊起來,做出 "最佳猜測 "的決定。幾十年來,對這種行為進行編碼一直是一個挑戰。
情緒似乎是驅動人類達到某些目的的動機/目標功能。例如,快樂可能會導致不活動或追求生產性的創造力。另一方面,恐懼則可能會導致忍氣吞聲。計算機是否需要情感來更有效地運作,還是說它們最好擁有100%的客觀性?這既是一個哲學問題,也是一個未來的研究方向。不過現在,毫無疑問的是,在人與代理人的團隊合作中,計算機需要準確地解釋人類的情感,以實現最佳的團體結果。
與人類的互動性是陸軍研究未來的首要關注點。一個類似的問題是,不同的計算機系統之間如何進行交流,而這些系統不一定是由同一個實驗室設計的。研究的一個領域是用計算機來教那些在這方面有困難的人進行社會交流。 再一次,對于人與代理的合作,代理將需要能夠參與社會互動,并在人類的陪伴下遵守社會規范。
創造力通常被認為是隨機合并的想法,與新的元素相結合,由一個鑒別功能決定新創造的項目的功能和/或美學。在某些方面,創造力已經被某些計算機實驗室所證明。例如,為了設計的目的,計算機可以被賦予某些方面的創造力。
人工智能的最終目標是將許多狹義的智能算法合并成一個統一的智能,就像人類的頭腦一樣。75鑒于許多狹義的人工智能任務已經比人類的某些任務要好,即使是早期的所謂人工通用智能(AGI)也可能具有一些超人的能力。AGI的一個主要目標是將目前由人類執行的某些任務自動化。
如果不提及許多哲學家的猜測,機器學習將最終能夠改進自己的編程,導致能力的指數級提高,也許會遠遠超過人類智能,那么機器學習的研究就不完整了。這些設想既是烏托邦式的104,也是烏托邦式的105。希望超級智能能夠解決世界上的許多問題。
在這項工作中,我們回顧了機器學習的不同類別,并描述了一些更常用的方法。然后,我們指出了一小部分關于ML在ARL中的應用的例子。最后,我們預測了ML在未來可以應用于軍隊的各個領域,并概述了為實現這一結果需要解決的一些挑戰。我們希望這份文件能夠激勵未來的研究人員和決策者繼續投資于研究和開發,以充分利用ML來幫助推動美國陸軍的發展。
全球信息網絡架構(GINA)是一個語義建模框架,旨在促進特設傳感器資產和指揮與控制系統的整合,因為它們可以通過被稱為矢量關系數據建模的實施方式提供給戰斗空間中的操作人員。為了評估GINA的互操作性和推理能力,開發了一個概念驗證評估,并在真實世界的傳感器數據上進行測試。
正如美國陸軍的多域作戰(MDO)概念所指出的,美國的對手試圖通過在政治、軍事和經濟領域的分層對峙來實現他們的戰略目標,而不是通過沖突來對抗美國軍隊和聯盟伙伴。此外,MDO概念指出,對手可能采用多層跨域對峙--跨越陸地、海洋、空中、太空和網絡空間,在時間、空間和功能上威脅美國和聯盟部隊。反擊這些戰略的中心思想是快速和持續地整合所有領域的戰爭(即融合),跨越時間、空間和能力,以戰勝敵人。
為了實現MDO的執行,聯合軍種、政府機構和多國伙伴之間的互操作性是一個關鍵要求。戰術行動已經越來越依賴于信息網絡的傳感、通信、協調、情報和指揮與控制(C2)。因此,美國陸軍不斷尋求提高其整合網絡系統的能力,并在不同的作戰節奏水平上實現同步效果。從歷史上看,由于沒有足夠的能力來支持現有的和新興的技術和進程,這種整合在以無處不在的物聯網(IoT)和軍事C2系統為特征的不斷發展的網絡化戰斗空間中帶來了技術挑戰。這種限制因不同系統的孤島而進一步加劇,限制了戰術、技術和程序的跨系統使用,以及支持硬件和軟件組件。這些限制使作戰人員面臨不一致和缺失的關鍵任務數據,促使作戰功能在孤立中運作。例如,行動和情報之間的數據交換是有限的,范圍也受到限制,增加了指揮官決策過程中的風險和延誤。
為了實現陸軍網絡現代化,陸軍未來司令部網絡跨職能小組(N-CFT)正在調查通過創新、整體和適應性的信息技術解決方案來實現網絡互操作性的顛覆性方法,以滿足既定的C2互操作性挑戰。根據NCFT的指示,美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的研究人員評估了一項名為全球信息網絡架構(GINA)的技術,作為多源傳感器數據融合的系統解決方案,以支持決策。 根據其軟件規格,GINA的目的是減少在互操作和集成方面存在的技術挑戰,并支持及時的共同情報/作戰圖景和決策的情報分析。
目前,語義互操作是一個活躍的研究領域;近十年來,已經開發了一些軍事技術解決方案。語義互操作提供了促進快速整合來自臨時傳感器資產和異質C2系統的信息的手段,因為它們為戰斗空間中的操作人員所了解。這項初步評估表明,GINA能夠整合不同的傳感器系統,并對數據進行同質化和協調,以便在本次評估的實驗場景下提供解釋、分析和推理。在這一評估的基礎上,在與MDO的規模和復雜性相匹配的實地演習或實驗中進行進一步的評估可能是有意義的。具體來說,進一步評估的能力是:1)來自多個部門的傳感器和通信設備之間及時的互操作性;2)連接來自不同結構和標準的盟國、合作伙伴或商業數據流系統;3)豐富、數據分析、推理或增強其他決策支持C2系統;以及4)與其他技術解決方案的比較。
這項評估的綜合分析已經在DEVCOM ARL技術報告ARL-TR-9100中記錄和公布。