亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多年來,人工智能一直被用于改進信號情報的收集和分析,但本文探討了生成式人工智能可為戰略情報分析人員執行的一系列任務。文章認為,將生成式人工智能融入情報評估的最穩妥做法是作為人類分析師的 “副駕駛員”。盡管存在不準確、輸入偏差和 “幻覺 ”等問題,但生成式人工智能可以解放時間不足的分析人員,讓他們專注于人類最有價值的任務--運用他們的專業知識、隱性知識和 “現實感”。

人工智能(AI)是無法回避的。我們每個人每天都直接或間接地與它打交道。除了柯潔在圍棋比賽中輸給谷歌的 AlphaGo 這樣的偶然拐點之外,人工智能幾乎沒有大張旗鼓地滲入社會。但現在,圍繞人工智能的爭論非常突出。這主要與用戶友好型生成式人工智能軟件的發布和廣泛采用有關,其中最著名的是 ChatGPT 和 Google Bard。這些功能強大的程序潛力巨大,許多評論家認為它們的影響堪比另一場工業革命。的確,將人工智能應用到各個領域,尤其是醫學領域,可能會帶來革命性的變化;但同樣,它也會帶來巨大的潛在風險--安全、經濟、社會和文化風險。首相蘇納克(Rishi Sunak)希望英國能掌握這個等式的兩面:在人工智能監管和安全方面引領世界,11 月在布萊切利公園舉行的人工智能安全峰會就是一個標志;同時也要抓住這項技術帶來的機遇。八十年前,布萊切利公園的前主人--密碼破譯員、語言學家、數學家和工程師--曾與英格瑪機器搏斗并開創了計算技術的先河。本文關注的是生成式人工智能為他們在情報界的繼承者,特別是那些專注于情報評估技術的繼承者帶來的機遇和挑戰。文章認為,生成式人工智能有可能極大地補充分析工作。但就目前而言,它最有用的應用是作為輔助工具、副駕駛員,它有可能極大地增強分析人員的工作,但也應謹慎使用。

情報與技術是一對老朋友。幾十年來,它們彼此推動著對方的發展。這一點在電子和計算機領域體現得最為明顯。在秘密行動中,情報機構推動了技術的發展。它們還經常是新技術的早期采用者,利用新技術開發、維護和增強能力。畢竟,適應性是成功情報機構的標志之一。英國皇家情報總部成功地從模擬機構轉型為數字機構,如今甚至將自己定位為 “情報、安全和網絡機構”。人工智能已經以多種方式補充了情報工作。各國經常使用人工智能增強系統來協助收集情報。許多在秘密領域工作的私營部門承包商也在人工智能領域大顯身手。由人工智能軟件支持的閉路電視攝像網絡被廣泛用于識別和追蹤城市環境或恐怖風險較高地區(如火車站)的個人或物體。這種技術也為專制政府提供了無與倫比的機會來壓制不同意見或異議,新疆和其他地方的情況就說明了這一點。除數據收集外,這項活動的大部分內容還涉及更輕松、更高效地對數據進行鑒別或選擇,從而為時間有限的分析人員的工作提供便利,因為他們需要評估這些數據的含義。人工智能被廣泛應用于翻譯、將截獲的互聯網流量減少到可控水平、語音識別或在開放的互聯網上搜索對象的協會和聯系人等費力的任務。在英國,INDEX 系統允許分析人員在政府和外部報告中進行搜索。核心信息可以通過自然語言處理系統提取和匯總。但是,正如剛剛退休的英國聯合情報委員會主席西蒙-加斯(Simon Gass)爵士在今年 6 月指出的,“我們正處在這個階段的山腳下”。

需要將生成式人工智能和大型語言模型(LLM)整合到情報評估的正常業務中。簡單地說,生成式人工智能是指 “能夠根據訓練數據生成高質量文本、圖像和其他內容的深度學習模型”。這些技術已經在國防和情報領域受到高度重視。英國國防部國防創新總監約翰-里奇(John Ridge)最近指出,“我們可以肯定的一點是,這類能力將是絕對關鍵的”。這些能力是革命性的,還是只是情報工作的另一個發展階段,還有待觀察。但它們改變商業模式的潛力是顯而易見的。前幾代人工智能主要集中在更有效地收集數據和更有效地整理擺在民間和軍事情報分析師面前的材料上,而生成式人工智能則展示了承擔迄今為止只有人類分析師才能完成的任務的潛力。基于 LLM 的工具(如 ChatGPT)的主要賣點是,它們可以對問題或命令形式的提示做出響應,并利用現有材料在特定參數范圍內做出響應。或者換一種說法,可以命令它們按照特定規格撰寫類似人類的報告,以計算機的速度,根據大量數據提出見解或作出推論。

從這個意義上說,情報分析和評估與其他以研究為基礎的工作領域處于類似的地位,它們可能(而且幾乎肯定會)受到干擾。這些領域包括醫療和法律行業,在這些行業中,根據有關特定主題的全部數字化文獻資料快速、清晰地編寫報告或文件的前景非常誘人。教育領域也受到了影響,其傳統模式正在被檢測機器生成的作品這一挑戰以及人工智能時代究竟什么才是合法研究這一更具哲學意義的問題所顛覆。盡管如此,在這些領域中的每一個領域,理論上都可以在很大程度上將曾經由人類完成的基本任務外包給機器,盡管需要保持謹慎的警惕。這樣做已經產生了令人印象深刻、有時甚至發人深省的成果,比如一篇關于 ChatGPT 對檢測剽竊行為的影響的學術論文,該論文已提交給同行評審的學術期刊,并被其接受,但這篇論文是用 ChatGPT “寫 ”出來的。不過,如果從各行各業廣泛采用 LLM 的軼事證據來看,人類分析師的日子還遠未到頭。在不久的將來,應將 LLMs 視為情報分析員的額外工具,是提高效率和效力的輔助工具。他們是 “副駕駛員”,可以評估論點、進行數據分析或校對,而不是潛在的替代者。就目前而言,在這些領域中的任何一個領域,要想以其他方式開展工作,風險都太大了。情報工作也不例外:在全球競爭的環境中,整合這些工具的必要性只會越來越強,但過快或魯莽行事顯然存在風險。審慎的做法是,情報評估機構利用人工智能增強人類分析師的能力,為他們創造更多的時間和空間,讓他們運用不可或缺的隱性知識和 “現實感”--以賽亞-伯林(Isaiah Berlin)所說的感同身受的理解是歷史解釋的一個關鍵特征--來理解全局。

令人欣慰的是,谷歌Bard也同意這一點。當被問及它能為情報分析帶來哪些好處時,該程序回答說,它可以執行許多有用的任務。這些任務包括收集信息、分析信息、生成報告、交流研究結果、提出情報需求、管理情報資源和監督情報行動,以確保它們符合法律和道德標準。但是,當被要求確定使用 LLMs 進行戰略情報分析的風險時,它指出:"重要的是,要將機器的產出與情報分析結合起來: 重要的是要將機器輸出與人工分析和解釋以及對地緣政治環境的全面了解結合起來"。顯然,如果 “言聽計從”,該系統具有巨大的潛力。但在充分挖掘潛力之前,所有相關人員都需要考慮并解決幾個基本挑戰。

這些問題包括通常對 IT 網絡安全性和穩健性的擔憂,例如:確保集成軟件經過安全架構審查所面臨的挑戰、供應鏈風險的可能性、數據存儲的安全性、確保提交給任何系統的查詢都經過加密或不可能被敵方重建。其他值得注意的安全問題來自于大量的訓練數據、數十億個參數以及設計可行工具所需的訓練過程。目前,這項工作是在基于云的系統中進行的,因此除了常見的網絡安全問題外,還增加了數據主權問題。此外,為了最大限度地發揮其價值和效用,特別是在快速發展的情況下,LLM 需要經常或持續訪問互聯網。顯然,有必要將那些與開放互聯網保持聯系的系統與情報分析員處理更敏感材料和制作情報評估產品的封閉、保密網絡分開。

上述問題都不是不可克服的,但這些挑戰突出表明,必須有條不紊地解決這一問題,協調政府各相關機構利益攸關方,以成功實施這一至關重要的信息技術項目。這些挑戰也并不都集中在如何確保系統不被敵對勢力破壞上。還需要考慮監管問題。事實上,大衛-安德森(David Anderson)勛爵在上議院關于人工智能的辯論中指出,"在一個人人都在使用開源數據集來訓練大型語言模型的世界里,英國信息中心受到了《調查權力法》第 7 部分的獨特限制。這些限制'在某些重要情況下影響了英國信息中心的靈活性,影響了它與商業伙伴的合作,影響了它招聘和留住數據科學家的能力,并最終影響了它的效率'。

只要能找到令人滿意的解決方案,LLM 對分析師工作的許多方面都極為有用。其中包括較為傳統但費力的任務,如作為研究助理,就特定主題(如國際爭端的背景)提供近乎即時的不同長度和細節的摘要,或構建時間軸、撰寫簡介、總結或分析冗長的文本,或(假設版權和訂閱問題得到解決)將最新的學術著作納入其中。雖然第一批LLM是在英語語料庫中接受培訓的,但目前開發多語言模型的工作進展順利。當然,鑒于已發現生成式人工智能生成的回復在準確性和完整性方面存在問題,任何此類產品都必須經過主題專家的檢查,類似于跨白廳當前情報小組系統。這可能會提高穩健性和效率,并隨著時間的推移,促進機構學習和流程改革。

但潛力顯然不止于此。生成式人工智能還可以包括更先進、更重要的工作。例如,分析師可以使用 LLM 來審查和驗證他們的書面報告,從而增強現有的分析流程和產品審計程序。例如,可以要求提供任何對關鍵判斷提出質疑或證偽的數據;查詢長期以來生成的報告,以確定已成為傳統智慧的假設;或使用工具生成 “紅隊 ”評估。從理論上講,這種能力可以在幾個方面幫助分析人員識別或根除導致情報失敗的某些偏見因素,并確保報告盡可能是最新的。不難想象,這些工具的提供和適當使用將如何提高分析界的速度、影響范圍和批判性地反思其行為和業績的能力。

目前這一代 LLM 也可以撰寫報告或評估報告。將此類寫作任務的早期起草階段外包給一個工具,可為資源和時間貧乏的情報分析員創造經濟效益。毫無疑問,謹慎采用 LLM 是有道理的。但這項技術仍然有限,需要認真監測。這些局限性帶來了風險,這一點在 2023 年大眾廣泛嘗試使用 LLM 之后已經得到證明和充分記錄(在 META 推出 Threads 之前,沒有任何應用能像 ChatGPT 那樣迅速得到采用,該應用在推出后五天內用戶就達到了 100 萬)。對于情報分析師及其產品的接收者來說,其中許多挑戰都是非常棘手的。其中包括對這些工具所提供信息的準確性和可靠性的擔憂。這些系統非常善于生成似是而非的文本、聲明和結論。但這些可能在現實中沒有任何依據,甚至在建立 LLM 的訓練數據中也沒有任何依據。這種 “幻覺 ”已被廣泛觀察到;在學術工作中,經常出現的 “幻覺 ”是生成不存在的資料來源(例如,引用聽起來很有道理但實際上并不存在的網頁)來支持生成的主張。這究竟是 LLM 的一個特點還是一個缺陷,還存在爭議。無論如何,這都對采用 LLM 進行情報評估構成了重大挑戰。分析人員從這些工具中獲取材料并將其納入分析產品時,必須對基礎源數據進行系統檢查。因此,這項技術提出了一個悖論:一是節省時間,二是增加工作量。

與其他人工智能系統一樣,LLM 也會在其生成的任何內容中嵌入偏見。該系統的吸引力和潛力在于它有能力攝取和查詢大量資料--基本上是整個開放互聯網--但必然結果是,該系統也會攝取現有的偏見和廢話,這些偏見和廢話可能是關于特定主題的主流敘事,或者是關于特定主題的特定語言。同樣,毫無疑問,破壞性或惡意行為者會利用 LLM 快速、廉價地生成大量虛假信息并充斥網絡。毫無疑問,敵對行為者也會試圖毒害公共或專有 LLM。目前,大多數開放的生成式人工智能應用程序本質上都是黑盒子,這些系統不允許(或不會允許)用戶檢查它們得出特定判斷的過程。這是由于神經網絡依賴多層節點處理數據的本質所致。這種可觀察性的缺乏,再加上基于 LLM 的系統在可復制性方面的某種脆性--即它對準確提示措辭的依賴--帶來了風險和挑戰。事實上,鑒于在專業情報界對分析評估采用可審計程序的重要性,在這些工具被納入正常業務之前,這個問題構成了一個需要克服的重大障礙--或者說需要掌握的挑戰。正如在人工智能之前的時代一樣,結論必然需要由經驗豐富、訓練有素的人員進行檢查、驗證和整個過程的審計。

這些風險有可能被充分降低,使這些工具能夠相對迅速地融入分析流程。許多研究人員正在開發人工智能系統,以識別人工智能在各種情況下生成的內容,如學術論文或視頻文件。還有一些研究人員正在研究可審計的 LLM 系統;還有一些研究人員正在研究如何開發安全的系統,讓分析人員能夠在分類系統和開放的互聯網上進行搜索。但是,即使這些問題可以得到緩解,還有另一個根本性的問題,即這些系統是否只能是衍生系統,因為它們基本上完全建立在基于已有材料的計算模型之上。它們所提供的洞察力能否與任何接近 “想象力 ”的東西相匹配,還是說它們目前的貢獻仍將局限于語法和風格的練習,偶爾會出現幻覺?或者,換一種說法,他們可能會對某個問題進行極其(或表面上)合理的討論,但鑒于這些討論是根據一個統計模型得出的,該模型關注的是某個特定的詞或概念或 “標記 ”與另一個詞或概念或 “標記 ”相聯系的可能性,并以訓練材料為基礎,那么討論結果中是否會存在固有的保守主義或其他偏見?盡管如此,該領域的變化速度之快,即使預測其對情報評估的相對近期影響也充滿了不確定性,突出表明需要不斷審查該領域的發展。

雖然其他類型人工智能的貢獻已經得到證實,但對生成型人工智能的前景過于技術樂觀也會帶來風險。雖然這不是一個精確的類比,但美國情報界在 9/11 事件之前忽視人類情報(HUMINT)技能而青睞高科技的做法,應該為任何想把 LLM 的出現視為減少情報界人力的機會的人提供一個警示。選擇不當的捷徑會造成長期延誤。顯然,政府必須也必須與 LLM 打交道,必須不斷審查現有技術的效用,并愿意在這些系統得到驗證后擴大其使用范圍。但是,除了投資(擁有或使用)LLM,政府還應保留并加倍投資于人。在采用 LLM 的過程中,最大限度地提高效益和降低風險的一個關鍵因素將需要包括保持和發展對情報分析師的培訓,使他們能夠最好地利用這些強大的新工具。這可能包括專業途徑,培養一批善于將生成式人工智能融入分析實踐 “新常態 ”的官員,使他們能夠掌握現有系統,最大限度地發揮其效用,同時將其帶來的風險降至最低。但同時也應保持并優先培養主題和分析技術方面的專家,他們可以用經驗和智慧、隱性知識和人類特有的 “現實感 ”來補充生成式人工智能的巨大威力。在開展這項工作的同時,還應在政府內部(更不用說更廣泛的公眾)開展更廣泛的教育計劃,讓他們了解人工智能的用途和局限性。消費者,尤其是自詡為技術狂熱者和有遠見的 “深層國家 ”或 “小集團 ”的破壞者,應該仔細了解由于 LLM 的便利而繞過其分析機制的局限性和風險。世界不需要唐納德-拉姆斯菲爾德(Donald Rumsfeld)在伊拉克戰爭前的 “特別計劃辦公室”(ChatGPT)。就目前而言,將 LLM 衍生工具整合到分析流程中最合理的使用案例是,由經驗豐富、訓練有素的人類分析師作為 “副駕駛員”,嵌入到仍然樂于向消費者提供不受歡迎的消息的組織中。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

為支持在不確定的動態環境中長期部署,同時減少人類面臨的威脅和危險,有必要將更多支持人工智能(AI)的機器人整合到軍事和第一反應領域。人工智能機器人作為人類隊友的有效整合將提供支持并提高整體任務性能;然而,目前有關人機交互的研究大多只關注機器人團隊主管。要將機器人真正融入軍事和第一反應任務,需要人類扮演從最高指揮層到直接與機器人一起工作的下地人員等多種角色。層級結構中的所有人類角色都必須了解并保持對機器人隊友的直接控制。本文將文獻中現有的人類角色映射到軍事任務中,提出了與未來人類-機器人團隊合作相關的技術挑戰,并提供了潛在的解決方案和建議,以推動該領域向能夠完成相關領域任務的人類-機器人團隊邁進。

圖:人類與機器人協同作戰的概念軍事示意圖,顯示了 (a) 前沿作戰基地、(b) 下裝巡邏和 (c) 車輛巡邏的示例。請注意,為便于查看,人員、機器人和車輛均已放大。

圖 1 提供了角色圖示,用于說明軍事小故事。有些角色將駐扎在遠離戰場或事件響應區(也稱為熱區)的地方,在那里他們可以從更廣闊的視角來了解需要管理的情況。如圖 1a 所示,這類軍事角色可能駐扎在前方作戰基地。圖 1b 和 c 顯示了結合地面和空中機器人的兩個部署示例,一個是徒步巡邏,另一個是乘車巡邏。這些示例展示了不同角色如何分布在一個軍事單元中,并包括平民旁觀者。

付費5元查看完整內容

本文介紹了一種為戰場環境量身定制的動態三維場景感知創新系統,該系統利用配備雙目視覺和慣性測量單元(IMU)的無人智能體。該系統處理雙目視頻流和 IMU 數據,部署先進的深度學習技術,包括實例分割和密集光流預測,并通過專門策劃的目標數據集加以輔助。通過集成 ResNet101+FPN 骨干進行模型訓練,作戰單元類型識別準確率達到 91.8%,平均交叉比聯合(mIoU)為 0.808,平均精度(mAP)為 0.6064。動態場景定位和感知模塊利用這些深度學習輸出來完善姿態估計,并通過克服通常與 SLAM 方法相關的環境復雜性和運動引起的誤差來提高定位精度。

在模擬戰場元環境中進行的應用測試表明,與傳統的 ORB-SLAM2 立體方法相比,自定位精度提高了 44.2%。該系統能有效地跟蹤和注釋動態和靜態戰場元素,并利用智能體姿勢和目標移動的精確數據不斷更新全局地圖。這項工作不僅解決了戰場場景中的動態復雜性和潛在信息丟失問題,還為未來增強網絡能力和環境重建方法奠定了基礎框架。未來的發展將側重于作戰單元模型的精確識別、多代理協作以及三維場景感知的應用,以推進聯合作戰場景中的實時決策和戰術規劃。這種方法在豐富戰場元宇宙、促進深度人機交互和指導實際軍事應用方面具有巨大潛力。

付費5元查看完整內容

人工智能(AI)已進入世界各大行業,軍事行業也不例外。幾乎每個國家都在尋找新的方法將人工智能應用到軍隊中,無論是通過作戰、醫療還是分析預測。雖然戰場上的人工智能是頭條新聞(如無人駕駛無人機、智能彈藥等),但其潛力并不止于此。說到人工智能在戰場之外的用途,能夠監測生命體征、定位失蹤人員和進行預測性維護的程序只是軍方如何在非戰斗環境中使用人工智能的一些例子。

本文的目的是探討上述人工智能的用途,具體來說,就是在涉及美國海岸警衛隊(USCG)的深海和近岸搜救(SAR)案例時,分析實施預測分析人工智能機器學習算法的可能性。這將通過將人工智能模型與海岸警衛隊目前用于定位溺水人員的計算機程序(即搜救優化規劃系統(SAROPS))配對來實現。本文的研究將解釋為什么在美國海岸警衛隊中實施人工智能是有益的,同時還將解釋將使用哪種人工智能,以及如何對人工智能進行編程以完成所需的必要任務。本文還將介紹預測分析型人工智能在軍事領域的現狀、美國海岸警衛隊(USCG)當前的搜救協議,以及美國海岸警衛隊(USCG)如何將人工智能與當前的搜救行動結合起來,以提高搜救成功的可能性(POS)。

搜救優化規劃系統(SAROPS)

近 15 年來,SAROPS 已被證明是尋找溺水人員的有效算法,但 SAROPS 在某些方面仍有不足,人工智能算法的加入將使其受益匪淺。就目前而言,SAROPS 有兩大問題需要解決,而人工智能的加入將使其立即受益。

當前 SAROPS 程序的第一個問題是使用起來越來越復雜,需要大量的培訓才能準確操作程序。美國海岸警衛隊退役指揮官德魯-凱西(Drew Casey)(2021 年)說:"海岸警衛隊的搜救案例規劃軟件--搜救最佳規劃系統(SAROPS)變得越來越復雜。它不僅需要指揮中心多年的經驗才能掌握其使用方法,還需要掌握其輸出結果的實際應用"(Casey,2021 年)。雖然 SAROPS 是一個有用且有效的程序,但它的操作難度卻越來越大,尤其是在專業技術力量薄弱的小型單元。像 SAROPS 這樣的高難度程序在高壓力環境(如搜救案例)中的學習也具有挑戰性。凱西接著說:"現在,行動專家要花費大量時間......接聽來自各種報告來源的電話,并將相關信息分發給......分區指揮部的主題專家。這種控制范圍的擴大和行政消耗的增加從來都不是有意為之"(Casey,2021 年)。隨著 SAROPS 操作難度的增加,這給知道如何使用 SAROPS 的操作專家(Operation Specialist,OS)帶來了巨大的壓力,導致操作專家的壓力增加,犯錯的機會也隨之增加。采用機器學習算法后,一旦人工智能學會了如何實現成功的 SAROPS 案例所需的功能,就不再需要大量的人工輸入。信息可以直接發送到數據庫,然后人工智能就能對其進行標注和相應的使用。使用人工智能將大大減少教導新操作員如何有效使用程序的時間,從長遠來看,它還能確保更高的準確性,因為計算機在標注數據集和輸入信息方面比人類更準確。

這就引出了第二個問題:準確性。SAROPS 是一個需要高度準確性的程序,但遺憾的是,實現最佳結果所需的準確性水平并非總能達到。美國海岸警衛隊海洋學家克里斯蒂娜-福布斯(Cristina Forbes)(2024 年)在談到 SAROPS 的準確性時說:“模型數據的不準確性對海上失聯海員的搜救工作來說非常具有挑戰性,因為搜索將在錯誤的地點進行,從而延誤救援并耗費資源”(福布斯等人,2024 年)。如果在 SAROPS 編程時出錯,后果將是耗費時間,而時間在 SAR 案例中是非常寶貴的。對人工智能進行編程,使其能夠成功地對大量信息進行分類,將大大降低錯誤數據危及任務的風險,因為人工智能不僅擅長準確整理和計算數據,而且讓人工智能發揮主導作用幾乎可以完全消除人為錯誤。這也讓 SRU 在運行時更有把握,知道他們發送的搜索模式是最好的,因此在高度緊張的情況下不會再猜測算法。這是人工智能在搜救領域發揮作用的兩種最直接的方式,美國海岸警衛隊可以通過實施預測分析 ML 程序輕松實現這一目標。

付費5元查看完整內容

在這個前所未有的技術驅動轉型時代,比以往任何時候都更需要積極投資開發強大的人工智能(AI),用于兵棋推演以支持決策。通過推進人工智能系統并將其與人類判斷力相結合,將能夠增強全域感知,提高決策周期的速度和質量,為新的行動方案提供建議,并更迅速地反擊對手的行動。因此,必須加快人工智能的發展,以幫助更好地應對目前需要人類智慧才能應對的現代挑戰和困境的復雜性,并在可能的情況下嘗試超越人類智慧--不是取代人類,而是以機器的速度增強人類決策并為其提供更好的信息。盡管深度強化學習在智能體行為開發方面不斷取得令人鼓舞的成果,可用于戰斗建模和模擬中常見的長視距復雜任務,但仍需進一步研究,才能使人工智能的規模擴大到能夠處理兵棋推演中錯綜復雜的廣闊狀態空間,從而進行概念開發、教育或分析。為了幫助應對這一挑戰,在研究中,正在開發和實施一個分層強化學習框架,其中包括多模型方法和維度不變觀測抽象。

利用人工智能進行兵棋推演

鑒于這些令人擔憂的活動以及最近在人工智能變革能力方面取得的突破,顯然必須開始更認真地投資于專門用于兵棋推演的人工智能開發。美國國家人工智能安全委員會(NSCAI)[27]詳細闡述了兩個信念:(1)"計算機系統解決問題和完成原本需要人類智慧才能完成的任務--在某些情況下甚至超過人類的表現--的能力迅速提高,正在改變世界";(2)"人工智能正在擴大美國已經進入的脆弱窗口"。因此,有鑒于此,NSCAI得出結論:"美國必須立即行動起來,將人工智能系統投入實戰,并在人工智能創新方面投入更多的大量資源,以保護美國的安全,促進繁榮,保障民主的未來"[27]。NSCAI [27] 認為,通過推進人工智能系統并將其與人類判斷力相結合,將能夠增強全域意識,提高決策周期的速度和質量,為不同的作戰行動提供建議,并更迅速地反擊對手的行動。

盡管美國在大多數領域都享有軍事優勢,但機器學習(ML)的擴散已開始為競爭對手和其他國家行為者提供無數的破壞機會[28]。因此,現在比以往任何時候都更有必要積極開展研究和實驗,以便對人工智能的優缺點以及如何將其用于規劃和兵棋推演有一個扎實的了解,只有這樣,國防部才能更好地做好準備,以應對戰略突襲和破壞[28]。例如,如今的作戰行動分析主要側重于評估友軍的計劃,而很少強調對手可能會如何根據自身的目標和能力做出反應[26]。盡管不遺余力地試圖了解對手的想法以及他們在沖突中會如何行動,但總是會受到自己想象力的限制。托馬斯-謝林(Thomas Schelling)在他的 "不可能定理"(Impossibility Theorem)中說得最好: "一個人,無論他的分析多么嚴謹,想象力多么豐富,都不可能做的一件事,就是列出一個他不會想到的事情清單"[29]。人工智能支持的兵棋推演甚至有可能克服這一限制,創造出有自己目標的智能體,而這些智能體并不一定受限于思維和計劃方式,因為思維和計劃方式通常是通過幾十年的經驗根深蒂固的。此外,僅從數據中學習新的行為,人工智能就能自動執行原本需要人類智慧才能完成的任務[30]。

雖然在機器學習領域已經開展了大量研究,但兵棋推演和軍事規劃與迄今為止使用人工智能解決的傳統問題--如圖像分類和自然語言處理--有很大不同。任務分析和規劃通常需要人類的直覺和啟發式方法來限制搜索問題的規模 [28]。雖然啟發式方法確實能更容易地找到可接受的解決方案,但這些解決方案的可擴展性或可靠性通常不足以評估可能出現的大量突發情況 [28]。此外,直覺也可能在非常復雜的問題中失效,例如那些涉及到有許多不同參與者的高維空間以及復雜的武器和傳感器交互的問題[28]。不幸的是,這些復雜性正是可能決定未來戰爭的特征[26], [28]。

幸運的是,迄今為止,競技游戲已成為學習如何實施人工智能以支持兵棋推演的良好試驗平臺。早期的成功包括掌握跳棋[32]、五子棋[33]、國際象棋[34]和圍棋[35]。人工智能方法在視頻游戲中也取得了成功,如 Atari 游戲 [36]、超級馬里奧兄弟 [37]、Quake III [38]、Dota 2 [39]、星際爭霸 II [40] 和無上限德州撲克 [41]。然而,競技游戲通常都有一套固定的規則、確定的參數和基于已知變量的可預測結果。雖然這些游戲能為戰略、決策和風險評估提供有價值的見解,但真實世界中的兵棋推演場景往往更加復雜--可能的初始游戲狀態更多,分支系數更大,因此結果更加難以預測。因此,如何將人工智能從這些游戲中獲得的成功轉化為真正的軍事行動是一項挑戰。不過,從這些游戲中獲得的人工智能學習和適應能力方面的進步,為人工智能在作戰模擬中更細致的應用奠定了堅實的基礎。

利用 "半人馬 "概念進行兵棋推演

正如 CeTAS 報告[31]所詳述的那樣,可以采用大量不同的方法來利用人工智能支持兵棋推演;不過,在本文剩余部分的范圍內,將討論人工智能與兵棋推演的關系,即創建能夠在戰斗建模和模擬所特有的龐大而復雜的狀態空間中做出理性決策的智能體。

然而,要證明人工智能能夠贏得游戲或取得超人的表現,只是證明人工智能確實能為兵棋推演者、作戰規劃者和戰場指揮官提供有用見解的第一步[42]。盡管如此,設想這些智能體將成為創建現代決策輔助工具的基礎,與更傳統的工具相比,這些工具能為決策者提供更高的準確性、速度和靈活性[28]--有可能加快決策過程并提供關鍵的洞察力。隨著進一步深入多域作戰[26],在面對人工智能對手時,忽視這一步會帶來巨大風險。

雖然人機協作的概念最初是由 Licklider 在 1960 年提出的[43],但前國際象棋世界冠軍加里-卡斯帕羅夫(Gary Kasparov)在 1997 年輸給 IBM 的 "深藍"(Deep Blue)[44]多年后,首次提出了 "半人馬國際象棋"(Centaur Chess)的概念。盡管被人工智能擊敗,卡斯帕羅夫并沒有將人工智能視為一種威脅,而是鼓勵將人工智能視為一種工具,當它與人類的能力相結合時,可以帶來前所未有的成就[44]。卡斯帕羅夫在他的著作《深度思考》(Deep Thinking: 機器智能的終點和人類創造力的起點[44]》一書中,卡斯帕羅夫強調了利用人類和機器互補優勢的必要性。計算機擅長暴力計算,每秒能分析數百萬個局面,同時輕松計算出最佳的近期戰術行動。另一方面,人類對戰略、創造力和考慮特定棋步長期影響的能力有更深刻的理解,而這一切主要靠直覺[44]。卡斯帕羅夫認為,人類的直覺和機器的計算結合在一起,往往能比頂尖特級大師或計算機單獨發揮出更強的棋力。卡斯帕羅夫指出,在許多情況下,即使是排名相對較低的棋手與計算機配對也能勝過頂級特級大師。

有趣的是,卡斯帕羅夫還指出,隨著計算機國際象棋程序變得越來越強大,人類棋手在這種半人馬合作關系中的角色也發生了變化。最初,人類專注于戰略,而計算機則專注于戰術,但隨著國際象棋人工智能的改進,人類越來越多地開始扮演 "質量控制 "的角色,確保計算機推薦的棋步與人類更廣泛的戰略目標相一致[44]。事實上,卡斯帕羅夫經常說,國際象棋的未來可能不是人類與機器的對決,而是人類與機器配對,使用何種界面,能下出最好的棋。這種合作融合了機器的計算能力和人類提供背景、理解和直覺的能力--這種協同作用所產生的棋藝水平超過了任何一方單獨發揮所能達到的水平。

為兵棋推演開發人工智能

雖然有許多不同的人工智能技術和方法可以應用于兵棋推演,如監督學習、無監督學習、遺傳算法、自然語言處理、決策樹、專家系統、博弈論、對抗網絡等,但本文主要關注的是推進強化學習(RL)領域的需求,以支持為兵棋推演開發智能體行為。

說到機器學習,主要有三種類型:監督學習、無監督學習和強化學習。監督學習依賴于標注數據,每一組輸入都有相應的預期輸出。它類似于范例學習,最適合圖像分類、回歸和語音識別等任務。相反,無監督學習不依賴于標記數據。相反,它能發現數據中的模式或結構,比如對數據點進行分組或聚類,最適合異常檢測、降維和數據分割。值得注意的是,還有其他類型的機器學習,如遷移學習、主動學習、自我監督學習等;不過,這些通常是上述兩類學習的擴展或組合。

付費5元查看完整內容

本文探討了無處不在的人工智能對戰斗本質的改變。將目光從人工智能取代專家轉向人機互補的方法。利用歷史和現代實例,展示了由人工智能操作員和人工智能/機器學習代理操作員組成的團隊如何有效管理自主武器系統。方法基于互補原則,為管理致命自主系統提供了一種靈活、動態的方法。最后,提出了實現機器加速戰斗綜合愿景的途徑,即由人工智能操作員操作戰場人工智能,觀察戰場內的行為模式,以評估致命自主系統的性能。與任何純粹的自主人工智能系統相比,這種方法能開發出更符合道德規范、以機器速度運行并能應對更廣泛動態戰場條件的作戰系統。

2022 年 11 月,ChatGPT 的發布標志著人工智能(AI)發展史上的一個關鍵時刻。幾十年來,人工智能一直是人們熱衷研究的課題,但對于普通人來說,它仍然是一個抽象的概念,更多的是科幻小說或技術演示,比如 IBM 的沃森贏得了《危險邊緣》(Jeopardy)。然而,有了 ChatGPT,人工智能走出了實驗室,人們可以用與朋友和同事交流的方式與人工智能對話。ChatGPT 將公眾對人工智能的看法從未來的可能性轉變為實實在在的現實。與此同時,在距離開發 ChatGPT 的辦公室千里之外,烏克蘭正在將人工智能融入戰場。面對俄羅斯大規模的射頻干擾,烏克蘭部署了人工智能增強型無人機,能夠在敵對條件下,在無人監督的情況下有效運行。人工智能的這一應用并不是要進行對話或模擬類似人類的互動,而是要在傳統系統失靈的情況下,增強對大型對手的作戰能力。ChatGPT 的認知能力與烏克蘭無人機對人工智能的功利性應用之間的對比,說明了人工智能在不同領域的多樣性和變革性。

這兩項人工智能應用促使美國國防部(Department of Defense,DoD)關于戰場人工智能的戰略思想發生了潛在轉變。最初的人工智能條令強調,對人工智能系統 "適當程度的人為判斷 "至關重要,"要有明確的程序來激活和關閉系統功能,并對系統狀態提供透明的反饋"[5]。對 "自主和半自主武器系統的人機界面"[5] 的要求意味著一定程度的人類直接互動,通常稱為 "人在回路中"(HITL)或 "人在回路中"(HOTL)。這種人類直接參與人工智能或監控錯誤的方式,證明了對關鍵流程自動化的謹慎態度。

之所以會出現這種轉變,是因為人們認識到,人工智能及其不可避免的技術普及,將不僅僅是補充,而是從根本上改變戰場上的行動和情報搜集,就像它已經開始改變社會上幾乎所有其他地方一樣。這種演變并非首次發生。就在上一代,互聯網的出現和智能手機的普及徹底改變了通信和信息獲取方式,以至于國防部別無選擇,只能適應。與這些創新一樣,人工智能也正走在一個類似的基本層面上。現在的挑戰不在于試圖支配人工智能的整合,而在于適應其不可避免的普遍性,在擔心數據偏差、計算 "幻覺 "的情況下確保軍事系統的可靠性和有效性,同時確保致命性自主武器系統的行為符合國際人道主義法(IHL)。本文件旨在探討這些挑戰,并提出緩解這些挑戰的途徑,同時認識到人工智能增強戰爭的進程不僅不可避免,而且已經開始。

討論

2022 年,人工智能達到了一個拐點。隨著電子戰的加劇,烏克蘭沖突迫使自主無人機快速發展。與此同時,像 ChatGPT 這樣的強大語言模型的發布吸引了全球觀眾,盡管它們的局限性也變得顯而易見。這些系統容易出現事實錯誤和赤裸裸的捏造,凸顯了將模式識別誤認為真正理解的風險。在人工智能顛覆整個行業的同時,我們也認識到,人工智能的流暢性往往掩蓋了根本無法分辨真假的缺陷。

人工智能在軍事上的應用提出了獨特而棘手的倫理問題。根據特定數據訓練的人工智能系統是實現其設計目的的強大工具。它們擅長模式識別和快速執行所學任務。但人工智能系統適應新情況的能力,尤其是在人命關天的情況下,仍然不太清楚。

雖然人工智能在數據處理和分析方面的能力毋庸置疑,但它在道德框架內指導行為的能力卻不那么確定。圖 1 展示了戰場自主人工智能的典型組織結構。作戰人員(橙色圓圈)直接操作一套武器系統(藍色圓圈),每套系統都通過一個人工智能模型進行調解,該模型經過訓練,可控制特定武器與敵人交戰。然而,如果敵人已經找到了欺騙人工智能模型的方法,作戰人員往往無法改變模型的行為。相反,作戰人員必須依靠其他可能風險更大的手段與敵人交戰。在戰爭中強調簡化、精簡的人工智能模型會帶來一種危險的脆性。當人工智能模型被愚弄時,它可能會使作戰人員面臨更大的風險,同時將關鍵優勢拱手讓給敵人。

在本文中,我們提出了 3.8 節中介紹的人工智能操作員或 "馬夫 "的角色。這種角色延伸了加里-卡斯帕羅夫(Garry Kasparov)在 "高級國際象棋 "中提出的 "半人馬"(centaur)概念,即人類與多個國際象棋程序合作,將人類的戰略洞察力與機器的計算能力相融合,以達到超高水平的競爭[21, 13]。這些相互促進或互補的領域已被證明優于任何一個單獨的組成部分[23]。互補的概念是將多個元素結合在一起,產生一個比任何一個部分都更有效的整體,這與更常見的替代做法有著本質區別,替代做法是單獨使用能力最強的部分--人類、自動化或人工智能。替代系統的實際結果是,它們的強大取決于最薄弱的部分。由作戰人員、戰場人工智能、遠程人類操作員及其本地人工智能代理組成的網絡可確保人類和人工智能的優勢得到最大程度的發揮(圖 2)。半人馬概念在軍事戰略中的演變說明,未來人類與人工智能的合作不僅有益,而且對于在高度動態和競爭激烈的環境中取得優勢至關重要。

要想讓人工智能系統在軍事環境中可靠運行,人類操作員必須了解人工智能的決策過程。這就意味著要對具有不同技能和背景的操作員進行培訓。就像棋手調整策略一樣,操作員應能根據需要切換人工智能模型。不能指望單一的人工智能模型在每一種戰場場景中都能完美發揮作用。情況是不可預測的;在一種情況下最好的模型在另一種情況下可能會失效。操作員必須了解每種人工智能模型的優缺點,以確保使用最有效的工具來完成手頭的任務。這種適應性是人工智能成功融入軍事行動的關鍵。

在軍事行動中,采用這種靈活的方法將人類與人工智能配對,可創建出比人工智能單獨運作的系統更靈活、適應性更強的系統。這種人類與人工智能的共生關系可以破壞對手的 "觀察、定位、決策、行動"(OODA)循環[18],有效地 "反客為主"。人工智能在人類直覺和經驗的充實下,引入了不可預測性和復雜性,純人工智能對手可能難以理解或實時處理這些不可預測性和復雜性。這可能會使天平向有利于人類-人工智能團隊的方向發生決定性的傾斜,使他們在關鍵時刻超越和思考純人工智能系統,從而獲得戰術優勢。

人類可以利用自己的創造力和創新力提出人工智能無法提出的新想法和解決方案。例如,將人類對已知危險和風險的了解融入自主系統,可以讓操作員確定并預測基于人工智能的控制器在遇到真實世界的風險因素時的行為[6]。我們還能理解人工智能忽略的細微差別和情境,這對決策至關重要。最后,人類在群體中表現最佳,每個人都能帶來不同的視角和技能,從而提供深度理解,而目前的人工智能似乎可以模仿,但卻無法復制。

付費5元查看完整內容

生成式人工智能模型能夠執行一系列傳統上需要創造力和人類理解力的任務。在訓練過程中,它們可以從現有數據中學習模式,然后根據這些模式生成文本、圖像和音樂等新內容。一方面,由于它們的多功能性和普遍的高質量結果,它們代表了數字化的機遇。另一方面,人工智能生成模型的使用也帶來了新的 IT 安全風險,在全面分析與 IT 安全相關的威脅時需要考慮這些風險。

針對這種潛在風險,使用生成式人工智能的公司或機構在將生成式人工智能集成到工作流程之前,應進行單獨的風險分析。這同樣適用于開發人員和運營商,因為生成式人工智能的許多風險必須在開發時就考慮到,或者只能由運營公司來影響。在此基礎上,可以調整現有的安全措施,并采取額外的措施。

付費5元查看完整內容

要在未來與技術先進的競爭對手的沖突中保持競爭力,就必須加快兵棋推演人工智能(AI)的研究與開發。更重要的是,利用機器學習進行智能作戰行為開發將是有朝一日在這一領域實現超人性能的關鍵--提高在未來戰爭中的決策質量并加快決策速度。盡管深度強化學習(RL)在游戲中的智能體行為開發方面不斷取得令人鼓舞的成果,但在戰斗建模與仿真中常見的長視距復雜任務中,其表現尚未達到或超過人類水平。利用分層強化學習(HRL)已被證實的潛力和最近取得的成功,我們的研究正在調查和擴展 HRL 的使用,以創建能夠在這些大型復雜模擬環境中有效執行任務的智能體。最終目標是開發出一種能夠發揮超人性能的智能體,然后將其作為軍事規劃者和決策者的人工智能顧問。本文介紹了正在進行的研究方法,以及五個研究領域中的前三個領域,這些領域旨在管理迄今為止限制人工智能在作戰模擬中應用的計算量指數級增長問題: (1) 為作戰單元開發一個 HRL 訓練框架和智能體架構;(2) 為智能體決策開發一個多模型框架;(3) 開發狀態空間的維度不變觀測抽象,以管理計算量的指數增長;(4) 開發一個內在獎勵引擎,以實現長期規劃;(5) 將此框架實施到更高保真的作戰模擬中。這項研究將進一步推動國防部正在進行的研究興趣,即擴展人工智能以處理大型復雜的軍事場景,從而支持用于概念開發、教育和分析的兵棋推演。

人工智能(AI)技術的最新進展,如 OpenAI 的 ChatGPT,再次體現了人工智能在重塑各行各業方面的變革潛力。正如生成式預訓練變換器(GPT)模型從根本上重新定義了對人工智能巨大威力的理解一樣,其他人工智能方法也能為國防部門開發改變游戲規則的工具做出貢獻,而迄今為止,人工智能已被證明過于復雜,無法有效解決這些問題。

人工智能可以產生變革性影響的一個領域是支持兵棋推演的戰斗建模和仿真領域。但遺憾的是,就像兵棋推演的歷史可以追溯到幾個世紀前一樣,如今用于現代兵棋推演的大多數工具和技術也是如此。雖然傳統兵棋推演工具(如實體游戲棋盤、紙牌和骰子)絕對仍有其作用,但將兵棋推演帶入 21 世紀的壓力也越來越大(Berger,2020 年,2022 年;美國國防科學委員會,2021 年;美國國防部副部長,2015 年;美國政府問責局,2023 年),并利用現代技術進步,如人工智能(Davis & Bracken,2022 年),"從技術和方法兩方面發展當前的兵棋推演范式"(Wong 等人,2019 年)。

雖然美國在大多數領域都享有軍事優勢,但機器學習(ML)的大眾化已開始為競爭對手和其他國家行為體提供無數的破壞機會(Zhang 等人,2020)。因此,比以往任何時候都更有必要積極投資于研究與開發,以建立對人工智能優缺點的扎實基礎理解(Schmidt 等人,2021 年),以及如何將其用于設計、規劃、執行和分析各種目的的兵棋推演。只有這樣,國防部(DOD)才能更好地應對戰略突襲和破壞(Zhang 等人,2020 年)。

然而,兵棋推演和軍事規劃與迄今為止成功利用人工智能的傳統領域--如圖像分類和后勤相關的優化問題--有很大不同。由于戰爭的復雜性,任務分析和規劃通常需要在早期應用直覺和思維啟發法來限制搜索問題的規模(Zhang 等人,2020 年)。雖然啟發式方法確實能讓我們更容易地找到可接受的解決方案,但這些解決方案的可擴展性或可靠性通常不足以評估可能出現的大量突發事件。此外,直覺也不足以解決高度復雜的問題,例如那些涉及許多不同參與者的高維空間以及復雜的武器和傳感器相互作用的問題(Zhang 等人,2020 年)--然而這些復雜性正是可能決定未來戰爭的特征(Narayanan 等人,2021 年)。

雖然不認為人工智能會在可預見的未來取代人類的判斷或決策,但我們確實認為,人工智能在融入決策輔助工具后,有機會加快決策過程并提供新的見解。事實上,如果不能充分利用人工智能的力量,那么當我們深入多域作戰時,就可能會面臨巨大風險(Narayanan 等人,2021 年)。最終,通過利用超人智能體作為人類決策者決策支持工具的基礎,有望在未來戰爭中取得超越對手的決策優勢--加快決策速度,提高決策質量。因此,要想在未來與技術先進的競爭對手的沖突中保持競爭力,就必須加快對兵棋推演人工智能的研究和開發。更重要的是,利用機器學習進行智能作戰行為開發將是有朝一日在這一領域實現超人表現的關鍵。

本文介紹了在擴展人工智能方面的研究方法,以處理兵棋推演中戰斗建模和模擬所特有的復雜而錯綜復雜的狀態空間。雖然研究仍在進行中,而且還不完整,但將在本文中介紹總體方法、初步成果和前進方向。

研究規劃

研究利用 RL 已證明的潛力和 HRL 最近取得的成功,打算進一步提高擴展機器學習的能力,以開發智能體行為,用于戰斗建模和仿真中常見的大型復雜場景。為了實現這一目標,我們打算吸收文獻中的許多見解,同時為這一領域做出我們自己的獨特貢獻。研究主要分為五個研究領域:(1) HRL 訓練框架和作戰單元的智能體架構;(2) 用于智能體決策的多模型框架;(3) 狀態空間的維度不變觀測抽象;(4) HRL 框架的內在獎勵工程;(5) 將此框架實施到高保真作戰模擬中。本文僅關注前三個研究領域。

HRL 訓練框架和智能體架構

首先開發了一個 HRL 訓練框架,通過擴展和吸收 Dayan & Hinton(Dayan & Hinton, 1992)、Vezhnevets 等人(Vezhnevets et al、 2017)、Levy(Levy 等人,2019)、Pope 等人(Pope 等人,2021)、Wang 等人(Wang 等人,2021)、Rood(Rood,2022)和 Li 等人(S. Li 等人,2022)。為了支持這一框架,我們還開發了一種新的智能體架構,由智能體層次結構和決策層次結構組成--每個單獨的智能體都是一個多模型智能體。

如圖 3 所示,"智能體層次結構 "中的每個層次主要對不同數量的下級智能體實施控制,最低層次控制單個實體。為便于說明,我們將這些層級命名為 指揮官、經理和操作員。然而,我們可以把這種層次結構看作從 1 到 n 層的任何深度,其中最低層級為 1,最高層級為 n。只有少數單元的簡單任務可能只需要兩個層級,而涉及多個交互單元的復雜任務可能需要三個或更多層級。由于我們的研究打算考察更復雜的場景,因此我們預計至少需要三個層次。

在這一分層框架內,還制定了決策分層。值得注意的是,盡管在圖 3 中列出了具體的決策,但這只是為了說明問題,并不一定 是決策的最終細分。薩頓等人最初為決策層次概念創造了 "選項 "一詞(薩頓等人,1999 年)。選項是對行動的概括,薩頓等人正式將其用于原始選擇。之前的術語包括宏觀行動、行為、抽象行動和子控制器。在層次結構中表示這一概念時,我們使用了決策一詞。在傳統的 RL 問題中,智能體接受觀察結果,并在固定的時間步輸出一個動作,而在 HRL 問題中,智能體要么被給予背景知識,要么必須發現背景知識,從而以顯式或隱式的方式分解問題(Sammut & Webb,2010 年)。然后,智能體利用這些知識,通過訓練優化未來回報的策略,更高效地解決問題。

分層結構中的多個層次還允許每個層次針對不同的目標和不同的抽象程度進行訓練,從而使擴展到非常復雜的場景成為一個更容易解決的問題。此外,這種分層方法還隱含著對智能體協調與合作的訓練,因為上層控制著下層的總體行為(Wang 等人,2021 年)。除最底層外,層次結構的每一層都可以被視為抽象或認知層(即,它們最初是高層決策,最終將為原始行動提供信息)。只有處于層次結構最底層的智能體才是游戲板上的實際實體,會采取影響環境的離散或原始行動。

圖 4 展示了 HRL 框架。層級結構的指揮官層級接收自己對狀態空間的獨特抽象觀察,并向下一層級輸出子目標和終止條件。在下一級中,管理者接收指揮者的子目標和對狀態空間的不同抽象觀察結果,并輸出其 自己的子目標。最后,在最底層,操作員接收子目標和對狀態空間的抽象本地觀察,并利用我們的多模型智能體框架輸出一個供實體采取的行動。

多模型智能體

為了構建我們的多模型智能體框架,我們借鑒并采用了專家混合(MoE)(Jacobs 等人,1991 年)、"多模型思想家"(Page,2018 年)、集合方法和 RL 的概念。盡管我們從 MoE 和集合文獻中借鑒了采用各種專家網絡的想法,但我們偏離了這些傳統方法提出的中心思想。雖然我們仍然利用了許多不同的模型,但我們并沒有采用純粹的分而治之的方法(Jacobs 等人,1991 年)或模型輸出的匯集(Page,2018 年),而是對模型進行了區分,以確定哪個特定的模型可以在每個行動選擇步驟中最大化智能體的整體性能。換句話說,我們并不是將模型輸出進行組合,而是簡單地將它們作為一個評估函數的輸入,然后由該函數決定在每個步驟中應使用哪個特定的行為模型。集合方法要求建模者考慮模型的偏差或缺陷,而我們的多模型方法則允許我們利用一組不同的模型(腳本模型或機器學習訓練的模型),而無需考慮模型的平衡或驗證。之所以能做到這一點,是因為我們不是將模型預測結合在一起,而是對模型預測進行區分,并采用能最大化特定目標的單一最佳策略。

多模型框架如圖 5 所示。在每個行動選擇步驟中,多模型都會接收一個觀察結果作為輸入,并將其傳遞給每個得分預測模型。每個得分預測模型都會推導出一個預測的游戲得分,并將其輸入評估函數。然后根據評估函數選擇特定的行為模型。最后,原始觀察結果被傳遞給選定的行為模型,由其產生一個動作。

為了提供選擇適當行為模型的評估函數,我們為資源庫中的每個行為模型訓練了一個單獨的分數預測模型。該分數預測模型是一個卷積神經網絡(CNN),可根據當前游戲狀態推斷出游戲分數。預測的游戲得分假定藍方按照各自的行為模型繼續游戲,紅方按照特定的對手行為模型繼續游戲。鑒于 Atlatl 是一款回合制游戲,而非時間步進模擬,我們將棋盤上實體被提示采取某項行動的每個實例都稱為行動選擇步驟。盡管迄今為止,我們一直在使用監督學習方法訓練得分預測模型,并在游戲中使用了 "行動選擇 "模型。數據來訓練得分預測模型,但我們最近開發了一個單獨版本的得分預測模型,并正在對其進行測試。

在實驗中評估了這種多模型方法相對于傳統單模型方法(無論是腳本還是基于 RL 的)的有效性,發現多模型方法比表現最好的單模型提高了 62.6%。此外,我們還發現,由更多模型組成的多模型明顯優于由較少模型組成的多模型,即使這些額外模型的整體性能較差。這表明,即使我們的某些單個模型在總體上表現不佳,但它們很可能在非常特殊的情況下取得了成功--我們的分數預測模型似乎準確地捕捉到了這一現象,而我們的評估函數也正確地用于為每個行動選擇步驟選擇最佳模型。

更重要的是,使用這種方法,不必訓練一個能夠在所有可能情況下都有效執行任務的單一模型,而是可以開發或訓練能夠在特定情況下執行任務的非常專業的模型,然后在遇到這些特定情況(即游戲中的特定狀態)時自動調用這些專業模型。此外,由于我們的多模型可以區分其嵌入的模型,因此我們可以根據需要加入新的模型,而無需考慮行為驗證、平衡甚至偏差等問題--傳統的集合建模方法通常需要將結果匯集在一起。

狀態空間的觀測抽象

即使使用 Atlatl 這樣的簡單環境,將其擴展到更大的場景也會導致性能不佳(Boron,2020;Cannon & Goericke,2020;Rood,2022)。部分原因在于,與人類不同,RL 的樣本效率不高,需要大量的訓練數據(Botvinick 等人,2019 年;Tsividis 等人,2017 年),而龐大的行動和觀察空間則進一步加劇了這一問題。不過,Abel 等人指出,RL 中的抽象可以提高采樣效率(Abel 等人,2020 年),從而有可能讓我們擴展到處理非常復雜的環境。此外,學習和使用適當的世界抽象表征是任何智能體(無論是生物還是人工智能)都必須具備的基本技能(Abel,2020)。

然而,由于抽象本質上會丟棄信息--這可能會損害基于這些抽象所做決策的有效性--我們必須在使學習變得更容易(或可操作)與保留足夠信息以實現最優策略發現之間權衡利弊(Abel,2020)。我們對狀態空間抽象得越多,丟失的信息就越多,就越難保證獲得最優或接近最優的解決方案(L. Li 等人,2016 年)。不過,這也是一種權衡,因為盡管更粗略的抽象可能會導致次優行動,但它們確實可以更好地進行規劃和價值迭代(李玲等人,2016 年)。

為了克服在大型狀態空間中進行訓練時所面臨的一些權衡挑戰,同時保留足夠的信息以找到最優或接近最優的解決方案,我們目前正在開發一種方法,其中包括根據層次結構的級別應用不同級別的抽象。在《模擬與兵棋推演》一書中,Tolk 和 Laderman 討論了 "任務通常會驅動所需的抽象層級"(Turnitsa 等人,2021 年)。同樣,正如我們在軍事規劃中通常看到的那樣,高層次的抽象會更粗,而低層次的抽象會更細(FM 5-0 Planning and Orders Production, 2022;Joint Publication 5-0 Joint Planning, 2020;MCWP 5-10 Marine Corps Planning Process, 2020)。因此,我們的 HRL 框架涉及在較高層次的決策中應用較粗略的抽象層次,同時仍通過本地觀測為較低層次的決策保留所有本地狀態空間信息。我們認為,這種方法將使高層的長期規劃更加有效,并使低層的計劃在當地得到更有效的實時執行。

為了說明這一概念,我們首先描述了一般的 Atlatl 觀測空間。盡管觀察空間在不斷演變,但最近的一個觀察空間由 n x m 網格的 17 個通道組成,其中網格的每個入口代表 n x m 大小棋盤的一個十六進制。這個觀察空間被編碼為張量。圖 6 舉例說明了每個通道所代表的信息。例如,每個通道編碼的信息包括單元移動、單元類型、地形類型等。

圖 7 顯示了一個 20 x 20 棋盤的狀態空間表示示例,其中疊加了三個通道(藍色部隊、紅色部隊、城市六角形)。我們在下面所有圖中疊加了三個通道,僅供參考;但在 Atlatl 中,這些通道將表示為 3 個獨立通道(共 17 個通道),如圖 6 所示。

付費5元查看完整內容

為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。

RELEGS:針對復雜作戰情況的強化學習

為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。

標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。

為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。

為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。

一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。

視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。

動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。

除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。

付費5元查看完整內容

為計算機生成兵力(CGF)創建行為模型是一項具有挑戰性且耗時的任務,通常需要具備復雜人工智能算法編程方面的專業知識。因此,對于了解應用領域和培訓目標的主題專家來說,很難建立相關的場景并使培訓系統與培訓需求保持同步。近年來,機器學習作為一種為合成智能體建立高級決策模型的方法,已顯示出良好的前景。這類智能體已經能夠在撲克、圍棋和星際爭霸等復雜游戲中擊敗人類冠軍。我們有理由相信,軍事模擬領域也有可能取得類似的成就。然而,為了有效地應用這些技術,必須獲得正確的工具,并了解算法的能力和局限性。

本文討論了深度強化學習的高效應用,這是一種機器學習技術,可讓合成智能體學習如何通過與環境互動來實現目標。我們首先概述了現有的深度強化學習開源框架,以及最新算法的參考實現庫。然后,我們舉例說明如何利用這些資源為旨在支持戰斗機飛行員培訓的計算機生成兵力軟件構建強化學習環境。最后,基于我們在所介紹環境中進行的探索性實驗,我們討論了在空戰訓練系統領域應用強化學習技術的機遇和挑戰,目的是為計算機生成的兵力有效構建高質量的行為模型。

計算機生成兵力的學習環境

在實驗中,將強化學習環境構建為實現 OpenAI Gym 接口的 Python 模塊,因為許多現有的強化學習算法實現都支持該接口。環境的結構如圖 2 所示。環境的大部分功能都在 EnvironmentCore 類中實現。該類通過 SimulationInterface 與本地或遠程計算機上運行的仿真進程通信,在仿真中的實體和控制它們的強化學習智能體之間傳輸觀察結果和操作。SimulationInterface 還用于在計算機生成兵力軟件中加載模擬場景。

模擬與環境模塊之間的通信是通過 ZeroMQ 實現的,ZeroMQ 是一個開源、輕量級的消息傳遞中間件,可綁定多種編程語言,包括 C++ 和 Python。ZeroMQ 可以輕松實現幾種流行的消息傳遞模式,如請求-回復、發布-訂閱和推-拉。ZeroMQ使用谷歌協議緩沖區(Google protocol buffers)來指定消息,這是一種語言中立、平臺中立的結構化數據序列化機制。使用簡單的協議語言創建消息規范,然后將其編譯成各種編程語言(包括 C++ 和 Python)的源代碼。

要配置特定的環境,需要使用一些委托對象:

  • ActionDelegate: ActionDelegate 指定環境的動作空間(OpenAI Gym 中提供的空間定義之一)。在執行過程中,它將該空間中的動作作為輸入,并將其轉換為 ActionRequest 消息,然后由 EnvironmentCore 發送給模擬中的實體。 -ObservationDelegate:指定環境的觀察空間(OpenAI Gym 中提供的空間定義之一)。在執行過程中,它將來自模擬實體的狀態更新信息作為輸入,并將其轉換為來自觀察空間的狀態觀察信息,然后將其呈現給智能體。
  • RewardDelegate:將狀態觀測信息作為輸入,并計算出一個標量獎勵信號,然后將其發送給智能體。
  • ScenarioDelegate:管理要模擬的情景,包括終止標準。對于訓練過程中的每個情節,委托機構都會根據需要調整場景內容,并生成模擬請求(SimulationRequest)消息,由環境核心(EnvironmentCore)發送給模擬。
  • RenderDelegate:會渲染模擬場景當前狀態的視圖。這對調試非常有用。我們使用 Python Matplotlib 和 Basemap 庫實現了簡單的地圖渲染。

空戰仿真領域的深度強化學習

在空戰模擬領域的深度強化學習實驗中,我們發現了一些挑戰,這些挑戰通常不存在于許多強化學習的簡單基準環境中。狀態和行動空間的維度高且復雜,使得智能體難以學習重要的狀態特征和合適的決策策略。例如,在許多場景中,由于傳感器的限制或電子戰的影響,環境只能被部分觀測到。此外,在大多數場景中,智能體不會單獨行動,而是必須與盟友合作,同時與敵人競爭,以達到目標。為了處理長期和短期目標,可能需要在不同的時間尺度上進行決策。代表最重要目標的獎勵通常是延遲的、稀疏的,例如,如果智能體取得了勝利,就會在情景結束時給予獎勵,這樣就很難將功勞歸于正確的行動。此外,根據訓練需要,智能體的目標也有可能在不同的模擬運行中有所不同。例如,我們可能需要調整模擬的難度,以適應受訓者的熟練程度。最后,由于運行高保真模擬的計算成本很高,因此盡可能提高學習過程的樣本效率非常重要。在下面的章節中,我們將討論一些可以用來應對這些挑戰的技術。

付費5元查看完整內容

圖4. 人工智能對目標定位的增強:人工智能可以通過搜索目標并在發現后發出警報來增強動態目標定位周期。

開發和使用新的軍事技術是一個軍事專業人員工作的一部分。事實上,軍事歷史在很大程度上是一個技術革新的故事,士兵需要學習如何操作新系統。因此,關于整合人工智能的很多東西并不新鮮。就像坦克、飛機甚至弩一樣,隨著時間的推移,士兵們學會了使用和運用技術,工業界學會了以足夠的數量和質量生產技術,高級領導人學會了運用技術來實現戰略效果。如前所述,人工智能技術與它們的顛覆性“前輩”之間的區別在于,前者有能力改善廣泛的軍事武器、系統和應用。由于這種潛在的普遍性,幾乎所有的士兵都必須在某種程度上變得熟練,才能有效地和道德地運用AI技術。隨著這項技術在應用上的擴展,戰爭將像管理暴力一樣管理數據。

這種普遍性也提出了關于人類發展和人才管理的問題。盡管培訓計劃最終會培養出更多的知識型士兵,人事系統也會提高管理士兵的能力,但軍警人員能夠獲得知識和技能的限制仍然存在,特別是在作戰層面。盡管討論的目的不是要建立嚴格的指導方針,但討論確定了士兵需要獲得的許多知識。例如,士兵將需要知道如何策劃和培訓數據庫,而該數據庫對他們正在執行的任務有著重要作用。這樣做需要確保數據的準確、完整、一致和及時。使用這些數據需要熟練應用推薦模型卡中描述的條件,而熟練的操作有助于確保算法以有效和道德的方式執行。

當然,信任不能僅靠政策和程序來保證。指揮官、參謀員和操作員需要知道他們被信任做什么,以及他們信任系統做什么。指揮官、參謀員和操作員信任人工智能系統來識別合法目標,并避免識別非法目標。參與這一過程的人必須在使用這些信息時,既需要擊敗敵人,又必須避免友軍和非戰斗人員的傷亡。要找到這種平衡,就需要判斷人應該承擔多大的風險。

只要參與流程的人類能夠與系統進行有效的互動,由人工智能賦能的系統就能促進找到這種平衡。在將人類控制整合到機器流程中時,人們經常被迫在控制和速度之間做出選擇:強加的人類控制越多,系統的運行速度就越慢。但本研究發現這種兩難的局面是錯誤的。盡管在某些情況下,在人的控制和速度之間進行平衡可能是必要的,但如果系統要最佳地運作,人的輸入是必要的。

實現最佳性能首先要求指揮官確保參謀和操作人員了解模型能力,理解數據質量的重要性,以及洞悉模型在作戰環境中的表現。盡管它可能不會使系統更加精確或準確,但實現這些任務可使系統能夠更好地對輸出進行概率分配。第二,指揮官需要確定對任務、友軍戰斗人員和敵方非戰斗人員的風險有多大才合適。這一決定很復雜,其中關鍵任務可能是需要容忍更多的友軍和非戰斗人員傷亡。同樣,如果非戰斗人員的密度較低,即使任務不那么緊急,也可以容忍較高的風險。尋找這種平衡將是人類的工作。

但在前面描述的模糊邏輯控制器的幫助下,指揮官可以更好地確定什么時候可以信任一個人工智能系統在沒有人類監督的情況下執行一些目標定位步驟。此外,可以通過構建交互的邏輯,以找到多種不同的人機互動配置,確保系統的最佳使用,同時避免不必要的傷害。在LSCO期間,讓指揮官在需要時選擇智能和負責任地加快目標定位過程將是至關重要的,本報告中提出的設計實現了這一目標。這一成就在未來尤其重要,因為為了保護部隊并實現任務目標,指揮官將面臨大量時間敏感目標,及面臨承擔更多風險的操作條件。

在培養具有正確技能的足夠數量士兵以充分利用人工智能技術方面,仍有大量的工作。目前的人才管理計劃尚未達到管理這一挑戰的要求,盡管多個有前途的計劃準備最終滿足需求。然而,在大多數情況下,這些計劃都是為了滿足機構層面的要求,在機構層面上做出全軍采買人工智能和相關技術的決策。但是,這些技能將如何滲透到作戰陸軍,尚不清楚。

盡管人工智能在目標定位中的使用并不違反當前的戰爭法,但它確實引起了一些道德倫理問題。在所討論的目標定位系統背景下,這些倫理問題中最主要的是問責制差距和自動化偏見。第一個問題對于回答核心問題至關重要,“指揮官在什么基礎上可以信任人工智能系統,從而使指揮官可以對這些系統的使用負責?”自動化偏見和數據衛生與問責制差距有關,因為當這些問題存在時,它們會破壞指揮官可能希望實施的有意義的人類控制措施。指揮官可以通過以下方式縮小問責差距:首先,確保人員受到適當的教育、技能和培訓,以整理相關數據;其次,確保指揮官允許的風險,準確地反映完成任務與保護友軍士兵和非戰斗人員之間的平衡需求。指揮官還可以通過在機器需要更多監督時向參與該過程的人類發出信號來減少自動化偏見的機會及其潛在影響。

作為一個專業人員,不僅僅意味著要提供服務,還要在出問題時承擔責任。專業人員還必須了解各種利益相關者,包括公眾和政府及私營部門實體,如何與本行業互動和競爭。鑒于這些技術的潛力,軍事專業人員必須首先學會在技術及其應用的發展中管理預期。由于這種演變影響到專業工作的特點,軍事專業人員還必須注意專業以外的人如何重視、獎勵和支持這項工作。因此,隨著美軍繼續將人工智能和數據技術整合到各種行動中,對其專業性的考驗將在于擁有專業知識的能力,以及建立能夠繼續發展、維護和認證這種專業知識的機構,這些機構既能滿足美國人民的國防需求,又能反映他們的價值觀。

付費5元查看完整內容
北京阿比特科技有限公司