本文介紹了大型語言模型(LLMs)和生成式人工智能系統(GAIs),并將讀者對其能力、局限性和合適應用的期望與底層技術的核心特征聯系起來。我們以文本生成為例說明了它們的輸入和輸出,用一般術語和技術術語解釋了它們的功能,闡明了它們的使用和部署方式,并對它們的局限性進行了擴展討論。我們注意到,GAI 是極其強大的工具,但同時也損害了認知模型,并對其未來發展提出了建議。
本文件是系列文件中的第一份,旨在向軍事讀者介紹 LLM 和 GAI,內容包括技術、技術現狀、益處和風險、可信的高價值軍事應用,以及對未來研發重點的建議。
GAI 是指由人工智能(AI)系統創建的內容。它們根據用戶的提示制作這些內容,這些提示包含各種各樣的任務。GAI 系統包含多種模式,可輸入和輸出文本、圖像、音頻和視頻(通常是結合使用),而 LLM 子類則輸入和輸出文本。底層技術采用機器學習,從真正的海量數據中獲取模式,GAI 以預測的形式應用這些模式,根據提示生成響應。GAIs 所表現出的智能水平在計算系統中是前所未有的。例如,GPT-4 可在約 25 個標準化測試中生成人類水平的成績,包括大學先修班微積分、法學院入學考試、GRE 口語以及 SAT 基于證據的推理和寫作考試。這些功能是過去幾年機器學習技術不斷進步的產物。
與所有機器學習模型一樣,GAI 也由兩部分組成:性能系統和學習系統。性能系統是已部署的組件。它由多層神經網絡(即深度神經網絡)組成,每一層神經元的輸出為下一層神經元提供信息。性能系統執行該神經網絡所代表的功能;它接受輸入并生成輸出,通常關閉學習功能。學習系統通過對原始材料的訓練來定義該功能。每個 GAI 都是一個統計模型。它的學習系統將訓練數據的分布編碼到神經網絡中,而性能系統則對該分布進行采樣;它將類似的輸入映射到類似的輸出中。
LLM 是一種簡單的預測器--給定一個提示,輸出下一個最有可能出現的單詞,然后將生成的單詞添加到提示中,反復進行,直到完成應答。LLM 通過對來自在線文本的數以萬億計的輸入序列進行訓練,學會預測下一個單詞的可能性;更正式地說,LLM 可以根據提示和訓練文本獲得下一個單詞的條件概率分布。該分布可泛化到新的輸入序列,讓 LLM 對從未見過的提示做出反應。由于訓練文本非常廣泛,從理論上講,學習到的分布反映了人類的廣泛經驗。LLM 提示會挖掘這些知識。
LLM 的性能系統采用了一種稱為轉換器的深度神經網絡設計,對詞義進行計算。轉換器將輸入文本中的單詞表示為高維空間中的點(即數字向量,稱為嵌入),其中含義相似的單詞具有相似的向量。它們會移動每個單詞的表示,以反映輸入文本中其他單詞的影響(通過一種稱為自我關注的計算),其中單詞含義的特定轉換是在訓練過程中為預測下一個單詞而學習的。學習系統會逐步調整轉換器網絡中的權重,以提高分配給正確單詞的概率,降低分配給其他單詞的概率。它對訓練語料庫中的每個示例都會這樣做。轉換器會學習訓練文本中相距較遠的單詞之間的依賴關系,這受到所謂的相關長度的限制。根據標準化成績測試的結果,相關長度越長,LLM 的性能就越高。
GAI 通過采用對相鄰部分/像素進行操作的深度學習架構(稱為卷積設計),對圖像等非序列數據進行統計分析。例如,DALL-E 通過訓練卷積模型,從噪聲中構建出格式良好的圖像(在解構約 4 億張圖像為噪聲后),從而從標題生成圖像。它根據 LLM 前端生成的輸入文本表示進行重構。
GAI 應用程序通常是分階段開發的,基礎模型隨后會被調整以執行許多更具體的任務。基礎模型的創建成本很高;它們以數十億到數萬億個可學習的神經網絡參數來捕捉有關世界的知識,這些參數必須在數十億到數萬億個示例上進行訓練。訓練 GPT-4 的計算預算高達 6000 萬美元。基礎模型可以通過添加(和訓練)新的層來適應新的任務,方法是將基礎模型作為預處理器,或者將其提煉為一個更小的模型,可以在移動設備上重新訓練和/或執行(但功能會有一定損失)。
雖然 GAI 是極其強大的工具,但它們也是受損的認知模型,其弱點可歸因于統計預測的核心特性。GAI 缺乏區分事實與虛構、確保邏輯一致性、尊重因果關系、執行推理、制定計劃、遵循社會規范或進行判斷的能力。它們難以推斷出新的情況。由于解決方案是片面的、外在于統計 GAI 框架的、針對特定任務的,因此這些弱點在未來的 GAI 應用中仍將顯而易見。因此,用于高價值軍事任務的 GAI,如情報分析(特別是反事實推理和觀察推理)、批判性思維(針對特定任務從多個來源得出結論)以及需要判斷的高風險決策任務,都需要 GAI 技術的進步,并帶來性能風險。在這些情況下,GAI 最好與人合作使用。
在當代威脅環境中,威脅可能在意想不到的時間從意想不到的角度出現。準確辨別戰術意圖的能力對于有效決策至關重要。傳統的威脅識別策略可能不再適用。本文將探討如何利用算法識別威脅的戰術意圖。為此,在模擬實驗中比較了人類和算法在識別敵對智能體戰術意圖方面的功效。在實驗中,70 名人類參與者和一個算法在一個海軍指揮和控制場景中扮演數據分析師的角色。在該場景中,敵方智能體控制一艘艦艇將攔截多艘友軍艦艇中的一艘。數據分析師的任務是及時識別敵方智能體可能攻擊的目標。我們對識別的正確性和及時性進行了研究。人類參與者的識別準確率為 77%,平均反應時間為 7 秒。算法的準確率達到了 87%,同時受限于人類的反應時間。當人類參與者識別正確時,算法有 89% 的時間表示同意。相反,當人的反應不正確時,算法有 91% 的時間不同意,這表明決策支持系統有機會在這種情況下影響人的決策。這項研究有助于加深我們對復雜作戰環境中的態勢感知和決策支持的理解。
本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。
流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。
盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。
實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:
在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。
接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。
與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。
數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。
盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。
總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。
本文通過對美國防部相關人員的深入訪談,以及對現有指南、標準和相關文獻的嚴格審查,提出了見解。本文重點關注數字建模、數據利用和數據驅動決策的關鍵方面,主要側重于美國陸軍地面車輛應用,以應對挑戰和機遇。數據驅動決策在很大程度上依賴于精確的數字孿生模型,這對地面車輛在預定環境中的準備工作至關重要,尤其是在北極車輛準備等具有挑戰性的環境中。因此,在現實應用和數字孿生之間建立協同關系至關重要。然而,美國陸軍在從原始設備制造商那里獲取全面的數字數據方面面臨著障礙,特別是對于較老的地面車輛平臺,因此必須通過逆向工程來彌補差距。挑戰源于缺乏標準化的數字數據實踐,這就需要建立一個有凝聚力的數字建模框架。為此,本文提出了一個智能前端框架。該框架優化和整合了國防應用和決策的數據管理。總之,本文強調了采用數字技術、優化和實現數據利用以及應對數據挑戰對提高國防部戰備和效能的重要意義。
圖 1. 系統工程中的迭代循環數字化過程
美國國防部(Department of Defense,DoD)正在進行的數字化轉型有可能徹底改變其從設計、后勤到運營和可持續性等各方面的運作。數字技術的整合有望大幅提高效率和效益。基于對國防部利益相關者的一系列訪談,本研究深入探討了這一數字化轉型過程中的挑戰和復雜性,主要側重于將數字模型匯總并納入更廣泛的系統級能力。雖然數字化工作取得了重大進展,但仍迫切需要一項具有凝聚力的戰略,以確保這些數字模型通過數字化(即數字化轉型)有效促進任務分析和優化。
研究方法圍繞兩個核心要素展開: (1) 與美國防部內的主要利益相關者進行深入討論;(2) 對現有指南、標準和相關文獻進行嚴格審查。對于 (1),通過與利益相關者的討論,作者利用了積極參與該主題的國防部人員所擁有的豐富知識和專業技能。他們的第一手觀點、經驗和建議為我們的研究奠定了重要基礎。對于 (2),我們的全面審查過程深入研究了該領域的既定最佳實踐、行業標準和最新進展。這種審查確保了我們的研究具有堅實的基礎和最新的信息,使我們能夠以現有的框架為基準來衡量我們的研究結果。我們的研究方法結合了國防部利益相關者的見解以及對指導方針和標準的審查,體現了一種全面的、數據驅動的方法,旨在提供可靠的、可操作的結果。
盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。
大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。
為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。
本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。
投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。
Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。
SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。
自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。
提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。
Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。
Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。
Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。
非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。
非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。
FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。
依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。
本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。
本文提出了大量用于描述業務流程隱私屬性的建模和分析工具。建模注釋和分析以業務流程建模符號(BPMN)為基礎,分為三大抽象層級。第一個層次允許查看哪些輸入數據源直接或間接地披露給流程中的每一方。第二層顯示了每次披露發生的條件,以及披露的具體屬性。第三層可以衡量披露在多大程度上揭示了單個項目的信息。大多數分析都集成到 Pleak 工具中,從而提供了一個統一的界面。
在 NAPLES 項目中,提出了適用于業務流程的隱私定性和定量定義,開發了可檢查流程是否滿足隱私定義的靜態分析方法,并將建模工具和分析方法集成到一個統一的工具中。NAPLES 項目所屬的布蘭迪斯計劃的其他執行者進一步使用該工具對流程進行建模和分析。
提出的隱私定義和分析分為三個不同的類別。在第一類中,方法為協作式業務流程模型添加了表達性注釋,告訴人們這些模型使用了哪些隱私增強技術,以及這些技術是如何相互連接的。建模方法所附帶的分析會發現,某個數據集是否會被流程中的某個參與者知曉,如果可能,那么它是否仍然受到某些隱私增強技術的保護。第二類分析考慮到數據集的內部結構,并利用對業務流程中任務應用于數據集的操作的精確描述。分析報告指出,輸入數據集的哪個部分可能影響輸出數據集的哪個部分,在什么條件下可能產生影響,以及必須對影響信息進行什么樣的處理。這些影響可與參與者可能對其數據采取的政策進行比較。第三類建模工具和分析可以定量描述泄密情況。基于差異隱私和猜測優勢的概念,我們開發了一種豐富的語言來說明定量隱私策略。再次考慮到業務流程任務所執行的操作,我們的分析對從輸入數據集到達輸出數據集的信息量進行了數字描述。
在本報告中,詳細介紹了建模和分析技術,并描述了我們自己或與 DARPA Brandeis 計劃的其他執行者合作進行的實驗和評估。還介紹了 Pleak 工具,它為大多數分析器提供了統一的界面。最后,介紹了與網絡威脅信息共享有關的過渡活動,其中涉及共享過程的建模及其實施。在實施過程中,選擇應用安全多方計算;在Pleak的幫助下,分析了這一隱私增強技術的效果。
本報告概述了自適應自主系統以及對這些系統的分析和評估所面臨的挑戰。報告回顧了自適應系統的定義、目前正在開發的系統、早期的分類嘗試以及分析指標定義。為便于分析,對傳感器、融合/邏輯和執行器子系統進行了定義,并提出了一些子系統分析方法。討論了分析面臨的直接和間接挑戰。還討論了與條令相關的重要考慮因素,以及影響分析和評估的戰術、技術和程序。
圖:無人系統的自主性級別(ALFUS)
自主國防系統對美陸軍的重要性與日俱增;國防部副部長已將自主性確定為國防部第三次抵消戰略中的關鍵技術(Ahner 和 Parson,2016 年)。這些系統可以極大地幫助作戰人員,但也給系統開發人員和系統分析人員帶來了挑戰。在開發完整的性能本體和測試方法以定義和評估自主系統的性能方面存在許多挑戰。其中最主要的是自主系統預期運行的動態環境。自主系統環境的變化預計會影響系統性能。測試方法必須包括這種動態環境的所有方面。
表1正在進行的自主性項目
為了真實地再現軍事行動,嚴肅的戰斗模擬要求建模實體具有合理的戰術行為。因此,必須定義作戰戰術、條令、交戰規則和行動概念。事實證明,強化學習可以在相關實體的行為邊界內生成廣泛的戰術行動。在多智能體地面作戰場景中,本文展示了人工智能(AI)應用如何制定戰略并向附屬單元提供命令,同時相應地執行任務。我們提出了一種將人類知識和責任與人工智能系統相結合的方法。為了在共同層面上進行交流,人工智能以自然語言下達命令和行動。這樣,人類操作員就可以扮演 "人在回路中 "的角色,對人工智能的推理進行驗證和評估。本文展示了自然語言與強化學習過程的成功整合。
為了獲得模型架構的靈感,我們研究了 DeepMind 的 AlphaStar 架構,因為它被認為是復雜 RL 問題領域的最先進架構。通過我們的架構(如圖 2 所示),我們提出了一種靈活、可擴展的行動空間與深度神經網絡相結合的適應性新方法。觀察空間的設計基于如何準備戰場的軍事經驗。通常使用地圖和可用部隊表。因此,模擬觀測被分為標量數據(如可用坦克數量及其彈藥)。同時,基于地圖的輸入作為視覺輸入提供給空間編碼器。
標量數據用于向人工智能提供幾乎所有場景細節的建議。其中包括有關自身部隊及其平臺的數據,以及有關敵方部隊的部分信息。輸入并非以絕對數字給出,而是采用歸一化方法來提高訓練效果。編碼器可以很容易地寫成多層感知器(MLP);不過,使用多頭注意力網絡可以大大提高訓練后智能體的質量,因此應予以采用(Vaswani 等人,2017 年)。
為了理解地理地形、距離和海拔高度的含義,人工智能會被輸入一個帶有實體編碼的地圖視覺表示。顏色方案基于三通道圖像,這使我們能夠輕松地將數據可視化。雖然使用更多通道會給人類的圖形顯示帶來問題,但人工智能能夠理解更多通道。不同的字段類型和實體會用特殊的顏色進行編碼,以便始終能夠區分。這種所謂的空間編碼器由多個卷積層組成。最初,我們嘗試使用 ResNet-50 (He 和 Zhang,2016 年)和 MobileNetV3 (Howard 等,2019 年)等著名架構,甚至使用預先訓練的權重。然而,這并沒有帶來可接受的訓練性能。因此,我們用自己的架構縮小了卷積神經網絡(CNN)的規模。
為了測試和優化這一架構,我們使用了一個自動編碼器設置,并使用了模擬中的真實樣本。我們能夠將參數數量從大約 200 萬減少到大約 47000。此外,我們還生成了一個預訓練模型,該模型已與模擬的真實觀測數據相匹配。這一步極大地幫助我們加快了 RL 進程。
一個可選元素是添加語言輸入,為人工智能定義任務。雖然一般的戰略人工智能不使用這一元素,但計劃將其用于下屬智能體。這些智能體將以自然語言接收來自戰略人工智能的任務,并使用雙向門控遞歸單元(GRU)編碼器對其進行處理。
視覺數據、任務數據和標量數據的編碼值被合并并輸入核心網絡。根據 Hochreiter 和 Schmidhuber(1997 年)的介紹,核心主要是一個擁有 768 個單元的長短期記憶(LSTM)組件。在軍事場景中,指揮官必須了解高價值資產的長期戰略規劃。在本模擬中,人工智能可以請求戰斗支援要素,這些要素在影響戰場之前需要長達 15 分鐘的時間。因此,人工智能必須了解未來任務的時間安排和規劃。在 RL 中使用 LSTM 網絡相當困難,因為它需要大量的訓練時間,而且會導致上面各層的梯度消失。因此,我們決定在 LSTM 上添加一個跳過連接,以盡量減少新增層的負面影響。
動作頭由一個自然語言處理(NLP)模型組成。這是一個非常簡化的動作頭模型,包含一個小型 LSTM 和一個額外的密集層,共有約 340000 個參數。其結果是一個尺寸為 8 x 125 的多離散動作空間。
除主模型外,還有一個單獨的價值網絡部分。價值網絡使用核心 LSTM 的輸出,并將對手信息串聯起來傳遞給 MLP。然后,MLP 可以精確預測價值函數。通過對手信息,價值網絡對模擬有了一個上帝般的地面實況視圖。由于該網絡只與訓練相關,因此可以在不干擾訓練完整性的情況下進行。
本文總結了關于自主軍事系統的測試、評估、驗證和確認(TEV&V)的挑戰和建議的部分文獻。本文獻綜述僅用于提供信息,并不提出任何建議。
對文獻的綜合分析確定了以下幾類TEV&V挑戰:
1.自主系統的復雜性產生的問題。
2.當前采購系統的結構所帶來的挑戰。
3.缺少測試的方法、工具和基礎設施。
4.新的安全和保障問題。
5.在政策、標準和衡量標準方面缺乏共識。
6.圍繞如何將人類融入這些系統的操作和測試的問題。
關于如何測試自主軍事系統的建議可以分為五大類:
1.使用某些程序來編寫需求,或設計和開發系統。
2.進行有針對性的投資,以開發方法或工具,改善我們的測試基礎設施,或提高我們勞動力的人工智能技能組合。
3.使用特定的擬議測試框架。
4.采用新的方法來實現系統安全或網絡安全。
5.采用具體的建議政策、標準或衡量標準。
在過去的十年中,計算和機器學習的進步導致了工業、民用和學術應用中人工智能(AI)能力的激增(例如,Gil & Selman,2019;Narla, Kuprel, Sarin, Novoa, & Ko, 2018;Silver等人,2016;Templeton,2019)。由人工智能促成的系統往往在某種意義上表現得很自主:它們可能會接管傳統上由人類做出的決定,或者在較少的監督下執行任務。然而,與武裝沖突期間的錯誤決定相比,一個真空機器人、一個高頻股票交易系統,甚至一輛自主汽車做出錯誤的選擇是可以通過糾正措施相對恢復的。軍事系統將面臨與民用系統相同的大部分挑戰,但更多地是在結構化程度較低的環境中運作,所需的反應時間較短,而且是在對手積極尋求利用錯誤的情況下。人工智能和自主軍事系統將需要強有力的測試,以保證不理想的結果,如自相殘殺、附帶損害和糟糕的任務表現是不太可能的,并且在可接受的風險參數范圍內。
為了自信地投入使用自主軍事系統(AMS),必須相信它們會對設計時可預見的問題和它們必須適應的不可預見的情況做出適當的決定。簡而言之,這些系統必須是熟練的、靈活的和值得信賴的。 當AMS要在狹義的情況下運行時(例如,要求一個 "智能"地雷在一天中的特定時間內施加特定的壓力時爆炸),要保證系統的行為符合要求就容易多了。它能遇到的相關不同情況的數量和它的行為反應(即其決策的狀態空間)都是有限的。擴大這個狀態空間會使保證更加困難。例如,一個自主的基地防御系統旨在根據目前的ROE用適當的武力來應對任何可能的威脅,預計會遇到更多的情況,包括設計的和不可預見的。要在這種情況下適當地運作,需要更多的靈活性,這反過來又要求系統更加熟練,允許它運作的人類更加信任。這些需求的相互作用是這些系統的許多T&E困難的一個核心驅動因素。
人工智能技術為美國防部(DoD)內的采購項目的測試和評估過程帶來了一系列的挑戰。首先,這些系統純粹的技術復雜性和新穎性可能難以駕馭。此外,美國防部的采購流程是在假設的基礎上進行優化的,而自主權可能不再成立(Tate & Sparrow, 2018)。例如,將承包商、開發和操作測試分開,假設我們有離散的、相對線性的開發階段,導致系統的 "生產代表 "版本。對于AMS來說,這可能不是真的,特別是如果它們在整個生命周期中繼續學習。此外,在我們擁有一個系統之前就寫需求,是假設我們事先了解它將如何被使用。因為AMS的熟練度、靈活性和可信度會隨著時間的推移而發展,并會影響人類如何使用或與系統互動,所以與標準系統相比,作戰概念(CONOPS)和戰術、技術和程序(TTPs)將需要與系統共同開發,其程度更高(Haugh, Sparrow, & Tate, 2018; Hill & Thompson, 2016; Porter, McAnally, Bieber, & Wojton, 2020; Zacharias, 2019b)。
然而,即使美國防部的采購流程被更新,美國防部員工用于測試和評估(T&E)的具體方法、工具和基礎設施將無法保證系統的性能達到預期。開發和設計工作包含了測試,通過內部儀器建立可測試性;提高軟件的透明度、可追溯性或可解釋性;對培訓和其他數據進行良好的管理和驗證,可以改善開發過程,同時也為測試和評估鋪平道路,但它們沒有被普遍采用。此外,能夠幫助項目克服所有這些挑戰的政策和標準要么缺乏,要么不存在。
自主性的定義繁雜眾多,有些定義對美國防部來說不如其他定義有用。許多定義包含了獨立、不受外部控制或監督、或與其他實體分離的概念(例如,牛津英語詞典,2020年)。然而,假設任何參與者將在沒有控制或監督的情況下運作,甚至是人類作戰人員,這與美國防部的政策和指揮與控制(C2)的思想相悖。不希望自主系統擁有選擇行動路線的完全自由,而是在其分配的任務中擁有一些受約束的自由。
與作戰人員一樣,可能希望與自主系統有一個C2或智能體關系。希望:1. 明確具體任務和/或整體任務的目標或目的,可能還有這些目標的更大原因,如指揮官的意圖(即做什么和為什么)。2.明確與任務相關的約束,如交戰規則(ROE,即不能做什么)。3. 不指定使用的方法或對每一種情況給出明確的應急措施,如對對手的反應做出反應(即如何完成任務)。
一個系統是否被授權為一項任務做出這些 "如何 "的決定,是本文將區分自主系統和非自主系統的方法。
在 "是什么"、"不是什么 "和 "為什么 "的限制下,為 "如何 "做出有用的、理想的選擇,假定了某種程度的智能。因為這些是機器,這就意味著存在某種程度的人工智能。需要人工智能來實現對非瑣碎任務的有用的自主性,這可能解釋了為什么人工智能和自主性經常被混為一談。在本文件中,我們將自主性稱為系統在其操作環境中的行為,而人工智能則是與該環境進行有意義的互動的 "內在 "促成因素。
新興的數字孿生概念是任何為未來準備的實體建模和仿真需求的關鍵促成因素。與傳統方法相比,數字孿生通過增強模塊化和可擴展性,能夠以更低的成本將需求快速轉化為能力。本文討論了數字孿生建模和仿真的要素。這些能力包括但不限于智能體建模、優化、并行化、高性能計算、云架構設計等。這些概念與將建模和仿真技術整合到單一界面的數字孿生中有關,用于工程系統的快速原型設計和鑒定。與傳統方法相比,使用這些新興技術可以大大減少模擬計算時間(從幾小時/幾天減少到幾秒鐘甚至幾微秒)。本研究發現,與所有利益相關者合作的便利性、測試時間的減少、最小的現場基礎設施要求是減少成本的關鍵優勢。分析了這種智能和在線數字孿生的信息優勢的適用性,以加強網絡安全和天基(防御)服務的機載威脅評估。使用這些同步和互操作的能力可以減輕對國防空間基礎設施的可逆和不可逆的物理和網絡威脅。
在情報、國防或空間部門使用技術,盡管還不是很廣泛,但由于對系統的快速、可擴展、自主和智能的需求,正在獲得巨大的發展勢頭。與此同時,由于空間的擴散、商業化和競爭加劇,國防對空間部門的依賴也變得更加強烈。美國國防情報局的一份題為 "空間安全的挑戰"[35]的報告指出,基于空間的能力正在出現,為軍事提供整體支持,因此需要確保這些新型服務產生的新風險。空間的軍事化和碰撞風險的增加,以及其他人為的和自然的危害,使得有必要通過使用像DTs這樣的先進技術來減輕風險。衛星技術不僅促進空間系統的故障診斷和健康監測[36],而且還通過快速和有效地使用數據實現網絡安全[37]。使用這些同步和互操作的能力可以減輕對國防空間基礎設施的可逆和不可逆的物理和網絡威脅。
DT也大大加強了對天基(防御)服務的機載威脅評估[38]。空間資產的連接和安全服務,DT技術能夠提供的好處不僅僅是操作上的好處。例如,整個衛星群及其環境的數字孿生使威脅評估成為可能,因為可以模擬碰撞情景,并預測、預防和糾正單個衛星的故障。它還可以幫助檢測干擾和共址,以防止軍事威脅,并使整個系統更具彈性。因此,DT有助于保護空間資產免受各種類型的威脅。
SpaceR-SnT擁有的最初的數字孿生方法,Zero-G Lab是在Gazebo軟件中建模的。Zero-G實驗室的數字孿生,減少了測試時間,加快了開發步驟,被用來測試和驗證集成到Zero-G實驗室機器人操作系統(ROS)網絡的任何硬件(HW)組件的代碼。最初的硬件在環(HIL)方法被用來模擬不同的硬件組件,作為Zero-G實驗室的ROS網絡中的數學模型。這些模擬作為模擬的HW組件和Zero-G Lab之間的接口。對于Zero-G實驗室的浮動平臺和機器人操縱器,ROS基礎設施被用來在HW和軟件組件之間創建一個元數據流框架。此外,零-G實驗室的浮動平臺和機器人操縱器可以在零-G實驗室的同一個ROS網絡中使用。這樣的軟硬件互動模擬是實現國防部門敏捷DT系統的最初步驟。
孿生孿生之外,擁有一個與軌道上的衛星的彈性和快速連接也幾乎是重要的。這包括對數據存儲的快速和安全訪問。在過去,這涉及大量的操作努力以及一些深刻的技術理解。如今,有一些由云驅動的替代解決方案--如Azure Orbital[39]--使衛星地面站更容易訪問,以及將這些數據集傳送到安全的存儲地點并從那里真正使用的周轉時間。這些解決方案還將消費者從一些操作任務中解脫出來,而不犧牲安全、性能或技術的多樣性,因為地面站即服務的產品支持廣泛的行業已知技術,但以虛擬化的方式。使用像這樣的云計算解決方案還提供了一個機會,通過管理一個界面來利用地球上的幾個地面站供應商,與每個供應商的專門合同相比,這反過來提供了一個巨大的操作多樣性和敏捷性,并降低了成本。
另一個重要的用例是傳統衛星的生命周期擴展,這些衛星仍處于運行模式,但像數字孿生這樣的新能力應該擴展到該解決方案。國家海洋局通過合作研究與發展協議對其傳統的極地衛星進行了這方面的實踐[40]。這項工作提供了證據,即使用像Azure Orbital這樣的云計算服務,這些傳統的星座仍然可以用可接受的操作努力和較低的成本來運行。這使得該項目更具有可持續性,即使它已接近壽命終點。
從 NOAA 星座中學習生命周期支持主題。還有一個有遠見的成就值得一提,它使澳大利亞國防部通過在偏遠地區利用衛星支持的連接安全地訪問云存儲數據。"通過釋放SATCOM、5G和云計算的力量,國防組織可以在偏遠地區保持連接,快速、安全地分享數據以提高戰略意識,并對數據進行深入分析以改善決策[41]"。
這可能會導致提供實時的預測性維護指導,在解決方案的數字孿生中可視化。與沉浸式協作平臺相結合,就像之前提到的那樣,這些數據可視化可以提供真正的洞察力,避免誤解,從而推動更好的數據驅動決策。
為了在高度不確定和未建模的環境條件下成功完成防御任務,必須開發高度適應性、響應式和穩健的數字孿生方法。這種極其不確定和多變的物理環境可以在數字孿生環境中建模,以增加任務的成功可能性。從這個角度來看,數字孿生結構有如下的未來應用領域:
國防領域的數字孿生結構將有機會在不斷增長的空間市場中提高其有效性,并與這些市場的不同參與者建立聯系。
國防領域的數字孿生結構將能夠在概念開發階段利用接近真實的測試環境在低成本工程系統的新細分市場中更快地定位。
與北約未來幾十年的空間政策保持一致,使北約的空間生態系統能夠與大規模的空間市場競爭。
為未來的應用提供了創新的資產:
大的集成范圍。在證明了數字孿生的可靠性后,數字孿生框架將有可能擴展到任何空間/防御應用[42]。
高競爭力。數字孿生的擬議整合將加速其工業生態系統中的先進技術研發競爭。
廣泛的可擴展性。由機構、組織和私人倡議開發的許多不同的空間系統系統將被整合到數字孿生結構。