在飛速發展的人工智能(AI)領域,大型語言模型(LLM)在理解和生成自然語言方面展現出了前所未有的能力。然而,它們在專業領域的能力,尤其是在復雜和跨學科的系統工程領域的能力,仍然較少被探索。本文介紹了 SysEngBench,這是一個新穎的基準,專門用于在系統工程概念和應用的背景下評估大型語言模型。SysEngBench 將包含一整套源自核心系統工程流程的任務,包括需求分析、系統架構設計、風險管理和利益相關者溝通。SysEngBench 利用各種真實世界和合成生成的場景,旨在評估大型語言模型解釋復雜工程問題和生成創新解決方案的能力。
利用 SysEngBench 對大型語言模型進行的評估揭示了他們在系統工程背景下的現有能力和局限性。這些發現為今后的研究和開發提出了建議,旨在提高大型語言模型在系統工程學科中的實用性。SysEngBench 有助于理解人工智能對系統工程的潛在影響。
為 SysEngBench 選擇的框架是一個簡單的多選題基準。該基準目前涵蓋系統工程入門,但將擴展到未來工作中討論的系統工程子領域。
所使用的數據來源包括海軍研究生院 SE 3100 課程的幻燈片。該課程的教學大綱包括學習該課程后獲得的以下知識:
定義系統工程,包括其目的和范圍以及系統工程師的角色。
定義系統架構,包括其目的和范圍以及系統架構師的角色。
在系統的整個生命周期中恰當地應用系統工程流程的基本要素。
根據用戶需求和操作目標,提出、闡述和記錄系統要求;將其轉化為技術要求。
創建反映利益相關者目標的系統價值層次。
使用 IDEF0、FFBD 等建模工具和其他技術完成系統功能分析,以支持需求工程。
開發、評估和記錄備選系統架構。整個課程中的一項補充性共同努力將是獲得對國防部(DoD)系統工程應用的共同理解。
多選題是在一些人工智能輔助下創建的,但每道題都由人類系統工程師對半合成數據集的正確性進行審查。更復雜的問題將考察大型語言模型在系統工程的 "灰色 "范圍內進行推理的能力,特別是在有多種配置可以滿足要求的高維交易空間。
生成式人工智能工具,如大型語言模型(LLMs),提供了多種方法來提高效率,改進從需求生成和管理到設計分析和正式測試的系統工程流程。大型采購項目可能尤其適合利用大型語言模型來幫助管理復雜的系統和系統的采購。然而,生成式人工智能工具容易出現各種錯誤。
我們的研究探索了當前大型語言模型生成、修改和查詢系統建模語言(SysML)v2 模型的能力。我們利用檢索增強生成(RAG)等技術為大型語言模型添加特定領域的知識,提高模型的準確性。我們介紹了一個初步案例研究,在該案例研究中,生成模型的提示次數降到了最低。還討論了大型語言模型的局限性以及未來與大型語言模型相關的系統工程研究。
國際系統工程理事會(INCOSE)將 MBSE 定義為 "正式應用建模來支持系統需求、設計、分析、驗證和確認活動,從概念設計階段開始,貫穿整個開發和后期生命周期階段"(INCOSE,2007 年)。傳統上,系統工程采用基于文檔的方法。然而,隨著系統和系統之系統的復雜性不斷增加,需要 "捕獲、分析、共享和管理與產品完整規范相關的信息"(Friedenthal 等人,2009 年)。在模型中捕獲這些信息可以讓多個利益相關者從各自的視角來看待系統,簡化系統工程師和特定領域工程師之間的協作,通過設計和驗證/確認活動來跟蹤需求,并在解決方案開發過程中提供一種正式的方法來識別、分析和跟蹤系統變化/缺陷(Carroll & Malins,2016)。
為實施 MBSE 方法,2006 年開發并采用了系統建模語言(SysML)v1.0 版,2007 年由對象管理集團(OMG)正式發布。SysML v1.6 于 2019 年正式發布,是 SysML v1.x 標準的最新版本。SysML v1.x是統一建模語言(UML)2標準的擴展,包含UML 2的部分(但不是全部)元素和一些新的SysML特定元素(OMG,n.d.)。SysML v1.x 是一種圖形語言,由九種圖表類型組成,其中每種圖表都代表了底層模型元素的一種視圖。
大型語言模型的好壞取決于它們所訓練的數據集。為了改進對特定領域請求的響應,通常需要通過以下方法之一為模型提供額外的背景:
RAG 利用外部數據來增強大型語言模型的知識,而不改變基礎大型語言模型的參數(權重;Nucci,2024 年)。對于經常產生新知識的領域,或者當信息屬于專有/私有信息,用戶不希望將其作為大型語言模型訓練集的永久組成部分時,RAG 尤其有用(Nucci,2024 年)。
微調通過傳授大型語言模型的專業知識,對其內部參數進行微調(Nucci,2024 年)。Nucci 強調,只需調整少量參數,就能大大節省微調時間,而無需重新訓練整個模型。
快速工程
零鏡頭提示是要求大型語言模型在第一次嘗試時就正確執行任務,即使該模型尚未針對特定任務接受過直接訓練(Oleszak,2024 年)。它們通常用于只需要一般知識的簡單任務,或者當特定領域的知識已包含在訓練集中或通過 RAG 或微調提供時。
對于需要多步驟推理的更復雜任務,或者大型語言模型不了解特定領域知識時,可使用少量提示通過實例來教授大型語言模型(Oleszak,2024 年)。通過提供代碼語法示例,少量提示學習可用于正確格式化代碼。
還可以將上述方法結合起來。OpenAI 允許用戶創建自定義 GPT,在其中可以提供具體的說明,并提供一個上傳包含特定領域知識的文件的區域(OpenAI,2023)。這種將 RAG 與提示工程相結合的方法可使用戶減少完成復雜任務所需的提示次數,而這些任務模型并未經過專門訓練。
在過去幾年中,大型語言模型(LLM)的能力迅速提高,OpenAI 的 GPT-4 就是最突出的例子。本案例研究探討了 GPT-4 用于協助研究任務的兩種方式:數據分析和撰寫執行摘要。我們之所以選擇這些任務,是因為它們在國防分析研究所(IDA)的項目中很常見,而且經常被作為適合大型語言模型的任務提出。首先,使用 GPT-4 完成了數據清理、探索、建模和可視化等任務。將其質量和速度與人類完成相同任務進行了比較。發現單獨使用人工智能時,分析質量不夠高,但有了人類伙伴后,分析質量大大提高。使用 GPT-4 節省了約 60% 的數據分析任務時間,并為該領域節省大量成本提供了機會。然后,使用 GPT-4 為三份公開的 IDA 出版物生成了執行摘要(EXSUM),并將其與人工生成的執行摘要進行了比較。發現大型語言模型生成的內容提要往往無法為技術性較強的論文提供適當的背景,但考慮到其生成速度和詳盡程度,大型語言模型仍然提供了節省時間和成本的機會。
本文概述了一種評估和量化與集成大型語言模型(LLMs)生成海軍作戰規劃有關風險的方法。其目的是探討大型語言模型在這方面的潛在優勢和挑戰,并提出一個全面風險評估框架的方法。
大型語言模型(LLM)是一種先進的人工智能系統,它在龐大的數據集上經過訓練,可以處理和生成文本,使其能夠執行從簡單的問題解答到復雜的內容創建等各種任務。大型語言模型,如 ChatGPT 和 Bard,在理解、解釋和生成人類語言方面已顯示出非凡的能力。它們在海軍作戰中的潛在用途可提供顯著的戰略優勢,如增強決策支持、情景分析和作戰計劃效率。然而,在敏感的軍事環境中部署這些先進的人工智能技術會帶來一些關鍵的風險問題,包括潛在的偏見、作戰安全問題以及人工智能生成戰略的可靠性。
這項研究的意義在于其重點關注大型語言模型在海軍作戰計劃生成中的整合。通過研究潛在風險并制定評估這些風險的框架,本研究旨在促進在這些海軍作戰環境中安全、戰略性地使用人工智能技術,同時使技術進步與作戰安全和有效性保持一致。
對現有文獻的回顧顯示,專門針對軍事應用中大型語言模型的全面風險評估框架存在空白。有關大型語言模型的研究主要集中于其技術能力和在民用環境中的應用。然而,軍事行動的獨特挑戰,尤其是在海軍環境中,需要一種專門的風險評估方法。本研究試圖通過開發一種基于海軍作戰計劃的具體要求和復雜性的方法來彌補這一差距。
本研究的理論框架以貝葉斯網絡為基礎,貝葉斯網絡提供了一種結構化方法,用于模擬與 LLM 部署相關的各種風險因素之間的復雜關系。由于貝葉斯網絡能夠處理不確定性和概率關系,因此特別適合用于這一目的,使其成為評估海軍行動中 LLM 集成的多方面風險的理想工具。
本研究吸收了 Lauría 和 Duchessi(2007 年)概述的方法論中的見解,采用類似的結構化方法來構建貝葉斯網絡,并以實證數據收集和分析為基礎。我們的方法首先是編制和管理一份調查問卷,其答復將作為初始數據源,用于確定與海軍作戰計劃風險相關的變量之間最有可能存在的關系。這一過程為我們的貝葉斯網絡中每個節點的條件分布設置了后續參數。通過這種方法,我們旨在建立一個穩健的貝葉斯網絡模型,以準確反映與 LLM 生成的作戰計劃相關的風險的復雜相互依存關系和概率性質,并在分析更多作戰計劃和整合更多經驗數據時進一步完善我們的模型。
本研究的方法包括以下幾個關鍵步驟
問卷編制與管理
數據收集與分析
貝葉斯網絡建模
風險分類和評估
問卷編制和管理 將設計一份詳細的調查問卷,以便從海軍人員、人工智能專家和軍事戰略家等廣泛的利益相關者那里收集信息。問卷將包含各種海軍作戰計劃,其中一些由 LLM 生成,另一些則由作戰規劃人員編寫,以確定這些計劃中的潛在風險途徑。
數據收集與分析 將收集和分析調查問卷的答復,以確定海軍作戰計劃的關注領域。這一分析將為確定與作戰計劃相關的關鍵風險因素以及由 LLM 生成的計劃所特有的風險因素奠定基礎。
貝葉斯網絡建模 將使用貝葉斯網絡對確定的風險因素進行建模,以了解其相互依存關系和這些風險的概率性質。該模型將作為一種動態工具,用于評估和直觀顯示這些生成的業務計劃的復雜風險狀況。
風險分類和評估 通過調查問卷和貝葉斯網絡模型確定的風險將根據其對海軍行動的潛在影響進行分類和評估。這一步驟包括對每個風險因素進行全面評估,同時考慮其可能性和嚴重性。
研究的分析階段包括對大型語言模型生成的假設計劃和人類戰略家創建的計劃進行比較研究。這種比較旨在突出 LLM 生成的計劃的優勢、局限性和潛在風險。此外,研究還將探討降低已識別風險的策略,如納入制衡機制、提高透明度和確保持續驗證 LLM 的產出。
這項研究預計將產生幾項重要成果:
在此,使用 ChatGPT 生成了一個基于以下指揮官意圖的虛構作戰計劃樣本: "我的意圖是支持菲律賓武裝部隊在菲律賓中部受災地區開展人道主義援助和災難響應(HA/DR)行動。我們將提供一切可用的援助,以減輕人類痛苦并恢復正常狀態"(圖 1)。
圖1:ChatGPT生成的行動計劃
LLM 為菲律賓中部地區虛構的 HA/DR 行動制定的行動計劃展示了該模型構建全面響應戰略的能力。不過,它也凸顯了與 LLM 生成的計劃相關的幾個潛在風險。
該計劃概述了在帕奈島建立一個前沿行動基地,但沒有考慮該島目前支持此類行動的能力或對當地社區的潛在影響。這種疏忽可能會使當地資源緊張或擾亂地方當局正在進行的恢復工作。
使用無人機進行即時空中勘測的假設是,可以快速、準確地確定最需要幫助的地區。然而,這種方法可能無法考慮快速變化的天氣條件或評估后出現的新緊急情況,從而可能導致資源分配不當。
如果出現不可預見的技術問題,或同時需要直升機執行多項緊急任務,那么依靠海軍直升機在公路無法到達的地區進行空投可能會出現問題。這凸顯出可能會過度依賴特定資產,而不考慮替代或后備交付方法。
恢復階段建議協助恢復關鍵基礎設施,但沒有詳細說明參與范圍或開始撤出海軍資產的標準。這種不具體的做法可能導致過早撤離或超出海軍行動能力的長期參與,影響恢復工作的整體效果。
對這個由 LLM 生成的作戰計劃的審查不僅說明了人工智能在提高作戰計劃能力方面的潛力,而且也表明了我們為 LLM 生成的海軍作戰計劃開發綜合風險模型的研究工作的必要性。識別人工智能方法中固有的特定風險因素--如對當地基礎設施能力的假設、對技術的依賴以及計劃執行和完成標準的模糊性--表明需要一個能夠有效評估這些風險的框架,以便在使用這些工具時能夠考慮到這些風險。研究旨在通過使用方法來評估、分類和管理與在復雜作戰環境中部署大型語言模型相關的風險,從而彌補這些差距。通過整合這些風險模型,我們可以更好地確保負責任地利用大型語言模型的創新能力,提高作戰計劃的有效性和可靠性。
Palantir AIP(人工智能平臺)是將人工智能系統(包括許多依賴大型語言模型的能力)整合到運營環境中的尖端方法。雖然利用這些先進的工具可以讓組織利用人工智能系統的大型能力,但在 Palantir AIP 等平臺中使用大型語言模型清楚地表明,亟需對所有潛在的相關風險因素進行全面研究。隨著這些人工智能驅動的系統被部署到運營規劃的越來越多的重要方面進行協助和自動化,人工智能生成的內容的特殊細微差別成為重要的關注領域。
展望大型語言模型在海軍行動中的部署,會暴露出另一個風險途徑,特別是在支持此類技術所需的基礎設施方面。大型語言模型需要大量的計算和數據傳輸,還需要實時數據處理和無縫通信,以執行人工智能驅動的作戰計劃,這就要求網絡基礎設施不僅要有彈性,還要有很強的適應性。這就是軟件定義網絡(SDN)的潛在整合意義所在。SDN 以其靈活性和可配置性著稱,是一種先進的網絡框架,有可能支持 LLM 部署的要求。然而,SDN 的引入也帶來了關于現有海軍網絡基礎設施是否已準備好適應此類先進技術的問題,這突出了我們在海軍行動中引入人工智能能力時需要考慮的另一個領域。
本研究的預期結果對大型語言模型的戰略整合對未來海軍行動具有重大影響。通過提供一個全面的風險評估框架,本研究旨在促進在海軍行動中明智決策和負責任地使用人工智能技術,為在更廣泛的軍事背景下負責任地使用人工智能技術奠定基礎。此外,這項研究填補了文獻中的重要空白,有助于加深對海軍行動中整合 LLM 所帶來的挑戰和機遇的理解。
本研究概述了評估將大型語言模型納入海軍作戰計劃相關風險的綜合方法。通過開發結構化風險評估框架并探索部署 LLM 的潛在益處和挑戰,本研究旨在為在軍事行動中負責任地、有效地使用人工智能技術做出貢獻。未來的研究方向包括根據實證研究結果完善風險評估框架,探索大型語言模型在更廣泛軍事環境中的其他應用,以及制定在敏感作戰環境中合乎道德地使用人工智能的指導方針。
本報告概述了我們在基于模型的自適應目標跟蹤以及識別來自電磁干擾(EMI)源的衛星欺騙和干擾攻擊方面所做的研究工作。我們假設可以利用不同電磁干擾源的射頻(RF)特征來識別和跟蹤主動和被動電磁干擾源。射頻信號被輸入一個基于模型的深度神經網絡(DNN),該網絡可對不同物體進行分類和跟蹤。
我們的初步結果表明,對于有源電磁干擾源,即使用不同調制方案發射射頻信號的源,使用 DNN 識別電磁干擾源射頻調制方案的準確性在很大程度上取決于射頻信號的質量,而射頻信號的質量又是信道的函數。特別是,如果信道是視距信道,且信噪比(SNR)較大,則調制類型的分類準確率很高(> 95%)。另一方面,如果信道參數未知和/或波動較大,信噪比較低,則分類準確率較低(< 60%)。調制類型識別的性能使我們得出結論,在現實世界中基于調制類型的目標跟蹤將非常困難。因此,這項研究的主要工作集中在使用有源雷達對無源信號源進行分類,并以人員計數系統為原型。
我們沒有使用模擬,而是在實驗室建立了一個小規模的測試環境來驗證假設。我們提出的人員計數系統使用多個發射天線,通過發送毫米波雷達啁啾掃描環境。物體反彈回來的信號由多個接收天線接收、處理并存儲到數字數據庫中。然后,我們對數字數據進行特征提取,并將特征輸入卷積神經網絡,以進行物體分類和跟蹤。在這些實驗中,我們將行走的人視為移動物體。我們的初步結果表明,在有限的環境中(如實驗室環境),卷積神經網絡可以利用射頻信號準確識別不同的物體(> 95%)。
圖 4. 從射頻信號中提取特征。特征/物體包含已識別物體的數量、其多普勒速度、其 x、y、z 位置和相對信噪比。
目前的自動空中加油(AAR)工作利用機器視覺算法來估計接收飛機的姿勢。然而,這些算法取決于幾個條件,如精確的三維飛機模型的可用性;在沒有事先給出高質量信息的情況下,管道的準確性明顯下降。本文提出了一個深度學習架構,該架構基于立體圖像來估計物體的三維位置。研究了使用機器學習技術和神經網絡來直接回歸接收飛機的三維位置。提出了一個新的位置估計框架,該框架基于兩個立體圖像之間的差異,而不依賴于立體塊匹配算法。分析了其預測的速度和準確性,并證明了該架構在緩解各種視覺遮擋方面的有效性。
圖3:利用的坐標系統。紅軸代表X軸,綠軸代表Y軸,藍軸代表Z軸。所有顯示的箭頭表示該軸上的正方向。
本報告記錄了通過利用深度學習(DL)和模糊邏輯在空間和光譜領域之間整合信息,來加強多模態傳感器融合的研究成果。總的來說,這種方法通過融合不同的傳感器數據豐富了信息獲取,這對情報收集、數據傳輸和遙感信息的可視化產生了積極的影響。總體方法是利用最先進的數據融合數據集,為并發的多模態傳感器數據實施DL架構,然后通過整合模糊邏輯和模糊聚合來擴展這些DL能力,以擴大可攝入信息的范圍。這項研究取得的幾項進展包括:
出版物[1, 2, 3, 4, 5]進一步詳細介紹了取得的進展。
F-22 經過實戰驗證,在沖突地區作戰了十多年。盡管它是地球上最主要的空對空戰斗機,但飛機的不斷改進繼??續使 F-22 更具殺傷力。最大化任務能力 (MC) 率的最佳實踐沒有成功地編纂和保護數據。本文使用數據包絡分析 (DEA) 來識別 MC 率優化且高效的基準環境。 DEA 成功地比較了兩個單位的投入和產出的相對效率,并確定了效率更高的組織。此外,DEA 還為美國空軍現任高級領導人和戰術經理提供了對績效環境的洞察力,在這些環境中,可以最大限度地提高相對效率,以在財政受限的環境中支持國防戰略。最后,DEA 模型可用于分析額外的 F-22 單位、其他飛機機隊以及基地級維護操作中更細微的輸入/輸出關系。
本文探討了人工智能(AI)如何可能使美國軍隊以更符合倫理的方式執行其作戰任務,從而更好地遵守國際人道主義法(IHL)的倫理意圖,并強調它可能帶來的挑戰。它將通過研究軍事目標選擇的兩個關鍵特征來完成這一任務:區分和相稱性。區分和相稱性是國際人道主義法承認的四項基本戰爭原則中的兩項,包括《海牙公約》、《日內瓦公約》及其附加議定書,以及紅十字會編纂的習慣法。 對這兩項原則的仔細研究突出了可預見性的概念在戰爭倫理中的作用。可預見性是正義戰爭理論中經常提到的與保護非戰斗人員有關的關鍵倫理考慮。邁克爾-沃爾澤的奠基之作《正義與非正義的戰爭》認為,在戰爭中,不可預見的邪惡可能是可以接受的,但從倫理上講,戰士們必須在戰爭中盡量減少所有可預見的邪惡。雖然可預見性沒有被標為基本原則,但它是一個經常被忽視的特征,對主要的四項原則的倫理決策產生了重大影響。
審查包括簡要回顧區分的倫理基礎,相稱性,以及兩者如何取決于可預見性。然后,它評估了當前的國際人道主義法,并確定了人工智能可以提供更多的合規性的潛在機會,以及潛在風險的特征。審查將主要集中在戰爭/戰斗期間的倫理決定和行動(戰時法),而不是可能導致戰爭的戰略決定(戰時法)。在執行對人工智能可能給軍事目標帶來的潛力和隱患的評估之前,關鍵是要正確定義人工智能,并審查其與國家安全的日益相關性。
人工智能是一個復雜的話題,既具有爭議性,又經常被誤解。著名物理學家斯蒂芬-霍金警告說,人工智能可能是 "我們文明史上最糟糕的事件",除非其發展得到適當控制。 甚至企業家埃隆-馬斯克,他自己的公司正在創新自動駕駛汽車,也警告說"......人工智能比核彈危險得多",必須受到監管。相反,麻省理工學院計算機科學和人工智能實驗室的創始主任羅德尼-布魯克斯、哈佛大學心理學教授史蒂芬-平克,甚至Facebook創始人馬克-扎克伯格都將這些觀點描述為危言聳聽。
當人工智能被引入到國家安全和軍事行動中時,其強度和審查都會大大增加。馬斯克和霍金都簽署了一封致聯合國的公開信,敦促禁止人工智能武器。 公眾對人工智能 "武器化 "的反彈的一個引人注目的例子發生在Maven項目上,原因是人們對倫理問題的看法。Maven項目是美國國防部(DOD)的一項舉措,旨在利用人工智能來評估來自遙控飛機的視頻,試圖更快、更準確地找到伊拉克和敘利亞的伊斯蘭國恐怖分子。國防部與包括谷歌在內的一些商業伙伴開始了這項努力。然而,在2018年,約有4000名谷歌員工認為該項目與谷歌的倫理規范相抵觸,這些倫理規范是基于 "不作惡 "的非官方格言。然后,這些員工簽署了一份請愿書,要求"......谷歌或其承包商將永遠不會建立戰爭技術"。 此后不久,谷歌退出了該項目。這些事件受到一些人的贊揚,也受到另一些人的批評,他們認為抗議是短視或幼稚的,因為不太倫理的美國競爭對手仍然會從谷歌的人工智能工作中受益。
曾在伊拉克和阿富汗服役的海軍陸戰隊員盧卡斯-昆斯(Lucas Kunce)為人工智能在軍事上的倫理應用提出了令人信服的愿景。他認為,對向軍隊提供先進技術的擔心是沒有根據的。他提供了一些小故事,描述了人工智能增強的工具如何阻止他的團隊殺死一個他們認為向他們投擲手榴彈的平民,而他只是拿著一只鞋。他還描述了在一次交戰中,他的一名海軍陸戰隊員射殺了一名坐在車里的年輕女孩,他的部隊認為這是一個車載簡易爆炸裝置。正是這種觀點準確地將軍隊描述為試圖完成其當選領導層賦予他們的任務的同胞。它還指出,職業軍人不是一群不分青紅皂白的殺手,如三十年戰爭期間蹂躪歐洲的掠奪者,甚至是越南時代助長美萊大屠殺的美國重兵。相反,他們是負責為國家管理暴力的專業人士。正是這種被進一步編入國際人道主義法的特點,應該能緩解人們對人工智能和軍隊的結合將導致未來出現天網、終結者和其他類型的殺人機器人的擔憂。
網絡物理系統(CPS)由相互作用的計算和物理組件組成。該項目旨在開發創新的驗證技術以保證網絡物理系統的安全行為。混合系統[5]是一個富有表現力的數學模型,有助于描述涉及連續和離散狀態及其演變的復雜動態過程,這使得它們特別適合于為CPS建模。在這個項目中,我們專注于開發混合系統可達性分析的新技術,即自動探索給定動態系統的狀態空間并計算系統軌跡的包絡,給定其不確定參數的邊界的技術。為了減輕系統的復雜性,我們的目標是發展組合方法,即把系統分析分解為各部分的分析方法。考慮到這一總體目標,我們在這個項目中的活動可以大致分為以下幾個研究方向:
以線性微分方程為特征的系統的可達性方法。雖然現代線性代數軟件包對數萬維的矩陣是有效的,但基于集合的圖像計算卻僅限于幾百維。在[9]中,我們提出了分解到達集的計算,使集的操作在低維度上進行,而像指數化這樣的矩陣操作則在全維度上進行。我們的方法適用于密集型和離散型的設置。對于一組標準的基準,它顯示出與各自的最先進的工具相比,速度提高了兩個數量級,而在精度上只有少量的損失。對于密集時間的情況,我們展示了一個超過10,000個變量的實驗,大約比以前的方法高兩個數量級。這些算法為JuliaReach[10]奠定了基礎,JuliaReach是一個用于基于集合的動態系統可達性分析的工具箱。JuliaReach由兩個主要包組成。Reachability,包含連續和混合系統的可達性算法的實現,以及LazySets,一個獨立的庫,實現最先進的凸集計算算法。該庫同時提供了具體的和懶惰的集合表示,后者代表了將集合計算延遲到需要時才進行的能力。我們擴展了[8]中的這些結果,增加了對任意大小分區和任意低維集合表示的支持。在一個相關的工作中[11],我們沿著復雜度的不同維度擴展了這些結果,即提出了一種有效處理混合系統離散轉換的組合方式。
偽造方法。混合系統的證偽是與驗證相對應的,目的是找到違反給定安全屬性的軌跡。這是一個具有挑戰性的問題,目前偽造算法的實際適用性仍然受制于其高時間復雜性。在[13]中,我們試圖利用我們已經開發的可達性算法的力量來提高偽造技術的可擴展性。特別是,我們從現有的偽造問題的編碼作為一個非線性優化問題開始[25],并提出了一個擴展,通過增加用可達性算法獲得的線性狀態約束來減少優化問題的搜索空間。我們在一些標準的混合系統基準上展示了我們方法的效率,證明了在速度和可偽造實例數量上的性能提升。在[12]中,我們通過將非線性優化問題分解為兩個更簡單的優化問題,并以交替的方式解決它們來增強這種算法。
并行方法。如上所述,可達性分析技術是目前驗證網絡物理系統安全屬性的最先進技術的核心。在這個主旨中,我們研究了如何利用現代CPU中強大的并行多核架構來擴展此類技術。在文獻[18]中,我們首次提出了一套并行狀態空間探索算法,利用多核CPU,能夠對CPS的線性連續和混合自動機模型進行可達性分析,從而解決了這一限制。為了證明在多核處理器上實現的性能加速,我們在幾個基準上對所提出的并行算法進行了實證評估,比較其關鍵性能指標。
庫普曼算子理論。非線性動力系統的可達性分析是一項具有挑戰性和計算成本的任務。同時,如上所述,計算線性系統的可達狀態,通常可以在高維度上有效地完成。在[6]中,我們探討了利用這兩類系統之間的聯系的驗證方法,該方法基于Koopman算子的概念[23]。Koopman算子將非線性系統的行為與嵌入高維空間的線性系統聯系在一起,并增加了一組所謂的可觀察變量。盡管新的動態系統有線性微分方程,但初始狀態集是用非線性約束條件定義的。由于這個原因,現有的線性系統可達性方法不能直接使用。我們提出了第一個可達性算法,以處理這種未曾探索過的可達性問題的類型。我們的評估考察了幾種優化方法,并表明所提出的工作流程是驗證非線性系統行為的一個很有前途的途徑。
可達性分析的混合方法。這些方法[7]通過用較簡單的動力學(如常數或仿生動力學)來近似非線性動力學。這一步使我們有可能利用現有的線性動力學混合系統的算法的力量。在[20]中,我們提出了基于動力學比例模型轉換的混合方法的改進。該轉換旨在減少線性化域的大小,從而減少超近似誤差。我們在一些非線性基準實例上展示了我們方法的效率。
在線驗證。在這個研究方向中,我們的目標是將可達性分析應用于在線環境中。換句話說,我們考慮的環境是,可達性分析所提供的信息被實時用于指導自主系統的控制算法。這反過來又對可達性分析的性能效率提出了特別嚴格的時間限制。在[14]中,我們提出了一種方法,利用深度神經網絡在有限的時間內對可達集進行保守的近似。我們提供了基于統計模型檢查方法的概率性保證。該方法被評估為自主車輛在模擬環境中幾個動作的彈性安全架構的一部分。我們的評估表明,可達性分析可以在幾分之一秒內完成,并且比傳統的非線性可達性工具要好兩個數量級。我們還提出了另一種方法[1],通過將障礙證書[22]的計算泛化到動態變化的初始條件,以及在運行時使用生成的安全集來對抗先前未知的、可能與時間有關的不安全集,從而有效地進行實時可達性分析。這些方法得到了[15]的補充,在那里我們探討了如何將可達性分析作為模型預測控制[17]的一部分來支持動態避障。
通過驗證進行規劃。在我們的早期工作[16]中,我們通過提供從PDDL+(一種描述規劃領域的形式主義)到混合系統的轉換方案,在彌合混合自動機的規劃和驗證領域之間的差距方面邁出了第一步。這使得模型檢驗工具能夠在混合規劃領域得到應用。通過這種方式,我們可以解決最先進規劃器范圍之外的PDDL+領域。在這個項目中,我們將[19]中的這些想法改編為時態規劃,并將我們的方法納入到細化循環中。我們還提出了一個基于抽象的放松[21],用于推理線性數字規劃問題。
混合系統的Event-B。在這個研究方向上,我們考慮了Event-B[2]和混合系統之間的協同作用。我們在這一領域的成果包括開發了一個通用的混合鐵路信號系統模型[3],該模型可以進一步完善,以捕捉特定的鐵路信號系統。另外,在[4]中,我們提出了一種網絡物理系統的多元開發方法,該方法建立在基于細化和證明的建模語言Event-B及其對混合系統建模的擴展。為了提高該方法中所產生的Event-B模型的低演繹驗證自動化程度,這項工作描述了一種在證明過程中整合可達性分析的新方法。此外,為了提供更全面的網絡物理系統開發和基于仿真的驗證,我們描述了將網絡物理系統Event-B模型轉化為Simulink的機制。
隨機常微分方程(RODEs)。顧名思義,這些是在其向量場函數中包含隨機過程的常微分方程(ODEs)。它們已經在廣泛的應用中使用了很多年,但一直是隨機微分方程(SDEs)的影子存在,盡管能夠對更廣泛的、通常在物理上更充分的干擾進行建模。在[24]中,我們研究了包含維納過程的RODEs在有限時間跨度和無限時間跨度上的安全驗證問題。更詳細地說,我們研究了p-安全問題,其中我們確定了滿足安全規范的概率至少為p的初始狀態集。基于確定概率測量大于p的樣本路徑集,我們提出了一種將ODEs的隨機可達性減少為對抗性可達性的方法,以解決有限時間范圍內的p-安全問題。這種方法允許將擾動的ODEs的可達性計算方法有效地提升到RODEs。在這個方法中,有限時間范圍內的p-安全問題被簡化為具有時間變化的擾動輸入的ODEs的內部逼近魯棒的后向可達集問題。然后,我們將該方法擴展到無限時間跨度的p-安全問題。最后,我們在幾個例子上演示了我們的方法。
強化學習在最近的學術和商業研究項目中的應用已經產生了能夠達到或超過人類性能水平的強大系統。本論文的目的是確定通過強化學習訓練的智能體是否能夠在小型戰斗場景中實現最佳性能。在一組計算實驗中,訓練是在一個簡單的總體層面上進行的,模擬能夠實現確定性和隨機性的戰斗模型,神經網絡的性能被驗證為質量和武力經濟性戰術原則。總的來說,神經網絡能夠學習到理想的行為,其中作戰模型和強化學習算法對性能的影響最為顯著。此外,在集結是最佳戰術的情況下,訓練時間和學習率被確定為最重要的訓練超參數。然而,當武力的經濟性是理想的時候,折扣系數是唯一有重大影響的超參數。綜上所述,本論文得出結論,強化學習為發展戰斗模擬中的智能行為提供了一種有前途的手段,它可以應用于訓練或分析領域。建議未來的研究對更大、更復雜的訓練場景進行研究,以充分了解強化學習的能力和局限性。