本文提出了一種通過語義分析將戰略框架與決策啟發法相結合來推薦可操作策略的新方法。盡管戰略框架為評估與規劃提供了系統化模型,而決策啟發法則編碼了經驗性知識,但這兩大傳統領域在歷史上長期處于割裂狀態。我們的方法論運用先進自然語言處理(NLP)技術彌合了這一鴻溝,并通過將6C模型與三十六計等框架相整合進行了實證展示。該方法采用向量空間表示與語義相似度計算,將框架參數映射到啟發式模式,其計算架構融合了深度語義處理與受限的大型語言模型應用。通過將主內容體與次級元素(圖表、矩陣)作為互補性語言表征進行統一處理,以企業戰略案例研究驗證了該方法的有效性。該框架可推廣至各類分析模型與啟發式集合,最終形成即插即用的推薦系統架構,能夠生成融合戰略框架與決策啟發法的可操作性指導方案,實現二者的有機統一。
當今的組織在戰略管理和決策方面依賴于兩種主要但歷史上各自獨立的文本傳統:分析框架和決策啟發法。這兩種傳統都以自然語言編碼戰略知識--通常輔以圖表或結構化表述--但在范圍和風格上有所不同。波特五力分析法、SWOT 分析法和價值鏈分析法等分析框架為形勢評估和長期規劃提供了系統的視角。同時,決策啟發式方法--從早期的軍事智慧(如三十六計)到現代的 “經驗法則”--提供了通過實際經驗總結出的簡明、可行的見解。
在實踐中,將這兩種傳統結合起來會帶來明顯的優勢:更平衡的戰略規劃方法、更清晰的循證建議途徑以及更少的詳盡分析時間。然而,框架和啟發式方法很少在一個統一的過程中相互作用。框架擅長全面性和嚴謹性,但存在分析癱瘓的風險,而啟發式方法更加靈活,但可能會過度簡化復雜的情況。彌合這一差距將使決策者能夠獲得每種方法的互補優勢,從而提出既全面又可迅速實施的建議戰略。
人工智能(AI)和自然語言處理(NLP)的最新進展為整合這些傳統方法提供了有力的途徑。通過應用語義分析來揭示戰略文本中的語言模式、修辭結構和概念之間的相互依存關系,我們可以在分析框架的方法結構和啟發式方法的簡明行動步驟之間構建自動映射。本文提出了一種推薦系統架構,利用這些映射生成可操作的戰略建議,最終加快決策進程并提高戰略洞察力。
為了具體說明這種語義整合,我們重點討論了兩個具有代表性的模型:6C 框架和三十六計。6C 框架綜合了軍事和商業文獻中反復出現的戰略主題(進攻/防御力量、關系能力、潛在能量、時間可用性和環境適應性)。相比之下,根植于中國政治、軍事和民間話語的三十六計則以精煉的表達方式囊括了數百年來的啟發式見解。通過先進的 NLP 工具(如向量空間嵌入、主題建模和模式識別),我們展示了每條計策中的語言線索如何與特定的 6C 參數相關聯。然后,這種系統化的分析會驅動一個自動管道,將任何給定的戰略情況與合適的啟發式方法相匹配,從而產生基于證據、上下文感知的建議。
我們的方法有兩大創新。首先,我們將系統嵌入到互動模擬環境中,促使決策者用自然語言表達情景。該環境會分析這些文本輸入,計算相關性得分,并根據所選戰略框架返回如何最佳組合或選擇啟發式方法的建議。其次,我們以可控的方式使用大型語言模型(LLMs)來生成連貫、敘述式的報告,闡明每項建議背后的理由。通過將 LLMs 整合為解釋器而非自主決策者,我們既保持了分析的嚴謹性,又提供了易于理解的解釋。
在下文中,我們將詳細介紹我們的語義方法,討論實現框架-啟發式整合的計算架構,并通過企業戰略案例研究說明其現實意義。然后,我們將展示這種即插即用架構如何超越 6C 和三十六計,適應波特五力和 SWOT 等其他廣為人知的框架。最終,我們旨在展示企業如何部署推薦系統方法,將全面的戰略分析與經過驗證的啟發式洞察力相結合,提供既穩健又可隨時應用于復雜環境的可行指導。
本文其余部分的結構如下:
C2SIM Autonomous Systems(C2SIM自主系統)團隊已著手進行一項探索性研究,采用大型語言模型(LLM)GPT-4來促進場景開發,為擴展本體論奠定基礎。本文概述了 GPT-4 在生成特定場景方面的初步應用結果,并強調了其實用性和局限性。詳細介紹了指導 GPT-4 輸出所采用的方法,包括 “0-shot 學習 ”和 “提示工程”,它們是根據 C2SIM 要求策劃場景內容的技術。這些方法提供了一種新穎的方法,不僅可以總結文獻中的現有知識,還可以從模型中提取嵌入式領域知識,從而為用戶引導的動態場景完善過程做出貢獻。這項調查的洞察力揭示了在場景生成中部署 LLM 的實際意義,從而為后續以合成數據對本體開發的貢獻為重點的研究軌跡提供了信息。最后,本文根據目前在該領域應用 LLMs 的經驗教訓,規劃了未來研究的潛在途徑。
本文利用 OpenAI 的 GPT-4 模型作為生成自主系統場景的輔助工具。使用零樣本方法來檢驗該模型的能力,沒有通過樣本(少數幾次)或其他定制對模型進行微調。塑造 GPT-4 響應的主要方法是 “提示工程”。提示是對輸出的自然語言描述,但經過精心設計,可引導模型產生所需的結果。根據提示中的措辭、詳細程度或指示,結果可能會有所不同,有時甚至會大相徑庭。因此,對提示的改進需要采用迭代開發方法。
提示符的開發遵循一個循環,即逐步完善提示符,以解決評估過程中發現的問題。開發工作在 OpenAI 的 Playground 中進行,這是一個簡單而有效的網絡環境,用于定義和測試提示。Playground 界面用于定義包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。
提示的演變基于 OpenAI 文檔中列出的最佳實踐。創建并測試了多個提示版本,并逐步添加、編輯或刪除細節,以解決生成的輸出中存在的缺陷。提示語的詳細信息見第 4.1.1 節和第 4.3.1 節。
理想情況下,對提示版本(或一般微調模型)的評估應基于可量化的測量結果,如在已知預期結果的測試用例集上,被評估版本產生的正確結果所占的百分比。在這里,沒有精確的典型情景可用作基準,因為沒有一種單一的方法來描述情景。因此,對結果的評估是基于對每個版本根據所需的標準情景格式的不同部分所產生的輸出結果進行的定性分析。
開發工作主要是通過評估論文中情景提取任務(第 4.1 節)的提示質量來進行的,因此可以根據模型結果與論文本身所表達的內容的匹配程度來進行評估。我們考慮了以下問題,評分標準為 0 至 5 分:
結果是否包含標準場景模板的所有要素?評估是否有遺漏(或添加)的要素偏離預期結果。
結果是否只反映了文件中包含的場景?評估是否成功地從論文更廣泛的考慮和討論中提取了方案。在許多情況下,假設只是整個論文的一小部分,可能僅用于說明目的,這給提取帶來了困難。
描述是否是對論文場景的公平總結?評估生成的摘要與論文描述的 “要點 ”的匹配程度,以及是否包含幻想的細節(“幻覺”)。
根據上下文,生成的目標和績效衡量標準是否合理?
步驟是否反映了情景的邏輯時間進程?
鑒于對相同輸入進行連續運行會產生不同的結果,評估考慮了每個提示版本五次運行的平均值。下一節概述了所進行的實驗。
大規模混合專家(MoE)模型的出現標志著人工智能領域的一項重大進展,通過條件計算提供了更強的模型容量和計算效率。然而,這些模型的部署和推理在計算資源、延遲和能效方面提出了顯著的挑戰。本綜述系統地分析了當前混合專家模型推理優化技術的全貌,涵蓋了整個系統堆棧。我們首先建立了一個分類框架,將優化方法分為模型級、系統級和硬件級優化。 在模型級別,我們考察了包括高效專家設計、注意力機制、修剪、量化、知識蒸餾等各種壓縮技術,以及動態路由策略和專家合并方法等算法改進的架構創新。系統級別上,我們研究了分布式計算方法、負載平衡機制和高效調度算法,這些方法使得可擴展部署成為可能。此外,我們還深入探討了硬件特定的優化和協同設計策略,以最大化吞吐量和能效。 本綜述不僅提供了現有解決方案的結構化概述,還識別了混合專家推理優化中的關鍵挑戰和有前景的研究方向。我們的全面分析為研究人員和從事大規模 MoE 模型資源受限環境部署的實踐者提供了寶貴的資源。為了便于后續更新和分享 MoE 推理優化研究的最新進展,我們已建立了一個公開的資源庫,網址為://github.com/MoE-Inf/awesome-moe-inference/
大規模語言模型(LLM)已經徹底改變了人工智能領域,展示了在多個領域,包括自然語言處理[20, 115, 157]、計算機視覺[31, 33, 194]以及多模態任務[86, 123, 162]中的前所未有的能力。像GPT-4[2]、Claude[8]和Gemini[151]這樣的模型,在從自然語言理解到復雜推理和代碼生成等任務上,取得了顯著的成績。這些模型的出色能力主要歸功于其龐大的規模,包括模型參數的數量和訓練過程中投入的計算資源。實踐中,越來越多的實證研究表明,隨著模型規模的增大,性能不斷提高,這一現象在語言建模和其他領域的多種擴展規律中得到了體現[5, 19, 74]。然而,這一發展趨勢在推理階段(尤其是實際部署中)面臨著巨大的計算效率和資源利用挑戰[10, 173, 187, 199]。 混合專家(MoE)模型作為一種有前景的架構解決方案,已經出現并在一定程度上解決了機器學習中的擴展性問題[137]。最早由Jacobs等人[68]于1990年代初提出,作為一種在神經網絡中學習子任務的方法,許多基于MoE的模型[37, 53, 155]也在多年的發展中相繼問世。在大規模語言模型的時代,MoE再次迎來了復興[1, 29, 70, 148]。MoE的核心原則是通過一個學習的門控機制將模型的容量分配到多個專門化的子網絡或專家上,每次僅激活與當前輸入相關的專家。這種方法允許模型保持較大的參數規模,同時通過稀疏激活保持計算開銷的可控性。近期的實現,如Mixtral 8x7B[70]、Switch Transformers[42]和GShard[82]等,已經證明了這一策略在將語言模型擴展到萬億級參數的同時,仍能保持合理的計算需求。 MoE在擴展模型方面的成功,使其被廣泛應用于各種前沿系統中。例如,谷歌的GLaM[35]在推理時使用顯著更少的計算資源就超過了GPT-3的表現。類似地,最近的開源MoE模型Mixtral 8x7B[70],盡管模型規模遠小于密集型模型,但仍表現出與更大模型相媲美的競爭性能,并保持了高效的推理特性。表1總結了近年來備受關注的前沿開源MoE模型,進一步突顯了MoE架構的巨大潛力。這些成功的案例引發了學術界和工業界對MoE的廣泛關注,促使了模型設計[22, 164, 192]、訓練技術[34, 47, 101]以及部署策略[15, 16, 183]等方面的創新。 然而,MoE模型在推理中的高效部署仍然面臨獨特而嚴峻的挑戰[65, 150, 181, 196]。專家激活模式的動態性引入了資源管理和調度的復雜性,這是傳統密集型模型所沒有的。這些挑戰涵蓋了多個層面:在模型級別,專家架構和路由機制的設計直接影響推理性能;在系統級別,分布式計算和負載平衡的管理變得日益復雜;而在硬件級別,需要專門的加速技術來處理稀疏計算模式。 為了解決MoE部署和推理中的這些挑戰,已經提出了許多方法[72, 125, 133, 170]。盡管這一領域的研究快速增長并顯示出其重要性,但也使得識別關鍵趨勢和最佳實踐變得困難。現有文獻中的一個關鍵空白是缺乏一個系統化的框架,用于分析和開發綜合性的MoE推理優化解決方案。 為了彌補這一空白,本文提供了一個關于MoE模型推理優化技術的全面綜述。我們提出了一個分類框架,將優化方法分為模型級、系統級和硬件級優化,如圖1所示。這個框架提供了一個結構化的方法來理解和比較不同的優化技術。盡管已有關于大規模語言模型效率[10, 84, 90, 156, 159, 173, 187, 199]和MoE架構[13, 41, 158]的相關綜述,但我們的工作是首個專門聚焦于MoE模型推理優化技術的綜述。我們系統地分析了從模型架構到硬件加速的不同抽象層級的優化方法,為研究人員和實踐者提供了一個寶貴的資源,幫助他們將MoE模型部署到不同的實際應用中。
本綜述的其余部分組織如下:第2節介紹了MoE模型及其推理特性;第3至第5節分別詳細介紹了模型級、系統級和硬件級的優化技術;第6節討論了未來的挑戰和機遇;第7節對綜述進行了總結。 混合專家(MoE)的基本原理
模型層級優化旨在通過架構、參數優化和算法設計的系統性改進,增強MoE模型的固有結構和效率。這些優化可以大致分為三個主要領域:高效的模型架構設計、模型壓縮技術和算法改進。架構設計側重于開發更高效的專家和注意力結構,壓縮技術則通過剪枝、量化和知識蒸餾等方法,減少模型大小和內存占用。算法改進則集中在提升MoE模型的動態特性,包括路由機制和專家組合策略。圖3展示了本節的詳細結構。
由于MoE架構的獨特結構,許多研究集中在通過利用該架構固有的稀疏激活模式來加速推理過程,尤其是在系統層級。通常,MoE模型在兩種場景下部署:云環境中的多個服務器和邊緣環境中的單個設備。在云集群中,MoE模型分布在多個設備上,以實現并行執行。除了傳統的并行化技術,如數據并行、張量并行和流水線并行[69, 110, 126],專家并行是專門為MoE模型量身定制的特殊方法。在邊緣設備上,受限于GPU內存,往往無法容納MoE模型的所有參數,因此需要將部分參數卸載到CPU內存或SSD存儲中。為了解決這一問題,專家卸載技術被開發出來,以充分利用專家的稀疏激活模式,實現高效執行。圖6展示了本節的詳細結構。
最近針對MoE推理的硬件優化通過新穎的架構和共設計方法解決了關鍵挑戰。這些優化主要針對每字節操作數(Op/B)效率、異構計算單元和內存訪問模式等關鍵問題。以下討論了硬件層級解決方案中的一些重要進展。 MoNDE [76] 引入了一種近數據處理(NDP)解決方案,旨在解決稀疏激活和專家參數傳輸開銷的問題(圖8)。該架構將基于CXL(計算擴展鏈接)的NDP控制器與專用的NDP核心結合,用于內存中的計算,利用LPDDR SDRAM(低功耗雙倍數據速率同步動態隨機存儲器)提供高帶寬和能效。系統實現了一種混合計算策略,其中GPU處理頻繁訪問的“熱”專家,而NDP單元處理“冷”專家,通過激活移動范式而非傳統的參數移動來實現并行執行。 FLAME [97] 是第一個完全利用MoE稀疏性加速變換器在FPGA上的框架。在模型的參數級別,FLAME采用M:N剪枝來減少不必要的計算,這可以在列平衡結構剪枝和無結構剪枝之間取得平衡;在專家級別,通過CEPR(循環專家預測)進行稀疏激活預測。通過改變專家激活路徑的模式,可以有效提高專家預測的準確性。然后,使用雙緩沖機制在計算前一個專家的同時加載預測的專家,以提高專家部署效率。 M3ViT [40] 和 Edge-MoE [133] 基于多任務場景中的注意力計算重排序構建了它們的FPGA架構。對于推理,M3ViT 只激活與任務相關的稀疏“專家”路徑,以提高效率,并通過硬件級共設計實現任務之間的零開銷切換。Edge-MoE 是首個用于多任務ViT的端到端FPGA實現,提出了一些激進的技術,包括一種近似方法來解決FPGA上GELU函數計算的復雜性,以及一個統一的線性層模塊,以實現硬件資源的高效重用。 Duplex [188] 為每個層級執行選擇適合的目標設備,該設備結合了xPU和邏輯PIM(內存中處理)。這意味著它可以集成兩種類型的處理單元,共享設備內存。由于這兩種處理單元之間在計算和內存訪問方面的瓶頸,能夠在同一設備上同時實現高計算和內存訪問利用率。此外,它還引入了一種替代PIM微架構。邏輯PIM通過邏輯芯片上的強大處理單元以及更多的硅通孔(TSVs)優化了低Op/B操作,從而實現了DRAM芯片和邏輯芯片之間的高帶寬通信。此外,它可以并行執行專家和注意力階段,以最大化推理效率。 Space-mate [119] 提供了其在移動設備上用于SLAM(同時定位與建圖)任務的加速器設計。主要包括一個無序(OoO)SMoE路由器,用于緩解低延遲的數據傳輸,以及單跳(SS)和雙跳(DS)異構核心架構,利用相同專家中相似零模式導致的粗粒度稀疏性,以實現高吞吐量和能效。
目的:本文旨在研究國家沖突建模中的區域變量如何影響預測的準確性,并確定進一步改進預測的方法。
設計/方法/途徑:本文使用統計學習方法評估國家聚類的數據量,并根據使用的聚類數量量化準確性。
研究結果:本研究表明,只要模型穩健,增加建模聚類的數量可提高預測沖突的能力。
獨創性/價值:本研究調查了沖突建模中使用的聚類數量,而之前的研究在建模前假設了特定的數量。
戰爭是一場混亂的戰爭。戰爭不僅會付出當前的生命代價,還會影響未來的生命、財富和榮譽(聲望)。盡管 20 世紀 40 年代在德國發生的事件已經過去了 70 多年,但人們仍然對大屠殺的宗教種族滅絕感到精神痛苦。如今,也門的政治沖突阻礙了發展,各派爭奪政府的官方合法性。戰爭奪走的不僅僅是生命,它滲透到生活的方方面面。
從最高權力層到最底層的貧困地區,研究人員都在尋求并努力了解使戰火持續不熄的構造--大量的時間、資源和研究推動著國家沖突與和平模型的建立。然而,具有諷刺意味的是,研究人員往往從狹隘的角度看待沖突,認為沖突與經濟資源分配和信息博弈論有關(Brito 和 Intriligator,1985 年)。例如,Gartzke 主要關注資本相互依存的經濟貢獻(Gartzke et al. 然而,國家沖突總是比這更復雜--它是一個包含政治、經濟和社會方面的產物。在對預測國家沖突的重要變量進行調查時,有五個代用指標不斷浮出水面: 政體(通過政權類型)、人均國內生產總值(GDP)、沖突歷史、人口數量和地區。然而,許多非政府組織在開發特定數據集方面花費了大量時間和資金。除地區分組外,所有變量都可追溯到開放源數據庫。然而,區域往往是定性的,同時也顯示出提高預測準確性的整體性(Hegre 等人,2013 年;Ahner 等人,2015 年;Leiby,2017 年)。盡管先前的研究將國家劃分為多個地區,但在揭示地區代理的驅動因素及其重要性方面仍存在差距。有一種假設認為,地區代表了產生共同文化的各種變量的復雜混合物,驅動著其他變量如何影響國家的不穩定性。換句話說,在一個穩健的國家沖突預測模型中,地區替代值設定了所有其他替代值的系數水平。因此,我們的任務就是發展這些地區,使其他獨立變量的預測影響最大化。
本研究考慮的變量遠遠多于以往文獻中考慮的變量,在發展整體文化概念的同時,還形成了區域,以通過文化界限更好地模擬國家沖突。最值得注意的是,它研究了在建模過程中需要考慮的最佳區域數量,以及每個區域的地理邊界劃分,同時還考慮了數據的相似性。
本文介紹了一種通過整合領域知識和基于注意力的策略機制來增強多智能體強化學習(MARL)的替代方法。方法側重于將特定領域的專業知識融入學習過程,從而簡化協作行為的開發。這種方法旨在通過使智能體專注于復雜任務的重要方面,從而優化學習曲線,降低與 MARL 相關的復雜性和學習開銷。在我們的模型中,注意力機制的利用起到了關鍵作用。它可以有效處理動態上下文數據和智能體之間細微的互動,從而做出更精細的決策。在斯坦福智能系統實驗室(SISL)“追逐 ”和 “多粒子環境”(MPE)“簡單擴展 ”等標準 MARL 場景中的應用表明,我們的方法既能提高學習效率,又能提高協作行為的有效性。結果表明,我們基于注意力的方法可以在行動層面整合特定領域的知識,是提高 MARL 訓練過程效率的可行方法。
本文以約翰-博伊德的觀察、定向、決策、行動(OODA)循環及其 “指揮與控制的有機設計”(1987 年)分析為背景,對決策優勢和主動權進行了定義。博伊德的思想遠遠超前于當時的時代,但在新興的運營環境中卻能產生清晰的共鳴。決策優勢的結果就是主動權。此外,決策優勢不僅是一種條件,也是實現這種優勢所需的過程。由于人仍然是有效的聯合全域指揮與控制的關鍵,因此規劃者和戰略家必須了解這些關鍵概念在條令上的細微差別。
美國國防部對聯合全域作戰(JADO)(前身為多域作戰)的支持推動了一系列發展和組織活動,這些活動是由作戰環境的明顯變化和近鄰對手挑戰美國安全領導地位的具體努力引發的。指揮與控制是所有軍種多域或全域作戰概念的核心。鑒于新興技術有可能對以往計劃、決策和執行周期的局限性產生根本性影響,本文--空軍大學 2020 年 JADC2 會議的產物--通過博伊德 1987 年的簡報 “指揮與控制的有機設計 ”的視角,探討了決策優勢的概念。
在考慮 JADC2 的意圖和架構時,博伊德在 20 世紀 80 年代末的著作似乎極具預見性。對博伊德思想的研究可以幫助當代規劃師和架構師更好地理解各種可能性。
無論采用何種技術來驅散戰爭的迷霧和摩擦,人的因素--信念、信任、共同愿景、身份、知識、經驗、教育和培訓等--對于 JADC2 企業的重要性不亞于傳感器網格、開放數據標準和交換、網狀連接、云計算或邊緣計算、人機協作、機器學習甚至人工智能(AI)。俄羅斯解決這一問題的方法表明,俄羅斯規劃人員認為人為因素是 JADC2 體系最薄弱的環節之一,也可能是最強大的方面。
本文探討了似乎支撐美國防部 JADC2 體系的一個基本原則--博伊德的觀察、定向、決策、行動(OODA)循環。本文并不質疑美國防部對這一決策模式的接受。此外,雖然本文研究了 JADC2 的條令和架構設計,但由于篇幅所限,本文并未討論作為一種實踐的條令發展的適用性。
圖 1. 修改后的 JADC2 高級概念圖
雖然高層領導采用了信息優勢和決策優勢這兩個術語來捕捉聯合反戰條 約方法的預期效益,但多年來,決策優勢一直沒有國防部的定義。盡管 JADC2 企業的整個宗旨是 “決策的藝術和科學,以及將這些決策轉化為行動的能力,利用所有領域的能力并與任務伙伴合作,在競爭和沖突中取得作戰優勢”,但決策優勢的概念在非保密的 JADC2 和多域作戰/JADO 文件中有所暗示,但并未得到明確定義。最后,空軍于 2021 年 11 月公布了其定義。
有些人可能會得出 JADC2 就是決策優勢的結論。上述定義雖然沒有明確將這一概念與 JADC2 的技術架構聯系起來,但在沖突的連續性方面提供了有益的聯系。這一定義也出現在 2020 年空戰司令部關于 JADC2 的重要圖表摘要中(圖 1),其中規定了 “以壓倒性的決策優勢阻滯敵人前進 ”的任務,但同樣沒有界定決策優勢的含義。
JADC2 概念是一種提供卓越態勢感知的架構。理解 JADC2 至少需要深厚的領域知識,理想情況下還需要跨領域知識,反映關鍵視角,這些視角相互碰撞、相互作用,從而形成背景。
在美軍內部,人機協同增強了決策過程。陸軍多域作戰條令指出,“在人工智能和高速數據處理的支持下,人機界面在速度和準確性上都能提高人類決策的水平”。美國陸軍訓練與條令司令部(TRADOC)第525-3-1號小冊子《2028年多域作戰中的美國陸軍》強調了對對手情報、監視和偵察綜合體的攻擊:“陸軍部隊與合作伙伴和聯合部隊一起,對抗對手的偵察并進行欺騙,在對手的決策過程中制造不確定性”。報告進一步指出,“在競爭中展示的能力會破壞對手的信息戰行動,并在其決策過程中產生復雜性和不確定性”。
這與俄羅斯的做法類似,旨在為決策周期注入模糊性,以創造機動空間,剝奪關鍵信息并造成癱瘓。
雖然陸軍的小冊子沒有定義或使用決策優勢一詞,但它確實使用了決定性空間,并將其定義為 “時間和空間(物理、虛擬和認知)上的位置,在這些位置上,充分優化跨域能力的運用會對敵方產生明顯優勢,并極大地影響行動的結果”。這似乎是對我們熟悉的 “決定點 ”概念的改編,與大國的概念相似,即選擇對手系統中的關鍵點并設計反擊系統加以對抗。
TRADOC 525-3-1 還討論了預測性維持行動: 精確后勤可通過以下方式實現:具有預測分析工具和無需請求即可補給和/或根據優先次序重新分配補給的能力的后勤企業資源規劃決策支持系統(著重號后加);可供各級指揮官和后勤人員查看的實時共同行動畫面。
這種系統對于支持靈活的作戰部署或其他形式的動態部隊部署是絕對必要的。
最后,陸軍的綜合運用行動旨在協調 “與信息相關的能力(IRC),與其他行動路線協同作戰,以影響、欺騙、擾亂、腐蝕或篡奪敵人和對手的決策,同時保護我們自己的決策”,并影響敵人和民眾的戰斗意志。TRADOC 525-3-1 強調削弱敵方決策能力,并建議保護美國的類似能力。根據 TRADOC 525-3-1 的構想,贏得優勢的主要方法是攻擊敵方的認知,而不是建立優越的程序和信息環境。
圖 2. 美空軍指揮與參謀學院聯合全域戰略家計劃演習的決策支持矩陣
鑒于 OODA 循環概念強調人為因素、速度和信息優勢以及主動權概念的核心地位,本文提出了決策優勢的定義。第一部分定義了決策優勢本身,第二部分將 JADC2 置于 OODA 概念和人為因素的背景下,并通過對手的作戰方法加以說明: 決策優勢是指在正確的時間獲取并識別正確的信息(信息優勢),及時做出決策并將其轉化為行動,以及奪取或保持主動權。
美國空軍最近發布了空軍條令出版物 3-99/太空部隊條令出版物 3-99《空軍部在聯合全域作戰中的作用》,將決策優勢定義為 “態勢理解的產物,通過保持全域優勢來保證和交換信息、做出和傳達決策的能力”。這一定義有許多值得推薦之處。它強調的是理解而不是認識。與作者的建議不同,它強調溝通的中心地位,并將決策與溝通的需要聯系起來。然而,它也提出了在所有領域保持優勢的必要性,而這在實踐中可能是不可能的--盡管毫無疑問,如果能以某種方式實現,這將是一個值得歡迎的情況。
然而,美空軍的定義仍然缺乏強調決策優勢重要性的核心要素--主動性的傳遞。為了更牢固地將決策與主動性聯系在一起,對空軍的定義可作如下修改: 對形勢理解的產物,保證和交換信息的能力,作出和傳達決策以在關鍵領域奪取或保持優勢的能力。
無論采用哪種定義,決策優勢都是由超強的理解力、信心和信任所支撐的,這種理解力、信心和信任能夠克服模糊性并創造清晰性。決策可以奪取并保持對對手或競爭者的主動權,迫使其重新觀察和調整方向,延遲其做出決定,并最終剝奪其行動甚至保持凝聚力的能力。同時,決策優勢力求最大限度地擴大友軍的行動自由、團結以及引導(對手)做出對美國有利的決策、目標和最終狀態的能力,在一些俄羅斯文獻中被表述為反身控制。
卓越的理解力來自于相關知識、經驗、適當的智力工具、教育和培訓;信心來自于清晰的理解、愿景、目的、權威和目標--或者說是已知的事物。信任通過建立關系來支持風險,從而抵御未知。因此,決策優勢的對立面可能是癱瘓--無法確定方向、做出決定和采取行動。
大衛-愛潑斯坦(David Epstein)最近提出,跨領域和多領域知識--即學術領域的知識,而不一定是條令作戰領域的知識--對于解決專業化世界中的棘手問題可能很有價值,這一點很有說服力。如果愛潑斯坦的觀點是正確的,那么廣泛而深入的教育是必要的,這樣才能實現跨領域的知識轉移,并為那些在專家看來難以解決的問題找到解決方案。此外,目前已知的人工智能固有局限性表明,適應性和靈活性是戰勝相對狹隘但快如閃電的機器判斷力的關鍵。
愛潑斯坦認為,跨領域知識是面對令人沮喪的模糊性時的有力武器,這與多域或全域作戰是取得優勢戰勝對手的關鍵的軍事概念相似。在這兩種觀點中,對來自單一領域之外的信息的了解或認識可以產生重要的優勢。
烏克蘭部隊的小單元創新與俄羅斯部隊的集中式方式形成了鮮明對比。烏克蘭軍民憑借技術優勢,不斷創新技術和戰術,令對手無所適從。M142 高機動性火炮火箭系統、美國情報、監視和偵察系統、標槍導彈和無人機等技術使烏克蘭軍隊在遠距離作戰時更加靈活。這些技術本身并沒有讓俄羅斯軍方感到困惑,但與這些技術相結合的創新步伐或許才是。
同樣,教育的廣度可能有助于防止癱瘓,使人們能夠迅速綜合并解決棘手的問題。這將是必要的,因為模糊信息和虛假信息的注入肯定會對支持機器計算和人類判斷產生不利影響,從而讓人類填補空白。我們需要高質量的教育和培訓,以應對有目的地注入模糊信息所帶來的困難,以及子系統受到攻擊和崩潰時產生的迷霧和摩擦。
在追求現代化和利用新興技術潛力的過程中,JADC2 系統的最薄弱環節和最薄弱環節將是人類操作員和他們所操作的組織。然而,各級決策者仍然需要理解以接近機器速度呈現的信息--他們必須具備態勢感知能力。視角、偏見、文化、身份和其他因素賦予信息以意義,并為作戰信息的傳遞提供了另一種視角。教育是對抗窒息性組織狹隘性的一種方法,即使 JADC2 以任何形式實現,這種個人偏見也可能持續存在。
開放領域生成系統在會話人工智能領域(例如生成式搜索引擎)引起了廣泛關注。本文對這些系統,特別是大型語言模型所采用的歸因機制進行了全面回顧。盡管歸因或引用可以提高事實性和可驗證性,但模糊的知識庫、固有偏見以及過度歸因的缺點等問題可能會妨礙這些系統的有效性。本綜述的目標是為研究人員提供有價值的見解,幫助改進歸因方法,以增強開放領域生成系統生成的響應的可靠性和真實性。我們認為這個領域仍處于初級階段,因此我們維護了一個倉庫,以跟蹤正在進行的研究,網址為
//github.com/HITsz-TMG/awesome-llm-attributions。
自從由大型語言模型(LLMs)驅動的開放領域生成系統出現以來(Anil等人,2023;OpenAI,2022,2023),解決潛在不準確或虛構內容的連貫生成一直是一個持續存在的挑戰(Rawte等人,2023;葉等人,2023;張等人,2023b)。社區通常將這種問題稱為“幻覺”問題,其中生成的內容呈現出扭曲或虛構的事實,缺乏可信的信息來源(Peskoff和Stewart,2023)。這在信息搜索和知識問答場景中尤為明顯,用戶依賴大型語言模型獲取專業知識(Malaviya等人,2023)。
幻覺問題的實質可能源于事先訓練的模型是從廣泛、未經過濾的現實世界文本中獲取的(Penedo等人,2023)。這些人類生成的文本固有地包含不一致性和虛假信息。事先訓練的目標僅僅是預測下一個單詞,而不是明確建模生成內容的真實性。即使在利用人類反饋的強化學習之后(Ouyang等人,2022),模型仍然可能出現外部幻覺(Bai等人,2022)。為了解決外部幻覺的問題,研究人員已經開始采用外部參考文獻等措施來增強聊天機器人的真實性和可靠性(Thoppilan等人,2022;Menick等人,2022;Nakano等人,2021)。顯式歸因和強化學習之間的區別不僅在于需要人工驗證和遵從,還在于認識到生成的內容可能隨著時間變化而變得過時或無效。歸因可以利用實時信息來確保相關性和準確性。然而,歸因的基本挑戰圍繞著兩個基本要求(Liu等人,2023):
考慮到這些要求,我們可以將模型處理歸因的主要方式分為三種類型:
超越對文本幻覺的一般討論(Zhang等人,2023b;葉等人,2023;Rawte等人,2023),我們的研究深入探討了大型語言模型的歸因問題。我們探討了它的起源、支撐技術以及評估標準。此外,我們也涉及了諸如偏見和過度引用的挑戰。我們相信,通過關注這些歸因問題,我們可以使模型更加可信賴和容易理解。我們這項研究的目標是以一種更加清晰的方式來闡述歸因問題,鼓勵對這一主題進行更深入的思考。
歸因是指一個實體(如文本模型)生成并提供證據的能力,這些證據通常以引用或參考文獻的形式出現,用以支撐它所產生的聲明或陳述。這些證據來源于可識別的源頭,確保這些聲明可以從一個基礎語料庫中邏輯推斷出來,使得它們對于普通受眾而言是可以理解和驗證的。歸因本身與搜索任務相關(Brin 和 Page, 1998;Page 等人, 1999;Tay 等人, 2022),在這種任務中只有幾個網頁會被返回。然而,歸因的主要目的包括使用戶能夠驗證模型所做的聲明,促進生成與引用源高度一致的文本以提高準確性和減少錯誤信息或幻覺,以及建立一個結構化的框架來評估支持證據的完整性和相關性,與所提出的聲明相比較。歸因的準確性核心在于所產生的陳述是否完全由引用源支持。Rashkin 等人(2021)還提出了歸因于已識別來源(AIS)的評估框架,以評估特定陳述是否由所提供的證據支持。Bohnet 等人(2022)提出了歸因問答,模型在這里接受一個問題,并產生一對配對的回答,即答案字符串及其從特定語料庫,如段落中得到的支持證據。
直接生成的歸因 來自參數化知識的直接生成歸因可以幫助減少幻覺現象并提高生成文本的真實性。通過要求模型進行自我檢測和自我歸因,一些研究發現生成的文本更加基于事實,并且在下游任務中的表現也有所提升。最近,研究人員發現,大型語言模型在回答特定領域的知識性問題時,不能清楚地提供知識來源或證據(Peskoff 和 Stewart, 2023; Zuccon 等人, 2023)。在大多數情況下,模型只能提供一個與問題中的關鍵詞松散相關或與當前主題無關的知識來源。即使模型正確回答了問題,它提供的證據仍然可能存在錯誤。Weller 等人(2023)嘗試通過提出根據提示方法,將模型生成的文本基于其預訓練數據,發現這種方法可以影響模型的根據性,從而影響信息尋求任務的表現。Anonymous(2023)引入了一個中間規劃模塊,要求模型生成一系列問題作為當前問題的藍圖。模型首先提出一個藍圖,然后結合基于藍圖問題生成的文本作為最終答案。藍圖模型允許在每個回答問題的步驟中采用不同形式的歸因,可以期望更具解釋性。
**檢索后回答 **
多篇研究論文已經調查了歸因的檢索后回答方法(Chen 等人,2017年;Lee 等人,2019年;Khattab 和 Zaharia,2020年)。SmartBook 框架(Reddy 等人,2023年)提出了一種方法,該方法利用大量新聞數據自動生成結構化的情況報告。SmartBook 確定了情況分析的關鍵問題,并從新聞文章中檢索相關信息。報告按時間線組織,每個時間線包括重大事件、戰略問題和由事實證據支持的概括性總結。為了解決用戶查詢和存儲知識之間的不一致問題,MixAlign(張等人,2023a)提出了一個框架,該框架結合了自動問題知識對齊和用戶澄清,增強了檢索增強生成模型的性能,并減輕了語言模型的幻覺。此外,SearChain(徐等人,2023年)引入了一個新穎的框架,它將大型語言模型(LLMs)與信息檢索(IR)結合起來,提高了復雜知識密集型任務的準確性、可信度和可追溯性。SearChain 采用檢索然后回答的方法,通過生成全球推理鏈(CoQ)并利用 IR 來驗證答案和提供缺失的知識。
生成后歸因
為了在不損害最新一代模型所提供的強大優勢的情況下促進準確的歸因,一些研究致力于生成后的歸因,這些研究使用搜索引擎或文檔檢索系統,基于輸入問題和生成的答案來搜索證據。這種方法允許研究人員評估或提高答案的事實性,而無需直接訪問模型的參數。生成后歸因的工作流程如圖3所示。RARR(高等,2023a)自主識別任何文本生成模型輸出的歸因,并執行后期編輯以糾正不支持的內容,同時努力在最大程度上保留原始輸出。在霍等人(2023)的工作中,材料是基于粗粒度的句子或細粒度的事實陳述從語料庫中檢索的。然后利用這些檢索到的材料提示LLM,以驗證生成的回應與檢索到的材料之間的一致性,并進行必要的編輯以減少幻覺。陳等人(2023b)介紹了一個全自動化的管道,旨在驗證復雜的政治聲明,這是通過從網上檢索原始證據、生成聚焦聲明的摘要并利用它們進行聲明驗證來實現的。
人工智能(AI)和統計機器學習(ML)與復雜系統的集成,給傳統的測試與評估(T&E)實踐帶來了各種挑戰。隨著更多不同級別的決策由人工智能系統(AIES)處理,我們需要測試與評估流程為確保系統的有效性、適用性和生存性奠定基礎。這涉及到評估 ML 模型和人工智能算法組件的方法,包括展示它們如何產生可重復和可解釋的決策的能力,以及對任何故障模式和故障緩解技術的了解。此外,還需要人工智能保證,以證明人工智能算法按預期運行,不存在因設計缺陷或惡意插入數據或算法代碼而產生的漏洞。T&E 需要新的流程來鑒定 ML 模型的訓練數據是否充足、算法和模型性能、系統性能以及運行能力。弗里曼(Freeman,2020 年)概述了當前復雜軟件支持系統的測試與評價方法所面臨的挑戰、嵌入式人工智能所加劇的關鍵挑戰,以及針對 AIES 的測試與評價需要如何改變的 10 個主題[1]。
為了充分測試 AIES,測試與評估界需要應對以下挑戰:
圖 1 總結了加強測試與評估的 10 個不同主題,以應對充分測試和評估 AIES 所面臨的挑戰。在過去的一年中,弗吉尼亞理工大學致力于測試和評估各種 AIES。本最佳實踐指南對圖 1 中的主題進行了進一步的完善和補充。本文所包含的最佳實踐將這些主題轉化為可執行的測試與評估實踐。在編寫本指南的過程中,我們充分利用了我們在人工智能系統開發和與更廣泛的人工智能社區合作方面的 T&E 工作經驗。這里所包含的最佳實踐反映了我們為使人工智能系統的測試與評估具有可操作性所做的初步嘗試。這些實踐需要在各種人工智能系統中進行測試,以確保它們是真正的最佳實踐。貫穿許多最佳實踐的一個亮點是數據的重要作用。數據不再僅僅是 T&E 的產物。現在,它已成為人工智能系統開發本身的輸入。這一顯著變化推動了對人工智能系統的技術與評估提出新的要求和實踐。此外,這份清單還遠遠不夠完整,應被視為一份活生生的實踐文檔。隨著越來越多的人工智能系統可供測試,新的實踐將不斷發展,本清單也需要不斷更新。不過,本文件中的每種做法都已證明在美國防部 AIES 測試中非常有用。
美國陸軍對人工智能和輔助自動化(AI/AA)技術在戰場上的應用有著濃厚的興趣,以幫助整理、分類和澄清多種態勢和傳感器數據流,為指揮官提供清晰、準確的作戰畫面,從而做出快速、適當的決策。本文提供了一種將作戰模擬輸出數據整合到分析評估框架中的方法。該框架有助于評估AI/AA決策輔助系統在指揮和控制任務中的有效性。我們的方法通過AI/AA增強營的實際操作演示,該營被分配清理戰場的一個區域。結果表明,具有AI/AA優勢的模擬場景導致了更高的預期任務有效性得分。
美國陸軍目前正在開發將人工智能和輔助自動化(AI/AA)技術融入作戰空間的決策輔助系統。據美國陸軍機動中心稱,在決策輔助系統等人工智能/輔助自動化系統的協助下,士兵的作戰效率可提高10倍(Aliotta,2022年)。決策輔助工具旨在協助指揮官在作戰場景中減少決策時間,同時提高決策質量和任務效率(Shaneman, George, & Busart, 2022);這些工具有助于整理作戰數據流,協助指揮官進行戰場感知,幫助他們做出明智的實時決策。與使用AI/AA決策輔助工具相關的一個問題是,陸軍目前缺乏一個有效的框架來評估工具在作戰環境中的使用情況。因此,在本文中,我們將介紹我們對分析框架的研究、設計和開發,并結合建模和仿真來評估AI/AA決策輔助工具在指揮和控制任務中的有效性。
作為分析框架開發的一部分,我們進行了廣泛的文獻綜述,并與30多個利益相關者進行了利益相關者分析,這些利益相關者在人工智能/AA、決策輔助、指揮與控制、建模與仿真等領域具有豐富的知識。根據他們對上述主題的熟悉程度,我們將這些利益相關者分為若干焦點小組。我們與每個小組舉行了虛擬焦點小組會議,收集反饋意見,并將其用于推動我們的發現、結論和建議(FCR)。同時,我們還開發了一個逼真的戰場小故事和場景。利用該場景和我們的FCR輸出,我們與美國陸軍DEVCOM分析中心(DAC)合作開發了一個功能層次結構,通過建模和仿真來測量目標。我們將假設的戰斗場景轉移到 "一個半自動化部隊"(OneSAF)中,該模擬軟件利用計算機生成部隊,提供部分或完全自動化的實體和行為模型,旨在支持陸軍戰備(PEOSTRI, 2023)。使用分析層次過程,我們征詢了評估決策者的偏好,計算了功能層次中目標的權重,并創建了一個電子表格模型,該模型結合了OneSAF的輸出數據,并提供了量化的價值評分。通過A-B測試,我們收集了基線模擬和模擬AI/AA效果的得分。我們比較了A情景和B情景的結果,并評估了AI/AA對模擬中友軍任務有效性的影響。
分析評估框架可針對多標準決策問題對定量和/或定性數據進行評估。定性框架,如卡諾模型(Violante & Vezzetti, 2017)、法式問答(Hordyk & Carruthers, 2018)和定性空間管理(Pascoe, Bustamante, Wilcox, & Gibbs, 2009),主要用于利益相關者的投入和頭腦風暴(Srivastava & Thomson, 2009),不需要密集的計算或勞動。定量評估框架以數據為導向,提供一種數學方法,通過衡量性能和有效性來確定系統的功能。分析層次過程(AHP)適用于我們的問題,因為它使用層次設計和成對的決策者偏好比較,通過比較權重提供定性和定量分析(Saaty,1987)。雖然AHP已被廣泛應用,但據我們所知,該方法尚未被用于評估人工智能/自動分析決策輔助工具,也未與A-B測試相結合進行評估。
指揮與控制(C2)系統用于提供更詳細、更準確、更通用的戰場作戰畫面,以實現有效決策;這些C2系統主要用于提高態勢感知(SA)。研究表明,使用數字化信息顯示方法的指揮官比使用無線電通信收集信息的指揮官顯示出更高水平的態勢感知(McGuinness和Ebbage,2002年)。AI/AA與C2的集成所帶來的價值可以比作戰斗視頻游戲中的 "作弊器":它提供了關于敵方如何行動的信息優勢,并幫助友軍避免代價高昂的后果(McKeon,2022)。對C2系統和SA的研究有助于推動本文描述的小故事和場景的發展。
建模與仿真(M&S)是對系統或過程的簡化表示,使我們能夠通過仿真進行預測或了解其行為。M&S生成的數據允許人們根據特定場景做出決策和預測(TechTarget,2017)。這使得陸軍能夠從已經經歷過的作戰場景和陸軍預計未來將面臨的作戰場景中生成并得出結論。模擬有助于推動陸軍的能力評估。測試和評估通常與評估同時進行,包括分析模型以學習、改進和得出結論,同時評估風險。軍隊中使用了許多不同的M&S工具。例如,"步兵戰士模擬"(IWARS)是一種戰斗模擬,主要針對個人和小單位部隊,用于評估作戰效能(USMA, 2023)。高級仿真、集成和建模框架(AFSIM)是一種多領域M&S仿真框架,側重于分析、實驗和戰爭游戲(West & Birkmire, 2020)。在我們的項目范圍內,"一支半自動化部隊"(OneSAF)被用于模擬我們所創建的戰斗情況,以模擬在戰場上擁有人工智能/自動機優勢的效果。
如前所述,人工智能/AA輔助決策的目標是提高決策的質量和速度。人工智能可用于不同的場景,并以多種方式為戰場指揮官和戰士提供支持。例如,人工智能/AA輔助決策系統可以幫助空中和地面作戰的戰士更好地 "分析環境 "和 "探測和分析目標"(Adams, 2001)。人工智能/自動機輔助決策系統可以幫助減少人為錯誤,在戰場上創造信息和決策優勢(Cobb, Jalaian, Bastian, & Russell, 2021)。這些由AI/AA輔助決策系統獲得的信息分流優勢指導了我們的作戰小故事和M&S場景開發。
在我們的作戰小故事中,第1營被分配到一個小村莊,直到指定的前進路線。營情報官羅伊上尉(BN S2)使用AI/AA輔助決策系統(即助手)準備情報態勢模板(SITTEMP),該系統可快速收集和整合積累的紅色情報和公開來源情報衍生的態勢數據。然后,它跟隨瓊斯少校和史密斯上尉,即營行動指揮員(BN S3)和S3助理(AS3),使用AI/AA輔助決策系統制定機動行動方案(COA),以評估 "假設 "情景、 她根據選定的機動方案開發指定的利益區域(NAI),然后在其內部資產和上層資源之間協調足夠的情報、監視和偵察(ISR)覆蓋范圍。假設時間為2030年,雙方均不使用核武器或采取對對方構成生存威脅的行動,天氣條件對藍軍和紅軍的影響相同,時間為秋季,天氣溫暖潮濕。
作為解決方案框架背景研究的一部分,我們與32位民用和軍用利益相關者進行了接觸,他們都是AI/AA及其對決策和仿真建模的貢獻方面的專家。我們進行的利益相關者分析過程如下: 1)定義和識別利益相關者;2)定義焦點小組;3)將利益相關者分配到焦點小組;4)為每個焦點小組制定具體問題;5)聯系利益相關者并安排焦點小組會議;6)進行焦點小組會議;7)綜合并分析利益相關者的反饋;以及8)制定FCR矩陣。我們利用FCR矩陣的結果來繪制功能層次圖,其中包括從模擬場景中生成/收集的目標、衡量標準和度量。然后根據這些目標、措施和指標對任務集的重要性進行排序。這為使用層次分析法(如下所述)奠定了基礎。
AHP是托馬斯-薩蒂(Thomas Saaty)于1987年提出的一種方法,它利用專家判斷得出的一系列成對比較,將功能層次結構中的每個功能和子功能放入一個優先級表中。然后通過有形數據或專家定性意見對各種屬性進行排序。如表1所示,這些排序被置于1-9的范圍內。在賦予每個屬性1-9的權重后,再賦予標準和次級標準權重,以顯示其相對重要性(Saaty,1987)。
隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。
**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。
**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。
近幾十年來,國防系統的規劃已經演變成基于能力的規劃(CBP)過程。本文試圖回答兩個問題:首先,如何表達一個復雜的、真實世界的能力需求;其次,如何評估一個具有交互元素的系統是否滿足這一需求。我們建議用一套一致的模型以可追蹤的方式來表達能力需求和滿足該需求的解決方案。這些模型將目前的能力模型,具體到規劃級別和能力觀點,與系統思維方法相結合。我們的概念模型定義了環境中的防御系統,數據模型定義并組織了CBP術語,類圖定義了CBP規劃元素。通過給出一個能力參數化的例子來說明這個方法,并將其與DODAF能力觀點和通用CBP過程進行比較。我們的數據模型描述了能力在行動中是如何退化的,并將該方法擴展到能力動態。定量能力定義的目的是支持解決現實世界中相互作用的子系統,這些子系統共同實現所需的能力。
在本節中,能力被定義為執行任務的效果或功能并作為系統時,我們討論CBP;在1.2小節中進一步討論Anteroinen的分類中的第三和第五類。為了專注于軍事系統或軍事單位的結構定義和未來的數學建模,只考慮系統的物理組成部分,即人員和物資,以及他們與能力的關系。環境的影響--天氣條件、地形、周圍的基礎設施和其他軍事單位--被省略,以關注兩種力量之間的相互作用;盡管在實踐中,環境和其他更廣泛的系統問題顯然是相關的。通常情況下,CBP過程定義了環境的相關方面和軍事行動的類型,為能力需求定義、能力評估和解決方案選擇制定了可能的規劃情況集合。
一個軍事單位或一個組織由其人員和物資組成。經過組織和訓練的人員配備了適當的物資,代表、擁有或產生能力。當兩個軍事單位相互作戰時,他們會啟動自己的能力,以造成敵人的物資和人員的退化。為了定義能力需求并計劃如何作為軍事單位或系統來實施,需要解決的問題是:在與敵人的互動過程中,能力將如何演變,而敵人的能力卻鮮為人知?圖1說明了在敵人能力的作用下,自己的軍事作戰和維持能力的動態互動。我們的能力削弱了敵方的人員和物資,對敵方的能力產生了影響;而敵方的能力削弱了我們的人員和物資,對我們的能力產生了影響。外部資源,也就是供應和維持能力,維持著被削弱的人員和物資。如因果循環圖所示,敵方的能力可以與我方的能力對稱地表示。第3節的進一步建模集中在我們自己的能力上,由圖1中的虛線表示,以便更純粹地表示。
對我們自己的能力的定義說明,由人員和物資提供,表明了復雜的結構和與能力有關的功能和元素之間的相互作用。此外,真正的軍事單位,通常由較小的編隊組成,有幾種能力,由大量不同的物資和人員組成,并與環境互動。
架構被定義為 "一個系統在其環境中的基本概念或屬性,體現在其元素、關系以及設計和進化的原則中"。因此,架構描述是一種表達架構的工作產品。架構框架是在一些應用領域或社區應用架構描述的基礎。架構框架為網絡系統的復雜性管理提供了結構化的方法,使利益相關者之間能夠進行溝通,并支持未來和現有系統的系統分析和設計。企業架構的Zachman框架是這類通用框架的一個例子。DoDAF、MODAF和NAF是用于國防系統分析和定義的架構框架,特別是用于指揮、控制、通信、計算機、情報、監視和偵察系統(C4ISR)。這些架構框架由觀點組成,定義了代表特定系統關注點的一組架構視圖的規則。架構視圖由一個或多個模型組成。架構框架基礎的元模型定義了不同視點中元素之間的關系。DoDAF元模型DM2有一個概念數據模型圖(DIV-1),用來向管理者和執行者傳達架構描述的高層數據構造的概念。MODAF元模型詳細定義了每個架構視圖的數據模型。
利益相關者需要適當的支持,以促進他們彼此之間以及與規劃專家團體的溝通,從而從CBP方法中獲益。軍事專家的作用不是參與復雜的工具和方法,而是為規劃過程提供重要的領域專業知識。架構框架是一個很好的工具,可以定義當前的防御系統,確定能力需求,并描述系統解決方案。不幸的是,架構框架和相關元模型的精確但復雜的機制與復雜的符號并不一定能以明顯的方式解釋能力觀點和要素之間的關系。因此,架構觀點和典型的CBP流程并沒有明顯的聯系。因此,參與能力規劃的軍事專家和決策者很少能夠加深理解,或者在沒有專門掌握這些工具和方法的人員的情況下,通過應用架構框架確定解決方案。需要對能力進行更簡單的定義,與流程兼容。
圖2提出了一個高層次的數據模型,它代表了能力定義問題的抽象。數據模型描述了能力模型類型及其關系,作為能力和防御系統建模的框架。符號的選擇是為了保持信息量,但對更多的人來說是可讀的,因此它不遵循任何特定的方法,但與SODA的認知圖譜有一些共同點。
能力的現實世界實例在圖的左邊,而概念模型類型在右邊。該模型的第一個版本已經被Koivisto和Tuukkanen應用于一個基于研發的自下而上的過程和概念性的未來系統,即認知無線電。原始模型描述,系統模型定義了物資、戰斗力和功能能力。實際上,這是一種雙向的關系:在所需能力和所需資源的驅動下建立系統模型,然后用系統模型來預測特定環境和實例中的結果。
防御系統由系統、系統要素及其相互作用組成,其突發屬性由系統、系統要素和它們的相互作用界定。圖3中的模型代表了系統層次結構中的防御系統層次。防御系統可以被看作是SoS,但我們應用一般的系統術語來保持模型的可擴展性,并為防御系統層次結構的較低層次提供合適的術語。在國防系統層次結構的任何一級,系統代表一個由系統元素組成的軍事單位:人員和物資。
圖3 國防系統在其背景下的概念系統模型。防御系統,即利益系統(SOI),被環境和其他行為者的系統所包圍。這些系統包括相互作用的系統要素人員(P)和物資(M)。子系統和系統元素之間的聯系是示范性的。
除了系統元素和它們的組織之外,還要定義功能和相應的輸出,以獲得更全面的系統定義。我們將能力定義為執行任務的效果或功能,是一種功能能力。在CBP過程中,功能能力定義了一些當前或計劃中的軍事單位或由物資和人員組成的系統的能力潛力。最終,能力發展過程必須以現實世界的軍事單位來定義系統的實施。力量要素的概念定義了最終的系統結構,也就是要生產的現實世界的軍事單位的組織。在我們的數據模型中,功能能力被安排在SOI內部,以代表系統的涌現屬性。當這種潛力或涌現被計劃為引起某種效果時,系統,具體來說是其功能能力,在計劃過程中被分配到一個任務中。此外,當軍事單位執行任務時,效果就會產生。高層數據模型的作用,如圖4,是將關鍵的術語及其關系可視化。
圖 4 基于能力的規劃中術語及其關系的高級數據模型表示
圖5中的類圖將圖3所示的概念系統模型中確定的國防系統規劃要素與圖4中的能力模型類型結合起來。由于我們關注的是國防系統,國家權力和軍事力量的要素被認為是其環境的一部分,不在圖中。然而,我們建議,國家權力也可以通過效應來表示。
圖 5 基于能力的規劃元素的統一建模語言 (UML) 類圖表示