亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在軍事領域狂熱采用新興人工智能(AI)工具之際,公眾卻鮮少討論其潛在風險。盡管美軍投入巨資研發軍用生成式AI(GenAI)工具,但陸軍及聯合部隊至今仍未獲得可靠能力。當前正形成尷尬的AI軍備競賽態勢——技術專長主要集中于私營領域,但商用的"軍民兩用"開發模式無法滿足軍事需求。陸軍亟需以專業買家身份明確需求并主導AI話語權。2025年5月美國陸軍北方司令部(USARNORTH)兵棋推演證明,GenAI具備支持軍事規劃的潛力,但仍需采取區別于商業研發的獨特路徑。軍用GenAI的實際應用需實現三重突破:嚴苛的專項訓練;轉向強化而非替代人類決策的"行動方案主導"模式;通過混合AI模型等技術創新克服算力局限、地理空間理解及記憶存儲缺陷。

GenAI創新生態正在變革。陸軍數字與人工智能辦公室與"全球信息主導實驗"項目協同推進GenAI平臺開發,既激勵私營領域創新,又通過嚴格評估篩選軍用系統。2025年5月,陸軍戰爭學院聯合上述機構,在戰略領導力中心開展首次戰區級機密兵推,測試Scale AI研發的"多納萬"GenAI系統。為期五天的推演集結了北方司令部、陸軍北方司令部、海關與邊境保護局、聯邦調查局、網絡安全與基礎設施安全局及國土安全部逾70名專家。此次實驗驗證了維系陸軍認知優勢所需的產業合作模式。

歷時十個月籌備的推演在機密級互聯網協議路由器網絡集成Scale AI的Llama-3.3-70B-Instruct架構"多納萬"模型。陸軍戰爭學院的核心命題直指要害:GenAI系統能否增強參謀團隊作戰態勢理解力,優化其向戰區指揮官提交的戰役計劃建議?這在傳感器密集部署的戰場空間尤具現實意義。作戰節奏持續加速正壓縮戰略-戰役-戰術層級的決策空間,致使戰略決策往往蘊含戰術意義,反之亦然。雖然利用GenAI驅動人類認知超速運行頗具誘惑,但其可行性及加速認知可能引發的未知風險亟待驗證——此次推演正是為破解這些命題開辟通路。

GenAI在兵推中可扮演四重角色:(1)智囊顧問(認知支持);(2)想定設計(情境構建);(3)裁決系統(主客觀判定);(4)推演架構(流程搭建)。本次推演聚焦首項功能,研究如何運用GenAI增強戰略層級的人類智能。推演過程中雖發現測試其他功能的機遇,研究團隊仍克制地集中稀缺資源(僅有兩套"多納萬"授權)保障核心議程。部分情境顯示,想定開發測試機會反能強化顧問職能(雖未專門驗證,但GenAI在敘事構建與情境設計方面展現出卓越潛力,需深化研究以優化實踐)。

要全面檢驗GenAI在軍級以上梯隊的認知增強效能,理想方案應在相同想定下分設"配置AI"與"未配置AI"的參謀單元進行效果對比。但此次推演未能實施純粹A/B測試——戰略概念與條令司研究團隊在推演前六周才獲得"多納萬"授權。未來需在初始規劃階段即嵌入AI集成方案。

時間約束反而增強了推演真實性。真實的戰區陸軍司令部終日應對戰役行動,若GenAI無法無縫適配人類決策機制必將遭淘汰。因此本次推演中,演習控制組(EXCON)通過嵌入"藍軍"(推演方)戰役計劃組(OPT)來模擬USARNORTH參謀機構運作。當計劃組規劃行動、評估方案、擬訂參謀預判時,EXCON研究員同步向"多納萬"系統提交同類想定問題。EXCON研究員除作為編外參謀外并無預設議程,但其配備的快速分析機制可深度解析戰場態勢、軍事條令及現有作戰文件,從而為計劃組提供增強型態勢認知支持。在規范管理前提下,"多納萬"的響應本可激發深度研討或提升團隊整體態勢感知水平。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

烏克蘭"蛛網行動"運用集裝箱化無人機深入俄領土實施打擊,揭示了一種新型隱蔽戰爭模式。全球航運與港口基礎設施正面臨前所未有的安全風險——武器化集裝箱可能通過商業供應鏈隱蔽運輸而不被察覺。海運安全框架亟需通過投資先進探測技術及重新評估檢查規程來應對這一新興混合威脅。

付費5元查看完整內容

日益進化的隱形潛艇正推動海洋國家投資戰略無人反潛作戰(ASW)技術。傳感器技術、數字化、數據分析及機器學習的進步——通過整合多無人自主系統數據——正催生人工智能驅動的數字孿生體。這些孿生體基于陸海空天網多域數據,可為集中式指揮控制情報(CCCI)網絡提供增強型戰場態勢感知與認知智能,實現"精確探測能力"與"可靠威懾能力"的同步提升。

本文闡述數字孿生技術在細分領域發展現狀,重點探索認知數字孿生(CDTs)在戰略反潛作戰中的應用范疇,該領域涉及具備增強自主性、干預能力及集群協同的無人水面/水下生態系統。部署CDTs技術可通過彌補人類認知局限,在海軍作戰中發揮"戰力倍增器"效應,從而提升CCCI賦能的反潛作戰效能。

潛艇作為海軍戰役核心力量,憑借日益增強的巡航導彈與彈道導彈能力,在威懾行動、水下作戰及對陸攻擊任務中發揮關鍵作用。作為核三位一體體系中最具生存力的組成部分,海基核威懾力量促使全球大國將多數核彈頭部署于彈道導彈潛艇,確保可靠安全的二次打擊能力。即便在沖突爆發前,潛艇實施隱蔽力量投送的能力已構成戰略優勢。戰術潛艇還為常規遠程打擊行動提供防區外作戰能力,可運用于對陸攻擊任務。雖然潛艇在航速、續航力、靜音性及隱身性方面持續提升,但發展能瓦解敵方水下戰力的反潛武器與系統仍是必要前提。早期第一代反潛戰術嚴重依賴靜態防御手段(如水雷與鏈式防護網),第二代隨水聽器發明演進。1980年代后第三代反潛系統出現,典型代表為"拖曳式陣列監視系統"(SURTASS)——該系統通過艦船拖曳長距水聽器陣列,將聲學情報經衛星傳至地面站。當代反潛系統的情報監視偵察(ISR)能力由水面艦艇、飛機與潛艇組成的互聯網絡支撐。戰略無人反潛作戰預計將從平臺中心控制模式,轉向具備協同控制與認知能力的自主系統,實現持續海上監視、潛艇動向情報搜集、非對稱威脅應對及敵對潛艇壓制等效能。

盡管對敵潛艇的可靠探測、追蹤與情報收集仍是水下作戰核心任務,但六大挑戰制約著反潛行動效能:潛艇操作國激增(42個國家現役潛艇,主要受安全目標、威脅認知、區域態勢及大國戰略關系驅動),其中朝鮮、美國、中國、俄羅斯、日本、韓國與伊朗潛艇數量分別為71、67、59、49、22、19及17艘;此外還面臨靜音性能持續優化的潛艇、"不依賴空氣推進系統"(AIP)降低暴露率、具備終端毀傷力與防區外射程的先進潛射武器、以及溫躍層/環境噪聲等"海水復雜物理特性"遮蔽探測的難題。這些發展在增強潛艇進攻能力的同時,使反潛計劃制定與執行更趨復雜。因此現代反潛系統需具備探測隱形潛艇、隱蔽追蹤(不暴露己方位置)、安全通信及實施精準可靠打擊的能力。隨著傳感器技術、數字化、數據分析、無人系統、自主控制及機器學習的進步,本文探討認知數字孿生(CDTs)作為戰略CCCI網絡實時決策支持工具的適用范疇,以實現精確探測與戰略威懾效能。

圖1:潛艇和反潛戰技術的演變

付費5元查看完整內容

在俄羅斯烏克蘭戰場觀察到的無人機廣泛使用——無論是在部署機群的規模上,還是在交戰雙方作戰中的普遍存在性上——似乎都滿足了一場真正軍事革命的條件。“無人化”(Dronization)不能被簡化為純粹的技術革新或特定類別的裝備。它是一種變革性原則,可與上世紀(20世紀)的摩托化和機械化相提并論。它體現在無人機向消耗性、適應性工具的演變,“參與式戰爭”的出現,以及作戰樣式向“多火種、多領域”作戰的轉變。對于歐洲部隊模式而言,烏克蘭的例子應推動建立支持“無人化”所需的數字化、工業化和人力生態系統:構建統一的信息與決策支持系統,在武裝部隊內部培育“無人機文化”,并且短期內聚焦于“無人化”的“高端”領域——即遠程打擊能力。

“無人化”與21世紀“新軍隊”問題

呼應了二十世紀(20世紀)初的辯論,烏克蘭戰爭證明了戰場火力的復興以及新釋放力量的融合——當時由工業化推動,如今則由數字化驅動。這場變革的核心在于21世紀“新軍隊”的問題。要達成如此關鍵的轉折點,不僅需要在戰術領域——裝備和程序——而且更需要在組織層面,甚至更重要的是在認知結構層面——也就是戰爭本身的定義、勝利理論和戰略文化——實現發明與改革的協同效應。

無論是前線部隊因作戰緊迫性而觸發,還是由自上而下的指令發起,“軍事事務革命”(revolution in military affairs)迫使所有交戰方都必須適應,盡管它們的應對方式會因其偏好、對利害關系的理解以及可用資源的不同而有所差異。由于戰爭既是進行戰爭社會的反映,也是其表現形式,一場軍事革命必然預示或伴隨著生產方式、社會經濟秩序以及軍民動員機制的轉變。

“無人化”顯然符合這些條件。它不僅僅是一種技術演進,其影響也非僅僅是漸進式的或局限于特定類型武器。它代表著一個更廣泛的軍事轉型過程,類似于二十世紀的機械化和摩托化。它不僅影響作戰構想,也影響生成、構建和運用力量所需的組織。然而,迄今為止,相關辯論往往仍是碎片化的。在“陸-空瀕海”(Ground-Air Littoral)概念下,美軍正在分析戰術領域精確打擊范圍擴展和規模擴大所產生的影響。

他們的重點在于其制空權模式下,融合地面火力、空襲和電子戰所產生的摩擦。在學術界,討論的中心是信息時代中公民和軍事參與的新形式。據說這種范式正在助長一場由聯網個體直接資助和塑造防務努力的“眾籌戰爭”。在烏克蘭,活動人士和志愿者描述了一種“社會的技術軍事化”(technological militarization of societies),使他們能夠通過創新的力量抵消俄羅斯的數量優勢。這些討論突顯了一個共同現象的不同維度,盡管它們尚未真正相互交融,盡管一些研究正開始彌合差距。要點并非宣稱無人機是一種神奇武器,而是對其所引發的深刻變革進行綜合闡述。由此觀之,“無人化”似乎是數字化、網絡化和自動化的催化劑——這三種長期存在的趨勢,如今正滲透并重塑社會、經濟,以及必然的,戰爭藝術。因此,屬于中心集權動員機制和工業時代“宏技術”(macrotechnology)的典型產物——“發動機戰爭”——正被一場服務器和處理器戰爭所取代,這是全球化經濟的特征,但卻是個體化的,由信息的提取和應用所推動。

付費5元查看完整內容

美國政府問責辦公室(GAO)6月17日發布報告指出:盡管美國陸軍將防空反導系統升級置于快速開發軌道并投入數十億美元,但實際成效甚微。

報告《陸軍現代化:防空反導建設可借現代實踐獲益》稱:“美陸軍選擇加速采辦路徑和彈性協議類型來開發部署系統以滿足能力需求——并通過預算流程增列資金申請予以支持——但當前多數防空反導現代化項目尚未形成實戰能力。”

“陸軍正斥資數十億美元進行系統現代化改造以解決已識別的能力缺口,”報告強調,“然而,即使采用加速采辦路徑并增加資金投入,除‘反小型無人機系統’外,陸軍實際部署的能力仍極為有限。”

報告指出,近年來陸軍為應對潛在對手,重新聚焦防空反導系統升級。雖然相關行動始于俄烏沖突前,但這場戰爭突顯了無人機作為飛行彈藥的創新戰術與規模應用。

2021年陸軍為2021-2025財年防空反導系統申請約88億美元預算。至2025年,相關預算申請已增至118億美元——凈增30億美元。報告解釋該增幅源于“新增未出現在2021財年預算的系統,以及資金需求變化”。

報告顯示,自啟動防空反導現代化進程以來,美陸軍“已確立七項核心能力建設項目,并在總統預算提案中持續追加撥款”。這七大系統包括:

  • “一體化作戰指揮系統”:防空反導體系核心,實時分發傳感器數據
  • “機動近程防空系統”:防護地面部隊抵御無人機等空中威脅
  • “定向能機動近程防空系統”:研發車載激光武器
  • “間接火力防護能力二期”:保護補給站等固定設施
  • “間接火力防護能力高能激光/高功率微波系統”:定點防御空中威脅
  • “低層防空反導傳感器”:新一代雷達系統
  • “反小型無人機系統”

報告指出,在能力建設過程中,陸軍“未充分應用數字化工程(含數字孿生技術)等先進產品開發實踐”。領軍企業普遍采用“迭代式產品開發法”:通過“設計建模、仿真驗證與生產的閉環流程,快速交付用戶核心需求”。

七大項目中,“一體化作戰指揮系統”及“間接火力防護能力高能激光/高功率微波系統”應用了該模式,其余五項未采用。但報告強調:“無論開發模式如何,所有防空反導項目均未充分運用可加速進程的現代設計工具。”

其中六項采用了仿真與三維建模技術(基于預設數據的靜態模擬工具)。報告指出其固有局限:三維模型更新需人工介入,數字仿真受預設參數制約。報告建議采用工業界的“數字孿生”(具備實時更新能力的數字化身)與“數字線程”(全生命周期數據互聯)工具鏈。“應用數字孿生技術的企業,其設計迭代與產品交付效率顯著提升。”

調研發現七大項目中多數無應用數字孿生或數字線程的計劃。鑒此,問責辦公室提出六項建議:

  1. 開發“機動近程防空系統”4/5期及“間接火力防護能力”新型導彈時采用迭代開發法
  2. 評估四大項目應用軟硬件融合數字孿生技術的“可行性、效益與成本效益”:
    • 一體化作戰指揮系統
    • 機動近程防空系統1/2/3期
    • 間接火力防護能力系統
    • 低層防空反導傳感器

報告警示:“若不評估現代設計工具的可行性、效益及成本效益并在防空反導現代化中推廣,陸軍或將錯失快速形成戰力的機遇。”

報告建議

受影響機構 建議內容 狀態 說明
美陸軍部 陸軍部長應確保"機動近程防空系統"4/5期(含新型車載平臺)遵循迭代式產品開發方法。(建議1) 未解決 機構響應后將更新信息
美陸軍部 陸軍部長應確保"間接火力防護能力"新型導彈開發遵循迭代式產品開發方法。(建議2) 未解決 機構響應后將更新信息
美陸軍部 陸軍部長應確保"一體化作戰指揮系統"項目評估應用軟硬件融合數字孿生技術的可行性、效益及成本效益。(建議3) 未解決 機構響應后將更新信息
美陸軍部 陸軍部長應確保"機動近程防空系統"1/2/3期——即"斯特特中士"、定向能武器及下一代近程攔截彈——評估應用現代設計工具(含數字孿生與數字線程)的可行性、效益及成本效益。(建議4) 未解決 機構響應后將更新信息
美陸軍部 陸軍部長應確保"間接火力防護能力"全系統變體——含二期子系統、高能激光與高功率微波項目——評估應用現代設計工具(含數字孿生與數字線程)的可行性、效益及成本效益。(建議5) 未解決 機構響應后將更新信息
美陸軍部 陸軍部長應確保"低層防空反導傳感器"項目評估應用現代設計工具(含數字孿生與數字線程)的可行性、效益及成本效益。(建議6) 未解決 機構響應后將更新信息
付費5元查看完整內容

在軍事研發領域,美軍“聯合全域指揮控制系統(JADC2)”的“任務規劃與執行”需求明確,而利用AI輔助聯合規劃以處理數據支撐人類決策,是此類系統效能提升的核心。然而,還需設計“人類數據解讀機制”以優化協同任務的同步與執行。本研究旨在通過“緊急醫療服務場景”評估互依性任務管理候選方案。研究證實,采用“時間線顯示”界面處理“依賴關系問題”的準確率更高,僅在“狀態問題”類型上其精度未顯著優于其他顯示模式。這表明“時間線顯示”界面設計基于“基爾戈爾的時序區間邏輯關系可視化方法”具有顯著有效性。

團隊效能研究數十年來始終是軍事領域的核心議題。軍方資助或主導的研究揭示了團隊績效的本質特征,完善了績效測量與評估方法,并深化了對團隊構成與組建機制的理解。然而,近期技術進步與近鄰對手能力的躍升正顛覆作戰范式。未來戰爭中,“多梯隊殺傷鏈”——由分散式系統集群與操作員構成——將成為制勝關鍵。這一新范式為軍方帶來一系列獨特的協同挑戰。能否有效閉合對敵殺傷鏈并保持優勢,將完全取決于分布式多域團隊在“人-人”及“人-自主系統”協作、以及快速適應動態戰局方面的能力。

美國國防部計劃通過“聯合全域指揮控制(JADC2)”倡議應對軍事格局演變。JADC2是一項戰略作戰概念,旨在將陸軍、海軍、空軍、海軍陸戰隊及太空軍的傳感器、打擊單元與通信設備——最終包括盟國系統——整合為“網絡之網絡”。JADC2的成功高度依賴從多元數據源快速采集海量信息。盡管人工智能(AI)與機器學習(ML)可高效輔助數據處理與分析,人類仍是關鍵資產——尤其在數據解讀與分布式團隊跨域協同效應生成環節。《空軍條令文件3-99》(2021年)指出,“聯合全域作戰(CJADO)”的作戰效能需通過“動能與非動能能力在正確時空點的同步釋放”實現。例如,2023年“護身軍刀”演習中,參演部隊利用非動能效應在反介入/區域拒止環境中為動能打擊開辟時間窗口。為確保此類效應同步,《空軍條令文件3-99》強調每個分布式作戰單元必須理解總體計劃、自身角色及與其他單元的互依支持關系。本研究目標即開發可視化作戰單元互依關系的界面以促進效應同步。

基于前人關于互依性定義與可視化設計的研究,本文改造“智能多無人載具自適應協同/控制技術規劃平臺(IMPACT)”,使其展示任務時序與互依關系。IMPACT整合自主技術、直覺界面與決策支持工具,支持操作員在基地防御、應急響應等任務中指揮多作戰單元。其任務管理界面通過解析聊天文本數據識別任務指令,若判定與操作員相關,則將任務添加至任務管理器并附詳細參數與“快速反應清單”推薦行動。盡管前期研究已探討不同分布式團隊結構利用任務管理器執行聯合指令的效能,但未涉及任務時序與互依關系的表征。為填補此空白,本研究批判性評估現有設計并開發新界面,以可視化任務歸屬、互依性、時序及狀態信息。

任務管理設計方案

經研究確認,任務管理界面需呈現四大核心要素。首先為任務歸屬——明確團隊中任務責任人對協同至關重要,該信息應易于訪問。其次為時序數據,包括任務計劃啟動/結束時間及持續時間。在JADC2任務中,“任務機會窗口”亦屬關鍵,需確保任務在可接受風險或與階段性資源/預協調行動配合下完成,因此所有任務均納入“最早可啟動時間”與“最晚需完成時間”構成的窗口期。第三為任務依賴關系,其中“任務順序約束”是最基礎形式,需標識任務相對其他任務而非單純依時間執行的關聯性。識別出三類基本順序約束:1) 父任務啟動是子任務啟動的前提;2) 父任務完成是子任務完成的前提;3) 父任務完成是子任務啟動的前提。所有依賴關系均存在“父任務”與“子任務”,后者依賴于前者形成方向性關聯。最后為任務狀態,設計中包含“規劃中”“執行中”“已完成”三種狀態。此外,研究認定需考慮“警報機制”,其觸發邏輯基于任務窗口期與依賴關系,分為兩級警報:在JADC2等復雜環境中,若任務無法在窗口期內完成需調整,界面將觸發“紅色警報”;任何因依賴關系受該警報影響的任務則觸發“黃色警告”。這四大要素被融入現有及創新設計理念,產出兩組數據同源但設計異質的界面供實驗對比研究。

付費5元查看完整內容

盡管軍事革命相關論述或存過度炒作之嫌,但人工智能(AI)與自主技術改變戰爭形態的潛力正逐年增長。各國正部署可半自主導向目標的無人機,而AI正提升全球軍事目標鎖定流程效率。此類系統的風險真實且嚴峻——無論源自單體系統或系統集群,化解風險方能充分釋放技術潛能。國防部在載人系統安全研發部署方面經驗豐富,但AI與自主技術帶來新挑戰。作者前期報告曾探討AI與自主系統的新穎性,聚焦其對國防部門測試與評估(T&E)體系的持續及預期影響。AI單體系統特殊性構成挑戰,系統間交互亦然。本報告聚焦自主系統集群(無論是否AI驅動)引入的新漏洞(單體測試中或不存在)。自主平臺間沖突潛力顯著,其互操作性需求亟需跨軍種協同努力。鑒于美國與對手技術研發競速,當前正是為聯合部隊建立技術導向動態框架之機,確保美軍保持整體作戰能力。

建議

本研究結論適用于AI與自主系統全生命周期(含研發及測試評估):
? 研發階段:涉及系統設計與工程技術要素
? 測試評估:涵蓋虛擬/實裝測試的實踐與政策要素

實現系統間真正互操作性需從開發早期至維護階段的全鏈條參與(概念設計者、項目經理至工程師均需介入)。各軍種應任命或授權領導層確保AI與自主系統研發符合作戰概念中的互操作性要求。鑒于作戰概念預設系統在共享環境中的協同能力,領導層應避免研發孤島化,強化預期互操作系統項目間協作。

國防部門應探索制定確保系統互操作性的行為標準(匹配操作員訓練及戰術、技術、程序的標準化程度)。現行技術標準側重接口等要素(機器通信方式),自主系統需建立類人操作員規程的行為標準以實現協調。此類標準應超越通信協議等底層要求,涵蓋共享環境中的預期交互方式(如機動與火力沖突自動化解)。

測試主管部門應協同制定實施T&E政策以確保自主系統兼容性。各軍種需在系統研發早期關注互操作性問題(建立作戰概念中共現項目的關聯),而認證后續互操作性(如本框架所述)屬T&E部門職責。T&E部門應運用通用建模與仿真(M&S)工具強化互操作性(輔以實裝測試)。標準提供顯性互操作路徑,而無需直接協調的M&S資源共享可驅動系統兼容性研發。

付費5元查看完整內容

人工智能(AI)在塑造未來技術格局方面舉足輕重。多智能體強化學習(MARL)已成為一項重要的人工智能技術,可用于模擬各個領域的復雜動態,為高級戰略規劃和自主智能體之間的協調提供新的潛力。然而,由于缺乏可解釋性(可靠性、安全性、戰略驗證和人機交互的關鍵因素),它在敏感軍事環境中的實際應用受到限制。本文回顧了 MARL 在可解釋性方面的最新進展,并介紹了新的使用案例,強調了可解釋性對于研究智能體決策過程的不可或缺性。首先對現有技術進行了批判性評估,并將其與軍事戰略領域聯系起來,重點關注模擬空戰場景。然后,引入了新穎的信息論可解釋性描述符概念,以分析智能體的合作能力。通過研究,旨在強調精確理解人工智能決策的必要性,并使這些人工生成的戰術與人類的理解和戰略軍事理論相一致,從而提高人工智能系統的透明度和可靠性。通過闡明可解釋性在推進MARL用于作戰防御方面的至關重要性,該工作不僅支持了戰略規劃,還通過有見地和可理解的分析支持了對軍事人員的訓練。

作戰決策

深度 RL 涉及神經網絡在兵棋推演等復雜和真實世界環境中的決策。然而,由于難以解釋其結果,這些網絡經常被視為黑箱模型。可解釋強化學習(XRL)指的是解釋和理解強化學習模型決策過程的能力,讓人們深入了解在特定情況下采取某些行動的原因。XRL 面臨的挑戰包括與科學評估和操作可靠性相關的風險、缺乏普遍接受的評估指標,以及為復雜任務提供全面解釋的難度[3]。盡管存在這些挑戰,但在軍事行動中,采用有效的可解釋性方法來理解模型輸出對于診斷錯誤、提高模型性能和理解錯綜復雜的智能體行為尤為關鍵。這些方法在建立軍事人員之間的信任、確保安全關鍵任務的透明度以及促進遵守嚴格的操作和監管標準方面發揮著至關重要的作用。在復雜而敏感的軍事場景中,XRL 使指揮官和決策者能夠解釋和證明人工智能驅動的戰略和行動,從而做出更加明智和負責任的決策。此外,精確的可解釋性(即正確可靠的解釋)有助于更好地進行風險評估和管理,改善人類與智能體之間的協調,并支持將先進的人工智能系統集成到現有的軍事框架中,同時保持作戰的可靠性和有效性。空戰模擬涉及復雜的決策過程,智能體必須在瞬間做出決策以實現戰略目標。這些模擬通常涉及眾多因素,包括機動、瞄準、規避威脅、燃料管理以及與其他單元的協調。舉例來說,考慮以下場景:智能體檢測到敵軍導彈來襲。為了反擊,它迅速釋放照明彈并進行桶形翻滾,以迷惑導彈的熱傳感器并躲避敵方的瞄準。在這一場景中,對導彈的觀察是執行釋放照明彈和桶形翻滾動作的重要特征。

本文回顧了 MARL 在可解釋性方面的最新進展,并介紹了一些新穎的使用案例,這些案例突出了 MARL 在模擬空戰場景(圖 1-1)中分析智能體決策過程的關鍵作用。通過研究這些進展,我們強調了可解釋性在理解和改進智能體行為方面的重要性,尤其是在應用于軍事模擬等復雜環境時。我們的論文不僅僅是一份調查報告,它還探討了可解釋性如何加強戰略規劃、促進人類與人工智能的協作,以及確保人工智能在關鍵任務行動中做出的決策值得信賴。通過這些見解,我們旨在證明可解釋 MARL 在高風險場景的研究和實際部署中的緊迫性。

空中強化學習

目前有多種結合 RL 和 MARL 的方法,用于訓練空戰場景中的智能體。這些方法不僅限于戰斗機的狗斗機動,還包括無人機群(UAV)和不同類型的飛機(異構智能體)。

小規模交戰中的空戰通常側重于通過 RL 控制飛機,以便在幾乎沒有還擊風險的情況下獲得對對手有利的位置。早期控制飛機的方法包括專家系統或帶有學習分類器的混合系統,而較新的方法則依賴于 RL。為了學習更強的 CoA,使用 RL 方法的模擬空戰方法依賴于更先進的技術,如深度 Q 網絡(DQN)、深度確定性策略梯度(DDPG)、課程學習方法或包含自我博弈的方法,即智能體與自身的副本進行博弈。

另一方面,更大規模的交戰側重于高層次的戰術決策或武器-目標分配,即 CoA 的規劃。在這種情況下,考慮到維度過程,MARL 方法通過利用單個智能體內部的對稱性,尤其適用。在這一領域,有一些使用多智能體 DDPG、分層 RL 或基于注意力的神經網絡的先進方法。我們之前的一項工作包括一個具有注意力機制的分層 MARL 模型,該模型使用近端策略優化(PPO)進行訓練。在我們的工作中,我們還考慮了異構智能體,這在文獻中似乎很少見。加入異構智能體會增加協調的復雜性,因為智能體可能不了解彼此的技能和能力。

空戰可解釋性方法

現在回顧相關工作部分所回顧的 XRL 類別,隨后將它們與空戰場景的多智能體領域聯系起來,以強調理解人工智能戰術的益處和不可或缺性。前三種方法(策略簡化、獎勵分解和特征貢獻)屬于被動解釋類別。這類解釋側重于短時間范圍,根據即時行為提供反饋。例如,“飛機為什么發射導彈?”這樣的問題可以通過 “對手進入武器交戰區(WEZ)”這樣的即時激勵來回答。這些解釋往往側重于個人行為,而不是更廣泛的戰略考慮。相比之下,積極主動的解釋考慮的時間跨度更長,更適合解釋戰略決策。例如,它們可以解釋為什么在特定情況下,某些擁有特定技能的智能體被設置為防御模式,而其他智能體則采取攻擊性戰術。因果和層次 RL 模型可以提供這類解釋,為空戰中的長期戰略和協調演習提供見解。

  • 策略簡化

在深度 RL 中,神經網絡被用作函數近似器來學習決策函數,可以是策略,也可以是 Q 函數,在我們的分析中,我們側重于前者。策略簡化指的是降低策略的復雜性,使其可以被人類解釋的過程。具體做法包括:以決策樹的形式學習策略,跟蹤每個決策步驟;將學習到的策略作為 “if-then ”規則集(如模糊規則);使用狀態抽象法將相似的狀態分組,降低狀態空間的維度;或使用高級的、人類可讀的編程語言來表示學習到的策略。這些方法的主要優點是簡單易用,因為這有利于產生解釋并增強對系統的信任。在動態相對簡單、智能體較少的環境中,即使是在不可預見(和簡單)的空戰場景中,這些方法也能充分推廣和擴展,以提取有意義的解釋。然而,在任務目標眾多、智能體技能各異的更復雜環境中,這種方法可能就不適用了,因為解釋往往是靜態的。這種方法的主要缺點是模型性能與可解釋性之間的權衡:隨著可解釋性水平的提高,模型的準確性往往會降低。在模擬空戰場景中,逼真度對產生有價值的見解至關重要,因此保持模型的高準確性非常重要。這通常需要復雜的模型,涉及精密的神經網絡、廣泛的超參數調整、先進的訓練算法和高度動態的環境。雖然策略簡化會限制策略表示的類型,從而影響整體性能,但它可以作為一個實用、高效的起點。簡化后的策略可以有效訓練和解釋空戰智能體的基本控制動作,為未來的迭代打下基礎,從而隨著場景復雜度的增加,在可解釋性和準確性之間取得平衡。

付費5元查看完整內容

第五代 (5G) 技術的部署已被確定為包括軍事在內的各行業的關鍵戰略技術。美國防部(DOD)尤其強調了盡早采用 5G 技術以保持競爭優勢的重要性。然而,在戰術網絡中部署現成商用(COTS)5G 解決方案仍需進一步研究。戰術環境復雜多變,往往充滿敵意,給網絡通信帶來了獨特的挑戰。利用純軟件解決方案集成 5G 技術,實現戰術融合,可在成本、靈活性和可靠性方面帶來顯著優勢。本研究旨在收集和分析 5G 網絡實驗數據,以深入了解在戰術環境中部署和使用 5G 技術所面臨的挑戰和機遇。目標是推動開發更有效、更高效的網絡解決方案。這項研究揭示了顯式網絡切片的潛在性能權衡、5G 擴大頻譜接入的意義,以及 COTS 解決方案在加速戰術網絡開發方面的價值。提出的建議包括在實驗性戰術環境中全面實施網絡切片,以及探索用于資源優化和網絡防御的人工智能/ML 模型。

圖 1.1. 美通信陸戰隊員在加利福尼亞州 29 Palms 的一次野外訓練中安裝 COTS 解決方案。

論文闡述了戰術融合的復雜性及其與 5G 技術的融合,為現代國防通信的戰略需要指明了方向。

第 2 章 “背景和相關工作 ”首先簡要概述了 5G 的歷史,詳細介紹了支撐其徹底改變戰術通信潛力的關鍵技術創新。這一敘述不僅強調了 5G 的關鍵技術能力,還將討論置于相關著作的背景下,明確了本研究試圖解決的貢獻和差距。

第 3 章 “方法論 ”介紹了為探索 5G 的可擴展性及其增強美國海軍陸戰隊戰術網絡并與之整合的潛力而采用的研究方法。本章概述了實驗設計以及為評估 5G 在這些獨特環境中的實用性和有效性而制定的評估標準,為嚴格的實證調查奠定了基礎。在

第 4 章 “結果 ”介紹了實證研究的結果,詳細分析了 5G 網絡在戰術條件下的表現以及軟件解決方案在促進網絡整合方面的作用。分析的重點是評估戰術融合的可行性,利用數據為有關 5G 在支持戰術行動方面的適應性、復原力和作戰效能的討論提供信息。

最后,第 5 章 “結論與未來工作 ”對研究成果進行了總結,探討了在戰術網絡中采用戰術融合的戰略意義。它闡明了 5G 和戰術融合在增強未來國防通信系統方面的預期作用,同時也為進一步研究指明了道路。最后一章旨在總結本研究的見解,反思本研究對更廣泛的軍事通信技術討論的貢獻,并提出未來探索的途徑。

付費5元查看完整內容

隨著空軍從以反恐為重點調整為應對具有潛在生存后果的近鄰競爭,“一切照舊 ”的系統開發方法將不再適用:無法繼續在幾十年前開發的概念上循序漸進。相反,需要新的技術,為提供新的能力,以及運用這些能力的新的作戰概念。目前在信息科學領域,特別是在自主系統(AS)開發及其相關基礎技術--人工智能(AI)領域,存在著廣泛而深入的技術推動力。隨著新的人工智能算法和學習技術的開發和以新穎的方式加以應用,對認知和神經生理學的了解--大多數時候之所以 “聰明 ”的基礎--也在以令人目眩的速度增長,而構建自主系統(如自動駕駛汽車和游戲機器人)的能力也不斷成為頭版新聞。此外,隨著計算能力、內存、網絡和數據可用性的摩爾定律增長,底層計算基礎設施的爆炸性增長也加劇了這些進步。

在此的目標有兩個:為空軍高層領導提供自主系統潛力的愿景,以及自主系統如何在各級作戰中發揮變革性作用;為科技界提供一個總體框架和路線圖,以推動技術發展,同時支持其向現有和即將獲得的系統過渡。與其他人一樣,也認為使用這些系統將帶來可觀的回報,原因很簡單,這些自主系統的單項能力將為提供更大的使用自由度和新的作戰概念機會。但這只是一種傳統觀點。更深遠的潛在回報將來自于以信息為中心的發展和自主系統的激增,這樣,就可以拋棄傳統的以平臺為中心的思維方式,成為一個以服務為導向、無處不在的網絡化和信息密集型的企業。

本文方法是首先闡述在 AS “行為 ”方面的需求:也就是說,無論底層技術手段如何,這些系統在熟練程度、信任度和靈活性等關鍵維度上的行為結果是什么?然后,將重點關注有可能將致力于解決這一問題的多個不同群體聚集在一起的架構方法,然后討論可以將這些架構變為現實的使能技術。最后,提出了一些建議,這些建議不僅涉及技術問題,還涉及應該解決的問題集類型、解決這些問題所需的開發流程和組織結構,以及能夠實現所提出愿景的知識平臺的更廣泛結構。

建議涉及六個具體領域,概述如下。

R1. 行為目標

這些基本上是概括性的設計要求,規定了希望 AS 在熟練性、可信性和靈活性方面的行為方式。

  • 建議 1a: 自主系統(AS)的設計應確保其在特定環境、任務和隊友中的熟練操作。熟練性的理想屬性包括情境代理、自適應認知能力、允許多代理出現以及從經驗中學習的能力。

  • 建議 1b: 自主系統(AS)應確保由人類同行操作或與人類同行合作時的信任。理想的信任原則包括:認知一致和/或決策透明、情境感知、可實現自然的人-系統互動的設計以及有效的人-系統團隊合作和培訓能力。

  • 建議 1c:自主系統(AS)應以實現熟練程度和信任為目標,并能推動不同任務、同伴和認知方法之間的行為靈活性。人工智能系統所需的靈活性原則包括:能夠根據整體任務的要求和所面臨的情況改變其任務或目標。它應該能夠扮演下屬、同級或上級的角色,并與人類或組織內的其他自主系統一起改變這種角色。它還應能夠改變執行任務的方式,既能在短期內應對不斷變化的情況,也能在長期內積累經驗和學習。

R2. 架構和技術

這包括支持跨學科研究與開發的統一框架和架構,以及支持架構內預期功能所需的技術投資。

  • 建議 2a: 開發一個或多個通用的自主系統架構,以涵蓋目前在不同社區使用的多個框架。架構至少應提供 “端到端 ”功能,即為自主系統提供感知能力,使其能夠捕捉環境的關鍵方面;提供認知能力,使其能夠進行評估、制定計劃和作出決定,以實現預期目標;提供運動能力,使其能夠在需要時對環境采取行動。體系結構應具有功能結構,以實現可擴展性和可重用性,不對組件功能的符號處理或次符號處理做出承諾,包含記憶和學習功能,并根據需要支持人機交互。無論采用哪種形式,架構都應可根據分配的任務、參與的同伴關系和使用的認知方法進行擴展。衡量一個架構是否有用的一個關鍵標準是,它是否有能力彌合處理自主性問題的不同群體之間在概念和功能上的差距。

  • 建議 2b: 繼續開發在組件層面提供所需功能的使能技術。這不僅包括支持基本的 “看/想/做 ”功能的技術,還包括支持有效的人機交互界面 (HCI)、學習/適應和知識庫管理的技術,既包括通用技術,也包括特定領域的技術。技術開發的性質應從基礎研究、探索性開發到早期原型設計不等,這取決于具體技術的成熟程度及其設想的應用。

  • 建議 2c: 開發并推廣多層硬件和多層軟件架構,以支持自主系統的開發、驗證、運行和修改,其中每一層為給定的高層和低層功能提供不同硬件實現/主機的物理結構,每一層為類似功能提供不同的軟件實現。要充分利用新興技術趨勢,特別是商業領域的新興技術趨勢,可能需要各種復雜的架構模式。

R3. 挑戰問題

這里既涉及與領域無關的問題(或功能性問題),如動態重新規劃,也涉及與領域有關的問題(或面向任務的問題),如多域融合。

  • 建議 3a:通過一套范圍適當、規模適當、抽象化的面向功能的挑戰問題集,推動自主系統的基本行為、架構和功能開發,使科學與技術(S&T)界的不同成員能夠專注于自主系統行為的不同貢獻者。根據最初提名的架構和功能集選擇挑戰問題集,其方式應涵蓋架構所代表的全部功能(詳盡性),并盡量減少解決任何兩個挑戰問題所需的功能重疊(排他性)。

  • 建議 3b:選擇以任務為導向的挑戰問題,其兩個目標是:a) 解決當前或未來可能非常適合應用自主系統的業務差距;b) 挑戰科技界在自主系統功能的科學和工程方面取得重大進展。確保挑戰問題能夠在前面選定的架構和功能的范圍內得到解決,以確保獨立于領域的工作和獨立于領域的工作之間的一致性,避免 “一次性 ”應用工作最終對其他面向任務的問題集貢獻甚微。既要考慮 “部分 ”以任務為重點的挑戰問題,也要考慮 “端到端 ”的挑戰問題。最后,不要將科技資源用于解決在其他部門也有類似問題的作戰問題,除非空軍特有的屬性使問題非常獨特,無法以類似方式解決。

R4. 開發流程

這包括支持創新、快速原型設計和迭代需求開發的流程--與傳統的瀑布式流程(需求說明、里程碑滿足和最終狀態測試與評估(T&E))形成對比,以支持自主系統的快速開發和投入使用。

  • 建議 4a: 建立教育和實習人員管道,選派人員到空軍技術研究所參加自主性入門短期課程,重點是人工智能使能因素。然后,個人成員將被嵌入到以人工智能為重點的特別行動活動中:自主能力小組(ACT),學習如何將所學技能應用于滿足美國空軍的自主需求。在四年的時間里支持這項工作,使人工智能人員的數量比現在增加一個數量級。通過一系列特別激勵計劃確保留住人才。通過對關鍵的校外研究人員提供適當的長期支持來補充這支隊伍。

  • 建議 4b:采用三階段框架,反復選擇挑戰性問題,對潛在解決方案的影響進行建模,并進行解決方案開發、原型設計和評估。開展基于兵棋推演的初始階段評估,目標是確定關鍵挑戰問題和基于自主系統的解決方案,以應對這些威脅或利用潛在機遇。通過定量模型和模擬(M&S)以及性能參數對這些概念進行形式化,對有前途的自主系統候選方案進行更深入的評估。最后,重點設計一個或多個在 M&S 研究中確定的有前途的自主系統候選方案的工程原型。開發并實驗評估一個自主系統原型,該原型可作為:a) 購置的設計原型;b) 其他所需 S&T 的設計驅動力。

  • 建議 4c: 通過空軍首席數據官,獲取存儲美國空軍航空、航天和網絡數據的空間,以便人工智能專業人員能夠利用這些數據創建自主解決方案,解決面臨的挑戰。在相關組織中設立數據管理員角色,以管理數據,并為數據生產者和消費者創建簡化的訪問和檢索方法。

  • 建議 4d: 支持向基于云的計算發展,同時利用量子計算這一通用計算范式,滿足嵌入式和高性能計算處理需求。

R5. 組織結構

這包括圍繞項目(或成果)重點進行組織,而不是按照傳統的技術專業領域進行組織。

  • 建議 5:在空軍研究實驗室(AFRL)內建立 ACT,采用 “扁平化 ”業務模式,將 6.1-6.4 領域的專家集中到一個以產品為中心的組織中,開發自主系統科學,同時為作戰人員提供能力。與空軍科學研究辦公室和 AFRL 其他主要技術局合作,并與 AFRL 以外的美國空軍組織協調,包括國防部自主利益共同體 (COI)、AFWERX 和其他可促進技術向作戰人員過渡的辦公室。在 “ACT ”中,根據類似 “臭鼬工廠 ”的一套 “指導規則”,納入以產品為中心的業務流程,促進未來空軍向以信息為中心的業務平臺模式轉變。

R6. 知識平臺

這為提供了一種整合自主系統行為原則、架構/技術、挑戰問題、發展過程和組織結構的整體手段。

  • 建議 6:開發一個知識平臺(KP),其核心是將信息技術(IT)平臺方法與平臺業務模式相結合。為多域作戰空軍設計的知識平臺應壟斷觀察代理與知識創建代理以及與作戰效果代理之間的聯系,這些代理可以是人或基于自主系統(AS)。知識創造代理提供了創造能力所需的生態系統,而這些能力則用于創造作戰效果。這個生態系統將通過以下方式實現:利用自主性的三個行為原則;實現這些行為的架構和技術;驅動挑戰的問題;跨越人員、架構/應用、數據和計算基礎設施的開發流程;以及最后,為推進技術、利用技術和提供能力而需要建立的組織結構。這種方法將為提供一種手段,使美國空軍從解決少數問題的傳統工具方法過渡到適用于更多問題的知識平臺方法。

總結

總之,對自主系統開發和應用的建議包括

  • 這些系統要想精通業務、得到人類同行的信任并靈活應對意外情況,就必須具備的行為方式

  • 需要統一的框架、架構和技術,以便不僅跨越孤立的科技界,而且跨越操作上的隔閡和領域

  • 挑戰科技界所需的重點難點問題,包括基礎性問題和操作性問題,同時提供遠遠超出傳統的以平臺為中心的現代化方法的操作優勢

  • 處理人員、系統、數據和計算基礎設施的新流程,這些流程將加速創新、快速原型設計、實驗和實地應用

  • 新的組織結構--自主系統能力團隊,將技術專業匯集到一個單一的組織中,專注于創新產品開發,并根據需要向其他組織和社區拓展

  • 知識平臺,全面整合自主系統的行為原則、架構/技術、挑戰問題、開發流程和組織結構

AFRL,特別是 ACT,不能簡單地將其注意力局限于自主系統的研究領域,也不能簡單地延續在一次性演示中應用現代人工智能和 AS 技術來逐步提高任務能力的模式。必須選擇挑戰性問題來推進知識平臺的能力,以敏捷的方式在變革性應用中提供表現出熟練、可信和靈活行為的自主系統。除了以項目為中心的工作外,ACT 還可以優先考慮和協調 AFRL 的整個自主系統科技組合--使各項工作同步進行,以最大限度地提高投資效果--及時、大規模地將 AS 能力用于應對任務挑戰,同時在各科技局之間 “共享 ”新架構、技術和流程的 “財富”。最后,一旦取得成功,ACT 可以作為一個 “存在證明”,證明美國空軍后勤部如何從其傳統的以學科為中心的組織轉變為一個更加跨學科和以項目為導向的組織,解決美國空軍整個企業的變革性問題。

擁有一個獨特的機會,將空軍從一個以空中平臺為中心的部門(空間和網絡往往處于次要地位)轉變為一個真正以多領域和知識為中心的組織。通過知識平臺向作戰人員提供自主系統,空中、太空和網絡的每項任務都將得到改進,而且不僅是逐步改進,而是成倍地改進。將成為一個以服務為導向、無處不在的網絡化和信息密集型企業。簡而言之:

一個靈活的、以信息為中心的體系,通過無障礙地訪問極其有效的外圍設備,及時做出決策。

付費5元查看完整內容

大型語言模型(LLM)被譽為人工智能領域的重大突破。LLMs 處理和生成文本的能力通常與人類認知水平相當,因此對于包括國防在內的所有領域都具有巨大的應用潛力。與此同時,這項新技術在穩健性和可靠性方面也存在許多未決問題,任何希望利用 LLMs 的組織都面臨著巨大的技術挑戰。本報告旨在展示如何訓練 LLM,使其適應國防領域,并評估此類項目是否值得投入。為此,本文創建了一個基于國防領域瑞典語和英語文本的數據集,并用來訓練(微調)兩個最先進的LLM。然后對模型進行定性和定量評估。結果表明, 訓練后的LLM在與國防有關的文本任務中表現出更高的性能。本文詳細描述了訓練過程,可以為有興趣開展類似項目的讀者提供指導。訓練中的障礙主要與資源限制有關,如硬件、數據和時間,這些限制難以克服,但至少人們對它們有了相對充分的了解。對 LLM 的評估卻并非如此:模型具有令人驚訝的能力,但也可能以令人驚訝的方式失敗。報告對 LLM 的不同方面進行測試來評估其能力和失敗原因,但只能觸及表面。總之,大型語言模型已經發展到一個階段,國防利益相關者可以,也應該開始調整和測試該技術。本報告提供了對陷阱、解決方案和經驗教訓的見解,對此有所幫助。與此同時,建議對大型語言模型采取冷靜的態度,因為對此類模型的評估仍應被視為一個未決問題。

關鍵詞:人工智能、大型語言模型、微調、參數高效微調、低階自適應(LoRA)

人工智能(AI)是計算機科學的一個分支,其研究對象是開發能夠解決通常需要人類認知的問題的機器。其中一個挑戰就是處理人類語言,即讓計算機能夠理解文本輸入并做出有說服力的回應。對人類來說,這個簡單得令人難以置信的問題可能顯得微不足道,而且人們最初認為其很容易通過算法解決。20 世紀 50 年代,隨著科學家們開始認識到這項任務的復雜性,早期的機器翻譯嘗試很快就碰壁了。傳統上,計算語言學(CL)試圖通過研究支配人類語言的規則,并以適合計算機的方式將其形式化來解決這一問題。另一方面,自然語言處理(NLP)則采取了更加務實的方法,通常是統計方法,其重點是開發能夠實際執行某些語言任務的系統,即使范圍有限。實際上,幾十年來,這兩個領域之間的區別已經變得相當模糊,但在很長一段時間里,共同的目標仍然難以實現。

然而,近年來,深度學習(DL)的興起加速了人工智能領域許多挑戰難題的突破性進展,包括語言。硬件的增強和數字數據集的不斷擴大,使得在數百萬文本上訓練擁有數十億參數的深度神經網絡成為可能。深度神經網絡可以學習詞語在上下文中出現的概率,從而建立大型自然語言統計模型。大型語言模型(LLM)就能夠處理文本輸入,并生成新的文本,而這些文本似乎可以與人類的理解和書寫相媲美。OpenAI 的 ChatGPT 等功能強大的 LLM 引起了媒體和公眾的廣泛關注,既有贊譽也有擔憂,認為這是人工智能的重大突破,但其后果尚不清楚。然而,在撰寫本文時,LLMs 的應用仍處于探索階段,迄今為止主要以聊天機器人或辦公軟件中的文本助手的形式出現。此外,軍事應用的潛力仍然難以估計。LLM 可以服務于國防和情報的所有領域,例如,作為用戶界面的一部分、信息融合器、文檔輔助工具,以及通過建議和解釋行動方案的系統進行決策。

LLM 可以產生令人印象深刻的結果,但也可能以令人驚訝的方式失敗。人們對 LLM 的能力、局限性和可靠性還不甚了解,而且隨著開發的進展,LLM 也會迅速發生變化。采用 LLM 的另一個障礙是訓練和運行 LLM 所需的成本。最強大的 LLM 是在大型超級計算機上創建的,這對許多國家行為者來說也是遙不可及的。其中一些 LLM 只能以在線服務的形式訪問,在外國領土上的商業服務器上運行,因此當安全問題至關重要時,使用這些 LLM 是值得懷疑的。還有一些可以在本地獲得和運行,也有可能對其進行進一步訓練,使其適應特定任務(微調),但最初的創建仍依賴于少數擁有充足資源的組織。這也意味著,初始訓練語料庫的文本選擇超出了大多數 LLM 用戶的控制范圍,影響了文本在主題和質量方面的平衡,限制了所支持的語言,而且如果 LLM 原始創建者沒有確保其對所有訓練文本的使用都在知識產權范圍內,則有可能產生法律后果。

目前,有關 LLM 的情況既樂觀又不確定。一方面,LLM 可能即將徹底改變無數人類認知被認為是必要條件的過程,無論是在民用領域還是軍事領域。另一方面,LLM的可靠性尚不明確,各組織有可能被突破性技術的熱情所沖昏頭腦,將 LLM強加到它們(尚)不適合的應用中。 本報告介紹了如何謹慎地將 LLM 用于與國防相關的目的。詳細介紹了幾種現代 LLM 的訓練過程。然后對 LLM 的魯棒性和輸出質量進行了評估。國防領域涵蓋了廣泛而多樣的主題,而 LLM 在某一主題上的性能取決于是否準備了大量具有高質量和相關性文本的訓練語料庫。因此,由于資源有限,本報告縮小了訓練領域的范圍,將重點放在旨在為安全政策分析人員提供支持的 LLM 示例上。

1.1 目標和范圍

本報告的重點是旨在為安全政策國防領域內的分析人員提供支持性LLM。LLM需要對文本進行總結,回答與安全政策相關的問題,并根據給定的關鍵短語列表編寫文本。類似的任務在其他領域也同樣適用,因此,僅限于安全政策領域并不意味著按照類似思路訓練的 LLM 可用于其他領域。此外,訓練和實施的基本原則也適用于其他主題和更廣泛的范圍。

本報告的目的是探討在國防背景下部署和運行 LLM 所面臨的技術挑戰,以訓練 LLM 為安全政策分析員提供支持為例進行說明,并評估有效性。具體方法如下:

1.針對國防領域的應用訓練(微調)LLM,包括準備訓練數據、選擇基礎模型、設置訓練環境和訓練過程;

2.評估經過訓練的 LLM 的性能,包括根據不同指標得出的輸出文本的質量、模型對提示變化和其他因素的敏感性,以及微調成本是否被基礎模型的顯著改進所抵消。

本報告的重點是 LLM 技術的核心問題,即模型本身、模型的訓練和模型的能力。因此,本報告將不對特定應用的實現進行研究,例如如何在 RAG 系統(檢索增強生成)中利用 LLM,即從數據庫中檢索外部知識并將其插入提示中,從而使 LLM 能夠解決需要當前信息的查詢問題。雖然這種方法和其他方法是使用 LLM有前途的方法,但它們確實增加了自己的研究問題。此外,任何使用 LLM的方法都得益于對模型的良好訓練和理解,因此超出這些核心基本問題的研究將不在本報告的討論范圍之內。

另一個僅涉及的問題是提示工程。LLM 對提問的措辭很敏感,如果重新表述提問,有時會提供更有用的響應。甚至有人觀察到,通過添加鼓勵性詞語(例如“你是一個聰明的模型,請認真思考下面的問題......”)可以提高性能。這推動了直觀優化提示的大量嘗試。

然而,添加任何直觀提示都會減少適合 LLM 有限輸入窗口的實際提問詞的數量。此外,提示工程的好處并不一致,這些方法有時實際上會降低性能。轉述和修改的組合空間實際上是無限的,而且越來越多的證據表明,最佳提示可能根本不直觀,因此不可能由人類提示工程師來制定。鑒于提示工程目前的不確定狀態,在撰寫本文時還無法提出任何可靠的建議,因此該主題主要歸于未來的工作。

1.2 目標讀者

本報告面向國防部門中希望在軍事或情報應用中調整和部署大型語言模型的人員。這既包括評估大型語言模型是否適合預期應用的決策者,也包括訓練和實施基于大型語言模型的解決方案的技術團隊。

1.3 閱讀說明

一般來說,本報告的寫作水平應該是任何對人工智能和大型語言模型感興趣的讀者都能讀懂的。報告偶爾會深入探討一些細節,但喜歡跳讀的讀者應該不難理解報告的整體內容。如果讀者希望進一步了解使用深度神經網絡進行自然語言處理的理論背景,建議閱讀《使用深度神經網絡進行自然語言處理》(Natural Language Processing Using Deep Neural Networks)報告中的第 3 章。

1.4 提綱

第 2 章介紹了本報告的理論背景。介紹了大型語言模型這一技術最重要的概念和原理。此外,讀者還將了解本報告將使用的具體訓練優化方法,包括其背景。最后,本節介紹了如何評估處理和生成自然語言的系統這一長期挑戰。評估必須被視為一個開放性的研究問題,相關問題在大型語言模型時代仍然具有現實意義,并影響著本報告中的評估嘗試。

第 3 章介紹了第一個目標:創建國防領域大型語言模型。該章分步描述了選擇合適的基礎大型語言模型、準備合適的訓練數據和訓練模型的過程。因此,本章也可為希望開展類似項目的讀者提供指導。 第 4 章是第二個目標:使用各種定量和定性方法和指標對訓練好的大型語言模型進行評估。前面提到的這一領域的挑戰意味著本節只是對解決這一問題的廣泛嘗試的一個介紹,詳盡的大規模評估將留待今后的工作中進行。

第 5 章討論了評估結果,以及在國防背景下使用大型語言模型的更廣泛影響,包括見解和經驗教訓。 最后,第 6 章總結了評估結果,并對今后可能開展的工作進行了簡要展望。

付費5元查看完整內容
北京阿比特科技有限公司