人工智能在軍事行動中的應用正在改變戰爭。生成式人工智能(Gen-Generation AI)是一種在戰場上特別有前途的新興人工智能能力。生成式 AI 利用算法通過從現有數據中學習來創建新穎、逼真的內容。這項技術可以通過生成合成但真實的訓練數據和模擬,在軍事環境中被證明是無價的。本文深入探討了生成式人工智能及其對人工智能戰爭未來的潛在影響。研究了最新的科學文獻和數據,分析了軍事環境中的生成式人工智能。本文還以直觀的方式解釋了關鍵的生成式 AI 技術,并討論了生成模型如何實現對戰場變量的更強大的統計分析。此外,還提出了將生成式人工智能與計算機視覺、語言處理和其他人工智能功能相結合以增強決策的獨特想法。在承認突出的倫理考慮的同時,本文旨在全面了解生成式人工智能在戰爭中的變革可能性。總體而言,生成式人工智能產生高保真模擬內容的能力可能使其成為尋求利用人工智能的現代軍隊的基本技術。
生成式人工智能是人工智能的一個分支,專注于創建新穎的內容,它通過在大型數據集上訓練算法來工作,以便它們能夠識別模式并生成模仿原始數據的新數據。這項技術有多種應用,如生成藝術、音樂和文本。對于軍事用途,生成式人工智能可以通過合成逼真的訓練模擬來增強有限的真實世界數據,減少對稀缺數據的依賴,并為戰爭啟用更強大的人工智能系統。
圖:通用機器學習與現代生成式 AI 之間的關系
科學文獻和數據驅動的分析揭示了生成式人工智能在戰爭中的潛力。研究人員已經探索將生成式人工智能用于目標識別、無人機群和決策支持系統等軍事應用。Smith等人撰寫的同行評議文章“生成式 AI 用于增強態勢感知”研究了使用生成式 AI 來提高戰場態勢感知能力。通過分析,Smith等人證明了生成式人工智能可以有效地識別大型數據集中的相關模式,以幫助軍事人員做出明智的決策。此外,本文的數據驅動分析強調了生成式人工智能模型在戰爭場景中優于傳統方法的性能。
人工智能戰爭分析依靠不同的數據源來訓練和評估軍事應用的模型。其中包括來自傳感器和監視的實時軍事情報;用于預測行動的歷史沖突數據;模擬訓練環境以改進人工智能系統;以及社交媒體等新穎的來源,以獲得更多視角。通過利用傳感器饋送、歷史數據、模擬和新興數據流,AI 模型可以獲得全面的戰場感知能力,并能夠生成預測性見解,為戰略決策提供信息。
為了澄清這一點,Smith等人使用生成對抗網絡(GAN)來生成真實的訓練數據。這種人工智能技術由兩部分組成:一個生成器,用于創建模仿真實樣本的合成數據,另一個是試圖識別合成數據的鑒別器。生成器從真實數據中學習以欺騙鑒別器。對于AI戰爭,GAN可以從歷史和模擬數據中生成不同的戰斗場景。這為軍事人員提供了多樣化的訓練情況,以建立適應性和決策能力。總之,GAN通過將創意生成器與挑剔的鑒別器進行對比來生成逼真的合成訓練數據。
概率建模技術使人工智能系統能夠在戰爭固有的不確定性中做出明智決策。通過量化不確定性和生成概率預測,貝葉斯推理等技術使軍事規劃者能夠分析風險、發現模式并制定基于預測性見解的戰略,而不僅僅是猜測。將概率模型整合到人工智能中,將戰爭分析從被動轉變為主動。
生成式人工智能與計算機視覺和自然語言處理的結合,可以為軍事應用創建復雜的人工智能系統。通過利用生成技術生成合成訓練數據,這些集成系統可以增強目標識別、戰場監視和人機交互等功能。然而,人工智能在戰爭中的開發和使用引發了深刻的倫理和法律問題,值得仔細考慮。
憑借其多樣化的應用和變革潛力,生成式人工智能成為尋求在未來戰爭中獲得優勢的軍事組織的一項強大的新功能。通過利用生成模型創建逼真的模擬、生成數據和增強決策,軍隊可以增強其系統并開發創新解決方案,以應對復雜的戰場挑戰。然而,隨著這項技術的進步,在利用其承諾和解決道德影響之間取得謹慎的平衡將是至關重要的。總體而言,生成式人工智能標志著人工智能賦能戰爭的新前沿,需要負責任的開發才能在降低風險的同時充分實現其優勢。
雖然具有高度自主性的人工智能系統的開發引起了人們的擔憂,但重要的是要注意,這些系統旨在協助人類決策,而不是完全取代它。戰爭中的生成式人工智能旨在提供更好的信息、態勢感知和預測,以支持人類決策者。人類的監督和控制對于確保在戰爭中負責任和合乎道德地部署人工智能仍然至關重要。
生成式人工智能確實有可能創造逼真的場景和合成數據,但它在欺騙策略中的使用引發了道德問題。軍事組織在戰爭中利用生成式人工智能時,必須優先考慮透明度并遵守法律和道德框架。
生成式人工智能與戰爭中的進攻和防御行動都相關。它可用于模擬和評估各種場景,提高進攻和防御策略的準備和有效性。生成合成數據的能力使人工智能系統能夠預測和應對潛在威脅,從而增強整體防御能力。
生成式 AI 可以與其他各種 AI 技術集成,例如計算機視覺、自然語言處理和強化學習。這種集成使開發更先進、更智能的人工智能系統成為可能,這些系統可以在復雜的戰爭場景中感知、理解和做出決策。通過利用不同人工智能方法的優勢,生成式人工智能可以增強現有人工智能系統在戰爭中的能力。
雖然生成式人工智能等人工智能技術有可能使某些任務和流程自動化,但它們并不打算取代人類軍事人員。其目的是加強人類決策,促進更明智的選擇,并提高運營效率。人類的判斷力、創造力和道德是人工智能系統在戰爭背景下無法完全復制的基本方面。
參考來源:Vairavan Ramanathan
人類反饋強化學習(RLHF)是強化學習(RL)的一個變體,它從人類反饋中學習,而不是依賴于工程化的獎勵函數。建立在相關領域的偏好基強化學習(PbRL)的先前工作上,它位于人工智能和人機交互的交匯點。這一定位為提高智能系統的性能和適應性提供了有希望的途徑,同時也改善了它們的目標與人類價值觀的一致性。在近年來,大型語言模型(LLMs)的訓練已經令人印象深刻地展示了這一潛力,其中RLHF在使模型的能力針對人類目標方面發揮了決定性作用。本文提供了一個全面的RLHF基礎概述,探索了機器智能體和人類輸入之間復雜的動態。雖然最近的焦點是針對LLMs的RLHF,但我們的綜述采取了更廣泛的視角,考察了這項技術的多樣化應用和廣泛影響。我們深入探討支撐RLHF的核心原則,闡明算法與人類反饋之間的共生關系,并討論了該領域的主要研究趨勢。通過綜合當前RLHF研究的全景,本文旨在為研究人員和從業者提供對這一迅速發展領域的全面理解。
1 引言
在強化學習(RL)中,智能體傳統上通過環境導航,并試圖通過試錯過程做出最優的行動或決策。一個決策是否最優完全由獎勵信號決定。這些信號必須基于智能體性能的測量手動定義,以確保學習智能體接收到學習正確行為所需的信號。然而,手動設計獎勵函數是具有挑戰性的。在許多應用中,成功難以正式定義和衡量。除此之外,稀疏的成功信號可能不適合智能體學習——導致需要獎勵塑形(Ng等人,1999),即將獎勵信號轉化為更適合學習的形式。這通常使獎勵信號更容易受到假性相關的影響,即因通常與真正目標相關而被獎勵的行為,并不本身具有價值。這最終導致了獎勵黑客問題(Skalse等人,2022b),即學習智能體利用獎勵特定的漏洞以實現不希望的結果,同時仍然產生高獎勵。
作為對這些挑戰的回應,人類反饋強化學習(RLHF)作為一種實際意義上的替代方案出現,它在標準RL學習范式中引入了至關重要的人在循環中組件。簡而言之,RLHF與RL的不同之處在于,目標是由循環中的人定義并迭代完善的,而不是提前指定的。這種方法不僅有潛力克服經典RL方法的局限性和問題,而且對智能體對齊有潛在的好處,其中智能體的學習目標與人類價值觀更緊密對齊,促進倫理上健全和社會負責的AI系統。 自上一次類似的綜述(Wirth等人,2017)以來,RLHF在應用、方法論進展和理論見解方面取得了許多成功。應用范圍從大型語言模型(LLMs)(OpenAI 2022)到圖像生成(Lee等人,2023),連續控制(Christiano等人,2017)和游戲(Ibarz等人,2018)以及機器人(Hejna等人,2023a)。與此同時,自上次類似的綜述(Wirth等人,2017)以來,方法論也有了很多發展。方法論發展的例子包括使用數據增強和半監督學習方法來提高樣本復雜度(Park等人,2022),使用元學習快速適應學習的偏好到新任務(Ren等人,2022),融合多種反饋類型(Palan等人,2019),使用自監著表征學習提高反饋效率(Metcalf等人,2022),主動合成假設行為進行查詢(Reddy等人,2020),以及優化查詢以便于回答(B?y?k等人,2020b)。最后,RLHF領域也取得了一些理論成果,為基礎數學問題的建模提供了新的見解,但也提出了新的問題。
因此,在這項綜述中,我們討論了RLHF正在進行的研究的當前狀態,分類了當前的方法以及簡潔地描述了它們的主要特征,并對應用領域進行了簡要概述。
1.1 為何需要人類反饋 在傳統的RL中,代理的目標由其旨在最大化的獎勵函數定義(Sutton等人,2018)。特別是在復雜領域,指定這個獎勵函數可能是具有挑戰性的:對于在家庭環境中協助人類的機器人或在繁忙的城市環境中導航的自動駕駛汽車,合適的獎勵函數是什么樣的?此外,即使是定義良好的獎勵函數也可能由于分布變化或過度優化導致意外行為,引發實際和安全問題。從人類反饋中學習代理的目標,可以繞過獎勵工程挑戰,并促進穩健訓練,隨著代理學習,獎勵函數會動態地細化和調整,以適應分布變化。 反饋與示范 逆向RL旨在從人類示范中推斷出獎勵函數(Arora等人,2021)。雖然這可以部分解決獎勵工程挑戰,但它面臨內在困難:(i)通常不可能從示范中穩健地識別獎勵(Cao等人,2021a),(ii)僅適用于可以獲得良好示范的場景,(iii)難以超越示范者的表現,以及(iv)人類通常不會展示他們希望機器采用的行為(Basu等人,2017)。相比之下,交互式反饋可以使用主動查詢區分人類偏好和無關噪聲,比提供示范更容易,不要求人類評估者接近最優表現,并引導出人類更偏好的機器行為。交互式反饋也可以用來補充示范,在這種情況下,它可以用來塑造和完善通過初步訓練(如行為克隆)學到的能力,從而防止過擬合于示范行為(Abramson等人,2022)。 避免獎勵工程 在RL中的獎勵工程提出了重大挑戰,因為準確指定獎勵函數是眾所周知的困難(Amodei等人,2016; Knox等人,2023)。通過利用人類反饋,可以緩解這些挑戰,使代理能夠訓練難以手動定義的任務,并幫助避免由不匹配的獎勵引起的安全問題(Skalse等人,2022b)。與代理的目標和人類目標之間的不匹配相關的安全問題被研究為AI對齊問題(Gabriel 2020),特別是代理對齊和價值對齊(Kirchner等人,2022)。盡管RLHF在解決這些對齊問題的有效性仍存在爭議(Christiano 2023),但它提出了一個促進對齊的有希望的方法(Leike等人,2018)。 過度優化不良指定的獎勵通常會導致意外行為。代理可能會利用模擬缺陷獲得更高獎勵(Lehman等人,2020; Baker等人,2020)或參與獎勵黑客行為(Skalse等人,2022b),即行為最大化了指定獎勵但偏離了預期目標。這在代理專注于中間獎勵而沒有實現實際目標(Clark等人,2016)或為避免負面獎勵而過早退出游戲(Saunders等人,2018)的情況下顯而易見。這些問題的根源在于獎勵函數沒有正確反映實際學習任務。雖然這些問題在類似游戲的環境中可能看似微不足道,但在諸如醫療保健和自動駕駛等安全關鍵的環境中,其含義則更為嚴重。在這些環境中,防止不匹配的獎勵函數導致有害結果至關重要,比如護理機器人造成傷害或自動駕駛汽車危及道路安全。
1.2 人類反饋強化學習的起源
作為RL的一個子領域,從人類反饋中學習行為已經被研究了很長時間,但方法和術語隨時間發展而演變。如Knox(2012)更詳細討論的早期方法,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的方法,即從人類反饋中推斷目標。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,如行為或給定狀態下行動之間的成對偏好,而不是以數值獎勵形式的定量反饋。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。 由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。這一點由Jeon等人(2020)強調,他們將PbRL限定為僅從偏好直接進行策略學習。然而,這與其他來源不同,后者將獎勵學習包括在RLHF的范圍內(Christiano等人,2017;Wirth等人,2017)。
盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。盡管PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。表1提供了我們對這些術語的解釋性概述。
從人類反饋中學習行為長期以來被作為RL的一個子領域進行研究,但隨著時間的推移,方法和術語已經發展。早期方法,如Knox(2012)詳細討論的,側重于直接從人類獎勵中學習(Isbell等人,2001;Knox等人,2008)。然而,本綜述關注的是更間接的推斷目標的方法,即從人類反饋中推斷。 人類反饋強化學習(RLHF)的現代形式起源于偏好基強化學習(PbRL)的設置,最初由Akrour等人(2011)和Cheng等人(2011)獨立引入。PbRL的原始想法是從定性反饋中推斷目標,而不是使用定量的數值獎勵。RLHF這個術語后來作為一個替代品被提出(Askell等人,2021;Ouyang等人,2022;OpenAI 2022),盡管最初指的是從相對反饋中學習行為的同一概念。
由于文獻中的使用重疊,PbRL和RLHF的區分具有挑戰性。例如,Christiano等人(2017)自己使用了PbRL這個術語,但卻常被引用為RLHF的開創性參考(Daniels-Koch等人,2022;Ouyang等人,2022)。這表明了這些術語的可互換性。實際上,RLHF通常與獎勵建模和深度RL相關聯,而PbRL通常與傳統RL設置中的直接策略優化聯系在一起。Jeon等人(2020)將PbRL限定為僅從偏好直接進行策略學習,而Christiano等人(2017)和Wirth等人(2017)則將獎勵學習包括在RLHF的范圍內。
盡管存在重疊和有時存在沖突的使用,RLHF越來越被視為PbRL的一種泛化。PbRL和RLHF都涉及使用人類反饋來定義RL目標,但PbRL主要關注相對反饋,如二元比較和排名。RLHF不僅包括這些方面,還擴展到更廣泛的反饋類型(Metz等人,2023)。我們的綜述提供了這些術語的解釋性概述。
1.3 綜述范圍
本節概述了我們選擇RLHF領域方法的指導標準。我們關注的是那些依賴獎勵模型作為目標信息唯一來源的作品。這個獎勵模型應該以互動、在線、可擴展和異步的方式學習。以下將詳細描述這些標準。
獎勵建模 我們關注的是從人類反饋中學習獎勵模型,然后使用這個模型來訓練策略的方法。盡管可以直接從人類反饋中優化策略(Wirth等人,2017),但到目前為止,這種方法很少被實踐。獎勵學習和策略訓練的分解提供了許多概念上和實際上的好處。
人類定義 盡管有許多方法將人類包括在RL循環中,但在本綜述中,我們關注的是以人類反饋作為目標唯一真理來源的方法。這排除了獎勵塑形、特征工程和其他形式的人類指導。
互動和在線 我們還強調以互動、在線方式提供反饋。這排除了模仿學習、從示范學習和純逆向RL。 可擴展和異步 我們關注的是將人類包括在循環中,但代理不被人類反饋阻塞,人類也不需要持續存在的工作。 此外,我們主要關注2017年后發表的作品,因為更早的作品已由Wirth等人(2017)綜述。然而,為了闡述仍然是最新技術或已經顯著塑造了最新技術的某些概念,我們不時回顧這一時期的一些作品。如果使用的方法對RLHF方法有興趣,將會作出例外。
1.4 先前的綜述
根據上一節提到的標準,我們首先將我們的綜述與其他邊緣相關主題領域的綜述區分開來,這些領域共享人類參與RL的共同主題。然后,我們將描述我們的綜述與RLHF領域內存在的先前綜述或類似綜述文章的差異。
自主性和人工智能將通過有限的應用逐步改變戰爭,因為完全自主瞄準面臨障礙,因此有必要就自主系統的規則進行細致的國際談判,而不是拒絕該技術。
自主(autonomy)和自治(autonomous)如今已成為熱門詞匯,被用來描述軍事(以及民用)領域對人工智能(AI)功能、流程和系統日益增長的利用。俄羅斯入侵烏克蘭以及隨之而來的高強度沖突為大量新技術和舊技術的創新使用提供了試驗平臺,從人工智能驅動的語音識別和態勢感知軟件到無處不在的商用無人機,再到商用衛星通信和圖像以及 3D 打印組件的大規模使用,不一而足。
高機動性、可攜帶爆炸物的第一人稱視角(FPV)無人機或利用計算機視覺鎖定目標并將其摧毀的徘徊彈藥的圖像已成為頭條新聞,并引發了對戰爭中自主革命黎明到來的焦慮,即殺手機器人將主宰戰場并顛覆國際秩序。
雖然沒有人能真正否認人工智能對戰爭及其未來演變的結構性影響,但當前關于自主性的辯論卻往往使人們對其實際軍事影響產生了扭曲和不準確的認識,這反過來又產生了一種不可調和的二元方法,其典型特征是要么完全拒絕、要么崇拜自主武器系統(AWS)。因此,任何有關為軍事目的使用和管理自主性的政策決定和機制都有可能對利用該技術和防止其濫用無效,甚至有害。
這種不一致做法背后的一個關鍵原因是缺乏對自主真正含義的理解,例如經常混淆自主武器系統和自動武器系統。自動武器系統具有不同程度的自動化,可對選定類別的目標執行特定和有序的功能,而且無論如何都不能偏離其預定目的。因此,它們的行為是確定的,或者簡單地說,是可預測的。例如,不同類型的地雷和裝有空爆近炸引信的炮彈一旦被激活,就會在沒有人為控制的情況下工作。
更廣泛地說,傳統的尋的彈藥就屬于這一類,并且已經服役多年。例如,烏克蘭使用的 AGM-88 型反輻射導彈就是通過被動雷達尋的器自動探測敵方無線電發射源(通常是雷達站或防空系統)并將其鎖定。重要的是,這些武器的設計目的是打擊非常具體和預先確定的目標,不能偏離其最初的指令序列。
相反,預警機的特點是能夠感知和適應作戰環境。這意味著它們可以根據計算機程序與外部環境交互產生的行為自主調整行動路線,為給定的輸入產生一系列不同的輸出。這種能力來源于車載人工智能計算和傳感器,可以達到不同的熟練程度,取決于算法的復雜程度、系統設計的權衡、任務的復雜程度和環境。
一般來說,有一些系統具有有限的自主能力,無需人工干預就能探測、跟蹤、提示和攻擊目標,不過它們的使用對象是特定的目標集,而且通常僅限于雜亂無章的環境,因此產生的行為在很大程度上是可預測的。此外,人類操作員可以修改武器的管理規則,或在出現潛在風險時激活/編碼任務中止選項。因此,在瞄準過程中,人類仍處于決策循環之中。防空系統、巡航導彈、閑逛彈藥或其他配備各種傳感器和機載數據處理能力的平臺就是最常見的例子。
然而,集成了更先進的機器學習功能后,自主系統可以自主學習和決策,包括選擇目標,并根據從環境中接收到的輸入不斷更新可用的輸出范圍。因此,它們的行為是非確定性的,可能無法預測。不過,目前還沒有證據表明戰場上使用了 "自我學習 "的完全自主武器系統。
以色列制造的 "哈比 "反輻射閑逛彈藥可在特定區域上空盤旋長達 9 個小時,以尋找雷達發射目標,并在無人監督的情況下自主攻擊這些目標。然而,雖然 "哈比 "的所有運作階段確實都是自動化的,但該系統無法學習和改變其任務規則和輸出,因為它只能選擇和攻擊由人類操作員預先選定的特定保持區域和無線電頻率范圍內的目標。因此,"哈比 "的行為在本質上仍然是可預測的,因為其任務參數和管理規則是由人類定義的,盡管仍然可能存在附帶損害的風險。
在最近關于致命預警系統的辯論中經常提到的另一個例子是土耳其的 "卡古-2 "戰術旋轉翼閑逛彈藥,根據聯合國的一份報告,在利比亞軍閥哈利法-哈夫塔爾于 2020 年圍攻的黎波里失敗期間,該彈藥可能被用于自主瞄準隸屬于他的部隊。然而,聯合國專家小組無法提供任何證據來證實自主模式的說法,而 "卡古 "的制造商土耳其 STM 公司后來明確指出,該系統使用人工智能計算機視覺來識別和跟蹤目標,但需要人類操作員與目標交戰。在最近的一次私下討論中,一位直接參與 "卡古 "研發的工程師向本文作者證實,該系統的程序設計并不能在沒有人類監督的情況下攻擊目標。
越來越多的武器系統--從無人機系統到巡航彈藥、防空系統到無人地面車輛和其他系統--使用機載計算機視覺和其他人工智能功能來自動化和加速流程,而人類的自然能力對于當前(和未來)軍事行動中不斷加快的決策節奏和激增的數據量來說,顯得過于緩慢或有限。然而,這些能力并不會使武器系統默認為完全自主。相反,它們優化了特定的子過程和任務(如導航、目標識別、態勢感知等),以解決人類疲勞問題,減輕人類操作員的認知負擔。除此以外,自主化通常還旨在通過限制參與行動的士兵和機組人員數量來降低人員風險。
瞄準和交戰循環是其中的一項任務,但它很可能仍將局限于為特定目標集或任務而設計的平臺,因為在這些平臺上有大量可靠的訓練數據,軍事目標和民用目標之間的區別比較簡單,附帶損害的風險有限。這些任務包括壓制敵方防空系統(SEAD)、空對空交戰、戰術射程內分層精確射擊或打擊敵方第二梯隊等。飛機系統(如無人機系統、閑散彈藥)是主要的自然候選者,但我們很可能會看到自主地面系統的瞄準任務,作為其在某些戰術交戰中火力支援作用的一部分。
與此同時,有些任務將發生重大的、結構性的自主化轉變。例如,通過高保真傳感器進行情報收集、監視和偵察、替身電子戰、誘餌、通信節點和補給。在這些領域,最有希望取得成果的還是使用具有蜂群能力的網絡化和多樣化的自主飛機,不過預計在海上和陸地領域也會取得進展。
因此,AWS 對戰爭的預期變革影響將比通常設想的要緩慢和零散,因為自主性主要是作為一種促進因素,其集成通常僅限于子系統或特定功能,而不是整個軍事企業。有幾個原因需要考慮。
首先,物理學仍然重要。AWS 依靠邊緣的大量計算能力和工作存儲器,通常需要更高的電池容量,特別是在長距離應用中。這就意味著要在尺寸、航程、速度、續航時間、有效載荷以及最終的成本之間進行明顯的權衡,在可預見的未來不可避免地會對作戰產生影響。例如,抗干擾超寬帶連接技術的使用可以降低能耗,但卻有固有的范圍限制。就機載系統而言,使用自主 "母艦 "從中間集結區釋放托盤化的彈群和空射效應,有助于擴大彈群和空射效應的作戰范圍,但這些大型母艦雖然前景廣闊,但仍容易遭到敵方攔截和反制,很難成為唯一的解決方案。
其次,即使技術已經成熟,但如果不將其適當融入強大的作戰概念(CONEMPs)和行動概念(CONOPs),AWS 也只能為作戰人員提供微不足道的優勢。然而,CONEMPs 和 CONOPs 的建立并非一朝一夕之事,在北約等多國環境中,由于互操作性問題、異質能力和培訓、人機界面挑戰以及國家層面對 AWS 的不同處理方法,CONEMPs 和 CONOPs 的建立變得更具挑戰性。此外,每個軍事部門都可能以自己的方式看待自主性,這就進一步增加了復雜性。
正如烏克蘭戰爭所表明的,新技術的有效整合與技術本身同樣重要。
第三,如果不仔細權衡意外升級的風險和可能帶來的災難性代價,就認為各國有意愿(和興趣)部署完全自主的武器系統(即自學平臺),至少可以說是草率的。
在此背景下,有必要提出一些警告。
顯然,上述對 AWS 的漸進和不定期采用并不能排除與這些平臺相關的危險,從道德和法律考慮到附帶損害問題。然而,似乎可以公平地說,它們可能被限制用于直接與目標交戰的目的,這在一定程度上減輕了這些風險,削弱了支持徹底禁止預警系統的一些論點。
遺憾的是,缺乏國際公認的自主定義是準確評估預警系統影響和規范其使用的一大障礙。人工智能發展的不穩定性,以及它對 "有意義的人類控制 "的概念和實用性的影響,進一步加劇了這一問題。如果 AWS 依賴于操作員可以獲得的相同信息、參數和嚴格的交戰規則,那么 "人類脫離環路 "本身并不一定是個問題,前提是它不能推翻這些信息、參數和規則。正如專家 Jovana Davidovic 所說,"任何道德上的差異都源于經驗事實,即什么方法(在安全和避免附帶損害方面)更有效,而不是操作員與最終決定的距離有多遠"。
在另一篇發人深省的文章中,學者 Andree-Anne Melancon 認為,"發展自動化武器的更根本問題不在于技術或人工智能。相反,問題源于選擇目標的方式"。或許,這場辯論首先應該討論的是自主系統編程的基本流程和規則(如目標識別等),而不是技術本身。
與此同時,關于在完美計劃和實施的行動中無縫使用和利用自主系統和人工智能的描述將被現實證明是錯誤的。人工智能可以幫助人們看穿戰爭迷霧,但不會徹底消除迷霧。例如,目前最好的物體檢測模型在最流行的基準測試中平均精度僅為 65%。雖然這些表述的首要目標是營銷,但由此產生的對人工智能優點的偏愛和對其局限性的忽視,都可能不利于就 AWS 問題展開建設性的、平衡的辯論。但是,基于可怕或不準確的觀點而對 AWS(或其他人工智能軍事應用)嗤之以鼻的評估也于事無補。
聯合國大會最近通過了有史以來第一份關于 AWS 的決議,這表明各國確實認為有必要采取行動規范 AWS,并應鼓勵人們對這項技術采取不那么軍國主義、但也更加清醒的態度。
作者:
費德里科-博薩里是歐洲政策分析中心(CEPA)跨大西洋防務與安全項目的萊昂納多研究員。他還是北約 2030全球研究員和歐洲對外關系委員會 (ECFR) 的訪問學者。他的主要研究興趣包括安全與國防動態、跨大西洋安全關系以及新技術對戰爭的影響。
AI Agent(人工智能代理)是一種能夠感知環境、進行決策和執行動作的智能實 體。不同于傳統的人工智能,AI Agent 具備通過獨立思考、調用工具去逐步完成給 定目標的能力。AI Agent 和大模型的區別在于,大模型與人類之間的交互是基于 prompt 實現的,用戶 prompt 是否清晰明確會影響大模型回答的效果。而 AI Agent 的工作僅需給定一個目標,它就能夠針對目標獨立思考并做出行動。和傳統的 RPA 相比,RPA 只能在給定的情況條件下,根據程序內預設好的流程來進行工作的處 理,而 AI Agent 則可以通過和環境進行交互,感知信息并做出對應的思考和行動。
大語言模型的浪潮推動了 AI Agent 相關研究快速發展,AI Agent 是當前通往 AGI 的主要探索路線。大模型龐大的訓練數據集中包含了大量人類行為數據,為模擬類 人的交互打下了堅實基礎;另一方面,隨著模型規模不斷增大,大模型涌現出了上 下文學習能力、推理能力、思維鏈等類似人類思考方式的多種能力。將大模型作為 AI Agent 的核心大腦,就可以實現以往難以實現的將復雜問題拆解成可實現的子任 務、類人的自然語言交互等能力。由于大模型仍存在大量的問題如幻覺、上下文容 量限制等,通過讓大模型借助一個或多個 Agent 的能力,構建成為具備自主思考決 策和執行能力的智能體,成為了當前通往 AGI 的主要研究方向。
一個基于大模型的 AI Agent 系統可以拆分為大模型、規劃、記憶與工具使用四個組 件部分。AI Agent 可能會成為新時代的開端,其基礎架構可以簡單劃分為 Agent = LLM + 規劃技能 + 記憶 + 工具使用,其中 LLM 扮演了 Agent 的“大腦”,在這個 系統中提供推理、規劃等能力。
AI Agent 發展迅速,出現多款“出圈”級研究成果。2023 年 3 月起,AI Agent 領 域迎來了第一次“出圈”,西部世界小鎮、BabyAGI、AutoGPT 等多款重大 Agent 研究項目均在短短兩周內陸續上線,引發了大家對 AI Agent 領域的關注。目前已經 涌現了在游戲領域大放異彩的英偉達 Voyager 智能體、能夠幫助個人完成簡單任務 的 Agent 助理 HyperWrite、以及主打個人情感陪伴的 AI 助理 Pi 等多款優秀的 Agent 成果,AI Agent 的研究進展迅速。
“Agent+”有望成為未來產品的主流,有望在多個領域實現落地應用。我們認為, AI Agent 的研究是人類不斷探索接近 AGI 的過程,隨著 Agent 變得越來越“可用” 和“好用”,“Agent+”的產品將會越來越多,未來將有望成為 AI 應用層的基本架 構,包括 to C、to B 產品等。
2B 和垂直領域仍是 AI Agents 容易率先落地的方向,用戶對 Agent 的認知正在形 成,初創企業正在卡位。由于 Agent 對環境反饋的依賴性較強,具備顯著特點的企 業環境是更加適合 Agent 建立起對某一個垂直領域認知的場景。當前關于 AI Agent 的研究主要還是以學術界和開發者為主,商業化產品極少,但是用戶對于 Agent 的 關注度正在提升,可能未來幾年間就會涌現出大量以 Agent 作為核心的產品應用到 各行各業。目前,已經有一些初創公司開始以企業的智能體平臺作為主要的產品研 發方向,例如瀾碼科技正在打造基于 LLM 的企業級 Agent 平臺。
人工智能解決方案在陸軍野戰應用中的使用將在很大程度上依賴于機器學習(ML)算法。當前的ML算法需要大量與任務相關的訓練數據,以使其在目標和活動識別以及高級決策等任務中表現出色。戰場數據源可能是異構的,包含多種傳感模式。目前用于訓練ML方法的開源數據集在內容和傳感模式方面都不能充分反映陸軍感興趣的場景和情況。目前正在推動使用合成數據來彌補與未來軍事多域作戰相關的真實世界訓練數據的不足。然而,目前還沒有系統的合成數據生成方法,能夠在一定程度上保證在此類數據上訓練的ML技術能夠改善真實世界的性能。與人工生成人類認為逼真的語音或圖像相比,本文為ML生成有效合成數據提出了更深層次的問題。
人工智能(AI)是美國國防現代化的優先事項。美國國防部的人工智能戰略指示該部門加快采用人工智能并創建一支適合時代的部隊。因此,它自然也是陸軍現代化的優先事項。從陸軍多域作戰(MDO)的角度來看,人工智能是解決問題的重要因素,而MDO是建立在與對手交戰的分層對峙基礎上的。雖然人工智能本身沒有一個簡明和普遍接受的定義,但國防部人工智能戰略文件將其稱為 "機器執行通常需要人類智能的任務的能力--例如,識別模式、從經驗中學習、得出結論、進行預測或采取行動--無論是以數字方式還是作為自主物理系統背后的智能軟件"。這句話的意思是,當機器在沒有人類幫助的情況下獨立完成這些任務時,它就表現出了智能。過去十年中出現的人工智能解決方案的一個重要方面是,它們絕大多數都符合模式識別模式;在大多數情況下,它們根據經過訓練的人工神經網絡(ANN)對相同輸入數據的輸出結果,將輸入數據分配到數據類別中。具體來說,深度學習神經網絡(DNN)由多層人工神經元和連接權重組成,最初在已知類別的大量數據上進行訓練以確定權重,然后用于對應用中的實際輸入數據進行分類。因此,機器學習(ML),即自動機(這里指DNN)在訓練階段學習模式的過程,一直是一個主導主題。事實上,DNN在計算機視覺領域的成功是商業和政府部門加大對人工智能關注和投資的原因。訓練算法和軟件開發工具(如tensorflow)的進步、圖形處理器(GPU)等計算能力的可用性,以及通過社交媒體等途徑獲取大量數據,使得深度學習模型在許多應用中得到了快速探索。
在監督學習中,人類專家創建一組樣本來訓練ML算法,訓練數據與實際應用數據的接近程度對人工智能方法的性能起著重要作用。將ML模型應用于軍事問題的主要瓶頸是缺乏足夠數量的代表性數據來訓練這些模型。有人提出使用合成數據作為一種變通辦法。合成數據集具有某些優勢:
然而,最關鍵的問題是在合成數據或混合合成和真實數據上訓練ML模型是否能使這些模型在真實數據上表現良好。美國陸軍作戰能力發展司令部陸軍研究實驗室的研究人員和合作者使用合成生成的人類視頻進行機器人手勢識別所獲得的初步結果表明,在合成數據和真實數據混合的基礎上進行訓練可以提高ML手勢識別器的性能。然而,并沒有普遍或分類的結果表明,當全部或部分使用合成數據進行訓練時,真實世界的ML性能會得到一致的提高。因此,有必要進行系統調查,以確定使用合成數據訓練ML方法的可信度。我們有理由假設,合成數據在提高ML性能方面的有效性將受到實際應用領域、合成數據與真實數據的保真度、訓練機制以及ML方法本身等因素的影響。合成數據與真實數據的保真度反過來又取決于數據合成方法,并提出了通過適當指標評估保真度的問題。以圖像為例,合成數據訓練的ML方法的性能與人類視覺感知的真實場景的保真度是否成正比并不清楚。有可能數據的一些關鍵特征對于ML的性能比那些影響人類感知的特征更為重要。組織這次陸軍科學規劃和戰略會議(ASPSM)的一個主要目的是讓合成數據生成、人工智能和機器學習(AI & ML)以及人類感知方面的頂尖學術界和國防部專家討論這些問題。會議的技術重點主要是圖像和視頻數據,反映了組織者在計算機視覺和場景感知方面的任務領域。
根據上一節提出的問題,會議圍繞三個主題展開:
1.人類的學習和概括: 人類可以從最小的抽象和描述概括到復雜的對象。例如,在許多情況下,觀察一個物體的卡通圖像或線描,就足以讓人類在真實場景中識別出實際的三維物體,盡管后者比卡通圖像或線描具有更復雜的屬性。 這遠遠超出了當前人工智能和ML系統的能力。如果能夠開發出這種能力,將大大減輕數據合成機器的負擔,確保真實數據的所有屬性都嚴格保真。這個例子也說明了一個事實,即用于訓練ML模型的合成數據生成研究與提高ML模型本身的能力密切相關。因此,這項研究的重點是探索人類和動物的學習,以啟發ML和數據合成的新方法。
2.數據合成方法和驗證: 大多數應用ML方法的領域都有針對其領域的數據合成技術和工具。游戲平臺提供了一個流行的視頻合成商業范例。問題是如何評估特定領域中不同合成方法的性能。顯然,我們必須確定執行此類評估的指標或標準。通常情況下,合成工具的作者也會就工具的性能或功效發表聲明。驗證將是評估此類聲明的過程。本研究的目的是探討指導合成和驗證過程的原則。合成技術的例子包括基于計算機圖形的渲染器(如電影中使用的)、基于物理的模擬(如紅外圖像)和生成模型(目前傾向于基于神經網絡)。
3.領域適應挑戰: ML中的領域適應是指使用一個領域(稱為源領域)的數據訓練ML模型,然后將ML應用于不同但相關領域(稱為目標領域)的數據。例如,使用主要為民用車輛的源圖像數據集訓練識別車輛的ML算法,然后使用訓練好的算法識別主要為軍用車輛的目標數據集中的車輛。在使用合成數據進行訓練時,它們通常構成源域,而實際應用數據則是目標域。本次會議的重點是確定和討論有效領域適應中的關鍵問題和挑戰。
ASPSM的審議分四次會議進行。第一天的兩場會議討論了前兩個主題。第二天的第一場會議討論第三個主題,第二場會議在三個主題下進行分組討論。ASPSM兩天的日程安排分別如圖1和圖2所示。從圖中可以看出,每個主題會議首先由該領域的學術專家進行40分鐘的主講,然后由大學專家進行兩個20分鐘的講座。隨后由來自學術界和國防部的專家組成的小組進行討論。最后一個環節是分組討論,與會者可以討論與主題相關的各個方面。
麻省理工學院電子工程與計算機科學系的Antonio Torralba教授在第一分會場發表了關于人類學習與泛化的主題演講。他的演講題目是 "從視覺、觸覺和聽覺中學習",深入探討了深度學習方法如何在不使用大量標注訓練數據的情況下發現有意義的場景表征。舉例說明了他們的DNN如何在視覺場景和環境中的聲音之間建立聯系。讀者可參閱Aytar等人關于這一主題的代表性文章。
同樣來自麻省理工學院的James DiCarlo博士的下一個演講題目是 "視覺智能逆向工程"。他將 "逆向工程 "定義為根據對行為的觀察和對輸入的反應推斷大腦的內部過程,將 "正向工程 "定義為創建ANN模型,以便在相同輸入的情況下產生相應的行為。他的研究小組的一個目標是建立神經認知任務的性能基準,人類或其他靈長類動物以及ML模型可以同時達到這些基準。他的演講展示了大腦處理模型如何適應ANN實現的初步結果,并提出了ANN通過結合這些適應密切模擬人類行為,進而準確描述大腦功能的理由。
第一場會議的第三場講座由加州大學伯克利分校的Jitendra Malik教授主講,題為 "圖靈的嬰兒"。這個題目也許是指最早的電子存儲程序計算機之一,綽號 "寶貝",其創造者之一受到了阿蘭-圖靈的啟發。馬利克教授首先引用了圖靈的觀點:與其創建一個模擬成人思維的程序,不如從模擬兒童思維開始。從本質上講,這意味著創造一種人工智能,通過與環境互動以及向其他人工智能和人類學習來學習和成長。這被稱為具身機器智能。馬利克教授認為,監督學習本質上是處理靜態數據集,因此顯示了在精心策劃的時間點上運行的非實體智能。具體而言,他認為監督訓練方法不適合創建能夠提供人類水平的世界理解,特別是人類行為理解的人工智能。Malik教授介紹了 "Habitat",這是一個由他和他的合作者開發的平臺,用于嵌入式人工智能的研究。在隨后的小組討論中,與會人員討論了演講者所涉及的主題,以及與機器人學習和當前兒童智力發展模型相關的主題。
第二部分“數據合成:方法和驗證”以一個題為“學習生成還是生成學習?”,作者是斯坦福大學的Leonidas gu教授。在研究用于訓練ML的合成數據生成的動機中,他指出可以減輕大量人工注釋訓練數據的負擔。他的前提是,無論合成數據是用于訓練ML還是供人類使用,其生成效率和真實性都非常重要。不過,他表示其他質量指標還沒有得到很好的定義,需要進一步研究。他舉例說明了在混合合成數據和真實數據上訓練ML時,ML的物體識別性能有所提高,但他也承認很難得出可推廣的結論。
卡內基梅隆大學的Jessica Hodgins博士發表了第二場會議的第二個演講,題為 "生成和使用合成數據進行訓練"。演講展示了她的研究小組生成的精細合成場景。利用從真實場景到合成場景的風格轉移過程,她的研究小組創造了一些實例,說明在混合了大量風格適應的合成數據和一些真實數據的基礎上進行訓練的ML方法的性能優于僅在真實數據集或僅在合成數據集上進行訓練的方法。性能提高的原因在于風格轉移克服了合成數據集與真實數據集之間的 "分布差距"。
第二場會議的最后一場講座由加州大學伯克利分校的Trevor Darrell教授主講。他的演講題為 "生成、增強和調整復雜場景",分為三個部分。第一部分詳細介紹了演講者及其核心研究人員開發的一種名為 "語義瓶頸場景生成 "的技術,用于根據地面實況標簽合成場景。該技術可進一步與通過生成過程生成此類地面標簽的模型相結合。Azadi等人對該技術進行了詳細描述。 第二部分涉及增強和自我監督學習。發言人提出,當前的對比學習方法在合成增強數據時建立了不變量,而這些不變量可能是有益的,也可能是無益的。例如,建立旋轉不變性可能有利于識別場景中的花朵,但可能會阻礙對特定方向物體的有效識別。演講者介紹了他的研究小組考慮具有特定不變性的多種學習路徑的方法,并展示了與現有技術相比性能有所提高的結果。 第三部分介紹了一種名為 "Tent"(測試熵)的技術。其前提是DNN應用過程中遇到的數據分布可能與訓練數據不同,從而導致性能下降。因此,需要對DNN參數進行實時或測試時調整,以防止性能下降。Tent技術通過調整權重使DNN輸出的測量熵最小化來實現這一目標。演講者隨后用常用數據集展示了該技術相對于先前方法的改進性能。隨后的小組討論涉及合成方面的挑戰,尤其是紅外圖像方面的挑戰。
第二天的第三場會議以 "領域轉移的挑戰 "開始。約翰霍普金斯大學布隆伯格特聘教授Rama Chellappa博士發表了題為 "解決美國防部實際問題的綜合數據期望與最大化"的演講。演講首先回顧了過去二十年來國防部處理合成圖像的多個項目的歷史。他提出了一個重要論斷,即如果在合成過程中考慮到真實數據的物理特性,那么真實數據和合成數據之間的領域轉換就會減少。Chellappa教授還就領域自適應表示法提供了快速教程,涵蓋了正規數學方法以及較新的生成對抗網絡(GANs)。演講者及其核心研究人員開發的基于GAN的方法可以修改合成數據的分布,使之與目標分布相匹配。講座舉例說明了這種方法優于之前的非GAN方法。
佐治亞理工學院的Judy Hoffman教授發表了題為 "從多個數據源進行泛化的挑戰 "的演講。她考慮的問題是在模擬中學習模型,然后將模型應用于現實世界。她指出了四個挑戰: 生成、列舉、泛化和適應。發言人介紹了應對這些挑戰的幾種不同方法。具體來說,用于泛化的特定領域掩碼(DMG)方法通過平衡特定領域和領域不變特征表征來生成一個能夠提供有效領域泛化的單一模型,從而解決多源領域學習問題。
第三場會議的第三位也是最后一位演講者是波士頓大學的Kate Saenko教授,他的演講題目是 "圖像分類和分割的Sim2Real領域轉移的最新進展和挑戰"。Saenko教授延續了前兩場講座的主題,介紹了視覺領域適應的歷史,并探討了領域和數據集偏差問題。在糾正數據集偏差的不同方法中,講座詳細討論了領域適應。特別重要的是,Saenko教授及其合作者開發的技術能夠顯示合成到真實的適應性,就像從游戲引擎到真實數據一樣。隨后的小組討論提出了幾個有趣的問題,包括訓練域和測試域的不同,不是感興趣的對象不同,而是對象所處的環境不同,例如訓練時軍用車輛在沙漠環境中,而測試時則在熱帶植被背景中。
三個主題的分組討論同時進行。在 "人類學習與泛化 "分組討論中,首先討論了 "人類如何學習?"、"ML模型如何模仿人類過程?"以及 "合成數據如何實現這些過程?"等問題。從童年到青春期和成年期,學習和成長之間的關系成為關鍵點。其他被認為有助于人類學習的因素包括人類心理、情感、同時參與多維活動、記憶以及解除學習的能力。
關于 "數據綜合: 方法與驗證 "分論壇確定了數據合成的幾個問題,特別是圖像和視頻。主要問題涉及結合物理學的有用性、視覺外觀保真度與成本之間的權衡、保真度的衡量標準、保真度本身的重要性以及當前技術(包括GANs技術)的局限性。據觀察,合成圖像和視頻生成至少已有幾十年的歷史,但大多數產品要么是為視覺效果而設計,要么是為再現物理測量而設計(例如,紅外模擬中的輻射剖面)。它們并不適合用于ML培訓。提出的另一個問題是,合成的二維圖像必須與物體和環境的底層三維幾何圖形保持一致。還有人提出,能夠在特定的感興趣的環境中生成大量合成數據,可以作為第一道工序測試新的人工智能和ML方法,而不管這些方法是否能夠在真實數據中很好地工作。
專題3 "領域轉移挑戰 "的分組討論確定了MDO所需的關鍵人工智能能力,即從孤立學習到機器與人類之間的聯合或協作學習。會議還討論了在多種數據模式下同時訓練ML的聯合學習。人們認識到,這些領域的工作才剛剛開始。分組討論的牽頭人強調,需要向士兵明確說明基于人工智能的系統在特定情況下將會做什么。這引發了對系統魯棒性的討論。分組組長向ASPSM聽眾提供了討論摘要。
根據本次ASPSM的討論,我們確定了以下值得陸軍進一步進行科技投資的領域:
1.支持多模式互動學習的合成技術和數據集。與當前流行的捕捉 "時間瞬間 "的靜態數據集(如農村環境中的車輛圖像)相比,有必要開發更能代表支持持續學習的體現性體驗的模擬器,就像我們在人類身上看到的那樣,并實現對世界更豐富的表征。混合方法(如增強現實)也可將人類監督的優勢與合成環境的靈活性結合起來。
2.學習和合成因果關系和層次關系的算法和架構。最近的一些方法,如基于圖的卷積神經網絡,已經在學習空間和時間的層次關系(如物體-部件和因果關系)方面顯示出前景。鑒于在現實世界中收集和注釋此類數據的復雜性,合成數據的生成可能特別有用。識別層次關系是一般國防部和戰場情報分析的關鍵要素。
3.支持持續、增量、多模態學習的算法和架構。深度強化學習方法被成功地用于訓練虛擬或機器人代理的相關行動策略,如捕食者與獵物之間的相互作用。基于模仿的方法承認學習的社會性,通常讓代理與(通常是人類)教師合作學習新策略。這些類型的交互式持續學習可進一步與多模態學習(即融合來自多個傳感器的數據)相結合,以實現更豐富的世界表征,使其更穩健、更具通用性。同樣,在這一領域難以獲得大量經過整理的數據,這也為探索合成引擎提供了動力。
4.學習物理或具備相關物理領域知識的算法和架構。在許多領域(例如紅外光下的物體感知),從圖像感知和合成圖像需要了解世界的基本物理特性,例如光與材料之間的相互作用。然而,當前的深度學習模型缺乏這種物理知識。開發賦予ML物理領域知識的技術對這些系統的性能至關重要。
5.具有豐富中間表征的領域適應技術。為了縮小真實數據和合成數據之間的領域差距,必須進一步推動當前建立領域不變中間表征的趨勢,特別是使用語義詞典和生成式對抗網絡。能夠理解數據底層結構(如光照、旋轉、顏色)的表征更有可能成功抽象出合成數據中不重要的細節。
6.深入了解ML模型內部表征的方法,以及合成表征與真實表征的比較。網絡剖析技術 "打開 "了深度學習模型的隱藏層,允許解釋網絡中的每個階段正在學習哪些特定概念或其更細的方面。這些技術揭示了具有真實輸入和合成輸入的DNN的內部表征,有助于識別所學內容的關鍵差異,從而找到克服這些差異的解決方案。
為期兩天的虛擬ASPSM吸引了眾多美國防部科學家和工程師、頂尖學術專家以及科技項目管理人員的熱情參與。多學科的討論強化了這樣一種觀點,即開發用于訓練ML方法的生成合成數據的改進方法與理解和改進ML方法本身是分不開的。一個特別重要的需求是了解ML方法,尤其是當前的學習架構,是如何創建場景的內部表示的。另外兩個重要領域是:1)理解人類學習與ML世界中可能存在的學習之間的異同;2)多模態數據--從合成和ML的角度。我們預計近期國防部和學術研究人員將在本報告確定的領域加強合作。
模擬真實的人類行為,包括決策和創造力,是戰斗模擬中最難和最復雜的挑戰。行為樹(BTs)是一種相對較新的、越來越流行的為人工智能(AI)和智能代理開發行為模型的方法。這種方法在為計算機游戲中的非玩家角色(NPC)、機器人和自動駕駛汽車創建行為模型方面變得特別流行。
BTs被表示為具有控制流節點和任務節點的層次結構的有向樹,這些節點控制著一個代理的行為。使得BT如此強大的原因是其可組合性和模塊化。任務節點和控制流節點被組成子樹,代表更復雜的行動,這些行動可以被組成更高級別的行為。
在本文中,我們將根據現有文獻對BTs進行介紹,并討論在戰斗模擬中采用這種建模技術為計算機生成的部隊(CGF)創建行為模型的可能性和局限性。此外,我們將給出一個具體的例子,說明如何從戰斗演習的文本描述中創建一個BT,并提供如何創建BT的一般技巧和竅門。最后,我們將總結我們在BT方面的工作經驗。
人工智能(AI)是一項具有廣泛用途的新興技術。《美國防戰略》強調了人工智能對軍事行動的重要性,以使美國保持對其近似競爭對手的優勢。為了充分實現這一優勢,不僅要在戰術層面,而且要在戰爭的作戰層面整合人工智能。人工智能可以最有效地融入作戰計劃的復雜任務,方法是將其細分為其組成部分的作戰功能,這些功能可以由狹義的人工智能來處理。這種組織方式將問題減少到可以由人工智能解析的規模,并保持人類對機器支持的決策的監督。
人工智能是一套新興的、變革性的工具,有可能幫助軍事決策者。美國國家戰略將人工智能(AI)納入戰爭。《2020年國防授權法》11次提到了人工智能。國防戰略強調了利用人工智能和機器學習方面的商業突破的重要性。人工智能的軍事用途是保留國家安全的一個引人注目的方式。創造工具來支持戰術行動,如摧毀敵軍和從一個點導航到另一個點,具有顯著和可見的效果,使他們在資源有限的環境中在政治上可以接受。它們在訓練和測試方面的可重復性,使它們在采購過程中成為人工智能系統的快速贏家。然而,戰術行動的范圍和時間是有限的。僅在戰術層面上整合人工智能,忽視了在作戰層面上發生的決定性影響。
作戰,也就是實踐者將戰術行動轉化為戰略效果的層面,取決于領導者做出正確決策的能力。聯合部隊海事部分指揮官(JFMCC)的艱巨任務是制定計劃,將戰區戰略和聯合部隊指揮官(JFC)的目標結合起來,通過決定性的海軍交戰來塑造環境。在人工智能的快速認知能力的幫助下,JFMCC將能夠制定并更徹底地分析行動方案(COA)。這些品質對于未來的沖突是必要的。
人工智能必須在戰爭的各個層面進行整體集成,以充分實現其優勢。除了局部的、短期的戰斗,它還需要應用于主要的行動和戰役,涉及整個戰區的數月或數年。在戰爭的戰役(作戰)層面上的實施,放大了為實現戰略目標而進行的有序交戰和同步行動之間的協同作用。除了技術發展之外,行動上的整合將刺激政策和理論的建立,以使作戰人員有意愿使用人工智能。隨著使用人工智能的經驗的增加,其采用率也會增加。為協助海軍作戰計劃而實施的特定人工智能技術可能與那些用于計算射擊方案或在被拒絕的淺灘水域規劃路線的技術不同。然而,在作戰層面的接受度將推動戰術上的使用。
在JFMCC層面,人工智能系統網絡將為決策者提供決定性的優勢,將專注于作戰功能的獨立的人工狹義智能(ANI)單位統一起來將實現最顯著的好處。首先,人工智能解決方案比它們的通用人工智能(AGI)同行更適合于軍事問題的解決。其次,戰爭的性質促使有必要在作戰層面上整合人工智能。最后,雖然有許多方法可以整合,但沿著功能線這樣做會帶來最顯著的好處。不僅在技術意義上吸收人工智能,而且描述其在政策、理論和培訓中的使用,將使海軍能夠充分使用它,并在與我們的戰略競爭對手的競爭中獲得優勢。
目前人工智能在海上行動中的最佳應用是將復雜的海上行動問題分解成子問題,由人工智能來解決,并組合成COA建議。解決小問題的人工智能需要更少的訓練數據,有更直接的邏輯,并且可以連鎖起來解決更重要的問題。麻省理工學院人工智能實驗室前主任羅德尼-布魯克斯(Rodney Brooks)認為,創建動態環境的符號表示是困難的或不可能的。然而,特定任務的智能體可以利用足夠的傳感器數據智能地行動,更重要的是,可以連貫地互動。通過將簡單的活動連鎖起來,失敗的風險很低,更復雜的問題就可以得到解決。多個簡單的行動可以在低認知層平行運行,并將其輸出結合起來,為更高層次的復雜活動提供支持。這種結構的優點是允許軍事工程師開發和訓練人工智能,以首先解決可操作的問題。對人工智能開發者來說更具挑戰性的功能可以保留只由人類決定的方法,直到他們產生解決這些問題的專業知識。與其等待一個完整的系統,部分系統將提供一個臨時的邊際優勢。
鑒于人工智能可以通過將問題分解成更小的決策來最好地解決問題,問題仍然是如何劃分這些問題。重述作戰任務的一個模式是將它們分成作戰功能:指揮和控制(C2)、通信、情報、火力、運動和機動、保護和維持。這些作戰功能為開展有效行動提供了基礎。它們為一個行動提供了采用手段實現其目的的方法。因此,與決定如何實施這些功能以實現目標的決策者一起使用人工智能是很自然的。
如同應用于海上作戰戰爭,最低層的決策支持系統將由感知環境的活動組成:探測艦艇、飛機和潛艇;燃料水平;天氣;以及其他客觀的戰斗空間數據。通過將外部輸入限制在特定的、低層次的任務上,該系統將最大限度地減少對抗性例子或旨在消極操縱自動系統的數據的風險。中間層將把下層的輸出與作戰目標和因素結合起來,如時間、空間和力量的限制,以提供解決問題的方法和作戰功能。由于上層的對抗性數據注入的威脅較小,這些系統可以使用深度學習。深度學習是機器學習的一個子集,它不像其他形式那樣需要高度格式化的數據,但計算成本會更高,而且容易受到欺騙。深度學習將增加這一層的人類互動,并暴露出更復雜的關系。最高層將把C2流程應用于其他六個業務功能,以產生業務建議。中間層的每個功能人工智能將向其他功能人工智能和最高C2層提供建議。中間層的人工智能對復雜的數據和相鄰單位及C2功能的建議進行理解。
如果將中間層人工智能納入規劃和指導、收集、處理、分析和傳播的情報周期,將促進收集資產的更好分配。判斷對有限的收集資產的請求以滿足行動和戰術信息需求是JFMCC關注的一個問題。在收集計劃期間,人工智能可以使用已知的對手軌跡、地點、個人和組織來定義和優先考慮指定的利益區域(NAI)。在執行過程中,人工智能可以根據優先級驅動收集路線,就像企業用它來規劃送貨路線以減少勞動力、燃料和維護成本一樣。采集計劃者可以通過增加對手監視點的位置和范圍來減少反偵查的風險。在C2層面,指揮官和情報官員可以利用收集成果來證明更多的JFMCC收集資產和COA的修改。這種方法適用于其他功能。
人工智能可以在部隊部署不斷變化和對手存在不確定的環境中改善維持能力。相互沖突的要求使如何使用有限的后勤資產來滿足作戰人員的需求的決策變得復雜。后勤單位較低的生存能力促使人們決定是將它們帶入被對手防御系統拒絕的區域,還是將戰斗飛船引離目標。人工智能可以利用軍事和民用運輸的可用性、預先部署的庫存和供應商的響應能力來制定船舶和飛機需求的解決方案。企業利用人工智能準確預測需求,并分辨出影響運輸和倉儲的采購模式。維持型人工智能可以使用這個過程的一個變種,來計劃在高級后勤支持站點(ALSS)或前方后勤站點(FLS)的材料堆放。它可以決定如何以及何時使用穿梭船和站立船來運送到攻擊組。機器學習將使用燃料、食品和武器庫存、威脅環、戰備水平和維修時間來訓練維持人工智能。維持型人工智能可以提供比人類單獨完成的更有效的量化解決方案,并將其反饋給其他功能區和C2高層。
C2層將對來自下層的決定進行仲裁,并提供一個統一的建議。就像一個軍事組織的指揮官一樣,它將把其副手AI的建議合并起來。人工智能過程的早期階段使用傳感器數據和其他客觀信息來確定指揮官的方向;決定行動方案需要建立對戰斗空間的理解,這是一種更高層次的欣賞。戰斗空間的可變性和模糊性將使這一層的人工智能元素最難開發。最終,該系統將作為一個可信的智能體,壓縮指揮官負責的信息量。壓縮的信息減輕了時間有限的決策者工作時的疑慮負擔,使她能夠向下屬單位發出更及時的命令。
圖1說明了基于這些原則的系統的擬議架構。以對手預測為例,許多單一用途的ANI將在最低層結合原始傳感器和單位報告數據。它將評估敵方單位的最可能位置。公司分析評論、社交媒體和論壇發帖的情緒,以確定產品的滿意度。同樣地,這個系統將通過公開的言論和秘密的報告來確定對手的意圖。它將評估當前和歷史天氣模式,以評估氣候對敵人行動的影響。這三個輸入和其他信息將被功能情報ANI用來形成對敵方COA的評估。同樣,火力節點將使用敵人的組成、JFC的優先級和預測的彈藥可用性來產生目標指導。中間層節點將橫向傳遞他們的評估,以完善鄰近的建議,如部隊保護水平。獨立的功能建議也將直接反饋給C2層,以創建整體行動方案。
圖1. 海上人工智能系統的擬議架構
首先,利用聯合人工智能資源的優勢,針對海軍的具體問題修改標準組件。擅長開發軍事人工智能系統的工程師的稀缺性將限制新系統的開發。美國防部的人工智能戰略具體規定了建立通用的工具、框架和標準,以便進行分散的開發和實驗。使用這些現成的組件,為人工智能決策網的所有子系統創建低級別的系統和標準接口。將海軍的資源集中于采購和實施用于海事具體決策的中層和高層系統。避免技術上令人著迷但無效的解決方案,并通過將職能領域的專家與設計團隊相結合來保持解決海事問題的目標。
第二,創建并維護可通過機器學習攝入的作戰數據數據庫,以訓練海軍人工智能。實施能夠在海上作戰中心(MOC)讀取和集中匯總基本作戰數據報告的技術和工藝,如燃料狀態、導彈裝載量。開發記錄和定性評分作戰決策結果的方法,如對手態勢的變化、傷亡修復率和公眾對行動的反應。將輸入與作戰決策和結果聯系起來的數據庫將加速開發符合現實世界標準的系統。
第三,將人工智能的使用納入政策和條令。條令應該編纂人工智能可以被整合到戰爭戰役層面決策中的領域。明確地說,關于情報、行動、火力、后勤、規劃和通信的海軍作戰出版物應說明人工智能在決策過程中產生優勢的地方和方式。描述海上聯合行動的聯合出版物應明確說明如何將JFC的要求解析為JFMCC的AI系統。如果國防部和海軍的政策對指揮官因整合人工智能的決策建議而產生的責任量進行了定性,那么他們在使用人工智能時就可以采取經過計算的風險。讓指揮官和作戰人員掌握使用人工智能的戰術、技術和程序將加速其在艦隊中的應用。
深度視覺生成是計算機視覺領域的熱門方向,旨在使計算機能夠根據輸入數據自動生成預期的視覺內容。深度視覺生成使用人工智能技術賦能相關產業,推動產業自動化、智能化改革與轉型。生成對抗網絡(generative adversarial networks,GANs)是深度視覺生成的有效工具,近年來受到極大關注,成為快速發展的研究方向。GANs能夠接收多種模態的輸入數據,包括噪聲、圖像、文本和視頻,以對抗博弈的模式進行圖像生成和視頻生成,已成功應用于多項視覺生成任務。利用GANs實現真實的、多樣化和可控的視覺生成具有重要的研究意義。本文對近年來深度對抗視覺生成的相關工作進行綜述。首先介紹深度視覺生成背景及典型生成模型,然后根據深度對抗視覺生成的主流任務概述相關算法,總結深度對抗視覺生成目前面臨的痛點問題,在此基礎上分析深度對抗視覺生成的未來發展趨勢。
//www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20211201&flag=1
深度學習(Deep Learning,DL)是機器學習(Machine Learning,ML)領域中的一個研 究方向,作用是幫助機器學習項目更接近于人工智能(Artificial Intelligence)。深度學習主要是學習樣本數據的內在規律和表示層次,學習過程中獲得的信息對諸如文 字、圖像和聲音等數據的解釋很有幫助。深度學習的最終目標是讓機器能夠像人一樣具備分 析能力,可以自動識別文字、圖像和聲音等數據。深度學習是一個復雜的機器學習算法,目前在搜索技術、數據挖掘、機器學習、機器翻 譯、自然語言處理、多媒體學習、語音、推薦和個性化技術,以及其他相關領域都取得了令 人矚目的成果。深度學習解決了很多復雜的模式識別難題,使得人工智能相關技術取得了很 大進步。
聯邦學習(Federated Learning)是一種新興的保護隱私的機器學習范式,在學術界和行業中都引起了極大的關注。聯邦學習的一大特征是異構性,它來源于參與學習的設備有各種硬件規格、且設備狀態是動態變化的。異構性會對聯邦學習訓練過程產生巨大影響,例如,導致設備無法進行訓練或無法上載其模型更新。不幸的是,這種影響尚未在現有的聯邦學習文獻中進行過系統的研究和量化。本文進行了第一個聯邦學習中異構性影響的實證研究。本文從13.6萬部智能手機中收集了大量數據,這些數據可以真實地反映現實環境中的異構性。本文還構建了一個符合標準聯邦學習協議同時考慮了異構性的聯邦學習平臺。基于以上數據和平臺進行了廣泛的實驗,以比較目前最優的聯邦學習算法在考慮異構性和不考慮異構性下的性能。結果表明,異構性導致聯邦學習的性能顯著下降,包括高達9.2%的準確度下降,2.32倍的訓練時間延長以及公平性受損。此外,本文進行了原因分析,發現設備故障和參與偏差是導致性能下降的兩個潛在根本原因。我們的研究對聯邦學習從業者具有深刻的啟示。一方面,本文的發現表明聯邦學習算法設計師在模型評估過程中有必要考慮異構性。另一方面,本文的發現敦促聯邦學習的系統設計者設計特定的機制來減輕異構性的影響。中心博士生楊程旭為該文第一作者。