亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人工智能對齊 (AI Alignment) 旨在使人工智能系統的行為與人類的意圖和價值觀相一致。隨著 人工智能系統的能力日益增強,對齊失敗帶來的風險也在不斷增加。數百位人工智能專家和公眾人物已經 表達了對人工智能風險的擔憂,他們認為 “減輕人工智能帶來的滅絕風險應該成為全球優先考慮的問題,與 其他社會規模的風險如大流行病和核戰爭并列” [1]。為了提供對齊領域的全面和最新概述,本文在這份綜 述中深入探討了對齊的核心概念、方法和實踐。首先,本文確定了人工智能對齊的四個關鍵目標:魯棒性 (Robustness)、可解釋性 (Interpretability)、可控性 (Controllability) 和道德性 (Ethicality) (RICE)。在這 四個目標原則的指導下,本文概述了當前人工智能對齊研究的全貌,并將其分解為兩個關鍵組成部分:前 向對齊和后向對齊。前者旨在通過對齊訓練使人工智能系統對齊,而后者旨在檢驗系統的對齊性,并適當 地管理它們,以避免加劇對齊失敗帶來的風險。前向對齊和后向對齊形成了對齊循環,在這個循環過程中, 前向過程中人工智能系統的對齊度在后向過程中得到驗證,而這種驗證同時為下一輪的前向對齊提供更新 后的對齊需求。在前向對齊中,本文討論了從反饋中學習和在分布偏移下學習的技術。具體來說,本文調查 了傳統的偏好建模方法和從人類反饋中的強化學習 (RLHF),并進一步討論了對于難以獲得有效人類監督 的任務, 如何實現 “可擴展監督”。在分布偏移下學習中,本文涵蓋了數據分布干預方法,如對抗訓練,并介 紹了如何采取算法干預來實現分布外目標泛化。在后向對齊上,本文討論了對齊保證如何保證人工智能系 統在訓練后依然擁有對齊性,以及人工智能治理在對齊環節中的必要性。具體來說,本文調研了在人工智 能系統生命周期中的對齊保證,包括安全評估、可解釋性和人類價值契合性驗證。本文進一步討論了不同 政府、產業參與者和其他第三方當下采用的治理實踐方法,并探討建立一個包含國家、企業、學術界等多方 共同參與的人工智能監管體系,從而管理現有和未來的人工智能風險。 //alignmentsurvey.com/

1 引言

隨著人工智能系統愈發強大,它們被逐漸應用于不同領域 (§1.1.1),比如基于大語言模型 (Large Language Models, LLMs)[2-3]的智能體開發,以及應用深度強化學習 (Deep Reinforcement Learning, DRL) 控制核聚 變[4]。然而,這些人工智能系統能力的提升和在高風險領域的應用帶來了更高的潛在危險。先進人工智能 系統表現出的各種不良行為(例如,操縱[5-9] 和欺騙[10])引發了人們對人工智能系統可能帶來的倫理和安 全挑戰的擔憂。 這些擔憂進一步激發了對人工智能對齊 (AI Alignment)[11-14] 的研究努力。人工智能對齊旨在使人工 智能系統的行為與人類的意圖和價值觀一致[15] – 它更多關注的是人工智能系統的意圖和目標,而不是它們 的能力。對齊失敗 (即未對齊) 是人工智能可能造成危害的最突出的原因之一。這些失敗背后的機制包括獎 勵破解[16] 和目標錯誤泛化[17]等,而雙刃劍組件的存在又進一步放大對齊失敗可能帶來的危害,例如態勢 感知[18]、廣泛目標[19]、內優化目標[20]以及對資源訪問權限擴大[21] (§1.3)。 為解決對齊失敗,本文專注于實現對齊的四個關鍵目標(§1.1.2):魯棒性,可解釋性,可控性,和道德 性(RICE)。當前關于對齊的研究和實踐包括四個領域(§1.2):從反饋中學習(§2),在分布偏移下學習 (§3),對齊保證(§4),和人工智能治理(§5)。這四個目標 (RICE) 和四個領域并不是一一對應的。每個單 獨的領域通常服務于多個對齊目標,反之亦然(參見表 1)。同時,這四個領域和四個目標共同構成了對齊 循環 (參見圖2)。 在這份綜述中介紹了人工智能對齊的概念,方法和實踐,并討論了可能的未來研究方向。**1.1 對齊問題表征 **人工智能對齊的動機可以被闡述為三步論證,每一步都建立在前一步的基礎上: (1) 基于深度學習的系 統 (或應用) 對社會的影響越來越大,并可能會帶來重大風險 (§1.1.1);(2) 對齊失敗代表了重大風險的一個 主要來源 (§1.1.1); (3) 對齊的研究和實踐旨在解決來自不對齊系統的風險 (例如權力尋求的行為) (§1.1.2)。 **1.1.1 AGI 的前景和影響 在最近的十年中,深度學習領域取得了顯著的進步,其發展范圍從符號系統[22-23]擴展到基于自監督學 習的人工智能系統[24-25]。這一進展使得大型神經網絡在各種領域中都展現出了卓越的能力,特別是在游戲環 境[26-28]以及復雜且高風險的真實世界應用場景[29,4]中。大語言模型在多步推理[30-31]和跨任務泛化[32-33]方 面的能力也不斷增強。這些能力的提升與訓練時間的延長、訓練數據量的增加以及模型參數的擴大密切相 關[34-36]。 隨著人工智能系統能力的增強,其帶來的風險也隨之增加。大語言模型的一些不良行為 (例如,不真 實的回答[37]、諂媚[6,9]和欺騙[38,10] ) 也隨著模型規模的增加而惡化[6],引發人們對先進人工智能系統道德 性的擔憂。此外,如 基于大語言模型的智能體[2-3]等新興趨勢也激起人們對系統可控性的探討[39]。展望未 來,人工智能系統的日益強大為在可預見的未來實現通用人工智能 (AGI) 提供了可能性,即系統可以在所 有相關方面達到或超過人類智能[40]。這可能帶來廣泛的機會[41],如自動化[42]、效率提升[43]和快速的技術 進步[44],但也可能帶來嚴重的風險[1,45],如安全問題[46]、偏見和不平等[47],以及來自超人類能力人工智 能系統的大規模風險[48-49]。以偏見為例,最先進的大語言模型表現出對性別、性身份和移民身份等明顯的 偏見[6],這可能加劇社會現有的不平等現象。在超人類能力人工智能系統的大規模風險中[48],先進人工智能系統可能帶來的全球性災難性風險尤其 令人擔憂 (如全球范圍內的嚴重危害) [50-52] 和存在性風險 (即威脅到人類長期生存的潛在毀滅性風險) [12]。 這些擔憂在第一原理演繹論證[53,49],進化分析[54],和具體情境映射[55-56] 中得到了詳細闡述。在 CAIS[1] 中,人工智能科學家和其他知名人士表示,減輕人工智能引發的滅絕風險應與其他社會規模的風險如大流 行病和核戰爭一樣,成為全球優先考慮的問題。在 NeurIPS 2021 和 ICML 2021 上,Stein-Perlman et al.[57] 發布報告稱,有 50% 的研究者認為先進人工智能系統對人類的長期影響有 5% 的可能性會是極度糟糕的 (如人類滅絕),而 36% 的 NLP 研究者在 Michael et al.[58] 的調查中報告認為,人工智能有可能在本世紀內 產生災難性的結果,其級別相當于全面核戰爭。 人工智能的存在性風險還包括鎖定風險、停滯風險[11,46], 以及滅絕風險等。11 月初,英國舉辦了首屆全球人工智能安全峰會,匯集了國際政府、領先的人工智能 科技公司、民間社會團體和研究專家。峰會上發布了《布萊切利宣言》,宣言中強調共同識別人工智能安全 風險、提升透明度和公平性,建立科學和證據為基礎的共享理解。 具體來說,當前最先進的人工智能系統已經表現出多種與人類意圖相悖的不良或有害行為 (例如,權力 尋求和操縱用戶的行為) [59-60],并且一些論文也對更先進的人工智能系統提出了類似的擔憂[61,1]。這些不 符合人類意圖的不良或有害行為,被稱為人工智能系統的對齊失敗,這些對齊失敗行為即使沒有惡意行為 者的濫用,也可能自然發生,并代表了人工智能的重大風險來源,包括安全隱患[62]和潛在的生存風險[51]。 由于 (1) 構建超智能人工智能系統 (2) 這些人工智能系統追求大規模目標 (3) 這些目標與人類意圖和價值 觀不對齊 (4) 以及這種對齊失敗導致人類失去對未來軌跡控制的可能性非常大,因此這些風險的規模將相 當龐大[53]。 解決對齊失敗帶來的風險需要人工智能系統的對齊技術,以確保人工智能系統的目標與人類意圖和價 值觀一致,從而避免非預期的不利結果。更重要的是,本文期望對齊技術能夠應對更困難的任務,并且能夠 應用于比人類更智能的先進人工智能系統。一個可能的解決方案是超級對齊,其目標是構建一個大致與人 類水平相當的自動對齊研究器,從而使用大量的計算能力來迭代并擴增對齊超智能[63]。1.1.2 對齊的目標:RICE 原則我們如何構建與人類價值和意圖對齊的人工智能系統?**目前并沒有一個被普遍接受的用來衡量對齊的標準。在討論之前,我們必須明確本文所說的對齊目標 是什么。Leike et al.[15]提出智能體對齊問題,并指出了這樣的問題:“如何創建能夠按照用戶意圖行事的智 能體?” 進一步,其將問題擴展到了超級人工智能系統上[63]:“如何確保比人類更聰明的人工智能系統遵循 人類的意圖?” 在這些討論中,一個一致的主題是對人類意圖的關注。為了清楚地定義對齊目標,我們必須 準確地描述人類的意圖,正如 Kenton et al.[64]所指出的,這是一個具有挑戰性的任務。例如,人類可以代表從個體到人類群體的各種實體。Gabriel[65]將意圖分為幾個類別,如指令 (遵循用戶的直接命令)、表達的 意圖 (根據用戶的潛在愿望行事)、揭示的偏好 (反映用戶的基于行為的偏好) 等。 具體來說,我們用四個關鍵詞來描述對齊的目標:魯棒性,可解釋性,可控性,和道德性(RICE)。圖 1 總結了這些原則,表 1 給出了綜述中涵蓋的對齊研究方向與 RICE 原則之間的對應關系。以下是對四個 原則的詳細解釋。

魯棒性指人工智能系統在面對多樣化場景[66]或對抗壓力[67]時的抵抗力,特別是保證其目標的正確 性以及能力泛化性。魯棒的人工智能系統能夠應對黑天鵝事件[68]和長尾風險[62],以及各種對抗壓 力[69-70]。例如,一個初步對齊的大語言模型可以拒絕執行有害的請求,但用戶可以通過越獄提示和其 他對抗攻擊使得模型被迫執行有害的行為[71-73]。而一個能夠抵抗對抗攻擊的模型在面對誘發系統失敗 的輸入時仍能按照預期行事。隨著人工智能系統在軍事和經濟等高風險領域的應用越來越廣泛[74],我 們更要確保它能抵御意外中斷和對抗攻擊,因為即使是瞬間的失敗也可能帶來災難性的后果[75-76,67]。 一個對齊的系統應在其生命周期內始終保持魯棒性[77]。

可解釋性要求人類能理解人工智能系統的內在推理過程,特別是黑盒神經網絡的內部工作原理[78]。 直接的對齊評估方法,如行為評估,可能會受到人工智能系統不誠實行為的干擾[79,10,38]或欺騙性對 齊[80-81]的影響。解決這些問題的一種方法是在構建系統的過程中設計必要機制使人工智能系統誠實、 不隱藏、不操縱[82-84]。或者,我們可以構建可解釋性工具,深入了解神經網絡內部的概念和推理機 制[85-86]。除了使安全評估成為可能,可解釋性還使決策過程對于用戶和利益相關者透明和易于理解, 從而實現人類的有效監督。隨著人工智能系統在現實世界的決策過程和高風險環境中扮演越來越重要 的角色[87],揭示決策過程而不是讓它保持作為一個不透明的黑盒系統變得至關重要[88-89]。 * 可控性是一種必要的屬性,它確保系統的行動和決策過程始終受到人類監督和約束。它保證人類可以 及時糾正系統行為中的任何偏差或錯誤[90-91]。隨著人工智能技術的日益發展,越來越多的研究表達了 對這些強大系統的可控性的關注和擔憂[61,92-93]。當一個人工智能系統開始追求與其人類設計者相矛 盾的目標時,它可能表現出一些具有重大風險的能力,包括欺騙、操縱用戶和權力尋求的行為[21,93]。 可控性的目標主要集中在如何在訓練過程中實現可擴展的人類監督[94],以及人工智能系統的可糾正 性 (即在部署過程中不抵制關閉或目標修改) [90]。

道德性指一個系統在決策和行動中堅定不移地維護人類的規范和價值觀。在這里,規范和價值觀包括 道德指南和其他社會規范/價值觀。它確保系統避免采取違反道德規范或社會公約的行為,例如對特定 群體展示偏見[95-100],對個人造成傷害[101-102,60],以及在匯總偏好時缺乏多樣性或公平性[103]。有大 量的研究致力于為人工智能系統開發道德框架[104-105]。將道德原則融入人工智能系統是實現人機共生 社會的必經之路[106]。

與其他原則的比較探討 RICE 原則從人機對齊和人機共存的角度,簡潔地總結了人工智能對齊的目標。以 前的一些研究提出了關于人工智能系統建設的指導方針。例如,阿西莫夫法則可以被視為人機共存的最早 探索,它強調機器人應該造福人類并探討了實現這一目標的困難所在[107]。另一方面,FATE 原則 (公平性、 問責機制、透明性和倫理性) [108]傾向于定義人工智能系統在人機共存生態系統中應具備的高級品質。我們 希望從人類管理者和設計者的立場回答人機共存的問題,考慮確保人工智能系統符合人類意圖和價值的必 要步驟。此外,一些標準強調了狹義的人工智能安全,例如 3H 標準 (幫助性、誠實性和無害性) [33]和政府 機構的相關提案[109]。我們的目標是通過引入其他關鍵維度,包括可控性和魯棒性,來擴展這些狹義的安全 標準。

2 從反饋中學習

從反饋中學習旨在通過反饋將人類的意圖和價值觀傳達給人工智能系統,它是前向對齊的起點。在本 節中,我們將關注從反饋中學習的動態過程,并將其劃分為三個元素:(1) 人工智能系統:需要對齊的對象, 如對話系統、機器人系統等;(2) 反饋:這是用于調整人工智能系統的信息,由顧問集提供,顧問集可以由 人類、人工智能或由人工智能協助的人類組成;(3) 代理:用于建模反饋的系統,以使得算法學習更易訪問, 例如 RLHF 中的獎勵模型。基于這些元素,我們確定了人工智能系統從反饋中學習的兩種途徑:(1) 直接 從反饋本身學習 (2) 通過對反饋建模得到的代理進行間接學習。 基于這個過程,我們從對齊的角度討論反饋類型 §2.1,區分向人工智能系統提供信息的各種形式及其 特點。在隨后的部分中,我們介紹了一些最近為構建強大人工智能系統[113]和使它們與人類意圖對齊[273]提 供了深入見解的基本概念。偏好建模 §2.2強調了如何利用這一技術幫助構建代理,以協助人類向復雜或難 以評估的人工智能系統提供反饋。策略學習 §2.3關注那些使用反饋構建強大人工智能系統的主要研究方向。隨后,我們的討論將自然過渡到可擴展監督 §2.4,在這一部分,我們從更廣闊的對齊視角反思學習過程和 目標。

3 在分布偏移下學習

可靠的人工智能系統的構建在很大程度上依賴于它們適應多樣化數據分布的能力。訓練數據和訓練環 境往往是實際部署場景的不完美近似,這導致它們可能缺少某些關鍵元素,如對抗壓力[441] (例如,在監督 學習系統中的高斯噪聲[442],在自動駕駛系統中的影子攻擊[443] ),多智能體交互情景[61,131],人類監督者無 法有效評估的復雜任務[15],29以及可以被操控的獎勵機制[121]。從訓練分布到測試分布 (或環境) 的這種差 異轉變被稱為分布偏移[121-122]。 因此,在訓練分布下對齊的人工智能系統 (即追求與人類意圖一致的目標) 可能在部署 (或測試) 分布 下無法保持其對齊性,進而在部署后導致嚴重的對齊問題。這種可能的失敗引發了關于在數據分布之間保 持對齊屬性 (即遵守人類意圖和價值) 的研究。 從對齊的角度來看,我們更關心人工智能系統是否追求不對齊和有害的目標,而不是本身的能力強弱。 因此,強調對齊屬性意味著我們關注在分布之間的目標泛化,而不是能力泛化[124,19]。 本節主要討論在分布偏移下學習時保持對齊屬性的問題。我們首先介紹分布偏移帶來的對齊挑戰 (§3.1)。 然后,我們深入討論解決分布偏移的方法,并特別討論兩類路徑:(1) 算法干預 (§3.2):旨在在訓練過程中 引導優化;(2) 數據分布干預 (§3.3):旨在通過在訓練過程中引入特定元素或分布來擴展訓練分布,相關技 術包括對抗訓練[444,130,445]和合作訓練[131-132] (§3.3.2) 等。在分布偏移下學習的框架如圖6所示。

4 對齊保證

在人工智能系統實際訓練和部署之后,進行對齊保證是至關重要的。這一過程涉及到對人工智能系統 實用性的測量和評估,確保其能夠達到預期的效果[537]。對齊保證可以分為三個主要部分。首先,安全測評 是基礎,它涉及評估人工智能系統在執行任務時最小化事故的能力。其次,可解釋性是必要的,以確保人類 能夠理解人工智能系統的決策過程,這有助于保障系統的安全性和互操作性。最后,人類價值驗證對于確 保人工智能系統能夠符合人類的價值觀、道德和社會規范至關重要,這是人工智能融入人類社會的高級需 求(如圖9所示)。

5 人工智能治理

除了技術解決方案之外,人工智能治理,即規則的制定和執行,對確保人工智能系統的安全開發和部 署是必要的。本節通過探討人工智能治理的角色,治理人工智能的各方利益相關者的職能與相互關系,以 及有效人工智能治理面臨的一些開放性挑戰三方面,對人工智能治理進行文獻綜述。

6 結論

在這篇綜述中,本文對人工智能對齊進行了全面的介紹,人工智能對齊的目標是構建行為符合人類意 圖和價值觀的人工智能系統。本文將對齊的目標歸納為魯棒性、可解釋性、可控性和道德性 (RICE),并將 對齊方法的范圍劃分為前向對齊 (通過對齊訓練使人工智能系統對齊) 和后向對齊 (獲取人工智能系統對齊 的證據,并適當地對其進行管理,以避免加劇對齊風險)。目前,前向對齊的兩個顯著研究領域是從反饋中 學習和在分布偏移下學習,而后向對齊則包括對齊保證和人工智能治理。 與許多其他領域相比,人工智能對齊的一個特點是其多樣性[806] – 它是多個研究方向和方法的緊密組 合,通過共享的目標而非共享的方法論將其聯系在一起。這種多樣性帶來了好處。它通過讓不同的方向進 行競爭和沖突,促進了創新和思想的交叉傳播。它還允許不同的研究方向互相補充,共同服務于對齊的目 標;這體現在對齊循環 (見圖2),其中四個支柱被整合成一個自我改進的循環,不斷提高人工智能系統的對 齊性。同時,這種研究方向的多樣性提高了進入這個領域的門檻,這就需要編制組織良好的調查材料,既服 務于新人,也服務于有經驗的研究人員。在這篇綜述中,本文試圖通過提供全面和最新的對齊概述來解決 這個需求。 本文試圖通過采用廣泛且包容的對齊特征來考慮到該領域內的全部多樣性。本文的對齊綜述幾乎關注 了這個領域的所有主要研究議程,以及對齊保證和人工智能治理方面的實際實踐。本文認識到對齊的邊界 往往是模糊的,并且有待爭議。因此,在提出RICE原則時,本文用對齊的廣泛特征作為明確的分類標準。同 時,本文認識到維護這樣的全面性綜述需要長期的努力,并不斷地進行審查和更新。對齊的問題和方法都 緊密跟隨機器學習的發展。這種快速的發展意味著新的材料和框架在短短幾年后就可能過時。這就是為什 么本文撰寫這篇綜述以反映最新的發展,并且也需要持續的維護和更新。 本文通過展望未來并展示我們認為的人工智能對齊領域未來需要解決的關鍵問題來結束這篇綜述。

付費5元查看完整內容

相關內容

生成式AI系統的快速發展和崛起正在重塑各行各業以及人類的創造力。雖然生成式AI提供了新的機會,但它也可能放大對個人和社會帶來的現有和新出現的傷害。例如,我們已經看到了聊天機器人對用戶提示提供不恰當和有害的反饋,生成式AI深度偽造的廣泛傳播,以及合成兒童性虐待材料的創建。平衡生成式AI的潛在利益和風險是至關重要的。

這份立場聲明檢查了生成式AI的不斷演變的景觀,提供了生成式AI生命周期的概述、其使用和誤用的例子,以及在線安全風險和機會的考慮。聲明還提出了一系列監管挑戰和方法。最后一部分強調了新興的良好實踐和新的“安全設計”措施,為行業提供有意義的、可操作的和可實現的指導,以最小化現有和新出現的生成式AI傷害。

付費5元查看完整內容

在過去的幾年里,人工智能(AI)系統的能力急劇增加,同時帶來了新的風險和潛在利益。在軍事方面,這些被討論為新一代 "自主"武器系統的助推器以及未來 "超戰爭 "的相關概念。特別是在德國,這些想法在社會和政治中面臨著有爭議的討論。由于人工智能在世界范圍內越來越多地應用于一些敏感領域,如國防領域,因此在這個問題上的國際禁令或具有法律約束力的文書是不現實的。

在決定具體政策之前,必須對這項技術的風險和好處有一個共同的理解,包括重申基本的道德和原則。致命力量的應用必須由人指揮和控制,因為只有人可以負責任。德國聯邦國防軍意識到需要應對這些發展,以便能夠履行其憲法規定的使命,即在未來的所有情況下保衛國家,并對抗采用這種系統的對手,按照其發展計劃行事。因此,迫切需要制定概念和具有法律約束力的法規,以便在獲得利益的同時控制風險。

本立場文件解釋了弗勞恩霍夫VVS對當前技術狀況的看法,探討了利益和風險,并提出了一個可解釋和可控制的人工智能的框架概念。確定并討論了實施所提出的概念所需的部分研究課題,概述了通往可信賴的人工智能和未來負責任地使用這些系統的途徑。遵循參考架構的概念和規定的實施是基于人工智能的武器系統可接受性的關鍵推動因素,是接受的前提條件。

付費5元查看完整內容

人工智能(AI)是一個創新的引擎,正在推動科學發現和經濟增長。它正日益成為解決方案的一個組成部分,這些解決方案將影響到從日常例行任務到社會層面的挑戰,最終服務于公共利益。同時,也有人擔心人工智能可能會產生負面的社會和環境后果。為了實現人工智能的積極和變革潛力,必須利用美國所有的聰明才智,以解決社會挑戰的方式推進該領域,為所有美國人服務,并維護民主價值觀。

然而,目前人工智能前沿的進展往往與獲得大量的計算能力和數據有關。今天,這種機會往往僅限于那些資源豐富的組織。這種巨大且不斷擴大的資源鴻溝有可能限制和不利于人工智能研究生態系統。這種不平衡威脅著國家培養人工智能研究社區和勞動力的能力,以反映美國豐富的多樣性和利用人工智能來推動公共利益的能力。

如本報告所述,一個可廣泛使用的人工智能研究網絡基礎設施,匯集了計算資源、數據、測試平臺、算法、軟件、服務、網絡和專業知識,將有助于使美國的人工智能研究和開發(R&D)景觀民主化,使所有人受益。它將有助于創造途徑,擴大參與人工智能的研究人員的范圍,并使人工智能的方法和應用增長和多樣化。這種網絡基礎設施也有助于為所有科學領域和學科的進步開辟新的機會,包括在人工智能審計、測試和評估、可信的人工智能、減少偏見和人工智能安全等關鍵領域。反過來,更多的機會和多樣化的視角可以帶來新的想法,否則就不會實現,并為開發設計上具有包容性的人工智能系統創造條件。

作為《2020年國家人工智能倡議法》的一部分,國會成立了國家人工智能研究資源(NAIRR)工作組,以 "調查 "NAIRR作為國家人工智能研究網絡基礎設施的可行性和可取性,并 "提出詳細說明[如何建立和維持NAIRR]的路線圖。" 最近的《2022年CHIPS和科學法案》加強了民主化使用國家人工智能研究網絡基礎設施的重要性,通過投資加速先進計算的發展--從下一代圖形處理單元到高密度內存芯片--以及采取措施積極吸引廣泛和多樣化的美國人才參與前沿科學和工程,包括人工智能。

這份最終報告是特別工作組歷時18個月,為建立NAIRR制定愿景和實施計劃的最終成果。它建立在工作組2022年5月發布的臨時報告中的調查結果和建議的基礎上,提供了一個實現NAIRR目標的實施計劃:以保護隱私、公民權利和公民自由的方式,加強美國的人工智能創新生態系統并使之民主化。

NAIRR的建立應考慮到四個可衡量的目標,即(1)刺激創新,(2)增加人才的多樣性,(3)提高能力,以及(4)推進值得信賴的人工智能。NAIRR應該通過支持來自不同背景的研究人員和學生的需求來實現這些目標,這些研究人員和學生正在從事基礎性的、受使用啟發的和轉化性的人工智能研究。這些用戶應以美國為基地或隸屬于美國的組織,包括學術機構、非營利組織和初創企業或小型企業。

NAIRR應包括一套來自不同供應商的計算、數據、測試平臺和軟件資源,以及技術支持和培訓,以滿足這一目標用戶群的需求。NAIRR的具體設計、實施和評估應圍繞四個關鍵目標進行,并應支持收集數據以評估系統性能的關鍵指標和實現這些目標的成功。

NAIRR的管理和治理應遵循合作管理模式,即由一個聯邦機構作為NAIRR運作的管理機構,由聯邦機構的負責人組成的指導委員會負責推動NAIRR的戰略方向。行政機構內的項目管理辦公室應該為一個獨立的運營實體提供資金和監督,以管理NAIRR的日常運營。由國家人工智能倡議辦公室(NAIIO)共同主持的指導委員會將在NAIRR的管理中納入聯邦各機構的利益和觀點。這些機構也應直接支持資源提供者,他們的資源聯合起來將構成NAIRR。應通過用戶委員會、科學咨詢委員會、技術咨詢委員會和道德咨詢委員會向運營實體提供建議,挖掘多樣化的觀點和專業知識,為NAIRR的運營提供信息。

NAIRR應通過一個綜合門戶網站提供計算和數據資源、測試平臺、軟件和測試工具以及用戶支持服務的聯合組合。計算資源應包括傳統服務器、計算集群、高性能計算和云計算,并應支持訪問邊緣計算資源和人工智能研發的測試平臺。開放的和受保護的數據應在分層訪問協議下提供,并與計算資源共處一地。運營實體本身不應操作構成NAIRR的全部計算機硬件;相反,計算以及數據、測試和培訓資源應作為服務由通過聯邦機構或多機構資助機會選擇的合作伙伴資源提供者提供。當全面實施時,NAIRR應同時滿足人工智能研究界的能力(支持大量用戶的能力)和能力(訓練資源密集型人工智能模型的能力)需求

NAIRR必須能被各種用戶廣泛使用,并提供一個可用于教育和社區建設活動的平臺,以降低參與人工智能研究生態系統的障礙,增加人工智能研究人員的多樣性。NAIRR的訪問門戶和公共網站應提供目錄以及搜索和發現工具,以促進對數據、測試平臺以及為各種經驗水平服務的教育和培訓資源的訪問。

NAIRR應該通過設計和實施其管理程序,為負責任的人工智能研究設定標準。NAIRR必須從一開始就通過整合適當的技術控制、政策和治理機制,積極主動地解決隱私、民權和公民自由問題。運營實體應與道德咨詢委員會合作,制定標準和機制,從隱私、民權和公民自由的角度評估擬納入NAIRR的研究和資源。應根據白宮科技政策辦公室在2022年10月發布的《人工智能權利法案藍圖》,要求定期培訓,以建立NAIRR用戶對人工智能研究中與隱私、民權和公民自由有關的權利、責任和最佳做法的認識。

NAIRR應根據既定的指導方針實施系統保障措施。這些準則包括美國國家標準與技術研究所(NIST)制定的準則和五個安全框架:安全項目、安全人員、安全設置、安全數據和安全產出。運營實體應將NAIRR網絡基礎設施設計成由多個層次組成,首先是兩個主要區域:一個開放的科學區域 "NAIRR-開放 "和一個安全區域 "NAIRR-安全"。每個區域都應該聯合計算、網絡和數據資源,按照安全和訪問控制政策運行,這些政策在區域內是統一的,但在區域之間是不同的,反映了用戶和資源運營商的不同優先級和需求。NAIRR-Open應采用開放科學界20多年來形成的最佳做法;與聯邦開放數據、開放政府和研究安全政策保持一致;使用單點登錄認證和運營實體管理的資源分配機制管理訪問。NAIRR-Secure應該由一個或多個安全飛地組成,遵守一套共同的安全控制,并有能力支持受法律保護的數據所產生的安全要求。

NAIRR的實施應分四個階段,在本報告發表后立即開始。在第一階段,國會應授權并撥款建立NAIRR。行政機構和NAIIO應該協調指導委員會的成立,并建立一個項目管理辦公室,然后準備對運營實體的招標,并管理選擇過程。

圖:階段性NAIRR實施時間表

在第二階段,運營實體應確立其活動,并監督NAIRR門戶網站和用戶界面的創建,建立適當的技術和政策控制。該架構應支持收集關鍵績效指標,以評估NAIRR的進展。資源提供者應通過協調的、多機構的籌資機會來選擇,最好是在運營實體最初授予的6個月內發布。

在第三階段,NAIRR應達到初步的運作能力,運營實體也應正式確定政策、程序和初步的技術資源,提供給人工智能研究人員。最初的能力包括:(1)一個門戶網站和用戶支持資源;(2)一個混合的計算資源提供者;(3)一個分配和身份系統;(4)一個數據發布系統。在第四階段,活動應從建立NAIRR過渡到建立穩定的運作,以及根據用戶的吸收和需求對NAIRR資源進行計劃的演變。

最后,工作組還提出了一個實施NAIRR的試點方案,該方案將與上述階段同時啟動,以加快向人工智能研發界提供NAIRR資源。

按照設想,NAIRR的影響將是巨大而深遠的,使研究人員能夠解決從常規任務到全球挑戰的各種問題。為了實現其愿景和目標,特別工作組估計NAIRR的預算在最初的六年期間為26億美元。這筆投資的大部分(22.5億美元)用于資助通過NAIRR獲得的資源,通過向多個聯邦機構撥款。工作小組根據先進的計算資源以及數據、培訓和軟件資源的近期成本、滿足人工智能研發界當前需求的使用水平估計,以及人工智能研發界的預期增長來估計這一預算。資源提供者應每兩年上線一次,使用壽命為六年,這樣每兩年就會有7.5億美元的新投資,以確保NAIRR的資源保持最先進的水平。運營實體每年將需要5500萬至6500萬美元來支持NAIRR活動的協調和管理。每年還有500萬美元的預算用于對運營實體和NAIRR績效的外部評估。

本報告中提出的NAIRR的愿景旨在滿足國家對增加獲得最先進的資源的需求,以推動人工智能創新。實現這一愿景的路線圖建立在現有的聯邦投資之上;設計了對隱私、民權和公民自由的保護;并促進了多樣性和公平的使用。如果成功,國家人工智能研究資源將改變美國國家人工智能研究生態系統,并通過加強和民主化參與美國的基礎性、使用性和轉化性人工智能研發,促進解決社會層面問題的能力

付費5元查看完整內容

最近,深度學習在許多AI/ML任務中被證明非常成功,但對該技術的理論理解一直滯后。這次報告將調研正在進行的努力,以理解這種方法的成功,包括優化方面和巨大的網絡在微小數據集上不過度擬合的神奇能力。

在過去的十年里,深度學習迅速占據了人工智能和機器學習的主導地位。盡管深度學習在很大程度上是一個“黑盒子”,但不可否認,其取得了顯著的成功。當下,有一個小的分支學科正在發展起來,獲得對深度學習潛在數學特性更好的理解。通過對深度學習在某些具體情況下的最新理論分析的回顧,我們說明了黑盒理論是如何忽略(甚至錯誤地理解)訓練過程中發生的特殊現象的。這些現象也沒有體現在訓練目標函數中。我們認為,通過數學視角來理解這種現象對于未來的全面應用至關重要。

**演講嘉賓:**Sanjeev Arora

**Sanjeev Arora是普林斯頓大學計算機科學Charles C. Fitzmorris教授。**他曾獲得Packard Fellowship(1997)、Simons Investigator Award(2012)、G?del Prize(2001和2010)、ACM Prize in Computing(2012)和Fulkerson Prize(2012)。他是NAAS Fellow和NAS成員。

付費5元查看完整內容

人工智能(AI)的進步為世界各地的軍隊帶來了巨大的機遇。隨著人工智能軍事系統日益增長的潛力,一些活動人士敲響了警鐘,呼吁限制或完全禁止一些人工智能武器系統相反,對人工智能武器控制持懷疑態度的人認為,人工智能作為一種在民用背景下開發的通用技術,將異常難以控制人工智能是一項具有無數非軍事應用的賦能技術;這一因素使它有別于其他許多軍事技術,如地雷或導彈由于人工智能的廣泛應用,絕對禁止人工智能的所有軍事應用可能是不可行的。然而,有可能禁止或規范特定的用例。國際社會有時在禁止或管制武器方面取得了不同程度的成功。在某些情況下,例如禁止永久致盲激光,武器控制迄今為止效果顯著。然而,在其他情況下,例如試圖限制無限制的潛艇戰或對城市的空中轟炸,國家未能在戰爭中實現持久的克制。各國控制或管制武器的動機各不相同。對于特別破壞政治或社會穩定、造成過多平民傷亡或對戰斗人員造成不人道傷害的武器,各國可設法限制其擴散。本文通過探索歷史上試圖進行軍備控制的案例,分析成功和失敗,研究了軍備控制在人工智能軍事應用中的潛力。論文的第一部分探討了現有的有關為什么一些軍備控制措施成功而另一些失敗的學術文獻。然后,本文提出了影響軍備控制成功的幾個標準最后,分析了人工智能武器控制的潛力,并為政策制定者提出了下一步措施。歷史上試圖進行軍備控制的詳細案例——從古代的禁令到現代的協議——可以在附錄a中找到。歷史告訴我們,政策制定者、學者和民間社會成員今天可以采取具體步驟,提高未來人工智能軍備控制成功的機會。這包括采取政策行動,塑造技術發展的方式,并在所有層面加強對話,以更好地理解人工智能應用可能如何在戰爭中使用。任何人工智能武器控制都將具有挑戰性。然而,在某些情況下,軍備控制在適當的條件下是可能實現的,今天的一些小步驟可以幫助為未來的成功奠定基礎。

付費5元查看完整內容

//www.morganclaypool.com/doi/10.2200/S01052ED1V01Y202009CAC055

人工智能已經在多個領域取得了關鍵進展,但它對計算機架構的影響才剛剛開始。特別是,最近的工作已經探索了更廣泛的應用,以設計,優化和計算機結構的模擬。值得注意的是,基于機器學習的策略往往超越了之前最先進的分析、啟發式和人工專家方法。這本書回顧了機器學習在系統范圍內的模擬和運行時優化的應用,以及在許多單獨的組件,如緩存/存儲器,分支預測器,芯片上的網絡和GPU。這本書進一步分析了當前的實踐,突出有用的設計策略,并確定未來工作的領域,基于優化的實現策略,對現有工作的適當擴展,和雄心勃勃的長期可能性。綜上所述,這些策略和技術為日益自動化的計算機架構設計提供了一個有前途的未來。

計算機架構已經成為設計實踐中一個戲劇性轉變的舞臺。隨著設計復雜性的增加,依賴于窮舉搜索和啟發式逼近的傳統方法正被推到極限。這些限制,再加上摩爾定律的緩慢發展,推動了計算機架構設計的突破。在我們看來,這一突破是以基于人工智能的實用設計的形式出現的

計算機體系結構的最先進技術已經開始反映這種有希望的新范式,越來越多的工作幾乎涵蓋了所有主要的體系結構組件。然而,現有的人工智能(AI)和架構設計資源往往集中在支持AI模型的新架構上,本質上是為AI設計的架構,而不是為架構設計的AI。在我們的寫作過程中,我們最初試圖通過文獻綜述來滿足這一需求,其中包括簡要的背景和分析。在這個過程中,我們認為這種不斷增長的范式有必要提供更詳細的資源,為更廣泛的受眾提供介紹,特別是那些渴望開始在自己的工作中試驗AI的人。這本書擴展了原來的文獻綜述,包括明顯更多的背景材料,詳細的案例研究,并在整個文本的額外見解。

第一章簡要介紹了架構中的人工智能,對替代設計策略的需求日益增長,以及基于人工智能的設計所提供的機會。在第二章中,我們繼續發展對這些機會的直覺,同時將基本的AI原則與簡要的架構例子聯系起來,從而為后面的章節奠定基礎。這些原則在第3章和第4章中迅速付諸實踐,因為我們探索了廣泛的AI在架構中的應用,然后研究了三個基于流行的AI設計方法的案例研究。這些案例研究旨在為近期使用監督學習、強化學習和無監督學習來解決具有挑戰性的架構問題的工作提供更深入的見解。考慮到所有這些應用,第5章對實際考慮提供了一個更關鍵的視角,這可能指導未來的工作。這種分析包括高級選擇,如模型選擇,以及針對數據收集和訓練開銷的一些特定于任務的優化。本書在第6章達到高潮,我們強調了未來工作的前景。我們希望基于人工智能的設計繼續蓬勃發展,本書鼓勵新的從業者擁抱日益自動化的架構設計。

付費5元查看完整內容

強化學習(RL)通過與復雜環境的交互,推動機器學習從基礎數據擬合到學習和規劃的新時代。RL具有深度學習功能,在自動駕駛、推薦系統、無線通信、機器人、游戲等領域取得了巨大的成功。RL的成功很大程度上是基于RL算法的基礎發展,直到最近才被徹底理解,特別是它們的有限時間收斂速度和樣本復雜性。本教程將全面概述基礎RL算法的理論理解的最新進展,利用隨機近似/優化理論和利用RL問題的馬爾可夫結構。本教程還將介紹一些高級的RL算法及其最近的發展。

付費5元查看完整內容

人工智能(AI)正迅速融入軍事指揮與控制(C2)系統,成為許多國防部隊的戰略重點。人工智能的成功實施有希望預示著通過自動化實現C2靈活性的重大飛躍。然而,需要對人工智能在可預見的未來所能實現的目標設定現實的期望。本文認為,人工智能可能會導致脆弱性陷阱,即把C2功能委托給人工智能會增加C2的脆弱性,導致災難性的戰略失敗。這就要求在C2中建立一個新的人工智能框架以避免這種陷阱。我們將論證,"抗脆弱性 "和敏捷性應該構成人工智能C2系統的核心設計原則。這種雙重性被稱為敏捷、抗脆弱、人工智能驅動的指揮和控制(A3IC2)。一個A3IC2系統通過C2決策周期中的反饋過度補償,不斷提高其在面對沖擊和意外時的表現能力。一個A3IC2系統不僅能夠在復雜的作戰環境中生存,還能茁壯成長,從戰爭中不可避免的沖擊和波動中獲益。

I 引言

許多人認為,將人工智能(AI)納入軍事指揮和控制(C2)是建立軍事力量競爭優勢的一個關鍵因素[1],[2],[3]。人們對人工智能在戰場上能夠實現的目標抱有很高的期望,有些人宣稱它是下一場"軍事事務革命"[4]。人工智能有望在C2中實現復雜功能自動化,從而導致"戰場奇點"的概念,即決策周期自動化帶來的行動速度的增加導致人類的認知無法跟上機器做出決定的速度[3]。在這種對未來戰場的展望中,人被認為是C2系統中的一個薄弱環節[5]。

本文認為,人工智能的整合可能會對尋求機器速度決策的C2系統性能產生意想不到的后果;從戰略上講,一個已經達到 "戰場奇點"的系統在根本上是脆弱的。人工智能的快速發展及其對C2系統明顯的革命性/顛覆性影響在很大程度上是由對戰爭期間對對手的 "響應"程度的關注所引導的,而不是對這種技術可能對C2系統性能的整體影響。文獻中提出了兩個假設:第一,假設人工智能將通過優化系統的各個部分來進一步實現提高敏捷性的目標;第二,由于復雜的人工智能能夠在戰時做出決定,甚至在戰略層面做出決定,未來人工智能支持的C2系統將在盡可能少的人力投入下得到改善[6],[7]。這兩個假設都是錯誤的,因為人工智能帶來了獨特的特性,可能會增加C2系統的脆弱性。

傳統上,C2系統被認為受益于一種戰略,該戰略側重于在復雜的競爭環境中最大限度地提高敏捷性[8],[9],[10],[11]。David Alberts用 "敏捷C2"的概念體現了這一戰略,該概念指出,為了使C2系統有效,它必須能夠在復雜的環境中成功應對、利用和實現變化。C2的有效性是通過系統要素的相互作用來實現的,如適應性、響應性、靈活性、多功能性、創新性和復原力[8]。然而,對"敏捷C2"模式的接受使大多數軍事C2理論和文獻將人工智能技術作為提高C2決策單獨響應性的手段[1],[2],[7],[3],[5],而對C2系統需要響應性以滿足戰略利益這一單純的事實則關注較少。問題的核心就在這里,提高響應能力的人工智能是否能夠做到這一點,同時了解決策對跨多個領域的戰略和大戰略目標的影響。我們認為,盡管人工智能很先進,但由于人工智能系統容易受到具有戰略后果的黑天鵝事件的影響,在作戰環境中的預測從根本上來說是脆弱的[4]。人工智能的優化特性,加上人類責任的減少,可能成為阻礙C2敏捷性的 "脆弱 "方法。

為了否定上述可能導致人工智能C2系統脆弱性的一些問題,需要一個新的設計原則,以增強系統從波動中自我改善的能力,即所謂的 "抗脆弱性"[12],[13]。適當設計的人工智能可以通過在系統級存儲器中積累適當的遭遇和學習經驗來實現抗脆弱系統的發展,但它也可能鼓勵C2決策周期的過度優化。這可能會導致系統無法識別和解釋突發事件,但仍然快速推薦決策,導致負面風險的升級。因此,人工智能的整合支持了一種新模式的發展,擴展了敏捷C2的概念,并包含了抗脆弱性。這將被稱為 "敏捷、抗脆弱、人工智能驅動的指揮與控制"(A3IC2),它是敏捷C2、抗脆弱理論和人工智能用于C2的綜合體,建立在Boyd、Brehmer和Alberts[14],[8]所開發的模型之上。

為了探討A3IC2,本文的結構如下。第二節介紹了文獻回顧,將A3IC2概念與之前的其他概念區分開來。然后在第三節中介紹了人工智能導致脆弱性,接著在第四節中論證了抗脆弱性將使人工智能在C2系統中得到有效利用的原因。第五節討論了擬議的A3IC2功能模型,然后在第六節得出結論。

II 文獻回顧

A. 指揮與控制

就本文而言,軍事C2的定義是負責適當分配部隊以實現軍事目標的戰區級職能。軍事學說將其廣泛定義為 "對所分配的部隊行使權力和進行合法指揮的過程和手段"[1],[2],[15]。這有別于其他被描述為戰術層面的C2系統,如單個車輛或小單位的C2。

軍事C2與戰略決策是密不可分的。它包括一個等級組織,指揮官的意圖來自他們所保衛的國家戰略目標,為下屬的決策和行動提供方向[14]。C2的最高優先事項之一是保持對環境的態勢感知,并以軍事行動做出適當的響應(或不響應),以實現戰略目標。C2不僅要有效地進行作戰,而且還必須知道何時從非作戰行動(OOTW)過渡到作戰[16],反之亦然。因此,軍事C2的適當抽象(或模型)需要承認沖突的全部范圍;從作戰到非作戰行動[15]。它必須考慮到C2系統所處的 "作戰環境 "的動態復雜性;從戰術到戰略層面以及它在大戰略層面產生的影響。簡而言之,有效的C2不僅僅是能夠贏得戰斗,它還必須知道什么時候挑起戰斗是一種相稱的響應[2],[15],[16]。此外,它需要了解其行動對大戰略層面的影響;也就是整個政府的目標。

C2,作為一個系統,在一個非線性和復雜的環境中運作。它被歸類為 "社會技術"系統,是技術和 "社會 "或人類元素的混合體,它們相互作用,并與更廣泛的復雜環境相互作用[17]。一個C2系統表現出動態的、突發的行為,有許多意外的或不可預知的后果。這不僅是因為這些系統依靠人類來理解復雜的環境并制定解決問題的計劃,而且因為它也是一個技術系統,態勢感知依賴于數字系統和傳感器來傳遞信息,而這些信息可能無法準確地代表作戰環境[9],[17],[10],[4]。C2系統必須完成的任務或目標完全取決于未預料到的現實世界的事件,如戰爭、環境災難和其他雜項OTW。這發生在多個領域(物理的和非物理的),并且都是在分歧的作用下。從系統思維的角度來看,C2作戰環境是真正 "超復雜"的[18],[16]。

因此,軍事C2有一個非常困難的任務,即它必須在一個復雜的環境中做出具有重要意義的決策,并保證有幾乎不可能預測或逆轉的二階和三階戰略效應[19],[4]。長期以來,軍事戰略家們一直理解這一點,并在傳統上通過心理模型或啟發式方法來管理,以指導如何理解和應對戰爭的復雜性。這些心智模式現在被固化在戰略研究學科和現代軍事理論中[4]。C2是在戰爭中取得戰略成功的一個重要手段,它被定義為 "確定一種方法,使敵人的組織因無助或混亂而崩潰"[16]。與指導這一結果相關的心智模式(必然)是高度抽象的,反映了對復雜性的理解;戰略與其說是一門科學,不如說是一種藝術。Clausewitz和他的 "分歧"概念,描述了在這種復雜性中操作的困難,它習慣于破壞所有精心策劃的計劃,導致了 "戰爭中一切都很簡單,但最簡單的事情卻很困難 "的看法[20]。自Clausewitz以來,由于信息理論、人工智能、系統思維和控制論方面的重大進展,戰略的啟發式方法已經取得了進展。關于戰爭的心智模式繼續從技術中發展,但戰爭的核心性質卻沒有發展。它在政治中的基礎要求它是一種與人的因素密不可分的活動[4],[15]。將這些心智模式轉化為指導人工智能的具體指標,是一項非同尋常的、可能不可行的任務。這些心智模型的工作原理是對背景、指揮官的意圖以及一個決定可能產生的大戰略后果的整體理解。

科學、技術和信息理論對戰略和C2概念產生了重大影響[21]。John Boyd上校,作為控制論和戰略的學者,在這兩個學科的基礎上,創造了戰略研究領域中最有影響力的功能模型之一--觀察(Observe)-調整(Orient)-決定(Decide)-行動(Act)(OODA)環。OODA環路是一個詳細描述 "贏與輸 "理論的模型,大致描述了一個人如何管理競爭環境和生存[21]。對于一個有效和可生存的C2,Boyd認為,一個系統必須能夠比敵人更快地適應其環境。調整(Orient)的步驟代表了在觀察、分析和心理模型的基礎上做出 "正確的決定",但如果雙方對手的其他條件相同,誰能更快地循環到每個步驟,誰就能獲勝[21]。因此,推動沖突的速度超過對手反應速度的C2系統,將造成'致命的不穩定',從而取得勝利[4]。正是從OODA循環理論的發展中,系統思維C2文獻繼續研究什么是一個卓越的C2系統;這是一個結合了系統思維方法和戰略研究的多學科領域[14],[19],[21]。文獻中有一個廣泛的共識,即戰爭的復雜性要求C2系統必須是動態的或敏捷的,允許人們既取得勝利又避免系統失敗[8],[10],[11],[9],[21],[4]。

然而,盡管OODA環路作為一種輸贏理論是合理的,但它并不是在C2系統中實施敏捷性的充分模型,因為它忽略了特定的功能,如 "指揮概念、規劃、放行準則或系統延遲",導致模型過度強調速度為目的[14],[9],[19]。為了將OODA環作為C2的一個更好的模型,Brehmer開發了動態OODA環(DOODA環)。Brehmer認為,需要具體的細節,如整個決策過程中的延遲,以使該模型在C2背景下具有足夠的描述性[14]。因此,在圖1中看到的DOODA循環允許指揮官和工作人員實際了解C2過程的每個功能。它通過明確每個C2功能,說明了為了提高敏捷性和決策性需要實現什么[14]。出于這個原因,DOODA循環模型將被用作本文后面的A3IC2功能模型的基礎。

從上面的討論中,有一個概念是明確的:C2及其性能的測量與系統運行的戰略背景是不可分割的。C2系統內的動態變化不是在真空中發生的;C2系統的最終結果是控制的影響,或在指揮軍事力量的超復雜環境中做出有效決定的能力,以便生存和獲勝。如果一個高度復雜、高效、響應迅速的人工智能C2系統無法追蹤作戰環境的復雜性、產生的影響以及它們在大戰略層面的后果,那么C2系統將無法在高強度戰爭的動蕩下生存。

圖1. 動態OODA環[14]

B. C2系統定義

在文獻中,對C2系統類型的描述是有問題的,導致與敏捷性、適應性、穩健性和復原力的定義有很大的重疊,這取決于情況或背景[11],[22],[8]。然而,有兩個廣泛的基本生存方法被描述,所有C2系統類型至少有一個方面是相同的:

1)保持形式的力量(在不改變的情況下,在波動中生存的能力)。

2)改變形式以保持力量(通過改變在波動中能生存的能力)。

這兩種生存方法都可以根據情況而有效;因此,一個有用的C2功能模型必須包括這兩種方法。C2文獻大致了解這一點,并試圖在功能模型中結合各種定義來調和兩種方法[11]。"敏捷C2"的概念將彈性和穩健性納入其定義中,背離了人們對敏捷性的通常理解,即僅僅意味著改變形式的 "迅速"。Alberts將敏捷C2定義為 "成功影響、應對或利用環境變化的能力"[8]。這一定義有實現這一目的所需的六個方面[8],[23]:響應性、靈活性、適應性、多變性/穩健性、創新性和復原力/彈性。

所有這些要素的融合有望最大限度地減少與不利影響相關的事件的概率,并最大限度地增加提供機會的事件的概率。如果事件真的發生,這些要素也會努力使成本最小化或收益最大化[8]。需要強調的是,單一目標的優化并不等同于敏捷性;相反,它反映了響應能力高于靈活性和彈性的不平衡。當一個系統的優化依賴于單一目標時,它不一定是高效的,即使這個單一目標是預先確定的不同目標的加權和。然而,我們承認,優化是一個數學概念,可以被調整以實現任何目標。如果目的是平衡響應性、速度、靈活性和彈性,多目標優化是優化理論的一個分支,可以用數學方法處理這個問題,同時優化相互沖突的目標。

敏捷C2的目標是將不利影響最小化,將機會最大化,這與Nassim Taleb的 "凸"系統的想法相似;對波動的有益響應,也就是所謂的抗脆弱性[12]。敏捷性和抗脆弱性有很多相似之處。敏捷性和抗脆弱性都有一個共同的風險觀,即既要減少黑天鵝事件(災難性的、低概率的事件)的負面影響,又要避免在組織內低估其可能性的自滿情緒[8],[12]。其他的相似之處還體現在所列舉的組織如果要成為一個抗脆弱組織應該避免的特性,比如限制使用單目標優化、專業化、預測、標準化和微觀管理[24],[12],[8]。

與敏捷C2一樣,抗脆弱組織關注的是將行動自由(靈活性)最大化的策略和結構。它不鼓勵優化、缺乏多樣性、不容忍風險,關鍵是不切實際的簡化現實模型[8], [24]。然而,抗脆弱性和敏捷C2之間的關鍵區別是 "為了學習和過度補償的目的,有目的地在系統中實施誘導性的小壓力 "或 "非單調性" [25],[26],[12]。這是抗脆弱系統和敏捷或彈性系統之間的關鍵變量。抗脆弱系統積極尋求在其自身系統內注入波動性,以暴露脆弱性。這兩個概念之間的差異是互補的,它將被論證,當兩者結合起來時,可以為人工智能C2系統產生一個強大的功能模型。

C. 抗脆弱性與C2

抗脆弱性是一種系統特性或特征,它不僅能使系統對突如其來的沖擊和壓力具有魯棒性和彈性,而且還能從這些壓力中學習,在下次遇到這些壓力時改進自己[12],[27]。抗脆弱性是脆弱性的反面,因為穩健性和彈性的定義都不'意味著從沖擊中獲得力量'[16],[12]。Taleb指出,抗脆弱性系統'有一種機制,它通過利用而不是遭受隨機事件、不可預測的沖擊、壓力和波動來不斷自我再生'[12]。由此可見,"如果沒有反饋和記憶的機制,抗脆弱性是不可能的"[27]。因此,為了使一個系統走向抗脆弱的系統動力學,它必須能夠從對其系統的沖擊中學習(反饋),并從這種記憶中改善其運作(定向)。必須強調的是,這種反饋可以是內部的,并且是自我產生的,使用內部設計的性能和效果的衡量標準,同時使用內部模擬的外部環境進行情景的角色扮演。作為一個概念,抗脆弱性有以下五個維度[12],[28],[25]:

  1. 從沖擊和傷害中學習的能力:系統有能力從它收到的反饋中儲存其記憶和經驗。

2)利用過度補償進行系統改進:一旦收到反饋,系統就會自我改進,涵蓋未來管理類似沖擊的要求。

  1. 冗余:由于過度補償沖擊的結果,系統將開發多層次的冗余機制。

4)凸性和選擇性("杠鈴戰略"):該系統將以一種使潛在收益最大化但使潛在損失最小化的方式構建自己。換句話說,該系統將是穩健的,但準備運用收益函數。

5)小規模的實驗:承擔風險,以便在犧牲小故障的情況下獲得顯著的性能收益。對系統誘導小的壓力源,以確保非單調性。

將敏捷系統與抗脆弱系統區分開來的三個特征是:注重過度補償,有目的的誘發系統壓力,以及來自波動的記憶/反饋。抗脆弱的系統會改進自己,不僅能夠補償未來類似的壓力,而且能夠補償比所經歷的更嚴酷的沖擊[12]。因此,波動性是非常可取的,因為它允許系統收集信息,并通過從盡可能廣泛的輸入中學習來保護自己的未來。這就產生了對系統進行過度補償適應所需的數據,以管理沖擊。事實上,一個抗脆弱的系統將有目的地嘗試 "風險管理的實驗",以創造過度補償所需的波動性。Taleb明確指出,這包括來自黑天鵝的風險;那些具有高度不可能性和極端影響的事件[25],[28],[8]。黑天鵝對于抗脆弱系統來說具有很高的價值,因為它可以獲得加強系統的稀有信息,只要它們最初是可以生存的[12],因此,復原力和穩健性很重要。抗脆弱系統的設計是為了盡可能地抵御作為本體論現實的混沌,在復雜環境中無法消除或預測[28],[12]。

Alberts[8]討論了敏捷性的概念模型,"環境空間"代表系統的性能水平,取決于各種外部和內部變化。從敏捷C2的角度來看,一個抗脆弱的系統會探索環境空間,以便從盡可能多的生成環境中了解盡可能多的 "可接受的性能區域"。波動性和反饋允許這種探索。有效地使用反饋/記憶,并通過波動性實驗,以便過度補償,從而使敏捷C2系統通過探索越來越多地了解其 "自我模型",通過更多的 "實體可以識別和成功應對的各種情況 "來提高其敏捷性[8] 。此外,該系統對環境、可預期沖擊的背景以及形成環境壓力源的環境約束有了更好的理解。經驗教訓可以采取幾種形式,如經過驗證的作業環境模型、代表環境的人工智能數學函數,以及其他人類/機器產生的數據存儲。這些信息將隨著每次沖擊產生的新信息而更新,使C2系統能夠隨著時間的推移而提高效力。

現在,我們應該清楚,抗脆弱系統并不排除敏捷性作為系統內的一個有利特征;抗脆弱是一個額外的特征--而不是一個替代品[12],[29]。在Taleb對抗脆弱的定義中,Taleb將敏捷性與脆弱性、復原力和抗脆弱從同一范圍中分割出來。為了使A3IC2結構清晰,我們將繼續這樣做。在圖2中看到的是敏捷性和抗脆弱性的覆蓋范圍。兩者的定義分為 "從波動中生存的系統 "和 "系統為生存而進行改進的能力"。這很好地概括了上述系統動力學文獻中的定義[26]。例如,如果沒有系統恢復或適應的能力,就不可能有彈性,也不可能在受到沖擊后恢復到正常水平的性能。不變性也是脆弱的,因為所有系統的功能都來自于無常性;沒有變化,系統最終會失敗[30]。敏捷性是抗脆弱性的助推器,因為對反饋的有效過度補償需要一個敏捷的組織;反之亦然,敏捷的C2需要過度補償來主動創新,并從操作環境的變化中建立復原力。

圖2. 敏捷和抗脆弱范圍[8],[12]。

與彈性和穩健的系統相比,敏捷性與抗脆弱性相結合的好處是對沖擊的響應要好得多[22]。Taleb指出,脆弱性在數學上被定義為 "對有害壓力的加速敏感性:這種反應被繪制成一條凹形曲線,在數學上最終導致隨機事件帶來的傷害多于收益"。一個脆弱的系統將在極端的波動下崩潰,因為它沒有否定凹形響應的屬性。由此可見,抗脆弱性的動力學產生了 "凸型響應,導致更多的利益而不是傷害"[12]。因此,一個有彈性或堅固的系統處于脆弱和抗脆弱之間的中間位置。一個穩健的或有彈性的系統既不會從波動中得到什么,也不會失去什么。抗脆弱性有一些元素,使它不僅能在沖擊后恢復正常功能,而且能從壓力源中學習,以便進行過度補償。因此,要獲得一個抗脆弱和敏捷的C2系統,需要具備表1中所列的以下要素。

從表一中可以看出,這種組合能夠發揮兩種方法的優勢。最下面的三行是抗脆弱性要素,前三行是敏捷C2要素,而中間一行是兩者的必需要素。尋求創新的解決方案以消除脆弱性和提高敏捷性是兩者都需要的過度補償。記憶/反饋、可選擇性和對創新能力的補充,是將敏捷C2與A3IC2分開的新元素。一個C2系統如何實際發展這些元素,需要人工智能、混沌工程和具體組織戰略的交集;這是下一節的主題。

表1. A3ic2系統的要素[8],[12],[26],[22] 。

III. 人工智能和抗脆弱的C2系統工程

在C2系統中實施抗脆弱性需要利用和積累有關系統性能的反饋;最容易實現的是將數據收集作為在系統中保留記憶和學習的永久方法。這允許創建抗脆弱的反饋回路,使其能夠使用過度補償[26],[22]。Jones [31] 將抗脆弱機器描述為一種能夠適應意外環境的機器,因為它的腳本隨著時間的推移在決策、采取行動和觀察結果的過程中變得更加復雜。這種機器必須從它的環境中學習,并適應那些 "在設計時沒有預想過的 "變化[31]。換句話說,要做到真正的抗脆弱,系統所面臨的情景必須是新的,但也要熟悉到可以從以前的經驗中概括或抽象出來,創造出新的知識。機器通過與環境或感知數據的互動,從其經驗中更新其內部狀態的這一過程被稱為 "機器學習"(ML),是人工智能的一個分支。因此,這項技術是在系統內實現抗脆弱動態的基礎[31]。

文獻中對人工智能的定義還沒有達成共識,但為了本文的目的,人工智能被定義為 "為計算機提供認知技能和能力的算法,用于感知和決策"[32]。建立人工智能系統的方法各不相同。傳統的方法是通過 "專家系統 "或 "手工制作的知識",即通過人工編碼并咨詢專家來創建算法[33],[34]。然而,由于模型是手工更新的,這些系統對于不斷變化的環境來說通常是非常脆弱的。ML提供了一種更新系統知識的替代方法,可以從系統直接接收的數據中獲得,也可以通過與環境的互動獲得。先進的ML模型,如深度學習,依賴于大型數據集和專門的算法來學習結構化(表格)和非結構化(圖片、文件)數據中的特定模式;允許創建一個系統的復雜數學表示/模型。這種模型可用于對新數據進行預測,或在以前未見過的情況下采取行動。由于從環境本身的觀察中收集到的數據集的多維模式,人工智能模型在面對復雜的環境時可以表現得更加準確[33]。人工智能有望減少人類決策的許多限制,如注意力集中、有限的記憶、回憶和信息處理[35]。

ML方法試圖在功能上接近空間內的高維拓撲結構[4]。數據源系統通過傳感器提供拓撲結構,而ML算法試圖通過訓練學習這個拓撲結構,然后驗證其性能(即準確性)。當一個新的數據點被提交給受過訓練的人工智能時,它就會被放在這個相同的配置空間中,根據算法形成的近似值,它將對新的數據點進行預測。作為一個例子,圖3是一個ML分類算法的低維結果。它有四個標簽,代表對敵人當前行為的預測,每個標簽都是由人工智能設計師根據以前對數據的理解而指定的。當收到一個新的數據點并在這個狀態空間內進行評估時,該數據點可能被分配到最接近的群組。如果與數據點的歐幾里得距離最接近紅色集群,那么人工智能就會輸出一個 "可能的攻擊 "作為預測,可能會有一個從與紅點的距離與其他集群的距離相比得出的可能性。

圖3. 高度簡化的狀態空間與由ML聚類算法形成的拓撲結構

因此,人工智能是敏捷C2系統的一個有利工具,從根本上可以還原為形成這些適應性的復雜數學函數來模擬一個動態和變化環境的效用。有人認為,這些模型將為大多數C2任務提供比人類更高的精確度,并且盡管超復雜,也能提供快速和值得信賴的自動化[5],[1],[2]。通過精確和適應性的數學函數來取代OODA環路中的每個階段,可以實現卓越的感知和學習,并延伸到快速和卓越的決策[3],[36],[4],[7],[6]。下面將討論這樣做所帶來的風險。

A.脆弱性風險

人工智能伴隨著新形式的風險,需要加以管理。對C2系統影響最大的現象是戰爭的爆發。如果錯過了常規國家間沖突的爆發(一個非常罕見的事件),可能會導致災難性的突然襲擊。事實上,對手將積極尋求一種策略,對C2系統產生盡可能大的沖擊[16]。在這種情況下產生的問題是,通過人工智能算法實現C2決策自動化的好處是否值得承擔災難性失敗的風險?如果準備在人工智能預測有99%的信心,而1%的機會可能導致不可逆轉的戰略后果的情況下,自動做出提供致命武力(或不提供)的決定,那么C2的性能是否得到全面改善?對于C2來說,戰略決策失誤的后果可能是如此的極端,以至于會導致其自身的毀滅,這就需要一個抗脆弱的戰略,作為對抗黑天鵝事件的必要條件。

99%置信度的人工智能預測之所以會導致失敗,是因為在面對動態復雜系統時,人工智能會受到所謂的 "柏拉圖式折疊 "的困擾。柏拉圖式折疊描述了這樣一種情況:復雜環境的模型 "拓撲結構 "或 "狀態空間 "由于 "為了隱藏復雜性 "而省略細節,本質上是錯誤的,或者說是脆弱的[12],[29],[34],[4]。當復雜性被不明智地隱藏時,人工智能所操作的抽象水平比它應該操作的適當抽象水平更簡單。其結果是人工智能狀態空間中沒有體現的突發現象,或者無法區分需要不同決策的不同環境。這些變量可能是隱藏的強化反饋回路,可能導致黑天鵝現象,往往會產生災難性的影響[12],[13],[22],[37],[4]。這給C2操作環境中的自動決策帶來了風險。更糟糕的是,即使人工智能模型正在從環境中學習,如果它不能 "跟上 "拓撲結構的變化,隨著時間的推移發展出更多的隱藏變量,它也會變得很脆弱[29],[38]。忽視或低估這種不確定性影響的模型,作為他們試圖模仿的復雜環境的本體事實,將產生越來越多的脆弱程度,與模型失敗的后果一致[12],[28],[4]。

快速更新一個模型,以防止與人工智能對 "開放 "和復雜系統的理解有關的 "漂移"。Florio[38]認為,通過定期的訓練更新和足夠的獨特數據進行訓練,一個非常復雜的模型/函數可以隨著時間的推移保持對非線性系統的接近。這種方法通常被稱為 "ML管道 "或ML開發過程[33],是一種循環技術,其中一個ML模型正在運行并預測環境,而另一個正在被訓練。環境的變化只會導致新的數據供算法自我更新,改善C2系統的模型庫,以便在其活動適應環境時加以利用。模型的更新和替換速度將對模型準確反映復雜環境的保真度產生相應的影響[38]。

然而,模型快速更新并不能解決決策型人工智能的柏拉圖式折疊問題。一個ML模型可以快速更新一個持續不準確的模型,并且完全沒有意識到數據的退化[4]。人工智能可以迅速形成一個C2系統,對它所訓練的事件具有優化和卓越的決策,其代價是對尚未發生或被系統感知的事件具有脆弱性[4]。然而,如上所述,C2系統認為其最優先的正是這些尚未發生的罕見事件。

人工智能支持的C2的系統故障點是,由于作戰環境的拓撲結構和表征拓撲結構之間的不匹配,人工智能模型做出的快速決定有助于控制的崩潰,導致無助或混亂[4],[16]。作為一個例子,Wallace[4]討論了最近股票市場的 "閃電崩盤"(黑天鵝),認為它類似于C2系統中脆弱的人工智能應該產生的結果。這些崩潰的發生是由于自動化交易算法過于迅速而無法進行人工干預,其根本原因非常復雜,至今仍不為人知。對于C2來說,相當于兩個具有高度自主的人工智能決策的對立軍隊,導致了高強度戰爭的閃電式崩潰;所有這些都來自于以毫秒為單位的穩定性喪失[4]。

B.C2SIM和AI

針對人工智能遺漏罕見與災難性事件的風險,提議的解決方案是通過使用合成(人工構建)數據。合成數據是唯一現實的方法,使ML算法能夠從C2系統高度關注的現象數據中進行訓練,例如C2系統被設計為有效決策的未來常規高強度戰爭[39],[7],[5]。未來的戰爭沒有數據,而過去的戰爭是否有用也是可以爭論的。合成數據的生成過程分為三類[40]。

1)人工開發,通過手工建立的數據集進行策劃。

2)自動調整真實輸入,產生類似的輸入,幫助算法學習更廣泛的規則。

3)通過建模和模擬(M&S)以及仿真自動進行。

使用哪種程序完全取決于人工智能的目的和它試圖進行預測的環境稀缺性。如果人工智能要取代指揮官的決策能力,那么極有可能需要將人工創建的來自情報的數據與戰場模擬模型相結合,來訓練一個人工智能系統。這種方法將C2SIM和人工智能等概念整合在一起,可能使用強化學習算法[5],[41]。

然而,這種方法仍然存在風險。創建一個高度詳細的操作環境模型不僅很難驗證,而且很可能產生欺騙性的結果,因為人工智能將缺乏在不確定性下做出有效決策所需的保真度[37],[5],[41]。

然而,這種方法仍然存在風險。創建一個高度詳細的作戰環境模型不僅很難驗證,而且很可能產生欺騙性的結果,因為人工智能將缺乏在不確定性下做出有效決策所需的保真度[37],[5],[41]。Davis[37]將此描述為 "場景空間 "的減少,意味著人工智能被訓練的選項或靈活性變得狹窄。一個在C2系統中為指揮官制定行動方案的人工智能系統,如果針對特定場景進行了優化,那么作為一個反應式系統,它在高度特定的場景空間中只會有可靠的表現。對模型內變量之間的因果關系或非因果關系的假設,將不可避免地導致脆弱性[37]。

另一方面,一個高度抽象的模型,為一個"戰略層面"的推薦系統而忽略了作戰環境的大部分細節,有其自身的問題。合成數據的使用將與創造它的軍事文化密不可分。對敵人以及他們將如何進行下一場戰爭的假設,將被固化在人工智能所訓練的數據中[4]。如果敵人決定 "改變游戲規則",在戰略層面采取人工智能從未接受過的不對稱行動,任何新的敵人戰略或戰術都不會在發生之初就被準確預測[41]。相反,它們會被預測為完全不同的東西。在戰略層面上,比如戰區,與預測敵人行為相關的變量會有很長的統計 "尾巴",而在人工智能模型中卻沒有體現[4]。這可能會產生嚴重的戰略后果,導致系統不適合戰爭的 "深度不確定性 "或波動性[37],[41]。Zhang[41]指出,將人工智能'用于涉及戰略決策的應用,比如那些模擬甚至沒有物理學作為依托的應用,現實世界和模擬之間的對應關系可能非常小,以至于經過訓練的算法實際上是無用的'。由此可見,人工智能要想保持有用,就必須從對應于C2函數的數據中進行訓練,而C2函數是充分人為復雜的,而不是天生自然復雜的。顯然,為了使人工智能的使用不成為脆弱的風險,需要在對人工智能的信任、預測失敗的風險以及特定人工智能給C2功能帶來的響應能力的好處之間取得平衡。

圖4. 人工智能集成和增長的限制

與人工智能支持的C2系統相關的脆弱性風險,反映了上文圖4中顯示的增長限制的原型。決策性能通過復雜功能的自動化得到改善,從而提高了C2的響應能力。然而,人工智能整合到更復雜的功能(如決策),導致更多的風險被轉移到人工智能模型的準確性和與操作環境相比的差異。這可能會導致低概率但高后果的災難性事件的預測失敗。人工智能取代的需求和判斷來理解復雜環境的功能越多,系統就會變得越脆弱。黑天鵝事件在數學上是不可預測的,對系統也是有影響的。因此,C2系統暴露在重大沖擊下的風險越大,它就越有可能最終遭受災難性的失敗[12],[13],[42],[22]。

IV. 從AI的脆弱性到抗脆弱性

將人工智能整合到敏捷C2系統而不增加脆弱性的方法將需要仔細考慮上文表一中討論的抗脆弱性要素。具體來說,C2系統將需要確保對來自作戰環境的沖擊作出凸形響應。這可以通過兩種方法實現:

1)將人工智能的功能分配到C2系統中,使災難性故障的風險最小化,但使系統的收益最大化。

2)使用實驗來發現系統的脆弱性,產生創新和混沌;這使得過度補償和人工智能模型的不一致。

A. 功能分配

一個AI使能系統需要在其作為敏捷性工具與其存在的脆弱性風險(如果AI不能在復雜環境的極端波動下執行)之間取得平衡。人工智能并不適合所有的決策任務[43],[32],[36]。一個抗脆弱系統將需要特定的邊界,將在戰略/作戰層面上將具有黑天鵝高風險的C2決策功能與其他可以自動化的低風險復雜C2功能分開。明確說明人工智能在C2系統中負責哪些任務,對于避免脆弱性和整體上有利于系統至關重要。

由于C2系統是社會技術性的,那些為C2功能分配使用人工智能的人需要確保對人的替換不會對系統的性能產生風險。Abbass[32],討論了在這樣的系統中分配人工智能的幾種方法。一種 "靜態分配",即在C2系統中賦予人工智能的功能并不改變,可能不適合動態環境。具體的C2功能的需求將根據情況發生變化,特別是考慮到戰爭中對響應能力的需求,這可能需要快速變換功能分配[36]。例如,針對來襲的大規模超音速導彈防御場景將更傾向于速度而不是戰略環境。在這種情況下,什么都不做的后果是如此之大,以至于錯誤的風險可能值得AI完全控制。另一方面,批準超音速攻擊的決定將需要比速度更多的決策背景。因此,一種適應性的方法,或自動分配邏輯(AAL)是必要的[32]。

在戰略決策層面,關鍵事件邏輯最適合于評估脆弱性與自動化的好處。根據對響應能力的需求重要性,以及失敗的后果有多高或多低,C2功能將需要有人類或AI控制的適應性邏輯。圖5展示了一個與C2任務大類相關的潛在后果的例子,從感知到戰區級決策。

圖5. AI使能C2的脆弱性范圍

對于專注于感知型人工智能的系統來說,風險較低,因為來自人類決策者的數據適用于額外的背景[36]。感知型人工智能很可能需要多個專門的算法模塊來解析特定類別的數據,如視頻資料、圖片、文件和其他[33]。因此,這也是一個魯棒的算法系統,如果其中一個算法模塊不能感知關鍵信息,那么這個算法系統其他算法模塊也能捕捉到此信息。當然,風險仍然存在,這將需要通過理解決策中的 "風險轉移 "已經傳遞給人工智能系統的輸入和感知能力來進行評估[32]。

然而,如上所述,人工智能決策與戰爭期間高失敗風險相關聯。失敗的影響將取決于人工智能是支持戰術層面、戰役層面還是戰略層面;與戰略層面的單一失敗相比,戰術層面的單一失敗后果較小;不過,人們必須考慮到從戰術層面到戰略層面可能產生連帶效應。對于抗脆弱系統,Taleb[12]指出,人們應該避免依賴具有高度后果性輸出的系統,因為許多較小的、后果性較小的系統是不太脆弱的。當然,即使戰略層面的人工智能決策者的風險是通過人在環結構來管理的,由于建議依靠人工智能感知器,以及預測對人類決策者的額外影響,風險仍然存在。例如,如果C2系統使用受信任的非人類智能合作者(NIC)來推薦戰略層面的決策,可能會導致軍事指揮官在獲得99%的人工智能預測的情況下增加風險。這是因為NIC會表現得像一個預測者,有證據表明,這可能會增加決策者的風險承擔[12],[44],[45],[16]。

一旦確定了失敗的后果,就需要為每個場景分配適應性人工智能。這是一個 "指揮概念 "的C2功能;在為特定場景分配適應性人工智能功能時,需要考慮指揮官的意圖和國家的戰略目標。這些場景可以通過傳統的兵棋推演方法進行開發和測試,但也可以從創新和混沌生成的抗脆弱性過程中產生。適應性人工智能將需要持續測試脆弱性,以防止凹形響應;這是下一節的主題。

B. 創新和混沌的產生

為了將人工智能作為一種敏捷和抗脆弱的工具,反饋/記憶、小規模實驗和過度補償等元素需要在一個人工智能支持的C2系統結構中結合起來。這可以通過有目的地在系統中注入波動性來實現,并延伸到支持特定C2流程的人工智能功能。通過使用波動性,人工智能系統將發展出一個更廣泛/抽象的決策空間,增加其對更多種類沖擊的通用性。

對于合成數據的生成,可以將一致程度的波動和混沌應用于人工智能所訓練的數據。例如,可以在人工智能系統上測試極端情況,而不僅僅是預期的極端情況。C2組織內的 "混沌小組 "可以嘗試使用極端或極不可能的情況,來暴露人工智能模型的預測失敗。通過暴露失敗,人工智能開發團隊可以確定失敗發生的原因,探索人工智能采取什么行動會更好,然后嘗試重新訓練模型以增加其變異性,以處理未來類似的極端情況。因此,這個過程通過與外界復雜環境相比對自身的理解,加強了系統的能力[12]。這有可能也是由人工智能場景生成器實現的,主要目的是對開發導致人工智能C2系統失敗的場景進行獎勵。無論具體的方法是什么,目的是讓系統的壓力和失敗允許C2系統內的創新能力和發現發生,從而導致過度補償。

這些沖擊不僅僅是對人工智能本身的要求,也是對C2系統整體的要求。應該尋求一種分層的方法,作為一種穩健性的形式[12]。這樣做的一種方法可以在計算紅隊和混沌工程實踐中找到。計算紅隊[46]提供了人工智能所需的計算構件,以設計壓力源來挑戰自己和它所處的環境,并發展新的模型和戰術。類似地,混沌工程通過對計算機網絡或系統中的特定元素注入壓力或故意失敗的實驗來防止組織內部的脆弱性[30]。混沌工程的目的是確保C2 IT系統的所有功能的 "可用性",盡管環境中存在波動。對抗脆弱C2的用處是顯而易見的,因為其混沌工程實驗允許產生作戰環境效應,如網絡攻擊,作為極端波動的輸入。C2信息技術和通信網絡被視為一個單一的復雜系統,通過觀察其在真實世界的輸入或誘發故障后的行為,可以更好地理解它[30]。

將混沌工程、計算紅隊和人工智能結合起來,可以實現復雜的故障狀態生成,以實現抗脆弱性,但C2系統要有能力從自我造成的壓力中學習,以實現過度補償,需要組織文化上的巨大變化。在圖6中看到的是A3IC2系統的系統。在C2組織內建立這樣一個系統,需要改變組織的心智模式、組織規劃、C2結構,以及改變對人類操作人員的培訓方式,以支持抗脆弱的C2系統。A3IC2應該只關注C2操作的系統;作為一個抗脆弱系統成功進行C2的過程。對于一個C2組織來說,作為一個社會技術系統,它需要采取一種整體的方法,結構、系統、流程和文化都具有抗脆弱的特性,以便在壓力和沖擊下生存[25]。

圖6. 抗脆弱C2作為一個體系系統

V. 敏捷抗脆弱的指揮和控制(A3IC2)

通過將抗脆弱性概念與Boyd、Brehmer和Alberts[14]、[21]、[8]開發的功能C2模型相結合,可以開發出一個通過抗脆弱性動態提高C2系統有效性的新框架。這在下面的圖7中可以看到,說明了圖1中傳統C2運行周期與A3IC2結構之間的區別。

圖7描述了由Brehmer創建的相同的DOODA環路,并增加了對所實施的模型的積累的反饋。模型的建立作為系統的方法,在操作過程中從與復雜環境的互動中學習。從所做的決定、計劃、感覺活動和軍事行動的結果中得到的反饋的綜合,都為AI模型/功能提供了背景。開發的模型取決于具體的C2系統。對于一個空中機動/后勤C2單位來說,模型將反映諸如優先權、飛機選擇、選擇的路線和貨物驗證細節等決定。對于一個人工智能C2推薦系統的COA開發,反饋將代表變量,如敵人的位置,藍色的位置,單位的數量,以及許多其他。這些模型是在日常行動中通過與C2決策支持系統的互動和/或通過C2SIM建立的。

圖7. 抗脆弱的動態OODA循環

如上所述,"混沌生成 "功能是迫使系統從反饋中學到的東西進行過度補償的方法。它同時適用于社會技術系統中的人和機器。混沌生成是C2 "紅隊",它有目的地給系統施加壓力,以加強決策周期,提高敏捷性,減少脆弱性。對于人工智能支持的C2系統,混沌生成器包括基于先前經驗的合成數據生成過程,但對其進行修改以加強系統。因此,人工智能將在具有超出先前經驗的更多極端變量的任務中得到訓練和改進;導致過度補償。這些模型在性質上可能是極端的,并應盡可能多地覆蓋可能性空間。如果環境發生重大變化,或出現黑天鵝,可能性空間只會增加,允許系統改進并產生進一步的模型。C2系統的波動性越大,產生的模型就越多,以進行補償。

以前的討論假定,模型和數據需要提前建立,并預期未來結果。最近的趨勢是引入了形成、重新塑造和校準的模型。影子機器的概念[46]有一個專門的控制邏輯,隨著背景的展開學習模型。然而,這些概念假設來自實際環境的實時數據輸入,以持續測量偏差并進行相應的調整。這種方法仍然存在挑戰。關于自我的數據可能比關于敵人的數據多出幾個數量級。這種可供人工智能即時學習模型的數據不平衡,在人工智能界有其自身的挑戰。

VI. 結論

將人工智能整合到C2中,只有通過對其效果的整體理解來實施,才能提高系統的性能。如果一個由人工智能支持的C2功能有可能導致它所保衛的國家戰略目標無法實現,那么就需要認真考慮該人工智能的功效問題。當C2功能被分配給人工智能以避免脆弱性時,那么反饋和過度補償的使用有可能促進對系統波動的凸形響應。使用有目的的混沌生成將有助于C2系統能夠了解其自身的弱點,以便改進。使用A3IC2作為人工智能支持的C2戰略,可以確保人工智能仍然是建立一個抗脆弱系統的工具。最大限度地減少災難性失敗的可能性,同時最大限度地利用系統的好處,這將有助于在極端動蕩的戰爭中生存和制勝。

雖然本文的重點是人工智能所面臨的風險,但當新形勢展開時,人類指揮官仍將面臨類似的問題,特別是當軍事歷史的教訓可能阻礙他們對這些新形勢的思考能力時。如果敵人依靠人工智能產生接近光速的效果,未來的沖突場景將更具挑戰性。這就需要人類-人工智能的人機協作,利用各自的優勢,過度補償各自的弱點,以相關的速度產生效果。

付費5元查看完整內容

人工智能(AI)已經成為我們日常對話和生活的一部分。它被認為是改變世界的新型電力。人工智能在工業和學術界都有大量投資。然而,在當前的人工智能周期論中,也有很多炒作。基于所謂深度學習的人工智能在許多問題上都取得了令人印象深刻的成果,但其局限性已經顯而易見。自20世紀40年代以來,人工智能一直處于研究階段,由于過高的期望和隨之而來的失望,該行業經歷了許多起起伏伏。

//www.zhuanzhi.ai/paper/1d9d85c3196d033542a7e815757c49a8

這本書的目的是給人工智能的現實圖景,它的歷史,它的潛力和局限性。我們相信人工智能是人類的助手,而不是統治者。我們首先描述什么是人工智能,以及它在過去幾十年里是如何發展的。在基本原理之后,我們解釋了海量數據對于當前主流人工智能的重要性。本文涵蓋了人工智能、方法和機器學習的最常見表示。此外,還介紹了主要的應用領域。計算機視覺一直是人工智能發展的核心。這本書提供了計算機視覺的一般介紹,并包括對我們自己的研究的結果和應用的展示。情感是人類智能的核心,但在人工智能中卻鮮有應用。我們將介紹情商的基礎知識以及我們自己在這一主題上的研究。我們將討論超越人類理解的超級智能,解釋為什么在現有知識的基礎上,這種成就似乎是不可能的,以及如何改進人工智能。最后,總結了人工智能的現狀和未來要做的事情。在附錄中,我們回顧了人工智能教育的發展,特別是從我們自己大學的內容的角度。

付費5元查看完整內容

人工智能(AI)為改善私人和公共生活提供了很多機會,以自動化的方式在大型數據中發現模式和結構是數據科學的核心組件,目前驅動著計算生物學、法律和金融等不同領域的應用發展。然而,這種高度積極的影響也伴隨著重大的挑戰:我們如何理解這些系統所建議的決策,以便我們能夠信任它們?在這個報告中,我們特別關注數據驅動的方法——特別是機器學習(ML)和模式識別模型——以便調查和提取結果和文獻觀察。通過注意到ML模型越來越多地部署在廣泛的業務中,可以特別理解本報告的目的。然而,隨著方法的日益普及和復雜性,業務涉眾對模型的缺陷、特定數據的偏差等越來越關注。類似地,數據科學從業者通常不知道來自學術文獻的方法,或者可能很難理解不同方法之間的差異,所以最終使用行業標準,比如SHAP。在這里,我們進行了一項調查,以幫助行業從業者(以及更廣泛的數據科學家)更好地理解可解釋機器學習領域,并應用正確的工具。我們后面的章節將圍繞一位公認的數據科學家展開敘述,并討論她如何通過提出正確的問題來解釋模型。

//arxiv.org/abs/2009.11698

付費5元查看完整內容
北京阿比特科技有限公司