亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

決策輔助系統是國防指揮與控制裝置的基礎,為各級決策過程提供信息。圍繞人工智能(AI)在決策輔助系統中的應用開展的現有研究認為,人工智能是此類系統性能和應用的關鍵驅動因素。然而,很少有研究探討時間因素和中間決策的存在對決策者對此類系統信任度的影響,或者當決策由另一個人輔助時,與由人工智能輔助時的影響有何不同。現有文獻認為,對人工智能的信任不同于其他信任對象。本論文通過探究信任的產生是否更多地取決于信任的對象或來源來探索這一假設。之前的一項實驗研究了當決策支持僅由人工智能系統提供時,時間和中間判斷對信任的影響。本論文對該實驗進行了擴展,同時操縱了決策輔助的來源,即人類,而不僅僅是人工智能。通過加入人與人之間信任的基礎案例,本研究可以就中間判斷和時間對決策輔助系統信任的相對影響進行比較分析。

決策輔助系統是美國防部(DOD)指揮與控制機構的基礎,為各級決策過程提供信息。團隊是美國軍隊組織和完成任務的主要要素。美國防部打算通過將人工智能嵌入戰術、組織和戰略層面的組織結構(團隊),更快地做出更好的決策,從而獲得優勢(國防部,2022、2023a、2023b)。圍繞人工智能(AI)在決策支持系統中應用的現有研究表明,信任是此類系統性能和采用的關鍵驅動因素。

問題在于,人們尚未充分認識到若干設計參數對信任和性能的影響,這可能會延遲或抵消人工智能決策支持系統的優勢(Ashoori & Weisz, 2019; Tangredi & Galdorisi, 2021)。由于這些系統將用于做出關鍵決策,或在動態、混亂的環境中為人類提供支持,因此這些系統必須值得信賴且性能良好(Babo?,2021;人工智能特設委員會,2023)。本研究的目的是,與人工智能(AI)相比,當人類的決策過程得到人類分析師的支持時,研究自變量(中間判斷和時機)對因變量(信任)的影響。這項研究旨在促進人機系統的整合,實現有效的機器/人工智能設計并更快地應用于軍事領域,加強這些機器的穩健性和復原力,并為設計有效的人機系統提供支持理論。

之前的一項調查試圖了解在僅與人工智能輔助決策系統互動時,信任是如何隨著時間的推移而演變的(Humr 等人,2023 年)。本調查比較了當決策支持來源是人類分析師和人工智能分析師時,信任度是如何演變的。通過操縱決策支持的來源,本調查旨在比較人類和人工智能群體的信任度和表現,并分析人類和人工智能群體本身的自變量的影響。

現有文獻的基本假設是,人類決策者對人工智能決策支持系統產生信任的過程不同于決策者對提供相同決策支持的另一個人類產生信任的過程。這一假設在人工智能研究中基本上沒有受到質疑。雖然人工智能系統中信任和性能的關鍵驅動因素須要并將繼續得到確定,但值得確定的是,它們與現有的以人類之間的信任為基本情況的信任模型相比有何不同。這種調查可能會挑戰現有的假設,即人類建立信任的過程因信任對象的不同而不同。按理說,無論是人類還是人工智能,信任決定都是由人類主體做出的,可能會也可能不會受到人類所信任的對象的影響。

現有文獻表明,人類建立信任的過程更多地取決于信任的對象(被信任的人或事物),而不是信任的來源(決定信任的人類)。鑒于人工智能系統的新穎性和細微差別,以及它們與人類的生物和社會稟賦的截然不同,當決策支持、信任對象是人工智能系統而非人類時,決策背景下的信任模型會有所不同這一假設通過了表面有效性的檢驗。然而,本次調查對現有文獻中這一近乎教條的假設提出了質疑,直接探討了人類對人工智能的信任是否與人類對其他人的信任有本質區別。畢竟,人類的信任過程已經發展了數千年,而機器和人工智能的存在不過是進化過程中的一眨眼。

這項研究試圖擴展之前的一項實驗(Humr 等人,2023 年),在這項實驗中,人工智能分析師為人類決策者提供意見。在該研究中,操縱的自變量是中間判斷形式的選擇和分配的時間。因變量是信任評價,其形式是詢問受試者在與決策支持體互動后,未來將某項任務委托給人工智能的可能性有多大。這項研究重復了之前的實驗,但用人類分析師代替了人工智能分析師。其他一切保持不變,以便在人類支持組和人工智能支持組之間進行比較。

這項研究發現,在由人類與人工智能系統支持決策的受試者之間,信任評價在統計學上沒有顯著差異。這些發現與人工智能信任研究領域的傳統假設相沖突,即人工智能信任是一種與一般信任根本不同的現象,因此需要獨立表達。

雖然這些發現并不能概括所有類型的信任、人工智能的使用案例或人類可能與之互動的人工智能類型,但它確實表明,與試圖重新發現人工智能或人工智能系統中可能使其值得信任的方面相比,更努力地識別人類之間信任的關鍵驅動因素對于設計可信任的人工智能可能更有價值。本研究建議未來的實驗探索信任的另一個關鍵驅動因素,即決策支持(人工智能或人類)的性能,并將其對信任的影響與本實驗中使用的自變量進行比較。此外,本研究還建議調查選擇和時機這兩個自變量如何影響決策者的整體決策表現。畢竟,信任是影響績效的一個中介變量,因此,通過直接觀察這些自變量對績效的影響,決策支持系統的設計者就能建立盡可能好的系統。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

隨著人類-智能體團隊(HAT)研究的不斷發展,模擬 HAT 行為和衡量 HAT 效果的計算方法也在不斷發展。其中一種正在興起的方法涉及使用人類數字孿生(HDT)來近似模擬人工智能驅動的智能體團隊成員的人類行為和社會情感認知反應(Barricelli & Fogli, 2024)。本文將探討與使用數字孿生為 HAT 建立信任模型相關的三個研究問題。首先,為了解決如何通過 HDT HAT 實驗對 HAT 信任進行適當建模和操作的問題,對團隊交流數據進行了因果分析,以了解移情、社會認知和情感建構對信任形成的影響。此外,還反思了HAT信任科學的現狀,討論了HAT信任必須通過HDT才能復制的特征,如信任傾向的個體差異(如信任傾向,Jessup等人,2019年)、新興信任模式(如信任侵犯和修復,Wildman等人,2024年)以及對這些特征的適當測量(如增長建模,Abramov等人,2020年)。其次,為了解決人類發展工具信任的測量方法在近似人類對 HATs 信任方面的有效性問題,討論了人類發展工具信任的特性:自我報告測量方法、基于互動的測量方法和遵從型行為測量方法。此外,還分享了初步模擬的結果,其中比較了用于生成 HDT 通信的不同 LLM 模型,并分析了它們復制類人信任動態的能力。第三,針對 HAT 實驗操作將如何擴展到人類數字孿生研究,分享了實驗設計,重點關注 HDT 的信任傾向與人工智能體的透明度和基于能力的信任。

將人工智能(AI)融入作戰環境在各個領域變得越來越重要,從根本上改變了人類與機器合作實現共同目標的方式。在過去十年中,人類與人工智能團隊(HAT)研究已成為一個重要領域,學者們運用認知科學原理來理解這些新型合作關系的復雜性。這一不斷增長的研究成果反映了了解人類和人工智能如何有效、安全、高效地合作的緊迫性。

隨著 HAT 文獻的擴展和人工智能能力的進步,出現了研究這些互動的創新方法。其中一種很有前景的方法是使用人類數字雙胞胎(HDTs)--旨在復制人類在 HAT 環境中的反應和行為的計算模型。這些 HDTs 可以進行配置,以模擬基于狀態的反應(如瞬時認知和情感反應)和基于特征的特性(包括性格上的個體差異),為傳統的人類受試者研究提供了一個多功能的替代方案[1, 2]。

人類發展工具在人類活動能力研究中的優勢是顯著的。除了解決人類受試者研究的實際限制(如成本和招募挑戰)外,HDT 還提供了前所未有的實驗變量控制和快速測試多種情景的能力。這種能力對于研究復雜的團隊現象尤為重要,而信任則是一個關鍵的重點領域。信任--愿意對另一個智能體的行動處于弱勢--是 HAT 有效性和成功的基本決定因素。

然而,使用人類發展工具來研究 HAT 中的信任動態是否有效,還需要仔細研究。

本文探討了在信任研究中實施 HDT 的三個關鍵問題

  • (1) 如何使用基于 HDT 的方法有效地模擬和測量 HAT 信任?
  • (2) HAT 信任的基本特征是什么,必須在 HDT 信任模型中加以操作化?
  • (3) 傳統 HAT 研究中的實驗操作如何轉化為基于 HDT 的研究?

通過研究這些問題,我們旨在建立一個框架,用于在 HAT 信任研究中驗證和實施 HDT,最終促進我們對人類與人工智能協作和信任發展的理解。

圖 1:移情建構如何影響 HAT 信任度的因果分析結果。

付費5元查看完整內容

本論文探討了如何應用有監督的機器學習技術來提高網絡控制系統(NCS)的性能和可解釋性。無人駕駛系統(UxVs)可通過覆蓋大片區域的延伸偵察任務提供快速高效的目標定位。以協作方式控制一組 UxV 是一個難題,美海軍正在開發的一個解決方案是網絡控制系統行為集成優化(BION)。BION 是一種 NCS,利用部分可觀測蒙特卡洛規劃(POMCP)算法提供接近最優的近實時編隊控制。本文旨在通過使用訓練優良的神經網絡近似關鍵功能,解決 POMCP 算法的某些局限性。神經網絡利用概率技術和顯著性圖提高了可解釋性,同時也提高了處理速度。在基于 ResNet 的不同架構上進行了實驗,并成功地將訓練良好的神經網絡集成到了 BION 中。這項研究拓展了實驗和開發 BION 的能力,從而推動了UxV 的開發和集成。

第二章將討論 BION 的核心功能,以及與神經網絡和顯著性圖譜相關的關鍵概念。第三章將討論實現過程,包括訓練和評估數據、神經網絡架構、神經網絡訓練算法以及生成顯著性圖。第四章將介紹工作成果,包括訓練統計數據和計算出的顯著性圖樣本。第 5 章總結了本文的貢獻以及未來可能的工作領域。

付費5元查看完整內容

超參數是控制機器學習算法行為的配置變量。在機器學習和人工智能領域中,超參數無處不在,其值的選擇決定了基于這些技術的系統的有效性。手動的超參數搜索往往無法令人滿意,并且當超參數數量較多時變得不可行。自動化搜索是實現機器學習自動化的重要一步,使研究人員和實踐者無需通過反復試驗來尋找理想的超參數組合。在本綜述中,我們對超參數優化進行統一闡述,為讀者提供當前技術前沿的示例和見解。我們涵蓋了自動化超參數搜索的主要技術家族,通常稱為超參數優化或調優,包括隨機和準隨機搜索、強盜算法、基于模型和基于梯度的方法。我們還討論了擴展內容,包括在線、約束和多目標的公式,觸及了與元學習和神經架構搜索等其他領域的聯系,并以開放問題和未來研究方向作為總結。

在過去十年中,機器學習已成為推動科學和工業創新的關鍵動力。人類交互的數字化導致了前所未有的數據規模的生成。由于微電子技術的進步以及云計算的興起,這些數據能夠以更低的成本進行存儲。硬件和低功耗芯片設計的進步也導致了計算能力的指數級提升,包括云基礎設施(如圖形處理單元,GPU)以及邊緣設備(如手機)。這兩種趨勢——更便宜、更強大的存儲和計算硬件,為統計機器學習在實際應用中的成功和人工智能中的應用奠定了基礎。它使得學習算法能夠在大量數據中篩選和提取模式,從而實現數據驅動的決策,減少或限制了人為干預。

機器學習的最新進展最顯著的例子之一是 AlphaGo(Silver 等人,2017),這是一個由倫敦公司 DeepMind 的機器學習專家開發的計算機程序。AlphaGo 于 2016 年戰勝了圍棋世界冠軍之一的李世石。這一事件引起了廣泛的媒體報道(甚至被改編成電影),因為當時人們認為,至少在未來幾十年內,不可能有計算機程序能夠在圍棋比賽中擊敗人類。但鮮為人知的是,AlphaGo 的成功在很大程度上依賴于另一個計算機程序自動調整了一組稱為超參數的配置參數(Chen 等人,2018)。該計算機程序依賴于貝葉斯優化,這是一種算法,通過預測和評估使用特定超參數時算法(如 AlphaGo)的性能來逐步優化。在一定的成本或時間預算耗盡之前,貝葉斯優化會不斷計算探索-利用平衡,以決定基于當前性能觀察的下一個最具吸引力的超參數集。

在實際操作中,任何機器學習算法的泛化能力也依賴于超參數。傳統的機器學習算法(例如支持向量機,Shawe-Taylor 和 Cristianini,2004)需要手工設計的特征來將原始數據轉換為合適的格式,而深度神經網絡則通過直接輸入原始數據,以“端到端”方式學習(LeCun 等人,2015)。然而,在這兩種情況下,模型的組成(例如特征提取器的選擇或神經網絡架構)和優化算法依賴于某些量,這些量將決定算法在自然語言理解、計算機視覺或語音識別任務中的學習效果。

為了說明精心選擇超參數的重要性,我們可以以情感分析問題為例。Yogatama 等人(2015)在此背景下研究了超參數的影響。具體而言,作者將該問題框定為文獻中常見的二元分類問題,即分類器的任務是預測文本表達的是消極還是積極情感。他們將簡單的隨機梯度下降訓練的邏輯回歸與卷積神經網絡進行了比較,后者在發表時達到了最先進的結果。表 1.1a 顯示了所搜索的超參數,包括所使用的文本特征(例如,是否移除停用詞)、正則化類型(例如,?1 或 ?2)以及優化算法參數(例如,收斂容差)。在亞馬遜電子數據集上的實驗結果在表 1.1b 中再現。有趣的是,他們發現,使用詞袋表示文本的調整后邏輯回歸與卷積神經網絡表現相當,僅略遜于序列卷積神經網絡。我們將在下一章中更詳細地回到此示例。

因此,超參數在機器學習中起著關鍵作用,因為它們不僅決定了訓練模型的泛化能力,還可能決定了什么才是當前最先進的水平。確實,實證研究中的結果在選擇不同的超參數時可能會大相徑庭,從而得出不同的結論。不幸的是,發表的結果中常常沒有報告用于運行實驗的特定超參數,例如為了證明所提出的方法優于先前發表的方法,而這些結果因此難以復現,這就對當前機器學習中所謂的“最先進水平”提出了質疑(Haibe-Kains 等人,2020)。

本專著的主題是超參數優化(HPO)。可用的算法工具來自動化這一任務及其廣泛采用將有助于機器學習研究人員以一種原則化的方式處理超參數。更重要的是,這些工具將保證新的研究進展可以復現,從而毫無爭議地為該領域作出貢獻。隨著實驗設置的發展,我們認為研究人員需要發布所使用的 HPO 算法、允許消耗的資源量(Dodge 等人,2019)以及所考慮的超參數搜索空間(Gundersen 和 Kjensmo,2018)。我們的目標是提供關于 HPO 的既定技術和最新進展的全面概述。通過這樣做,我們希望有助于在研究和工業領域系統性地使用自動化 HPO 算法的實踐。

付費5元查看完整內容

軍事模擬既是培訓工具,也是分析手段。在訓練方面,模擬為領導者提供了一個機會,讓他們做出名義上的重大決策,并演練這些決策的后果。另外,分析性模擬還提供了一種測試能力、部隊設計和理論的反復且相對廉價的方法。鑒于所需的專業知識和數據,通過腳本或模仿學習的方式為大規模作戰模擬實施人工智能(AI)似乎令人生畏;然而,最近業界在強化學習方面取得的成功,開發出了能玩商業電子游戲的人工智能,這提供了一條令人興奮的前進道路。多模型方法與強化學習相結合,在行動空間和可擴展性方面相對簡單,因此在軍事模擬中具有巨大潛力。多模型方法不使用結構復雜的組合式行動空間進行強化學習,而是使用下級人工智能模型作為智能體的行動空間,有效地委托下級行動決策。本研究提供了強化學習(RL)多模型和分級多模型的概念驗證,分級多模型是一種利用軍事單位固有分級結構的多模型類型。此外,本文還展示了時間抽象和方向變換器的應用如何提高分層多模型的性能。

付費5元查看完整內容

全資源情報分析員的主要工作是根據不確定和不完整的信息,對相關目標及時作出來源可靠的評估。每項評估都包括評估屬實的可能性,以及根據所用信息來源的不確定性確定的置信度。盡管定性情報評估有公認的局限性,而且也有擬議的定量方法,但所有來源情報的定量分析并未廣泛實施。這是由于在基于文本的情報報告(即人類情報、開源情報、信號情報)中定量表示不確定性所面臨的挑戰,這限制了以前建議的方法的有效性和可用性。這項研究通過調整多目標決策分析中使用的定量決策模型,創建了一個新的框架,用于定量評估基于文本的情報來源的不確定性。這種新穎的模型可讓分析人員輕松識別并以數學方式說明造成情報源不確定性的根本原因,對這些原因的重要性進行加權,并輸出一個介于 0 和 1 之間的單一數值,代表情報源的總體不確定性。然后,分析人員可將這一數值輸出作為先前提出的定量情報分析方法的輸入。最終,這一量化情報源不確定性的框架有助于使用先前提出的方法,并創建更多可追溯和可辯護的情報評估。

圖2。基于文本的情報源不確定性變量分解

付費5元查看完整內容

在人工智能(AI)研究領域,制造人工通用智能(AGI)一直是一個難以實現的目標。AGI 將像人類一樣,有能力接觸新的問題領域,學習相關知識,然后使用推理過程做出決策。雖然人工智能技術已被廣泛應用于各種問題領域,但 AGI 要求人工智能能夠在編程和訓練之外進行推理。本文向制造 AGI 邁出了一小步。它描述了一種人工智能學習和開發推理路徑的機制,以便在先驗未知領域做出決策。它結合了一種經典的人工智能技術--專家系統和一種現代的改良技術--梯度下降訓練專家系統(GDTES),并利用生成式人工智能(GAI)為該系統創建網絡和訓練數據集。這些數據集可以從現有資源中創建,也可以借鑒 GAI 自己的預訓練模型中的知識。GDTES 中的學習過程用于優化人工智能的決策。雖然這種方法并不符合許多人對人工智能所定義的標準,但它提供了某種類似的能力,盡管在使用前需要一個學習過程。

自適應多域人工智能技術

本節介紹并描述 AMAIT 的設計,如圖 3 所示。首先,將提供一個概覽。然后,第 3.1 至 3.5 小節將更詳細地介紹 AMIT 系統的關鍵組成部分。

AMAIT 系統結合了 GAI、GDTES 和專家系統技術。為此,AMAIT 系統采用了 GDTES 形式的規則-事實專家系統,該系統利用小數/分數值(DFV)來表示規則。根據特定的應用領域和網絡設計,這些值可以代表部分成員資格、模糊性、置信度或其他類似內容。每種技術都發揮著關鍵作用。從根本上說,AMAIT 的長期目標是建立一個 DFV 專家系統,該系統可以對問題領域進行推理,除了設置所需的初始參數和幫助系統獲取相關數據外,無需人工干預。不過,可以在多個地方加入人工審核,以幫助學習過程并確保準確性和合規性。

系統首先要有一個 GAI 模型,能夠生成與問題領域相關的內容。這可以是一個預先訓練好的通用模型,也可以是一個為特定用途或應用領域創建的模型。該模型向翻譯/轉換器模塊提供內容,該模塊采用良好的數據格式、人類可讀的英語文本,并將其翻譯/轉換為專家系統網絡。

接下來,GAI 可用于以數據格式良好、人類可讀的英文文本形式創建訓練數據集。該數據集將提供給監督學習集創建者翻譯/轉換模塊,該模塊將為所有系統輸入生成輸入值,并為監督學習生成目標輸出。最初,該模塊用于優化應用于 GDTES 系統內規則的權重。

值得注意的是,如果有人工收集的數據,也可用于這一步驟。此外,也可以使用其他合成數據生成技術。

第三個主要步驟是利用 GAI 創建訓練數據集(同樣是格式化良好、人類可讀的英文文本),并將其提供給監督學習集創建翻譯器/轉換器模塊。在這種情況下,它被用來生成用于優化網絡本身的數據(如 [29] 中所述)。值得注意的是,在進行網絡優化后,應再次執行優化權重的過程,以最大限度地提高系統性能。為簡潔起見,圖中沒有單獨描述這一步驟。

如上所述,人工收集的數據或其他合成生成技術也可用于這一步驟。

最后,對 GDTES 模型進行測試,以確保其在投入使用前適合使用。首先,使用 GAI 提供的新數據(或人工收集的數據或以其他方式合成的數據)對其進行測試。然后,使用真實世界的數據(如果有的話)進行測試。如果適用于問題領域,還可在系統運行期間利用反饋機制對系統進行改進。

付費5元查看完整內容

為響應美國國防部(DoD)的戰略現代化倡議,美國空軍(USAF)正在努力開發在未來行動中取得成功的技術和戰術,而做好準備取決于現在就進行投資。為了進行有效的投資,美國空軍和其他國防規劃機構都希望了解,當新技術和新概念方案改變軍事行動中使用的系統時,軍事行動的結果會發生怎樣的變化。在這一過程中,軍事模擬是一個重要的工具,可以幫助人們建立對替代技術和概念的理解和推理能力。

在早期能力設計中,需要考慮各種新興技術和創新概念,分析涉及在模擬環境中運行的模擬人和模擬機器的協作和沖突結果。美國空軍最近正在考慮的一個場景是空軍基地防空 (ABAD),其目標是了解如何在空軍基地遭受導彈和無人機襲擊的情況下有效運作。為了決定投資,為成功實現空中基地防御做好準備,美國空軍正在努力確定有問題的場景和有希望解決問題的替代方案。然而,在所考慮的各種情況和投資中,為應對技術變化和不斷發展的威脅而進行現代化所需的速度意味著需要加快基于模擬的分析,以便更快地建立理解并為決策提供依據。

目前的仿真分析是通過部隊設計過程,利用不同的作戰視角迭代建立對未來作戰的理解,從而應對未來預期作戰的復雜性。在美國空軍,這是在空軍作戰集成能力(AFWIC)領導的 "評估-發展-評價能力發展規劃"(CDP)設計循環中完成的。在這一迭代過程中,有兩大部分是有效模擬分析的核心。首先,通過產生重要的、突發的行為來積累知識;其次,通過桌面設計演練,將利益相關者聚集在一起,并允許與基于仿真的數據進行參數化交互,從而實現真實世界的決策。我們為管理突發行為的工作過程制定了一個框架--"在缺乏知識的情況下利用仿真分析管理突發行為的非線性和隨機未來行為探索(ENFLAME)",以構建相關活動的結構,并將研究重點放在這項工作上。

突發行為是軍事行動結果的關鍵性變化,通常難以預測,因為復雜性會導致一系列不幸事件,導致出人意料的壞結果,或一系列幸運事件,導致出人意料的好結果。在 ABAD 的例子中,這可能涉及各種技術和概念的組合,即使在導彈和無人機攻擊的預期困難情況下,也能產生出人意料的好結果。要找到這些突發行為,通常需要專家與模擬進行交互,并知道應關注和查詢哪些領域,或者使用蒙特卡羅模擬(MCS)進行隨機搜索。然而,美國空軍正在使用的高保真、昂貴的軍事仿真卻限制了蒙特卡洛仿真的使用,因為要找到罕見的、令人驚訝的行為,需要進行很多很多次仿真。此外,專家資源有限,只擅長某些領域,而且未來軍事行動十分復雜,即使是專家也難以預測。這些挑戰促使我們需要改進尋找重要突發行為的方法。

本論文的研究工作通過改進 "評估-開發-評估 "設計循環中的兩項關鍵活動,解決了加速仿真分析所面臨的挑戰。首先,為了加速基于仿真的突發行為分析,我們開發了一種能更快找到突發行為的新方法--使用數值優化(LANTERN)方法追蹤極端罕見事件的低成本自適應探索(LANTERN)。LANTERN 基于從文獻中歸納出的突發行為的特定定義,可以制定優化方法,以比蠻力 MCS 技術更快的速度搜索突發行為。具體來說,利用新穎的貝葉斯優化(BO)技術加速搜索作為罕見、局部和隨機極端事件的突發行為,該技術可自適應地查詢仿真響應以查找罕見事件。這些新技術針對的是與突發行為相關的高度局部極值和局部高變異性的獨特特征。與軍事智能體建模(ABM)的預期響應行為相匹配的測試問題實驗表明,與 MCS 相比,該技術有了很大改進。其次,為了在桌面設計演習中加快對隨機行為的分析,介紹了一種替代建模方法--ECDF-ROM 方法,該方法采用了從工程設計中借鑒的降序建模(ROM)技術,并結合了一種新的現場表示方法。

研究突發行為的實驗表明,使用新的 BO 技術比使用蠻力 MCS 有了顯著改進,可以更快地發現罕見的極端事件。針對桌面設計練習的智能體建模實驗也顯示了近似預測完整經驗分布的可行性。利用仿真、集成和建模高級框架(AFSIM)開發的兩個基于智能體的軍事模擬場景,完成了對 LANTERN 方法和 ECDF-ROM 方法的最后演示。首先,使用敵方防空壓制(SEAD)場景來演示 LANTERN 步驟在搜索罕見的局部極端事件方面的有效性。其次,使用四對四空戰場景演示 LANTERN 步驟在搜索罕見、隨機極端事件方面的有效性,同時演示 ECDF-ROM 智能體建模方法。通過這些演示,本論文中開發的 LANTERN 方法和相關方法(基于泰勒擴展的自適應設計 (TEAD)、針對多外延突發行為的分區貝葉斯優化 (PIONEER)、變異貝葉斯優化 (VarBO))以及 ECDF-ROM 智能體方法可用于加速基于迭代模擬的軍事場景分析的關鍵部分。研究結果還強調了對 ENFLAME 框架的重要更新,該框架旨在利用軍事仿真管理突發行為--再次強調利用仿真發現重要突發行為的能力,并使未來的工作重點放在基于新技術和新概念的漏洞識別與緩解以及機會利用上。

圖 1.5:描述和模擬軍事行動的智能體模擬方法圖解。注意重點是獨立感知、決策和行動的自主智能體,以及定義動態的一系列交互作用。

管理突發行為的 ENFLAME 框架

圖 2.2:管理突發行為的 ENFLAME 框架概述。

圖 2.2 是 ENFLAME 框架的示意圖。該框架有四個核心部分。首先,具體化情景涉及情景建模,包括行動概念(CONOPS)、參與者(系統、人員等)、情景中系統之間以及系統與環境之間的交互。此外,這還包括與直接用于決策的投資和感興趣的投資領域之間的聯系。主要的建模任務還包括翻譯和開發模擬表示法,在模擬表示法中對分辨率和范圍進行選擇,以滿足情景中的決策問題所提出的需求。

其次,一旦創建了情景模擬表示法,就需要探索如何發現重要的突發行為,以便對系統行為進行管理(從輸入和情景配置以及結果的角度找出系統的弱點和機會所在)。根據上述將突發行為定義為罕見的極端事件,要找到這些事件發生時的位置,就需要一種尋找突發行為的方法。這與分析中的 "評估 "階段關系最為密切。

第三,當發現突發行為時,就需要解決其極端性所帶來的問題漏洞或潛在機會。這就需要探索情景中各系統相互作用的因果動態,這些動態導致了極端事件的發生,并產生替代規則或變化,以減輕有問題的行為或強化良好的行為。這與分析中的 "發展 "階段關系最為密切。

最后,一旦設計出潛在的替代方案,使系統中的行為保持在可接受或有利的狀態,就需要評估這些替代方案的可行性和可負擔性,并將其與潛在的投資方案聯系起來。這與分析中的 "評估 "階段關系最為密切。

付費5元查看完整內容

計算力(或稱 "計算")對于開發和部署人工智能(AI)能力至關重要。因此,政府和公司開始利用計算作為管理人工智能的手段。例如,政府正在投資國內計算能力,控制計算向競爭國家的流動,并對某些行業的計算訪問提供補貼。然而,這些工作只是從表面上了解了如何利用計算來管理人工智能的開發和部署。與人工智能的其他關鍵投入(數據和算法)相比,人工智能相關計算是一個特別有效的干預點:它是可檢測、可排除、可量化的,并且是通過極其集中的供應鏈生產出來的。這些特點,加上計算對尖端人工智能模型的獨特重要性,表明對計算的管理有助于實現共同的政策目標,如確保人工智能的安全和有益使用。更確切地說,政策制定者可以利用計算促進人工智能的監管可見性,分配資源以促進有益的結果,并對不負責任或惡意的人工智能開發和使用實施限制。然而,雖然基于計算的政策和技術有可能在這些領域提供幫助,但其實施的準備程度卻存在很大差異。一些想法目前正在試行,而另一些則因需要進行基礎研究而受到阻礙。此外,在隱私、經濟影響和權力集中等領域,樸素或范圍不清的計算治理方法會帶來巨大風險。最后,我們將提出一些建議,以最大限度地降低計算治理的這些風險。

圖 1:報告中的核心概念摘要。計算因其四種特性而對政策制定具有吸引力。可以利用這些特性來設計和實施政策,從而實現人工智能治理的三種關鍵能力。

在第 2 節 "人工智能能力、人工智能治理和計算概述 "中,我們提供了幾個主題的基本背景,作為后面章節的基礎。我們討論了作為人工智能發展關鍵投入的人力資本、數據、算法和計算。然后,我們描述了人工智能生命周期的各個步驟(包括設計、培訓、增強和部署)--其中每個步驟都是可能的干預點(并具有獨特的計算足跡)。我們接著討論了人工智能可能對社會產生的影響,以說明負責任治理的重要性。隨后,我們將回顧目前在治理計算方面所做的努力,以便為后面的章節提供背景資料。

在第 3 節 "為什么計算治理對決策具有吸引力 "中,將解釋計算的特點,這些特點使其成為人工智能治理的一個有吸引力的工具。這源于計算對前沿模型的獨特重要性,以及計算作為一種治理策略所具有的增強功效的若干特性。

讀者如果已經確信計算的重要性和特殊屬性,但又想知道如何將計算治理擴展到現有工作之外,可以考慮跳到第 4 節 "計算可以增強三種人工智能治理能力",在這一節中,我們將探討如何利用計算來增強關鍵的治理能力:(a)通過監控計算來提高人工智能發展的可見性;(b)改變計算的分配以實現有益的發展;以及(c)利用計算來執行人工智能相關規范和法規。

在第 5 節 "計算治理的風險與可能的緩解措施 "中,我們總結了之前關于計算治理可能存在的局限性的討論。

付費5元查看完整內容

強化學習(RL)和人在回路(HitL)學習方面的最新進展使人類與人工智能體的合作變得更加容易。在智能系統中利用人類與人工智能的專業知識和經驗,既高效又有益。不過,人類與人工智能的協作能在多大程度上取得成功,以及這種組隊與僅有人類或人工智能體的組隊相比表現如何,目前仍不清楚。在這項工作中,我們證明了向人類學習是有效的,而且在復雜的模擬環境中,人類-人工智能協作的表現優于人類控制的和完全自主的人工智能體。此外,我們還開發了一種新的關鍵基礎設施保護模擬器,重點關注人工智能驅動的無人機和人類團隊合作抵御敵方無人機攻擊機場的場景。我們開發了一個用戶界面,讓人類能夠有效地協助人工智能體。我們證明,與向人類或智能體學習相比,智能體在向政策校正學習時學習速度更快。此外,與人類直接控制所有智能體相比,人類與人工智能的協作需要更低的精神和時間要求,減少了人類的努力,并產生了更高的性能。總之,我們的研究表明,人類可以為 RL 智能體提供有益的建議,讓它們在多智能體環境中提高學習能力。

保護機場等關鍵基礎設施免受安全威脅是一項復雜、敏感和昂貴的任務,因此人們一直在探索自動和自主解決方案[1]。然而,由于目前技術成熟度和訓練有素的操作員方面的限制,在關鍵應用中采用全自動和自主解決方案并不可取。這可能會導致性能低下、基礎設施嚴重受損以及其他附帶損害風險增加。此外,培訓人類如何有效地使用這些解決方案仍然是一個相當大的挑戰。另一方面,對此類系統的持續監控、快速評估和處理潛在威脅將受益于人工智能能力。在許多情況下,由于系統的復雜性或數據的稀缺性,人工智能體需要在合理的時間范圍內實現完全自主的協助[2]。另一個重大挑戰是人工智能體捕捉上下文理解的能力。例如,考慮一個機場安防場景,隸屬于機場當局的人工智能系統在夜間通過監控攝像頭或無人機檢測到快速移動。該系統可能會將這一移動歸類為入侵者,但由于缺乏上下文的細微差別,無法將其識別為當地警察在機場周邊的例行巡邏。

人類通常擁有解決復雜問題的領域專長、經驗和對上下文的理解,而這些是智能體難以學習或復制的。例如,考慮到上述例子,人類操作員可能會根據無人機出現和行為的相關情況,將無人機識別為例行巡邏。與此同時,智能體缺乏做出適當反應的知識。在安全關鍵型應用中,人的決策變得至關重要,因為在這種應用中,可能會出現部分預料不到的情況。考慮到人類專業知識的價值,有必要在協作環境中有效利用人類知識和態勢感知,尤其是在國防或安全等關鍵應用中。結合人類操作員和自主系統優勢的系統可能會使這些應用受益。這種整合旨在降低系統成本,提高任務性能,同時在危險或關鍵操作中保持有意義的人工控制。這種混合方法對于降低這些高風險環境中的潛在風險至關重要[3]。

最近,強化學習(RL)成功地解決了許多復雜的決策問題,例如掌握圍棋[4]、在平流層部署超壓氣球[5]和生成合成藥物[6, 7]。雖然 Atari 和 Mujoco 等成熟領域已成為前沿 RL 研究的基準[8, 9],但針對復雜領域引入模擬器以促進人類人工智能協作的探索還較少[10, 11]。然而,深度 RL 面臨的一個顯著挑戰是樣本效率低下 [12],需要與環境進行數百萬次交互,因此難以適應現實世界的問題。為了緩解這一問題,示范[13-15]、行動建議[16-18]、偏好[19-21]和獎勵塑造[22-25]等給出建議的技術已被用于引導 RL 智能體進入狀態空間的相關部分。然而,這些工作大多局限于游戲領域和由訓練有素的智能體提供建議。一個重要且相對尚未探索的方面是,在復雜的真實世界環境中,通過人類示范來提高人類與智能體協作的潛力。此外,目前有關人類與智能體協作的文獻顯示,在為人類提供有效建議而進行的智能用戶界面設計和集成方面存在明顯的不足。這種稀缺性經常導致人類與智能體之間的誤解,阻礙了人類操作員專業知識的使用。

為了應對復雜現實世界領域的挑戰,我們針對機場禁區保護系統這一特定問題開發了一種新型模擬器和用戶界面。使用案例包括一個由盟友無人機組成的機群,試圖保護限制空域免受多架無人機的入侵。根據防空領域專家的建議,模擬器的設計模擬了真實世界的動態場景。這包括無人機的速度、飛行動態、地面雷達傳感器的規格、傳感有效載荷(雷達和光電),以及嵌入 "藍色 "無人機的中和有效載荷。這種真實世界的動態變化使得環境變得復雜。環境的復雜性意味著一個天真的 RL 智能體需要多次環境交互才能學習到最優策略。考慮到在指定領域中這些交互所帶來的成本和風險,經過訓練的智能體需要具有樣本效率。我們證明,對于所提到的復雜環境,從人類或智能體演示中學習可以最大限度地減少所需的環境交互次數。一些研究[26-28]表明,當一個人監督復雜系統中的多個智能體時,監控需求的增加會對他們的工作量和認知負荷產生負面影響--這最終會阻礙工作表現。

我們證明,訓練有素的智能體具有更好的決策能力,可以減少人類操作員的工作量,提高人類-智能體團隊的績效。創建人類-智能體協作的主要目標是利用智能體和人類的優勢,同時減輕它們的劣勢。例如,智能體擅長分析龐大的數據集和根據特定模式快速做出決策等任務,表現優于人類[29]。相反,與智能體相比,人類則表現出植根于道德價值觀和語境理解的卓越決策能力 [30]。特定國防領域用例的一個特點是,作戰行動是多變的,往往極難預測,而且道德風險可能極高。為了保持人類行使權力和指揮權,我們還使用人類策略修正來糾正受訓智能體的策略。我們的研究表明,在線策略修正是提高智能體學習效果、實現最佳性能的最有效建議形式。此外,我們還證明,與人類控制未經訓練的智能體(本領域中的無人機)相比,人類在進行策略修正時的認知工作量更低。我們使用非專家人類和智能體演示,以展示我們的方法在解決人類專家有限可用性方面的穩健性。

貢獻 本文有以下貢獻:

1.介紹了一種新型多智能體模擬器,用于國防特定機場保護用例建模,模擬多個盟友和敵方無人機智能體的真實世界動態。

2.使用最先進的深度 RL 算法在新型模擬器內訓練多個智能體。

3.在模擬器內開發用戶界面,使人類操作員能夠動態控制單個或多個智能體,進行情境演示,從而實現人機協作。

4.通過經驗證明,訓練有素的智能體演示或人類與智能體的混合演示有助于智能體更快地學習。

5.比較和評估多種建議提供技術,即從演示中學習和策略修正。

6.通過一項用戶研究,比較各種建議提供技術的人類認知工作量,證明與人類完全控制智能體相比,策略修正所需的工作量更少。

付費5元查看完整內容
北京阿比特科技有限公司