日本一区二区三区不卡网站,日本在线视频网站WWW色下载

本研究采用政治經濟學視角，通過定性調查方法了解自動化對新聞調查和記者的影響。通過對 30 名開放源代碼情報 (OSINT) 調查專家或先驅（主要來自英國廣播公司和 Bellingcat）的調查員和調查記者進行半結構化訪談，本研究試圖解決主要的研究問題：自動化對新聞調查有何影響？本報告通過三個子問題來探討這一問題：

問題 1：自動化工具如何改變調查記者的工作？

問題 2：使用自動化工具開展調查有哪些風險和優勢？

問題 3：在數字化工作背景下，調查記者的心理健康面臨哪些風險？

本研究立足于與新聞和知識工作的政治經濟學相關的理論辯論，如馬克思主義和相關傳統中對勞動的理解。本研究涉及的主題包括：資本主義下通過自動化在經濟過程中對人類的替代、自動化對人類和社會的影響（如異化）、對勞動力的剝削；以及新聞編輯室的權力結構及其對講故事的影響、記者在戰爭和沖突條件下看到的暴力畫面所造成的創傷/心理健康、多樣性（性別和種族）。本研究將資本主義生產方式導致的新聞業危機與第四產業對權力問責的能力之間的關系置于背景之下。通過描繪工作流程中的技術中斷和行業內受影響的記者，研究了人工智能驅動的自動化和使用開源情報工具（OSINT 工具）的增強對新聞調查單元的影響。

本論文中介紹的研究是同類研究中的第一項，研究了 OSINT 對調查工作、方法和實踐以及記者心理健康的影響，并對實踐中的 OSINT 工具進行了分類。研究發現，調查單元采用 OSINT 工具后，能夠從以前無法進入或因沖突而難以進入的地點對一系列侵犯人權行為進行調查。非傳統調查來源的使用引發了知識爭議，顛覆了新聞業的權力流向。然而，對此類調查至關重要的是人的專業知識、創造力和實施工具的方法，而不是工具本身，因為工具本身往往存在缺陷，在增強工作流程時需要人為干預。大多數從事 OSINT 工作的記者都是年輕的數字原住民，他們發現在工作中采用 OSINT 非常容易。然而，工作過度、壓力過大以及經常在線的壓力等問題模糊了工作與家庭的界限。此外，種族、階級和性別的結構性失衡似乎也在 OSINT 領域重演，因為該領域是一個以來自全球北方的白人中產階級男性為主的職業，經常調查全球南方，復制了殖民主義的權力動態。最后，OSINT 帶來的替代性創傷風險是心理健康問題的主要原因，但心理健康狀況不佳與不了解 OSINT 的管理者不了解圖形圖像、疏遠和微觀侵害的影響有關。研究最后提出了基于研究結果的建議，這些建議針對現有的調查單元、希望建立 OSINT 單元的機構，以及希望創建一個具有健康權力平衡的功能性新聞編輯室的管理者，這種新聞編輯室有可能產生有影響力的調查性新聞報道，讓權力承擔責任。

付費5元查看完整內容

相關內容

AI與軍事

關注 1269

人工智能在軍事中可用于多項任務，例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

AI與軍事 · 無人機 · 恐怖組織 ·

2024 年 5 月 30 日

[付費5元查看完整內容]《從被襲擊到襲擊：恐怖組織擴散無人機系統的未來》96頁

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

目前的文獻認為，恐怖組織未來的無人機系統（UAS）行動威脅有限。本研究的論點恰恰相反。恐怖組織使用無人機系統技術目前只是一種小眾威脅。然而，有證據表明，這種威脅將在未來五年內成為主流。本研究采用案例研究法進行定量研究，以證明研究問題。因變量是恐怖分子使用復雜的無人機系統行動。自變量是簡單性、供應和規模。研究評估了三個恐怖組織：庫爾德工人黨、Hayat Tahrir al-Sham 和博科圣地。研究結果表明，獲取無人機系統技術很容易，但由于技術限制，擴大行動范圍卻很困難。此外，報告還指出了當前文獻和研究中亟待解決的問題，如組織如何獲取上述技術并籌集資金來開發項目。報告還強調了美國和國際社會在應對無人機系統威脅方面取得的進展，同時暴露了立法和法規方面的明顯差距。研究的意義表明，美國及其盟國在抵御威脅方面已經落后。

付費5元查看完整內容

AI與軍事 · 博弈論 · 戰略決策 · 俄烏沖突 · 博士論文 ·

2024 年 4 月 8 日

[付費5元查看完整內容]《戰爭戰略決策：烏克蘭沖突第一年期間歐盟-烏克蘭-俄羅斯關系分析》203頁

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文探討了在烏克蘭沖突的第一年（2014 年 2 月至 2015 年 2 月）中，影響烏克蘭決策者在與歐盟和俄羅斯的關系中做出反應的因素。為解釋烏克蘭的決策，論文采用了博弈論啟發的分析框架，該框架基于四個核心博弈論要素：信息、信任、回報和資源。本研究旨在從三個主要方面豐富文獻：將博弈論啟發的分析框架應用于外交政策分析（并將博弈論的應用擴大到正式建模之外）、將這一分析框架應用于烏克蘭戰爭，以及關注烏克蘭的決策（而非歐盟與俄羅斯的關系）。在方法論方面，論文的貢獻在于設計了訪談指南和訪談項目，將博弈論元素應用于分析框架。還對烏克蘭、歐盟和俄羅斯的政策制定者（政治家、外交官和記者）進行了 38 次精英半結構化訪談。此外，還分析了官方文件和媒體報道，這有助于對訪談數據進行三角測量。按照第一年的四個主題和三個時期進行的專題分析使能夠根據烏克蘭決策者對事件的看法來組織研究結果。

博弈論文獻為提供了外交政策決策中的關鍵要素：有關其他國家（及其領導人）偏好的信息；對來自外國對話者的信號（包括正面和負面信號）的信任；所有參與者的回報結構（他們每個人可能得到的結果）；各方的資源及其在特定互動中投入這些資源的意愿。運用這一基于博弈論的分析框架，可以解釋烏克蘭領導人在 2014 年 2 月至 2015 年 2 月期間與歐盟和俄羅斯對話者關系中的決策。核心實證研究結果表明，烏克蘭決策者有限的外交政策分析和缺乏危機管理經驗是如何導致他們對歐盟和俄羅斯的行動產生誤解的。還指出了削弱烏克蘭外交政策能力的因素：革命后權力結構的變化、領導人原本不愿意為自己的戰爭決策負責、高級官員的腐敗、俄羅斯領導人不可預測的形勢步驟，以及歐盟和俄羅斯有意或無意發出的誤導信號。不過，數據也顯示，在戰爭的第一年里，烏克蘭領導人在外交政策分析和決策方面有學習和改進的跡象。

論文分為引言、五章和結論。第一章介紹了文獻綜述，描述了論文旨在填補的空白，介紹了基于博弈論的分析框架，并解釋了該框架將如何幫助回答研究問題。第二章討論了決策者在 1991-2014 年間如何制定烏克蘭的獨立外交政策，尤其側重于該國與歐盟和俄羅斯關系的演變。接下來的三章涉及 2014 年 2 月至 2015 年 2 月這一時間段，并介紹了通過訪談和文件分析得出的原始實證研究結果。根據關鍵時刻和升級/降級時刻將這一年分為三個時期。起點是 2014 年 2 月 21 日，即亞努科維奇與反對派領導人達成協議以及亞努科維奇傍晚離開基輔（第二天離開該國）的日子。次日晚，即 2 月 22 日至 23 日，普京與幾位顧問舉行了一次會議，會上顯然做出了奪取克里米亞的決定。第三章討論的吞并克里米亞時期于 3 月 26 日結束，這一天俄羅斯接管了烏克蘭在半島上的大部分財產。下一個時期是第四章的主題，從 3 月 26 日持續到 9 月 5 日。這一時期包括 3-4 月頓巴斯的叛亂、反恐行動的開始以及夏季爆發的公開戰爭。本章在《明斯克協定一》的關鍵時刻結束。這一時期發生了許多相關事件，一些學者強調了 5 月 25 日總統選舉后暴力的變化和烏克蘭政治的轉變（阿列克謝耶夫，2016 年；馬普爾斯，2016 年）。不過，將這五個月放在一章中研究，因為吞并克里米亞以及明斯克第一和第二協議是更重要的關鍵時刻，這一點也得到了大多數受訪者的認可。第五章探討了《明斯克協議一》和《明斯克協議二》之間的時期。決定在 2015 年 2 月 12 日結束研究時間框架，因為直到撰寫本文時，《明斯克協議》仍是解決沖突的核心文件，而且僅集中研究這第一年在學術意義上是有價值的，因為這一年發生了如此豐富的事件，參與者的觀念和互動也發生了如此多的變化。在每一章實證研究的末尾，都會附上一張表格，列出在這一時期的核心實證研究成果。現在，將開始對博弈論框架進行更細致的討論，這將使能夠開展進一步的分析，并使新穎的實證研究結果更有意義。

付費5元查看完整內容

AI與軍事 · 核武器 · 美國海軍研究生院 ·

2024 年 3 月 21 日

[付費5元查看完整內容]《美國核態勢的連續性與轉變》134頁

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本論文創建了一個矩陣，用于比較美國國防部發布的四份冷戰后《核態勢評估報告》（NPRs）。這些白皮書的并列比較揭示了美國核政策的顯著趨勢。矩陣首先將《核態勢評估報告》中的主題歸入國際關系研究中常見的范式。這些范式包括宣言政策、采購政策、就業政策和部署政策。本論文首先分析了 NPRs 的歷史以及學術界和國際社會對 NPRs 的反應。接著，論文對已確定的主題進行了公正的總結，因為這些主題是通過 NPRs 追蹤到的。然后，本論文根據矩陣、學者對 NPRs 的反應以及與美國力量結構和全球威脅環境相關的其他研究（如美國與大國之間的經濟相互依存關系及其對兩國關系的影響），分析并批評了核政策的發展趨勢。一些政策趨勢遵循黨派路線，另一些則不然。有些變化無常，有些則更容易預測。就美國的核態勢和全球威脅環境而言，這些趨勢的價值驗證了一些擔憂，反駁了另一些擔憂。論文的結論是，有核武器的世界更安全，雖然無核武器世界是未來決策者的一個負責任的目標，但在可預見的未來這根本不切實際。

付費5元查看完整內容

可解釋人工智能 · 數據挖掘 ·

2024 年 1 月 11 日

[付費5元查看完整內容]《可解釋人工智能（XAI）: 數據挖掘視角》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

鑒于深度神經網絡（DNNs）的復雜性和不透明性，人們已經做出了廣泛努力，使這些系統更易于解釋或用易于理解的術語解釋它們的行為。與大多數專注于算法和以模型為中心的視角的綜述不同，本工作采取了“以數據為中心”的視角，考察了數據收集、處理和分析如何促進可解釋人工智能（XAI）。我們將現有工作分類為三個目的類別：深度模型的解釋，涉及特征歸因和將數據點與模型輸出相關聯的推理過程；訓練數據的影響，檢查訓練數據細微差別（如數據價值和樣本異常）對決策過程的影響；以及領域知識的洞察，從數據和模型中發現潛在模式，培養新知識，以推進社會價值和科學發現。具體來說，我們將XAI方法提煉為對訓練和測試數據的數據挖掘操作，這些數據跨越不同的模態，如圖像、文本和表格數據，以及對訓練日志、檢查點、模型和其他DNN行為描述符的操作。通過這種方式，我們的研究從數據挖掘方法和應用的角度，對XAI進行了全面的、以數據為中心的審視。

//www.zhuanzhi.ai/paper/6960f37082a968c932aec73e1160f875

**1 引言 **

隨著人工智能（AI）的發展，傳統的決策技術，如感知器[1]、基于規則的系統[2]、基于案例的推理[3]和專家系統[4]，已讓位于更復雜的深度神經網絡（DNNs）[5]。這些早期技術是基于人類決策過程，從基于規則的推理[6]到基于委員會的預測[7]。存儲和計算能力的激增催化了向DNNs的演變，盡管它們在視覺識別和語言建模等任務上表現出色[5]，但在可解釋性方面面臨挑戰[8]。

DNNs的“黑箱”本質以及其廣泛的參數化妨礙了自動駕駛和醫療等關鍵應用中所需的透明度，引發了人們對這些模型在高風險環境中可靠性的擔憂[9]、[10]、[11]。因此，可解釋人工智能（XAI）已成為一個關鍵領域，提出了諸如LIME[12]等解決方案來改善機器學習的可解釋性1，可能增加對AI系統的信任[13]。這些XAI技術不僅努力實現模型透明度，還為數據集增加了附加價值，幫助完成諸如調試[14]和定位誤標記樣本[15]等任務，豐富了對數據集及其各自領域的理解[16]、[11]。在這項研究中，我們通過對現有文獻的全面審查，通過我們的兩個獨特觀察、三個目的和四階段XAI技術數據處理的角度進行分組和分析。我們的第一個觀察重點關注XAI技術演變和應用背后的驅動力。在對當前文獻進行廣泛審查后，我們將主要目的概括為三個核心類別：1）深度模型的解釋：盡管深度學習模型具有高度的預測能力，但它們的“黑箱”本質限制了可解釋性[12]、[17]。XAI旨在通過闡明這些模型在每個實例基礎上的預測理由，從而促進透明度和信任[8]、[18]。2）訓練數據的影響：機器學習模型的性能取決于訓練數據的分布和質量[19]、[20]。XAI技術可以準確地指出對模型輸出產生重大影響的數據點，促進改進的訓練過程和模型簡化[21]、[22]。3）領域知識的洞察：XAI還揭示了模型和數據中特定于領域的知識，提供了在這些領域內人類理解的潛在進步，并在醫療保健和金融等高風險應用中提供寶貴的洞察[23]、[24]。如圖1所示，XAI作為人類理解和機器學習模型復雜性之間差距的橋梁，提高了AI應用的信心[25]、[26]。

我們還發現，XAI方法遵循類似于傳統數據挖掘的結構化過程[27]、[28]、[29]，將數據、算法和以人為中心的分析整合起來。以下列出了四個關鍵步驟。 1）數據獲取與收集：XAI將數據收集擴展到超越數據集，涵蓋了深度學習的生命周期，如訓練數據集、訓練日志和檢查點、測試樣本等。 2）數據準備與轉換：從模型、數據和訓練日志中提取和轉換DNNs的行為描述符，包括顯著性地圖、訓練損失曲線和輸入/損失梯度向量（也請參見表1），以便后續解釋[30]、[31]、[15]。 3）數據建模與分析：挖掘DNN行為描述符以模擬DNN決策、訓練數據貢獻和數據集模式，從而導致三種類型的分析目的：解釋、影響和洞察[11]。 4）結果報告與可視化：XAI努力的高潮是通過適當的報告和可視化來呈現發現，這取決于數據模態，例如將顯著性地圖疊加在圖像上[32]、[33]，突出顯示關鍵視覺特征。

通過這些步驟，XAI增強了AI框架中的可解釋性、信任，甚至是知識與理解，促進了人類與AI的更好協同。我們的調查采用了以數據為中心的視角來審查XAI，通過結合三個目的和四階段數據挖掘過程來分類組織技術。這項研究的貢獻包括： ? 從數據挖掘的角度對XAI范式進行技術回顧，重點關注解釋過程中的數據相關實踐[34]。這項工作開創了對XAI進行新框架系統審查的先河。 ? 引入了一個新的分類系統，圍繞XAI的三重目的和數據挖掘的四個不同階段，對當前XAI方法進行分類和闡述。 ? 對XAI未來發展的前瞻性討論，強調其揭示數據內在深層洞察的能力，這對像AI驅動的科學和醫學等領域有重要意義。

將XAI研究納入這一分類提供了一個結構化的敘述，豐富了對XAI趨勢和潛力的精確理解。關于XAI的新興研究已在幾項調查中得到審查，突出了解釋深度模型的挑戰和重要性。Doshi-Velez和Kim[8]強調了評估XAI技術的必要性，而Carvalho等人[9]提供了一項廣泛的可解釋性方法研究，涵蓋了模型不可知和模型特定的方法。Hammoudeh和Lowd[174]將重點轉移到了訓練數據的影響上。Mohseni等人提供了一項評估XAI系統的調查和框架[175]。Marcinkeviˇcs和Vogt[16]以及Notovich等人[176]對實用XAI方法進行了擴展，提供了應用示例和技術分類。Preuer等人[177]在藥物發現中探討了領域特定的應用，而Tjoa和Guan[30]則在醫學成像中進行了探討。

與上述工作相比，我們的調查（圖2中顯示的簡要結果）通過從數據挖掘的角度探索XAI的三重角色來彌補XAI文獻中的差距：（1）解釋模型的行為以理解其決策；（2）估算數據的影響，以評估和識別關鍵樣本；（3）從模型和數據中提煉洞察，以獲得推動社會價值和科學發現的新理解。

解釋：深度模型的特征歸因和推理過程

解釋深度模型包括使用特征歸因來評估每個輸入對模型輸出的影響，并檢查推理過程以理解模型內部的決策路徑。

影響：訓練樣本的數據價值和異常檢測

通過衡量訓練樣本對決策過程的影響來解釋深度模型對于理解和驗證這些模型的輸出至關重要。這一過程通常涉及多種技術，這些技術將單個訓練樣本與模型所做決策之間的相關性映射出來[221]、[174]。在本節中，我們將現有工作分類為以下三個方向。

洞察：從數據中發現模式和知識

XAI算法有助于提取人類可讀的洞察，部分原因是它們能夠識別和解釋復雜的多維或多模態數據中的模式、相關性和異常。已經做了兩組努力：一組關注社會價值，另一組專注于科學發現的進步。結論

本文通過數據挖掘的視角，系統地回顧了可解釋人工智能（XAI）的作用，涵蓋了三個關鍵的主題領域： ? 解釋模型行為：本綜述強調了揭示深度神經網絡（DNNs）的決策過程的必要性，從特征歸因和推理邏輯的角度出發，旨在增加AI系統的透明度和信任。 ?** 評估數據影響**：本綜述關注單個數據樣本如何塑造模型的決策和泛化性能，強調對學習的重要貢獻者，并檢測可能導致結果偏斜的任何數據異常。 ? 提煉可行洞察：超越提供解釋，本綜述尋求發現與社會價值一致并促進科學創新的新洞察，將XAI技術的知識引向實際應用。

總之，本研究對上述三個目的的XAI方法進行了全面分析，突出了當前的能力、實際用途，并識別了需要改進的領域。這一分析為進一步的研究奠定了基礎，這些研究努力將XAI更深入地整合到數據挖掘實踐中，并培育一個更透明、可靠、以用戶為中心的人工智能環境。

付費5元查看完整內容

AI與軍事 · 人工智能 · 網絡安全 · 蘭德公司 ·

2024 年 1 月 10 日

[付費5元查看完整內容]《理解人工智能對作戰人員的局限性：第 2 卷，網絡安全數據集的分布變化》2024年最新35頁

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

美國空軍部對人工智能（AI）徹底改變作戰各個方面的潛力越來越感興趣。在這個項目中，美國空軍要求蘭德公司的 "空軍項目"（Project AIR FORCE）廣泛考慮人工智能無法做到的事情，以了解人工智能在作戰應用中的局限性。本報告討論了人工智能系統在執行兩種常見網絡安全任務（檢測網絡入侵和識別惡意軟件）中的應用，以及分布轉移對這些任務的影響，這種現象會極大地限制人工智能的有效性。當人工智能系統在部署后遇到的數據與經過訓練和測試的數據有明顯差異時，就會發生分布偏移。

本報告闡述了分布偏移的重要性，它如何并確實顯著限制了人工智能在檢測網絡入侵和識別惡意軟件方面的有效性，如何測試和量化其影響，以及如何減輕這些影響。這項工作主要針對大型組織，如總部設施，它們有足夠的帶寬和計算能力來實施人工智能網絡安全系統并定期更新系統。

本報告是五卷系列報告中的第二卷，論述了如何利用人工智能在網絡安全、預測性維護、兵棋推演和任務規劃四個不同領域為作戰人員提供幫助。本卷面向技術讀者；整個系列面向對作戰和人工智能應用感興趣的讀者。

研究問題

網絡安全數據集是否受到分布漂移的影響？
如何在網絡安全數據集中檢測和描述分布漂移？
用于檢測分布漂移的數據集的質量和周期有多重要，這些因素如何影響人工智能的性能？

主要發現

網絡安全數據集存在分布偏移問題，尤其是在標準網絡入侵檢測和惡意軟件分類方面。
分布偏移有多種表現形式，檢測的難易程度取決于數據集。
雖然數據質量對訓練機器學習算法很重要，但數據的新舊程度也很重要。
在某些情況下，數據必須是近期的才有用，這就限制了可用于訓練的數據，反過來又限制了人工智能的性能。

建議

任何基于人工智能的網絡安全系統都應進行數據集分割測試，以評估隨時間推移的分布變化對性能的可能影響。這些測試可用于估算數據衰減率，而數據衰減率又可用于估算人工智能系統在必須完全重新訓練之前可能的保質期。
此外，我們還建議對數據集進行著名的統計檢驗，如 Kolmogorov-Smirnov 檢驗，作為檢測或確認分布偏移的額外措施。

付費5元查看完整內容

AI與軍事 · 大型語言模型 · CMU · 決策 · 生成式人工智能 ·

2023 年 12 月 15 日

[付費5元查看完整內容]《基于大模型的智能體決策：利用大型語言模型指令仿真現實人類活動》CMU2023最新29頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本報告探討了 GHOSTS 框架的非玩家角色（NPC）客戶端生成的活動（包括軟件使用）與 GHOSTS 的默認行為和大型語言模型（LLM）生成的活動之間的比較。還探討了基本結果在復雜性和情感方面的比較。在研究中，利用了生成式人工智能（AI）系統的高級自然語言處理能力，特別是 LLMs（即 OpenAI 的 GPT-3.5 Turbo 和 GPT-4）來指導 GHOSTS 框架中的虛擬智能體（即 NPC），GHOSTS 框架是一種在計算機上模擬現實人類活動的工具。設計了一種配置，通過使用 LLM 使活動完全自動化，其中文本輸出成為可執行的智能體指令。初步研究結果表明，LLM 可以生成指令，從而在模擬環境中產生連貫、逼真的智能體行為。然而，某些任務的復雜性和指令到行動的轉換帶來了獨特的挑戰。這項研究對于提高模擬的逼真度和推動類人活動建模中的人工智能應用具有潛在的意義。建議開展進一步研究，以優化智能體對 LLM 指令的理解和響應。

方法

網絡靶場是一個模擬環境，里面有各種登錄到計算機和網絡上的 NPC。這些 NPC 在組織內執行其角色所應執行的任務。現有的 GHOSTS 框架采用客戶機-服務器安裝方式，客戶機安裝在不同的操作系統（OS）上，執行所模擬角色的預期活動。服務器組件收集已執行活動的日志，并能根據一系列可用數據為每個智能體的新活動提供指導。

每個智能體在執行活動時都有各種考慮因素，包括智能體的特定參數、智能體過去的活動以及環境因素。固定參數包括姓名、身體特征、教育程度、工作經歷等。智能體還可能具有可變的特征，如偏好、信念、動機以及隨時間演變的過去活動歷史。

標準的 GHOSTS 配置提供了一套合理的默認值，可以充分隨機化這些考慮因素，以達到 T&E 的目的。團隊成員和其他人（如研究人員、培訓/練習用戶）都使用過這些隨機化策略；我們認為這種方法已經成熟，足以應對大多數情況。例如，模擬運營部門角色的智能體可能會在工作日每 20 分鐘創建一份文檔，同時交替使用互聯網瀏覽時間，以模擬文檔創建與必要的相關研究相結合的情況。

將 OpenAI 開發的不同 LLM 集成到 GHOSTS Animator [SEI 2023b]中，以便其他研究人員和網絡練習社區能夠繼續嘗試我們在本報告中討論的功能。每個 LLM 都充當了智能體的決策功能，生成文本輸出，我們將其轉化為智能體活動的指令。

為了實現這一整合，開發了一個系統，用于解釋 LLM 的輸出，并將其映射到 GHOSTS 框架中智能體可以執行的潛在行動上。該系統考慮到了語言解釋的可變性和智能體可用行動的限制。在將范圍廣泛的可能 LLM 輸出映射到更具體的智能體行動集時，我們面臨著獨特的挑戰。(我們將在下面的章節中描述這些挑戰。）這種集成方法能夠為我們的研究目的提供最廣泛的 LLM 響應，而不管它們與 GHOSTS 的執行是否相關。

智能體決策的基礎

為了在 GHOSTS NPC 中模擬更復雜的行為，將人類推理和行為的幾個方面整合到了智能體的決策過程中。這些方面都是在每次系統迭代或周期中執行的詢問過程中考慮的。在這種情況下，詢問是 LLM 分析智能體屬性和過去活動以決定下一步行動的機會。

每個 tick 或周期的持續時間是可配置的，可以是每個 CPU 周期所需的時間，也可以是更長的持續時間，如五分鐘。在每個 tick 期間，服務器會隨機選擇幾個智能體，并詢問它們以確定潛在的行動。這些行動可以包括學習新信息、與其他智能體建立聯系或執行一項活動。

這些詢問使用我們現有的隨機化策略。其中一些策略涉及純粹的隨機決策，而另一些則依賴于基于真實世界數據的預定義范圍或概率內的隨機化。目前實施的策略圍繞四個關鍵概念：

動機：為了更準確地模擬智能體參與特定內容或執行特定操作的原因，我們需要了解他們的動機。在現實世界中，個人目的、目標和興趣往往是個人活動的驅動力。通過將動機納入模擬，我們可以模擬真實用戶的各種目標驅動行為。為此，我們采用了史蒂文-雷斯博士（Steven Reiss）設計的心理評估工具--雷斯動機檔案（Reiss Motivational Profile，RMP）[Reiss 2012]。RMP 根據人類的 16 種基本欲望來確定個人的核心價值觀和動機：權力、獨立、好奇、接受、秩序、節約、榮譽、理想主義、社會接觸、家庭、地位、復仇、浪漫、飲食、體育鍛煉和寧靜。通過模擬智能體對這些 RMP 欲望的獨特組合，我們模擬出了在整個演習過程中促使他們做出某些決定的內在動機。因此，這種理解揭示了智能體的行為傾向，有助于以更接近人類的方式指導其模擬行動。
關系：人際關系對人類行為的影響是毋庸置疑的，它塑造了我們在社交圈中的學習、決策和互動方式。為了在模擬中更好地模擬這些關系的動態變化，我們在智能體的框架中加入了關系紐帶。這種方法包括在智能體之間建立聯系，考察它們之間關系的深度，以及研究它們對彼此的影響。這種方法使我們能夠模擬大量的社會互動，例如智能體向其信任的同伴尋求建議、與同事分享內容或參與各種話題的討論。這一特點不僅增強了智能體互動的真實性，還促進了智能體之間的知識獲取過程，這與人類在家庭、工作或公共場所從社交互動中學習的方式如出一轍。因此，在我們的模擬框架中引入關系可以增強智能體行為的真實性，更好地反映現實世界中人類互動的復雜性和細微差別。
知識：人類用戶的一個顯著特點是他們在不同領域的知識廣度和深度。根據這一特點，我們為每個智能體配備了一個獨特的知識庫，以幫助塑造他們的模擬交互。這些知識庫為智能體如何尋求信息、分享專業知識或參與討論提供了信息，而所有這些都會受到他們對特定主題的理解的影響。智能體之間的動態知識獲取過程在我們的模擬中也發揮著至關重要的作用。知識獲取不僅增強了智能體互動的真實性，還通過潛在的內部威脅識別為模擬提供了額外的深度。例如，智能體知識庫中的異常變化可能表明其未經授權獲取了敏感信息，或者其關注點轉向了可能出于惡意目的而感興趣的主題。因此，將知識及其動態獲取納入智能體框架不僅能豐富模擬互動，還能增強內部威脅檢測和預防模擬的潛力。
信念：個人持有的不同信念體系是其網絡行為的基礎，包括個人價值觀、觀點以及對爭議問題的立場。這些信念左右著互動和對話，往往會影響討論的動態。為了在智能體中模擬這種信念系統，我們將貝葉斯模型集成到智能體的推理過程中，使其能夠受到觀察到的支持某種信念的證據的影響。這種整合使智能體能夠就各種問題表達自己的立場，為自己的觀點辯護，甚至參與辯論，從而模擬現實世界中的人類行為。在社交媒體的背景下，對智能體的信念進行建模有助于表現分歧話題上的兩極分化觀點，使模擬更能代表真實世界的社會動態。

總之，通過將動機、關系、知識和信念整合到智能體推理框架中，我們成功地在 NPC 中創建了更全面、更真實的人類行為模擬。有了上述這么多組合的優勢，團隊就可以配置豐富的決策詢問，以確定任何智能體可能采取的行動方案。下一步是將這些詢問完全外包給 LLM，并比較結果，以便在大多數 T&E 場景中使用。

將LLM引入過程

為了嚴格控制系統對 LLM 的訪問，我們設計了一種方法，即只有 GHOSTS 的服務器組件與人工智能進行交互。然后，服務器將人工智能生成的結果傳播給相關客戶端。這一過程的執行過程如下：

1.智能體（即 NPC）根據其默認配置，利用我們現有的隨機化方法啟動并執行一項任務，如文檔創建和網頁瀏覽。

2.智能體每隔幾分鐘向服務器報告其完成的活動。

3.同時，在這五步過程中，服務器作業每輪都會詢問一個隨機的智能體子集。至關重要的是，在每一輪開始時，步驟 2 中的活動歷史記錄都是可用的，并且可以作為代理下一步應該執行什么活動的決策因素。

4.服務器將新確定的活動傳達給客戶端，然后由客戶端執行。

5.該過程循環往復。如果智能體已經在運行，它只需尋找下一個要執行的活動。

在步驟 3 中，目標是將決定智能體活動的任務委托給 LLM，同時考慮 (A) 有關智能體的具體信息和 (B) 已執行活動的歷史記錄。考慮到 LLM 可能需要處理大量信息所帶來的成本影響，我們將 (A) 中的信息限制為最相關的細節，如個人數據、教育和組織歷史以及軟件賬戶。(B) 中的活動信息及其執行參數則用于提供智能體已完成任務的歷史記錄。

許多 LLM 應用程序編程接口（API）會根據系統或用戶直接輸入信息的不同來區分信息提示。我們使用系統級提示，以便對我們傳輸的信息和預期響應進行更嚴格的控制。這種方法使我們能夠以更精確、更可控的方式引導 LLM 的行為。

付費5元查看完整內容

美國陸軍指揮參謀學院 · AI與軍事 · 人機協作 ·

2023 年 11 月 22 日

[付費5元查看完整內容]《信任與人機協作》128頁論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本研究論文旨在探討人類信任的影響因素，因為它與人類-自主團隊合作有關。研究采用混合方法，通過在線調查實驗進行。實驗分析了幾個自變量和一個因變量（對人工智能（AI）系統的信任）。自變量包括個人的數字素養、人工智能系統的透明程度以及參與者對人工智能系統能力/性能的經驗水平。研究人員給參與者提供了一個假定的小故事，通過隨機處理來測量自變量，在這個故事中，參與者扮演了一個與假定的人工智能系統配對的操作團隊中的首席規劃師的角色。結果表明，無論處理條件如何，人工智能的基本信任水平都非常重要。最后，這項研究強調，人工智能系統的透明度對提高信任度的作用可能比以前想象的更加有限。

付費5元查看完整內容

AI與軍事 · 美國空軍研究實驗室（AFRL） · 圖像取證 · 深度偽造與檢測 ·

2023 年 9 月 21 日

[付費5元查看完整內容]《對媒體完整性進行數字、語義和物理分析》48頁技術報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本報告總結了 DiSPARITY 團隊開發的數字、物理和語義圖像取證與完整性方法，該團隊由南加州大學信息科學研究所領導，在 2016 年至 2020 年期間參與了 DARPA 的媒體取證計劃。DiSparity 團隊開發了各種先進的數字完整性方法（如 NoisePrint、GAN 指紋和 ManTra-Net）和物理完整性方法（如無分割光方向估計和入射光方向分析）。

在本報告中，我們介紹了針對數字完整性、物理完整性和語義完整性提出并實施的新方法。在數字完整性研究方面，我們開發了相機指紋建模和操縱檢測算法，包括

基于深度學習的噪聲圖譜來表示相機特征，并通過訓練的連體網絡和分類器分別進行相機身份匹配和分類，結果達到了最先進水平。
生成攝像頭噪聲藍圖的 GAN。
采用多種算法和模型來執行基于圖像的操縱檢測、復制/移動定位、拼接定位和視頻面部操縱檢測，在 Medifor 評估參與者中取得了最佳性能。
值得注意的算法是 ManTraNet：一種端到端可訓練的圖像操作檢測算法。
用于隔離視頻中深度偽造的雙分支遞歸網絡。評估結果顯示，其性能優于所有現有方法。

對物理完整性的研究主要集中在兩個方面--(1) 入射光方向估計和 (2) 相機和成像過程指紋識別的新方法。我們開發的物理完整性算法包括

設計了兩種光向估計方法（基于梯度和基于卷積網絡），評估結果表明，應用光向估計時，拼接檢測性能非常好。
一些用于描述攝像機特征的指紋，如色彩指紋（濾色片靈敏度、攝像機白平衡和額外的攝像機內部非線性特性，如伽瑪校正）、JPEG 庫色度子采樣指紋和攝像機深度圖像計算指紋。在語義完整性方面，我們設計了一個端到端系統，用于索引大型圖像數據庫，并檢索給定探針圖像的出處圖像。評估結果表明，我們的系統在三個參與者中的出處過濾性能排名第二。

在一個百萬張圖像的世界集合中，我們的系統可以可靠地檢索出超過 80% 的來源圖像，而這些圖像都是排名靠前的候選圖像。這表明該系統在實際應用中大有可為。

圖 1：使用連體結構進行訓練。一個 CNN 的輸出為另一個孿生 CNN 提供所需的（相同模型和位置）或不需的（不同模型或位置）參考。

付費5元查看完整內容

AI與軍事 · 機器學習 · 大數據 · 俄烏戰爭 · 美國海軍研究生院 ·

2023 年 8 月 27 日

[付費5元查看完整內容]《利用大數據和機器學習識別并預測影響烏克蘭戰爭的因素》2023最新75頁論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

軍事分析人員可利用公開數據庫深入了解相關國際事件的發展。然而，這些數據庫依賴于以英語為基礎、經過整理的資料來源。這可能會導致偏差，不利于分析質量，尤其是在關注英語不是主要語言的地區和行動者時更是如此。

本研究旨在利用全球事件、語言和語調數據庫（GDELT）數據集來預測影響烏克蘭戰爭的重要因素，并將使用提取的數據和機器學習技術來開發預測模型。該項目旨在實現兩個目標。首先，提供一種從大數據集合中自動提取和預處理相關事件數據的方法。其次，將不同的機器學習模型應用于提取的數據，以預測重要因素，從而識別持續沖突中的事件趨勢。

所展示的數據采購可自由擴展到不同地區、行為體或其組合。在應用程序接口（API）中配置所需的參數后，相關的 GDELT 事件將自動提取。

由于本論文的重點在于預測，因此建模技術的應用側重于時間序列和遞歸神經網絡（RNN）模型。在測試過的時間序列預測模型中，自回歸綜合移動平均（ARIMA）模型與其他候選模型和天真模型相比，顯示出良好的預測性能。應用時間序列模型預測一至三個月的中期趨勢取得了最佳結果。

為了補充時間序列模型并利用 GDELT 的短期更新間隔，我們建立了不同類型的 RNN，并測試了它們在事件數量短期預測方面的性能。簡單 RNN 與長短期記憶 (LSTM) RNN 進行了比較，結果發現，簡單 RNN 的性能不如 LSTM RNN 模型。由此得出的結論是，數據中確實存在影響模型預測能力的長期和短期效應。

除了最初的跨語言 GDELT 數據庫，RNN 模型還運行了僅基于英語來源的 GDELT 數據提取，以及來自武裝沖突地點和事件數據項目（ACLED）數據庫的數據提取。

總體而言，在幾乎所有測試的模型中，使用基于英語來源的數據集都能獲得更好的均方根誤差值。不過，這并不一定意味著模型在捕捉現實生活中的變化方面表現更好。一項補充性探索數據分析（EDA）得出結論，在以英語為基礎的報告中，一系列事件的代表性不足。這一點在烏克蘭戰爭前奏期間尤為明顯，因為西方公眾對該地區的興趣和英語報道的一致性有時會降溫。事件報道不足導致數據的可變性較低，一致性較高，從而提高了基于英語模式的績效指標。

關于 RNN 模型在 ACLED 數據庫中的性能，除了 "爆炸/遠程暴力 "和 "戰斗 "這兩種事件類型外，本研究選擇的模型無法應用于 ACLED 數據提取。造成兼容性低的原因是報告事件的數量較少，以及報告中的空白與所選模型的相關性不高。

不同數據源之間的性能比較表明，要持續產生可靠的結果，挑選合適的預測因子和對結果進行初步分析并不容易實現自動化。強烈建議每次從 GDELT 首次提取新型數據子集時都進行一次 EDA。

圖 3.1. GDELT 事件數據庫中一個數據元素的示意圖。矩形代表中心數據元素，即事件。圓圈代表屬性，屬性 "GlobalEventID "用作唯一標識符。提及和音調 "屬性是灰色的，因為它不屬于本工作的范圍。

付費5元查看完整內容

AI與軍事 · 人工智能 · 國家安全 ·

2023 年 4 月 1 日

[付費5元查看完整內容]《用于國家安全的人工智能：可預測性問題》65頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本報告重點討論與人工智能系統可能缺乏可預測性而導致的有關風險--被稱為可預測性問題--及其對國家安全領域人工智能系統治理的影響。人工智能系統的可預測性表明人們可以在多大程度上回答這個問題：人工智能系統會做什么？可預測性問題既可以指人工智能系統的正確結果，也可以指不正確的結果，因為問題不在于這些結果是否符合系統工作的邏輯，而是在部署時是否有可能預見到這些結果。

人們越來越擔心，使用不可預測的人工智能系統為高風險決策提供信息可能會導致災難性的后果，這將破壞公眾對部署這些系統的組織的信任，并可能侵蝕政府的聲譽。在國家安全領域，人工智能的使用引入了一個新的不確定性來源，可能會阻礙風險管理程序，并可能使責任鏈變得混亂。在這個領域，可預測性問題的影響可能導致關鍵基礎設施的安全風險、個人權利和福祉的風險、沖突升級或外交影響。

在本報告中，我們首先從技術和社會技術的角度分析了可預測性問題，然后集中討論了英國、歐盟和美國的相關政策，考慮它們是否以及如何解決這個問題。從技術角度來看，我們認為，鑒于人工智能系統的設計、開發和部署的多層面過程，不可能考慮到所有的錯誤來源或可能產生的新行為。此外，即使在理想的情況下，在設計或開發階段沒有錯誤可以假設或檢測，一旦部署了人工智能系統，仍然可能發展出形式上正確的（但不想要的）結果，這在部署時是無法預見的。

我們通過關注人機編隊（HMT-AI）來分析可預測性問題的社會技術影響。人機編隊代表了一種越來越普遍的人工智能系統部署模式。在HMT-AI中，人類咨詢、協調、依賴、發展并與人工智能代理交換任務。由于HMT-AI結合了人類和人工的自主性，它們通過增加人工和人類代理及其環境之間的互動的數量和類型而加劇了可預測性問題。在這種情況下，我們發現可預測性問題的三個主要來源：人機交互、人員培訓和（過度）信任。人機交互可能會助長不可預測的結果，因為它們可以掩蓋、扭曲或過分詳細地描述人工智能系統的工作原理，而培訓計劃可能沒有考慮到人工智能技術的學習能力和HMT-AI的長期慣例建設。同樣，在HMTAI中，人類代理人不加批判地接受AI系統的結果，這種過度信任的動態也可能導致無法預測的結果。

在確定了可預測性問題的一些根本原因之后，我們分析了英國、歐盟和美國的政策，以評估這些原因是否在相關的政策文件中被涵蓋，如果是的話，如何以及在何種程度上被涵蓋。我們確定了四個主要主題和一個缺口。它們是：控制、監督和價值調整；資源提升的方法；可信賴人工智能的發展；以及缺乏對風險管理措施的關注，以遏制可預測性問題的影響。

我們的政策分析包括八個建議，以減輕與可預測性問題有關的風險。關鍵的建議是將治理方法集中在HMTAI上，而不僅僅是AI系統，并將可預測性問題概念化為多維度的，解決方案集中在HMT-AI組成的共同標準和準則上。在這些標準和準則中，可信人工智能的要求是特別相關的，應該與評估人工智能系統的可預測性的標準和認證計劃以及審計HMT-AI的程序結合起來。支持在國家安全中使用HMT-AI的決定的成本效益分析和影響評估應該考慮到可預測性問題及其對人權、民主價值的潛在影響，以及意外后果的風險。為了確保在部署潛在的不可預測的人工智能系統時進行充分的風險管理，我們建議調整ALARP原則--在合理可行的情況下盡量降低--作為制定HMT-AI中可預測性問題的人工智能特定風險評估框架的基礎。

擬議的基于ALARP的框架將提供有用的實際指導，但僅僅是這樣還不足以識別和減輕可預測性問題所帶來的風險。需要額外的政策、指導和培訓來充分考慮人工智能可預測性問題帶來的風險。人工智能系統支持的決策的影響越大，設計、開發和使用該系統的人的謹慎責任就越大，可接受的風險門檻也越低。這些分析和建議應該被理解為可操作的見解和實用的建議，以支持相關的利益相關者在國家安全背景下促進社會可接受的和道德上合理的人工智能的使用。

建議

建議1. 政府應撥出研究經費，發展公私合作，對HMT-AI進行縱向研究。這項研究應側重于HMT-AI中的新舊決策模式，以評估編隊協議建設和培訓對績效和控制措施的影響。重點應放在為HMT-AI的具體動態定義新的培訓協議，以及加快風險管理標準和HMT-AI績效評估的發展。

建議2. 應該建立一個專門的HMT-AI認證計劃，以促進行業對為HMT-AI設計的AI系統的設計要求和評估的共識。任務之間的通用性、有效的溝通、性能的一致性以及對新隊友的適應性都應該包括在這樣一個認證計劃中。在開發不足的ISO標準的基礎上，這個認證計劃還應該擴展到過程的可追溯性和決策的問責制，以及評估HMT-AI信任程度的審計機制。這對于抑制HMT-AI中的過度信任和自滿態度是必要的，這種態度維持或擴大了可預測性問題。

建議3. 對國家安全領域的可預測性問題的政策反應應該側重于管理HMT-AI團隊，而不是單獨的AI系統。

建議4. 國家安全領域的HMT-AI的成本效益分析（CBA）應該包括對AI系統的可預測性以及技術和操作層面的相關道德風險的評估。為了促進各安全機構之間的一致評估，應該定義一個評估人工智能系統可預測性的標準量表，在這個量表上，使用（或不使用）人工智能的選擇應該根據上下文的CBA以及考慮公眾對風險和相關利益的態度來證明。這個尺度的定義應屬于獨立的第三方行為者的職權范圍，即與部署HMT-AI的公共機構不同。

建議5. 與其說是 "更多 "或 "更少 "的可預測性，政策建議應側重于可預測性的權衡，明確具體建議旨在解決可預測性問題的哪個方面，以何種方式解決，以及它們有可能加劇哪些方面，哪些緩解措施將被落實到位。政策應該認識到，可預測性是一個多維度的概念，在一個層面上可預測性的收益可能會以另一個層面的損失為代價。

建議6. 關于國家安全中人工智能可預測性問題的政策應該在正式和操作層面上解決可信度和不可預測性之間的聯系。例如，應該給人工智能系統一個可修正的可預測性分數，這應該包括在對系統的可信任度的評估中。人工智能系統的可信賴性應包括成本效益分析，以評估不想要的行為在不同部署背景下可能帶來的風險。

建議7. 應該為不可預測的人工智能建立風險閾值，這些閾值將圍繞不可預測行為的風險嚴重程度映射到其自身的可預測程度（例如，劃分為已知的已知因素、已知的未知因素等）。這些閾值反過來將為風險管理過程的發展提供信息，允許根據風險的可預測性及其影響對其進行優先排序。

建議8. 應該制定一個基于ALARP的框架，以評估不可預測的人工智能和HMT-AI的風險，并為任何給定的環境確定可接受的最大程度的不可預測性。這個框架應該包括: