亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在數字化和戰略競爭日趨激烈的現代,成功與否取決于一個組織是否有能力比競爭對手更好、更快地利用數據和技術。人工智能(AI)技術的飛速發展正在徹底改變公共和私營機構保持領先的方式,影響著傳統的、由人類驅動的分析流程的各個層面。本報告探討了在情報周期中應用人工智能工具的機會,以增強人類分析師的能力,同時減少其局限性,從而推動更加無縫的情報流程

人類分析師擅長批判性思維和直覺判斷。他們解讀細微信息、理解復雜環境并根據不完整數據集做出明智決策的能力無與倫比。然而,數據超載、認知偏差、需要資源密集型培訓以及有限的時間和精力等限制因素卻阻礙了他們的工作效率。相反,人工智能技術擅長數據處理、客觀性和日常任務自動化。它們能以前所未有的速度分析海量數據、識別模式并執行重復性任務,而不會造成身心疲憊。

因此,人類和機器能力的互補優勢表明,分析流程將發生轉變,分析師-機器團隊將自適應地持續合作,以近乎實時的洞察力應對復雜的威脅。這種新模式將需要敏捷的協作框架、能夠有效使用人工智能工具并解讀人工智能生成的洞察力的熟練分析師、可靠而全面的培訓數據和流程,以及強大的監督機制。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

在當代威脅環境中,威脅可能在意想不到的時間從意想不到的角度出現。準確辨別戰術意圖的能力對于有效決策至關重要。傳統的威脅識別策略可能不再適用。本文將探討如何利用算法識別威脅的戰術意圖。為此,在模擬實驗中比較了人類和算法在識別敵對智能體戰術意圖方面的功效。在實驗中,70 名人類參與者和一個算法在一個海軍指揮和控制場景中扮演數據分析師的角色。在該場景中,敵方智能體控制一艘艦艇將攔截多艘友軍艦艇中的一艘。數據分析師的任務是及時識別敵方智能體可能攻擊的目標。我們對識別的正確性和及時性進行了研究。人類參與者的識別準確率為 77%,平均反應時間為 7 秒。算法的準確率達到了 87%,同時受限于人類的反應時間。當人類參與者識別正確時,算法有 89% 的時間表示同意。相反,當人的反應不正確時,算法有 91% 的時間不同意,這表明決策支持系統有機會在這種情況下影響人的決策。這項研究有助于加深我們對復雜作戰環境中的態勢感知和決策支持的理解。

付費5元查看完整內容

本文介紹了在戰場數字孿生框架內使用貝葉斯優化(BO)、遺傳算法(GA)和強化學習(RL)等先進技術優化軍事行動的綜合方法。研究重點關注三個關鍵領域:防御作戰中的部隊部署、火力支援規劃和下屬單位的任務規劃。在部隊部署方面,BO 用于根據戰場指標優化營的部署,其中湯普森采樣獲取函數和周期核取得了優異的結果。在火力支援規劃中,采用了 GA 來最小化威脅水平和射擊時間,解決了資源有限條件下的資源受限項目調度問題(RCPSP)。最后,為任務規劃開發了一個 RL 模型,該模型結合了多智能體強化學習 (MARL)、圖注意網絡 (GAT) 和層次強化學習 (HRL)。通過模擬戰場場景,RL 模型展示了其生成戰術演習的有效性。這種方法使軍事決策者能夠在復雜環境中提高行動的適應性和效率。研究結果強調了這些優化技術在支持軍事指揮和控制系統實現戰術優勢方面的潛力。

基于戰場數字孿生的 COA 生成概念

戰場數字孿生是一個數字復制品,代表了真實戰場環境的組成部分和行為特征。它可以通過接收來自實際戰場的實時或接近實時的戰場、敵方和友軍單位信息,并將其動態反映到數字孿生中,從而對數字孿生模型進行評估和調整。換句話說,模型可以根據真實世界的數據不斷更新,以實現更具適應性的分析。這一概念與深綠的自適應執行相一致,后者也依賴于動態更新的信息。通過這種方式,可以向真實戰場系統提供改進的決策反饋,幫助用戶根據數字孿生模型做出更好的決策,而數字孿生模型是根據實際作戰數據更新的。

本節提出了 “基于戰場數字孿生的作戰行動選擇生成與分析 ”概念,通過各種技術方法,利用戰場數字孿生生成作戰行動選擇。然后對這些選項進行評估、效果比較,并推薦最合適的 COA 選項。基于戰場數字孿生的作戰行動選擇生成和分析的基本概念是,利用戰場數字孿生的預測模擬生成作戰行動選擇,同時考慮若干戰術因素(METT+TC:任務、敵人、地形和天氣、可用部隊和支持、可用時間和民用因素)。然后,可在數字孿生環境中對生成的作戰行動方案進行快速評估。圖 2 展示了這一流程的概念圖。生成和分析 COA 的四個關鍵輸入--威脅分析、相對戰斗力分析結果、戰場信息以及指揮官和參謀部的指導--假定來自其他分析軟件模塊和用戶輸入,從而完成智能決策支持系統。有關鏈接分析軟件模塊的更多信息,請參閱 Shim 等人(2023,2024)。

圖 2:基于戰場數字孿生系統的 COA 生成和分析概念。

可以按照圖 1 中概述的戰術規劃流程生成并詳細說明 COA 選項。然而,如前所述,規劃過程中的許多任務都需要人工干預,而人工智能技術的應用仍然有限。因此,我們將重點放在 COA 生成階段,在研究適用技術的同時,找出可以實現自動化和智能化的方面。本研究介紹了在 COA 生成過程中可實現自動化和智能化的三個概念:確定友軍部隊部署、規劃間接火力支援和規劃部隊戰術任務。友軍部隊部署是指部隊到達戰場后如何安排和使用,而部隊部署則是指如何將部隊轉移到指定的大致位置。我們將貝葉斯優化方法應用于友軍部署優化問題,作為 COA 方案生成的一部分。隨著人工智能技術的快速發展,許多研究都探索了基于最先進機器學習算法的全局優化方法。其中,使用高斯過程的貝葉斯優化法作為一種針對實驗成本較高的黑盒函數的全局優化方法受到了廣泛關注(Brochu,2010 年)。對于炮兵作戰,我們將火力支援調度問題歸結為一個項目調度問題,該問題力求在遵守資源限制的同時,最大限度地減少敵方總威脅和發射時間。將項目調度與資源管理相結合的任務被稱為資源約束項目調度問題(RCPSP)。最后,我們利用強化學習(RL)技術為下屬單位規劃戰術任務,以找到最優行動策略。強化學習已經證明,它是在動態和不確定環境中解決復雜決策問題的有效框架。特別是,我們利用多智能體強化學習(MARL)、分層強化學習(HRL)和圖注意網絡(GAT)的原理,為多個單位有效地學習任務及其相應參數,同時從每個智能體的角度考慮其重要性。

在使用所提出的方法生成一系列作戰行動(COA)選項后,將在戰場數字孿生系統中對這些選項進行模擬評估。然后對模擬結果進行評估,以推薦最合適的 COA 選項。在下一章中,將詳細解釋用于實現所建議的 COA 生成概念的技術方法,并提供全面的實驗評估結果,以突出所建議方法的有效性。

圖 8:強化學習的擬議架構。

付費5元查看完整內容

大型語言模型(LLMs)中的情感認知對于提升各類應用的性能至關重要,如社交媒體、人機交互以及心理健康評估。我們探討了當前的研究現狀,主要圍繞情感分類、情感豐富的響應生成和心理理論評估,同時也承認了依賴標注數據和情感處理復雜性等挑戰。在本文中,我們詳細綜述了LLMs在情感認知領域的最新進展,探討了關鍵研究、方法、成果和資源,并將其與烏爾里克·奈瑟(Ulric Neisser)的認知階段進行了對齊。此外,我們還概述了這一不斷發展的領域中未來研究的潛在方向,包括無監督學習方法的發展以及更復雜且可解釋的情感認知LLMs的構建。我們還討論了對比學習等高級方法,這些方法用于提升LLMs的情感認知能力。

在當今的情感計算領域,越來越多地認識到大型語言模型(LLMs)中的情感認知的重要性(Ren等人, 2024)。它為人類情感和認知的復雜過程提供了深刻的見解。這一領域不僅涉及對個體或群體的情感狀態進行分析,還有效地將這些情感應用于各種領域,如社交媒體分析(Chen等人, 2024b;Yang等人, 2024;Chen等人, 2024e;Jin等人, 2023, 2024b)、人機交互(Chen等人, 2023e,c)和心理健康評估(Chen等人, 2024d)。具備情感認知能力使LLMs能夠更緊密地與人類價值觀保持一致,從而提升其在情感相關下游任務中的表現。

當前,關于LLMs情感認知的研究主要集中在處理和分析情感數據的各種方法上。這包括情感分類(Zhang等人, 2023)、生成情感豐富的響應(Xie等人, 2023;Chen等人, 2024g),以及“心理理論”評估(Sap等人, 2022)。研究人員還通過上下文學習(Sun等人, 2023;Chen等人, 2024c)和微調方法(Peng等人, 2023;Chen等人, 2023d)等技術,進一步增強LLMs的情感能力。然而,挑戰仍然存在,包括對標注數據的過度依賴、處理復雜情感的困難,以及解釋LLMs在情感認知中的決策過程的難度。此外,情感認知與人類的情感心理學密切相關,不僅需要計算方法和技術,還需要對心理學理論有深刻的理解和應用。 在我們的綜述中,我們強調結合心理學的視角,特別是基于烏爾里克·奈瑟(Ulric Neisser)的認知心理學理論(Neisser, 2014),來探討LLMs在情感認知中的應用與研究。奈瑟被譽為認知心理學之父,他在《認知心理學》一書中將認知描述為一個包含感覺、知覺、想象、記憶、回憶、問題解決和思維的綜合過程。圖1展示了本次綜述的框架。具體而言,我們首先深入探討了LLMs在情感認知中面臨的三個關鍵挑戰:情感問題的獨特性、情感方法的復雜性和情感任務的多樣性。接著,我們介紹了LLMs在情感認知中的兩個典型方向:情感評估和情感增強。基于Ulric Neisser的認知定義,我們將LLMs情感領域的工作劃分為七個階段。在每個階段中,我們探討了更詳細的研究方向和應用場景。此外,我們總結了情感認知領域的重要工作,并根據這七個階段對其進行分類,包括這些工作的動機、關鍵方法、性能表現以及可用的開源代碼和數據集。最后,我們識別并討論了該領域中仍未解決的問題和未來的研究方向。我們的工作主要貢獻包括:

  • 我們從問題定義、方法論和應用領域的角度對情感認知中的主要挑戰進行了深入分析。

  • 我們根據認知心理學理論的七個階段對情感領域的工作進行了分類,從而更好地將具體任務與人類認知過程對齊。

  • 我們對情感認知領域的未來研究方向進行了深入的討論,旨在激發LLMs情感計算領域的進一步發展。

方法與應用

在本節中,我們通過將奈瑟的認知過程與LLMs的能力進行類比,詳細說明LLMs在情感認知中的七個階段。我們列出了具有代表性的研究,包括其動機、關鍵技術、結果以及開源代碼/數據集,見表1。擴展版本見表2和表3。

**1 感覺

感覺是指LLMs展現出類似于人類在處理輸入文本數據時的能力。這方面的工作主要集中在輸入形式上。常見的輸入形式包括三類:提示工程、嵌入表示和知識增強。

提示工程是指通過添加一些指令來引導LLMs在下游任務中的表現。例如,Lynch等人(2023)提出了一種用于查詢LLMs的結構化敘事提示。該研究使用OpenAI的ChatGPT生成敘事,并通過卡方檢驗和Fisher精確檢驗等統計方法將這些敘事中的情感水平與真實推文進行比較;Ratican和Hutson(2023)提出了6DE模型,用于分析LLMs上下文中的人類情感。該模型考慮了情感的多個維度,如喚醒度、情緒、主導性、代理性、忠實度和新穎性;Zhang等人(2023)探索了四種提示策略,包括有上下文和無上下文的零樣本和少樣本提示,展示了這些提示在情感分析和識別任務中的優異表現。該研究強調了上下文信息在增強LLMs情感估計中的重要性。

不同于使用提示作為輸入,嵌入表示將輸入文本轉換為高維空間中的向量表示,捕捉詞匯的語義信息,用于優化LLMs的內部處理過程。例如,Xu等人(2023)探索了指令微調以增強LLMs在心理健康預測中的表現。微調后的模型Mental-Alpaca和Mental-FLAN-T5在性能上顯著超越了GPT-3.5和GPT-4,盡管模型體積明顯較小;Binz和Schulz(2023)研究了心理實驗數據用于微調LLMs。該研究表明,LLMs在準確模擬人類行為方面具有能力,并且在微調過程中使用嵌入表示時展示了其在情感認知中的潛力。

此外,知識增強是指將上下文或知識加入輸入中,以增強LLMs在處理下游任務中的表現。例如,Sun等人(2023)通過引入外部知識增強共情響應生成。該研究提出了一種名為CoNECT的新方法,利用情感指標來評估上下文相關性并促進共情推理;Gagne和Dayan(2023)探討了LLMs生成文本的情感分布。該方法通過利用特定分位數生成情感豐富的句子,展示了LLMs在情感生成方面的有效性,并提供了對LLMs內部機制的見解。 總之,當前在LLMs情感文本輸入處理方面的研究主要通過提示工程、嵌入表示和知識增強取得了顯著進展。這些方法增強了LLMs理解和生成情感豐富內容的能力。然而,在多樣化接收和處理文本輸入的模式方面仍有改進空間,包括整合更細致的內部情感認知,以更好地解釋和響應輸入。

**2 知覺

知覺涉及解釋和理解感官信息,處理從感官收集的原始數據,以形成對外部世界的有意義理解。LLMs在情感認知中的知覺主要包含情感識別及其可解釋性。

情感識別是指識別上下文或對話中的情感。例如,Rathje等人(2023)探討了GPT-3.5和GPT-4在檢測各種語言心理構建(情感、離散情感和攻擊性)方面的表現,表明LLMs在準確性方面優于基于詞典的方法和微調的機器學習模型;Zhang等人(2023)展示了LLMs在情感識別任務中能夠實現可比甚至優于其他模型的表現,尤其是在識別少數情感類別方面;Lei等人(2023)提出了InstructERC框架,這是一個有效的生成框架,結合了檢索模塊和情感對齊任務用于情感識別;Venkatakrishnan等人(2023)強調了跨文化背景中情感檢測的重要性,研究了LLMs對重大事件(如伊朗Zhina(Mahsa)Amini的謀殺案和土耳其和敘利亞的地震)的反應;Rodríguez-Ibánez等人(2023)評估了社交網絡中的情感分析方法及其在股票市場估值、政治和網絡欺凌教育等領域的應用。研究發現使用LLMs(如GPT-3和GPT-J)的表現不佳,要求進行領域特定的調整;Peng等人(2023)采用了深度提示微調和低秩適應來研究LLMs在語言情感識別中的表現。研究表明,經過調整的LLMs在六個廣泛使用的數據集上表現出強大的可遷移性和可行性,超越了其他專用的深度模型;Kheiri和Karimi(2023)討論了使用LLMs進行情感分析的潛力,表明LLMs在處理語言中情感分析的細微差別方面表現優異;Ullman(2023)強調了GPT-3.5在預測人類情感方面的技能,突出了其理解和解釋文本中情感內容的能力。Carneros-Prado等人(2023)對GPT-3.5和IBM Watson進行了比較分析,使用了一個包含30,000條與新冠疫情相關推文的數據集。研究揭示了LLMs在情感分析和分類中的多方面能力,但它們在將文本表達與定義的情感類別相匹配方面仍存在困難。此外,幽默是情感認知中的一個更具挑戰性的研究領域。Trott等人(2023b)研究了GPT-3理解語言幽默的能力。實驗表明,GPT-3在檢測、欣賞和理解笑話方面表現出色,盡管未達到人類表現。研究表明,盡管LLMs擅長捕捉幽默,但僅憑語言并不足以完全理解笑話,圖像也很有用。

情感識別的可解釋性是通過詞權重分布、梯度、干擾等分析LLMs的內部狀態。Kwon等人(2022)通過比較基于評價特征的相似性計算方法和基于詞嵌入的相似性計算方法的性能,研究了表示情感概念的方法。研究發現,GPT-3在詞嵌入相似性計算中表現優越,但也過度依賴于情感概念的估值。

總體而言,LLMs在情感知覺方面取得了顯著進展,模仿了人類對情感細微差別的理解。盡管像GPT-3.5和GPT-4這樣的模型在檢測和解釋多種情感上下文方面表現出色,但它們在完全理解情感背景和細微差別方面仍面臨挑戰,強調了進一步提高其感知能力的必要性,以實現更準確的情感分類、理解深度、領域適應性和價值對齊。

**3 想象

想象是指生成與情感相關的內容,例如情感故事、詩歌和情感對話,目的是創造符合人類價值觀的內容。 在生成情感敘事方面,Xie等人(2023)專注于風格、語域和故事長度的變化,展示了LLMs在生成故事內容方面的顯著優勢。然而,一個關鍵觀察是LLMs在處理世界知識時傾向于復制現實世界中的故事。Yongsatianchot等人(2023a)研究了GPT-4在情感預測任務中的熟練程度,展示了其不僅能夠辨別和概念化情感理論,還能夠創作與情感相關的故事。通過提示GPT-4識別和操作情感體驗的關鍵元素,它展示了在其敘事中對情感強度的細致控制。

在生成情感對話方面,Zheng等人(2023)采用LLMs來增強情感支持對話。這種方法將對話增強視為對話補全任務,微調后的語言模型從不同話題中補全對話,隨后進行基于啟發式的后處理。Lee等人(2022)深入研究了GPT-3通過基于提示的上下文學習生成共情對話的能力。該研究引入了創新的上下文示例選擇方法,SITSM和EMOSITSM,利用情感和情境信息,揭示了GPT-3在共情方面的競爭表現,甚至超越了Blender 90M。Zhao等人(2023)評估了ChatGPT的情感對話能力,通過一系列下游任務評估ChatGPT在理解和生成情感對話方面的表現。Guo等人(2023)指出,ChatGPT在垂直領域(如繪畫創作)中的情感效果顯著。它可以提供更清晰、更詳細的繪畫指令,并理解繪畫中的抽象藝術表現和情感。

我們還關注一個更具體的方面:幽默生成,這是一種復雜且本質上具有人類特征的任務。例如,Jentzsch和Kersting(2023)深入探討了OpenAI的ChatGPT在幽默生成能力方面的表現,評估了ChatGPT在生成、解釋和檢測笑話方面的能力。ChatGPT傾向于重復相同的笑話處理過程,而不是創造新的笑話,盡管它可以準確解釋有效的笑話。Toplyn(2023)提出了一種創新的方法,用于LLMs的幽默生成。Witscript 3使用三種笑話生成機制來生成和選擇最佳的喜劇響應。這代表了LLMs與人類專業知識之間的合作,結合了由專業喜劇作家編寫的幽默算法。值得注意的是,Witscript 3的響應被人類評估者認為是笑話的概率為44%。Chen等人(2024f)構建了一個包含連鎖幽默和幽默思維導圖注釋的中文可解釋幽默響應數據集,以及與幽默相關的輔助任務,用于評估和改進PLM和LLMs的幽默響應能力。

總的來說,LLMs在情感相關內容的想象方面取得了重大成就,如故事、對話和幽默。它們在對話中的情感強度和共情方面表現出了細致的控制能力。然而,內容的原創性方面仍存在限制,特別是在幽默生成中,LLMs傾向于復制現有的笑話,而不是創造新的笑話。

**4 記憶

記憶是指編碼和存儲知識,創建“記憶”的過程。LLMs中的記憶與它們通過訓練過程如何“記住”情感信息和知識有關,這對后續情感數據的處理和生成至關重要,例如角色扮演和角色模擬。

例如,Tao等人(2023)提出了一個創新框架,旨在改善LLMs的個性化角色扮演。他們采用了一種詳細的情感分類策略,并在對話數據集中對情感進行了注解,使GPT-4能夠根據其“記憶”中的情感創建角色檔案。 Shao等人(2023)將重點轉向基于個人檔案、經歷和情感狀態訓練智能體,而不是使用有限的提示來引導ChatGPT的API。實驗結果表明,編輯和恢復個人檔案有助于構建更準確和情感感知更強的LLMs模擬,模擬的人物更加人性化。Jiang等人(2023)探討了個性化LLMs的行為在多大程度上反映了特定的性格特質。該研究使用大五人格模型創建了不同的LLMs角色,并通過各種任務(包括性格測試和故事寫作)評估了它們的行為。結果表明,LLMs角色可以持續展現與其指定的人格特質一致的行為。Wang等人(2023)提出了RoleLLM框架,用于增強LLMs的角色扮演能力。該框架包括角色輪廓構建、基于上下文的指令生成以及角色特定知識的捕捉和記憶,展示了LLMs通過模擬語言風格和利用其記憶中的角色特定知識獲得的競爭性成果。

我們還研究了LLMs在構建情感記憶模式和恢復這些記憶方面的能力。例如,NathanKlapach(2023)深入分析了五種廣為人知的LLMs,包括BingAI、ChatGPT、GoogleBard和HuggingChat,重點分析了它們處理、模仿和表達情感的能力。這些LLMs被要求創建新故事,這些故事在語調、風格和情感影響方面反映了原始敘述的特征,以評估它們在存儲情感方面的能力并有效地復制這些特征。Russo等人(2023)介紹了一種新方法,LLMs能夠通過作者-審稿人流程管理社交媒體平臺上的錯誤信息,并生成情感響應。

總的來說,LLMs的最新研究重點是增強它們對情感信息的記憶,這對于角色扮演和角色模擬等任務至關重要。然而,在有效編碼和存儲復雜的情感知識方面仍然存在挑戰,特別是在由于上下文大小限制無法“記住”記憶的情況下。該領域正在探索如何改進LLMs的記憶模式及其準確和系統地保留情感信息的能力。

**5 回憶

回憶是指提取情感記憶,從“記憶”中提取信息。在LLMs的情感認知中,回憶與它們從內部或外部知識中檢索與情感相關的信息能力有關,用于響應與情感相關的陳述、保持情感對話的一致性等。以下研究展示了LLMs如何有效利用情感記憶和歷史以增強決策過程。

例如,Jia等人(2023)提出了一個知識增強的記憶模型,用于情感支持對話。該模型能夠感知并適應對話中不同時期的情感變化,通過從對話中提取豐富的知識和常識(如ConceptNet)。Jeong和Makhmud(2023)提出了一種新方法,通過引入多樣化的參數集(如五種感官、屬性、情感狀態、與對話者的關系和記憶)豐富LLMs的響應。他們強調了記憶在保持對話連貫性和情感真實性中的重要性。Zhong等人(2023)引入了一種動態記憶機制,使LLMs能夠在當前決策過程中利用過去的情感互動。該機制受艾賓浩斯遺忘曲線(Ebbinghaus, 1885)的啟發,使LLMs能夠有選擇地回憶情感互動,從而更像一個真正的人類朋友。Qian等人(2023)強調了LLMs根據歷史情感背景生成共情響應的能力。他們引入了上下文學習和兩階段交互生成方法,使LLMs能夠處理和反思過去的情感互動,從而做出更具共情的決策。此外,Wake等人(2023)研究了情感歷史在決策中的應用。作者估計了當前語句的情感標簽,僅基于過去對話的歷史,展示了數據集和情感標簽選擇對ChatGPT情感識別表現的重大影響。

總之,最近對LLMs回憶能力的研究重點是檢索和利用情感記憶,以在情感相關互動中做出決策。這些研究表明,LLMs能夠適應動態情感變化,結合多樣化的參數,并利用歷史情感背景做出共情決策。然而,在完善復雜情感歷史的回憶、有效檢索最相關的知識并持續更新方面仍然存在挑戰。

**6 問題解決

情感認知中的問題解決是指在各種場景中解決與情感相關的下游任務(Li等人,2023a;Chen等人,2024a;Li等人,2022,2024b,2023c;Ni等人,2024a;Li等人,2023b,2024e)。 例如,在心理健康領域,Tu等人(2023)提出了S2Conv框架,專門用于為心理健康問題提供個性化支持。該框架集成了基于個性和記憶的對話模型與人際匹配插件,強調了LLMs在提供社交支持方面的潛力(Ni等人,2024b;Li等人,2024d;Jin等人,2024a;Li等人,2024a)。Qi等人(2023)評估了LLMs在心理健康領域的表現。Zhu等人(2024)研究了LLMs在進行心理推理任務中的使用,特別是推斷用戶的潛在目標和基本心理需求。Lai等人(2023)在心理咨詢場景中使用LLMs,提供即時響應和正念活動。Xu等人(2023)評估了LLMs在心理健康預測任務中的表現,強調了減輕偏見的必要性。在教育領域,Sajja等人(2023)提出了一個創新框架,用于個性化和自適應學習。 這些LLMs在情感相關問題解決中的多樣化應用展示了它們的廣泛潛力。然而,它們也揭示了諸如性別偏見和增強可解釋性等限制。未來的研究方向可能包括微調LLMs,以更好地滿足教育和心理健康領域的需求。

**7. 思考

思考是指問題解決后的反思和回顧。在LLMs的情感認知中,它涉及如何利用“心理理論”解決下游任務(Zhou等人,2024;Li等人,2024c)。心理理論(Theory of Mind, ToM)(Carlson等人,2013)是理解自身和他人心理狀態(包括情感、意圖、期望、思想、信念)的認知能力。可以使用這一理論來預測和解釋各種行為。

LLMs在情感驅動的任務中展現了強大的思考能力。例如,Trott等人(2023a)展示了LLMs在推斷他人信念方面的優異表現。Gandhi等人(2023)引入了一種基于因果關系的模板方法,用于評估LLMs的ToM。他們發現GPT-4具有人類般的推理模式,并擁有強大的ToM。Sap等人(2022)評估了GPT-3在社會推理和心理狀態理解方面的表現,識別了LLMs的ToM能力的界限。Shapira等人(2023)通過多種檢測方法在六個任務中進行了廣泛實驗,評估LLMs的ToM能力,發現這些能力不夠穩健,更多依賴于表面的啟發式方法而不是堅實的推理。Holterman和van Deemter(2023)通過給ChatGPT-3和ChatGPT-4提供六個涉及人類推理偏差的問題,檢查了它們展示ToM的能力,發現ChatGPT-4在提供正確答案方面表現優于隨機結果,盡管有時基于錯誤的假設或推理。

在思考領域,焦點擴展到了行為。例如,Zhou等人(2023)提出了一種新的“為行動而思考”評估范式,評估LLMs是否能夠基于他人的心理狀態識別適當的行為,而不僅僅是對這些狀態的問題作出回應。該研究提出了一種名為“預見和反思”的零樣本提示框架,以增強LLMs在預測未來事件和通過行動選擇進行推理方面的能力。Jin等人(2022)旨在評估LLMs在理解和預測人類道德判斷和決策行為方面的表現。他們提出了一種基于法律專業知識和道德推理理論的創新道德推理鏈提示策略(MoralCoT),表明MoralCoT在道德推理、復雜的道德判斷和決策方面超越了現有的法律模型。Sorin等人(2023)回顧了LLMs展示共情的能力,探討了LLMs如何處理和表達復雜的情感觀點和推理。Del Arco等人(2022)強調了GPT-3在共情和痛苦預測中的作用,展示了其在復雜情感預測中的推理過程。Schaaff等人(2023)評估了ChatGPT的共情水平,并將其與人類標準進行了比較,比較了LLMs在理解和表達共情方面的能力。Saito等人(2023)展示了提出的ChatGPT-EDSS在捕捉對話中的共情方面的相似表現,評估了LLMs的情感理解和表達能力。Lee等人(2024)發現LLMs的響應比人類更具共情性,比較了模型和人類在情感推理和表達方面的差異。

總的來說,這些研究集中在LLMs的思考能力上。盡管像GPT-4這樣的LLMs在理解和推斷心理狀態方面表現出色,但在推理和反思的深度、心理理論的更好利用以及情感驅動行為預測方面仍然存在挑戰。該領域的目標是提高LLMs在回顧分析情感任務方面的能力,從而實現更細致和準確的問題解決。

付費5元查看完整內容

本報告旨在為信息環境評估 (IEA) 從業人員提供指導。這包括了解信息環境和受眾,尤其是在線活動中的信息環境和受眾,并涵蓋必要的技術要素和法律因素。

報告涉及的關鍵問題包括:哪些人工智能(AI)功能對戰略傳播(StratCom)至關重要?哪些模式需要改進?人工智能在這一領域的前景如何?

報告提供了當前的知識,以提高從業人員安全、高效地駕馭人工智能驅動的信息環境并符合法律要求的能力。

了解戰略傳播在北約中的作用

根據《盟軍戰略傳播聯合條令》(AJP-10 (2023),以下簡稱 AJP-10),戰略傳播(StratCom)是指揮集團的一項職能,負責了解所有相關受眾的信息環境(IE),并在此基礎上利用包括行動、圖像和語言在內的所有傳播手段,通過以敘事為主導、以行為為中心的方法,適當地告知和影響受眾的態度和行為,以實現所期望的最終狀態。在北約軍事背景下,戰略傳播負責將傳播能力和信息參謀職能與其他軍事活動結合起來,以了解和塑造國際環境,支持北約的戰略目的和目標。

北約的 J10 戰略傳播局(J10-StratCom)包括信息作戰(Info Ops)的信息參謀職能以及軍事公共事務(Mil PA)和心理作戰(PsyOps)的傳播能力。在我們的研究報告中,雖然主要議題是人工智能在戰略傳播中的作用,但選擇特別關注心理作戰(PsyOps),因為這些領域之間存在重要的相互作用。

北約的 “心理戰 ”以北約或合作盟國、伙伴國或組織的真實信息為基礎。J10 戰略傳播中的心理作戰參謀人員僅存在于作戰層面及以下,并為指揮官的決策過程做出貢獻。他們就可行的心理作戰傳播活動和計劃行動的心理影響提出建議,并就心理作戰人員和非心理作戰人員及單元開展的信息和傳播活動提出建議,以便在IE中產生效果。在 J10-StratCom 內部,心理作戰人員提供五種不同的職能:

1.受眾分析 2.心理作戰計劃 3.反敵對信息和虛假信息 4.網絡行動 5.聯合心理戰特遣部隊總部

圖 9. 人工智能工具在戰略傳播活動各階段的使用情況概述

付費5元查看完整內容

本研究報告介紹了聯合情報組織 (JIO) 和英國政府通信總部 (GCHQ) 委托開展的一個項目的研究成果,該項目以人工智能 (AI) 和戰略決策為主題。報告評估了應如何向政府戰略決策者傳達人工智能情報,以確保情報報告和評估的分析嚴謹性、透明度和可靠性等原則得到堅持。研究結果是在對英國評估機構、情報機構和其他政府部門進行廣泛的初步研究基礎上得出的。情報評估職能部門在識別、處理和分析呈指數增長的信息來源和數量方面面臨著巨大挑戰。研究發現,人工智能是所有來源情報分析師的重要分析工具,如果不采用人工智能工具,可能會損害所有來源情報評估的權威性和對政府的價值。然而,人工智能的使用既可能加劇情報工作中已知的風險,如偏差和不確定性,也可能使分析人員難以評估和交流人工智能豐富情報的局限性。評估界面臨的一個主要挑戰將是最大限度地利用人工智能的機遇和優勢,同時降低任何風險。為了在向決策者傳達富含人工智能的情報時采用最佳做法,報告建議為傳達與人工智能有關的不確定性開發標準化術語;為情報分析師和戰略決策者提供新的培訓;以及為情報分析和評估中使用的人工智能系統制定認證計劃。

圖 1:聯合條令出版物 2-00《對聯合行動的情報、反情報和安全支持》,國防部,2023 年

本報告介紹了由聯合情報組織(JIO)和英國皇家通信總部(GCHQ)委托開展的CETaS研究項目的結果,該項目以人工智能(AI)和戰略決策為主題。報告評估了應如何向政府戰略決策者傳達人工智能情報,以確保情報報告和評估的分析嚴謹性、透明度和可靠性等原則得到堅持。研究結果基于對英國評估機構、情報機構和其他政府部門進行的廣泛的初級研究,在整個2023-24年期間進行了為期7個月的研究。

這里的 "人工智能豐富情報 "是指部分或全部通過使用機器學習分析或生成式人工智能系統(如大型語言模型)而得出的情報見解。

研究考慮了

  • 國家安全決策者是否有足夠的能力來評估人工智能豐富情報所提供的評估中固有的局限性和不確定性。
  • 應在何時以及如何向國家安全決策者傳達人工智能強化情報的局限性,以確保在可及性與技術細節之間取得平衡。
  • 是否需要進一步的治理、指導方針或技能提升,以使國家安全決策者能夠基于人工智能豐富的洞察力做出重大決策。

主要研究結果如下

1.人工智能是所有來源情報分析師的重要分析工具。人工智能系統處理大量數據的能力遠遠超出人類分析人員的能力,可以識別可能被忽視的趨勢和異常現象。因此,選擇不將人工智能用于情報目的,有可能違反《情報評估專業負責人共同分析標準》中規定的情報評估全面覆蓋原則。此外,如果遺漏了關鍵的模式和聯系,不采用人工智能工具可能會損害所有來源情報評估對政府的權威和價值。

2.然而,人工智能的使用加劇了情報評估和決策過程中固有的不確定性。人工智能系統的輸出是概率計算(而非確定性),目前在數據不完整或有偏差的情況下很容易出現誤差。許多人工智能系統的不透明性也使得人們難以理解人工智能是如何得出結論的。

3.對情報分析和評估中使用的人工智能系統,亟需精心設計、持續監測和定期調整,以減少擴大偏差和錯誤的風險。

4.制作評估產品的情報部門仍對評估用于情報分析和評估的人工智能方法的相關技術指標(如準確率和錯誤率)負有最終責任,所有來源的情報分析員在作出結論和判斷時必須考慮到任何局限性和不確定性。

5.國家安全決策者目前需要人工智能系統性能和安全方面的高度保證,才能根據人工智能豐富的情報做出決策。

6.在人工智能系統缺乏強有力的保證程序的情況下,國家安全決策者普遍對人工智能識別事件和發生的能力比對人工智能確定因果關系的能力表現出更大的信心。決策者更愿意相信人工智能豐富的情報見解,如果這些見解得到非人工智能、可解釋的情報來源的證實。

7.決策者對人工智能系統的技術知識差異很大。研究參與者一再表示,決策者必須對人工智能的基本原理、當前能力以及相應的保證流程有一個基本的了解,才能根據人工智能豐富的情報做出有分量的決策。

本報告建議采取以下行動,在向戰略決策者傳達富含人工智能的情報時采用最佳做法。

1.情報評估專業負責人(PHIA)應制定在所有來源評估中傳達人工智能強化情報不確定性的指南。該指南應概述在向決策者闡明人工智能相關限制和注意事項時應使用的標準化術語。此外,還應就評估應向決策者說明使用人工智能強化情報的閾值提供指導。

2.在向戰略決策者介紹技術信息時,評估界應采取分層方法。在提交給決策者的最終情報產品中,評估應始終能夠為非技術受眾所解讀。然而,應根據要求向那些具有更多技術專長的人提供有關系統性能和局限性的補充信息。

3.英國情報評估學院應代表所有來源評估界完成培訓需求分析,以確定新老 分析人員的培訓需求。該學院應與所有情報來源評估組織合作,根據分析結果開發適當的培訓。

4.應向國家安全決策者(及其工作人員)提供培訓,以建立他們對人工智能情報評估的信任。應向決策者介紹人工智能的基本原理和相應的保證程序。

5.在高風險的國家安全決策會議之前,應立即舉行簡短、可選的專家簡報會,因為在這些會議上,人工智能強化情報是承重決策的基礎。這些會議應向決策者簡要介紹關鍵的技術細節和局限性,并確保他們有機會提前考慮置信度評級。這些簡報會應由聯合信息辦公室和國家安全秘書處共同協調,并應利用首席科學顧問網絡和相關科學咨詢委員會的跨政府專業知識。應制定關于何時提供簡報的指南,并應持續評估簡報的必要性;隨著決策者對消費人工智能情報變得更加得心應手,所需的保證程度可能會降低,簡報最終可能變得沒有必要。

6.應為情報分析和評估中使用的人工智能系統制定一個正式的認證方案,以確保模型在穩健性、安全性、透明度以及固有偏見和緩解記錄方面滿足最低政策要求。將系統應用于特定問題的技術保證應下放給相關組織,每個組織的保證過程都應得到認證。這一計劃將需要專門的資源,將對情報評估標準和程序的理解與技術專長結合起來。PHIA 應協助制定原則和要求,而認證和測試方面的技術專長則應從情報界和政府各部門的技術主管部門抽調。

付費5元查看完整內容

本報告是關于新興技術對美國國土安全部(DHS)任務和能力影響的系列分析報告之一。作為這項研究的一部分,作者負責開發一種技術和風險評估方法,用于評估新興技術并了解其對國土安全的影響。該方法和分析為國土安全部更好地了解新興技術及其帶來的風險奠定了基礎。

本報告重點關注人工智能(AI),尤其是與關鍵基礎設施相關的人工智能。作者借鑒了有關智能城市的文獻,在評估技術時考慮了幾個屬性:技術可用性、風險和情景(作者將其分為威脅、脆弱性和后果)。本分析中考慮的風險和情景與影響關鍵基礎設施的人工智能使用有關。這些用例可以是用于監控關鍵基礎設施,也可以是對手利用人工智能對關鍵基礎設施進行非法活動和邪惡行為。風險和場景由國土安全部科技局和國土安全部政策辦公室提供。作者比較了短期(最多三年)、中期(三至五年)和長期(五至十年)三個時期的屬性,以評估人工智能關鍵基礎設施的可用性和相關風險。

研究問題

  • 未來十年,關鍵基礎設施中人工智能應用的技術可用性如何?
  • 在這十年期間,科技成熟度;用例、需求和市場力量;資源;政策、法律、道德和監管障礙;以及關鍵基礎設施應用的技術可得性將如何變化?
  • 未來十年,人工智能可能會給關鍵基礎設施應用帶來哪些風險和情景(包括威脅、脆弱性和后果)?

主要結論

  • 人工智能是一項變革性技術,很可能被廣泛應用于整個社會,包括關鍵基礎設施。
  • 人工智能可能會受到許多與其他信息時代技術相同的因素的影響,如網絡安全、保護知識產權、確保關鍵數據保護以及保護專有方法和流程。
  • 人工智能領域包含眾多技術,這些技術一旦問世,就會被納入人工智能系統。因此,人工智能科學和技術的成熟度將基于幾個基本技術領域的關鍵依賴性,包括高性能計算、先進半導體開發和制造、機器人技術、機器學習、自然語言處理以及積累和保護關鍵數據的能力。
  • 要將人工智能置于當前的成熟狀態,不妨劃分三個人工智能類別:人工狹義智能(ANI)、人工通用智能和人工超級智能。到本分析報告所述的十年期結束時,人工智能技術很可能還只是達到了窄人工智能(ANI)的水平。
  • 人工智能將為關鍵基礎設施和專用智能城市的最終發展帶來機遇和挑戰。
  • 2023 年 3 月推出的 ChatGPT-4 提供了一個有趣的案例研究,說明這些人工智能技術--這里指的是大型語言模型--將如何走向成熟并融入社會。最初的推廣說明了一個周期--開發、部署、找出不足和其他潛在使用領域,以及快速更新人工智能系統--這可能是人工智能的一個特點。

付費5元查看完整內容

無人機系統或無人機技術,包括單個系統和成群的無人機系統,在過去的 25 年里得到了廣泛的應用。因此,隨著技術的不斷成熟,這種技術和使用這些無人機系統的能力既是當前的威脅,也是日益增長的威脅。

在本報告中,研究人員評估了智能蜂群技術,考慮了技術可用性以及未來三年、三至五年和五至十年的風險和情景(威脅、弱點和后果)。此外,研究人員還考慮了隨著技術的發展,是否會開展可降低風險的準備或緩解和響應活動。研究人員得出結論認為,無論是采用代用無人機群還是智能無人機群技術,這些系統都會對國土構成重大風險,而脆弱性和后果的緩解很可能具有挑戰性。

研究問題

  • 無人機系統或無人機技術(包括單個系統和無人機群)對美國本土的潛在威脅是什么?
  • 惡意行為者在使用這些技術進行攻擊時需要克服哪些潛在限制或挑戰?
  • 與無人機系統相關的威脅、弱點和后果是什么,特別是隨著這些技術的發展?

主要結論

  • 無人機系統或無人機技術,無論是單個系統還是代理蜂群,都是當前的威脅,而就智能蜂群而言,隨著無人機系統技術的不斷成熟,其射程、有效載荷和功率也在持續進步,因此威脅也在不斷增加。
  • 智能蜂群的成熟將伴隨著多種技術的融合,包括人工智能、大數據、物聯網和 5G,這些技術將共同支持這些能力的開發和應用。
  • 隨著時間的推移,非法使用智能蜂群的風險將繼續增加;然而,攻擊很可能仍然是局部性的,在某些情況下,影響有可能是區域性的,如針對電網的網絡或電磁攻擊。這意味著后果可能保持溫和,因為它們不可能對全國產生影響。
  • 對于國土安全捍衛者(如執法人員、急救人員、規劃人員和關鍵基礎設施部門的工作人員)來說,要減輕脆弱性和后果可能具有挑戰性,因為在各種潛在目標中實地部署檢測系統和應對措施可能成本極高。

圖:智能蜂群風險評估

付費5元查看完整內容

有效決策是組織成功的核心。在數字化轉型時代,企業越來越多地采用數據驅動的方法來獲得競爭優勢。根據現有文獻,人工智能(AI)代表了這一領域的重大進步,它能夠分析大量數據、識別模式、做出準確預測,并為組織提供決策支持。本研究旨在探討人工智能技術對組織決策不同層面的影響。通過將這些決策按照其屬性分為戰略決策和運營決策,本研究可以更全面地了解人工智能在組織決策中實施的可行性、當前采用率以及阻礙因素。

付費5元查看完整內容

人工智能(AI)的快速發展引發了專家、政策制定者和世界領導人對日益先進的人工智能系統可能帶來災難性風險的日益擔憂。雖然許多風險已被單獨詳述,但目前迫切需要對潛在危險進行系統的討論和說明,以便更好地為減輕這些危險提供信息。本文概述了人工智能災難性風險的主要來源,將其分為四類:惡意使用,即個人或團體故意使用人工智能造成傷害;人工智能競賽,即競爭環境迫使行為者部署不安全的人工智能或將控制權讓給人工智能;組織風險,強調人為因素和復雜系統如何增加災難性事故的幾率;流氓人工智能,描述控制遠比人類智能的代理固有的困難。對于每一類風險,我們都描述了具體的危害,介紹了說明性故事,設想了理想場景,并提出了減輕這些危險的實用建議。我們的目標是促進對這些風險的全面了解,并激發集體的積極努力,確保以安全的方式開發和部署人工智能。最終,我們希望這將使我們能夠實現這一強大技術的益處,同時將災難性后果的可能性降至最低。

圖:本文將介紹四類人工智能風險,并討論如何降低這些風險。

近年來,人工智能(AI)突飛猛進,引起了人工智能專家、政策制定者和世界領導人對先進人工智能所帶來的潛在風險的擔憂。與所有強大的技術一樣,人工智能必須以高度的責任感來管理風險,并利用其潛力來改善社會。然而,關于災難性或生存性的人工智能風險可能如何發生或如何應對,可獲得的信息非常有限。雖然有關這一主題的資料很多,但往往分散在各種論文中,而且通常針對的受眾面較窄,或側重于特定的風險。在本文中,我們將概述災難性人工智能風險的主要來源,并將其分為四類:

惡意使用。行為者可能故意利用強大的人工智能造成廣泛傷害。具體風險包括人工智能賦能的生物恐怖主義,它可以幫助人類制造致命的病原體;蓄意傳播不受控制的人工智能制劑;以及利用人工智能能力進行宣傳、審查和監視。為了降低這些風險,我們建議改善生物安全,限制獲取最危險的人工智能模型,并讓人工智能開發者為其人工智能系統造成的損害承擔法律責任。

人工智能競賽。競爭可能會迫使國家和企業匆忙開發人工智能,并將控制權拱手讓給人工智能系統。軍方可能會面臨開發自主武器的壓力,并將人工智能賦能的網絡戰,從而實現一種新的自動化戰爭,在這種戰爭中,事故可能會在人類有機會干預之前就失控。企業也將面臨類似的激勵,促使人類勞動自動化,并將利潤置于安全之上,從而可能導致大規模失業和對人工智能系統的依賴。我們還討論了從長遠來看,進化壓力可能會如何塑造人工智能。人工智能之間的自然選擇可能會導致自私的特性,而人工智能相對于人類的優勢最終可能導致人類被取代。為了降低人工智能競賽帶來的風險,建議對通用人工智能實施安全監管、國際協調和公共控制。

組織風險。組織事故造成的災難包括切爾諾貝利、三里島和挑戰者號航天飛機災難。同樣,開發和部署先進人工智能的組織也可能遭受災難性事故,特別是如果它們沒有強大的安全文化。人工智能可能會意外泄露給公眾或被惡意行為者竊取。各組織可能無法投資于安全研究,不了解如何以比一般人工智能能力更快的速度可靠地提高人工智能的安全性,或者壓制內部對人工智能風險的擔憂。為了降低這些風險,可以建立更好的組織文化和結構,包括內部和外部審計、多層風險防御以及最先進的信息安全。

流氓人工智能。一個普遍而嚴重的擔憂是,隨著人工智能變得比我們更智能,我們可能會失去對人工智能的控制。人工智能可能會在一種被稱為代理博弈的過程中,將有缺陷的目標優化到極致。人工智能在適應不斷變化的環境時,可能會經歷目標漂移,這與人在一生中獲得和失去目標的過程類似。在某些情況下,人工智能變得追求權力可能是工具理性的。我們還研究了人工智能如何以及為何會進行欺騙,在不受控制的情況下表現出受控制的樣子。與前三個風險來源相比,這些問題更具技術性。我們概述了一些建議的研究方向,以促進我們對如何確保人工智能可控的理解。

在每一節中,我們都提供了一些說明性場景,更具體地展示了風險源如何可能導致災難性結果,甚至構成生存威脅。通過提供一個對風險進行適當管理的更安全未來的積極愿景,我們強調,人工智能新出現的風險雖然嚴重,但并非不可克服。通過積極應對這些風險,我們可以努力實現人工智能的益處,同時最大限度地降低災難性后果的可能性。

付費5元查看完整內容

近年來,人機對抗智能技術作為人工智能領域的前沿方向取得了一系列突破性的進展,如 AlphaGo 和 DeepStack 分別在圍棋和二人無限注德州撲克中擊敗了人類專業選手. 這些突破離不開博弈論和機器學 習的深度結合. 本文通過梳理當前人機對抗智能技術領域的重要工作,深入分析博弈論和機器學習在其中 發揮的作用,總結了面向人機對抗任務的博弈學習研究框架,指出博弈論為人機對抗任務提供博弈模型和 定義求解目標,機器學習幫助形成穩定高效可擴展的求解算法. 具體地,本文首先介紹了人機對抗中的博 弈學習方法的內涵,詳細闡述了面向人機對抗任務的博弈學習研究框架,包括博弈模型構建、解概念定義、 博弈解計算三個基本步驟,之后利用該框架分析了當前人機對抗智能技術領域的典型進展,最后指出了人 機對抗中的博弈學習未來發展可能面臨的挑戰. 本文梳理總結的人機對抗中的博弈學習研究框架為人機對 抗智能技術領域的發展提供了方法保障和技術途徑,同時也為通用人工智能的發展提供了新思路.周雷,尹奇躍,黃凱奇. “人機對抗中的博弈學習方法”, 計算機學報,2022.(//cjc.ict.ac.cn/online/bfpub/zl-2022323165812.pdf)

1 引言

人機對抗智能技術研究計算機博弈中機器戰 勝人類的方法,是當前人工智能研究領域的前沿方 向,它以人機(人類與機器)和機機(機器與機器) 對抗為主要形式研究不同博弈場景下,機器智能戰 勝人類智能的基礎理論與方法技術[1] . 人機對抗智 能技術通過人、機、環境之間的博弈對抗和交互學 習,探索巨復雜、高動態、不確定的對抗環境下機 器智能快速增長的機理和途徑,以期最終達到或者 超越人類智能.

人機對抗智能技術的突破離不開機器學習的 發展,機器學習主要研究如何讓機器通過與數據的 交互實現能力的提升[2][3] . 然而,與傳統的機器學習 關注單智能體(single-agent)與環境的交互不同, 人機對抗智能技術研究的場景往往包含兩個或兩 個以上智能體,也就是多智能體(multi-agent)的 情形,這些智能體都擁有自己的優化目標,比如最大化自身收益. 此時,如果直接應用單智能體機器 學習方法,得到的智能體(稱為中心智能體)一般 表現欠佳[4][5] . 這是因為傳統機器學習方法假設數 據的產生機制是平穩的(stationary)[6](即數據均 來自于同一個分布,簡稱為環境的平穩性),這一 假設忽略了研究場景中的其他智能體,而這些智能體也同時在進行學習,因此其行為模式會隨著時間 發生變化,從而破壞中心智能體所處環境的平穩 性,進而導致傳統機器學習方法失去理論保證[2][3] . 更為嚴峻的是,隨著人機對抗場景中智能體數量的 增加,環境非平穩的問題將會愈發凸顯,多個趨利 的智能體在學習的過程中相互影響的情況將不可 避免.

為了處理環境非平穩的問題,有學者考慮將博 弈論引入機器學習方法中[7] . 這主要是因為博弈論 本身就是為了研究多個利己個體之間的策略性交 互(strategic interactions)而發展的數學理論. 博弈 論誕生于 1944 年 von Neumann 和 Morgenstern 合著 的 Theory of Games and Economic Behavior[8] . 在完 全理性的假設下,博弈論給出了一系列解概念來預 測博弈最終可能的結果. 博弈論早期的大部分工作關注不同博弈場景下解概念(solution concepts)的 定義、精煉(refinement)、存在性及其擁有的性質 [9] . 隨著博弈論的發展,部分研究者開始研究在非 完全理性的情形下,個體是否可以通過迭代學習的 方式來達到這些解概念,其中著名的工作包括 Brown 提出的虛擬對局(fictitious play)[10],Hannan 和 Blackwell 研究的無悔學習(no-regret learning, regret minimization,or Hannan consistency)[11][12][13] 等. 近年來,得益于機器算力的提升和深度學習的 興起,人機對抗智能技術領域取得了一系列突破, 如 DeepMind 團隊開發的 AlphaGo[14]首次擊敗了人 類圍棋頂尖選手李世石,阿爾伯塔大學團隊開發的 DeepStack[15]在二人無限注德州撲克中擊敗了專家 級人類選手等. 在 AlphaGo 中,圍棋被建模為二人 零和完美信息擴展形式博弈,并利用自我對局、蒙 特卡洛樹搜索以及深度神經網絡近似來對博弈進 行求解;在 DeepStack 中,二人德州撲克被建模為 二人零和非完美信息擴展形式博弈,求解方法結合 了自我對局、反事實遺憾最小化算法以及深度神經 網絡近似. 從這些例子可以看出,人機對抗智能技 術領域的突破離不開博弈論和機器學習的深度結合.

然而,雖然人機對抗智能技術領域目前取得了 一系列突破,博弈論與機器學習交叉方向的研究卻 缺乏清晰的研究框架. 基于此,本文通過梳理人機 對抗智能技術領域的重要工作,介紹了人機對抗中 的博弈學習方法的內涵,總結了面向人機對抗任務 的博弈學習研究框架,包括其組成要素和基本步 驟,并利用該框架對人機對抗智能技術領域的典型 進展進行了分析. 本文作者認為,隨著人機對抗智 能技術領域試驗場景和測試環境逐漸接近真實場 景,場景的復雜性和對抗性急劇增加,結合現代機 器學習方法和博弈論的博弈學習方法將會在未來 人機對抗領域的發展中發揮越來越重要的作用。

2 發展歷史

自圖靈測試這一人機對抗模式在 1950 年被提 出[16]以來,博弈論和機器學習就在人工智能的發展 中發揮著越來越重要的作用,并呈現出交叉融合的 趨勢. 本文梳理了人機對抗智能技術和博弈論領域 開創性的工作和里程碑事件,并將其發展歷史分為 兩條路線,一條是博弈論結合專家系統(見圖 1 中 綠色實線),另一條是博弈論結合學習方法(見圖 1 中橙色虛線).

1.1 路線一:博弈論結合專家系統

在發展路線一中,為了取得較好的人機對抗表 現,研究者們主要是針對基于博弈論的 min-max 樹 搜索算法進行優化,并結合專家經驗來改進評估函 數. 路線一的簡要發展歷程如下: 1950年Shannon發表了第一篇利用編程來實現 國際象棋走子程序的論文[17],論文中 Shannon 參考 von Neumann 證明的 minimax 定理[8][18]設計了 min-max 搜索算法和局面評估函數. 對于局面評估 函數的設計,參考的是如下定理:在國際象棋中, 最終的結局只可能是以下三種當中的一種:(1) 不 論白方如何走子,黑方有一種策略總能保證贏;(2) 不論黑方如何走子,白方有一種策略總能保證贏; (3)黑白雙方都有一種策略保證至少平局. 1956 年 Samuel 利用第一臺商用計算機 IBM 701 編寫了跳棋(checkers)走子程序,并在 1959 年發表論文總結了該程序的設計思想和原理[19] . 該 跳棋走子程序使用了 min-max 搜索. 1957 年,Bernstein 帶領的團隊在 IBM 701 上 完成了第一個能下完整局的國際象棋走子程序,該程序使用了 min-max 搜索,但每次最多向后搜索 4 步,每步只能考慮 7 個備選走法. 1958 年,Newell,Shaw 和 Simon 第一次在國 際象棋程序中使用 alpha-beta 剪枝搜索算法[20] . Alpha-beta 剪枝算法是 min-max 搜索算法的改進, 通過剪掉明顯次優的子樹分支,該算法極大地降低 了搜索空間. 該算法最初由 McCarthy 在 1956 年提 出. 此后,跳棋和國際象棋程序的優化大多圍繞評 估函數和搜索算法進行改進. 隨著計算能力的增 強,IBM 公司開發的國際象棋程序 Deep Blue 在 1997 年利用總結了大量人類經驗的評估函數和強 大的搜索能力擊敗國際象棋大師 Kasparov,一時轟 動. 該事件從此成為人機對抗智能技術發展歷史上 的標志性事件.

1.2 路線二:博弈論結合學習方法

路線一中采用的方法很難稱得上實現了機器 的―學習‖能力,在路線二中,研究者們試圖克服機 器對專家數據的過度依賴,希望能夠打造自主學習 的智能機器. 路線二的簡要發展歷程如下: 最早在人機對抗研究中引入學習的是 Samuel, 他 1957 年 完 成 的 跳 棋 走 子 程 序 不 僅 使 用 了 min-max 搜索,同時也引入了兩種―學習‖機制[19]: 死記硬背式學習(rote learning)和泛化式學習 (learning by generalization). 前者通過存儲之前下 棋過程中計算得到的局面得分來減少不必要的搜 索,后者則根據下棋的不同結果來更新評估函數中 不同參數的系數來得到一個更好的評估函數. 此 外,該論文也第一次提到了自我對局(self-play). 此 后,這種通過學習來提升機器能力的思想就一直沒 能引起重視. 直到 1990 年前后,才陸續出現了能夠 學習的棋類程序. 這其中比較知名的是 1994 年 Tesauro 結合神經網絡和強化學習訓練出的雙陸棋 程序 TD-Gammon[21] . TD-Gammon 的成功引起了許多學者對學習算 法的興趣,并促成了博弈論與機器學習的初步結 合,其中著名的工作是 Littman 在 1994 年正式建立 了 Markov 博弈(或隨機博弈)與多智能體強化學 習之間的聯系. 之后,Markov 博弈便作為多智能體 強化學習的理論框架,啟發了眾多學者的研究. 同 時,在該論文中 Littman 也提出了第一個多智能體 強化學習算法 minimax-Q [22]. Minimax-Q 是針對二 人零和博弈的學習算法,當博弈的雙方都使用該算 法時,最終博弈雙方的策略都會收斂到二人零和博 弈的最優解極大極小策略上. 值得指出的是,除了人工智能領域,博弈論領 域的研究者們很早也開始了對學習方法的研究.與 人工智能領域學者的出發點不同,他們關注的是在 博弈模型給定的情形下,如何設計迭代學習的規則 能使個體的策略收斂到均衡.此類方法之后被稱為 博弈學習(game-theoretic learning)方法.博弈學習 方法的思想最早可以追溯到 1951 年 Brown 提出的 虛擬對局(fictitious play)[10],即采用迭代學習的 方式來計算二人零和博弈的極大極小策略,之后著 名 的 博 弈 學 習 方 法 包 括 無 悔 學 習 ( no-regret learning ) [11][12][13] 和 復 制 動 力 學 ( replicator dynamics)[23] . 在 1998 年,幾乎與 Littman 等人同 一時期,Fundenberg 和 Levine 出版了著作 The Theory of Learning in Games[24],對之前博弈學習方 法的研究進行了匯總、總結和擴展.博弈學習方法的 研究為博弈論中的解概念(主要是納什均衡)提供 了非理性假設下的解釋,換言之,非理性的個體在 一定學習規則的指導下也能達到均衡. 此后,博弈論和機器學習領域的研究興趣和研 究內容開始交叉,逐步形成了博弈論與機器學習結 合的博弈學習方法[25][26][27][28][29][30] .相關工作包括: (1) 利 用 強 化 學 習 方 法 計 算 博 弈 的 解 , 比 如 Nash-Q [31]等;(2)利用博弈論中的學習方法進行游戲 AI 的算法設計,比如針對不完美信息博弈的反事實 遺憾最小化算法[28](屬于無悔學習算法的一種); (3)利用機器學習加強博弈論中學習方法的可擴展 性,比如虛擬自我對局(fictitious self-play,FSP) [29] . 相比于傳統解決單智能體與環境交互問題的機 器學習方法,與博弈論結合的學習方法有兩個優 勢:一是充分考慮了多個智能體同時最大化收益時 環境的非平穩問題,學習的目標是任務的均衡解而 不是讓某個智能體的收益最大化;二是在滿足模型 的假設時,這些算法一般具有收斂的理論保證.特別 地,面向人機對抗任務,人機對抗中的博弈學習方 法在此基礎上添加了人機對抗任務建模,為的是能 更好地利用和拓展現有的博弈學習方法來處理復 雜的人機對抗任務.

近年來,隨著深度學習的興起,深度神經網絡 被廣泛應用于人機對抗任務,形成了一系列優秀的 模型和博弈學習算法[5][32][33][34][35][36][37][38][39][40] . 這 也促進了人機對抗智能技術近期一系列的突破,包 括2016 年AlphaGo擊敗圍棋9段選手李世石,2017 年 Libratus[30]和 DeepStack[15]分別在二人無限注德州撲克中擊敗人類專業選手以及 2019 年 AlphaStar[41]在星際爭霸 2 中擊敗人類頂級選手.

3 人機對抗中的博弈學習方法內涵

人機對抗中的博弈學習方法是一種面向人機 對抗任務,以博弈論為理論基礎、以機器學習為主 要技術手段,通過智能體與環境、智能體與其他智 能體的交互來獲得具有良好性質(比如適應性、魯 棒性等等)博弈策略的學習方法,是實現人機對抗 智能技術的核心. 具體地,人機對抗中的博弈學習 方法基于博弈論建模人機對抗任務和定義學習目 標,并利用機器學習方法來幫助設計高效、穩健、 可擴展的學習算法以完成人機對抗任務. 為了闡述博弈學習方法與當前機器學習方法 的區別與聯系,本文按照系統中信息的流向以及信 息產生的機制將已有的學習框架劃分為一元、二元 以及三元(或多元)學習. 在一元學習中,智能體 從數據中獲取知識,并且這個過程只涉及數據到智 能體的單向信息流動,監督學習、無監督學習以及 深度學習都屬于一元學習(見圖 2 (A)). 在二元學 習中,智能體通過與環境互動得到數據,進而獲取 知識,與一元學習不同的是此時數據的產生不僅取 決于環境也取決于智能體,即智能體決策的好壞影 響它自身學習的效果,必要時智能體還需要對環境 動力學進行建模,單智能體強化學習屬于二元學習 (見圖 2 (B)). 在三元學習中,智能體通過與環境 和其他智能體的交互獲得數據,此時智能體學習的 效果受到環境和其他智能體的共同影響,必要時智 能體需要對環境動力學和其他智能體進行建模(見 圖 2 (C)),博弈學習屬于三元學習.

4 人機對抗中的博弈學習研究框架

通過對博弈論和人機對抗智能技術發展歷程 的梳理,并結合人機對抗中的博弈學習方法的內 涵,本文總結出了如圖 3 所示的人機對抗中的博弈 學習研究框架:人機對抗中的博弈學習研究框架以 人機對抗任務為輸入,首先通過博弈模型構建獲得博弈模型,然后通過解概念定義得到博弈的可行 解,最后通過博弈解計算輸出滿足需求的博弈策略 組合,也就是學習任務的解. 直觀來講,人機對抗 中的博弈學習研究框架將一類人機對抗任務的解 決近似或等價轉換為對某一類博弈問題的求解,該 框架包含兩個組成要素(博弈模型和博弈解)和三 個基本步驟(博弈模型構建、解概念定義和博弈解 計算).

5 典型應用上一節闡述了人機對抗中的博弈學習研究框 架,本節將利用該框架對當前人機對抗智能技術領 域的重要工作進行分析(如表 2 所示),這些工作 基本涵蓋了本文介紹的幾種博弈模型,包括完美信 息擴展形式博弈(圍棋)、不完美信息擴展形式博 弈(德州撲克)以及部分可觀測 Markov 博弈(星 際爭霸 2). 各工作的具體分析如下:

6 總結與展望

人機對抗智能技術是人工智能發展的前沿方 向,它通過人、機、環境之間的博弈對抗和交互 學習研究機器智能快速提升的基礎理論與方法技 術. 為了更好地促進人機對抗智能技術的發展, 本文通過梳理人機對抗智能技術領域的重要工作, 總結了面向人機對抗任務的博弈學習研究框架, 指出了博弈論和機器學習在其中發揮的作用,闡 述了人機對抗中的博弈學習方法的兩個組成要素 和三個基本步驟,并利用該框架分析了領域內的 重要進展. 與此同時,本文就當前人機對抗中的 博弈學習方法面臨的理論和應用難點問題進行了 介紹,包括非零和博弈求解目標定義、博弈學習 方法的可解釋性、多樣化博弈學習測試環境構建 以及大規模復雜博弈快速求解. 人機對抗中的博 弈學習方法是人機對抗智能技術的核心,它為人 機對抗智能技術領域的發展提供了方法保障和技 術途徑,同時也為通用人工智能的發展提供了新 思路.

付費5元查看完整內容
北京阿比特科技有限公司