亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

AI智能體在開放環境中進行規劃和執行交互。例如,OpenAI的Operator可以使用網頁瀏覽器進行產品比較并購買在線商品。

關于使智能體既有用又安全的研究大多集中于直接修改它們的行為,例如通過訓練它們遵循用戶指令。直接的行為修改雖然有用,但并不能完全解決異質智能體如何相互交互以及與其他參與者互動的問題。相反,我們需要外部協議和系統來塑造這些交互。例如,智能體需要更高效的協議來相互溝通并達成協議。將智能體的行為歸因于特定的個人或其他法律實體,可以幫助建立信任,并且也可以防止濫用。基于這一動機,我們提出了智能體基礎設施的概念:技術系統和外部共享協議,旨在調節并影響智能體與其環境之間的交互及其影響。就像互聯網依賴于像HTTPS這樣的協議一樣,我們的工作認為,智能體基礎設施同樣對于智能體生態系統至關重要。我們確定了智能體基礎設施的三個功能:1)將行為、屬性和其他信息歸因于特定的智能體、其用戶或其他行為者;2)塑造智能體之間的互動;3)檢測并糾正智能體的有害行為。我們提供了一個不完全的研究方向目錄,涵蓋了這些功能的相關研究。對于每個方向,我們分析了用例、基礎設施的采納情況、與現有(互聯網)基礎設施的關系、局限性和未解問題。推進智能體基礎設施的研究可以為社會準備采用更先進的智能體技術奠定基礎。

1 引言

人工智能研究社區的一個基本目標是構建AI智能體:能夠在開放環境中規劃和執行交互的AI系統,例如撥打電話或在線購買商品(Maes, 1994; 1995; Lieberman, 1997; Jennings 等, 1998; Johnson, 2011; Sutton & Barto, 2018; Russell & Norvig, 2021; Chan 等, 2023; Shavit 等, 2023; Wu 等, 2023; OpenAI, 2018; Gabriel 等, 2024; Kolt, 2024; Lazar, 2024)。智能體與其他計算系統的不同之處有兩個顯著方面。首先,與用作聊天機器人的基礎模型相比,智能體不僅僅與用戶交互,還直接與世界進行交互(例如航班預訂網站)。其次,與傳統軟件(例如排序算法的實現)相比,智能體能夠適應不完全指定的任務指令。盡管人工智能社區已致力于開發智能體數十年,但這些智能體通常只執行狹窄范圍的任務(Wooldridge, 2009; Mnih 等, 2013; Silver 等, 2018; Badia 等, 2020)。相比之下,最近基于語言模型構建的智能體可以嘗試(盡管可靠性有所不同)(Kapoor 等, 2024; Liu 等, 2023; Mialon 等, 2023; Lu 等, 2024; Zhang 等, 2024)更廣泛的任務,例如軟件工程(Jimenez 等, 2024; Wu, 2024; Chowdhury 等, 2024)或辦公室支持(Gur 等, 2024; MultiOn, 2024)。更通用的智能體可能會自動化一系列既有益又有害的任務。個性化的智能體可以幫助個人做出各種艱難的決定,例如選擇購買何種保險或選擇就讀哪所學校(Van Loo, 2019; Sunstein, 2024; Lazar 等, 2024)。智能體在經濟中的部署可能會帶來生產力增長(Korinek & Suh, 2024)。然而,諸如缺乏可靠性、無法維持有效的監督或缺乏追責機制等障礙,可能會阻礙其有益的采用。另一方面,這些障礙對于有惡意動機的行為者來說可能并不關鍵。潛在問題包括詐騙(Fang 等, 2024b; Chen & Magramo, 2024)和大規模破壞數字服務(Fang 等, 2024a; Bhatt 等, 2023; 美國司法部, 2024)。

為了促進有益任務并減輕有害任務,許多AI研究集中于系統級干預,這些干預作用于AI系統本身,以塑造其行為。主要的研究方向包括目標指定與跟隨(Hadfield-Menell 等, 2016; Christiano 等, 2017; Leike 等, 2018; Bai 等, 2022; Hua 等, 2024; Wang 等, 2024a;b; Kirk 等, 2024; Huang 等, 2024; OpenAI, 2024)、對抗性魯棒性(Greshake 等, 2023; Tamirisa 等, 2024; Zou 等, 2024; Anil 等, 2024; Wallace 等, 2024)和合作(Lerer & Peysakhovich, 2019; Hu 等, 2020; Leibo 等, 2021; Dafoe 等, 2021)。如果采納這些系統級干預(Askell 等, 2019),它們可以幫助提高智能體的可靠性,但可能不足以促進其有益采用或減輕風險。例如,實現對抗性魯棒性的困難可能意味著公司在采納智能體來完成具有經濟價值的任務時,需要更多的保證。特別地,潛在的保證機制包括智能體認證、保險或身份解決方案,它們可以在不同方之間建立信任。此類工具塑造了智能體與機構(例如法律和經濟系統)及其他行為者(例如網頁服務提供商、人工智能智能體等)之間的交互。

鑒于系統級干預的不足,我們提出了智能體基礎設施的概念:外部技術系統和共享協議,旨在調解并影響智能體與其環境之間的交互及其影響。這些系統和協議可以是新穎的,也可以是現有系統和協議的擴展。智能體基礎設施的例子包括智能體之間的通信協議(Marro 等, 2024)、智能體的ID(Chan 等, 2024b)、智能體屬性或行為的認證系統,以及回滾智能體行為的方法(Patil 等, 2024)。我們在表1中列出了更多的例子。我們的智能體基礎設施概念并不涉及使智能體能夠基本操作的技術系統(例如內存系統、云計算),盡管它通常會基于或修改這些系統。此外,雖然我們的討論將以基于語言模型的智能體為基礎,但智能體基礎設施的核心思想大多不依賴于架構,并且擴展了現有的計算科學、經濟學和社會科學的研究(Wooldridge, 2009; Perrier, 2025)。 為了進一步理解智能體基礎設施與系統級干預之間的區別,可以將交通安全作為類比。如果我們將人類駕駛員類比為AI智能體,系統級干預包括駕駛員培訓計劃。基礎設施則包括交通信號燈、環形交叉路口、應急車道和攝像頭監控的限速。我們在表2中提供了更多的比較。

就像互聯網依賴于TCP(Eddy, 2022)、HTTPS(Fielding 等, 2022)和BGP(Rekhter 等, 2006)等基礎設施一樣,我們認為智能體基礎設施可能對于解鎖智能體的好處并管理其風險至關重要。以解鎖好處為例,將智能體的行為與用戶綁定的協議可以促進問責,從而降低智能體采用的障礙。類似地,能夠通過HTTPS進行安全的金融交易使得數萬億美元的電子商務市場成為可能(Statista, 2024)。作為管理風險的例子,智能體基礎設施可以支持系統級干預。例如,智能體認證系統可以警告其他行為者(例如其他智能體),不要與缺乏某些保障措施的智能體互動,就像瀏覽器標記非HTTPS網站一樣。通過這種方式,智能體基礎設施可以利用智能體的交互作為杠桿點來提高安全性:限制智能體的交互也限制了智能體的潛在負面影響。 本文識別了智能體基礎設施可以發揮的三項功能:1)將行為、屬性和其他信息歸因于特定智能體或其他行為者;2)塑造智能體的互動;3)檢測并糾正智能體的有害行為。我們提出了可以幫助實現每個功能的基礎設施,包括用例分析、采用情況、局限性和未解問題。我們的建議主要針對可能希望構建智能體基礎設施的研究人員和開發者。這些建議對于可能希望支持其建設的政府或資助機構也可能有用。

付費5元查看完整內容

相關內容

 是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。 人工智能是計算機科學的一個分支。

并非所有人工智能(AI)都生而平等。雖然基礎的大型語言模型能夠處理和生成文本,但像OpenAI的GPT-4.5、Anthropic的Claude 4 Sonnet、Google的Gemini 2.5 Pro、Meta的LLaMA 4以及X的Grok 4這樣的“前沿模型”(frontier models)則要強大得多。處于該領域最前沿的這類能力更強的模型,相比其更老舊、更小且更不先進的同類產品,擁有更深厚的知識庫、更強的上下文理解能力以及增強的推理能力。在軍隊探索人工智能之際,選擇能夠駕馭現代戰爭無定形且不斷變化本質的強大模型至關重要。在人工智能將在重大決策中發揮重要作用的軍事應用中,前沿模型所具備的復雜程度并非奢侈品,而是必需品。

為何選擇前沿模型?小型AI的局限性

前沿模型是利用海量數據訓練出來的強大系統。然而,何為“前沿”會隨時間變化——而且變化極快。

衡量模型能力的一個關鍵指標是其“參數”(parameters)數量——可將其視為模型從數據中學習時調整的內部設置。參數越多通常意味著模型能學習更細微的模式。例如,擁有1750億參數的GPT-3.5在2022年底被認為是先進的。但僅僅幾個月后,OpenAI發布了GPT-4,“前沿”的門檻也隨之改變。于2023年初發布的GPT-4擁有超過一萬億參數,構建所需的計算資源是其前代的十四倍多。GPT-4還展現出許多不尋常的特性,即微軟所稱的“涌現行為”(emergent behaviors)。據報道,最近發布的Grok 4擁有超過1.7萬億參數,這是驚人的。與它們更小、專注于特定任務的前期模型不同,當今龐大的前沿模型展現出遠為強大的推理、處理復雜性和理解上下文的能力。

推理能力與復雜性處理

更大的模型更擅長思考,尤其是在任務需要多個邏輯步驟時,例如起草完整文件或進行技術分析。它們綜合海量數據集的能力使其能夠進行邏輯推理、連接不同想法,并在長篇論述中保持連貫性。這在網絡安全和情報等領域至關重要,因為好的決策依賴于審視多種因素、發現隱藏模式并理解敵方行動。更大的模型似乎也有助于減少常見問題,如編造信息(通常稱為“幻覺”,hallucinations)或表現出不公平傾向(“偏見”,biases)。另一方面,較小的模型在這些領域往往表現不佳。它們難以管理相互關聯的信息片段,或在復雜問題中理清相互沖突的細節。這可能導致思維脫節、答案過于簡單,以及無法處理諸如分析多樣化威脅或理解復雜作戰態勢等復雜任務。當準確性和全面性至關重要時,模型的尺寸直接影響其分析信息和支援作戰的能力。

上下文保持與泛化能力

另一個關鍵區別在于,更大的模型能夠記住并利用長文檔或討論中的信息。這在軍事應用中尤為重要,因為準確性和一致性至關重要。無論是處理情報報告、起草戰略指導,還是在網絡行動中綜合大量日志,前沿模型都能保持一定程度的連貫性,從而減少不一致性并減輕人類分析員的認知負擔。適應新情況對小模型來說也是一項挑戰;它們未經過足夠多樣化數據的訓練,無法處理前所未見的事物。前沿模型在龐大數據集上訓練而成,并能同時考慮大量信息,因此更擅長處理通用任務,并能將舊知識應用于新問題而無需重新訓練。較小的架構需要大量微調才能達到類似性能水平,但隨后僅能在狹窄領域取得成功,使其在需要靈活性和快速適應的動態作戰環境中顯得脆弱。

誠然,小模型已展現出相比其前代的顯著改進,甚至在某些狹窄指標上接近GPT-4等模型的能力。但GPT-4早已不再是最先進的前沿模型。這種比較并不具備許多人認為的分量。與此同時,現代前沿模型已變得如此強大,以至于讓它們的前輩看起來像玩具。

前沿模型對指揮官與參謀人員的重要性

高級領導者處理復雜、模糊不清的局面和過載的信息。前沿模型可以成為決策的有力助手,快速準確地匯總海量數據并解釋要點。當參謀工作需遵循特定政策、法律規則和作戰目標時,這些適應性強的模型可提供清晰的評估,確保建議合乎邏輯且一致。與難以在變化環境中平衡多種因素的小模型不同,更大的系統能結合過往案例、軍事條令和當前信息,提出切實可行的行動方案。這能加速決策過程。高級領導者將獲得條理清晰的分析,解釋風險、收益以及選擇可能對任務產生的影響——一個單一的AI系統有可能完成當前需要多個龐大參謀團隊才能完成的任務。在速度與準確性同等重要的時代,利用先進AI輔助決策不僅有益,而且必不可少。

前沿模型在防御性網絡行動中的重要性

執行初步分析并加速調查。在當今的網絡安全工作中,數據的海量和高速使得快速區分真實威脅與正常網絡活動變得困難。前沿模型通過自動化初步審視這些數據可發揮關鍵作用:梳理安全日志、關聯來自不同系統的相關告警、并在人類分析員介入前過濾掉不重要信息。這將使分析員從常規工作中解脫出來,使其能專注于明確的網絡攻擊跡象。除了這種初步分類,這些模型還能通過幫助創建高級數據檢查方法、發現異常活動以及提供通常需要數小時人工工作的背景信息來加速調查。較小的模型難以進行多步驟思考并比較來自不同(尤其是大型)數據集的信息。然而,前沿模型足夠強大,能夠處理這些極其困難的任務。隨著攻擊者行動更快更頻繁,這種AI能力對于效率和成功防御我們的網絡都至關重要。

增強訓練。良好的網絡訓練需要的不僅僅是固定的課程計劃和老舊案例;它需要適應新威脅的逼真、靈活的教學。即使小型語言模型也有能力通過動態數據集和響應式場景來補充這種訓練,但只有前沿模型才具備構建訓練本身的能力。

較小的模型缺乏創建超越基礎練習的有用網絡訓練所需的深刻理解。利用前沿模型,組織可以創建一個隨著敵方方法變化而不斷更新的網絡訓練系統。這確保我們的網絡部隊為現實挑戰做好準備,而不僅僅是教科書案例。

但誰來構建它們?

前沿模型對軍事應用的關鍵性引出了關于如何提供資源并實現該能力的重要問題。如果給予機會,許多士兵能做的遠不止日常例行任務。這是“陸軍軟件工廠”(Army Software Factory)的基本假設,該工廠讓服役人員開發軟件,否則政府可能需要向承包商支付兩倍、三倍甚至十倍的費用。但這與在最尖端技術水平上構建、調優或部署——或三者兼有——軍隊真正需要的那種最先進AI模型并非一回事。

另一個挑戰是變化的快速步伐。一年前,若能在一個經認證的平臺上使用現代模型,會欣喜若狂。如今,通過CamoGPT等平臺擁有了這種能力。然而,目標已經改變。在過去幾個月中,諸如用于增強復雜問題解決的專用推理引擎、像筆記本語言模型(NotebookLM)這樣用于整合研究與寫作的工具、像深度研究(Deep Research)這樣的高級語義搜索能力,以及達到人類水平的文本轉語音模型等變革性創新,極大地提高了大型語言模型的可靠性和實用性。軍隊花了一年時間追趕,結果卻發現當他們趕上時,業界已遙遙領先。美陸軍新的生成式AI平臺——“陸軍企業大型語言模型工作空間”(Army Enterprise Large Language Model Workspace),由Ask Sage提供支持,至少接近了目標,但缺乏許多這些關鍵功能及更多功能,并且還因采用基于令牌(token)的訂閱方案(要求各單位自費購買訪問權限)而執行不力——這是一個很少有人可能克服的障礙。也許到2026年,政府系統將擁有2025年今天可在商業上獲得的AI能力,但也可能沒有。即使有,民用與軍用技術之間一年或更長時間的延遲也是一個顯著差距。

然而,依賴外部創新將重大的法律和數據安全挑戰推到了前沿。一個令人不安的事實是,大多數商業技術,包括軍隊所需的強大前沿模型,在設計時并未考慮處理政府擁有的非密和密級數據的嚴格要求。商業實體收集、匯總并最終將敏感軍事數據用于其自身訓練集、模型改進或商業利潤的前景,不僅是一個假設性擔憂,更是對數據主權的切實風險和對作戰安全的嚴重關切。

這種困境使“自建還是購買”的權衡變得復雜。雖然內部開發真正的前沿模型難度陡增,但簡單地接入沒有嚴格數據控制的商業產品則是在招致災難。精心構建數據治理框架、為政府用例建立獨立安全的模型運行和微調飛地(enclaves)、以及明確定義并嚴格執行知識產權所有權和數據使用權——確保政府保留對其數據及任何利用其開發的AI能力的控制權——至關重要。這些不僅僅是官僚障礙,而是必須從一開始就融入軍隊AI采用戰略的基本保障措施,以免旨在增強我們能力的工具本身成為泄密的渠道。

結論

“軍用級”(military grade)一詞在軍隊中常常是個笑話。平民認為它意味著“高質量”,但服役人員知道它通常意味著滿足某些模糊標準的最便宜產品。我們面臨AI領域發生同樣事情的風險。為加速國防部門采用AI,美五角大樓設立了“AI快速能力小組”(AI Rapid Capabilities Cell),但軍隊對通用需求的偏好,加上對大型語言模型糟糕的評估方法,很可能導致軍隊配備性能不佳的聊天機器人,僅僅因為它們成本更低,而非迫切需要的強大得多的力量倍增器。CamoGPT、現已停用的非密互聯網協議路由器網絡GPT(NIPRGPT)等平臺雖好但不夠卓越——通過這些平臺可用的小模型與當今前沿模型之間模糊但至關重要的差異不容忽視,不能因為“夠用就好”的理念而被拋棄。事實上,在CamoGPT中運行的小型開放權重模型與在專用數據中心運行的前沿模型之間的差異并非微不足道。AI應增強決策能力、優化工作流程并強化網絡防御。在這些AI將在重大軍事決策中發揮重要作用的背景下,前沿模型所具備的復雜程度并非奢侈品,而是必需品。

通過投資并整合前沿模型,軍隊可以實現AI的潛力——不是作為人類專業知識的替代品,而是作為增強決策能力、優化工作流程并強化網絡防御不可或缺的工具。另一種選擇——由于采購惰性或未能優先考慮而固守老舊、受限的模型——將導致停滯不前,而對手則在迅速采用——甚至自行開發——更優越的AI技術。為避免喪失技術優勢,軍隊不僅必須投資并整合當前的前沿模型,還必須培養制度靈活性以持續適應不斷演變的AI格局。在加速變革的時代,接受“夠用就好”的AI是無法承受的風險。

參考來源:美國陸軍

付費5元查看完整內容

人工智能(AI)融入軍事行動已成為全球武裝力量的重要關注點。軍事指揮官對AI提升決策能力(尤其是戰役層級快速整合信息以進行生死抉擇)的潛力充滿興趣。然而,在部署AI決策支持系統(Decision Support System, DSS)時,需平衡其能力與局限以確保合理有效應用。

本文梳理近期AI-DSS的典型軍用項目。

  • 項目名稱:VISION;機構:埃森哲(Accenture);核心描述:VISION(多功能情報與行動需求系統)通過融合人類判斷與模型推演,賦能聯邦領導者在沖突、危機及災害響應等復雜議題中做出數據驅動的知情決策。”
  • 項目名稱:Lattice;機構:安杜里爾(Anduril);核心描述:Lattice通過提煉關鍵決策節點(剔除冗余信息)并應用深度學習模型為操作員提供決策建議,簡化決策流程復雜性……該系統支持跨多域、廣域分布及通信對抗環境下的有人/無人資產實時指揮控制。
  • 項目名稱:多項目;機構:Clarifai;核心描述:快速將海量數據轉化為行動方案,為作戰人員與供應鏈提供決策優勢。
  • 項目名稱:In the Moment;機構:美國國防高級研究計劃局(DARPA);核心描述:DARPA國防科學辦公室(DSO)征集創新研究提案,旨在開發算法決策系統,使其能在戰場醫療分診等高難度領域承擔‘人類離環’決策職責。
  • 項目名稱:DEFCON AI;機構:DEFCON AI;核心描述:DEFCON AI——專注于提升美國防部建模、仿真與AI能力的下一代軟件公司——宣布獲得美空軍合同,加速其戰役級后勤與機動訓練軟件從原型到生產代碼的轉化。
  • 項目名稱:REASON;機構:美國情報高級研究計劃局(IARPA);核心描述:快速解釋、分析與溯源在線(REASON)計劃旨在開發技術,使情報分析師通過更有效的證據與推理運用,大幅提升分析報告的論證質量。
  • 項目名稱:Gospel/Lavender/Where’s Daddy; 機構:以色列國防軍;核心描述:“Gospel”作為技術工具,整合多源異構數據,引導情報分析師聚焦具有高軍事關聯潛力的物理目標……‘Lavender’是通用數據庫,交叉索引加沙地帶恐怖組織成員的多層情報源,高效組織關聯數據節點。
  • 項目名稱:Wolf Howl;機構:約翰霍普金斯大學應用物理實驗室;核心描述:指揮官可在特定時間窗或風險容忍度內‘兵棋推演’不同戰略,使人類與機器各展所長,實現人機協同最優解。
  • 項目名稱:全球規劃與監測(GLIMPS);機構:Leidos;核心描述:GLIMPS提供長達五年的精準全球預測,聚焦動蕩復雜環境,通過開源情報大數據挖掘與機器學習,揭示貧困、環境退化、政治動蕩及社會矛盾的潛在關聯,定位壓力指標與不穩定區域。
  • 項目名稱:ANTICIPE;機構:北約科技組織(NATO STO);核心描述:ANTICIPE“集成兵棋推演工具與先進機器學習算法,旨在作戰場景中輔助決策”。
  • 項目名稱:AIP;機構:Palantir;核心描述:AIP通過釋放組織數據潛能并構建智能快速決策界面,提供下一代工具支持。
  • 項目名稱:Iris;機構:Rebellion Defense;核心描述:Iris采用前沿AI軌跡預測技術,在復雜環境中快速定位高價值實體以供深度調查。
  • 項目名稱:Donovan;機構:Scale AI公司;核心描述:在Donovan模板中整合洞察,快速生成行動方案、簡報或總結報告,通過提示指令捕獲任務關鍵信息。
  • 項目名稱:Maven智能系統;機構:美國陸軍;核心描述:“紅龍版”DSS可接入多源傳感器數據,應用計算機視覺算法輔助士兵識別軍事目標,提供指揮鏈審批流程支持以實施打擊,并存儲毀傷評估數據,同步標繪友軍與目標位置。

參考來源:云智防務公眾號

付費5元查看完整內容

人類在復雜的模式識別任務中非常出色。然而,他們通常依賴工具——如書籍、谷歌搜索或計算器——來補充他們的先驗知識,以便得出結論。與人類類似,生成性人工智能模型也可以通過訓練,使用工具來訪問實時信息或建議現實世界中的行動。例如,模型可以利用數據庫檢索工具來訪問特定信息,如客戶的購買歷史,從而生成量身定制的購物推薦。或者,基于用戶的查詢,模型可以進行多次API調用,向同事發送電子郵件回復,或代表用戶完成金融交易。為了實現這一點,模型不僅需要訪問一組外部工具,還需要具備規劃和執行任務的能力,且能夠自我指導。這種推理、邏輯與外部信息訪問能力的結合,與生成性人工智能模型相連,引出了“智能體”(Agent)的概念——即一種超越生成性人工智能模型獨立功能的程序。本文白皮書將更詳細地探討這些及相關方面。

人類在復雜的模式識別任務中非常出色。然而,他們通常依賴工具——如書籍、谷歌搜索或計算器——來補充他們的先驗知識,以便得出結論。與人類類似,生成性人工智能模型也可以通過訓練,使用工具來訪問實時信息或建議現實世界中的行動。例如,模型可以利用數據庫檢索工具來訪問特定信息,如客戶的購買歷史,從而生成量身定制的購物推薦。或者,基于用戶的查詢,模型可以進行多次API調用,向同事發送電子郵件回復,或代表用戶完成金融交易。為了實現這一點,模型不僅需要訪問一組外部工具,還需要具備規劃和執行任務的能力,且能夠自我指導。這種推理、邏輯與外部信息訪問能力的結合,與生成性人工智能模型相連,引出了“智能體”的概念——即一種超越生成性人工智能模型獨立功能的程序。本文白皮書將更詳細地探討這些及相關方面。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

利用AI智能體的一個關鍵因素是它們對新事物的穩健性。AI智能體包括經過設計或訓練的模型。設計型模型包括環境中那些被工程師認為是重要的知識。學習型模型通過訓練數據建立的聯系來形成環境各個方面的嵌入。然而,在操作過程中,豐富的環境很可能會出現訓練集中沒有的挑戰,沒有在工程模型中考慮到。更糟糕的是,對抗性環境會被對手改變。美國國防部高級研究計劃局(DARPA)的一項計劃旨在發展必要的科學,以開發和評估對新事物具有魯棒性的智能體。人工智能在關鍵任務環境中發揮設想的作用之前,將需要這種能力。

作為DARPA人工智能科學和開放世界新事物學習(SAIL-ON)的一部分,我們正在將可能的軍事領域新事物類型映射到一個獨立于領域的本體上,作為新事物理論的一部分來開發。從數學和本體論的角度來描述可能的新穎性空間,將使我們能夠在相關的軍事環境中對來自DARPA SAIL-ON項目的智能體設計進行實驗。利用在實驗室實驗中使用的相同技術,我們將能夠測量智能體檢測、描述和適應新事物的能力。

動機

軍隊不斷遇到新奇的概念。特別是在面對對手時,他們被迫解決這些新奇的問題,而決策的時間往往很少。例如,1999年,北約部隊在科索沃戰爭期間對塞爾維亞進行了一次空中轟炸,稱為 "盟軍行動"。這被證明是北約盟國的一次學習經歷,因為在整個行動中遇到了多個新奇事件。首先,塞爾維亞軍隊比預期的更加堅定,裝備也更好。第二,塞爾維亞人嚴重依賴地對空導彈(SAM)和高射炮(AAA),這就要求盟軍飛得比預期的要高,使目標定位具有挑戰性。第三,塞爾維亞人意外地使用了帶有雷達發射控制的導彈。所有這些新事物都需要盟軍在當下有效地解決,同時還要克服其他困難,如不規則的天氣和地形(Lambeth, 2001)。能夠在軍事領域內定義和描述新事物是DARPA SAIL-ON項目的一個目標。

新奇性對AI智能體的影響

目前的人工智能(AI)系統擅長于范圍狹窄的封閉世界的任務,如玩棋盤游戲(Silver,2017)和加強圖像分類。然而,眾所周知,這些人工智能系統在面對分散的輸入時很困難(Langely,2020),當它們在不受控制和不可預見的條件下進行測試時,它們的性能會嚴重下降(Chao,2020),而這正是軍事作戰人員普遍面臨的。對于人工智能系統和人類在軍事領域的合作,人工智能系統需要能夠檢測、描述和適應作戰人員操作的開放世界環境中的新情況。

為了進一步說明這一點,我們將提到一個名為 "零號方案 "的模擬戰術場景,其中一架藍色部隊的戰斗機(由AI智能體控制),根據各種傳感器數據幫助其做出決定,任務是摧毀紅方敵人的彈藥儲存地,同時躲避附近兩支紅方敵軍的地對空導彈(SAM)發射器。在創新前的情況下,薩母導彈射程保持不變,AI智能體理可以成功地執行任務,而不會讓戰斗機被擊落。然而,當考慮到技術的快速發展時,假設薩母的導彈射程永遠保持不變是一個明顯的疏忽。在創新后的開放世界場景中,薩姆導彈的射程增加,超過了藍方戰斗機之前所習慣的范圍,導致智能體在執行任務前被擊落。

零號方案場景中的AI智能體沒有重新規劃路線以避免被擊落,而是根本沒有意識到發生了新奇的情況,它繼續派出更多的資產去執行任務,結果卻被摧毀。在一個理想的場景中,AI智能體被創建為意識到新奇事物的可能性,一個更強大的智能體反而可以學習檢測、描述和適應現實世界的新奇事物。

對新奇性的數學建模

為了創造豐富的新奇事物,模擬真實世界的不確定性和混亂性,我們引入了統計分布。并非每一個新事物都會有一個適當的統計分布。例如,在零號方案中,如果其中一個薩母被改為誘餌,這將是一個靜態的新事物,不包括任何變化。另一方面,我們可以通過為誘餌薩姆的運作方式增加更多的參數來增加這種新穎性的復雜性。這只是想說,統計分布對于增加豐富性和幫助模擬真實世界是很有用的,但對于引入新奇性卻不是必須的。

新奇性往往涉及連續變量的參數變化。例如,在零號方案中,導彈射程、導彈速度、紅/藍方生存能力和可用彈頭數量都是定量變量。

我們可以用統計分布來模擬這些新變量。對于連續變量,我們要使用正態分布或均勻分布。當然,均勻分布的好處是有嚴格的最小和最大參數值,以避免重疊或潛在的不可能值。具體到SAIL-ON,每個新奇的執行者通常會將新奇性進一步細分為簡單、中等和困難。因此,同一個新奇事物會有三個不同的版本。

讓我們用定義為R的導彈射程作為一個例子。我們將使用一個具有正態分布的模型,其平均值為μ,標準差為σ。

我們可以創建三個分布,分別為簡單(RE)、中等(RM)和困難(RH),定義為:

在圖1中作了圖表。我們可以在這些分布中的每一個范圍內對新穎的導彈進行采樣,這取決于難度水平。此外,三個難度級別將進一步幫助我們測試智能體對同一新奇事物的不同變化進行定性、檢測和適應的能力。此外,智能體對三種難度級別的新奇事物的反應方法可能有很大的不同,并提供關于智能體如何處理不同情況的進一步信息。

圖1:導彈射程的新奇性分布

SAIL-ON執行者有各種方法來定義新穎性。有些人可能會使用上述的分布,通常使用均勻分布或離散均勻分布,這有助于避免易、中、難三個級別之間的重疊。另一些人可能對一些新奇的事物使用靜態數字。以導彈射程為例,有些人可能會簡單地選擇????=50????,????=55??,以及??=60????。目前,我們正在使用靜態數字開始我們的測試。接下來,我們計劃向統計學方法發展,以建立一個更豐富、更真實的開放世界中的新奇事物模型。請注意,這種統計分布方法將需要大量的樣本集,以收集足夠的數據來創建關于智能體性能的準確指標。

導彈射程的例子是針對一個特定的連續、定量的變量。然而,每個新事物都會有自己的分布分配給它們。有時,正態分布或均勻分布不會是最適合的。對于二進制變量,如存活率,我們可以使用伯努利分布。對于罕見事件,如傳感器故障,我們可以使用泊松分布。

付費5元查看完整內容

圖神經網絡(GNNs)已被證明是有前途的解決方案的協同過濾(CF)與用戶項交互圖建模。現有的基于GNN的推薦系統的關鍵思路是遞歸地執行沿用戶-項目交互邊緣傳遞的消息,以細化編碼的嵌入。盡管他們的有效性,但是,目前大多數的推薦模型依賴于足夠的和高質量的訓練數據,這樣學習的表示可以很好地捕捉準確的用戶偏好。在許多實際的推薦場景中,用戶行為數據往往是有噪聲的,并且呈現出偏態分布,這可能導致基于GNN的模型的表現性能欠佳。在本文中,我們提出了一種新的自監督超圖transformer 框架(SHT),它通過明確地探索全局協作關系來增強用戶表示。具體來說,我們首先賦予圖神經CF范式以超圖transformer 網絡來維持用戶和物品之間的全局協同效果。在提取全局上下文的基礎上,提出了一種跨視圖生成式自監督學習組件,用于用戶-物品交互圖上的數據增強,以增強推薦系統的魯棒性。大量實驗表明,SHT可以顯著提高各種最先進的基線性能。進一步的消融研究表明,我們的SHT推薦框架在緩解數據稀疏性和噪聲問題方面具有卓越的表達能力。源代碼和評估數據集可以在//github.com/akaxlh/SHT上找到。

付費5元查看完整內容

約束強化學習(CRL)最近引起了人們的極大興趣,因為滿足安全約束對現實世界的問題至關重要。然而,現有的CRL方法對折現累積成本的約束通常缺乏嚴格的定義和安全性保證。另一方面,在安全控制研究中,安全被定義為持續滿足一定的狀態約束。這種持久安全只在狀態空間的一個子集上是可能的,這個子集被稱為可行集,對于給定的環境存在一個最優最大可行集。近年來的研究利用基于能量的方法,如控制屏障函數(CBF)、安全指數(SI)等,將安全控制與CRL相結合,利用可行集的先驗保守估計,影響了學習策略的性能。針對這一問題,本文提出了一種可達性CRL (RCRL)方法,利用可達性分析來刻畫最大可行集。我們用建立的自一致性條件刻畫可行集,然后學習一個安全值函數作為CRL的約束。我們還利用多時間尺度隨機逼近理論證明了所提算法收斂于局部最優,其中最大可行集是可以保證的。不同基準上的經驗結果,如safecontrol-gym和Safety-Gym驗證了學習的可行集,在最優標準中的性能,以及RCRL的約束滿足,與最先進的CRL基線進行了比較。

//www.zhuanzhi.ai/paper/7cf75b83c7c786a3f426e412204927f8

付費5元查看完整內容

聯邦學習(Federated Learning)是一種新興的保護隱私的機器學習范式,在學術界和行業中都引起了極大的關注。聯邦學習的一大特征是異構性,它來源于參與學習的設備有各種硬件規格、且設備狀態是動態變化的。異構性會對聯邦學習訓練過程產生巨大影響,例如,導致設備無法進行訓練或無法上載其模型更新。不幸的是,這種影響尚未在現有的聯邦學習文獻中進行過系統的研究和量化。本文進行了第一個聯邦學習中異構性影響的實證研究。本文從13.6萬部智能手機中收集了大量數據,這些數據可以真實地反映現實環境中的異構性。本文還構建了一個符合標準聯邦學習協議同時考慮了異構性的聯邦學習平臺。基于以上數據和平臺進行了廣泛的實驗,以比較目前最優的聯邦學習算法在考慮異構性和不考慮異構性下的性能。結果表明,異構性導致聯邦學習的性能顯著下降,包括高達9.2%的準確度下降,2.32倍的訓練時間延長以及公平性受損。此外,本文進行了原因分析,發現設備故障和參與偏差是導致性能下降的兩個潛在根本原因。我們的研究對聯邦學習從業者具有深刻的啟示。一方面,本文的發現表明聯邦學習算法設計師在模型評估過程中有必要考慮異構性。另一方面,本文的發現敦促聯邦學習的系統設計者設計特定的機制來減輕異構性的影響。中心博士生楊程旭為該文第一作者。

付費5元查看完整內容

圖神經網絡(GNNs)的快速發展帶來了越來越多的新架構和新應用。目前的研究側重于提出和評估GNNs的具體架構設計,而不是研究GNNs的更一般的設計空間,后者由不同設計維度的笛卡爾積(如層數或聚合函數的類型)組成。此外,GNN設計通常專門針對單個任務,但很少有人努力了解如何快速為新任務或新數據集找到最佳GNN設計。這里我們定義并系統地研究了GNNs的架構設計空間,它包含了超過32種不同的預測任務的315000種不同的設計。我們的方法有三個主要創新:(1)一個通用的GNN設計空間;(2)具有相似度度量的GNN任務空間,這樣對于給定的新任務/數據集,我們可以快速識別/傳輸性能最好的架構;(3)一種高效的設計空間評價方法,可以從大量的模型-任務組合中提取洞察力。我們的主要結果包括:(1)一套設計性能良好的GNN的全面指南;(2)雖然針對不同任務的最佳GNN設計存在顯著差異,但GNN任務空間允許在不同任務之間傳輸最佳設計;(3)利用我們的設計空間發現的模型實現了最先進的性能。總的來說,我們的工作提供了一個原則性和可擴展性的方法,實現了從研究針對特定任務的個體GNN設計到系統地研究GNN設計空間和任務空間的過渡。最后,我們發布了GraphGym,這是一個用于探索不同GNN設計和任務的強大平臺。GraphGym具有模塊化的GNN實現、標準化的GNN評估和可重復和可擴展的實驗管理。

//arxiv.org/abs/2011.08843

付費5元查看完整內容
北京阿比特科技有限公司