亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

這段全面的綜述探討了生成式人工智能(AI)不斷演變的格局,特別關注了混合專家模型(Mixture of Experts,MoE)、多模態學習以及朝向人工通用智能(AGI)的推測性進展的轉型影響。它嚴格審視了生成式人工智能(AI)的當前狀態和未來軌跡,探索了像谷歌的Gemini和期待中的OpenAI Q*項目這樣的創新是如何重塑研究優先事項和在各個領域的應用,包括對生成式AI研究分類法的影響分析。它評估了這些技術的計算挑戰、可擴展性和現實世界的影響,同時強調了它們在推動像醫療健康、金融和教育等領域顯著進展的潛力。它還討論了由AI主題和AI生成的預印本的擴散所帶來的新興學術挑戰,檢查了它們對同行評審過程和學術交流的影響。研究強調了在AI發展中融入倫理和以人為本的方法的重要性,確保與社會規范和福祉的一致,并概述了一個未來AI研究的戰略,該戰略聚焦于MoE、多模態和AGI在生成式AI中的平衡和審慎使用。

人工智能(AI)的歷史背景可以追溯到艾倫·圖靈的“模仿游戲”[1]、早期的計算理論[2]、[3],以及第一批神經網絡和機器學習的發展[4]、[5]、[6],這為今天的高級模型奠定了基礎。這種演變,被像深度學習和強化學習的興起這樣的關鍵時刻突出地表現出來,對塑造當代AI的趨勢至關重要,包括復雜的混合專家模型(MoE)和多模態AI系統,展示了該領域的動態和不斷演進的特性。這些進展證明了AI技術的動態和不斷發展的本質。人工智能(AI)的演化在大型語言模型(LLMs)的出現,特別是由OpenAI開發的ChatGPT,以及最近Google的Gemini[7]、[8]的揭幕,見證了一個關鍵的轉折點。這項技術不僅徹底改變了行業和學術界,還重新點燃了關于AI意識及其對人類潛在威脅的關鍵討論[9]、[10]、[11]。這樣的先進AI系統的發展,包括像Anthropic的Claude和現在的Gemini這樣的重要競爭者,它們展示了對比GPT-3和Google自己的LaMDA的幾項進步,重塑了研究格局。Gemini具有通過雙向對話學習的能力,以及其“尖峰與板塊”注意力方法,使其能夠在多輪對話中專注于上下文的相關部分,代表了在開發更適合多領域對話應用的模型方面的重大飛躍。這些在LLMs中的創新,包括Gemini所采用的混合專家方法,標志著向能夠處理多樣輸入并促進多模態方法的模型的轉變。在這種背景下,OpenAI被稱為Q*(Q-星)的項目的猜測已經浮出水面,據稱結合了LLMs的強大能力和像Q學習和A*(A-星算法)這樣的復雜算法,進一步促進了動態的研究環境。

**A. 人工智能研究熱度的變化 **

隨著大型語言模型(LLMs)領域的不斷發展,由Gemini和Q*等創新所體現,大量研究浮現出來,旨在描繪未來研究的道路,這些研究從識別新興趨勢到強調快速進展的領域各不相同。已建立方法和早期采納的二分法很明顯,LLM研究中的“熱門話題”正日益轉向多模態能力和由對話驅動的學習,正如Gemini所展示的那樣。預印本的傳播加速了知識共享,但也帶來了降低學術審查的風險。Retraction Watch指出的固有偏見問題,以及關于剽竊和偽造的擔憂,構成了重大障礙[12]。因此,學術界站在一個十字路口,需要統一努力,以根據該領域快速發展的背景來完善研究方向,這種變化似乎可以通過隨時間變化的不同研究關鍵詞的流行程度來部分追蹤。像GPT這樣的生成式模型的發布和ChatGPT的廣泛商業成功具有影響力。如圖1所示,某些關鍵詞的興衰似乎與重要的行業里程碑有關,例如2017年“變換器”模型的發布[13]、2018年GPT模型的發布[14],以及2022年12月商業化的ChatGPT-3.5。例如,與神經網絡應用的突破相一致的是對“深度學習”的搜索高峰,而隨著像GPT和LLaMA這樣的模型重新定義了語言理解和生成的可能性,“自然語言處理”的興趣激增。盡管有些波動,對AI研究中的“倫理/道德”持續關注反映了對AI道德維度的持續和根深蒂固的關切,強調道德考慮不僅僅是一種反應措施,而是AI討論中不可分割和持久的對話[15]。

從學術角度來看,假設這些趨勢是否意味著一種因果關系,即技術進步驅動研究重點,或者蓬勃發展的研究本身推動了技術發展,這是相當有趣的。本文還探討了AI進步的深遠社會和經濟影響。我們檢查了AI技術如何重塑各個行業,改變就業格局,并影響社會經濟結構。這一分析突出了AI在現代世界中所提出的機遇和挑戰,強調了其在推動創新和經濟增長方面的作用,同時也考慮了倫理影響和對社會的潛在破壞性。未來的研究可能會提供更明確的見解,但創新與學術好奇心之間的同步互動仍然是AI進步的標志。

與此同時,如圖2所示,在arXiv上發布的計算機科學>人工智能(cs.AI)類別下的預印本數量的指數增長,似乎標志著AI社區內研究傳播的范式轉變。盡管快速分發研究成果使知識交流迅速,但它也引發了對信息驗證的擔憂。預印本的激增可能導致未經驗證或有偏見的信息的傳播,因為這些研究沒有經過同行評審出版物典型的嚴格審查和可能的撤回[16]、[17]。這一趨勢強調了學術界需要謹慎考慮和批判,特別是考慮到這些未經審核的研究可能被引用和它們的發現被傳播的潛力。

**B. 研究目標 **

本次綜述的動力是Gemini的正式揭幕和圍繞Q項目的推測性討論,這促使對生成式人工智能(AI)研究的主流趨勢進行及時審視。本文具體貢獻于理解混合專家模型(MoE)、多模態和人工通用智能(AGI)如何影響生成式AI模型,為這三個關鍵領域提供詳細的分析和未來方向。本研究旨在批判性地評估現有研究主題中過時或無關緊要的可能性,同時深入探討在快速變化的LLM格局中新興的前景。這種探詢讓人想起了以加密為中心或基于文件熵計學的勒索軟件檢測方法的過時本質,這些方法已被勒索軟件集團向利用多種攻擊向量的數據盜竊策略的轉變所取代,使得現代關于加密勒索軟件的研究處于落后者的地位[18]、[19]。預期AI的進步不僅會在語言分析和知識合成方面提高能力,還將在混合專家模型(MoE)[20]、[21]、[22]、[23]、[24]、[25]、多模態[26]、[27]、[28]、[29]、[30]和人工通用智能(AGI)[31]、[32]、[10]、[11]等領域開創先河,并已經宣告了傳統的、以統計為驅動的自然語言處理技術在許多領域的過時[8]。 然而,AI與人類倫理和價值觀保持一致的永恒要求仍然是一個基本原則[33]、[34]、[35],而推測性的Q-Star計劃提供了一個前所未有的機會,來引發關于這些進步如何重塑LLM研究地形的討論。在這種環境中,NVIDIA的高級研究科學家兼AI代理負責人吉姆·范博士(Dr. Jim Fan)對Q的見解,尤其是關于學習和搜索算法的融合,為這種努力的潛在技術構建和能力提供了寶貴的視角。我們的研究方法涉及使用“大型語言模型”和“生成式AI”等關鍵詞進行結構化文獻搜索。我們在IEEE Xplore、Scopus、ACM Digital Library、ScienceDirect、Web of Science和ProQuest Central等幾個學術數據庫中使用過濾器,以識別2017年(“變換器”模型發布)到2023年(本文撰寫時間)期間發表的相關文章。本文旨在剖析Gemini和Q的技術影響,探討它們(以及類似技術的不可避免出現)如何改變研究軌跡并在AI領域開辟新視野。在此過程中,我們確定了三個新興的研究領域——MoE、多模態和AGI——它們將深刻地重塑生成式AI研究格局。本次調查采用綜述式方法,系統地繪制了一幅綜合并分析生成式AI當前和新興趨勢的研究路線圖。

本研究的主要貢獻如下

  1. 對生成式AI不斷演變的格局進行了詳細考察,強調了像Gemini和Q這樣的技術的進步和創新及其在AI領域的廣泛影響。
  2. 分析了先進生成式AI系統對學術研究的轉型效應,探討了這些發展如何改變研究方法、設立新趨勢,并可能導致傳統方法的過時。
  3. 全面評估了生成式AI在學術界整合中引起的倫理、社會和技術挑戰,強調了將這些技術與倫理規范保持一致的重要性,確保數據隱私,并制定全面的治理框架。

本文的其余部分安排如下:第二部分探討了生成式AI的歷史發展。第三部分提出了當前生成式AI研究的分類。第四部分探討了混合專家模型(MoE)的架構、其創新特性及其對基于變換器的語言模型的影響。第五部分討論了Q*項目的推測能力。第六部分討論了AGI的預期能力。第七部分考察了最近進展對生成式AI研究分類法的影響。第八部分確定了生成式AI的新興研究優先事項。第十部分討論了AI中預印本快速增長的學術挑戰。本文在第十一部分結束,總結了這些發展對生成式AI的總體影響。 當前生成式AI研究分類法生成式人工智能(AI)領域正在迅速發展,這需要一個全面的分類法,涵蓋該領域內研究的廣度和深度。如表I所詳述,這個分類法將生成式AI的主要研究和創新領域進行了分類,并作為理解該領域當前狀態的基礎框架,指導我們穿越不斷發展的模型架構、先進訓練方法、多樣的應用領域、倫理含義和新興技術前沿的復雜性。

生成式AI模型架構經歷了顯著的發展,其中四個關鍵領域尤為突出:

Transformer模型:Transformer模型在AI領域,尤其是在自然語言處理(NLP)中,因其更高的效率和可擴展性而引起了革命性的變化[139]、[140]、[141]。它們采用先進的注意力機制來實現增強的上下文處理,使得對細微理解和交互成為可能[142]、[143]、[144]。這些模型也在計算機視覺領域取得了顯著進展,例如開發了EfficientViT [145]、[146]和YOLOv8 [147]、[148]、[149]這樣的視覺Transformer。這些創新象征了Transformer模型在如對象檢測等領域的擴展能力,不僅提高了性能,還增強了計算效率。

循環神經網絡(RNNs):RNNs在序列建模領域表現卓越,特別適用于處理涉及語言和時間數據的任務,因為它們的架構專門設計用于處理數據序列,如文本,使它們能有效捕捉輸入的上下文和順序[150]、[151]、[152]、[153]、[154]。這種處理序列信息的能力使它們在需要深入理解數據時間動態的應用中不可或缺,例如自然語言任務和時間序列分析[155]、[156]。RNNs在維持序列上連續性方面的能力是AI更廣泛領域的關鍵資產,特別是在上下文和歷史數據發揮關鍵作用的場景中[157]。

混合專家模型(MoE):MoE模型通過在多個專業化專家模塊上部署模型并行處理,顯著提高效率,使這些模型能夠利用基于Transformer的模塊進行動態令牌路由,并擴展到數萬億參數,從而降低內存占用和計算成本[94]、[98]。MoE模型因其能夠在不同的專家之間分配計算負載而脫穎而出,每個專家專注于數據的不同方面,這使得更有效地處理大規模參數,導致更高效和專業化地處理復雜任務[94]、[21]。

多模態模型:多模態模型整合了如文本、視覺和音頻等多種感官輸入,對于全面理解復雜數據集至關重要,尤其是在諸如醫學成像[113]、[112]、[115]等領域具有變革性作用。這些模型通過使用多視圖管道和交叉注意力模塊,實現準確和數據高效的分析[158]、[159]。這種多樣感官輸入的整合,使得數據解釋更為細膩和詳盡,增強了模型準確分析和理解各種信息類型的能力[160]。不同數據類型的組合,同時處理,使這些模型能夠提供全面視圖,特別適用于需要深入和多方面理解復雜情景的應用[113]、[161]、[162]、[160]。

生成式AI研究中的新興趨勢正在塑造技術和人類互動的未來,并表明了一個向更集成、交互和智能化的AI系統的動態轉變,推動AI領域可能性的邊界向前發展。這一領域的關鍵發展包括: * 多模態學習:AI中的多模態學習是一個快速發展的子領域,專注于結合語言理解、計算機視覺和音頻處理,以實現更豐富、多感官的上下文意識[114]、[268]。最近的發展,如Gemini模型,通過在各種多模態任務中展示最先進的性能,包括自然圖像、音頻和視頻理解以及數學推理,樹立了新的基準[112]。Gemini的固有多模態設計體現了不同信息類型之間的無縫整合和操作[112]。盡管取得了進步,多模態學習領域仍面臨著持續的挑戰,例如改進架構以更有效地處理多樣化的數據類型[269]、[270],開發能夠準確代表多方面信息的綜合數據集[269]、[271],以及建立評估這些復雜系統性能的基準[272]、[273]。 * 交互式和協作式AI:這個子領域旨在增強AI模型與人類在復雜任務中有效協作的能力[274]、[35]。這一趨勢聚焦于開發可以與人類共同工作的AI系統,從而在各種應用中提高用戶體驗和效率,包括生產力和醫療保健[275]、[276]、[277]。這個子領域的核心方面涉及在可解釋性[278]、理解人類意圖和行為(心理理論)[279]、[280],以及AI系統與人類之間的可擴展協調方面推進AI,這種協作方法對于創造更直觀和交互式的AI系統至關重要,能夠在多樣化的情境中協助和增強人類能力[281]、[35]。 * AGI開發:AGI代表了打造模仿人類認知的全面和多方面特性的AI系統的遠見目標,是一個專注于開發具有整體理解和復雜推理能力的AI的子領域,這些能力與人類認知能力的深度和廣度密切相關[282]、[283]、[32]。AGI不僅僅是復制人類智能,還涉及打造能夠自主執行多種任務、展示與人類相似的適應性和學習能力的系統[282]、[283]。AGI的追求是一個長期愿景,不斷推動AI研究和發展的邊界。 * AGI限制:AGI安全和限制承認與高度先進的AI系統相關的潛在風險,專注于確保這些先進系統不僅在技術上精湛,而且在倫理上與人類價值觀和社會規范保持一致[15]、[32]、[11]。隨著我們向發展超級智能系統的方向前進,建立嚴格的安全協議和控制機制變得至關重要[11]。關注的核心領域包括緩解表征偏見、解決分布變化,以及在AI模型中糾正虛假相關性[11]、[284]。目標是通過將AI發展與負責任和倫理標準保持一致,防止意外的社會后果。

**Q*的推測能力 **

在蓬勃發展的AI領域中,備受期待的Q項目被視為潛在突破的燈塔,預示著可能重新定義AI能力格局的進步(見圖5)。

A. 增強的通用智能

Q在通用智能領域的發展代表了從專業化到整體化AI的范式轉變,表明了模型認知能力類似于人類智能的擴展。這種高級形式的通用智能涉及整合多種神經網絡架構和機器學習技術,使AI能夠無縫地處理和綜合多方面的信息。通用適配器方法,模仿像T0這樣的模型,可能賦予Q快速吸收來自各個領域知識的能力。這種方法允許Q*學習適應性模塊插件,增強其處理新數據類型的能力,同時保留現有技能,從而形成一個將狹窄專業化結合成為全面、適應性和多功能推理系統的AI模型。

B. 高級自學與探索

在高級人工智能(AI)開發領域,Q* 預計將代表自學習和探索能力的顯著進化。有人猜測它將使用復雜的策略神經網絡(NNs),類似于AlphaGo中的那些,但對于處理語言和推理任務的復雜性進行了實質性的增強。預計這些網絡將采用高級的強化學習技術,如近端策略優化(PPO),這穩定了策略更新并提高了樣本效率,這是自主學習中的一個關鍵因素。將這些NNs與尖端搜索算法結合,可能包括思維樹或思維圖的新型迭代版本,被預測為使Q能夠自主導航和吸收復雜信息。這種方法可能會利用圖神經網絡來增強元學習能力,使Q能夠迅速適應新任務和環境,同時保留先前獲得的知識。

C. 卓越的人類水平理解

有人猜測,Q實現卓越的人類水平理解的愿望可能依賴于多個神經網絡的高級集成,其中包括價值神經網絡(VNN),與AlphaGo等系統中的評估組件相似。這個網絡將不僅僅限于評估語言和推理過程中的準確性和相關性,還會深入探討人類溝通的微妙之處。該模型的深度理解能力可以通過先進的自然語言處理算法和技術來增強,比如在DeBERTa等變換器架構中找到的那些。這些算法將使Q能夠解釋不僅僅是文本,還包括意圖、情感和潛在含義等微妙的社交情感方面。通過結合情感分析和自然語言推理,Q*可以瀏覽各種社交情感洞察,包括共情、諷刺和態度。

D. 高級常識推理

有人預測,Q在高級常識推理方面的發展將整合復雜的邏輯和決策算法,可能結合了符號AI和概率推理的元素。這種整合旨在賦予Q對日常邏輯的直觀理解,以及與人類常識類似的理解,從而彌合人工智能和自然智能之間的重要差距。Q推理能力的增強可能涉及到圖結構化的世界知識,包括物理和社交引擎,類似于CogSKR模型中的引擎。這種以物理現實為基礎的方法預計能夠捕捉并解釋當代人工智能系統經常缺乏的日常邏輯。通過利用大規模知識庫和語義網絡,Q可以有效地應對復雜的社交和實際場景,使其推理和決策更貼近人類的經驗和期望。

E. 廣泛的現實世界知識整合

有人猜測,Q整合廣泛的現實世界知識的方法可能涉及使用先進的形式驗證系統,這將為驗證其邏輯和事實推理提供堅實的基礎。當與復雜的神經網絡架構和動態學習算法相結合時,這種方法將使Q能夠深入參與現實世界的復雜性,超越傳統人工智能的限制。此外,Q*可能會使用數學定理證明技術進行驗證,確保其推理和輸出不僅準確,而且在倫理上有基礎。在這個過程中加入倫理分類器進一步增強了其能力,以提供可靠和負責任的對現實世界情景的理解和互動。

結論

這份綜述調查著手探索了生成式AI研究中的變革性趨勢,特別關注了像Q*這樣的推測性進展以及向人工通用智能(AGI)的進步步伐。我們的分析突出了一個關鍵的范式轉變,由混合專家模型(MoE)、多模態學習和對AGI的追求等創新所驅動。這些進步預示了一個未來,AI系統在推理、上下文理解和創造性問題解決方面的能力可能顯著提升。這項研究反映了AI具有促進或阻礙全球公平和正義的雙重潛力。AI利益的公平分配和其在決策過程中的作用提出了關于公平和包容性的重要問題。深思熟慮地將AI整合到社會結構中以增強正義和減少差異是至關重要的。盡管有這些進步,仍然存在一些未解決的問題和研究空白。這些包括確保先進AI系統與人類價值觀和社會規范的倫理一致性,這一挑戰因它們日益增長的自主性而變得更為復雜。在多樣化環境中AGI系統的安全性和健壯性也仍是一個重大研究空白。應對這些挑戰需要多學科方法,融合倫理、社會和哲學視角。

我們的調研強調了AI未來跨學科研究的關鍵領域,強調倫理、社會和技術視角的整合。這種方法將促進協作研究,彌合技術進步與社會需求之間的差距,確保AI發展與人類價值觀和全球福祉保持一致。在重塑生成式AI方面,MoE、多模態和AGI的作用被認為是重要的,因為它們的進步可以提高模型性能和多功能性,并為像倫理AI一致性和AGI等領域的未來研究鋪平道路。在我們繼續前進時,AI進步與人類創造力之間的平衡不僅是一個目標,而且是一個必要性,確保AI的作用是一個補充力量,增強我們創新和解決復雜挑戰的能力。我們的責任是引導這些進步,豐富人類體驗,使技術進步與倫理標準和社會福祉保持一致。

付費5元查看完整內容

相關內容

2023年12 月 6 日,谷歌 CEO 桑達爾?皮查伊官宣 Gemini 1.0 版正式上線。這次發布的 Gemini 大模型是原生多模態大模型,是谷歌大模型新時代的第一步,它包括三種量級:能力最強的 Gemini Ultra,適用于多任務的 Gemini Pro 以及適用于特定任務和端側的 Gemini Nano。

鑒于深度神經網絡(DNNs)的復雜性和不透明性,人們已經做出了廣泛努力,使這些系統更易于解釋或用易于理解的術語解釋它們的行為。與大多數專注于算法和以模型為中心的視角的綜述不同,本工作采取了“以數據為中心”的視角,考察了數據收集、處理和分析如何促進可解釋人工智能(XAI)我們將現有工作分類為三個目的類別深度模型的解釋,涉及特征歸因和將數據點與模型輸出相關聯的推理過程;訓練數據的影響,檢查訓練數據細微差別(如數據價值和樣本異常)對決策過程的影響;以及領域知識的洞察,從數據和模型中發現潛在模式,培養新知識,以推進社會價值和科學發現。具體來說,我們將XAI方法提煉為對訓練和測試數據的數據挖掘操作,這些數據跨越不同的模態,如圖像、文本和表格數據,以及對訓練日志、檢查點、模型和其他DNN行為描述符的操作。通過這種方式,我們的研究從數據挖掘方法和應用的角度,對XAI進行了全面的、以數據為中心的審視。

//www.zhuanzhi.ai/paper/6960f37082a968c932aec73e1160f875

**1 引言 **

隨著人工智能(AI)的發展,傳統的決策技術,如感知器[1]、基于規則的系統[2]、基于案例的推理[3]和專家系統[4],已讓位于更復雜的深度神經網絡(DNNs)[5]。這些早期技術是基于人類決策過程,從基于規則的推理[6]到基于委員會的預測[7]。存儲和計算能力的激增催化了向DNNs的演變,盡管它們在視覺識別和語言建模等任務上表現出色[5],但在可解釋性方面面臨挑戰[8]。

DNNs的“黑箱”本質以及其廣泛的參數化妨礙了自動駕駛和醫療等關鍵應用中所需的透明度,引發了人們對這些模型在高風險環境中可靠性的擔憂[9]、[10]、[11]。因此,可解釋人工智能(XAI)已成為一個關鍵領域,提出了諸如LIME[12]等解決方案來改善機器學習的可解釋性1,可能增加對AI系統的信任[13]。這些XAI技術不僅努力實現模型透明度,還為數據集增加了附加價值,幫助完成諸如調試[14]和定位誤標記樣本[15]等任務,豐富了對數據集及其各自領域的理解[16]、[11]。在這項研究中,我們通過對現有文獻的全面審查,通過我們的兩個獨特觀察、三個目的和四階段XAI技術數據處理的角度進行分組和分析。 我們的第一個觀察重點關注XAI技術演變和應用背后的驅動力。在對當前文獻進行廣泛審查后,我們將主要目的概括為三個核心類別:1)深度模型的解釋:盡管深度學習模型具有高度的預測能力,但它們的“黑箱”本質限制了可解釋性[12]、[17]。XAI旨在通過闡明這些模型在每個實例基礎上的預測理由,從而促進透明度和信任[8]、[18]。2)訓練數據的影響:機器學習模型的性能取決于訓練數據的分布和質量[19]、[20]。XAI技術可以準確地指出對模型輸出產生重大影響的數據點,促進改進的訓練過程和模型簡化[21]、[22]。3)領域知識的洞察:XAI還揭示了模型和數據中特定于領域的知識,提供了在這些領域內人類理解的潛在進步,并在醫療保健和金融等高風險應用中提供寶貴的洞察[23]、[24]。 如圖1所示,XAI作為人類理解和機器學習模型復雜性之間差距的橋梁,提高了AI應用的信心[25]、[26]。

我們還發現,XAI方法遵循類似于傳統數據挖掘的結構化過程[27]、[28]、[29],將數據、算法和以人為中心的分析整合起來。以下列出了四個關鍵步驟。 1)數據獲取與收集:XAI將數據收集擴展到超越數據集,涵蓋了深度學習的生命周期,如訓練數據集、訓練日志和檢查點、測試樣本等。 2)數據準備與轉換:從模型、數據和訓練日志中提取和轉換DNNs的行為描述符,包括顯著性地圖、訓練損失曲線和輸入/損失梯度向量(也請參見表1),以便后續解釋[30]、[31]、[15]。 3)數據建模與分析:挖掘DNN行為描述符以模擬DNN決策、訓練數據貢獻和數據集模式,從而導致三種類型的分析目的:解釋、影響和洞察[11]。 4)結果報告與可視化:XAI努力的高潮是通過適當的報告和可視化來呈現發現,這取決于數據模態,例如將顯著性地圖疊加在圖像上[32]、[33],突出顯示關鍵視覺特征。

通過這些步驟,XAI增強了AI框架中的可解釋性、信任,甚至是知識與理解,促進了人類與AI的更好協同。 我們的調查采用了以數據為中心的視角來審查XAI,通過結合三個目的和四階段數據挖掘過程來分類組織技術。這項研究的貢獻包括: ? 從數據挖掘的角度對XAI范式進行技術回顧,重點關注解釋過程中的數據相關實踐[34]。這項工作開創了對XAI進行新框架系統審查的先河。 ? 引入了一個新的分類系統,圍繞XAI的三重目的和數據挖掘的四個不同階段,對當前XAI方法進行分類和闡述。 ? 對XAI未來發展的前瞻性討論,強調其揭示數據內在深層洞察的能力,這對像AI驅動的科學和醫學等領域有重要意義。

將XAI研究納入這一分類提供了一個結構化的敘述,豐富了對XAI趨勢和潛力的精確理解。 關于XAI的新興研究已在幾項調查中得到審查,突出了解釋深度模型的挑戰和重要性。Doshi-Velez和Kim[8]強調了評估XAI技術的必要性,而Carvalho等人[9]提供了一項廣泛的可解釋性方法研究,涵蓋了模型不可知和模型特定的方法。Hammoudeh和Lowd[174]將重點轉移到了訓練數據的影響上。Mohseni等人提供了一項評估XAI系統的調查和框架[175]。Marcinkeviˇcs和Vogt[16]以及Notovich等人[176]對實用XAI方法進行了擴展,提供了應用示例和技術分類。Preuer等人[177]在藥物發現中探討了領域特定的應用,而Tjoa和Guan[30]則在醫學成像中進行了探討。

與上述工作相比,我們的調查(圖2中顯示的簡要結果)通過從數據挖掘的角度探索XAI的三重角色來彌補XAI文獻中的差距:(1)解釋模型的行為以理解其決策;(2)估算數據的影響,以評估和識別關鍵樣本;(3)從模型和數據中提煉洞察,以獲得推動社會價值和科學發現的新理解。

解釋:深度模型的特征歸因和推理過程

解釋深度模型包括使用特征歸因來評估每個輸入對模型輸出的影響,并檢查推理過程以理解模型內部的決策路徑。

影響:訓練樣本的數據價值和異常檢測

通過衡量訓練樣本對決策過程的影響來解釋深度模型對于理解和驗證這些模型的輸出至關重要。這一過程通常涉及多種技術,這些技術將單個訓練樣本與模型所做決策之間的相關性映射出來[221]、[174]。在本節中,我們將現有工作分類為以下三個方向。

洞察:從數據中發現模式和知識

XAI算法有助于提取人類可讀的洞察,部分原因是它們能夠識別和解釋復雜的多維或多模態數據中的模式、相關性和異常。已經做了兩組努力:一組關注社會價值,另一組專注于科學發現的進步。 結論

本文通過數據挖掘的視角,系統地回顧了可解釋人工智能(XAI)的作用,涵蓋了三個關鍵的主題領域: ? 解釋模型行為:本綜述強調了揭示深度神經網絡(DNNs)的決策過程的必要性,從特征歸因和推理邏輯的角度出發,旨在增加AI系統的透明度和信任。 ?** 評估數據影響**:本綜述關注單個數據樣本如何塑造模型的決策和泛化性能,強調對學習的重要貢獻者,并檢測可能導致結果偏斜的任何數據異常。 ? 提煉可行洞察:超越提供解釋,本綜述尋求發現與社會價值一致并促進科學創新的新洞察,將XAI技術的知識引向實際應用。

總之,本研究對上述三個目的的XAI方法進行了全面分析,突出了當前的能力、實際用途,并識別了需要改進的領域。這一分析為進一步的研究奠定了基礎,這些研究努力將XAI更深入地整合到數據挖掘實踐中,并培育一個更透明、可靠、以用戶為中心的人工智能環境。

付費5元查看完整內容

本報告探討了 GHOSTS 框架的非玩家角色(NPC)客戶端生成的活動(包括軟件使用)與 GHOSTS 的默認行為和大型語言模型(LLM)生成的活動之間的比較。還探討了基本結果在復雜性和情感方面的比較。在研究中,利用了生成式人工智能(AI)系統的高級自然語言處理能力,特別是 LLMs(即 OpenAI 的 GPT-3.5 Turbo 和 GPT-4)來指導 GHOSTS 框架中的虛擬智能體(即 NPC),GHOSTS 框架是一種在計算機上模擬現實人類活動的工具。設計了一種配置,通過使用 LLM 使活動完全自動化,其中文本輸出成為可執行的智能體指令。初步研究結果表明,LLM 可以生成指令,從而在模擬環境中產生連貫、逼真的智能體行為。然而,某些任務的復雜性和指令到行動的轉換帶來了獨特的挑戰。這項研究對于提高模擬的逼真度和推動類人活動建模中的人工智能應用具有潛在的意義。建議開展進一步研究,以優化智能體對 LLM 指令的理解和響應。

方法

網絡靶場是一個模擬環境,里面有各種登錄到計算機和網絡上的 NPC。這些 NPC 在組織內執行其角色所應執行的任務。現有的 GHOSTS 框架采用客戶機-服務器安裝方式,客戶機安裝在不同的操作系統(OS)上,執行所模擬角色的預期活動。服務器組件收集已執行活動的日志,并能根據一系列可用數據為每個智能體的新活動提供指導。

每個智能體在執行活動時都有各種考慮因素,包括智能體的特定參數、智能體過去的活動以及環境因素。固定參數包括姓名、身體特征、教育程度、工作經歷等。智能體還可能具有可變的特征,如偏好、信念、動機以及隨時間演變的過去活動歷史。

標準的 GHOSTS 配置提供了一套合理的默認值,可以充分隨機化這些考慮因素,以達到 T&E 的目的。團隊成員和其他人(如研究人員、培訓/練習用戶)都使用過這些隨機化策略;我們認為這種方法已經成熟,足以應對大多數情況。例如,模擬運營部門角色的智能體可能會在工作日每 20 分鐘創建一份文檔,同時交替使用互聯網瀏覽時間,以模擬文檔創建與必要的相關研究相結合的情況。

將 OpenAI 開發的不同 LLM 集成到 GHOSTS Animator [SEI 2023b]中,以便其他研究人員和網絡練習社區能夠繼續嘗試我們在本報告中討論的功能。每個 LLM 都充當了智能體的決策功能,生成文本輸出,我們將其轉化為智能體活動的指令。

為了實現這一整合,開發了一個系統,用于解釋 LLM 的輸出,并將其映射到 GHOSTS 框架中智能體可以執行的潛在行動上。該系統考慮到了語言解釋的可變性和智能體可用行動的限制。在將范圍廣泛的可能 LLM 輸出映射到更具體的智能體行動集時,我們面臨著獨特的挑戰。(我們將在下面的章節中描述這些挑戰。)這種集成方法能夠為我們的研究目的提供最廣泛的 LLM 響應,而不管它們與 GHOSTS 的執行是否相關。

智能體決策的基礎

為了在 GHOSTS NPC 中模擬更復雜的行為,將人類推理和行為的幾個方面整合到了智能體的決策過程中。這些方面都是在每次系統迭代或周期中執行的詢問過程中考慮的。在這種情況下,詢問是 LLM 分析智能體屬性和過去活動以決定下一步行動的機會。

每個 tick 或周期的持續時間是可配置的,可以是每個 CPU 周期所需的時間,也可以是更長的持續時間,如五分鐘。在每個 tick 期間,服務器會隨機選擇幾個智能體,并詢問它們以確定潛在的行動。這些行動可以包括學習新信息、與其他智能體建立聯系或執行一項活動。

這些詢問使用我們現有的隨機化策略。其中一些策略涉及純粹的隨機決策,而另一些則依賴于基于真實世界數據的預定義范圍或概率內的隨機化。目前實施的策略圍繞四個關鍵概念:

  • 動機: 為了更準確地模擬智能體參與特定內容或執行特定操作的原因,我們需要了解他們的動機。在現實世界中,個人目的、目標和興趣往往是個人活動的驅動力。通過將動機納入模擬,我們可以模擬真實用戶的各種目標驅動行為。為此,我們采用了史蒂文-雷斯博士(Steven Reiss)設計的心理評估工具--雷斯動機檔案(Reiss Motivational Profile,RMP)[Reiss 2012]。RMP 根據人類的 16 種基本欲望來確定個人的核心價值觀和動機:權力、獨立、好奇、接受、秩序、節約、榮譽、理想主義、社會接觸、家庭、地位、復仇、浪漫、飲食、體育鍛煉和寧靜。通過模擬智能體對這些 RMP 欲望的獨特組合,我們模擬出了在整個演習過程中促使他們做出某些決定的內在動機。因此,這種理解揭示了智能體的行為傾向,有助于以更接近人類的方式指導其模擬行動。

  • 關系: 人際關系對人類行為的影響是毋庸置疑的,它塑造了我們在社交圈中的學習、決策和互動方式。為了在模擬中更好地模擬這些關系的動態變化,我們在智能體的框架中加入了關系紐帶。這種方法包括在智能體之間建立聯系,考察它們之間關系的深度,以及研究它們對彼此的影響。這種方法使我們能夠模擬大量的社會互動,例如智能體向其信任的同伴尋求建議、與同事分享內容或參與各種話題的討論。這一特點不僅增強了智能體互動的真實性,還促進了智能體之間的知識獲取過程,這與人類在家庭、工作或公共場所從社交互動中學習的方式如出一轍。因此,在我們的模擬框架中引入關系可以增強智能體行為的真實性,更好地反映現實世界中人類互動的復雜性和細微差別。

  • 知識: 人類用戶的一個顯著特點是他們在不同領域的知識廣度和深度。根據這一特點,我們為每個智能體配備了一個獨特的知識庫,以幫助塑造他們的模擬交互。這些知識庫為智能體如何尋求信息、分享專業知識或參與討論提供了信息,而所有這些都會受到他們對特定主題的理解的影響。智能體之間的動態知識獲取過程在我們的模擬中也發揮著至關重要的作用。知識獲取不僅增強了智能體互動的真實性,還通過潛在的內部威脅識別為模擬提供了額外的深度。例如,智能體知識庫中的異常變化可能表明其未經授權獲取了敏感信息,或者其關注點轉向了可能出于惡意目的而感興趣的主題。因此,將知識及其動態獲取納入智能體框架不僅能豐富模擬互動,還能增強內部威脅檢測和預防模擬的潛力。

  • 信念: 個人持有的不同信念體系是其網絡行為的基礎,包括個人價值觀、觀點以及對爭議問題的立場。這些信念左右著互動和對話,往往會影響討論的動態。為了在智能體中模擬這種信念系統,我們將貝葉斯模型集成到智能體的推理過程中,使其能夠受到觀察到的支持某種信念的證據的影響。這種整合使智能體能夠就各種問題表達自己的立場,為自己的觀點辯護,甚至參與辯論,從而模擬現實世界中的人類行為。在社交媒體的背景下,對智能體的信念進行建模有助于表現分歧話題上的兩極分化觀點,使模擬更能代表真實世界的社會動態。

總之,通過將動機、關系、知識和信念整合到智能體推理框架中,我們成功地在 NPC 中創建了更全面、更真實的人類行為模擬。有了上述這么多組合的優勢,團隊就可以配置豐富的決策詢問,以確定任何智能體可能采取的行動方案。下一步是將這些詢問完全外包給 LLM,并比較結果,以便在大多數 T&E 場景中使用。

將LLM引入過程

為了嚴格控制系統對 LLM 的訪問,我們設計了一種方法,即只有 GHOSTS 的服務器組件與人工智能進行交互。然后,服務器將人工智能生成的結果傳播給相關客戶端。這一過程的執行過程如下:

1.智能體(即 NPC)根據其默認配置,利用我們現有的隨機化方法啟動并執行一項任務,如文檔創建和網頁瀏覽。

2.智能體每隔幾分鐘向服務器報告其完成的活動。

3.同時,在這五步過程中,服務器作業每輪都會詢問一個隨機的智能體子集。至關重要的是,在每一輪開始時,步驟 2 中的活動歷史記錄都是可用的,并且可以作為代理下一步應該執行什么活動的決策因素。

4.服務器將新確定的活動傳達給客戶端,然后由客戶端執行。

5.該過程循環往復。如果智能體已經在運行,它只需尋找下一個要執行的活動。

在步驟 3 中,目標是將決定智能體活動的任務委托給 LLM,同時考慮 (A) 有關智能體的具體信息和 (B) 已執行活動的歷史記錄。考慮到 LLM 可能需要處理大量信息所帶來的成本影響,我們將 (A) 中的信息限制為最相關的細節,如個人數據、教育和組織歷史以及軟件賬戶。(B) 中的活動信息及其執行參數則用于提供智能體已完成任務的歷史記錄。

許多 LLM 應用程序編程接口(API)會根據系統或用戶直接輸入信息的不同來區分信息提示。我們使用系統級提示,以便對我們傳輸的信息和預期響應進行更嚴格的控制。這種方法使我們能夠以更精確、更可控的方式引導 LLM 的行為。

付費5元查看完整內容

多智能體學習(MAL)中的合作是一個跨越多個學科的主題,包括博弈論、經濟學、社會科學和進化生物學。這一領域的研究旨在理解智能體如何在目標一致時有效協調以及在合作可能帶來收益但沖突可能性豐富的環境中如何合作。在這篇論文中,我們提供了多智能體學習的基本概念、問題設置和算法的概述。這包括強化學習、多智能體順序決策制定、與多智能體合作相關的挑戰,以及對最近進展的全面回顧,連同相關度量標準的評估。最后,我們討論了該領域的開放性挑戰,旨在激發新的研究途徑。 合作型多智能體學習(MAL)研究讓多個智能體能夠學習如何在共享環境中協作、適應和做出決策的算法和策略。隨著多智能體系統在我們這個科技驅動的世界中變得越來越普遍,確保智能體之間有效和無縫合作的重要性也在增長。

合作型MAL自然與經濟學[Zheng et al., 2021a; Johanson et al., 2022]和進化生物學[Jaderberg et al., 2019; Dué?ez-Guzmán et al., 2023]等多個其他領域交叉。社會科學的其他概念,如溝通、規范和信任[Hertz et al., 2023],也扮演著重要角色。博弈論為理解智能體之間的戰略互動提供了堅實的基礎,包括合作和非合作決策制定[Shapley, 1953; Littman, 1994]。它的數學形式主義與經濟學原理相一致,并在智能體需要最大化共享效用或在充滿潛在沖突的環境中需要鼓勵合作的情況下特別有用。

雖然MAL這一更廣泛的領域涵蓋了廣泛的主題,但我們旨在關注其合作維度。隨著合作型AI的勢頭增長(例如[Dafoe et al., 2020]),為讀者提供該領域的綜合理解變得尤為重要。該領域有兩個主要分支:基于團隊的MAL(在第4節中介紹)和混合動機的MAL(在第5節中介紹)。

在基于團隊的MAL中,由于單一標量獎勵信號是所有團隊智能體活動的唯一反饋,因此難以有效地學習協調的聯合政策。考慮當一個智能體采取有獎勵的行動而另一個智能體行為不利時會發生什么。共享的標量獎勵無法區分哪個智能體的行動是獲得獎勵的原因。這使得在這種環境中的信用分配變得困難[Claus and Boutilier, 1998; Foerster et al., 2018a; Sunehag et al., 2018]。 在混合動機設置中,存在個體獎勵,這些獎勵更容易從中學習。然而,這樣的游戲包含許多次優平衡,這一事實導致了社會困境的產生——即個體與集體理性之間存在緊張關系的情況[Rapoport, 1974]。在MAL中,社會困境的博弈論概念已被推廣到空間/時間擴展的復雜行為學習設置[Leibo et al., 2017]。這一領域已經看到了大量技術的發展,用以實現更接近人類世界所見合作的形式,因此,與社會科學和進化生物學的交集更多,后者是研究合作出現的重要課題[Dué?ez-Guzmán et al., 2023]。為方便起見,我們使用“共玩者”一詞來描述基于團隊和混合動機設置中的其他智能體,與零和設置中的“對手”相對。 本文的結構如下所述。第2節介紹了多智能體學習的自成一體的基礎知識,包括單智能體和多智能體RL、博弈論公式化。第4節考慮具有純粹動機的合作系統。第5節討論智能體具有混合動機的情況。第6節回顧基準和評估度量。第7節以討論該領域的挑戰和未解決的問題作為結論。

付費5元查看完整內容

本報告描述了Draper團隊作為DARPA能力感知機器學習(CAML)項目的一部分,根據HR0011-20-C-0032號合同所開展的研究。Draper與分包商UT Austin、ASU和CU Boulder合作,開發了ALPACA(能力感知的概率和抽象自主學習),這是一個能力感知自主智能體的一般框架,特別是那些基于強化學習(RL)的智能體。ALPACA提供了對RL智能體能力的洞察力,并使用戶能夠檢查和約束智能體行為,促進與人類隊友建立信任,并極大地提高現實世界應用的安全性。

一個支持ALPACA的自主智能體可以:

  • 用自然語言交流其任務策略和預期性能
  • 識別影響其行為的(可觀察和隱藏的)條件
  • 評估其在特定情況下的行為和任務結果
  • 量化其信心,包括對其任務表現和能力評估的信心
  • 當它的能力發生變化或可能突破能力界限時,更新用戶。
  • 調整其行為以更好地保持性能并符合用戶期望

ALPACA通過兩種方式進行能力交流:

1.一般能力聲明描述了以前觀察到的智能體的策略、性能和行為狀況。

2.具體的能力評估預測智能體在特定場景下的策略和表現,包括任務前和在線的情況。這些評估對用戶的興趣有反應,可以解決新的場景,并且可以在線更新。

為了實現DARPA CAML計劃的目標,Draper ALPACA團隊開發了以下關鍵技術進展:

  • 通過對程序生成的人類可理解的特征(包括直接觀察到的和隱藏的)進行決策樹學習,進行條件識別。實現了DARPA的覆蓋要求。
  • 基于在抽象和分割的軌跡數據上推斷的時間邏輯的結構化語言策略。達到DARPA的正確性要求。
  • 基于遞歸深度生成模型的概率世界模型(PWMs),能夠準確預測長時間范圍內的代理狀態,同時量化無誤差和認識性不確定性。實現了DARPA的保真度要求。
  • 事件觸發的在線結果評估,利用PWM來實時評估和重新評估智能體在特定場景中的能力。實現了DARPA的可靠性要求。

Draper ALPACA團隊在兩個基于模擬的RL應用系統上研究、演示和評估了這些進展:推土機機器人操縱任務和多變天氣下的無人機飛行任務。內部和第三方的核查和驗證表明,該團隊能夠實現DARPA為CAML項目制定的所有目標指標。

付費5元查看完整內容

多模態自監督學習。本節將討論Transformer架構如何彌合視覺領域和自然語言處理領域之間的差距。ViT架構允許使用Transformer基座對不同模態進行多模態學習,如CLIP、LiT、VATT。它還開啟了基于NLP領域掩模語言建模思想的自監督視覺表示學習,如BEIT和MAE。

付費5元查看完整內容

本書介紹了如何使用Stan進行貝葉斯統計建模,它已經成為最流行的概率編程語言。 這本書分為四部分。第一部分回顧了建模和貝葉斯推理的理論背景,提出了一個建模工作流,使建模更工程而不是藝術。第二部分從一開始就討論了Stan、CmdStanR和CmdStanPy的使用,然后討論了基本的回歸分析。第三部分介紹了一些概率分布、非線性模型和分層(多級)模型,這些是掌握統計建模的必要知識。還介紹了廣泛使用的建模技術,如審查、異常值、缺失數據、加速和參數約束,并討論了如何引導MCMC收斂。最后,第四部分探討了現實世界數據的高級主題:縱向數據分析、狀態空間模型、空間數據分析、高斯過程、貝葉斯優化、降維、模型選擇和信息標準,證明Stan可以在短短30行中解決這些問題中的任何一個。 本書通過大量易于理解的示例解釋了一些關鍵概念,這些概念在Stan的后續版本和其他統計建模工具中仍然很有用。這些例子不需要領域知識,可以推廣到許多領域。本書提供了代碼和數學公式的充分解釋,使讀者能夠為自己的問題擴展模型。所有代碼和數據都在GitHub上。

//link.springer.com/book/10.1007/978-981-19-4755-1

付費5元查看完整內容

繼AlphaGO系列的巨大成功之后,2019年是一個蓬勃發展的一年,見證了多智能體強化學習(MARL)技術的重大進展。MARL對應于多智能體系統中多個智能體同時學習的學習問題。這是一個具有悠久歷史的跨學科領域,包括博弈論、機器學習、隨機控制、心理學和優化。盡管MARL在解決現實世界的游戲方面取得了相當大的經驗上的成功,但文獻中缺乏一個完整的概述來闡述現代MARL方法的博弈理論基礎,并總結最近的進展。事實上,現有的大多數綜述都是過時的,沒有完全涵蓋2010年以來的最新發展。在這項工作中,我們提供了一個關于MARL的專著,包括基本原理和研究前沿的最新發展。本綜述分為兩部分。從§1到§4,我們介紹了MARL的完備的基礎知識,包括問題公式、基本解決方案和現有的挑戰。具體地說,我們通過兩個具有代表性的框架,即隨機博弈和廣義博弈,以及可以處理的不同博弈變體,來呈現MARL公式。這一部分的目的是使讀者,即使是那些相關背景很少的人,掌握MARL研究的關鍵思想。從§5到§9,我們概述了MARL算法的最新發展。從MARL方法的新分類開始,我們對以前的研究論文進行了調研。在后面的章節中,我們將重點介紹MARL研究中的幾個現代主題,包括Q函數分解、多智能體軟學習、網絡化多智能體MDP、隨機潛在博弈、零和連續博弈、在線MDP、回合制隨機博弈、策略空間響應oracle、一般和博弈中的近似方法、以及具有無限個體的游戲中的平均場類型學習。在每個主題中,我們都選擇了最基礎和最先進的算法。我們調研的目的是從博弈理論的角度對當前最先進的MARL技術提供一個完備的評估。我們希望這項工作能夠為即將進入這個快速發展的領域的新研究人員和現有的領域專家提供一個跳板,他們希望獲得一個全景視圖,并根據最近的進展確定新的方向。

//openreview.net/forum?id=ORgCYmo0os

引言

機器學習可以看作是將數據轉換為知識的過程(Shalev-Shwartz & Ben-David, 2014)。學習算法的輸入是訓練數據(例如,含有貓的圖像),輸出是一些知識(例如,關于如何在圖像中檢測貓的規則)。這些知識通常表示為能夠執行某些任務的計算機(例如,自動貓探測器)。在過去的十年中,一種特殊的機器學習技術——深度學習(LeCun et al., 2015)取得了長足的進步。深度學習的一個重要體現的是不同種類的深層神經網絡(DNNs)(Schmidhuber, 2015),可以找到分離表示(Bengio, 2009)在高維數據, 這使得軟件訓練本身執行新任務而不是僅僅依賴于程序員手工設計規則。通過使用DNNs,計算機視覺(Krizhevsky et al., 2012)和自然語言處理(Brown et al., 2020; Devlin et al., 2018)是取得了顯著的進展。

現代人工智能應用正在從純粹的特征識別(例如,在圖像中檢測一只貓)轉變為決策(安全通過交通十字路口),其中不可避免地會發生多個智能體之間的交互。因此,每個智能體都必須采取戰略性的行為。此外,這個問題變得更具挑戰性,因為當前的決定會影響未來的結果。

除了從現有數據進行特征識別,現代人工智能應用通常需要計算機程序根據所獲得的知識做出決策(見圖1)。為了說明決策的關鍵組成部分,讓我們考慮現實世界中控制汽車安全通過十字路口的例子。在每一個時間步,機器人汽車都可以通過轉向、加速和制動來移動。目標是安全駛出十字路口并到達目的地(可以選擇直走或左轉/右轉入另一條車道)。因此,除了能夠檢測對象,如交通信號燈、車道標記,和其他汽車(通過將數據轉化為知識),我們的目標是找到一個能控制汽車的方向盤政策做出一系列演習達到目標(決策基于獲得的知識)。在這樣的決策環境中,還會出現兩個額外的挑戰:

  1. 首先,在決策過程中,在每一個時間步,機器人小車不僅要考慮當前行動的即時價值,還要考慮當前行動在未來的后果。例如,在開車通過一個十字路口的情況下,如果策略選擇在過程的開始轉向一個“安全”的方向,這將是有害的,如果它最終會導致隨后的車禍。

  2. 其次,為了正確安全地做出每一個決定,汽車還必須考慮到其他汽車的行為,并采取相應的行動。例如,人類駕駛員通常會提前預測其他車輛的移動,然后采取戰略性的應對措施(比如給迎面駛來的車輛讓路,或者加速駛入另一條車道)。

對適應性決策框架的需求,以及處理多個交互學習者的復雜性,導致了多智能體學習的發展。Multi-agent RL解決的是在一個共享的隨機環境中運行多個智能agent的順序決策問題,每個智能agent的目標是通過與環境和其他agent的交互來最大化其長期回報。多智能體強化學習是在多智能體系統和資源學習的基礎上建立起來的。在下一節中,我們將簡要概述(單agent) RL及其近幾十年的研究進展。

強化學習發展簡述

**RL是機器學習的一個子領域,其中代理學習如何在與環境的交互過程中基于試錯過程的最佳行為。與以帶標簽的數據作為輸入的監督學習(例如帶有貓標簽的圖像)不同,RL是面向目標的:它構建了一個學習模型,學習通過試錯改進來實現最優的長期目標,學習者沒有帶標簽的數據來獲取知識。“強化”一詞指的是學習機制,因為導致滿意結果的行動在學習者的行為集合中得到了強化。

歷史上,RL機制最初是在研究貓在謎盒中的行為的基礎上發展起來的(Thorndike, 1898)。Minsky(1954)在他的博士論文中首次提出了RL的計算模型,并將他得到的模擬機器命名為隨機神經模擬強化計算器。幾年后,他首先提出了動態規劃(Bellman, 1952)和RL (Minsky, 1961)之間的聯系。在1972年,Klopf(1972)將試錯學習過程與心理學中發現的時間差異(TD)學習結合起來。在為更大的系統擴展RL時,TD學習很快成為不可或缺的。Watkins & Dayan(1992)在動態規劃和TD學習的基礎上,使用馬爾可夫決策過程(MDP)為今天的RL奠定了基礎,并提出了著名的Q-learning方法作為求解器。作為一種動態規劃方法,原來的Q-learning過程繼承了Bellman (Bellman, 1952)的“維數災難”(curse of dimensional維數災難),當狀態變量數量較大時,極大地限制了它的應用。為了克服這一瓶頸,Bertsekas & Tsitsiklis(1996)提出了基于神經網絡的近似動態規劃方法。最近,來自DeepMind的Mnih等人(2015)通過引入深度q -學習(DQN)架構取得了重大突破,該架構利用了DNN對近似動態規劃方法的表示能力。DQN已經在49款Atari游戲中展示了人類水平的表現。從那時起,深度RL技術在機器學習/人工智能中變得普遍,并引起了研究社區的大量關注。

RL源于對動物行為的理解,動物使用試錯法來強化有益的行為,然后更頻繁地執行這些行為。在其發展過程中,計算RL整合了諸如最佳控制理論和其他心理學發現等思想,這些思想有助于模仿人類做出決策的方式,從而使決策任務的長期收益最大化。因此,RL方法自然可以用來訓練計算機程序(代理),使其在某些任務上達到與人類相當的性能水平。RL方法對人類玩家的最早成功可以追溯到西洋雙陸棋(Tesauro, 1995)。最近,應用RL解決順序決策問題的進展標志著AlphaGo系列的顯著成功(Silver et al., 2016;2017;2018年),一名自學的RL智能體,擊敗了圍棋游戲的頂級專業玩家,這款游戲的搜索空間(10761種可能的游戲)甚至比宇宙中的原子數量還要多。

AlphaGo系列的成功標志著單agent決策過程的成熟。2019年是MARL技術蓬勃發展的一年;在解決極具挑戰性的多人實戰策略電子游戲和多人不完全信息撲克游戲方面取得了顯著進展。

事實上,大多數成功的RL應用,如游戲GO2、機器人控制(Kober et al., 2013)和自動駕駛(Shalev-Shwartz et al., 2016),自然涉及多個人工智能智能體的參與,這探索了MARL領域。正如我們所預期的,單agent RL方法取得的重大進展——以2016年GO的成功為標志——預示著未來幾年多agent RL技術的突破

強化學習多智能體興盛

2019年是MARL發展的繁榮之年,在過去人們認為不可能通過人工智能解決的極具挑戰性的多智能體任務上取得了一系列突破。盡管如此,MARL領域取得的進展,盡管令人矚目,但在某種程度上已經被AlphaGo之前的成功所掩蓋(Chalmers, 2020)。AlphaGo系列有可能(Silver et al., 2016;2017;2018年)已經在很大程度上滿足了人們對RL方法有效性的期望,因此對該領域的進一步發展缺乏興趣。MARL的進展在學術界引起的反響相對溫和。在本節中,我們將重點介紹幾項工作,我們認為這些工作非常重要,并且可能深刻影響MARL技術的未來發展。

單代理MDP(左)和多代理MDP(右)示意圖

MARL的一個熱門測試平臺是星際爭霸2 (Vinyals等人,2017年),這是一款擁有自己職業聯賽的多人即時策略電腦游戲。在這個博弈中,每個參與人關于博弈狀態的信息都是有限的,而且搜索空間的維度比圍棋大了幾個數量級(每一步有1026種可能的選擇)。《星際爭霸2》中有效的RL方法的設計曾一度被認為是人工智能的一個長期挑戰(Vinyals等人,2017)。然而,AlphaStar在2019年實現了突破(Vinyals et al., 2019b),它已經展示了特級大師水平的技能,排名超過人類玩家的99.8%。

MARL的另一個著名的基于視頻游戲的測試平臺是Dota2,這是一個由兩支隊伍玩的零和游戲,每支隊伍由5名玩家組成。從每個agent的角度來看,除了不完全信息的難度(類似于星際爭霸2),Dota2更具挑戰性,在這個意義上,團隊成員之間的合作和與對手的競爭都必須考慮。OpenAI Five人工智能系統(Pachocki et al., 2018)在一場公開的電子競技比賽中擊敗了世界冠軍,在Dota2中展現了超人的表現。除了星際爭霸2和Dota2, Jaderberg等人(2019)和Baker等人(2019a)分別在抓旗和捉迷藏游戲中表現出了人類水平的表現。雖然游戲本身不如星際爭霸2或Dota2復雜,但對于人工智能agent來說,掌握戰術仍然不是一件容易的事情,所以agent令人印象深刻的表現再次證明了MARL的有效性。有趣的是,兩位作者都報告了由他們提出的MARL方法引發的緊急行為,人類可以理解,并以物理理論為基礎。

MARL最后一個值得一提的成就是它在撲克游戲《Texas hold ' em》中的應用,這是一種多玩家廣泛形式的游戲,玩家可以獲得不完整的信息。Heads-up(即兩個玩家)無限持有的游戲中有超過6 × 10161種信息狀態。直到最近,游戲中才出現了突破性的成就,這多虧了MARL。兩個獨立的程序,DeepStack (Morav?ík等人,2017)和Libratus (Brown & Sandholm, 2018),能夠擊敗專業的人類玩家。最近,Libratus被升級為Pluribus (Brown & Sandholm, 2019年),并表現出非凡的表現,在無限制設置中贏得了5名精英人類專業人士的100多萬美元。為了更深入地理解RL和MARL,需要對概念進行數學表示法和解構。在下一節中,我們將提供這些概念的數學公式,從單代理RL開始,逐步發展到多代理RL方法。

單智能體強化學習

**單agent RL通過試錯,RL agent試圖找到最優策略,使其長期回報最大化。該過程由馬爾可夫決策過程制定。

多智能體強化學習

多智能體RL在多智能體場景中,很像在單智能體場景中,每個智能體仍然試圖通過試錯過程來解決順序決策問題。不同之處在于,環境狀態的演化以及每個agent收到的獎勵函數現在都是由所有agent的聯合行動決定的(見圖3)。因此,agent不僅需要考慮環境,還需要與其他學習agent進行交互。一個涉及多個主體的決策過程通常通過隨機對策(Shapley, 1953)來建模,也被稱為馬爾可夫對策(Littman, 1994)。

與單agent RL相比,多agent RL是一個更適合現實世界AI應用的通用框架。然而,由于多個agent同時學習的存在,除了單agent RL中已經存在的方法外,MARL方法提出了更多的理論挑戰。與通常有兩個代理的經典MARL設置相比,解決多代理RL問題更具挑戰性。事實上,1 組合復雜性,2 多維學習目標和3 非平穩性問題都導致大多數MARL算法能夠解決只有4個參與者的博弈,特別是兩方零和博弈。

付費5元查看完整內容

深度強化學習主要被用來處理感知-決策問題,已經成為人工智能領域重要的研究分支。概述了基于值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,并綜述了深度強化學習在視頻游戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最后,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。

付費5元查看完整內容

這個可訪問的文本/參考提供了從工程角度對概率圖模型(PGMs)的一般介紹。這本書涵蓋了每一個PGMs的主要類的基礎知識,包括表示、推理和學習原則,并回顧了每種類型模型的實際應用。這些應用來自廣泛的學科領域,突出了貝葉斯分類器、隱馬爾可夫模型、貝葉斯網絡、動態和時態貝葉斯網絡、馬爾可夫隨機域、影響圖和馬爾可夫決策過程的多種用途。

提出了一個統一的框架,包括所有的主要類別的PGMs;描述不同技術的實際應用;檢視該領域的最新發展,包括多維貝葉斯分類器、相關圖模型和因果模型;在每一章的結尾提供練習,進一步閱讀的建議,和研究或編程項目的想法。

付費5元查看完整內容

在過去的幾年里,自然語言處理領域由于深度學習模型的大量使用而得到了發展。這份綜述提供了一個NLP領域的簡要介紹和一個快速的深度學習架構和方法的概述。然后,篩選了大量最近的研究論文,并總結了大量相關的貢獻。NLP研究領域除了計算語言學的一些應用外,還包括幾個核心的語言處理問題。然后討論了目前的技術水平,并對該領域今后的研究提出了建議。

付費5元查看完整內容
北京阿比特科技有限公司