亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

邊緣人工智能(AI)包括一個由互聯系統和設備組成的網絡,這些系統和設備接收、緩存、處理和分析與數據捕獲位置密切相關的數據。近年來,AI效率的提升、物聯網(IoT)設備的廣泛使用以及邊緣計算的興起,揭示了邊緣AI的巨大潛力。邊緣AI的目標是優化數據處理的效率和速度,同時確保數據的機密性和完整性。盡管這一研究領域相對較新,從2014年開始到現在,但在過去五年中已經顯示出顯著和快速的發展。在本文中,我們對邊緣AI進行了系統的文獻綜述,討論了現有研究、最新進展和未來的研究方向。我們創建了一個用于云和邊緣計算分析的協作邊緣AI學習系統,包括對支持這一機制的架構的深入研究。邊緣AI的分類法有助于邊緣AI系統的分類和配置,同時還考察了其在基礎設施、云計算、霧計算、服務、使用案例、機器學習和深度學習以及資源管理等諸多領域的潛在影響。本研究強調了邊緣AI在網絡邊緣處理實時數據的重要性。此外,它還突出了邊緣AI系統面臨的研究挑戰,包括資源限制、安全威脅的脆弱性以及可擴展性問題。最后,本研究強調了旨在通過提供創新解決方案來解決邊緣AI當前局限性的潛在未來研究方向。

關鍵詞:邊緣計算、人工智能、云計算、機器學習、邊緣AI

I. 介紹

近年來,人工智能(AI)效率的提升、物聯網(IoT)設備的采用以及邊緣計算能力的增強,正在共同釋放邊緣人工智能(Edge AI)的潛力【1】。眾多分析師和企業正在討論和實施邊緣計算,其起源可以追溯到20世紀90年代,當時位于客戶附近的邊緣服務器被用于通過內容分發網絡提供網頁和視頻內容【2】。在這一邊緣AI中,邊緣計算是一種范式轉換,它將數據存儲和處理更接近數據源,從而提高響應時間并減少帶寬使用。與傳統云計算不同的是,邊緣計算在網絡的邊緣處理數據【3】。這種接近性降低了延遲,提高了實時數據處理能力,并支持IoT設備和服務的擴展【4】。邊緣計算的主要優勢包括服務靈活性提高、低延遲、增強的一致性以及消除單點故障,使其在智能城市、自主車輛和工業自動化應用中高度相關【5】。通過地理分布計算資源,邊緣計算確保數據處理發生在數據源附近,滿足實時分析和決策的需求。

另一方面,AI包含廣泛的技術和方法,使機器能夠執行通常需要人類智能的任務,如學習、推理和自我糾正【6】。AI的應用涉及多個領域,包括醫療、金融、交通等,在這些領域,AI用于分析大型數據集、自動化任務和提供預測性見解【7】。將AI整合到不同部門中,已經通過提高效率、改進決策和創造創新機會,徹底改變了流程。隨著機器學習(ML)或深度學習(DL)的改進,AI方法在執行需要人類認知功能的復雜任務方面變得越來越有能力【8】。特別是涉及神經網絡的AI算法在圖像和語音識別、自動駕駛和預測性維護等領域取得了顯著成功。

**A. 用于AI的邊緣計算

邊緣計算與AI的融合涉及在用戶設備上處理AI算法,提供如降低延遲、能源效率和實時應用等益處。這種集成允許在源頭進行實時數據處理和決策,顯著減少延遲和帶寬使用【9】。邊緣計算與AI的結合使得更智能和更靈敏的應用成為可能,如自主車輛、工業物聯網、智能家居系統等。通過利用邊緣AI,組織可以實現更高的效率、增強的隱私和更快的洞察力,推動各個領域的創新【10】。邊緣AI是指在網絡邊緣集成AI功能,使邊緣設備具備分布式智能。其目的是改善網絡連接性,支持具有定義質量目標的AI流水線部署,并允許數據驅動應用的適應【11】。在邊緣嵌入AI功能解決了基于云處理IoT的局限性,如隱私問題和網絡連接問題。邊緣AI的部署增強了對延遲敏感的任務,并減少了網絡擁塞,提高了無線網絡的效率和安全性。

此外,基于AI的技術在解決邊緣環境中的服務質量(QoS)感知調度和資源分配挑戰方面起著至關重要的作用,確保服務質量和用戶體驗。邊緣AI支持作為服務的AI(AIaaS)部署,具有可配置的模型復雜性和數據質量,提高了性能并降低了成本【12】【13】。這種創新方法通過在邊緣利用AI功能,支持智能安全應用并增強分布式系統的安全措施。邊緣智能,一種有前途的技術,通過將計算從云服務器轉移到IoT邊緣設備,賦能實時應用,創造了擁有廣闊可能性的智能企業【14】。在邊緣而非集中位置利用AI,釋放了與IoT設備和邊緣計算結合的AI潛力,在資源受限的邊緣設備上部署AI算法,用于各種應用如自主車輛、醫療保健和監控。 邊緣AI的重要性在于它能夠在不將大量數據發送到多個集中位置的情況下提供即時的洞察和行動【15】。這種能力在延遲和帶寬是重大限制的情況下尤為關鍵,如在自主駕駛中,必須實時做出決策,或在醫療保健中,必須快速處理患者數據以提供及時的干預【16】。邊緣AI的崛起也得益于硬件的進步,如更強大和高效能的處理器,使得在智能手機和IoT傳感器等設備上運行復雜的AI模型成為可能【17】。

**B. 動機和貢獻

將邊緣計算與AI結合的動機是多方面的,主要驅動因素是實時處理數據的迫切需求以及解決集中云計算系統固有局限性【18】。隨著連接設備數量的指數級增長和數據量的激增,傳統的云中心模型越來越多地面臨如延遲、帶寬限制和顯著的數據隱私問題。邊緣AI作為解決這些挑戰的關鍵方案,倡導本地化數據處理【19】。這種轉變不僅減少了對遠程云基礎設施的依賴,從而大幅降低延遲,還顯著增強了應用對實時數據輸入的響應能力。這種范式轉變對于推動需要瞬時數據分析和決策的下一代技術發展尤為重要,涵蓋了如自主車輛、智能城市基礎設施和尖端醫療系統等領域。

此外,邊緣AI使得即使在稀疏連接的情況下,應用也能高效運行,通過在源頭直接處理數據。這種能力在遠程或高度移動的環境中至關重要,在這些環境中,持續和可靠的互聯網訪問并不總是有保障的【20】。通過現場處理數據,邊緣AI顯著增強了數據隱私和安全措施,減少了將敏感信息傳輸到遠程服務器的需求。在如醫療和金融等領域,數據的機密性和完整性至關重要,這一特性尤為關鍵。邊緣AI還通過減少需要通過網絡傳輸的數據量,支持帶寬效率,是數據密集型應用的經濟選擇【21】。這種效率不僅降低了運營成本,還緩解了網絡擁堵,促進了更順暢和可靠的數據流。可擴展性是邊緣AI提供的另一個重要優勢【6】。隨著設備網絡的擴展,邊緣計算允許無縫擴展,而不會因集中處理能力的瓶頸而受限,使企業和技術能夠在不受基礎設施限制的情況下增長。

總的來說,邊緣計算與AI的結合不僅是技術進步,也是滿足現代應用動態需求的戰略必要。通過提倡降低延遲、增強隱私和安全、提高帶寬效率和可擴展性,邊緣AI將徹底改變數據驅動決策的方式,迎來一個高效且以隱私為中心的智能時代。

本文的主要貢獻是:

  • 我們提供了對邊緣AI的全面介紹,涵蓋其歷史、挑戰和前景。
  • 我們進行了系統的文獻綜述,基于多個應用領域對邊緣AI研究進行了詳盡的審查,突出當前趨勢和未來可能的方向。
  • 我們提出了一個邊緣AI的分類法,有助于邊緣AI系統的分類和排列,并通過各種應用探索其跨學科的潛在影響。
  • 我們強調了邊緣AI在網絡邊緣實時處理數據的重要性,同時指出了邊緣AI系統面臨的挑戰,如資源限制、安全風險和擴展問題。
  • 我們提出了旨在通過提供創新解決方案和未來研究機會來解決邊緣AI當前局限性的有前途的未來方向。

****

**C. 文章組織結構

第二部分討論了一個相關的調查,重點關注與邊緣AI集成的不同應用中的算法、優化技術、安全和隱私問題。第三部分介紹了邊緣AI的背景和現狀。第四部分詳細描述了采用的審查方法。第五部分概述了涵蓋基礎設施、云計算、霧計算、服務、用例、機器學習和深度學習以及資源管理的分類法。第六部分基于分類法比較了現有的邊緣AI實現。第七部分呈現了分析和獲得的結果,并在第八部分討論了未來的研究方向。最后,第九部分總結了這項調查。

邊緣AI:背景與現狀

本節為讀者解釋了與邊緣AI背景和現狀相關的一些概念。子節III-A解釋了邊緣計算及其歷史起源。子節III-B提供了有關AI與邊緣技術整合的信息。接下來通過子節III-C和子節III-D分別解釋邊緣AI應用和挑戰。

**A. 邊緣計算的歷史起源

邊緣計算的概念是一種范式,將計算資源更接近數據源,而不是通過遠程服務器提供服務的云計算【51】。這樣可以在如今需要處理大量數據的世界中減少不必要的帶寬占用和延遲問題【52】。為了理解邊緣計算的出現,更有用的是考察之前的范式,如云計算和霧計算。圖1顯示了云計算、霧計算和邊緣計算各自的優點及其層次安排。現在簡要介紹這些概念:

  • 云計算:云計算是一種可以追溯到1970年代的范式,指的是用戶通過互聯網在服務器上使用公共計算資源【53】。今天,主要由大公司如微軟Azure、谷歌云平臺和IBM云提供給用戶的各種服務模式。云計算的優點如下【54】:

  • 高處理能力和集中存儲,使用戶可以輕松訪問資源,只要有互聯網。這減少了用戶的數據丟失風險,并為用戶提供了從任何有互聯網的地方工作的自由。

  • 可擴展性,如果計算資源需求增加(需求波動),云計算通過擴展資源提供更多的處理能力和存儲服務。這樣,保證了SLA和QoS等性能指標。

  • 按使用付費,通過云計算提供的無服務器(功能即服務(FaaS)+ 后端即服務(BaaS))服務模式,用戶只為使用的計算資源付費。這樣提供了一種經濟的模式,吸引更多用戶。

  • 霧計算:霧計算的概念由思科在2012年提出【55】。這種范式建議將計算資源更接近網絡的終端(如路由器和網關),以減少云計算中的延遲和帶寬問題。當查看圖1時,霧計算作為云和邊緣之間的一層。霧計算的優點如下【56】:

  • 由于將計算資源更接近網絡邊緣,霧計算的延遲低于云計算。

  • 作為云和終端設備之間的一層,通過處理部分需要發送到云的大量數據,減少不必要的帶寬使用。

  • 邊緣計算:物聯網和傳感器技術的發展使得需要處理的數據量增加到巨大的水平。在云計算資源上處理所有這些數據可能導致不必要的帶寬占用和延遲問題。因此,邊緣計算的概念作為一種通過在數據源附近處理數據來優化延遲和帶寬使用的范式應運而生【57】。此外,邊緣計算是解決霧計算所帶來的復雜性、安全性和管理挑戰(額外一層)的良好解決方案【58】。邊緣計算的優點如下【59】:

  • 通過將數據處理移到網絡邊緣,減少延遲和帶寬使用,

  • 相比霧計算,提供了如更少的復雜性和更好的安全性等優點。

**B. AI與邊緣技術的整合

將AI與邊緣計算的概念結合起來是最近的熱門話題之一。圖2顯示了一個解釋邊緣AI概念的主要圖示。邊緣AI是在靠近數據源的邊緣節點(物聯網和移動設備)上分布處理AI算法數據,而不是在集中式云平臺上處理數據【60】。這兩種技術提供的優點如下【6】:

  • 在如低延遲、時間敏感的自主車輛和監測患者的電子健康等應用中,延遲量至關重要。通過邊緣和AI整合,可以通過實時處理數據來克服這個問題。
  • 在數據安全方面,由于數據將在靠近源的點進行處理,敏感數據如生物特征數據將在網絡內的本地設備上處理。這樣可以消除如數據泄漏等安全隱患。
  • 可擴展資源,邊緣范式由由同質或異質設備組成的節點組成。這樣,可以根據處理能力需求進行任務調度。

**C. 邊緣AI應用

由邊緣和AI概念結合創建的邊緣AI應用比基于云的AI應用提供了更低的延遲和更高的安全性。圖3展示了其中一些應用。讓我們解釋這些應用:

  • 醫療保健:邊緣AI應用基于在網絡邊緣的分布式AI模型中處理從可穿戴設備收集的數據。此外,使用便攜式醫學成像技術進行的早期診斷研究可以作為例子【54】。
  • 智能停車:隨著交通工具的增加,停車已成為一個大問題,特別是在大城市。可以利用傳感器和物聯網的幫助解決這些問題的邊緣AI解決方案【61】。
  • 智能家居:用于現代家庭的解決方案如家庭照明系統和智能冰箱可以作為這些應用的例子。通過防止城市中不必要的電力消耗,可以優化能源消耗【56】。
  • 計算機視覺:邊緣AI可以使用如生物特征認證的方法識別人員【51】。此外,邊緣AI在需要實時決策的工業應用中提供了巨大優勢【58】。
  • 網絡安全:可以使用基于邊緣AI的安全應用檢測未經授權的訪問、可疑物品和持武人員。此外,可以通過檢測網絡上的可疑流量來進行異常檢測,以防止網絡攻擊【62】。
  • 交通運輸:可以將基于邊緣AI的解決方案用于現代復雜的交通信號燈操作【63】。

**D. 邊緣AI實施挑戰

結合邊緣和AI而產生的邊緣AI帶來了其提供的優點,但也帶來了仍需解決的挑戰。這些挑戰顯示在圖4中。讓我們解釋這些挑戰:

  • 能效:邊緣設備通常由具有低處理和存儲能力的同質和異質設備組成。需要自然語言處理(NLP)和密集圖像處理的應用將導致邊緣設備上過度的資源消耗【64】。因此,需要如專用AI芯片或任務工程等新解決方案。
  • 維護和更新:由于邊緣設備由分布在不同位置的設備組成,這意味著黑客的更多攻擊目標【65】。此外,邊緣節點中的所有設備并非都是同質結構,這意味著每個節點需要單獨的系統維護和更新【66】。可以采取如自動更新等措施來解決這些問題。
  • 可擴展性:由于邊緣設備通常由異質設備組成,將單個應用分配到不同設備仍然是一個挑戰(任務調度等)【67】。此外,難以在所有設備之間同步數據。可以使用有效的微服務架構和負載均衡算法來防止節點過載,解決這個問題。
付費5元查看完整內容

相關內容

強化學習(RL)是一種強大的序列決策工具,在許多具有挑戰性的現實任務中取得了超越人類能力的表現。作為RL在多智能體系統領域的擴展,多智能體強化學習(MARL)不僅需要學習控制策略,還需要考慮與環境中其他所有智能體的交互、不同系統組件之間的相互影響以及計算資源的分配。這增加了算法設計的復雜性,并對計算資源提出了更高的要求。同時,模擬器對于獲取現實數據至關重要,這是RL的基礎。在本文中,我們首先提出了一系列模擬器的指標,并總結了現有基準測試的特征。其次,為了便于理解,我們回顧了基礎知識,并綜合了最近與MARL相關的自動駕駛和智能交通系統的研究進展。具體而言,我們考察了它們的環境建模、狀態表示、感知單元和算法設計。最后,我們討論了當前面臨的挑戰以及未來的前景和機會。我們希望本文能夠幫助研究人員整合MARL技術,并激發更多關于智能和自動駕駛的深刻見解。 關鍵詞——多智能體強化學習、自動駕駛、人工智能

大規模自動駕駛系統近年來吸引了大量關注,并獲得了來自工業界、學術界和政府的數百萬資金支持【1】【2】。開發此類系統的動機在于用自動化控制器取代人類駕駛員,這可以顯著減少駕駛時間和工作負擔,提升交通系統的效率與安全性,促進經濟發展。一般來說,為了檢測車輛狀態并生成可靠的控制策略,自動駕駛車輛(AVs)需要配備大量電子單元,如視覺傳感器,包括雷達、激光雷達(LiDAR)、RGB-深度(RGB-D)攝像頭、事件攝像頭、慣性測量單元(IMU)、全球定位系統(GPS)等【3】–【5】。該領域的一個突出挑戰是構建一個能夠處理海量信息并將其轉化為實時操作的穩健且高效的算法。早期的工作將這一大問題分為感知、規劃和控制問題,并獨立解決,這被稱為模塊化自動駕駛。 另一方面,作為一種強大的序列決策工具,強化學習(RL)可以通過獎勵信號優化智能體行為模型。隨著其發展,深度RL結合了RL和深度神經網絡的優勢,能夠抽象復雜的觀測并學習高效的特征表示【6】。在過去的代表性研究中,它在棋類游戲【7】【8】、電子游戲【9】【10】以及機器人控制【11】–【13】等領域表現出色,甚至在某些情況下超越了人類表現。對于自動駕駛而言,RL使端到端控制成為現實,即從車輛感知到車輛應該做什么的直接轉換,就像人類駕駛員一樣。盡管RL在自動駕駛車輛方面取得了許多顯著成就,大多數相關工作仍是從單個車輛的角度出發,這導致了以自我為中心并可能具有攻擊性的駕駛策略,可能會引發安全事故并降低交通系統的效率。

對于現實世界的交通系統,我們通常將其定義為多智能體系統(MAS),并旨在優化整個系統的效率,而不僅僅是最大化個體利益。在MAS中,所有智能體在共享的環境中做出決策并進行交互。這意味著每個智能體的狀態不僅取決于其自身的行為,還取決于其他智能體的行為,使得環境動態呈現非靜態和時間變化性。此外,根據任務設置,智能體可能相互合作或競爭。在如此復雜的場景中,手動編程預先行動幾乎是不可能的【15】。得益于多智能體強化學習(MARL)的重大進展,交通控制【16】【17】、能源分配【18】【19】、大規模機器人控制【20】【21】以及經濟建模與預測【22】【23】領域均取得了實質性突破。圖1展示了這些相關研究主題的出版物數量。使用Dimensions數據庫進行AI搜索【14】,我們搜索了包括多智能體強化學習、自動駕駛和智能交通在內的關鍵詞。統計結果表明,學術界對這些問題高度關注,相關研究領域正處于快速增長階段。為了加速進一步研究并幫助新研究人員快速入門,我們審閱了200多篇出版物、開源軟件和代碼庫,然后系統地總結了現有成就和最新進展。

在此,我們提及其他近期的綜述。在里程碑系列【25】–【27】中,作者簡要總結了從歷史到未來的藍圖,并簡要介紹了自動駕駛中具有影響力的算法。還有許多綜述【28】–【30】介紹了RL的基本理論和應用,并分析了其發表時最先進的(SoTA)自動駕駛算法,但它們主要關注單智能體學習。綜述【31】的作者首次定義了分層結構的自動駕駛系統,并將其研究范圍限定在局部運動規劃。他們說明了車輛的動力學,并展示了采樣和基于搜索的方法如何在數學上工作。然而,他們忽略了基于學習的方法的貢獻。在最近的運動規劃綜述【2】中,研究人員全面調查了管道和學習方法,包括深度學習、逆向RL和模仿學習以及MARL。同樣,詳細的概述涵蓋了軌跡預測中最新的分類法和方法論【32】。還有一些優秀的綜述總結了AVs的MARL方法【1】【33】【34】。盡管如此,近年來研究人員在理論和應用方面取得了顯著進展,并且在高級機器人模擬器中也取得了進展。作為在線RL訓練的關鍵組成部分,模擬器決定了從模擬到現實的差距,即智能體學習的策略是否可以輕松地轉移到物理機器人上。因此,為了使工程師和研究人員能夠捕捉最新的進展并加速技術進步,我們全面總結了該領域的技術、挑戰和前景。

總體而言,本文的主要貢獻可總結如下

  • 我們提出了一系列基準的標準,詳細分析和總結了先進模擬器、數據集和大規模自動駕駛競賽的特征。
  • 我們對最先進的MARL方法進行了分類,全面回顧了它們在該領域的技術改進、見解和未解決的挑戰。
  • 我們從相關領域捕捉了最新進展,并從多個角度深入探討了基于MARL的自動駕駛的未來方向。
  • 我們發布并維護了GitHub倉庫1,以持續報告和更新MARL-based自動駕駛、智能交通系統和其他相關領域的最新研究。

在圖2中,我們可視化了MARL的發展歷程、數據集、模擬器、硬件和軟件在自動駕駛及其他相關領域的發展。總體來說,隨著大規模數據集和深度學習的發展,自動駕駛已從分層控制邁向數據驅動時代。隨著先進模擬器的出現,基于RL的方法登上了舞臺,隨后新技術如大語言模型帶來了更多的機遇。我們將在后文詳細分析,本文的其余部分組織如下:在第二節中,我們首先描述了基準的指標。我們還分析了最先進的自動駕駛模擬器和數據集的特征。在第三節中,我們回顧了RL和MARL的基本概念、定義和開放問題。在第四節中,我們詳盡介紹了自動駕駛領域最先進的MARL算法。具體而言,我們分析了它們的狀態和動作設置、方法論見解和應用。在第五節中,我們指出了現有挑戰并給出了可能的解決方案。在第六節中,我們捕捉了最新的進展,并提出了朝向更安全和智能的自動駕駛的有前途的方向。

II. 自動駕駛基準

強化學習(RL)通常需要大量的數據。一般來說,它需要與環境進行持續交互,以獲得行為軌跡,從而幫助深度神經網絡進行更準確的價值估計【35】【36】。然而,由于不確定的探索過程可能造成的經濟損失,我們通常不會將RL策略直接部署在真實的機器人上。因此,在RL范式中,來自真實駕駛和高保真模擬器的數據被廣泛用于基于RL的自動駕駛開發。在本節中,我們將介紹用于自動駕駛和交通系統中的大規模多智能體強化學習(MARL)的各種數據源。

最先進的方法論

本節將介紹用于多車輛系統運動規劃和控制的最新多智能體強化學習(MARL)方法。我們無法涵蓋所有相關研究,但本綜述中選取的代表性技術均來源于發表在最具影響力的會議和期刊的報告。此外,我們鼓勵研究人員在我們的網站上報告更多相關工作。 A. 集中式多智能體強化學習

在集中式訓練與分散執行(CTDE)方案中,每輛車都有一個獨立的策略網絡,并設有一個核心計算機來合并和處理來自所有車輛的信息。首先,我們從所有車輛獲取合并的觀測,通過預定義的全局獎勵函數評估系統狀態,然后在完成信用分配后訓練獨立的策略。PRIMAL [154] 是路徑規劃集中式訓練的里程碑式工作,它為每個智能體分配了一個獨立且精心設計的參數共享的actor-critic網絡,并使用A3C [155]算法進行訓練。在這項工作中,研究人員說明了獨立策略可能導致自私行為,而帶有安全懲罰的手工設計獎勵函數是一個不錯的解決方案。此外,系統還提供了一個開關,使智能體可以從交互或專家示范中學習。強化學習與模仿學習的結合有助于快速學習,并緩解自私行為對整個系統的負面影響。在本文中,定義了一個離散網格世界,每個智能體的局部狀態設為10×10方塊的信息,并使用指向目標的單位向量來表示方向。為了驗證在現實世界中的可行性,作者還在工廠模型中實現了PRIMAL系統。 在MADDPG [24]中,作者提出了基于深度確定性策略梯度(DDPG)[156]的首個可泛化CTDE算法,并使用玩具多粒子環境作為測試平臺。它提供了一個基本平臺,具有簡單的車輛動力學,用于在設計無關的場景下學習連續觀測和動作空間中的連續駕駛策略,并吸引了許多杰出的后續研究者【21】【157】。同時,價值函數分解方法與CTDE方案的結合在智能體數量上的可擴展性方面表現更好,并減輕了策略訓練中的非靜態性影響,從而在大規模多智能體系統中提高了性能【116】【158】。這些方法已在Highway-Env [84][159]中無信號交叉路口等復雜場景中得到了驗證。此外,專家示范有助于降低收斂到次優策略的風險【159】。為了驗證在無地圖導航任務中部署CTDE方法的可行性,Global Dueling Q-learning (GDQ) [160] 在MPE [24] 中為每個turtlebot3設置了一個獨立的DDQN [161] 來訓練策略并估計價值。此外,他們引入了一個全局價值網絡,將每個智能體的價值網絡輸出組合起來以估計聯合狀態價值。事實證明,該方法比常規的價值分解方法更為有效。同時,研究人員還嘗試將單智能體RL中的基本算法(如PPO [65]或SAC [66])擴展到多智能體任務,并提供了許多重要的基線,如MAAC [162]和MAPPO [163]。特別是,MAPPO在大量基準測試中得到了全面驗證,并提供了系統的超參數選擇和訓練指南。為了克服從模擬到現實的差距并將MAPPO部署到實際機器人上,開發人員在Duckietown-Gym模擬器中訓練了一個用于跟隨地面航點的策略網絡。MAPPO策略網絡采用了循環神經網絡(RNN)[164],用于回憶前一狀態的知識,并為每輛車輸出高層次的目標線速度和角速度。與大多數室內導航任務類似,光學跟蹤系統捕獲車輛的位置和姿態。通過線性化逆動力學,可以在域適應后獲得車輛的低級執行命令。這項工作揭示了如何在實際機器人上部署CTDE方案,其工程經驗對于未來的研究具有重要價值。 B. 獨立策略優化

考慮到實際部署中的通信、帶寬和系統復雜性等挑戰,完全去中心化系統通過允許智能體獨立操作而無需持續協調,減少了通信開銷和帶寬需求。此外,它更容易在通信基礎設施有限或不可靠的環境中部署,降低了決策延遲,并簡化了每個智能體的本地計算。這些因素使得去中心化的MARL成為現實世界多智能體應用中更實用且更具適應性的方法。近年來,獨立策略優化(IPO)[165]獲得了越來越多的關注,并提出了大量相關方法。同時,這些研究中所涉及場景的復雜性和智能體的規模也同步增加,反映出去中心化學習更符合現實世界中大規模自動駕駛的需求。 為了在集中式方案中解決可擴展性問題,MAPPER [166]采用了基于A2C [155]算法的去中心化actor-critic方法。首先,占用地圖的局部觀測表示為包含靜態場景、動態障礙物和A規劃器[167]規劃軌跡信息的三通道圖像。這些三通道觀測通過卷積神經網絡(CNN)抽象為潛在向量,并與通過多層感知機(MLP)抽象的航點信息一起輸入共享的全連接層。隨后,兩個獨立的MLP分別輸出動作概率和價值估計。此外,MAPPER在優化過程中使用了額外的進化算法來消除不良策略。與PRIMAL [154]相比,MAPPER在大規模場景中可以更快地學習并更有效地處理動態障礙物。另一種提高可擴展性的方法是G2RL [168],這是一種適用于任意數量智能體的網格地圖導航方法。同樣,它利用A為每個智能體提供全局引導路徑。同時,本地占用地圖輸入到本地DDQN [161]規劃器中,以捕捉本地觀測并生成糾正指令以避免動態障礙物。由于智能體之間無需通信,該方法無需考慮通信延遲,可擴展至任何規模。 作為PRIMAL的繼任者,PRIMAL2 [169]保留了相同的分層結構,即由A規劃器生成全局路徑,并由A3C和模仿學習指導的智能體訓練。關鍵區別在于PRIMAL2采用了完全去中心化的訓練方法,增強了其處理結構化和高密度復雜場景的靈活性。與MAPPER類似,它采用了11×11的觀測范圍,并將觀測分為多通道圖像輸入。前四個通道包括靜態障礙物、智能體自身的目標點、其他智能體的位置和其他智能體的目標點。第五到第八通道提供了A規劃的本地路徑,以及在觀測范圍內其他智能體在未來三個時間步長的位置。最后三個通道提供了走廊出口的X和Y坐標偏移,以及一個布爾狀態,指示是否有其他智能體阻擋路徑。更細致的觀測輸入使PRIMAL2能夠有效解決高密度復雜占用網格中的智能體死鎖問題,并生成比前代方法更短的路徑。 上述方法是為具有離散動作空間的結構化占用網格開發的,適用于結構化倉庫和貨運終端中的自動地面車輛。盡管與真實交通系統存在差異,這些方法仍然為后續工作提供了靈感。其他去中心化學習研究在更先進的連續基準測試上進行【24】【63】【70】。例如,在PIPO [21]中,研究人員利用圖神經網絡的置換不變性開發了一種端到端的運動規劃方案。他們在MPE中定義了一個逐步擴大的連續場景,場景中有各種靜態障礙物。在訓練過程中,觀察到的其他智能體狀態的隨機置換增強了actor-critic網絡的特征表示。我們注意到還有許多優秀且具有代表性的去中心化訓練方案,但我們將在其他子主題中對它們進行分類,并在后續章節中詳細介紹。 C. 帶有社會偏好的學習

盡管獨立策略學習在許多任務中是可行的,但當多個智能體的利益發生沖突時,純粹的自我中心的獨立策略學習可能會失敗,導致每個智能體都以自我為中心【20】。因此,一個重要的問題是如何平衡智能體的自私與利他行為。在圖4中,我們給出了一個玩具示例,以說明社會偏好如何影響智能體的行為。如果智能體無法平衡其利他和自私行為,這兩個智能體可能會發生碰撞或互相阻礙。因此,在策略學習中應該考慮社會行為和偏好【170】。為了找到社會偏好的數學表示,在早期工作中,研究人員首先提出使用三角函數來表示這種偏好。 D. 安全性和可信學習

安全性是部署自動駕駛系統的核心要素,也是首要任務,因為它直接關系到自動駕駛車輛(AVs)的可靠性和人們的生命安全。近年來,強化學習(RL)研究人員投入了大量精力,確保所學策略在探索過程中以及部署后不會引發安全問題。具體來說,受【172】啟發,我們將現有的多智能體強化學習(MARL)安全標準和方法分為三類。 首先,軟安全保障涉及設計安全懲罰項,以減少危險行為的發生概率。通過精細調整的獎勵,學習算法可以在其他性能指標的同時優先考慮安全性。然而,盡管軟安全保障已被證明可以有效提高多智能體系統中的安全性能,但其局限性在于它依賴于獎勵函數能夠準確捕捉所有安全方面的假設,而這在復雜環境中往往具有挑戰性。 第二類是優化過程中發生的概率性保障。例如,一些最新的MARL算法在策略優化過程中利用拉格朗日約束【21】或安全閾值【173】【174】。本質上,這種方法改善了策略梯度,有助于避免危險的探索行為。然而,由于策略仍然表示為概率分布,因此我們無法為這種方法獲得明確、可解釋和穩定的安全邊界。同時,現實世界駕駛中的關鍵安全約束是瞬時的和確定性的【175】。例如,避碰是一個依賴于系統當前狀態的瞬時約束,而不是依賴于歷史軌跡或隨機變量。 E. 方法總結

如表II所示,我們收集了過去五年中關于戶外自動駕駛、交通系統控制和結構化場景運輸中多智能體強化學習(MARL)的代表性工作。同時,我們列出了它們的分類、最大智能體數量、使用的模擬器以及是否進行了現實世界的實驗。在此需要注意的是,即使使用相同的模擬類型,動作設置也可能完全不同。例如,在PRIMAL和PRIMAL2中,智能體的動作設置為(↑, →, ↓, ←, ?),代表二維網格地圖中在水平和垂直方向上的四種移動以及停留在原地。相比之下,MAPPER為智能體增加了四個額外的對角移動(↗, ↘, ↙, ↖)。 此外,我們發現許多研究采用預定義的高層次動作指令來簡化任務。策略網絡輸出離散值,這些值映射到相應的預設動作,然后低級控制器執行這些動作,生成命令并將其發送到執行器。兩個具體的例子是MFPG【182】和CPO-AD【183】。它們預設了低級單向控制映射,僅考慮自動駕駛車輛在一個方向上的移動。 我們從該領域過去的研究中總結出三大趨勢。首先,早期的研究由于算法多樣性和模擬器性能的限制,更側重于網格地圖中的集中式MARL。然而,近期研究探討了去中心化方法在更復雜的連續觀測中的潛力。其次,只有少數研究進行了現實世界的實驗,并且僅使用離散模擬器和少量智能體,這是未來工作可以改進的方面。第三,最新的研究采用了更復雜的設計,并整合了來自其他領域的更多方法,如數據壓縮和機器視覺。 在本節中,我們將介紹多智能體強化學習(MARL)中的主要挑戰。需要注意的是,集中式訓練與分散執行(CTDE)和分散式訓練與分散執行(DTDE)方案所面臨的問題是不同的。盡管已經提出了一些可行的解決方案來解決這些問題,但這些方案仍然不是唯一的,也不完美。我們希望讀者能夠提前認識到這些問題的存在及其特性,從而更好地理解后續先進方法的動機和技術創新。

付費5元查看完整內容

強化學習(RL),特別是與深度神經網絡結合的深度強化學習(DRL),在廣泛的應用中展現了巨大的前景,表明其有望推動復雜機器人行為的發展。然而,機器人問題為RL的應用帶來了根本性的挑戰,這些挑戰源于與物理世界交互的復雜性和成本。本文提供了關于DRL在機器人領域應用的現代綜述,特別關注DRL在實現幾項關鍵機器人能力方面取得的現實世界成功。我們的分析旨在識別這些令人興奮的成功背后的關鍵因素,揭示未充分探索的領域,并對DRL在機器人領域的現狀進行總體描述。我們強調了未來研究的幾個重要方向,包括需要穩定且樣本高效的現實世界RL范式,發現和整合各種能力以應對復雜的長期開放世界任務的整體方法,以及原則性的發展和評估程序。本綜述旨在為RL從業者和機器人學家提供見解,以利用RL的力量創建具有廣泛能力的現實世界機器人系統。

引言

強化學習(RL)(1) 是一類決策問題,其中代理必須通過試錯學習以最大化其累積回報,該回報由標量獎勵函數編碼,映射代理的狀態和行動到即時獎勵。特別是與深度神經網絡結合的深度強化學習(DRL)(2),在解決復雜決策問題方面顯示出卓越的能力,即使是在棋類游戲(3)、視頻游戲(4)、醫療保健(5)和推薦系統(6)等領域的高維觀察中也不例外。這些成功突顯了DRL在控制具有高維狀態或觀察空間和高度非線性動態的機器人系統以執行傳統決策、規劃和控制方法(如經典控制、最優控制、基于采樣的規劃)無法有效處理的挑戰性任務方面的潛力。然而,迄今為止,DRL最顯著的里程碑是在模擬或游戲環境中實現的,在這些環境中,RL代理可以從大量的經驗中學習。相比之下,機器人需要在物理世界中完成任務,這帶來了額外的挑戰。在物理世界中直接通過試錯收集樣本通常效率低下且/或不安全,而且通常不可能在模擬中創建復雜真實世界的精確副本。盡管存在這些挑戰,最近的進展使得DRL在一些現實世界的機器人任務中取得了成功。例如,DRL已實現冠軍級別的無人機競速(7)和集成到生產級四足機器人系統中的多功能四足機器人控制(如ANYbotics1、Swiss-Mile2和Boston Dynamics3)。然而,最先進的DRL解決方案在不同的機器人應用領域的成熟度差異顯著。在某些領域,如城市自動駕駛,基于DRL的解決方案仍然局限于模擬或嚴格限定的現場測試(8)。 本綜述旨在全面評估DRL在現實世界機器人應用中的當前進展,識別最令人興奮的成功背后的關鍵因素以及在較不成熟領域中仍然存在的開放挑戰。具體而言,我們評估了DRL在各種問題領域的成熟度,并對不同領域的DRL文獻進行對比,以確定廣泛適用的技術、未充分探索的領域以及需要解決的共同開放挑戰,以推進DRL在機器人中的應用。我們希望本綜述能為研究人員和從業者提供對DRL在機器人領域現狀的深入理解,提供有價值的見解,以指導未來的研究并促進現實世界機器人任務中廣泛可部署的DRL解決方案。

為什么要進行另一項關于機器人強化學習的綜述?

管之前的一些文章已經綜述了機器人強化學習,但我們在文獻中提供了獨特的視角并填補了知識空白,主要貢獻有三點。首先,我們專注于在現實世界中至少取得了一定成功的工作,旨在評估DRL在現實世界機器人應用中的當前狀態和開放挑戰。大多數現有的關于機器人強化學習的綜述并未明確討論這一主題,例如,Dulac-Arnold等(9)討論了現實世界RL的一般挑戰,但不針對機器人,Ibarz等(10)列出了基于他們自己研究的案例研究中現實世界機器人環境中特有的DRL開放挑戰。相比之下,我們的討論基于對DRL在機器人領域取得的現實世界成功的全面評估,其中一個方面是對現實世界部署水平的評價(見第3.4節)。

其次,我們提出了一個新穎且全面的分類法,從多個角度對DRL解決方案進行分類:通過DRL學習的機器人能力、問題的表述、解決方案的方法以及現實世界成功的水平。以往關于機器人強化學習和更廣泛的機器人學習的綜述通常集中在特定任務(11, 12)或特定技術(13, 14)上。相比之下,我們的分類法允許我們調查在機器人應用領域有效的DRL解決方案的完整圖景,此外,還分別回顧了每個應用領域的文獻。在此框架內,我們對解決方案進行比較和對比,識別共同模式、廣泛適用的方法、未充分探索的領域以及實現成功機器人系統的開放挑戰。

第三,盡管一些過去的綜述分享了我們對該領域進行廣泛分析的動機,但DRL快速而令人印象深刻的進展需要對該領域、其成功和局限性進行重新分析。Kober等(15)的開創性綜述是在深度學習時代之前撰寫的,而Sunderhauf等(16)關于機器人深度學習的一般綜述撰寫時,DRL的成就主要是在模擬中。我們通過專注于DRL提供了該領域的最新概述,DRL是機器人強化學習最顯著的現實世界成功背后的驅動力,特別關注過去五年中發表的論文,因為大多數成功都發生在這段時間內。

分類法

本節介紹我們用于分類深度強化學習(DRL)文獻的新分類法。由于我們對DRL在機器人領域現實世界成功的獨特關注,新的分類法可以對文獻進行分類和分析,從而評估DRL解決方案在各種機器人應用中的成熟度,并從成功與失敗中汲取寶貴的經驗教訓。具體而言,我們應識別每篇論文所解決的特定機器人問題,了解其如何抽象為強化學習問題,并總結為解決該問題所應用的DRL技術。更重要的是,我們應評估這些DRL解決方案在實驗中展示的成熟度。因此,我們引入了跨四個軸的分類法:通過DRL學習的機器人能力、問題表述、解決方案方法以及現實世界成功的水平。

**通過DRL學習的機器人能力

我們的主要軸側重于每篇論文研究的目標機器人任務。機器人任務,尤其是在開放的現實世界場景中,可能需要多種能力。可以應用DRL來綜合一個端到端系統以實現所有能力,或者學習子模塊來實現其中的一部分能力。由于我們專注于DRL,因此我們根據通過DRL學習和實現的具體機器人能力對論文進行分類。我們首先將這些能力分類為單機器人——機器人獨立完成任務所需的能力,以及多智能體——與共享工作空間并影響其任務完成的其他智能體交互所需的能力。

當單個機器人在工作空間中完成任務時,它所需的任何能力都可以被視為實現與物理世界交互和影響的具體方式,進一步分為移動性——在環境中移動——和操作性——移動或重新安排(例如抓取、旋轉)環境中的物體(17, 18, 19)。在機器人文獻中,移動性通常分為兩個問題:運動能力和導航能力(18, 20)。運動能力側重于使各種形態的機器人(例如四足機器人、人形機器人、輪式機器人、無人機)能夠穿越不同環境的運動技能,而導航能力側重于引導機器人高效且無碰撞地到達目的地的策略。典型的導航策略生成高層次運動命令,例如質心(CoM)的期望狀態,同時假設有效的運動控制來執行這些命令(18)。有些工作同時解決了運動和導航問題,這對于導航策略受到機器人穿越環境能力(由機器人動力學和運動控制決定)嚴重影響的任務特別有用,例如穿越困難地形(20)或競速(21)。我們將這些論文與其他導航論文一起審查,因為它們的最終目標是導航。

在機器人文獻中,操作性通常在桌面環境中研究,例如安裝在固定底座上的機器人手臂或手,固定傳感器觀察場景。一些其他現實世界任務進一步要求機器人在移動底座的同時與環境交互(例如家用和倉庫機器人),這需要操作性和移動能力的協同整合。我們在固定操作性類別下審查前一種情況,在移動操作性類別下審查后一種情況。

當任務完成受到工作空間內其他智能體影響時,機器人需要進一步具備與其他智能體交互的能力,我們將其歸入多智能體能力類別。需要注意的是,在機器人與其他智能體交互時,仍可能需要某些單機器人能力,例如人群導航或協作操作。在此類別中,我們重點關注在智能體交互層面進行DRL的論文,即在給定某些單機器人能力的情況下學習交互策略,或學習聯合優化交互和單機器人能力的策略。根據機器人交互的智能體類型,我們將這些工作進一步分為兩個子類別:1)人機交互,關注機器人與人類一起操作的能力。人類的存在帶來了額外的挑戰,因為他們行為復雜且對機器人在其周圍操作有嚴格的安全要求。2)多機器人交互,指機器人與一組機器人交互的能力。通常使用一類強化學習算法——多智能體強化學習(MARL)來解決此問題。在MARL中,每個機器人都是一個學習智能體,根據其與環境和其他機器人的交互來演變其策略,這使得學習機制更加復雜。根據機器人目標是否一致,它們的交互可能是合作的、對抗的或一般總和的。此外,實際場景通常需要在部分可觀測性和有限通信帶寬下進行分散決策。

**問題表述

分類法的第二個軸是強化學習問題的表述,這指定了針對目標機器人能力的最優控制策略。RL問題通常建模為單智能體RL的部分可觀測馬爾可夫決策過程(POMDP)和多智能體RL的分散POMDP(Dec-POMDP)。具體而言,我們根據以下問題表述元素對論文進行分類:1)動作空間:動作是低級別(即關節或電機命令)、中級別(即任務空間命令)還是高級別(即時間延伸的任務空間命令或子例程);2)觀測空間:觀測是高維傳感器輸入(例如圖像和/或LiDAR掃描)還是估計的低維狀態向量;3)獎勵函數:獎勵信號是稀疏的還是密集的。由于篇幅限制,這些術語的詳細定義見補充材料。

**解決方案方法

另一個與前一個軸密切相關的軸是用于解決RL問題的解決方案方法,它由RL算法和相關技術組成,能夠為目標機器人問題提供實際解決方案。具體而言,我們從以下角度對解決方案方法進行分類:1)模擬器使用:是否以及如何使用模擬器,分為零樣本、少量樣本模擬到現實轉移,或直接在現實世界中離線或無模擬器學習;2)模型學習:是否從機器人數據中學習(部分)過渡動態模型;3)專家使用:是否使用專家(例如人類或預言策略)數據來促進學習;4)策略優化:采用的策略優化算法,包括計劃或離線、離政策或在政策RL;5)策略/模型表示:用于表示策略或動態模型的神經網絡架構類別,包括MLP、CNN、RNN和Transformer。詳細術語定義見補充材料。

**現實世界成功水平

為了評估DRL在現實世界機器人任務中的實用性,我們根據其DRL方法的成熟度對論文進行分類。通過比較不同機器人任務中DRL的有效性,我們旨在識別研究原型與現實世界部署之間差距較大或較小的領域。這需要一個量化各任務現實世界成功水平的指標,據我們所知,這在DRL機器人文獻中尚未嘗試過。受自動駕駛等級(22)和機器學習技術成熟度等級(TRL)(23)的啟發,我們引入了現實世界成功等級的概念。我們將論文分為六個等級,基于所驗證方法的情境:1)等級0:僅在模擬中驗證;2)等級1:在有限的實驗室條件下驗證;3)等級2:在多樣的實驗室條件下驗證;4)等級3:在有限的現實世界操作條件下驗證;5)等級4:在多樣、具有代表性的現實世界操作條件下驗證;6)等級5:在商業化產品中部署。我們認為等級1-5至少在某種程度上實現了現實世界的成功。我們可以用來評估現實世界成功等級的唯一信息是作者報告的實驗。然而,許多論文僅描述了單次現實世界試驗。雖然我們努力提供準確的估計,但由于信息有限,這種評估可能具有主觀性。此外,我們使用現實世界成功等級來量化解決方案在其目標問題上的成熟度,而不考慮其復雜性。

結論

深度強化學習(Deep Reinforcement Learning)近年來在開發許多機器人能力方面發揮了重要作用,取得了許多現實世界的成功。在本文中,我們回顧并分類了這些成功案例,基于特定的機器人能力、問題表述和解決方案方法對其進行了描述。通過這些軸向的分析,我們揭示了普遍趨勢和未來工作的重要方向,包括算法和程序的改進、現實世界學習的要素,以及整合本文所討論的所有能力的整體方法。利用強化學習的力量來構建具有能力的現實世界機器人系統,需要解決其應用中的基本挑戰和創新;盡管如此,我們預計強化學習將在開發普遍智能機器人方面繼續發揮核心作用。

付費5元查看完整內容

多模態模型被認為是未來人工智能進步的關鍵組成部分。由于基礎模型在自然語言處理 (NLP) 和視覺領域的成功,這一領域正迅速發展,并涌現出大量新的設計元素。人們普遍希望將基礎模型進一步擴展到多種模態(如文本、圖像、視頻、傳感器、時間序列、圖等),最終形成通用的多模態模型,即在不同數據模態和任務之間通用的單一模型。然而,關于最近的多模態模型(尤其是那些超越文本和視覺的模型)的系統性分析研究較少,特別是對于所提出的底層架構。因此,本研究通過一種新穎的架構和訓練配置特定的分類法,提供了關于通用多模態模型(GMMs)的新視角。這包括統一性、模塊化和適應性等對GMMs廣泛采用和應用至關重要的因素。本文綜述進一步強調了該領域的關鍵挑戰和前景,并指導研究人員了解新的進展。

引言

多模態模型是能夠跨越多種數據模態進行學習的深度學習模型。有人推測,這類模型可能是實現人工通用智能(AGI)所必需的一步,因此,機器學習社區對它們的興趣正在迅速增加。多模態學習的最終目標是開發一個可以執行(或輕松適應執行)各種多模態任務的單一模型。一個簡單的多模態例子是一個視覺語言模型,它可以執行單模態任務(如文本生成、圖像分類)和跨模態任務(如文本到圖像檢索或圖像字幕生成),后者需要跨模態的上下文和聯合學習【58】。

在機器學習的發展歷程中,多模態研究一直在積極推進【3, 28, 31, 33, 34, 44, 75, 83】。然而,這些研究偏重于跨模態學習和有限范圍的模態(文本和圖像)。因此,模型架構的設計元素不足以促進向更通用模型的現代研究的平穩過渡。例如,與傳統機器學習(ML)模型不同,基礎模型通過重建大量(通常是未標注的)數據進行訓練,以便在各種下游數據集和任務中表現良好。訓練基礎模型的目標是學習如何提取可在不同領域和應用中重用的通用特征表示。類似地,多模態領域基礎模型的目標是實現跨多種模態和任務的學習,但這些模型受限于對文本和圖像模態的研究重點。

受這些差距的激勵,多模態文獻中引入了一系列新的設計元素【5, 58, 70, 84, 93, 106】。這些大多受NLP和視覺領域的單模態基礎模型成功的啟發。我們將這類新模型稱為通用多模態模型(GMMs)。GMMs可以包括那些能夠跨越研究中最常見的兩種數據類型(文本和圖像)之外的模態運行的模型。更具體地說,模型必須展示跨越多種模態(包括但不限于文本、圖像、語音、音頻、視頻和傳感器)的能力。這一更廣泛的定義捕捉了在不同模態中具有廣泛泛化表示的模型。表1總結了我們對通用多模態模型和典型多模態模型的定義之間的詳細區分。

與標準深度學習模型相比,基礎模型具有多種獨特的屬性,包括大規模預訓練(監督或/和自監督,例如掩碼語言建模【12】)和特殊的微調策略(例如,提示調優、參數高效微調)。這些基礎模型的特性使它們在文本和視覺模態中成為領跑者【96】。這些特性也被引入GMMs,并在多模態學習中顯示出類似的改進。另一方面,多模態學習在架構、訓練策略和評估方面有許多方面,使得GMMs的發展成為一個獨特的研究領域。如圖1所示,GMMs的能力隨著新策略的引入而不斷增長。因此,審視當前GMMs的努力并確定進一步增強GMMs能力的必要屬性具有重要價值。在本綜述中,我們確定了這些新興屬性并進行了全面分析。

盡管已有一些關于多模態學習的綜述論文【1, 20, 43, 51】,但它們存在以下局限:(i)主要處理文本-視覺范式,對其他模態考慮甚少;(ii)僅關注跨模態的數據融合,忽略了其他關鍵因素,如架構設計、預訓練目標以及不斷擴展的多模態任務范圍【17, 62】;(iii)對跨模態學習的關注較多,對單模態方面考慮較少【51】。因此,我們對現有的GMMs(涵蓋文本和視覺以外模態的模型)進行了全面的綜述,結合了各種數據處理、架構和訓練方面的內容。據作者所知,這是第一篇全面回顧GMMs學習最新趨勢的綜述。本文的主要貢獻如下

  • 提出了一種新的分類法,解決了當前多模態架構設計空間的問題。
  • 分類法因素明確與基礎模型的背景相一致,與之前的綜述論文不同。
  • 提出了一種基于分類法的問題化當前方法的方法。
  • 提供了一系列可以推進多模態范式的研究方向。 本文其余部分的組織結構如下:第二部分提供了關于各單模態領域基礎模型的背景;第三部分討論了GMMs的典型架構管道;第四部分描述了我們的分類法,將現有工作分類到分類法中,并利用分類法評論當前方法的優缺點;第五部分強調了多模態基礎范式中的關鍵挑戰;第六部分列出了實現真正通用模型的發展潛在研究機會;最后,第七部分總結了我們的研究發現。

典型的GMM架構管道

從輸入數據到輸出預測的典型GMM架構管道可以分為不同的階段,如下所述,并在圖2中進行了說明。以下小節將更詳細地描述這些不同的階段。

**輸入預處理

第一個模塊與數據預處理相關,其中來自不同模態的原始數據被轉換為可被通用學習模型消耗的形式。這包括不同的階段,如下所述:

**序列化/標記化

這一過程將文本、音頻、圖像等不同模態轉換為通用的數值格式(也稱為標記)。例如,在文本模態中,輸入文本被解析為標記,每個標記被映射到模型詞匯表中的一個數值ID。在視覺模態中,圖像被調整為固定大小的補丁(例如,在CLIP中為224 x 224像素【65】),并將對應的像素值存儲在數值張量中。在音頻模態中,原始音頻被轉換為頻譜圖表示,然后進一步切分為小的時間/頻率幀。在點云中,"最遠點采樣"(原始點云的代表性骨架采樣)、最近鄰和鄰接矩陣可以定位/簡化輸入數據【103】。這一步的主要目的是為編碼器準備數據。

**編碼

編碼器在高維空間中獲取輸入標記的數值表示,稱為嵌入。編碼器利用預定義的知識(通過訓練的凍結模型)準確地將輸入標記定位在支持學習的高維語義空間中。對于文本模態,任何在大規模文本語料庫上訓練的語言模型(LLM)都可以作為有效的嵌入模型。CLIP和CLIP-VIT【65】系列模型是編碼視覺信息(包括圖像和視頻幀)的強有力候選者。大型音頻模型如WHISPER【66】用于編碼音頻模態。上述所有編碼器都是特定模態的,通常分別訓練,導致不同編碼器生成的表示(嵌入)之間可能存在差異。IMAGEBIND【19】是一種潛在的解決方案,它學習跨越六種模態(包括圖像、文本、音頻、深度、熱成像和慣性測量單元數據)的聯合嵌入。諸如NEXT-GPT等GMMs利用IMAGEBIND來編碼其輸入模態。此外,最近的GMMs,如META-TRANSFORMER【103】和ONELLM【22】,已經表明,任何經過良好預訓練的Transformer都可以作為通用的跨模態編碼器。

**投影

投影將編碼器的表示(嵌入)轉換為通用模型可理解的新空間。通常,LLM被用作通用模型;因此,投影器將原始嵌入轉換為語言空間。雖然序列化、標記化和編碼是標準化的,但投影步驟在不同模型之間有所不同,通常是可訓練的組件。投影可以從簡單的全連接線性層到復雜的卷積操作不等。它還通過交叉注意力和其他精妙機制對齊不同模態特定的表示。

**** 通用學習**

來自輸入預處理模塊的不同模態的統一表示被送入第二個模塊,即通用/主干模型,該模型通過多個神經網絡層在共享語義空間中執行表示學習和推理。在多模態學習中,通常使用預訓練/微調的LLM作為通用模型(例如,OFA中的BART【84】,ONELLM中的LLAMA-2【22】)。這主要有兩個原因:(i)與其他模態不同,語言模型在各種通用任務上已經在大量數據上進行了廣泛訓練,從而形成了一個強大的知識模型;(ii)輸入和輸出交互大多以文本形式進行,因此使用LLM作為核心模型并將其他模態圍繞其對齊是合理的,而不是反過來。

**** 輸出解碼**

在最后一個模塊中,數據后處理階段將學習到的多模態表示轉換為特定模態/任務的輸出。解碼器利用多模態編碼器表示的豐富融合,生成具有跨模態理解背景的任務特定輸出。對于僅文本輸出,可以利用標準的Transformer解碼器(具有注意力、交叉注意力和多層感知器(MLP)層),共享模型可以接受不同類型的輸入并適應各種任務的文本生成。對于圖像生成,使用擴散解碼器模型如Stable Diffusion(SD)【72】;對于音頻合成,使用AudioLDM【53】。

付費5元查看完整內容

生成式人工智能(GenAI)在近年來取得了顯著進展,并在計算機視覺和計算設計等不同領域的各種生成任務中表現出色。許多研究人員嘗試將GenAI集成到可視化框架中,利用其卓越的生成能力來執行不同操作。同時,近期在GenAI領域的重大突破,如擴散模型和大型語言模型,也極大地提升了GenAI4VIS的潛力。 從技術角度來看,本文回顧了以往利用GenAI的可視化研究,并討論了未來研究的挑戰與機遇。具體而言,我們涵蓋了不同類型的GenAI方法在不同可視化任務中的應用,包括序列生成、表格生成、空間生成和圖生成技術,并將這些任務總結為四個主要階段:數據增強、視覺映射生成、風格化和交互。對于每個具體的可視化子任務,我們展示了典型的數據和具體的GenAI算法,旨在提供對最新GenAI4VIS技術及其局限性的深入理解。 此外,基于綜述,我們討論了評估、數據集以及端到端GenAI與生成算法之間差距這三個主要方面的挑戰和研究機會。通過總結不同的生成算法、它們的當前應用及其局限性,本文旨在為未來的GenAI4VIS研究提供有用的見解。

引言

VizDeck [1]。可視化是通過渲染空間或抽象數據的圖形表示來輔助探索性數據分析的過程。最近,許多研究人員嘗試將人工智能(AI)應用于可視化任務[2, 3, 4, 5, 6]。特別是由于可視化本質上涉及對原始數據的表示和交互,許多可視化研究人員開始采用快速發展的生成式人工智能(GenAI)技術,這是一種通過學習現有的人造樣本生成合成內容和數據的AI技術[7, 8]。近幾年,GenAI在人工智能領域嶄露頭角,對各種研究和應用領域如工件設計和交互設計產生了深遠而廣泛的影響(例如[9, 10, 11])。 最近,多模態AI生成模型如Stable Diffusion [12]或DaLL-E 2 [13]使得沒有傳統藝術和設計技能的普通用戶可以通過簡單的文本提示輕松生成高質量的數字繪畫或設計。在自然語言生成方面,大型語言模型如GPT [14]和LLaMa [15]也展示了驚人的對話、推理和知識嵌入能力。在計算機圖形學領域,最近的模型如DreamFusion [16]也在3D生成方面展示了令人印象深刻的潛力。GenAI的獨特優勢在于其靈活的能力,可以基于從現實世界數據中隱含獲得的知識進行數據建模和設計生成。這一特性使GenAI成為一種變革力量,能夠減輕傳統計算方法的工作負擔和復雜性,并通過比以往方法更具創意的生成結果擴展設計的多樣性。 GenAI的巨大潛力在其增強和簡化數據可視化過程中的操作能力中尤為明顯。從數據處理到映射階段及其后,GenAI可以在數據推理和增強、自動可視化生成以及圖表問答等任務中發揮關鍵作用。例如,自動可視化生成在當前的GenAI方法浪潮之前一直是研究重點,為非專業用戶提供了一種有效進行數據分析和創建視覺表示的方法(例如[17, 18])。傳統上,自動可視化方法依賴于基于設計原則的專家設計規則[19]。然而,這些方法受到基于知識系統的限制,難以在復雜規則或過于簡化的目標函數中全面整合專家知識[20]。GenAI的出現引入了一種范式轉變,不僅提高了效率,還在一個前所未有的技術進步時代提供了一種更直觀和可訪問的可視化方法。

盡管GenAI表現出色,但在可視化應用中它可能面臨許多挑戰,因為可視化有其獨特的數據結構和分析需求。例如,可視化圖像的生成與自然或藝術圖像的生成有顯著不同。首先,GenAI在可視化任務中的評估比自然圖像生成更復雜,因為需要考慮許多超出圖像相似性的因素,如效率[21]和數據完整性[22]。其次,與在具有簡單注釋的大型數據集上訓練的通用GenAI任務相比,可視化任務的多樣性和復雜性需要更復雜的訓練數據[23],這更難以策劃。第三,傳統可視化管道與強規則約束之間的差距使得與端到端GenAI方法的完全整合變得困難。這些獨特的特性使得利用最新的通用預訓練GenAI模型來實現特定可視化生成變得不那么直接。因此,了解以前的工作如何利用GenAI進行各種可視化應用,面臨的挑戰是什么,尤其是如何調整GenAI方法以適應這些任務是很重要的。

雖然之前的一些綜述涵蓋了AI在可視化中的一般應用[3],但據我們所知,沒有研究專門集中在綜述GenAI方法在可視化中的應用。本文廣泛綜述了文獻并總結了為可視化開發的AI驅動生成方法。我們根據具體任務將各種GenAI方法分類,這些任務對應于可視化生成的不同階段。通過這種方式,我們收集了81篇關于GenAI4VIS的研究論文。我們特別關注在特定任務中使用的不同算法,希望幫助研究人員理解最新技術的發展及其挑戰。我們還討論并突出潛在的研究機會。 本文的結構如下。第二部分概述了我們綜述的范圍和分類,并定義了關鍵概念。從第三部分到第六部分,每一部分對應于GenAI在可視化管道中的一個階段。具體來說,第三部分討論了GenAI在數據增強中的應用。第四部分總結了利用GenAI進行視覺映射生成的工作。第五部分重點介紹了GenAI如何用于風格化和與可視化的交流。第六部分涵蓋了支持用戶交互的GenAI技術。第三至第六部分的每個小節涵蓋了該階段中的一個特定任務。為了全面理解當前GenAI方法如何處理特定結構的數據以及在特定任務中仍然存在的挑戰,小節的結構分為兩部分:數據和算法以及討論。最后,第七部分討論了未來研究的主要挑戰和研究機會。

范圍與分類

范圍與定義

生成式人工智能(GenAI)是一種通過分析訓練樣本,學習其模式和分布,然后創建逼真仿制品的AI技術。GenAI利用生成建模和深度學習(DL)的進步,通過利用現有的文本、圖形、音頻和視頻等媒體,在大規模上生成多樣化的內容[7, 8]。GenAI的一個關鍵特征是通過從數據中學習而不是通過顯式編程來生成新內容。

** GenAI方法分類**

盡管生成目標在文本、代碼、多媒體到3D生成等不同領域有所不同,但生成的具體算法實際上依賴于數據結構,這些數據結構在不同領域中表現出共同的特征。特別是在GenAI4VIS應用中,基于數據結構的分類可以促進對不同可視化任務中涉及的不同類型數據的算法的更具體理解。這里,我們概述了與數據可視化相關的典型數據結構的不同類型GenAI。

  • 序列生成:此類別包括有序數據的生成,例如文本、代碼、音樂、視頻和時間序列數據。序列生成模型,如LSTMs和Transformers,可用于創建具有順序或時間結構的內容。
  • 表格生成:此類別涵蓋以行和列形式生成結構化數據,如電子表格或數據庫表。應用包括數據增強、匿名化和數據插補。
  • 圖生成:此類別涉及生成圖和網絡結構,如社交網絡、分子結構或推薦系統。像圖神經網絡(GNNs)和圖卷積網絡(GCNs)這樣的模型可以用來生成或操作圖結構數據。
  • 空間生成:此類別涵蓋2D圖像和3D模型的生成。這些數據具有在歐幾里得空間中進行2D或3D投影的空間數據的共同特征,可以表示為具有2D/3D坐標的像素、體素或點。2D生成包括圖像合成、風格遷移和數字藝術,而3D生成涵蓋計算機圖形、虛擬現實和3D打印。像GANs、VAEs和PointNet [24]等技術可以用于創建2D和3D內容。 GenAI4VIS任務分類

為了對收集到的文章進行分類和組織,我們借鑒了描述不同基本階段的經典可視化管道[25]。然而,由于GenAI被應用于不同于傳統操作的更廣泛場景中,我們也修改了該管道以涵蓋一些最新的研究主題,包括數據增強、視覺映射生成、風格化和交互。值得注意的是,數據轉換部分被概括為數據增強的概念,這一術語靈感來自McNabb等人的研究[26]。此外,由于很少有GenAI用于可視化的工作專注于基本視圖轉換,我們將此部分替換為更廣泛的風格化與交流概念。在不同階段下,我們進一步將工作分類為具體任務,如圖1所示。

  • 數據增強:數據增強是指改善數據質量或完整性,或增強數據的特征表示以便后續可視化的過程。這可以包括數據增強、嵌入或其他變換,使其更適合可視化。
  • 視覺映射生成:這是指使用算法和軟件工具自動生成可視化,而無需大量手動干預。自動視覺映射生成允許用戶利用如何創建適當可視化的常識來減少工作量和人為違反設計原則的情況。
  • 風格化:擴展了[27]中提出的呈現概念,我們在可視化中定義了風格化,這涉及應用設計原則和美學選擇,使可視化更具吸引力和有效傳達信息。它包括關于顏色方案、字體、布局和其他視覺或文本元素的決策,以增強信息輔助可視化[20]。 -** 交互**:在數據可視化的背景下,交互是指用戶與可視化數據之間的動態參與和交流。它包括用戶操縱、探索和解釋視覺表示的能力。這可以涉及各種形式的交互,例如圖形交互(如縮放、平移、點擊)和自然語言交互(如圖表問答)。 這些任務的早期方法側重于具有復雜專家設計規則反映設計原則的基于規則的算法,這在許多應用(如色彩映射生成[28])中仍然有效。一些研究還利用基于優化的方法來最小化專家定義的顯式目標函數。然而,這些類型的方法與GenAI方法不同,因為它們是自上而下的,并不從現實世界的數據中學習。為了縮小我們綜述的范圍,我們排除所有純粹基于規則或優化的生成算法。 ** 不同GenAI方法與任務的關系**

由于GenAI4VIS的廣泛多樣化應用,不同GenAI方法與任務之間沒有明確的一對一關系。然而,我們可以觀察到一些有趣的關聯。首先,序列生成主要應用于視覺映射或與交互相關的任務。這是因為如翻譯模型和最新的大型語言模型(LLMs)或視覺-語言模型在生成指定視覺映射的代碼序列或交互流程和輸出序列方面非常有用。其次,表格生成主要用于數據增強。這是因為具有屬性列的表格數據是可視化的最常見初始輸入數據,通過數據增強(如代理數據生成)可以為后續任務帶來好處。接下來,圖生成也主要用于數據增強,因為數據推理和增強可以促進圖數據的后續分析。然而,盡管其使用相對較少,它在視覺映射和風格化方面具有巨大潛力,因為圖結構(如知識圖譜或場景圖)可以優化視覺編碼和布局。最后,空間生成主要應用于數據增強和風格化任務。這是因為2D和3D數據(如圖像和體數據)也是VIS4AI和SciVis應用中常見的輸入類型,而將基本圖表修飾為風格化圖表則依賴于基于圖像的生成方法。圖2通過桑基圖展示了GenAI4VIS任務與方法之間的關系,并例示了不同方法涉及的具體數據類型。表1進一步列出了每種數據結構和任務的詳細方法。

付費5元查看完整內容

多任務學習(MTL)是一種學習范式,有效地利用任務特定和共享信息同時解決多個相關任務。與單任務學習(STL)相比,MTL提供了一系列優勢,增強了訓練過程和推理效率。MTL的主要優點包括流線型模型架構、性能提升和跨領域泛化能力。在過去二十年中,MTL已廣泛被認為是在包括計算機視覺、自然語言處理、推薦系統、疾病預測與診斷及機器人技術等多個領域中,一種靈活有效的方法。本綜述全面概述了MTL的演變,涵蓋了從傳統方法到深度學習乃至最新趨勢的預訓練基礎模型的技術層面。我們的綜述有條不紊地將MTL技術分類為五個關鍵領域:正則化、關系學習、特征傳播、優化和預訓練。這種分類不僅按時間順序概述了MTL的發展,還深入探討了每個類別內的各種專門策略。此外,綜述揭示了MTL如何從處理固定任務集合轉變為不受任務或模態限制的更靈活方法。它探討了任務可提示和任務不可知訓練的概念,以及零樣本學習的能力,這些都釋放了這一歷史上備受推崇的學習范式的未開發潛力。總的來說,我們希望這份綜述能為研究社區提供自1997年以來MTL進展的全面概覽,直至2023年。我們討論了當前挑戰,并展望未來的可能性,從廣泛的角度揭示了MTL研究的機遇和潛在途徑。這個項目可以在 //github.com/junfish/AwesomeMultitask-Learning 公開獲取。

在介紹中,我們希望在回顧多任務學習(MTL)的方法論之前回答以下五個研究問題(RQs): * RQ1:多任務學習的概念和定義是什么?(見§ 1.1) * RQ2:多任務學習如何從其他學習范式中區分出來?(見§ 1.2) * RQ3:在學習場景中使用多任務學習的動機是什么?(見§ 1.3) * RQ4:多任務學習的有效性依賴于哪些基本原理?(見§ 1.4) * RQ5:我們的綜述與以往的研究有何不同?(見§ 1.5)

在§ 1.1中,我們逐步介紹多任務學習(MTL),從廣義上開始,最終給出一個正式定義。隨后,§ 1.2探討了MTL在機器學習(ML)領域中的定位,與轉移學習(TL)、少樣本學習(FSL)、終身學習、多視圖學習(MVL)等相關范式進行比較。§ 1.3深入探討了采用MTL的動機,從明顯和微妙的角度提供見解,同時也討論了MTL如何惠及相關任務。在§ 1.4中,我們更深入地探討了支撐MTL的基本機制和理論,具體包括:1) 正則化,2) 歸納偏見,以及3) 特征共享,為理解其基本原理提供了解釋。最后,§ 1.5回顧了關于MTL的現有綜述,強調我們綜述的獨特貢獻,并為本文的其余部分制定了一個結構化的路線圖。我們綜述的結構在圖2中描述。在深入本綜述之前,讀者可以快速參考表1,了解與數據集、機構和新提出的方法無關的首字母縮寫詞列表,而數學符號概述則提供在表3和表6中。

在過去幾十年中,MTL的日益流行在圖3中得到了明顯體現,該圖顯示了與關鍵詞搜索“allintitle: 'multitask learning' OR 'multi-task learning'”相關的論文數量的趨勢,數據來源于谷歌學術。正如其名稱所示,MTL是ML的一個子領域,在此多個任務被共同學習。通過這種方式,我們希望利用這些相關任務之間的有用信息,并打破傳統的各任務獨立執行的做法。在單任務學習(STL)中,手頭任務的特定數據是支撐學習者的唯一來源。然而,MTL可以方便地轉移從其他任務學到的額外知識。MTL的本質在于通過結合數據資源和共享知識,利用任務之間的共識和補充信息。這揭示了一種更好的學習范式,可以減少內存負擔和數據消耗,并提高訓練速度和測試性能。例如,同時學習圖像中的單眼深度估計(測量到相機的距離)(Eigen等,2014年)和語義分割(為每個像素值分配一個類別標簽)(傅克勝和梅玉,1981年)是有益的,因為這兩個任務都需要感知有意義的對象。隨著實驗和理論分析持續驗證其有前途的結果,MTL已變得越來越普遍。例如,使用面部ID解鎖iPhone是一個典型但不易察覺的MTL應用,涉及同時定位用戶的面部和識別用戶。通常,當我們在優化階段嘗試處理兩個或更多的目標時,就會發生多任務處理。 因此,即使在執行帶有正則化的STL時,MTL也無處不在于ML中。這可以理解為有一個目標任務和一個額外的人為任務,例如通過?2正則化器學習受限模型或通過?1正則化器學習簡約模型。這些假設偏好可以作為歸納偏見,增強歸納學習者(Caruna, 1993)。在MTL的早期探索中(R. Caruana, 1997),所涉及任務提供的額外信息被視為其他任務的特定領域歸納偏見。由于從其他任務收集訓練信號比從模型設計或人類專業知識獲得歸納偏見更實際,因此我們可以通過這種MTL范式增強任何ML模型。 動機和好處: MTL可以從以下五個具有不同好處的角度受到激勵:認知/社會心理學、數據增強、學習效率、現實世界場景和學習理論。

從心理學角度看,人類天生具有適應新問題和環境的靈活性,因為人類學習過程可以將一種經驗中的知識轉移到另一種經驗中(Council等,2000)。因此,MTL的靈感來自于模擬這一過程,賦予模型多任務處理的潛力。巧合的是,這種知識轉移也發生在組織之間(Argote等,2000)。已證明,具有更有效知識轉移的組織更具生產力,并且更有可能生存下來。這些在其他領域的轉移或互惠的先前成功鼓勵了ML中任務的聯合學習(R. Caruana, 1997)。

在大數據時代之前,現實世界的問題通常由小型但高維的數據集表示(樣本數 < 特征數)。這種數據瓶頸迫使早期方法學習一個稀疏結構的模型,總是導致對數據不足問題的簡約解決方案。然而,MTL的出現是為了聚合來自不同領域或任務的標記數據,以擴大訓練數據集,對抗過擬合。

追求效率和效果也是動機之一。MTL可以將來自不同來源的數據聚合在一起,多任務的聯合訓練過程可以節省計算和存儲資源。此外,性能提升的潛力使其在研究社區中廣受歡迎。簡而言之,可以從多源數據中學習任何任務的通用表征,并在學習成本和性能方面惠及所有任務。

由于大多數現實世界問題自然是多模態或多任務的,MTL被提出來補救STL只單獨模擬部分問題而達到的次優。例如,預測阿爾茨海默病(AD)生物標志物對輕度認知障礙(MCI)風險和臨床診斷的進展同時基于多模態數據,如計算機斷層掃描(CT)、磁共振成像(MRI)和正電子發射斷層掃描(PET)(H. Chen等,2022;Jie等,2015;Kwak等,2018)。自動駕駛是另一個例子,也涉及多個子任務來計算最終預測(Chowdhuri等,2019;Z. Yang等,2018),包括識別周圍物體、根據交通條件調整最快路線、效率與安全之間的平衡等。

從學習理論的角度看,已證明無偏學習是不可能的(Mitchell,1980),因此我們可以通過使用相關任務的額外訓練信號來激發MTL。通常,MTL是通過多任務協助實現歸納轉移的方式之一,它可以提高學習速度和泛化能力。具體來說,在多任務聯合訓練過程中,某些任務可以從其他相關任務獲得歸納偏見,這些較強的歸納偏見(與通用正則化器相比,例如?2)能夠實現知識轉移,并在固定訓練數據集上產生更多的泛化能力。換句話說,與任務相關的偏見使學習者更傾向于可以解釋多個任務的假設,并防止特定任務過擬合。

機制與解釋。 在本節中,我們將探討三個關鍵機制——正則化、歸納偏見和特征共享——這些機制揭示了MTL如何操作以在多個任務中實現性能增強。

正則化。在MTL中,總損失函數是針對每個任務的多個損失項的組合。相關任務充當正則化器的角色,增強了跨任務的泛化能力。MTL模型的假設空間因同時處理多個任務而被限制在更狹窄的范圍內。因此,對假設空間這種約束減少了模型復雜性,減輕了過擬合的風險。

歸納偏見。共訓練任務的訓練信號由于它們共享的領域信息而充當相互歸納偏見。這些偏見在訓練期間促進跨任務知識轉移,引導模型偏好與任務相關的概念而不是任務本身。因此,這擴展了模型的視野,超越單一任務,增強了其對未見分布(OOD)數據的泛化能力。

特征共享。MTL可以在相關任務之間實現特征共享。一種方法涉及選擇重疊特征并最大化其在所有任務中的利用率。這被稱為“竊聽”(Ruder,2017),考慮到某些特征可能對特定任務不可用,但可以由相關任務學習的特征替代。另一種方式是將不同任務提取的所有特征合并在一起;這些特征可以通過線性組合或非線性轉換在任務之間整體使用。

總的來說,通過正則化、歸納轉移和特征共享,MTL可以是提升ML模型在多個任務上性能的一種高效且有效的方式。 貢獻與亮點。

現有綜述。Ruder (2017) 的研究是MTL的先鋒綜述,提供了MTL的廣泛概述,并專注于2015年到2017年深度神經網絡的進展。Thung和Wee (2018) 從輸入輸出變體的分類學角度回顧了MTL方法,主要集中在2016年之前的傳統MTL。這兩篇綜述可以相輔相成。Vafaeikia等人 (2020) 是一份不完整的綜述,簡要回顧了近期的深度MTL方法,特別關注于選擇輔助任務以增強學習性能。Crawshaw (2020) 從應用的角度介紹了2020年之前的成熟和先進的MTL方法。Vandenhende等人 (2021) 提供了在密集預測任務中深度MTL的全面綜述,這些任務生成像素級預測,如在語義分割和單眼深度估計中。Y. Zhang和Yang (2021) 首先從基于特征和基于參數的方法的分類學提供了MTL模型的全面概述,但對深度學習(DL)方法的包含有限。值得注意的是,所有這些綜述都忽略了過去三到四年MTL的發展,即大型PFMs(預訓練基礎模型)時代(Bommasani等,2021;C. Zhou等,2023),以GPT系列模型為代表(Brown等,2020;OpenAI,2023;Radford等,2018,2019)。

路線圖。本綜述采用了一個組織良好的結構,區別于其前輩們,展示了MTL從傳統方法到DL以及由PFMs引入的創新范式轉變的演變之旅,如圖1所示。在§ 2.1中,我們提供了傳統MTL技術的全面總結,包括特征選擇、特征轉換、分解、低秩因子化、先驗共享和任務聚類。接下來,§ 2.2致力于探索深度MTL方法的關鍵維度,包括特征融合、級聯、知識蒸餾、跨任務注意力、標量化、多目標優化(MOO)、對抗訓練、專家混合(MoE)、基于圖的方法和NAS。§ 2.3介紹了PFMs的最新進展,分類基于任務可泛化微調、任務可提示工程以及任務不可知統一。此外,我們在§ 3中提供了MTL的雜項方面的簡潔概述。§ 4提供了寶貴的資源和工具,以增強研究人員和實踐者與MTL的互動。我們的討論和未來方向在§ 5中呈現,隨后是我們在§ 6中的結論。這篇綜述的目標是三重的:1) 為新來者提供MTL的全面理解;2) 作為工程實踐者的工具箱或手冊;3) 通過提供對MTL未來方向和潛力的洞察,激發專家的靈感。

付費5元查看完整內容

基礎模型通過在廣泛數據上預訓練并能夠適應多種任務,正在推動醫療保健領域的發展。它促進了醫療人工智能(AI)模型的發展,打破了有限AI模型與多樣化醫療實踐之間的矛盾。更廣泛的醫療場景將從醫療基礎模型(HFM)的發展中受益,提高其高級智能醫療服務。盡管HFM的廣泛部署即將到來,但目前對它們在醫療領域的工作方式、當前挑戰以及未來發展方向的理解還不清晰。為了回答這些問題,本綜述提供了對HFM挑戰、機遇和未來發展方向的全面而深入的考察。它首先進行了包括方法、數據和應用在內的HFM全面概述,以快速掌握當前進展。然后,它對構建和廣泛應用醫療基礎模型的數據、算法和計算基礎設施中存在的挑戰進行了深入探索。本綜述還識別了該領域中未來發展的新興和有前景的方向。我們相信,這份綜述將增強社區對HFM當前進展的理解,并為該領域未來的發展提供寶貴的指導。最新的HFM論文和相關資源將在我們的網站上維護。 在過去的十年里,隨著人工智能(AI)[1]特別是深度學習(DL)[2]的發展,醫療技術經歷了革命性的進步[3]-[5]。通過學習醫療數據,AI模型能夠解鎖數據內部的相關信息,從而協助醫療實踐。在一些影響力大的臨床疾病中,包括胰腺癌[6]、視網膜疾病[7]和皮膚癌[8]等,AI模型已經獲得了專家級的表現,顯示出光明的未來。然而,在此之前,針對特定醫療任務的專家AI模型與多樣化的醫療場景和需求之間仍存在很大的矛盾,這阻礙了它們在廣泛醫療實踐中的應用[5]。因此,存在一個開放性問題:“我們能否構建AI模型,以惠及各種醫療任務?”

如圖1所示,最近對基礎模型的研究使AI模型能夠學習通用能力,并應用于廣泛的醫療場景,對這一問題給出了有希望的答案[9]-[12]。在醫療AI相關的子領域中,包括語言、視覺、生物信息學和多模態,醫療基礎模型(HFM)已顯示出令人印象深刻的成功。a) 語言基礎模型(LFM)或稱為大型語言模型(LLM)[13]、[14],為患者和臨床醫生帶來了興奮和關注[13]。它學習了大規模的醫療語言數據,并在醫學文本處理[15]和對話[16]任務中表現出非凡的性能。b) 視覺基礎模型(VFM)在醫學圖像中展示了顯著的潛力。針對特定的模式[17]、[18]、器官[19]和任務[20]、[21]的VFM顯示了它們對潛在醫療場景的適應性和通用性能。c) 生物信息學基礎模型(BFM)幫助研究人員解鎖生命的秘密,為我們在蛋白質序列、DNA、RNA等場景提供了前景[22]-[26]。d) 多模態基礎模型(MFM)[27]-[29]為通用HFM[10]、[30]、[31]提供了一種有效的方式。它整合了來自多種模態的信息,從而實現了解釋各種醫學模態和執行多種模態依賴任務的能力[11]、[31]、[32]。因此,這些模型為解決復雜的臨床問題和提高醫療實踐的效率和效果提供了基礎,從而推動了醫療領域的發展[11]。

HFM的出現源于醫療數據的持續積累、AI算法的發展和計算基礎設施的改進[9]、[12]。然而,數據、算法和計算基礎設施的當前發展不足仍是HFM面臨的各種挑戰的根源。醫療數據的倫理、多樣性、異質性和成本使得構建足夠大的數據集以訓練廣泛醫療實踐中的通用HFM[12]、[33]變得極為困難。AI算法在適應性、容量、可靠性和責任性的需求進一步使其難以應用于真實場景[34]、[35]。由于醫療數據的高維度和大規模(例如,3D CT圖像、整張幻燈片圖像(WSI)等),計算基礎設施的需求遠大于其他領域,無論是在消耗[10]、[12]還是環境[36]方面都極為昂貴。

總的來說,推動醫療保健的基礎模型為我們展示了一個充滿機會和挑戰的新未來。在這篇綜述中,我們從一個全面的視角提出了當前HFM面臨的以下問題:1) 盡管基礎模型取得了顯著的成功,它們在醫療保健中的當前進展是什么?2) 隨著基礎模型的發展,它們面臨哪些挑戰?3) 對于HFM的進一步發展,哪些潛在的未來方向值得我們關注和探索?上述問題的答案將構建對HFM當前狀況的概覽,并為其未來的發展提供清晰的視角。由于HFM的出現,近年來已孵化出數百篇論文。因此,回顧所有這些論文和所有方面在有限的論文空間內是具有挑戰性的。在本文中,我們專注于從2018年(基礎模型時代的開始[9])到2024年醫療領域的語言、視覺、生物信息學和多模態基礎模型的當前進展,以及HFM的挑戰和未來方向。我們希望這篇綜述能幫助研究人員迅速掌握HFM的發展,并激發他們的創造力,以進一步推動醫療保健的邊界。 A. 醫療保健中基礎模型的簡史

根據Bommasani等人[9]的定義,在這篇綜述中,“基礎模型”是指在廣泛數據上預訓練并能夠適應廣泛任務的任何模型。基礎模型時代的另一個社會學特征[9]是廣泛接受將某一基礎AI模型應用于大量不同任務。基礎模型時代的代表性轉折點是2018年底自然語言處理(NLP)中的BERT模型[37],此后,預訓練模型成為NLP的基礎,然后擴散到其他領域。 在醫療保健領域的AI也在由特定目標逐漸轉向一般目標[10],這是由基礎模型的發展所驅動的。在BERT[37]之后的2019年初,BioBERT[38]公開發布,實現了醫療保健中的LFM。到2022年底,ChatGPT[39]憑借其強大的多功能性,使更多與醫療相關的從業者受益于基礎模型,從而吸引了他們的注意并進一步激發了HFM研究的熱潮。僅在2023年8月,就發布了200多項與ChatGPT相關的醫療研究[12]。對于VFMs,眾多初步工作[40]、[41]專注于獨立的預訓練或遷移學習。由于SAM[20]的廣泛影響,通用視覺模型[42]–[44]在醫療保健中引發了研究熱潮。在生物信息學方面,AlphaFold2[25]在2020年蛋白質結構預測的CASP14中獲得第一名,激發了對BFMs的興趣,并推動了RNA[45]、DNA[46]、蛋白質[25]等的研究。2021年初,OpenAI構建了CLIP[47],實現了視覺和語言的大規模學習,取得了顯著的表現。由于醫療數據的天然多模態屬性,這項技術迅速應用于醫療保健[48],并整合了來自圖像、組學、文本等的多模態數據。到2024年2月為止,所回顧的四個子領域中HFM的代表性論文數量呈指數增長(圖2),除了上述典型技術和事件外,一些新興的范式和技術在HFM中也在迅速發展。

B. 相關綜述比較及我們的貢獻

在我們廣泛的搜索中,我們發現了17項與醫療基礎模型相關的代表性綜述,應注意現有綜述在HFMs不同方面提供了有見地的想法[10]–[14]、[32]、[48]–[58]。與這些作品相比,本綜述進行了更全面的HFM概述和分析,包括方法、數據和應用,并對挑戰和未來方向進行了深入的討論和展望。具體來說,它具有以下獨特優勢:1) 系統的HFM子領域分類和研究。本綜述涵蓋了與HFM相關的四個子領域,包括語言、視覺、生物信息學和多模態。與現有的綜述[11]、[13]、[14]、[32]、[48]、[49]、[51]–[54]相比,它提供了對整個HFM領域更全面的視角。2) 對HFM方法的深入分析。本綜述深入分析了從預訓練到適應不同子領域的方法,貫穿了在醫療保健中構建通用AI模型的過程。與現有的綜述[32]、[48]、[49]、[55]、[58]相比,它提供了HFM方法的系統總結。3) 對不同屬性HFMs的廣泛回顧。本綜述介紹了整個過程的技術和HFMs,并不局限于某些特殊屬性,如“大”[12]。與現有的綜述[12]、[56]相比,它提供了具有不同屬性HFMs的廣泛視角。4) 對HFM不同關注點的全面和更深入的探索。本綜述探討了包括方法、數據、應用、挑戰和未來方向在內的全面內容。與現有的綜述[10]、[56]、[57]相比,它為HFM提供了一個完整的視角,使讀者能夠獲得更深入的理解。

本綜述提供了對醫療基礎模型的洞察,我們的貢獻如下列出: 1. 方法的系統回顧(第二節):從2018年到2024年(1月-2月)涉及HFMs的200篇技術論文被納入本綜述。我們為這些論文提出了一個新的分類,并在語言、視覺、生物信息學和多模態子領域的預訓練和適應方面進行了回顧。它為醫療基礎模型的潛在技術創新提供了洞察。 1. 數據集的全面調查(第三節):我們調查了HFM培訓可能使用的四個子領域中的114個大規模數據集/數據庫。它識別了醫療數據集當前的限制,并為HFM研究人員提供了數據資源指導。 1. 應用的全面概述(第四節):我們概述了當前HFM作品中的16個潛在醫療應用。它展示了HFM技術在醫療實踐中的當前發展,為未來在更多場景中的應用提供了參考。 1. 關鍵挑戰的深入討論(第五節):我們討論了與數據、算法和計算基礎設施相關的關鍵挑戰。它指出了HFM當前的不足,為研究人員提供了新的機會。 1. 對新興未來方向的遠見探索(第六節):我們期待HFM在其角色、實施、應用和重點方面的未來方向。它顯示了醫療AI從傳統范式到基礎模型時代的轉變,突出了在推動該領域發展方面具有前景的未來觀點。

付費5元查看完整內容

隨著近年來人工智能(AI)和機器人技術的發展,無人系統集群因其提供人類難以完成且危險的服務的潛力而受到學術界和工業界的極大關注。然而,在復雜多變的環境中學習和協調大量無人系統的動作和行動,給傳統的人工智能方法帶來了巨大的挑戰。生成式人工智能(GAI)具有復雜數據特征提取、轉換和增強的能力,為解決無人系統集群的這些難題提供了巨大的潛力。為此,本文旨在全面考察 GAI 在無人系統集群中的應用、挑戰和機遇。具體來說,我們首先概述了無人系統和無人系統集群及其使用案例和現有問題。然后,深入介紹各種 GAI 技術的背景及其在增強無人系統集群方面的能力。然后,我們全面回顧了 GAI 在無人系統集群中的應用和挑戰,并提出了各種見解和討論。最后,我們強調了無人系統集群中 GAI 的開放性問題,并討論了潛在的研究方向。

圖1:本文的總體結構。

近年來,無人系統(UVs)已成為一種顛覆性技術,為日常生活的各個領域帶來了革命性的變化,其應用范圍從包裹遞送、民用物聯網(IoT)到軍事用途[1, 2]。具體來說,無人車指的是可以在有限或無人干預的情況下運行的車輛、設備或機器,例如,車上沒有人類駕駛員或機組人員。得益于這一特殊屬性,UV 可用于在具有挑戰性或危險的環境中執行任務。一般來說,無人系統可分為無人飛行器(UAV)、無人地面車輛(UGV)、無人水面航行器(USV)和無人水下航行器(UUV)。正如其名稱所示,每種無人系統都是為特定任務和環境而設計的。例如,UAV 被廣泛用于航拍、環境和野生動物監測以及監視 [3, 4],而 UGV 則可用于運輸和炸彈探測等任務。不同的是,USV 和 UUV 分別用于水面和水下作業,包括海洋學數據收集、水下勘探和潛艇監視 [5,6]。

隨著近年來人工智能(AI)和機器人技術的發展,無人潛航器的概念已經發展到了一個全新的層次,即無人系統集群。從本質上講,無人系統集群是通過協調一組無人飛行器(如機器人、無人機和其他自主飛行器)來實現一個共同目標而設計的[7, 8]。實際上,無人集群中的每個系統都可以配備自己的傳感器、處理器和通信能力。為了讓它們高效地協同工作,人們采用了人工智能和機器人學的先進技術來協調它們的行為,并執行自主導航、自組織和故障管理等復雜任務 [7,9]。因此,與傳統的無人系統相比,無人系統集群擁有各種優勢。特別是,它們可以根據具體任務和要求動態調整車輛數量,從而提供可擴展性和操作靈活性。此外,如果無人系統群中有幾個無人系統無法運行,剩余的無人系統仍然可以協同工作,確保任務成功。這對于需要高彈性和魯棒性的任務尤其有用。最后,通過允許無人系統集群相互學習和協作,無人系統集群可以實現集群智能,即所謂的集體智能[10, 11],從而大大提高運行效率和可靠性。

雖然在無人系統集群中發揮著重要作用,但傳統的人工智能技術仍面臨諸多挑戰。特別是,這些技術需要大量標注的訓練數據,而且只能在特定環境下才能獲得良好的性能。因此,它們極易受到環境的動態性和不確定性的影響,而環境的動態性和不確定性正是無人系統集群的特點,例如無人系統之間的動態連接、風和洋流的影響以及物聯網應用中傳感器的不確定性和多樣性。此外,傳統的人工智能方法在具有大量 UV 的復雜場景以及水下、偏遠地區和受災地區等具有挑戰性的環境中可能表現不佳。為了克服傳統人工智能技術面臨的這些挑戰,生成式人工智能(GAI)在理解、捕捉和生成復雜的高維數據分布方面具有開創性的能力,因此最近在文獻中被廣泛采用。鑒于 GAI 在 UV 集群中的潛力,本文旨在從不同角度全面探討 GAI 在實現群體智能方面的挑戰、應用和機遇。

文獻中有一些調查側重于人工智能在 UV 中的應用[12, 13, 14, 15]。例如,文獻[12]的作者研究了深度學習、深度強化學習和聯邦學習等傳統人工智能技術在基于無人機的網絡中的應用,而文獻[13]的作者則對機器學習(ML)在無人機操作和通信中的應用進行了更全面的調查。不同的是,在文獻[15]中,作者綜述了物聯網網絡中人工智能無人機優化方法,重點關注人工智能在無人機通信、群體路由和聯網以及避免碰撞方面的應用。同樣,文獻[7]也討論了 AI/ML 在無人機群體智能中的應用。值得注意的是,上述調查和其他文獻主要關注無人機和傳統人工智能方法。據我們所知,目前還沒有任何文獻對無人機群的 GAI 發展進行全面的調查。本文的主要貢獻可歸納如下。

  • 介紹了 UV 集群的基本原理,包括其在空中、地面、水面和水下領域的設計和運行以及實際應用案例。
  • 深入概述了常見的 GAI 技術,包括生成對抗網絡 (GAN)、變異自動編碼器 (VAE)、生成擴散模型、變換器和歸一化流。我們還詳細介紹了每種技術在 UV 群體中的主要優勢和挑戰。
  • 全面回顧了 GAI 在 UV 集群各種問題中的應用,如狀態估計、環境感知、任務/資源分配、網絡覆蓋和點對點通信以及安全和隱私。通過回顧這些 GAI 應用,我們深入了解了如何將 GAI 應用于解決 UV 集群中新出現的問題。
  • 介紹了 UV 集群中 GAI 的基本開放問題和未來研究方向,包括可擴展性、自適應 GAI、可解釋群體智能、安全/隱私和異構群體智能。

本文的整體結構如圖 1 所示。第二節介紹了 UV 集群的基本原理。第三節深入概述了不同的 GAI 技術及其優勢。然后,第四節深入探討了 GAI 在 UV 集群新問題中的應用。第五節強調了 GAI 在UV集群中的未決問題和未來研究方向。此外,表 I 列出了本文中使用的所有縮寫。

圖2:UV系統的基礎結構及其應用。

圖 5:探索創新范圍:本圖展示了 12 個突破性的模型結構,每個方面都有兩種不同的方法,以展示 GAI 在提高性能和應對UV集群挑戰方面的各種應用。每個模型都包含獨特的策略和解決方案,全面展示了該領域的技術進步。

狀態估計

狀態估計對 UVs 集群的應用至關重要,尤其是在自動駕駛和交通估計等領域。在導航或軌跡規劃過程中,位置、速度和方向等狀態變量對橫向決策起著至關重要的作用 [128]。然而,系統測量和機器人動態的隨機性會導致實際狀態的不確定性。因此,狀態估計的主要目標是根據現有的時間觀測結果推導出狀態變量的分布 [127]。

將 GAI 集成到 UV 的狀態估計中提供了廣泛的創新方法,每種方法都是針對特定挑戰和操作環境量身定制的。例如,在應對 UGV 交通狀態估計中數據不足的挑戰時,[121] 中的作者利用圖嵌入 GAN,通過捕捉道路網絡中的空間互連,為代表性不足的路段生成真實的交通數據。在這一提議的框架中,生成器使用類似路段的嵌入向量來模擬真實交通數據。同時,判別器會區分合成數據和實際數據,并對生成器進行迭代訓練,以優化這兩個部分,直到生成的數據在統計上與真實數據無異。與 Deeptrend2.0 等傳統模型[129]相比,這種方法不僅填補了數據空白,還大大提高了估計精度,平均絕對誤差的減少就是明證。交通狀態估計的這種進步凸顯了 GAI 在復雜交通場景中改善 UGV 導航和決策的潛力 [121]。

除標準 GAN 外,cGAN 也可用于根據原始測量結果生成相應的系統狀態估計變量 [123]。cGAN 框架采用傳感器的原始測量值作為條件約束,解決了在動態環境中準確估計多個無人機運動的難題。文獻[124]中的作者將 Social LSTM 網絡[130]的單個運動預測與 Siamese 網絡[131]的全局運動洞察相結合,實現了綜合運動狀態預測。這種方法在準確預測無人飛行器軌跡方面表現出色,這對有效的集群導航至關重要。通過有效地分離和融合單個運動和全局運動,基于 cGAN 的框架表現出色,與原始的 Social LSTM 相比,提高了多目標跟蹤的性能。

此外,VAE 在捕捉無人機無線信道中的時間相關性方面的應用凸顯了 GAI 在通信系統中的重要性,它通過生成真實、多樣的信道樣本,改善了信道狀態估計和信號清晰度[125]。這種探索延伸到了基于擴散的分數模型和深度歸一化流,用于生成復雜的狀態變量分布,展示了 GAI 以更靈活的方式建模和估計狀態的能力,從狀態變量(即位置、速度和方向)到這些分布的復雜高維梯度[126, 127]。

GAI 在 UV 集群狀態估計方面的多功能性體現在兩個方面:通過對抗機制生成缺失信息的能力和融合各種數據源進行綜合狀態分析的能力。這些能力可以在復雜的運行場景中實現更精確的狀態估計。

環境感知

UV 的環境感知通常是指飛行器實時感知和了解周圍環境的能力 [142]。這是 UV 集群實現自主導航和完成任務的關鍵技術。這種技術通常涉及使用激光雷達、攝像頭和毫米波雷達等傳感器與外部環境進行交互 [143]。GAI 的各種創新應用明顯推進了 UV 的環境感知領域,詳見表 III。例如,由于運動造成的運動模糊、不利的天氣條件和不同的飛行高度等內在限制,無人機經常捕捉到低分辨率的圖像。為解決這一問題,作者在 [132] 中介紹了一種名為 Latent Encoder Coupled Generative Adversarial Network(LE-GAN)的框架,旨在實現高效的高光譜圖像(HSI)超分辨率。LE-GAN 中的生成器使用短期光譜空間關系窗口機制來利用局部-全局特征并增強信息帶特征。判別器采用真實圖像和生成圖像的概率分布之間基于瓦瑟斯坦距離的損失。這種框架不僅提高了 SR 質量和魯棒性,而且通過學習潛空間中高分辨率 HSI 的特征分布,緩解了模式坍縮問題造成的光譜空間失真[132]。

除了通過提高遙感分辨率來改善 UV 的精度外,GAI 更常見的應用是生成合成數據集,這表明了數據不足導致模型精度降低的難題[138]。例如,一個名為軌跡 GAN(Trajectory GAN,TraGAN)的框架用于從高速公路交通數據中生成逼真的變道軌跡[133]。另一個基于 GAN 的框架名為 DeepRoad,用于自動駕駛系統的測試和輸入驗證 [134],通過生成不同天氣條件下的駕駛場景來提高測試的可靠性。VAE 也被用于生成更真實、更多樣的碰撞數據,以解決傳統數據增強方法的局限性 [136]。此外,結合 VAE 和 GANs 的圖像轉換框架可用于將模擬圖像轉換為真實的合成圖像,以訓練和測試變化檢測模型 [135,137],不過它們仍需要真實圖像作為參考。此外,[139] 中的作者介紹了一種利用文本到圖像擴散模型的方法,用于生成逼真、多樣的無人機圖像,這些圖像以不同的背景和姿勢為背景。通過合并背景描述和基于地面實況邊界框的二進制掩碼生成的 20,000 多張合成圖像,檢測器在真實世界數據上的平均精度提高了 12%。

GAI 的另一個應用領域是場景理解或字幕制作。這種方法包括使用 CLIP 前綴進行圖像字幕處理,將 UV 捕捉到的圖像的視覺內容轉化為準確的文本描述,以便在 UV 中進行決策[140]。另一種方法是部署生成知識支持變換器(GKST),通過融合來自不同車輛視角的圖像信息來增強特征表示和檢索性能。[141]. 這些技術的一個有趣方面是,它們能夠處理和解釋復雜的視覺輸入,提供與人類感知非常相似的上下文理解水平。這種能力在動態環境中尤為有益,因為在動態環境中,快速準確地解讀視覺數據對有效決策至關重要。

總之,GAI 的生成能力在 UV 的環境感知領域證明是非常寶貴的。從提高圖像分辨率到生成合成數據集、創建多樣化的測試環境以及推進場景理解,GAI 是推動 UV 演進和提高其理解周圍環境并與之互動的效率的基石技術。

自主程度

自主性是指系統在沒有人類干預的情況下執行任務或決策的能力[152]。自主水平代表了 UV 在完全依賴機載傳感器、算法和計算資源的情況下獨立運行的能力。在 UV 蜂群中,自主水平取決于各種因素,如任務的類型和復雜程度、規劃和執行路線的能力等 [153]。表 IV 說明了 GAI 的集成在推進這些自主能力方面的關鍵作用。

在 UV 集群合作戰略領域,GAI 的應用體現在生成對抗模仿學習(GAIL)與多智能體 DRL 的集成上。例如,作者在 [144] 中介紹了一種基于多智能體 PPO 的生成式對抗仿真學習(MAPPO-GAIL)算法,該算法采用多智能體近似策略優化來同時采樣軌跡,完善策略和價值模型。與傳統的 DRL 搜索算法相比,該算法將網格概率用于環境目標表示,將平均目標發現概率提高了 73.33%,而平均損壞概率僅降低了 1.11%。此外,GAIL 還可用于在虛擬環境中訓練無人機執行導航任務,從而適應復雜多變的場景 [146]。

此外,還提出了一種基于 VAE 的模型,名為 BézierVAE,用于車輛軌跡建模,特別是安全驗證。BézierVAE 將軌跡編碼到潛在空間,并使用貝塞爾曲線對其進行解碼,從而生成多樣化的軌跡。與傳統模型 TrajVAE 相比,BézierVAE 顯著減少了 91.3% 的重構誤差和 83.4% 的不平滑度[133],大大提高了自動駕駛車輛的安全性驗證[147]。在自主機器人調度方面,COIL 利用 VAE 生成優化的定時調度,大大提高了運行效率 [148]。最后,在多智能體軌跡預測中,考慮到意圖和社會關系的復雜性,采用了受條件 VAE 啟發的 GRIN 模型來預測智能體軌跡。雖然復雜系統面臨挑戰,如遵守物理定律等上下文規則,但可以通過使用特定解碼器或代理模型來近似這些限制,從而應對挑戰[149]。

在 UV 的路由規劃中,變壓器架構與 DRL 相結合,用于優化多個合作無人機的路由。與傳統算法相比,該方法性能優越,并行處理效率高,可持續獲得高回報 [150]。

增強 UV 的自主性對其獨立和合作的集群行動至關重要。GAI 的生成能力應用于多個方面,從生成新軌跡到完善路由策略,以及在不同場景中模仿智能體的路由行為。這些多樣化的應用展示了動態和適應性強的解決方案,對于 UV 在復雜多變的環境中高效、獨立地導航和運行至關重要。

任務/資源分配

在多智能體 UV 群的任務和資源分配領域,GAI 引入了有效的方法,提高了這些系統的效率和適應性。傳統方法通常依賴于固定算法和啟發式方法,但這些方法并不總能滿足動態和復雜環境的要求 [159]。如表 V 所示,GAI 為這些具有挑戰性的場景提供了必要的靈活性。

有人提出了一種基于 GAIL 的算法,用于為 DRL 重建虛擬環境,其中生成器生成專家軌跡,判別器將專家軌跡與生成的軌跡區分開來 [154]。這種方法可以創建一個接近真實世界條件的虛擬邊緣計算環境。它為計算資源分配多智能體 DRL 方法提供了探索和推斷獎勵函數的場所,同時避免了任意探索造成的對用戶體驗的損害。此外,一種基于自動編碼器的方法被應用到匈牙利算法中,以減輕數據速率矩陣中出現的相同權重造成的信息模糊問題,尤其是在蜂窩用戶(CU)和設備到設備用戶(D2DU)之間的帶寬和功率資源分配中[155]。該方法利用潛空間作為超參數,提供了一個最佳的重構成本矩陣,以協助資源分配決策。

此外,作者在 [156] 中提出了一種基于擴散模型的人工智能生成最優決策(AGOD)算法。該算法可根據實時環境變化和用戶需求進行自適應和響應式任務分配。正如深度擴散軟行為者批判(D2SAC)算法所展示的那樣,該算法通過整合 DRL 進一步提高了功效。與傳統的 SAC 方法相比,D2SAC 算法在任務完成率方面提高了約 2.3%,在效用收益方面提高了 5.15%[156]。傳統的任務分配方法假定所有任務及其相應的效用值都是事先已知的,而 D2SAC 則不同,它可以解決選擇最合適服務提供商的問題,因為任務是實時動態到達的。與傳統方法相比,D2SAC 在完成率和效用方面都有顯著的性能提升。

在聯合計算和通信資源分配領域,由于 UV 的獨立性質和電池限制,有效管理的重要性在 UV 中更加突出。文獻[157]中提出的基于擴散的模型提供了一種先進的方法,用于設計語義信息傳輸的最佳能源分配策略。該模型的一個主要優勢是能夠迭代改進功率分配,確保在 UV 群動態環境造成的不同條件下優化傳輸質量。在傳輸距離為 20 米、傳輸功率為 4 千瓦的條件下,這種基于擴散模型的人工智能生成方案超過了其他傳統的傳輸功率分配方法,如平均分配(名為 Avg-SemCom)和基于置信度的語義通信(Confidence-SemCom)[157],迭代次數約為 500 次,傳輸質量提高了 0.25。

另一方面,作者在論文[158]中提出結合 LLM 探索提升 GAI 在多智能體 UV 群任務和資源分配方面的能力。利用 LLM 先進的決策和分析能力,為每個用戶創建了獨立的 LLM 實例,以實現 "通過以下方式減少網絡能耗 "的初衷Δp=0.85W"轉化為一系列細節任務,如調整發射功率和信道測量。然后將結果提示給 LLM,由 LLM 添加后續任務并指示相關執行器采取行動。通過在 LLM 上的集成,無人機智能體成功地在 2 個回合內實現了省電目標。盡管進一步的仿真結果表明,當智能體數量增加時,當前的 GPT-4 在維持多個目標方面會遇到一些困難。這種整合標志著 UV 蜂群在自主性和功能性方面的顯著進步。

總之,GAI 大大推進了多智能體 UV 群的任務和資源分配領域。從創建生動的仿真環境供分配算法探索,到迭代調整分配策略和打破粗略的任務細節意圖,GAI 展示了處理動態環境和各種挑戰的強大能力。

網絡覆蓋和點對點通信

如第二節所述,UV 的一個關鍵應用是作為移動基站重建通信網絡[46, 47, 48, 49, 164]。在這種情況下,有效的定位策略至關重要,它能以有限的 UV 實現最大的用戶覆蓋范圍,從而確保無縫接入。此外,當 UV 蜂群以分層結構部署時,領導 UV 充當指揮中心,確保子 UV 之間的有效通信覆蓋對于任務分配和協作至關重要。如表 VI 所示,各種 GAI 可滿足高效網絡覆蓋和車對車(V2V)通信的需求。

雖然利用無人機作為移動站來提供動態無線通信中的臨時網絡鏈接正變得越來越流行,但由于無人機高度、移動模式、空間域干擾分布和外部環境條件等因素的不同,優化網絡可能非常復雜,這帶來了獨特的挑戰。為解決有限無人機的網絡覆蓋優化問題,作者在 [160] 中提出使用 cGAN。該框架包括一個用于建模和預測最佳網絡配置的生成器、一個用于評估這些配置在真實世界場景中的效率的判別器,以及一個用于適應性和可擴展性的編碼機制。基于 cGAN 的方法不僅保證了無人機的最佳定位,還簡化了計算復雜度。作者在文獻 [163] 中提出的另一種解決方案利用基于自我注意的變壓器來預測用戶的移動性,并改進空中基站的布置。變壓器模型能夠捕捉時空相關性并處理長輸入和輸出序列。與常規部署方案相比,基于變壓器的方案在覆蓋率方面取得了顯著提高,比常規方案提高了 31% 以上[167],比基于 LSTM 的方案提高了 9% 以上。

在對 UV 蜂群中的安全導航至關重要的 V2V 通信領域,車輛經常會通過轉發圖像來交流環境數據。然而,由于傳輸中斷、環境噪聲和車輛運動造成的噪聲,這些圖像可能會被破壞。為解決這一問題,作者在 [162] 中整合了用于圖像復原和網絡優化的 GDM。GDM 可使車輛通過減少數據傳輸和通信延遲,將傳輸的圖像恢復到原始質量。基于隨機微分方程的 GDM 具有迭代特性,善于完善車聯網網絡解決方案,特別是在路徑規劃等領域。例如,GDM 以初步路徑啟動優化,然后根據關鍵性能指標逐步改進。該過程利用這些指標梯度來引導路徑修改,以實現最優解。與傳統的 DQN 方法相比 [168],所提出的基于 GDM 的方法在 300 個歷時[162]的平均累積獎勵中實現了 100% 的增長。

總之,對于網絡覆蓋和可達性,GAI 可以直接生成定位策略,也可以充當編碼器,通過捕捉空間信息來增強傳統算法。在效率方面,GAI 可作為一個框架,利用語義信息減少數據傳輸,同時通過引導生成保持通信。然而,盡管這些發展代表了管理 UV 蜂群的飛躍,但仍有一些領域有待進一步探索。例如,[162] 中的作者提出了整合其他模式以提高通信效率的問題。這為未來研究在 UV 網絡中整合多模態數據處理提供了機會。這種探索可以大大提高這些技術對不同網絡拓撲結構和環境條件的適應性。此外,GAI 有可能促進 UV 蜂群部署中的自主決策,這為推動該領域的發展提供了一條大有可為的途徑。通過擴大 GAI 的應用范圍,研究人員可以針對各種復雜的現實世界場景進一步優化 UV。

安全/隱私

安全和隱私是 UV 蜂群的重要方面,尤其是在軍事和監控應用中。將 GAI 集成到這些領域可為增強系統安全性和確保隱私提供創新解決方案。如圖 6 所示,一個有趣的潛在應用是利用 GAI 生成虛假數據或模擬通信活動的能力來充當 "蜜罐",誤導潛在攻擊者并加強系統安全性[176]。LLM 生成的 "蜜罐 "可作為額外的保護層,傳播虛假信息,迷惑和誘捕攻擊者,從而增強蜂群的集體安全性。在蜂群網絡中創新性地使用語言處理技術,是保護自動駕駛汽車免受復雜網絡威脅的一個新領域。表七詳細介紹了 GAI 在 UV 蜂群安全和隱私保護中的應用。

自動駕駛 GAN(ADGAN)[169]是 GAI 在隱私保護領域的一個顯著應用。ADGAN 是一種基于 GAN 的圖像到圖像轉換方法,旨在保護車輛攝像頭位置數據的隱私。ADGAN 通過移除或修改圖像中的背景建筑物來實現這一目標,同時保留了識別交通標志和行人等其他物體的功能。語義通信是增強 UV 群安全性的有效手段,因為它能去除與任務無關的背景圖像。此外,ADGAN 引入了多判別器設置,提高了圖像合成性能,并提供了更強的隱私保護保障,可抵御更強大的攻擊者[169]。另一個類似的應用是基于 GAN 的框架,該框架通過改變可識別的特征來保護街景圖像中的身份隱私,例如用逼真的背景替換移動的物體 [172]。

在軌跡數據隱私方面,TrajGAN 通過生成合成軌跡來保護軌跡數據的隱私[170]。這些軌跡遵循與真實數據相同的分布,同時掩蓋了用戶的個人位置和身份。它們保留了真實數據的統計屬性,并捕捉到了人類的移動模式。不過,TrajGANs 在創建密集的軌跡表示時可能會面臨挑戰,特別是在時間戳和路段方面,而且可能無法識別數據中的一些罕見或特殊事件。為了進一步加強保護,作者在 [171] 中提出了 LSTM-TrajGAN 框架。該框架由三部分組成:一個生成器,用于生成和預測真實的軌跡配置;一個判別器,用于將這些配置與真實數據進行比較,以驗證其真實性和實用性;以及一個專門的編碼機制,利用 LSTM [177] 循環神經網絡對軌跡數據及其各自的時間戳進行時空嵌入。使用軌跡-用戶鏈接(TUL)算法作為攻擊者,對其隱私保護效果進行了評估[178]。在真實世界的語義軌跡數據集上進行評估后發現,與隨機擾動(66.8%)和高斯地理掩碼(48.6%)等傳統地理掩碼方法相比,所提出的方法能將攻擊者的準確率從 99.8% 降低到 45.9%,從而實現更好的隱私保護[179]。這些結果表明,LSTM-TrajGAN 可以更好地防止用戶被重新識別,同時保留真實軌跡數據的基本時空特征。

VAE 也被用于保護 UV 軌跡隱私。文獻[173]中的作者利用 VAE 創建合成車輛軌跡,通過在數據中添加噪聲來確保不同的隱私。這種方法有助于有效模糊車輛位置,但由于添加了噪聲,可能會導致一些數據失真。如文獻[174]所述,聯合學習中的變形器通過在網絡間只共享基本數據特征來提高自動駕駛的隱私性。這種方法提高了隱私性,但面臨著通信鏈路穩定性和外部干擾的挑戰。

為了保護車輛網絡安全,作者在文獻 [175] 中提出了一種基于變壓器的入侵檢測系統,為車輛網絡提供了一種復雜的解決方案。該系統采用自我注意機制分析控制器局域網(CAN)報文,將其準確地分類為各種車內攻擊,如拒絕服務、欺騙和重放攻擊。作者在 [174] 中提出的另一個基于變壓器的模型是將變壓器集成到聯合學習設置中。這種方法可以在自動駕駛汽車網絡中共享關鍵數據特征而不是原始數據。這種方法能最大限度地減少敏感數據的暴露,同時還能實現協同決策和計算,從而大大提高了隱私保護。

總之,GAI 在 UV 群中的應用徹底改變了安全和隱私措施,特別是在軍事和監控等敏感領域。"蜜罐 "和基于 GAN 的框架等技術展示了 GAI 在數據處理方面的能力,從而增強了安全性。此外,在針對軌跡隱私的聯合學習中實施 VAE 和轉換器,以及先進的入侵檢測系統,都凸顯了 GAI 在防范復雜網絡威脅方面的適應性和有效性。

UV安全和故障檢測

UV安全是另一個關鍵問題,包括系統故障的檢測、隔離和解決。與避免碰撞或為 UV 集群制定安全路徑規劃策略等與這些系統的自主水平更密切相關的其他安全問題不同[184],UV 安全研究突出了 UV 系統內部漏洞(包括算法和硬件故障)帶來的獨特挑戰。該領域的研究旨在通過開發方法和技術,使這些系統能夠在潛在故障影響車輛性能或安全之前有效識別并排除故障,從而提高 UV 運行的整體可靠性和安全性。

監測運行參數以檢測 UV 系統故障對于確保其安全性和效率至關重要。有人提出了一種新穎的框架,該框架使用 LSTM 網絡與自動編碼器相結合,能夠從車輛性能數據中持續學習 [181]。這一框架增強了系統精確定位和逐步處理故障的能力。LSTM 在處理時間序列數據方面的能力使這種方法在各種因素都可能影響車輛性能的動態環境中尤為有效。LSTM 自動編碼器可以生成代表潛在故障場景的合成數據點,從而增強訓練數據集,使模型能夠從更廣泛的條件中學習,并根據模擬數據在檢測不同類型的無人機誤操作方面達到 90% 的準確率,在分類方面達到 99% 的準確率。這大大提高了 UV 系統的安全性和運行效率。在隨后的發展中[182],無人機故障檢測和分類取得了進展,特別是通過基于 FPGA 的硬件加速,速度提高了四倍,而能耗卻降低了一半。這項研究進一步確定了 GAI 的關鍵考慮因素,表明模型計算可針對實時操作進行優化。在無人機群中的成功部署也表明,類似的策略可以提高 GAI 在動態環境和復雜任務協調中的性能。

另一方面,VAE 提出了在 UV 蜂群中進行故障和異常檢測的復雜方法。作者在 [180] 中提出了一種新方法,即在代表 UV 正常運行的數據上訓練 VAE。這種方法有助于 VAE 理解什么是標準性能。學習過程涉及輸入數據的重建,其中模型準確復制原始數據的能力是識別操作一致性的基礎。重構誤差與標準值的重大偏差預示著潛在的故障或異常。通過對輸入數據進行重構并計算所產生的誤差,基于 VAE 的方法在檢測故障和異常方面的平均準確率達到了 95.6%[180]。利用 VAE 映射關系能力的優勢在于,它們能熟練發現訓練數據集中不存在或未考慮的新故障或問題。這一特點確保了基于 VAE 的系統能夠在各種不可預測的場景中保持高水平的安全性和可靠性。在經常會遇到各種環境條件和操作挑戰的 UV 操作中,這一特性顯得彌足珍貴。然而,必須承認的是,VAE 的性能會受到各種因素的影響,其中包括 VAE 模型本身的復雜性、用于訓練的數據的質量和多樣性,以及將重建錯誤標記為潛在故障的特定閾值。

此外,作者在文獻[183]中利用時空變壓器網絡對電動汽車的電池故障進行診斷和故障預報,因為該網絡具有專門的架構,在提取多個時空尺度的關鍵特征方面表現出色。采用時空變壓器網絡進行車輛電池故障診斷和故障預報,在識別預警信號和預測不同時空尺度的故障方面表現出色。它利用車載傳感器數據分析和預測電池故障演變的能力完全符合 UV 的需求,因為 UV 的運行嚴重依賴于電池的完整性。通過集成這樣一個模型,預測性維護策略得到了極大的增強,可以在 24 小時到一周的精確時間窗口內及早發現異常并預測電池故障。這種方法不僅可以通過優化車輛計劃來減少停機時間,從而提高運營效率,而且在防范可能危及車輛安全的潛在電池故障方面也發揮著至關重要的作用。

在 UV 運行中,確保安全性和可靠性不僅包括檢測故障,還包括隔離受影響的組件以防止出現更多問題,并實施有針對性的解決方案來解決問題。例如,在傳感器故障導致信息丟失等相對較小的問題上,VAE 和 GAN 的使用說明了 GAI 在故障管理中的創新應用[185]。通過優化 VAE-CGAN 結構,這些模型可以重新生成缺失的時間序列數據,從而證明了它們在運行故障損害數據完整性的情況下的有效性。這一功能尤其適用于無人機農業監控等應用,在這些應用中,數據收集的連續性至關重要。

在解決危及 UV 蜂群運行的嚴重問題時,當前研究中一個引人入勝的方面是為脫穎而出的 "在哪里墜毀 "決策協議制定策略[186]。這一概念針對的是在發生嚴重故障時,UV 應如何以及在何處終止運行的預定協議需求,以最大限度地減少次生危害。這些協議包括無人機的緊急著陸區、USV 和 UUV 的特定下沉點以及 UGV 的受控停止措施。然而,這些預定義協議可能無法適應所有可能出現的情況。因此,將 GAI 集成到 UV 星群故障管理策略中為提高安全性提供了一種先進的方法。例如,通過分析實時傳感器數據和了解蜂群動態的復雜性,變形金剛能夠做出情境感知決策,為受損的 UV 準確識別最安全的終止點 [187]。采用這種 GAI 不僅可以改善關鍵故障的管理,還能降低二次事故的風險。

付費5元查看完整內容

個人數字數據是一項關鍵資產,全球各地的政府已經實施了法律和規章來保護數據隱私。數據使用者被賦予了其數據的“被遺忘權”。在機器學習(ML)過程中,被遺忘權要求模型提供者在用戶請求時刪除用戶數據及其對ML模型的后續影響。機器遺忘應運而生,以解決這一問題,它從業界和學術界獲得了越來越多的關注。雖然這一領域發展迅速,但缺乏全面的綜述來捕捉最新的進展。認識到這一缺口,我們進行了廣泛的探索,繪制了機器遺忘的全景,包括在集中式和分布式設置下遺忘算法的(細粒度)分類、關于近似遺忘的討論、驗證和評估指標、不同應用下遺忘的挑戰和解決方案,以及針對機器遺忘的攻擊。本綜述通過概述未來研究的潛在方向來結束,希望能為感興趣的學者們提供指導。

//www.zhuanzhi.ai/paper/0f1c229cadcb491e16dc9a452b6d7d91

在數據和計算能力的爆炸性增長驅動下,深度學習(DL)在各種應用中展現了驚人的性能,如自動駕駛[77, 130]、從氨基酸序列預測蛋白質的3D結構[51]、破譯遺傳密碼并揭示隱藏的DNA疾病的秘密[22],以及最近的人工智能生成內容(AIGC)浪潮,代表作有通過ChatGPT進行的文本生成[29, 97]、通過擴散模型進行的圖像和視頻生成[125]、以及通過Codex進行的代碼生成[19]。這些模型是在用戶貢獻的數據[70]上訓練的。無意中,這引發了隱私擔憂,因為模型永久記住了用戶的私人信息,這可能通過已知的例如成員推斷、屬性推斷和偏好分析攻擊以及尚未披露的隱私攻擊泄露。

通過認識到保護用戶數據隱私的重要性,國家政府已經發布了一系列規定,包括歐盟的一般數據保護條例(GDPR)[2]、加拿大的消費者隱私保護法(CPPA)和美國的加利福尼亞消費者隱私法(CCPA)[1]。這些規定規定了相關數據消費者或組織收集、存儲、分析和利用公民個人數據的強制手段。通過“被遺忘權”的執行,數據消費者必須迅速遵守用戶請求刪除其數據并消除任何相關影響。這賦予了數據貢獻者即使在數據發布后也能控制自己數據的能力,促進了分享和貢獻高質量數據的意愿。這反過來又通過提高服務利潤和降低法律風險,為(模型)服務提供者帶來了好處[11]。

值得注意的是,遺忘數據不僅符合法律要求以保護隱私,而且在其他場景中也是有益的。它可以遺忘由于有害數據(例如,對抗數據、投毒數據[134]、噪聲標簽[80])或過時數據造成的不利影響,從而提高模型的安全性、響應性和可靠性。此外,通過遺忘對手針對的受害者數據,它可以減輕多種隱私攻擊,如成員推斷攻擊和模型反轉攻擊,防止模型中敏感訓練數據的私人信息泄露。

在DL上下文中,僅從后端數據庫中刪除原始訓練數據相對無意義。因為DL模型仍然(顯式或非顯式地)記住了通常包含請求數據樣本的敏感細節的根深蒂固的模式和特征[4, 13]。因此,與DL模型直接相關的原始數據潛在表示似乎是一個挑戰,難以直接從DL模型中消除。現有的傳統隱私保護技術未能滿足這些要求,導致了機器學習中稱為機器遺忘(MU)的研究方向的出現。MU使數據貢獻者能夠主動撤回用于模型訓練的數據,旨在從訓練好的模型中擦除其影響,就好像它從未存在過一樣,而不損害模型的實用性(如圖1所示)。

鑒于賦予的“被遺忘權”,機器遺忘無疑變得更加相關。最直接的方法是定期從頭開始在剩余數據集上重新訓練一個新模型(不包括要遺忘的數據群)。不幸的是,這顯然會帶來昂貴的計算開銷以及響應延遲,尤其是對于不斷增加的數據集大小和模型復雜性。這種從頭開始的訓練更有可能對模型提供者和用戶來說是不可接受的,因此對于實際應用來說并不實用。機器遺忘試圖克服上述簡單方法的嚴重缺點。現有的MU方法可以根據是否需要對剩余數據集進行(重新)訓練操作分為兩大類,即精確遺忘和近似遺忘。精確遺忘旨在加速(重新)訓練過程,而近似遺忘通過直接更改模型參數,避免了重新訓練的需要,兩者都使得遺忘后的模型與采用簡單方法獲得的模型無法區分。

**機器遺忘正在經歷迅速的發展,但存在著顯著的全面總結和分析缺乏,以更好地描繪最新技術狀態。**例如,缺乏解決跨各種應用的機器遺忘挑戰的討論,以及缺少對機器遺忘安全性分析的討論。這些不足促使我們進行了徹底的調查。本綜述涵蓋了2015年至2024年機器遺忘領域的關鍵研究,包括集中式和分布式設置下遺忘算法的分類——后者經常被忽視,評估和驗證指標,啟用遺忘的應用,以及針對威脅MU的攻擊。本綜述的目的是提供一個知識庫,以促進該新興MU領域的進一步學術研究和創新。 本綜述的關鍵貢獻總結如下

我們對現有的機器遺忘算法進行了全面的回顧,這些算法適用于包括大型語言模型在內的多種任務,系統地將它們按遺忘機制進行分類,并對每個(子)類別固有的優點和限制進行了批判性分析。

我們提供了在分布式學習設置中面臨的機器遺忘挑戰的詳細分析,系統地對其方法進行了分類并比較了它們的優點和缺點。

我們為機器遺忘中現有的驗證和評估指標制定了一個分類體系。這個分類旨在協助數據所有者和模型所有者,強調每個指標的主要關注點。

我們強調了機器遺忘在各種場景中的多樣化應用,強調其在優化模型和防御安全與隱私攻擊方面的獨特優勢。這種靈活性允許在現實世界情況下根據特定需求進行快速部署和適應。

我們對與機器遺忘相關的挑戰進行了徹底的考察,概述了未來學者探索和參考的潛在研究方向。

本綜述的組織結構如下。第2節介紹機器遺忘的初步知識。第3節討論用于衡量機器遺忘質量的驗證和評估指標。第4節對現有的機器遺忘算法進行分類,深入探討每個細粒度類別并徹底分析其各自的優點和缺點。第5節研究分布式設置中出現的機器遺忘。第6節強調機器遺忘啟用的潛在應用,例如,擦除有害信息。第7節總結針對機器遺忘的現有隱私和安全攻擊。最后,第8節勾畫了機器遺忘當前面臨的挑戰,并提出了有希望的未來研究方向。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。

付費5元查看完整內容
北京阿比特科技有限公司