亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多模態模型被認為是未來人工智能進步的關鍵組成部分。由于基礎模型在自然語言處理 (NLP) 和視覺領域的成功,這一領域正迅速發展,并涌現出大量新的設計元素。人們普遍希望將基礎模型進一步擴展到多種模態(如文本、圖像、視頻、傳感器、時間序列、圖等),最終形成通用的多模態模型,即在不同數據模態和任務之間通用的單一模型。然而,關于最近的多模態模型(尤其是那些超越文本和視覺的模型)的系統性分析研究較少,特別是對于所提出的底層架構。因此,本研究通過一種新穎的架構和訓練配置特定的分類法,提供了關于通用多模態模型(GMMs)的新視角。這包括統一性、模塊化和適應性等對GMMs廣泛采用和應用至關重要的因素。本文綜述進一步強調了該領域的關鍵挑戰和前景,并指導研究人員了解新的進展。

引言

多模態模型是能夠跨越多種數據模態進行學習的深度學習模型。有人推測,這類模型可能是實現人工通用智能(AGI)所必需的一步,因此,機器學習社區對它們的興趣正在迅速增加。多模態學習的最終目標是開發一個可以執行(或輕松適應執行)各種多模態任務的單一模型。一個簡單的多模態例子是一個視覺語言模型,它可以執行單模態任務(如文本生成、圖像分類)和跨模態任務(如文本到圖像檢索或圖像字幕生成),后者需要跨模態的上下文和聯合學習【58】。

在機器學習的發展歷程中,多模態研究一直在積極推進【3, 28, 31, 33, 34, 44, 75, 83】。然而,這些研究偏重于跨模態學習和有限范圍的模態(文本和圖像)。因此,模型架構的設計元素不足以促進向更通用模型的現代研究的平穩過渡。例如,與傳統機器學習(ML)模型不同,基礎模型通過重建大量(通常是未標注的)數據進行訓練,以便在各種下游數據集和任務中表現良好。訓練基礎模型的目標是學習如何提取可在不同領域和應用中重用的通用特征表示。類似地,多模態領域基礎模型的目標是實現跨多種模態和任務的學習,但這些模型受限于對文本和圖像模態的研究重點。

受這些差距的激勵,多模態文獻中引入了一系列新的設計元素【5, 58, 70, 84, 93, 106】。這些大多受NLP和視覺領域的單模態基礎模型成功的啟發。我們將這類新模型稱為通用多模態模型(GMMs)。GMMs可以包括那些能夠跨越研究中最常見的兩種數據類型(文本和圖像)之外的模態運行的模型。更具體地說,模型必須展示跨越多種模態(包括但不限于文本、圖像、語音、音頻、視頻和傳感器)的能力。這一更廣泛的定義捕捉了在不同模態中具有廣泛泛化表示的模型。表1總結了我們對通用多模態模型和典型多模態模型的定義之間的詳細區分。

與標準深度學習模型相比,基礎模型具有多種獨特的屬性,包括大規模預訓練(監督或/和自監督,例如掩碼語言建模【12】)和特殊的微調策略(例如,提示調優、參數高效微調)。這些基礎模型的特性使它們在文本和視覺模態中成為領跑者【96】。這些特性也被引入GMMs,并在多模態學習中顯示出類似的改進。另一方面,多模態學習在架構、訓練策略和評估方面有許多方面,使得GMMs的發展成為一個獨特的研究領域。如圖1所示,GMMs的能力隨著新策略的引入而不斷增長。因此,審視當前GMMs的努力并確定進一步增強GMMs能力的必要屬性具有重要價值。在本綜述中,我們確定了這些新興屬性并進行了全面分析。

盡管已有一些關于多模態學習的綜述論文【1, 20, 43, 51】,但它們存在以下局限:(i)主要處理文本-視覺范式,對其他模態考慮甚少;(ii)僅關注跨模態的數據融合,忽略了其他關鍵因素,如架構設計、預訓練目標以及不斷擴展的多模態任務范圍【17, 62】;(iii)對跨模態學習的關注較多,對單模態方面考慮較少【51】。因此,我們對現有的GMMs(涵蓋文本和視覺以外模態的模型)進行了全面的綜述,結合了各種數據處理、架構和訓練方面的內容。據作者所知,這是第一篇全面回顧GMMs學習最新趨勢的綜述。本文的主要貢獻如下

  • 提出了一種新的分類法,解決了當前多模態架構設計空間的問題。
  • 分類法因素明確與基礎模型的背景相一致,與之前的綜述論文不同。
  • 提出了一種基于分類法的問題化當前方法的方法。
  • 提供了一系列可以推進多模態范式的研究方向。 本文其余部分的組織結構如下:第二部分提供了關于各單模態領域基礎模型的背景;第三部分討論了GMMs的典型架構管道;第四部分描述了我們的分類法,將現有工作分類到分類法中,并利用分類法評論當前方法的優缺點;第五部分強調了多模態基礎范式中的關鍵挑戰;第六部分列出了實現真正通用模型的發展潛在研究機會;最后,第七部分總結了我們的研究發現。

典型的GMM架構管道

從輸入數據到輸出預測的典型GMM架構管道可以分為不同的階段,如下所述,并在圖2中進行了說明。以下小節將更詳細地描述這些不同的階段。

**輸入預處理

第一個模塊與數據預處理相關,其中來自不同模態的原始數據被轉換為可被通用學習模型消耗的形式。這包括不同的階段,如下所述:

**序列化/標記化

這一過程將文本、音頻、圖像等不同模態轉換為通用的數值格式(也稱為標記)。例如,在文本模態中,輸入文本被解析為標記,每個標記被映射到模型詞匯表中的一個數值ID。在視覺模態中,圖像被調整為固定大小的補丁(例如,在CLIP中為224 x 224像素【65】),并將對應的像素值存儲在數值張量中。在音頻模態中,原始音頻被轉換為頻譜圖表示,然后進一步切分為小的時間/頻率幀。在點云中,"最遠點采樣"(原始點云的代表性骨架采樣)、最近鄰和鄰接矩陣可以定位/簡化輸入數據【103】。這一步的主要目的是為編碼器準備數據。

**編碼

編碼器在高維空間中獲取輸入標記的數值表示,稱為嵌入。編碼器利用預定義的知識(通過訓練的凍結模型)準確地將輸入標記定位在支持學習的高維語義空間中。對于文本模態,任何在大規模文本語料庫上訓練的語言模型(LLM)都可以作為有效的嵌入模型。CLIP和CLIP-VIT【65】系列模型是編碼視覺信息(包括圖像和視頻幀)的強有力候選者。大型音頻模型如WHISPER【66】用于編碼音頻模態。上述所有編碼器都是特定模態的,通常分別訓練,導致不同編碼器生成的表示(嵌入)之間可能存在差異。IMAGEBIND【19】是一種潛在的解決方案,它學習跨越六種模態(包括圖像、文本、音頻、深度、熱成像和慣性測量單元數據)的聯合嵌入。諸如NEXT-GPT等GMMs利用IMAGEBIND來編碼其輸入模態。此外,最近的GMMs,如META-TRANSFORMER【103】和ONELLM【22】,已經表明,任何經過良好預訓練的Transformer都可以作為通用的跨模態編碼器。

**投影

投影將編碼器的表示(嵌入)轉換為通用模型可理解的新空間。通常,LLM被用作通用模型;因此,投影器將原始嵌入轉換為語言空間。雖然序列化、標記化和編碼是標準化的,但投影步驟在不同模型之間有所不同,通常是可訓練的組件。投影可以從簡單的全連接線性層到復雜的卷積操作不等。它還通過交叉注意力和其他精妙機制對齊不同模態特定的表示。

**** 通用學習**

來自輸入預處理模塊的不同模態的統一表示被送入第二個模塊,即通用/主干模型,該模型通過多個神經網絡層在共享語義空間中執行表示學習和推理。在多模態學習中,通常使用預訓練/微調的LLM作為通用模型(例如,OFA中的BART【84】,ONELLM中的LLAMA-2【22】)。這主要有兩個原因:(i)與其他模態不同,語言模型在各種通用任務上已經在大量數據上進行了廣泛訓練,從而形成了一個強大的知識模型;(ii)輸入和輸出交互大多以文本形式進行,因此使用LLM作為核心模型并將其他模態圍繞其對齊是合理的,而不是反過來。

**** 輸出解碼**

在最后一個模塊中,數據后處理階段將學習到的多模態表示轉換為特定模態/任務的輸出。解碼器利用多模態編碼器表示的豐富融合,生成具有跨模態理解背景的任務特定輸出。對于僅文本輸出,可以利用標準的Transformer解碼器(具有注意力、交叉注意力和多層感知器(MLP)層),共享模型可以接受不同類型的輸入并適應各種任務的文本生成。對于圖像生成,使用擴散解碼器模型如Stable Diffusion(SD)【72】;對于音頻合成,使用AudioLDM【53】。

付費5元查看完整內容

相關內容

邊緣人工智能(AI)包括一個由互聯系統和設備組成的網絡,這些系統和設備接收、緩存、處理和分析與數據捕獲位置密切相關的數據。近年來,AI效率的提升、物聯網(IoT)設備的廣泛使用以及邊緣計算的興起,揭示了邊緣AI的巨大潛力。邊緣AI的目標是優化數據處理的效率和速度,同時確保數據的機密性和完整性。盡管這一研究領域相對較新,從2014年開始到現在,但在過去五年中已經顯示出顯著和快速的發展。在本文中,我們對邊緣AI進行了系統的文獻綜述,討論了現有研究、最新進展和未來的研究方向。我們創建了一個用于云和邊緣計算分析的協作邊緣AI學習系統,包括對支持這一機制的架構的深入研究。邊緣AI的分類法有助于邊緣AI系統的分類和配置,同時還考察了其在基礎設施、云計算、霧計算、服務、使用案例、機器學習和深度學習以及資源管理等諸多領域的潛在影響。本研究強調了邊緣AI在網絡邊緣處理實時數據的重要性。此外,它還突出了邊緣AI系統面臨的研究挑戰,包括資源限制、安全威脅的脆弱性以及可擴展性問題。最后,本研究強調了旨在通過提供創新解決方案來解決邊緣AI當前局限性的潛在未來研究方向。

關鍵詞:邊緣計算、人工智能、云計算、機器學習、邊緣AI

I. 介紹

近年來,人工智能(AI)效率的提升、物聯網(IoT)設備的采用以及邊緣計算能力的增強,正在共同釋放邊緣人工智能(Edge AI)的潛力【1】。眾多分析師和企業正在討論和實施邊緣計算,其起源可以追溯到20世紀90年代,當時位于客戶附近的邊緣服務器被用于通過內容分發網絡提供網頁和視頻內容【2】。在這一邊緣AI中,邊緣計算是一種范式轉換,它將數據存儲和處理更接近數據源,從而提高響應時間并減少帶寬使用。與傳統云計算不同的是,邊緣計算在網絡的邊緣處理數據【3】。這種接近性降低了延遲,提高了實時數據處理能力,并支持IoT設備和服務的擴展【4】。邊緣計算的主要優勢包括服務靈活性提高、低延遲、增強的一致性以及消除單點故障,使其在智能城市、自主車輛和工業自動化應用中高度相關【5】。通過地理分布計算資源,邊緣計算確保數據處理發生在數據源附近,滿足實時分析和決策的需求。

另一方面,AI包含廣泛的技術和方法,使機器能夠執行通常需要人類智能的任務,如學習、推理和自我糾正【6】。AI的應用涉及多個領域,包括醫療、金融、交通等,在這些領域,AI用于分析大型數據集、自動化任務和提供預測性見解【7】。將AI整合到不同部門中,已經通過提高效率、改進決策和創造創新機會,徹底改變了流程。隨著機器學習(ML)或深度學習(DL)的改進,AI方法在執行需要人類認知功能的復雜任務方面變得越來越有能力【8】。特別是涉及神經網絡的AI算法在圖像和語音識別、自動駕駛和預測性維護等領域取得了顯著成功。

**A. 用于AI的邊緣計算

邊緣計算與AI的融合涉及在用戶設備上處理AI算法,提供如降低延遲、能源效率和實時應用等益處。這種集成允許在源頭進行實時數據處理和決策,顯著減少延遲和帶寬使用【9】。邊緣計算與AI的結合使得更智能和更靈敏的應用成為可能,如自主車輛、工業物聯網、智能家居系統等。通過利用邊緣AI,組織可以實現更高的效率、增強的隱私和更快的洞察力,推動各個領域的創新【10】。邊緣AI是指在網絡邊緣集成AI功能,使邊緣設備具備分布式智能。其目的是改善網絡連接性,支持具有定義質量目標的AI流水線部署,并允許數據驅動應用的適應【11】。在邊緣嵌入AI功能解決了基于云處理IoT的局限性,如隱私問題和網絡連接問題。邊緣AI的部署增強了對延遲敏感的任務,并減少了網絡擁塞,提高了無線網絡的效率和安全性。

此外,基于AI的技術在解決邊緣環境中的服務質量(QoS)感知調度和資源分配挑戰方面起著至關重要的作用,確保服務質量和用戶體驗。邊緣AI支持作為服務的AI(AIaaS)部署,具有可配置的模型復雜性和數據質量,提高了性能并降低了成本【12】【13】。這種創新方法通過在邊緣利用AI功能,支持智能安全應用并增強分布式系統的安全措施。邊緣智能,一種有前途的技術,通過將計算從云服務器轉移到IoT邊緣設備,賦能實時應用,創造了擁有廣闊可能性的智能企業【14】。在邊緣而非集中位置利用AI,釋放了與IoT設備和邊緣計算結合的AI潛力,在資源受限的邊緣設備上部署AI算法,用于各種應用如自主車輛、醫療保健和監控。 邊緣AI的重要性在于它能夠在不將大量數據發送到多個集中位置的情況下提供即時的洞察和行動【15】。這種能力在延遲和帶寬是重大限制的情況下尤為關鍵,如在自主駕駛中,必須實時做出決策,或在醫療保健中,必須快速處理患者數據以提供及時的干預【16】。邊緣AI的崛起也得益于硬件的進步,如更強大和高效能的處理器,使得在智能手機和IoT傳感器等設備上運行復雜的AI模型成為可能【17】。

**B. 動機和貢獻

將邊緣計算與AI結合的動機是多方面的,主要驅動因素是實時處理數據的迫切需求以及解決集中云計算系統固有局限性【18】。隨著連接設備數量的指數級增長和數據量的激增,傳統的云中心模型越來越多地面臨如延遲、帶寬限制和顯著的數據隱私問題。邊緣AI作為解決這些挑戰的關鍵方案,倡導本地化數據處理【19】。這種轉變不僅減少了對遠程云基礎設施的依賴,從而大幅降低延遲,還顯著增強了應用對實時數據輸入的響應能力。這種范式轉變對于推動需要瞬時數據分析和決策的下一代技術發展尤為重要,涵蓋了如自主車輛、智能城市基礎設施和尖端醫療系統等領域。

此外,邊緣AI使得即使在稀疏連接的情況下,應用也能高效運行,通過在源頭直接處理數據。這種能力在遠程或高度移動的環境中至關重要,在這些環境中,持續和可靠的互聯網訪問并不總是有保障的【20】。通過現場處理數據,邊緣AI顯著增強了數據隱私和安全措施,減少了將敏感信息傳輸到遠程服務器的需求。在如醫療和金融等領域,數據的機密性和完整性至關重要,這一特性尤為關鍵。邊緣AI還通過減少需要通過網絡傳輸的數據量,支持帶寬效率,是數據密集型應用的經濟選擇【21】。這種效率不僅降低了運營成本,還緩解了網絡擁堵,促進了更順暢和可靠的數據流。可擴展性是邊緣AI提供的另一個重要優勢【6】。隨著設備網絡的擴展,邊緣計算允許無縫擴展,而不會因集中處理能力的瓶頸而受限,使企業和技術能夠在不受基礎設施限制的情況下增長。

總的來說,邊緣計算與AI的結合不僅是技術進步,也是滿足現代應用動態需求的戰略必要。通過提倡降低延遲、增強隱私和安全、提高帶寬效率和可擴展性,邊緣AI將徹底改變數據驅動決策的方式,迎來一個高效且以隱私為中心的智能時代。

本文的主要貢獻是:

  • 我們提供了對邊緣AI的全面介紹,涵蓋其歷史、挑戰和前景。
  • 我們進行了系統的文獻綜述,基于多個應用領域對邊緣AI研究進行了詳盡的審查,突出當前趨勢和未來可能的方向。
  • 我們提出了一個邊緣AI的分類法,有助于邊緣AI系統的分類和排列,并通過各種應用探索其跨學科的潛在影響。
  • 我們強調了邊緣AI在網絡邊緣實時處理數據的重要性,同時指出了邊緣AI系統面臨的挑戰,如資源限制、安全風險和擴展問題。
  • 我們提出了旨在通過提供創新解決方案和未來研究機會來解決邊緣AI當前局限性的有前途的未來方向。

****

**C. 文章組織結構

第二部分討論了一個相關的調查,重點關注與邊緣AI集成的不同應用中的算法、優化技術、安全和隱私問題。第三部分介紹了邊緣AI的背景和現狀。第四部分詳細描述了采用的審查方法。第五部分概述了涵蓋基礎設施、云計算、霧計算、服務、用例、機器學習和深度學習以及資源管理的分類法。第六部分基于分類法比較了現有的邊緣AI實現。第七部分呈現了分析和獲得的結果,并在第八部分討論了未來的研究方向。最后,第九部分總結了這項調查。

邊緣AI:背景與現狀

本節為讀者解釋了與邊緣AI背景和現狀相關的一些概念。子節III-A解釋了邊緣計算及其歷史起源。子節III-B提供了有關AI與邊緣技術整合的信息。接下來通過子節III-C和子節III-D分別解釋邊緣AI應用和挑戰。

**A. 邊緣計算的歷史起源

邊緣計算的概念是一種范式,將計算資源更接近數據源,而不是通過遠程服務器提供服務的云計算【51】。這樣可以在如今需要處理大量數據的世界中減少不必要的帶寬占用和延遲問題【52】。為了理解邊緣計算的出現,更有用的是考察之前的范式,如云計算和霧計算。圖1顯示了云計算、霧計算和邊緣計算各自的優點及其層次安排。現在簡要介紹這些概念:

  • 云計算:云計算是一種可以追溯到1970年代的范式,指的是用戶通過互聯網在服務器上使用公共計算資源【53】。今天,主要由大公司如微軟Azure、谷歌云平臺和IBM云提供給用戶的各種服務模式。云計算的優點如下【54】:

  • 高處理能力和集中存儲,使用戶可以輕松訪問資源,只要有互聯網。這減少了用戶的數據丟失風險,并為用戶提供了從任何有互聯網的地方工作的自由。

  • 可擴展性,如果計算資源需求增加(需求波動),云計算通過擴展資源提供更多的處理能力和存儲服務。這樣,保證了SLA和QoS等性能指標。

  • 按使用付費,通過云計算提供的無服務器(功能即服務(FaaS)+ 后端即服務(BaaS))服務模式,用戶只為使用的計算資源付費。這樣提供了一種經濟的模式,吸引更多用戶。

  • 霧計算:霧計算的概念由思科在2012年提出【55】。這種范式建議將計算資源更接近網絡的終端(如路由器和網關),以減少云計算中的延遲和帶寬問題。當查看圖1時,霧計算作為云和邊緣之間的一層。霧計算的優點如下【56】:

  • 由于將計算資源更接近網絡邊緣,霧計算的延遲低于云計算。

  • 作為云和終端設備之間的一層,通過處理部分需要發送到云的大量數據,減少不必要的帶寬使用。

  • 邊緣計算:物聯網和傳感器技術的發展使得需要處理的數據量增加到巨大的水平。在云計算資源上處理所有這些數據可能導致不必要的帶寬占用和延遲問題。因此,邊緣計算的概念作為一種通過在數據源附近處理數據來優化延遲和帶寬使用的范式應運而生【57】。此外,邊緣計算是解決霧計算所帶來的復雜性、安全性和管理挑戰(額外一層)的良好解決方案【58】。邊緣計算的優點如下【59】:

  • 通過將數據處理移到網絡邊緣,減少延遲和帶寬使用,

  • 相比霧計算,提供了如更少的復雜性和更好的安全性等優點。

**B. AI與邊緣技術的整合

將AI與邊緣計算的概念結合起來是最近的熱門話題之一。圖2顯示了一個解釋邊緣AI概念的主要圖示。邊緣AI是在靠近數據源的邊緣節點(物聯網和移動設備)上分布處理AI算法數據,而不是在集中式云平臺上處理數據【60】。這兩種技術提供的優點如下【6】:

  • 在如低延遲、時間敏感的自主車輛和監測患者的電子健康等應用中,延遲量至關重要。通過邊緣和AI整合,可以通過實時處理數據來克服這個問題。
  • 在數據安全方面,由于數據將在靠近源的點進行處理,敏感數據如生物特征數據將在網絡內的本地設備上處理。這樣可以消除如數據泄漏等安全隱患。
  • 可擴展資源,邊緣范式由由同質或異質設備組成的節點組成。這樣,可以根據處理能力需求進行任務調度。

**C. 邊緣AI應用

由邊緣和AI概念結合創建的邊緣AI應用比基于云的AI應用提供了更低的延遲和更高的安全性。圖3展示了其中一些應用。讓我們解釋這些應用:

  • 醫療保健:邊緣AI應用基于在網絡邊緣的分布式AI模型中處理從可穿戴設備收集的數據。此外,使用便攜式醫學成像技術進行的早期診斷研究可以作為例子【54】。
  • 智能停車:隨著交通工具的增加,停車已成為一個大問題,特別是在大城市。可以利用傳感器和物聯網的幫助解決這些問題的邊緣AI解決方案【61】。
  • 智能家居:用于現代家庭的解決方案如家庭照明系統和智能冰箱可以作為這些應用的例子。通過防止城市中不必要的電力消耗,可以優化能源消耗【56】。
  • 計算機視覺:邊緣AI可以使用如生物特征認證的方法識別人員【51】。此外,邊緣AI在需要實時決策的工業應用中提供了巨大優勢【58】。
  • 網絡安全:可以使用基于邊緣AI的安全應用檢測未經授權的訪問、可疑物品和持武人員。此外,可以通過檢測網絡上的可疑流量來進行異常檢測,以防止網絡攻擊【62】。
  • 交通運輸:可以將基于邊緣AI的解決方案用于現代復雜的交通信號燈操作【63】。

**D. 邊緣AI實施挑戰

結合邊緣和AI而產生的邊緣AI帶來了其提供的優點,但也帶來了仍需解決的挑戰。這些挑戰顯示在圖4中。讓我們解釋這些挑戰:

  • 能效:邊緣設備通常由具有低處理和存儲能力的同質和異質設備組成。需要自然語言處理(NLP)和密集圖像處理的應用將導致邊緣設備上過度的資源消耗【64】。因此,需要如專用AI芯片或任務工程等新解決方案。
  • 維護和更新:由于邊緣設備由分布在不同位置的設備組成,這意味著黑客的更多攻擊目標【65】。此外,邊緣節點中的所有設備并非都是同質結構,這意味著每個節點需要單獨的系統維護和更新【66】。可以采取如自動更新等措施來解決這些問題。
  • 可擴展性:由于邊緣設備通常由異質設備組成,將單個應用分配到不同設備仍然是一個挑戰(任務調度等)【67】。此外,難以在所有設備之間同步數據。可以使用有效的微服務架構和負載均衡算法來防止節點過載,解決這個問題。
付費5元查看完整內容

大模型(LLM)的興起在自然語言處理領域引起了廣泛關注,其涌現能力在各個垂直領域(如金融、醫療、教育等)也取 得一定進展。然而,大模型自身面臨解釋性不足、知識實時性差、生成結果存在虛假信息等諸多挑戰。為了應對這些問題,知 識圖譜與大模型的融合逐漸成為了研究熱點。知識圖譜作為一種結構化的知識模型,其真實性和可靠性,成為提高大模型解 釋和推理能力的有力工具。同時大模型具備語義理解能力,為知識圖譜的構建和更新提供了有力支持。因此,知識圖譜和大 模型是互補的(本文稱為圖模互補)。本文系統性地介紹知識圖譜與大模型融合的方法,分別從 1)大模型增強知識圖譜,2)知 識圖譜增強大模型,兩個角度進行全面的回顧和分析。最后,本文從醫學診斷預測和時間知識圖譜出發,介紹圖模互補的領域 應用,并討論圖模互補未來發展的方向,為知識圖譜與大模型的進一步研究提供幫助。 近年來,自然語言領域出現了一項令人矚目的 技術:大模型。大模型(LLM)是指通過超大規模文 本數據訓練出來的神經網絡模型,由預訓練語言模 型(PLM)發 展 而 來,其 特 點 是 模 型 規 模 較 大,參 數 通 常 在 數 十 億 乃 至 萬 億 級 別。相 較 于 傳 統 的 預 訓 練語言模型,大模型在處理復雜任務時表現出特殊 的 能 力(涌 現 能 力[1] 、推 理 能 力[2] )。相 關 研 究 表 明, 大 模 型 不 僅 能 夠 理 解 和 處 理 大 規 模 的 文 本 數 據[3] , 同時還具備上下文學習能力[4] 和領域泛化能力。這 使得它們成為各種自然語言下游任務的通用選擇, 能夠輕松進行少樣本遷移學習[5] 。如今,AI 領域中 涌現出許多具有代表性的大模型,例如對話式語言 大 模 型 ChatGPT[6] 、增 強 推 理 能 力 的 多 模 態 大 模 型 GPT-4[7] 等等。這些模型不僅在傳統的自然語言處 理領域(如搜索引擎[8] 和機器翻譯[9] )取得一定進展, 還在金融[10] 、醫療[11] 、教育[12] 等各種領域提供有效幫 助。大模型對傳統的自然語言處理領域帶來沖擊, 促使學者重新思考通用人工智能的可能性[13] 。 目 前,雖 然 大 模 型 引 起 了 廣 泛 的 關 注,但 它 仍 然 面 臨 著 諸 多 挑 戰,包 括 模 型 內 部 的 不 可 控 性,缺 乏解釋性[14] 、無法保證知識實時性[5] 、語言數據質量 的 不 確 定 性,以 及 產 生 幻 覺 和 有 毒 信 息 的 潛 在 風 險[15] 。為了應對這些挑戰,學者們開始思考將知識 圖譜與大模型融合[5] 。知識圖譜是一種用于表示和 存 儲 知 識 的 網 絡 圖 形 結 構,其 中 節 點 表 示 實 體,邊 表示實體之間的關系[16] 。知識圖譜以其數據的真實 性而著稱,這一特點可以有效地減輕大模型產生幻 覺 的 問 題 。 例 如 KELM 語 料 庫[17] 、通 用 模 型 KG? PT[18] 為大模型提供基于知識圖譜轉化的真實文本 信 息。大 模 型 作 為 一 個“黑 盒 模 型”其 輸 出 結 果 通 常難以解釋,而知識圖譜內部的結構知識更接近人 類認知。因此,知識圖譜可以提供一種解釋和推理 知識的手段,探究大模型內部復雜的工作步驟和推 理 過 程。例 如 個 性 化 知 識 庫 與 大 模 型 集 成 的 檢 索 框 架 KnowledGPT[19] ,提 高 處 理 復 雜 搜 索 和 歧 義 的 能 力。此 外,知 識 圖 譜 還 可 以 作 為 外 部 檢 索 工 具, 幫助大模型解決公平、隱私和安全等問題[20] 。 如今知識圖譜的規模越來越大,傳統的圖譜構 建、補全技術也面臨許多難題,如數據獲取、實體識 別、知識抽取和實體消歧等[21] 。大規模知識圖譜的 構 建 往 往 需 要 投 入 大 量 的 人 力、物 力 和 時 間 成 本, 且 依 舊 無 法 保 證 知 識 圖 譜 質 量 和 可 用 性。而 大 模 型 能 有 效 解 決 這 些 問 題。大 模 型 內 部 存 在 海 量 的 知 識 信 息,在 處 理 復 雜 的 文 本 數 據 信 息 時,能 夠 迅 速地進行實體識別與抽取,有效應對知識構建和補 全的挑戰[22] 。此外,鏈接預測是知識圖譜推理和問 答 的 關 鍵 步 驟,在 零 樣 本 和 少 樣 本 學 習 中,大 模 型 同 樣 能 夠 有 效 地 挖 掘 實 體 間 的 邏 輯 關 系。根 據 知 識圖譜和大模型的上述特點,本文認為知識圖譜和 大模型是相互補充的,稱為“圖模互補”,圖 1 為知識 圖譜與大模型的優缺點總結。 知 識 圖 譜 與 大 模 型 融 合 是 一 個 熱 門 研 究 領 域[23~25] 。文獻[25]提出了統一大模型與知識圖譜的 前瞻性路線圖,總結了現有的大模型與知識圖譜的 先進技術,并討論大模型與知識圖譜融合的相關挑 戰和發展方向。其整體路線劃分與本文有所差異, 本文從作用功能角度進行劃分,根據知識圖譜和大 模型在領域中的地位,將其融合劃分為兩個不同的 類 別:大 模 型 增 強 知 識 圖 譜 和 知 識 圖 譜 增 強 大 模 型。并從增益的效果出發,將每個大類別細分為不 同的小類別,最后探究圖模互補的領域應用。

付費5元查看完整內容

圖在表示社交網絡、知識圖譜和分子發現等各種領域的復雜關系中發揮著重要作用。隨著深度學習的出現,圖神經網絡(GNNs)已成為圖機器學習(Graph ML)的基石,促進了圖結構的表示和處理。最近,大語言模型(LLMs)在語言任務中展示了前所未有的能力,并廣泛應用于計算機視覺和推薦系統等多種應用中。這一顯著的成功也吸引了人們將LLMs應用于圖領域的興趣。人們越來越多地努力探索LLMs在推進圖機器學習的泛化、可遷移性和小樣本學習能力方面的潛力。同時,圖,特別是知識圖譜,富含可靠的事實知識,可以用來增強LLMs的推理能力,潛在地緩解它們的局限性,如幻覺現象和缺乏可解釋性。鑒于這一研究方向的迅速進展,對LLMs時代圖機器學習的最新進展進行系統的綜述是必要的,以便為研究人員和實踐者提供深入的理解。因此,在這篇綜述中,我們首先回顧了圖機器學習的最近發展。然后,我們探討如何利用LLMs來提高圖特征的質量,減輕對標記數據的依賴,并應對圖異質性和分布外(OOD)泛化等挑戰。之后,我們深入探討了圖如何增強LLMs,突出了它們提升LLM預訓練和推理的能力。此外,我們還研究了各種應用,并討論了這一有前途的領域的潛在未來發展方向。

圖數據在許多實際應用中都有廣泛的應用,包括社交圖、知識圖譜和推薦系統。通常,圖由節點和邊組成,例如,在社交圖中,節點代表用戶,邊代表關系。除了拓撲結構外,圖還傾向于擁有各種節點特征,如文本描述,這些特征提供了有關節點的寶貴上下文和語義信息。為了有效地建模圖,圖機器學習(Graph ML)已引起了重大關注。隨著深度學習(DL)的出現,圖神經網絡(GNNs)因其消息傳遞機制而成為圖機器學習的關鍵技術。該機制允許每個節點通過遞歸接收和聚合來自鄰近節點的消息來獲取其表示,從而捕捉圖結構中的高階關系和依賴性。為了減少對監督數據的依賴,許多研究集中于開發自監督圖機器學習方法,以提升GNNs捕捉可遷移圖模式的能力,增強它們跨各種任務的泛化能力。鑒于圖數據應用的指數級增長,研究人員正在積極開發更強大的圖機器學習方法。

最近,大語言模型(LLMs)開啟了人工智能的新趨勢,并在自然語言處理(NLP)中展示了顯著的能力。隨著這些模型的發展,LLMs不僅被應用于語言任務,還在計算機視覺(CV)、推薦系統等各種應用中展示了巨大的潛力。LLMs在復雜任務中的有效性歸因于它們在架構和數據集大小上的廣泛規模。例如,擁有1750億參數的GPT-3展示了生成類人文本、回答復雜問題和編程的激動人心的能力。此外,由于其龐大的訓練數據集,LLMs能夠掌握廣泛的通用知識和復雜的推理能力。因此,它們在語言語義和知識推理方面的能力使它們能夠學習語義信息。此外,LLMs展示了在有限或無特定訓練的新任務和領域中的突出能力,這一屬性預計將在不同的下游數據集和任務中提供高泛化能力,即使在少樣本或零樣本情況下也是如此。因此,利用LLMs在圖機器學習(Graph ML)中的能力引起了越來越多的關注,并有望增強Graph ML,推動圖基礎模型(GFMs)的發展。

GFMs通常在廣泛的數據上訓練,并可以適應廣泛的下游任務。通過利用LLMs的能力,有望增強Graph ML在各種任務中的泛化能力,從而促進GFMs的發展。目前,研究人員已經進行了一些初步努力,探索LLMs在推進Graph ML向GFMs發展中的潛力。圖1展示了將LLMs和GNNs集成用于各種圖任務的一個例子。首先,一些方法利用LLMs減輕原始Graph ML對標記數據的依賴,它們根據隱含和顯式圖結構信息進行推斷。例如,InstructGLM通過將圖數據序列化為令牌并編碼圖的結構信息來解決圖任務,對諸如LlaMA和T5的模型進行微調。其次,為了克服特征質量的挑戰,一些方法進一步利用LLMs提高圖特征的質量。例如,SimTeG在文本圖數據集上對LLMs進行微調,獲取文本屬性嵌入,然后利用這些嵌入增強GNN以執行各種下游任務。此外,一些研究探索使用LLMs來解決圖的異質性和OOD問題。

另一方面,盡管LLM在各個領域取得了巨大成功,但它仍面臨幾個挑戰,包括幻覺、實際意識缺乏和解釋性不足。圖,尤其是知識圖譜,以結構化格式捕獲大量高質量可靠的事實知識。因此,將圖結構整合到LLMs中可以提高LLMs的推理能力并緩解這些限制。為此,已進行了一些努力,探索圖在增強LLMs解釋性和緩解幻覺方面的潛力。鑒于這一領域的迅速發展和巨大潛力,對LLMs時代圖應用和圖機器學習的最新進展進行全面回顧是必要的。

因此,在這篇綜述中,我們旨在提供關于LLMs時代圖機器學習的全面回顧。綜述的大綱如圖2所示:第二部分回顧與圖機器學習和基礎模型相關的工作。第三部分介紹了圖上的深度學習方法,重點是各種GNN模型和自監督方法。隨后,綜述深入探討了如何在第四部分使用LLMs來增強Graph ML,以及在第五部分如何采用圖來增強LLMs。最后,第六部分和第七部分分別討論了Graph ML在LLMs時代的一些應用和潛在的未來方向。我們的主要貢獻可以總結如下:

我們詳細描述了從早期圖學習方法到LLMs時代最新的GFMs的演變; 我們提供了當前LLMs增強的Graph ML方法的全面分析,突出了它們的優勢和局限,并提供了系統的分類; 我們徹底調查了圖結構應對LLMs限制的潛力;

我們探索了Graph ML在LLMs時代的應用和未來方向,并討論了各個領域的研究和實際應用。 與我們的綜述同時進行的,Wei等人回顧了圖學習的發展。Zhang等人提供了大型圖模型的前瞻性回顧。Jin等人和Li等人分別回顧了在圖上預訓練語言模型(特別是LLMs)及其應用到不同類型的圖的不同技術。Liu等人根據流程回顧了圖基礎模型。Mao等人關注基本原則,并討論了GFMs的潛力。

與這些同時進行的綜述不同,我們的綜述提供了更全面的回顧,具有以下不同之處:(1)我們提供了關于Graph Machine Learning發展的更系統的回顧,并進一步探索了LLMs對Graph ML向GFMs的發展;(2)我們提出了LLMs時代Graph ML最新進展的更全面和細致的分類;(3)我們深入探討了最近Graph ML的局限性,并提供了從LLMs的角度克服這些局限性的洞見;(4)我們進一步探討了如何使用圖來增強LLMs;(5)我們徹底總結了廣泛的應用范圍,并提出了對挑戰和未來方向的更前瞻性討論。

盡管具有巨大潛力,基于GNN的圖機器學習(Graph ML)仍存在固有局限。首先,常規的GNN模型通常需要標記數據進行監督,獲取這些注釋可能在時間和成本上非常耗資源。其次,現實世界中的圖往往包含豐富的文本信息,這對下游任務至關重要。然而,GNN通常依賴于淺層文本嵌入來提取語義,從而限制了它們捕捉復雜語義和文本特征的能力。此外,圖的多樣性為GNN模型在不同領域和任務中的泛化提出了挑戰。最近,大語言模型(LLMs)在處理自然語言方面取得了顯著成功,具有如下激動人心的特點:(1)進行零/少樣本預測;(2)提供統一的特征空間。這些能力為解決圖機器學習和圖基礎模型(GFMs)所面臨的上述挑戰提供了潛在的解決方案。因此,本節旨在研究當前LLMs能為提升圖機器學習向GFMs的進展做出什么貢獻,同時也審視它們當前的局限性,如圖4所示。

大語言模型(LLMs)在各個領域展示了令人印象深刻的語言生成和理解能力。然而,它們仍面臨幾個迫切的挑戰,包括事實性認知、幻覺、推理過程中的有限可解釋性等問題。為了緩解這些問題,一種潛在的方法是利用知識圖譜(KGs),知識圖譜以結構化格式存儲高質量、人工策劃的事實知識。最近的綜述[152]–[154]總結了使用KGs來增強語言模型(LMs)的研究。Hu等人[152]提供了關于知識增強的預訓練語言模型用于自然語言理解和自然語言生成的綜述。Agrawal等人[153]系統地回顧了通過利用KGs來減輕LLMs中的幻覺的研究,這些研究涵蓋三個維度:推理過程、學習算法和答案驗證。Pan等人[154]從三個不同的視角全面總結了KGs和LLMs的整合:KG增強的LLMs、LLM增強的KGs和雙方相互加強的LLMs與KGs的協同作用。在本節中,我們將深入探討相關研究,這些研究探索了使用KGs實現知識增強的語言模型預訓練、減輕幻覺和提高推理可解釋性的用途。

結論

在這項綜述中,我們全面回顧了大語言模型(LLMs)時代圖應用和圖機器學習(Graph ML)的最新進展,這是圖學習中的一個新興領域。我們首先回顧了圖機器學習的發展,然后深入探討了各種LLMs增強圖機器學習的方法。由于在各個領域的顯著能力,LLMs有巨大的潛力推動圖機器學習向圖基礎模型(GFMs)發展。我們進一步探索了用圖增強LLMs,突出了它們在增強LLM預訓練和推理方面的能力。此外,我們展示了它們在多樣化應用中的潛力,如分子發現、知識圖譜和推薦系統。盡管取得了成功,這個領域仍在發展中,呈現了許多進一步發展的機會。因此,我們進一步討論了幾個挑戰和潛在的未來方向。總的來說,我們的綜述旨在為研究人員和實踐者提供一個系統和全面的回顧,激發對這一有前途領域的未來探索。

付費5元查看完整內容

大型語言模型(LLM)的出現顯著地重塑了人工智能革命的發展軌跡。然而,這些LLM存在一個明顯的限制,因為它們主要擅長處理文本信息。為了解決這一約束,研究人員努力將視覺能力與LLM整合,從而催生了視覺-語言模型(VLM)的出現。這些先進的模型在處理更復雜的任務,如圖像描述和視覺問答等方面發揮著重要作用。在我們的綜述論文中,我們深入探討了VLM領域的關鍵進展。我們的分類將VLM分為三個不同的類別:致力于視覺-語言理解的模型、處理多模態輸入以生成單模態(文本)輸出的模型,以及同時接受和產出多模態輸入和輸出的模型。這一分類基于它們在處理和生成各種數據模態方面的相應能力和功能。我們對每個模型進行了細致的解析,提供了其基礎架構、訓練數據來源以及可能的優點和限制的廣泛分析,以便為讀者提供對其核心組件的全面理解。我們還分析了VLM在各種基準數據集中的表現。通過這樣做,我們旨在提供對VLM多樣化景觀的細致理解。此外,我們強調了在這一動態領域未來研究的潛在途徑,期待進一步的突破和進展。

大型語言模型(LLM)的出現標志著人工智能領域變革性時代的開始,重塑了整個行業的格局。橫跨學術界和工業界的研究實驗室正積極參與到一個競爭激烈的賽跑中,以推動LLM的能力發展。然而,這些模型面臨一個顯著的限制——它們僅限于處理單一模態的數據,特別是文本。這一約束突顯了在持續完善LLM以便跨多種模態無縫運作的過程中一個關鍵的挑戰,這是AI領域進一步創新的重要途徑。

天生的智能擅長處理多種模態的信息,包括書面和口頭語言、圖像的視覺解釋以及視頻的理解。這種無縫整合不同感官輸入的能力使人類能夠導航復雜的現實世界。為了模仿人類的認知功能,人工智能同樣必須擁抱多模態數據處理。這一需求不僅僅是技術性的,更是為了讓AI系統在現實世界場景中具備上下文意識和適應性而必需的。

為了應對這些限制,研究人員開創了一種稱為視覺-語言模型(VLM)的尖端神經模型類別。這些模型復雜地結合了視覺和文本信息,展現出在理解和生成涉及圖像和文本的內容方面的卓越能力。VLM在執行圖像描述、響應視覺查詢和基于文本描述生成圖像等任務方面表現出多才多藝的能力。它們無縫整合視覺和語言模態的能力使它們站在技術進步的前沿,使它們能夠以無與倫比的技巧導航圖像與文本之間的復雜相互作用。

近期,主要研究實驗室持續推出創新的VLM,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。例如GPT-4(V)和Gemini展示了聊天機器人在VLM領域的進化。值得注意的是,并非所有多模態模型都是VLM;例如,像Midjourney和DALL-E [Ramesh et al., 2021]這樣的文本到圖像模型缺乏語言生成組件,凸顯出多模態AI領域的多樣化景觀。VLM的一般架構包括一個圖像和文本編碼器,用于生成嵌入,這些嵌入然后在圖像-文本融合層中融合,融合后的向量通過LLM生成最終的視覺感知生成文本。VLM的工作原理在圖2中顯示。

在這篇綜述論文中,我們根據它們的輸入處理和輸出生成能力,將VLM分為三大類:視覺-語言理解模型、多模態輸入文本生成模型和最先進的多模態輸入-多模態輸出模型。隨后的各節深入解釋了每一類別,闡明了這些多樣化VLM框架的細微功能和能力。

近期的相關綜述,如[Wang et al., 2023b]主要探討了用于開發多模態模型的各種預訓練技術和數據集,[Yin et al., 2023]探討了訓練各種多模態語言模型的關鍵技術。[Wu et al., 2023a]提供了使用多模態語言模型的實際應用和指導。最新的一篇由[Zhang et al., 2024]深入介紹了大約26種最新的VLM。與之前的綜述相比,沒有一個系統地根據它們的輸入處理和輸出生成能力對視覺-語言模型(VLM)進行分類。我們的綜述通過提供對VLM的徹底分類,揭示了它們功能的復雜性。我們廣泛分析了不同VLM在基準數據集上的表現,特別包括最新的MME基準,提供全面的見解。我們的綜述代表了迄今為止最全面、最新的VLM匯編,涵蓋了大約70個模型。它為用戶提供了在這一開創性研究領域不斷演變的視覺-語言模型的最新和最全面的見解,是最終的指南。

圖1:視覺語言模型的分類,突出顯示模型能夠處理的輸入和輸出格式。

2 視覺-語言模型(VLM)

在本節中,我們對VLM進行了全面的考察,將它們分類為三個主要類別: * 視覺-語言理解(VLU):這一類別包括專門為解釋和理解視覺信息與語言結合的模型。 * 多模態輸入的文本生成:在這一分類中,我們探索了在利用多模態輸入的同時,擅長生成文本內容的模型,從而融合了多種形式的信息。 * 多模態輸出與多模態輸入:這一類別深入研究了通過處理多模態輸入來生成多模態輸出的模型。這涉及到多種模態的合成,如視覺和文本元素,以產生全面而連貫的結果。我們在圖1.1中展示了這一寬泛的分類。

比較分析 我們對幾種視覺和語言模型(VLM)進行了廣泛的分析,這些模型跨越了十個廣泛認可的基準數據集,涵蓋了視覺問題回答(VQA)和圖像描述等任務。這一分析的結果呈現在表1中。此外,我們還使用多模態模型評估(MME)基準評估了這些VLM的感知和認知能力,其發現總結在表2中。更進一步,對各種VLM在視頻問題回答數據集上的比較考察詳細記錄在表3中。 3. 未來方向

預訓練與模塊結構之間的權衡:當前有很多研究正在進行中,通過引入模塊化代替黑盒預訓練,以增強VLM的理解、控制和可信度。納入其他模態:正在進行的工作包括引入更精細的模態,如受[Cheng et al., 2022]啟發的注視/手勢,這對教育行業非常重要。VLM的細粒度評估:正在進行更細致的VLM評估,關注偏見、公平等參數。在這方面的一些研究包括DALL-Eval [Cho et al., 2023a]和VP-Eval [Cho et al., 2023b]。VLM中的因果關系和反事實能力:已經完成了很多工作,以理解LLM的因果和反事實能力,這激發了研究人員在VLM領域探索相同的問題。Cm3 [Aghajanyan et al., 2022]是該領域的最早工作之一,該主題目前非常活躍。持續學習/遺忘:VLM領域存在一個趨勢,即有效地持續學習,無需從頭開始訓練。VQACL [Zhang et al., 2023a]和Decouple before Interact [Qian et al., 2023]是該領域的最初工作之一。受到LLM中觀察到的知識遺忘概念[Si et al., 2023]的啟發,研究人員也在VLM領域探索類似的方法。訓練效率:研究人員集中精力開發高效的多模態模型,如BLIP-2顯示出前景,它在零樣本VQA-v2中的表現超過Flamingo-80B 8.7%,同時使用的可訓練參數顯著減少(少54倍)。VLM的多語種基礎:繼OpenHathi [sarvam.ai, 2023]和BharatGPT [corovor.ai, 2023]等多語種LLM的最近激增之后,開發多語種視覺-語言模型(VLM)的勢頭正在增強。更多領域特定的VLM:各種領域特定的VLM,如MedFlamingo [Moor et al., 2023]和SkinGPT [Zhou et al., 2023]項目示例,已在其專業領域鋪平了道路。進一步的努力正在進行中,以特別為教育和農業等行業量身定制VLM。

4 結論

本文提供了一個關于VLM領域最新發展的綜述。我們根據VLM的用例和輸出生成能力對其進行分類,提供了對每個模型架構、優點和局限的簡潔見解。此外,我們突出介紹了該領域的未來方向,這些方向是根據近期趨勢來提供進一步探索的路線圖。我們相信這篇論文將作為一個寶貴的資源,為在多模態學習領域積極涉獵的計算機視覺和自然語言處理領域的研究人員提供指導。

付費5元查看完整內容

隨著近年來人工智能(AI)和機器人技術的發展,無人系統集群因其提供人類難以完成且危險的服務的潛力而受到學術界和工業界的極大關注。然而,在復雜多變的環境中學習和協調大量無人系統的動作和行動,給傳統的人工智能方法帶來了巨大的挑戰。生成式人工智能(GAI)具有復雜數據特征提取、轉換和增強的能力,為解決無人系統集群的這些難題提供了巨大的潛力。為此,本文旨在全面考察 GAI 在無人系統集群中的應用、挑戰和機遇。具體來說,我們首先概述了無人系統和無人系統集群及其使用案例和現有問題。然后,深入介紹各種 GAI 技術的背景及其在增強無人系統集群方面的能力。然后,我們全面回顧了 GAI 在無人系統集群中的應用和挑戰,并提出了各種見解和討論。最后,我們強調了無人系統集群中 GAI 的開放性問題,并討論了潛在的研究方向。

圖1:本文的總體結構。

近年來,無人系統(UVs)已成為一種顛覆性技術,為日常生活的各個領域帶來了革命性的變化,其應用范圍從包裹遞送、民用物聯網(IoT)到軍事用途[1, 2]。具體來說,無人車指的是可以在有限或無人干預的情況下運行的車輛、設備或機器,例如,車上沒有人類駕駛員或機組人員。得益于這一特殊屬性,UV 可用于在具有挑戰性或危險的環境中執行任務。一般來說,無人系統可分為無人飛行器(UAV)、無人地面車輛(UGV)、無人水面航行器(USV)和無人水下航行器(UUV)。正如其名稱所示,每種無人系統都是為特定任務和環境而設計的。例如,UAV 被廣泛用于航拍、環境和野生動物監測以及監視 [3, 4],而 UGV 則可用于運輸和炸彈探測等任務。不同的是,USV 和 UUV 分別用于水面和水下作業,包括海洋學數據收集、水下勘探和潛艇監視 [5,6]。

隨著近年來人工智能(AI)和機器人技術的發展,無人潛航器的概念已經發展到了一個全新的層次,即無人系統集群。從本質上講,無人系統集群是通過協調一組無人飛行器(如機器人、無人機和其他自主飛行器)來實現一個共同目標而設計的[7, 8]。實際上,無人集群中的每個系統都可以配備自己的傳感器、處理器和通信能力。為了讓它們高效地協同工作,人們采用了人工智能和機器人學的先進技術來協調它們的行為,并執行自主導航、自組織和故障管理等復雜任務 [7,9]。因此,與傳統的無人系統相比,無人系統集群擁有各種優勢。特別是,它們可以根據具體任務和要求動態調整車輛數量,從而提供可擴展性和操作靈活性。此外,如果無人系統群中有幾個無人系統無法運行,剩余的無人系統仍然可以協同工作,確保任務成功。這對于需要高彈性和魯棒性的任務尤其有用。最后,通過允許無人系統集群相互學習和協作,無人系統集群可以實現集群智能,即所謂的集體智能[10, 11],從而大大提高運行效率和可靠性。

雖然在無人系統集群中發揮著重要作用,但傳統的人工智能技術仍面臨諸多挑戰。特別是,這些技術需要大量標注的訓練數據,而且只能在特定環境下才能獲得良好的性能。因此,它們極易受到環境的動態性和不確定性的影響,而環境的動態性和不確定性正是無人系統集群的特點,例如無人系統之間的動態連接、風和洋流的影響以及物聯網應用中傳感器的不確定性和多樣性。此外,傳統的人工智能方法在具有大量 UV 的復雜場景以及水下、偏遠地區和受災地區等具有挑戰性的環境中可能表現不佳。為了克服傳統人工智能技術面臨的這些挑戰,生成式人工智能(GAI)在理解、捕捉和生成復雜的高維數據分布方面具有開創性的能力,因此最近在文獻中被廣泛采用。鑒于 GAI 在 UV 集群中的潛力,本文旨在從不同角度全面探討 GAI 在實現群體智能方面的挑戰、應用和機遇。

文獻中有一些調查側重于人工智能在 UV 中的應用[12, 13, 14, 15]。例如,文獻[12]的作者研究了深度學習、深度強化學習和聯邦學習等傳統人工智能技術在基于無人機的網絡中的應用,而文獻[13]的作者則對機器學習(ML)在無人機操作和通信中的應用進行了更全面的調查。不同的是,在文獻[15]中,作者綜述了物聯網網絡中人工智能無人機優化方法,重點關注人工智能在無人機通信、群體路由和聯網以及避免碰撞方面的應用。同樣,文獻[7]也討論了 AI/ML 在無人機群體智能中的應用。值得注意的是,上述調查和其他文獻主要關注無人機和傳統人工智能方法。據我們所知,目前還沒有任何文獻對無人機群的 GAI 發展進行全面的調查。本文的主要貢獻可歸納如下。

  • 介紹了 UV 集群的基本原理,包括其在空中、地面、水面和水下領域的設計和運行以及實際應用案例。
  • 深入概述了常見的 GAI 技術,包括生成對抗網絡 (GAN)、變異自動編碼器 (VAE)、生成擴散模型、變換器和歸一化流。我們還詳細介紹了每種技術在 UV 群體中的主要優勢和挑戰。
  • 全面回顧了 GAI 在 UV 集群各種問題中的應用,如狀態估計、環境感知、任務/資源分配、網絡覆蓋和點對點通信以及安全和隱私。通過回顧這些 GAI 應用,我們深入了解了如何將 GAI 應用于解決 UV 集群中新出現的問題。
  • 介紹了 UV 集群中 GAI 的基本開放問題和未來研究方向,包括可擴展性、自適應 GAI、可解釋群體智能、安全/隱私和異構群體智能。

本文的整體結構如圖 1 所示。第二節介紹了 UV 集群的基本原理。第三節深入概述了不同的 GAI 技術及其優勢。然后,第四節深入探討了 GAI 在 UV 集群新問題中的應用。第五節強調了 GAI 在UV集群中的未決問題和未來研究方向。此外,表 I 列出了本文中使用的所有縮寫。

圖2:UV系統的基礎結構及其應用。

圖 5:探索創新范圍:本圖展示了 12 個突破性的模型結構,每個方面都有兩種不同的方法,以展示 GAI 在提高性能和應對UV集群挑戰方面的各種應用。每個模型都包含獨特的策略和解決方案,全面展示了該領域的技術進步。

狀態估計

狀態估計對 UVs 集群的應用至關重要,尤其是在自動駕駛和交通估計等領域。在導航或軌跡規劃過程中,位置、速度和方向等狀態變量對橫向決策起著至關重要的作用 [128]。然而,系統測量和機器人動態的隨機性會導致實際狀態的不確定性。因此,狀態估計的主要目標是根據現有的時間觀測結果推導出狀態變量的分布 [127]。

將 GAI 集成到 UV 的狀態估計中提供了廣泛的創新方法,每種方法都是針對特定挑戰和操作環境量身定制的。例如,在應對 UGV 交通狀態估計中數據不足的挑戰時,[121] 中的作者利用圖嵌入 GAN,通過捕捉道路網絡中的空間互連,為代表性不足的路段生成真實的交通數據。在這一提議的框架中,生成器使用類似路段的嵌入向量來模擬真實交通數據。同時,判別器會區分合成數據和實際數據,并對生成器進行迭代訓練,以優化這兩個部分,直到生成的數據在統計上與真實數據無異。與 Deeptrend2.0 等傳統模型[129]相比,這種方法不僅填補了數據空白,還大大提高了估計精度,平均絕對誤差的減少就是明證。交通狀態估計的這種進步凸顯了 GAI 在復雜交通場景中改善 UGV 導航和決策的潛力 [121]。

除標準 GAN 外,cGAN 也可用于根據原始測量結果生成相應的系統狀態估計變量 [123]。cGAN 框架采用傳感器的原始測量值作為條件約束,解決了在動態環境中準確估計多個無人機運動的難題。文獻[124]中的作者將 Social LSTM 網絡[130]的單個運動預測與 Siamese 網絡[131]的全局運動洞察相結合,實現了綜合運動狀態預測。這種方法在準確預測無人飛行器軌跡方面表現出色,這對有效的集群導航至關重要。通過有效地分離和融合單個運動和全局運動,基于 cGAN 的框架表現出色,與原始的 Social LSTM 相比,提高了多目標跟蹤的性能。

此外,VAE 在捕捉無人機無線信道中的時間相關性方面的應用凸顯了 GAI 在通信系統中的重要性,它通過生成真實、多樣的信道樣本,改善了信道狀態估計和信號清晰度[125]。這種探索延伸到了基于擴散的分數模型和深度歸一化流,用于生成復雜的狀態變量分布,展示了 GAI 以更靈活的方式建模和估計狀態的能力,從狀態變量(即位置、速度和方向)到這些分布的復雜高維梯度[126, 127]。

GAI 在 UV 集群狀態估計方面的多功能性體現在兩個方面:通過對抗機制生成缺失信息的能力和融合各種數據源進行綜合狀態分析的能力。這些能力可以在復雜的運行場景中實現更精確的狀態估計。

環境感知

UV 的環境感知通常是指飛行器實時感知和了解周圍環境的能力 [142]。這是 UV 集群實現自主導航和完成任務的關鍵技術。這種技術通常涉及使用激光雷達、攝像頭和毫米波雷達等傳感器與外部環境進行交互 [143]。GAI 的各種創新應用明顯推進了 UV 的環境感知領域,詳見表 III。例如,由于運動造成的運動模糊、不利的天氣條件和不同的飛行高度等內在限制,無人機經常捕捉到低分辨率的圖像。為解決這一問題,作者在 [132] 中介紹了一種名為 Latent Encoder Coupled Generative Adversarial Network(LE-GAN)的框架,旨在實現高效的高光譜圖像(HSI)超分辨率。LE-GAN 中的生成器使用短期光譜空間關系窗口機制來利用局部-全局特征并增強信息帶特征。判別器采用真實圖像和生成圖像的概率分布之間基于瓦瑟斯坦距離的損失。這種框架不僅提高了 SR 質量和魯棒性,而且通過學習潛空間中高分辨率 HSI 的特征分布,緩解了模式坍縮問題造成的光譜空間失真[132]。

除了通過提高遙感分辨率來改善 UV 的精度外,GAI 更常見的應用是生成合成數據集,這表明了數據不足導致模型精度降低的難題[138]。例如,一個名為軌跡 GAN(Trajectory GAN,TraGAN)的框架用于從高速公路交通數據中生成逼真的變道軌跡[133]。另一個基于 GAN 的框架名為 DeepRoad,用于自動駕駛系統的測試和輸入驗證 [134],通過生成不同天氣條件下的駕駛場景來提高測試的可靠性。VAE 也被用于生成更真實、更多樣的碰撞數據,以解決傳統數據增強方法的局限性 [136]。此外,結合 VAE 和 GANs 的圖像轉換框架可用于將模擬圖像轉換為真實的合成圖像,以訓練和測試變化檢測模型 [135,137],不過它們仍需要真實圖像作為參考。此外,[139] 中的作者介紹了一種利用文本到圖像擴散模型的方法,用于生成逼真、多樣的無人機圖像,這些圖像以不同的背景和姿勢為背景。通過合并背景描述和基于地面實況邊界框的二進制掩碼生成的 20,000 多張合成圖像,檢測器在真實世界數據上的平均精度提高了 12%。

GAI 的另一個應用領域是場景理解或字幕制作。這種方法包括使用 CLIP 前綴進行圖像字幕處理,將 UV 捕捉到的圖像的視覺內容轉化為準確的文本描述,以便在 UV 中進行決策[140]。另一種方法是部署生成知識支持變換器(GKST),通過融合來自不同車輛視角的圖像信息來增強特征表示和檢索性能。[141]. 這些技術的一個有趣方面是,它們能夠處理和解釋復雜的視覺輸入,提供與人類感知非常相似的上下文理解水平。這種能力在動態環境中尤為有益,因為在動態環境中,快速準確地解讀視覺數據對有效決策至關重要。

總之,GAI 的生成能力在 UV 的環境感知領域證明是非常寶貴的。從提高圖像分辨率到生成合成數據集、創建多樣化的測試環境以及推進場景理解,GAI 是推動 UV 演進和提高其理解周圍環境并與之互動的效率的基石技術。

自主程度

自主性是指系統在沒有人類干預的情況下執行任務或決策的能力[152]。自主水平代表了 UV 在完全依賴機載傳感器、算法和計算資源的情況下獨立運行的能力。在 UV 蜂群中,自主水平取決于各種因素,如任務的類型和復雜程度、規劃和執行路線的能力等 [153]。表 IV 說明了 GAI 的集成在推進這些自主能力方面的關鍵作用。

在 UV 集群合作戰略領域,GAI 的應用體現在生成對抗模仿學習(GAIL)與多智能體 DRL 的集成上。例如,作者在 [144] 中介紹了一種基于多智能體 PPO 的生成式對抗仿真學習(MAPPO-GAIL)算法,該算法采用多智能體近似策略優化來同時采樣軌跡,完善策略和價值模型。與傳統的 DRL 搜索算法相比,該算法將網格概率用于環境目標表示,將平均目標發現概率提高了 73.33%,而平均損壞概率僅降低了 1.11%。此外,GAIL 還可用于在虛擬環境中訓練無人機執行導航任務,從而適應復雜多變的場景 [146]。

此外,還提出了一種基于 VAE 的模型,名為 BézierVAE,用于車輛軌跡建模,特別是安全驗證。BézierVAE 將軌跡編碼到潛在空間,并使用貝塞爾曲線對其進行解碼,從而生成多樣化的軌跡。與傳統模型 TrajVAE 相比,BézierVAE 顯著減少了 91.3% 的重構誤差和 83.4% 的不平滑度[133],大大提高了自動駕駛車輛的安全性驗證[147]。在自主機器人調度方面,COIL 利用 VAE 生成優化的定時調度,大大提高了運行效率 [148]。最后,在多智能體軌跡預測中,考慮到意圖和社會關系的復雜性,采用了受條件 VAE 啟發的 GRIN 模型來預測智能體軌跡。雖然復雜系統面臨挑戰,如遵守物理定律等上下文規則,但可以通過使用特定解碼器或代理模型來近似這些限制,從而應對挑戰[149]。

在 UV 的路由規劃中,變壓器架構與 DRL 相結合,用于優化多個合作無人機的路由。與傳統算法相比,該方法性能優越,并行處理效率高,可持續獲得高回報 [150]。

增強 UV 的自主性對其獨立和合作的集群行動至關重要。GAI 的生成能力應用于多個方面,從生成新軌跡到完善路由策略,以及在不同場景中模仿智能體的路由行為。這些多樣化的應用展示了動態和適應性強的解決方案,對于 UV 在復雜多變的環境中高效、獨立地導航和運行至關重要。

任務/資源分配

在多智能體 UV 群的任務和資源分配領域,GAI 引入了有效的方法,提高了這些系統的效率和適應性。傳統方法通常依賴于固定算法和啟發式方法,但這些方法并不總能滿足動態和復雜環境的要求 [159]。如表 V 所示,GAI 為這些具有挑戰性的場景提供了必要的靈活性。

有人提出了一種基于 GAIL 的算法,用于為 DRL 重建虛擬環境,其中生成器生成專家軌跡,判別器將專家軌跡與生成的軌跡區分開來 [154]。這種方法可以創建一個接近真實世界條件的虛擬邊緣計算環境。它為計算資源分配多智能體 DRL 方法提供了探索和推斷獎勵函數的場所,同時避免了任意探索造成的對用戶體驗的損害。此外,一種基于自動編碼器的方法被應用到匈牙利算法中,以減輕數據速率矩陣中出現的相同權重造成的信息模糊問題,尤其是在蜂窩用戶(CU)和設備到設備用戶(D2DU)之間的帶寬和功率資源分配中[155]。該方法利用潛空間作為超參數,提供了一個最佳的重構成本矩陣,以協助資源分配決策。

此外,作者在 [156] 中提出了一種基于擴散模型的人工智能生成最優決策(AGOD)算法。該算法可根據實時環境變化和用戶需求進行自適應和響應式任務分配。正如深度擴散軟行為者批判(D2SAC)算法所展示的那樣,該算法通過整合 DRL 進一步提高了功效。與傳統的 SAC 方法相比,D2SAC 算法在任務完成率方面提高了約 2.3%,在效用收益方面提高了 5.15%[156]。傳統的任務分配方法假定所有任務及其相應的效用值都是事先已知的,而 D2SAC 則不同,它可以解決選擇最合適服務提供商的問題,因為任務是實時動態到達的。與傳統方法相比,D2SAC 在完成率和效用方面都有顯著的性能提升。

在聯合計算和通信資源分配領域,由于 UV 的獨立性質和電池限制,有效管理的重要性在 UV 中更加突出。文獻[157]中提出的基于擴散的模型提供了一種先進的方法,用于設計語義信息傳輸的最佳能源分配策略。該模型的一個主要優勢是能夠迭代改進功率分配,確保在 UV 群動態環境造成的不同條件下優化傳輸質量。在傳輸距離為 20 米、傳輸功率為 4 千瓦的條件下,這種基于擴散模型的人工智能生成方案超過了其他傳統的傳輸功率分配方法,如平均分配(名為 Avg-SemCom)和基于置信度的語義通信(Confidence-SemCom)[157],迭代次數約為 500 次,傳輸質量提高了 0.25。

另一方面,作者在論文[158]中提出結合 LLM 探索提升 GAI 在多智能體 UV 群任務和資源分配方面的能力。利用 LLM 先進的決策和分析能力,為每個用戶創建了獨立的 LLM 實例,以實現 "通過以下方式減少網絡能耗 "的初衷Δp=0.85W"轉化為一系列細節任務,如調整發射功率和信道測量。然后將結果提示給 LLM,由 LLM 添加后續任務并指示相關執行器采取行動。通過在 LLM 上的集成,無人機智能體成功地在 2 個回合內實現了省電目標。盡管進一步的仿真結果表明,當智能體數量增加時,當前的 GPT-4 在維持多個目標方面會遇到一些困難。這種整合標志著 UV 蜂群在自主性和功能性方面的顯著進步。

總之,GAI 大大推進了多智能體 UV 群的任務和資源分配領域。從創建生動的仿真環境供分配算法探索,到迭代調整分配策略和打破粗略的任務細節意圖,GAI 展示了處理動態環境和各種挑戰的強大能力。

網絡覆蓋和點對點通信

如第二節所述,UV 的一個關鍵應用是作為移動基站重建通信網絡[46, 47, 48, 49, 164]。在這種情況下,有效的定位策略至關重要,它能以有限的 UV 實現最大的用戶覆蓋范圍,從而確保無縫接入。此外,當 UV 蜂群以分層結構部署時,領導 UV 充當指揮中心,確保子 UV 之間的有效通信覆蓋對于任務分配和協作至關重要。如表 VI 所示,各種 GAI 可滿足高效網絡覆蓋和車對車(V2V)通信的需求。

雖然利用無人機作為移動站來提供動態無線通信中的臨時網絡鏈接正變得越來越流行,但由于無人機高度、移動模式、空間域干擾分布和外部環境條件等因素的不同,優化網絡可能非常復雜,這帶來了獨特的挑戰。為解決有限無人機的網絡覆蓋優化問題,作者在 [160] 中提出使用 cGAN。該框架包括一個用于建模和預測最佳網絡配置的生成器、一個用于評估這些配置在真實世界場景中的效率的判別器,以及一個用于適應性和可擴展性的編碼機制。基于 cGAN 的方法不僅保證了無人機的最佳定位,還簡化了計算復雜度。作者在文獻 [163] 中提出的另一種解決方案利用基于自我注意的變壓器來預測用戶的移動性,并改進空中基站的布置。變壓器模型能夠捕捉時空相關性并處理長輸入和輸出序列。與常規部署方案相比,基于變壓器的方案在覆蓋率方面取得了顯著提高,比常規方案提高了 31% 以上[167],比基于 LSTM 的方案提高了 9% 以上。

在對 UV 蜂群中的安全導航至關重要的 V2V 通信領域,車輛經常會通過轉發圖像來交流環境數據。然而,由于傳輸中斷、環境噪聲和車輛運動造成的噪聲,這些圖像可能會被破壞。為解決這一問題,作者在 [162] 中整合了用于圖像復原和網絡優化的 GDM。GDM 可使車輛通過減少數據傳輸和通信延遲,將傳輸的圖像恢復到原始質量。基于隨機微分方程的 GDM 具有迭代特性,善于完善車聯網網絡解決方案,特別是在路徑規劃等領域。例如,GDM 以初步路徑啟動優化,然后根據關鍵性能指標逐步改進。該過程利用這些指標梯度來引導路徑修改,以實現最優解。與傳統的 DQN 方法相比 [168],所提出的基于 GDM 的方法在 300 個歷時[162]的平均累積獎勵中實現了 100% 的增長。

總之,對于網絡覆蓋和可達性,GAI 可以直接生成定位策略,也可以充當編碼器,通過捕捉空間信息來增強傳統算法。在效率方面,GAI 可作為一個框架,利用語義信息減少數據傳輸,同時通過引導生成保持通信。然而,盡管這些發展代表了管理 UV 蜂群的飛躍,但仍有一些領域有待進一步探索。例如,[162] 中的作者提出了整合其他模式以提高通信效率的問題。這為未來研究在 UV 網絡中整合多模態數據處理提供了機會。這種探索可以大大提高這些技術對不同網絡拓撲結構和環境條件的適應性。此外,GAI 有可能促進 UV 蜂群部署中的自主決策,這為推動該領域的發展提供了一條大有可為的途徑。通過擴大 GAI 的應用范圍,研究人員可以針對各種復雜的現實世界場景進一步優化 UV。

安全/隱私

安全和隱私是 UV 蜂群的重要方面,尤其是在軍事和監控應用中。將 GAI 集成到這些領域可為增強系統安全性和確保隱私提供創新解決方案。如圖 6 所示,一個有趣的潛在應用是利用 GAI 生成虛假數據或模擬通信活動的能力來充當 "蜜罐",誤導潛在攻擊者并加強系統安全性[176]。LLM 生成的 "蜜罐 "可作為額外的保護層,傳播虛假信息,迷惑和誘捕攻擊者,從而增強蜂群的集體安全性。在蜂群網絡中創新性地使用語言處理技術,是保護自動駕駛汽車免受復雜網絡威脅的一個新領域。表七詳細介紹了 GAI 在 UV 蜂群安全和隱私保護中的應用。

自動駕駛 GAN(ADGAN)[169]是 GAI 在隱私保護領域的一個顯著應用。ADGAN 是一種基于 GAN 的圖像到圖像轉換方法,旨在保護車輛攝像頭位置數據的隱私。ADGAN 通過移除或修改圖像中的背景建筑物來實現這一目標,同時保留了識別交通標志和行人等其他物體的功能。語義通信是增強 UV 群安全性的有效手段,因為它能去除與任務無關的背景圖像。此外,ADGAN 引入了多判別器設置,提高了圖像合成性能,并提供了更強的隱私保護保障,可抵御更強大的攻擊者[169]。另一個類似的應用是基于 GAN 的框架,該框架通過改變可識別的特征來保護街景圖像中的身份隱私,例如用逼真的背景替換移動的物體 [172]。

在軌跡數據隱私方面,TrajGAN 通過生成合成軌跡來保護軌跡數據的隱私[170]。這些軌跡遵循與真實數據相同的分布,同時掩蓋了用戶的個人位置和身份。它們保留了真實數據的統計屬性,并捕捉到了人類的移動模式。不過,TrajGANs 在創建密集的軌跡表示時可能會面臨挑戰,特別是在時間戳和路段方面,而且可能無法識別數據中的一些罕見或特殊事件。為了進一步加強保護,作者在 [171] 中提出了 LSTM-TrajGAN 框架。該框架由三部分組成:一個生成器,用于生成和預測真實的軌跡配置;一個判別器,用于將這些配置與真實數據進行比較,以驗證其真實性和實用性;以及一個專門的編碼機制,利用 LSTM [177] 循環神經網絡對軌跡數據及其各自的時間戳進行時空嵌入。使用軌跡-用戶鏈接(TUL)算法作為攻擊者,對其隱私保護效果進行了評估[178]。在真實世界的語義軌跡數據集上進行評估后發現,與隨機擾動(66.8%)和高斯地理掩碼(48.6%)等傳統地理掩碼方法相比,所提出的方法能將攻擊者的準確率從 99.8% 降低到 45.9%,從而實現更好的隱私保護[179]。這些結果表明,LSTM-TrajGAN 可以更好地防止用戶被重新識別,同時保留真實軌跡數據的基本時空特征。

VAE 也被用于保護 UV 軌跡隱私。文獻[173]中的作者利用 VAE 創建合成車輛軌跡,通過在數據中添加噪聲來確保不同的隱私。這種方法有助于有效模糊車輛位置,但由于添加了噪聲,可能會導致一些數據失真。如文獻[174]所述,聯合學習中的變形器通過在網絡間只共享基本數據特征來提高自動駕駛的隱私性。這種方法提高了隱私性,但面臨著通信鏈路穩定性和外部干擾的挑戰。

為了保護車輛網絡安全,作者在文獻 [175] 中提出了一種基于變壓器的入侵檢測系統,為車輛網絡提供了一種復雜的解決方案。該系統采用自我注意機制分析控制器局域網(CAN)報文,將其準確地分類為各種車內攻擊,如拒絕服務、欺騙和重放攻擊。作者在 [174] 中提出的另一個基于變壓器的模型是將變壓器集成到聯合學習設置中。這種方法可以在自動駕駛汽車網絡中共享關鍵數據特征而不是原始數據。這種方法能最大限度地減少敏感數據的暴露,同時還能實現協同決策和計算,從而大大提高了隱私保護。

總之,GAI 在 UV 群中的應用徹底改變了安全和隱私措施,特別是在軍事和監控等敏感領域。"蜜罐 "和基于 GAN 的框架等技術展示了 GAI 在數據處理方面的能力,從而增強了安全性。此外,在針對軌跡隱私的聯合學習中實施 VAE 和轉換器,以及先進的入侵檢測系統,都凸顯了 GAI 在防范復雜網絡威脅方面的適應性和有效性。

UV安全和故障檢測

UV安全是另一個關鍵問題,包括系統故障的檢測、隔離和解決。與避免碰撞或為 UV 集群制定安全路徑規劃策略等與這些系統的自主水平更密切相關的其他安全問題不同[184],UV 安全研究突出了 UV 系統內部漏洞(包括算法和硬件故障)帶來的獨特挑戰。該領域的研究旨在通過開發方法和技術,使這些系統能夠在潛在故障影響車輛性能或安全之前有效識別并排除故障,從而提高 UV 運行的整體可靠性和安全性。

監測運行參數以檢測 UV 系統故障對于確保其安全性和效率至關重要。有人提出了一種新穎的框架,該框架使用 LSTM 網絡與自動編碼器相結合,能夠從車輛性能數據中持續學習 [181]。這一框架增強了系統精確定位和逐步處理故障的能力。LSTM 在處理時間序列數據方面的能力使這種方法在各種因素都可能影響車輛性能的動態環境中尤為有效。LSTM 自動編碼器可以生成代表潛在故障場景的合成數據點,從而增強訓練數據集,使模型能夠從更廣泛的條件中學習,并根據模擬數據在檢測不同類型的無人機誤操作方面達到 90% 的準確率,在分類方面達到 99% 的準確率。這大大提高了 UV 系統的安全性和運行效率。在隨后的發展中[182],無人機故障檢測和分類取得了進展,特別是通過基于 FPGA 的硬件加速,速度提高了四倍,而能耗卻降低了一半。這項研究進一步確定了 GAI 的關鍵考慮因素,表明模型計算可針對實時操作進行優化。在無人機群中的成功部署也表明,類似的策略可以提高 GAI 在動態環境和復雜任務協調中的性能。

另一方面,VAE 提出了在 UV 蜂群中進行故障和異常檢測的復雜方法。作者在 [180] 中提出了一種新方法,即在代表 UV 正常運行的數據上訓練 VAE。這種方法有助于 VAE 理解什么是標準性能。學習過程涉及輸入數據的重建,其中模型準確復制原始數據的能力是識別操作一致性的基礎。重構誤差與標準值的重大偏差預示著潛在的故障或異常。通過對輸入數據進行重構并計算所產生的誤差,基于 VAE 的方法在檢測故障和異常方面的平均準確率達到了 95.6%[180]。利用 VAE 映射關系能力的優勢在于,它們能熟練發現訓練數據集中不存在或未考慮的新故障或問題。這一特點確保了基于 VAE 的系統能夠在各種不可預測的場景中保持高水平的安全性和可靠性。在經常會遇到各種環境條件和操作挑戰的 UV 操作中,這一特性顯得彌足珍貴。然而,必須承認的是,VAE 的性能會受到各種因素的影響,其中包括 VAE 模型本身的復雜性、用于訓練的數據的質量和多樣性,以及將重建錯誤標記為潛在故障的特定閾值。

此外,作者在文獻[183]中利用時空變壓器網絡對電動汽車的電池故障進行診斷和故障預報,因為該網絡具有專門的架構,在提取多個時空尺度的關鍵特征方面表現出色。采用時空變壓器網絡進行車輛電池故障診斷和故障預報,在識別預警信號和預測不同時空尺度的故障方面表現出色。它利用車載傳感器數據分析和預測電池故障演變的能力完全符合 UV 的需求,因為 UV 的運行嚴重依賴于電池的完整性。通過集成這樣一個模型,預測性維護策略得到了極大的增強,可以在 24 小時到一周的精確時間窗口內及早發現異常并預測電池故障。這種方法不僅可以通過優化車輛計劃來減少停機時間,從而提高運營效率,而且在防范可能危及車輛安全的潛在電池故障方面也發揮著至關重要的作用。

在 UV 運行中,確保安全性和可靠性不僅包括檢測故障,還包括隔離受影響的組件以防止出現更多問題,并實施有針對性的解決方案來解決問題。例如,在傳感器故障導致信息丟失等相對較小的問題上,VAE 和 GAN 的使用說明了 GAI 在故障管理中的創新應用[185]。通過優化 VAE-CGAN 結構,這些模型可以重新生成缺失的時間序列數據,從而證明了它們在運行故障損害數據完整性的情況下的有效性。這一功能尤其適用于無人機農業監控等應用,在這些應用中,數據收集的連續性至關重要。

在解決危及 UV 蜂群運行的嚴重問題時,當前研究中一個引人入勝的方面是為脫穎而出的 "在哪里墜毀 "決策協議制定策略[186]。這一概念針對的是在發生嚴重故障時,UV 應如何以及在何處終止運行的預定協議需求,以最大限度地減少次生危害。這些協議包括無人機的緊急著陸區、USV 和 UUV 的特定下沉點以及 UGV 的受控停止措施。然而,這些預定義協議可能無法適應所有可能出現的情況。因此,將 GAI 集成到 UV 星群故障管理策略中為提高安全性提供了一種先進的方法。例如,通過分析實時傳感器數據和了解蜂群動態的復雜性,變形金剛能夠做出情境感知決策,為受損的 UV 準確識別最安全的終止點 [187]。采用這種 GAI 不僅可以改善關鍵故障的管理,還能降低二次事故的風險。

付費5元查看完整內容

將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。

//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074

注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。

賦予大型語言模型多模態能力

** 前言**

大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。

視覺到語言的適配器

來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。

多模態訓練

從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。

兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。

另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。

訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。

為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。

用多模態大型語言模型處理視覺任務

標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。

結論與未來方向

在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

圖像融合技術旨在將不同源圖像中的互補信息整合到單幅融合圖像中以全面表征成像場景,并促進后續的視覺任務。隨著深度學習的興起,基于深度學習的圖像融合算法如雨后春筍般涌現,特別是自編碼器、生成對抗網絡以及Transformer等技術的出現使圖像融合性能產生了質的飛躍。本文對不同融合任務場景下的前沿深度融合算法進行全面論述和分析。首先,介紹圖像融合的基本概念以及不同融合場景的定義。針對多模圖像融合、數字攝影圖像融合以及遙感影像融合等不同的融合場景,從網絡架構和監督范式等角度全面闡述各類方法的基本思想,并討論各類方法的特點。其次,總結各類算法的局限性,并給出進一步的改進方向。再次,簡要介紹不同融合場景中常用的數據集,并給出各種評估指標的具體定義。對于每一種融合任務,從定性評估、定量評估和運行效率等多角度全面比較其中代表性算法的性能。本文提及的算法、數據集和評估指標已匯總至//github.com/Linfeng-Tang/Image-Fusion。最后,給出了本文結論以及圖像融合研究中存在的一些嚴峻挑戰,并對未來可能的研究方向進行了展望。

付費5元查看完整內容

數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。

1. 引言

數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。

深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。

最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。

2 任務和數據集

在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。

2.1 數學應用題解決

幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。

2.2 定理證明

自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。

2.3 幾何解題

自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。

2.4 數學問答

數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。

3 用于數學推理的神經網絡

3.1 數學的Seq2Seq網絡

序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。

3.2基于圖的數學網絡

Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡

注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。

4 預訓練的數學推理語言模型

預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。

**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。

5 .基于上下文的數學推理學習

大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。

結論:

本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新

付費5元查看完整內容

以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言

在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。

盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。

**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:

**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。

安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。

**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。

**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。

具體而言,我們的貢獻總結如下:

  1. 據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。

  2. 創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。

3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。

付費5元查看完整內容
北京阿比特科技有限公司