亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

生成式人工智能(GenAI)在近年來取得了顯著進展,并在計算機視覺和計算設計等不同領域的各種生成任務中表現出色。許多研究人員嘗試將GenAI集成到可視化框架中,利用其卓越的生成能力來執行不同操作。同時,近期在GenAI領域的重大突破,如擴散模型和大型語言模型,也極大地提升了GenAI4VIS的潛力。 從技術角度來看,本文回顧了以往利用GenAI的可視化研究,并討論了未來研究的挑戰與機遇。具體而言,我們涵蓋了不同類型的GenAI方法在不同可視化任務中的應用,包括序列生成、表格生成、空間生成和圖生成技術,并將這些任務總結為四個主要階段:數據增強、視覺映射生成、風格化和交互。對于每個具體的可視化子任務,我們展示了典型的數據和具體的GenAI算法,旨在提供對最新GenAI4VIS技術及其局限性的深入理解。 此外,基于綜述,我們討論了評估、數據集以及端到端GenAI與生成算法之間差距這三個主要方面的挑戰和研究機會。通過總結不同的生成算法、它們的當前應用及其局限性,本文旨在為未來的GenAI4VIS研究提供有用的見解。

引言

VizDeck [1]。可視化是通過渲染空間或抽象數據的圖形表示來輔助探索性數據分析的過程。最近,許多研究人員嘗試將人工智能(AI)應用于可視化任務[2, 3, 4, 5, 6]。特別是由于可視化本質上涉及對原始數據的表示和交互,許多可視化研究人員開始采用快速發展的生成式人工智能(GenAI)技術,這是一種通過學習現有的人造樣本生成合成內容和數據的AI技術[7, 8]。近幾年,GenAI在人工智能領域嶄露頭角,對各種研究和應用領域如工件設計和交互設計產生了深遠而廣泛的影響(例如[9, 10, 11])。 最近,多模態AI生成模型如Stable Diffusion [12]或DaLL-E 2 [13]使得沒有傳統藝術和設計技能的普通用戶可以通過簡單的文本提示輕松生成高質量的數字繪畫或設計。在自然語言生成方面,大型語言模型如GPT [14]和LLaMa [15]也展示了驚人的對話、推理和知識嵌入能力。在計算機圖形學領域,最近的模型如DreamFusion [16]也在3D生成方面展示了令人印象深刻的潛力。GenAI的獨特優勢在于其靈活的能力,可以基于從現實世界數據中隱含獲得的知識進行數據建模和設計生成。這一特性使GenAI成為一種變革力量,能夠減輕傳統計算方法的工作負擔和復雜性,并通過比以往方法更具創意的生成結果擴展設計的多樣性。 GenAI的巨大潛力在其增強和簡化數據可視化過程中的操作能力中尤為明顯。從數據處理到映射階段及其后,GenAI可以在數據推理和增強、自動可視化生成以及圖表問答等任務中發揮關鍵作用。例如,自動可視化生成在當前的GenAI方法浪潮之前一直是研究重點,為非專業用戶提供了一種有效進行數據分析和創建視覺表示的方法(例如[17, 18])。傳統上,自動可視化方法依賴于基于設計原則的專家設計規則[19]。然而,這些方法受到基于知識系統的限制,難以在復雜規則或過于簡化的目標函數中全面整合專家知識[20]。GenAI的出現引入了一種范式轉變,不僅提高了效率,還在一個前所未有的技術進步時代提供了一種更直觀和可訪問的可視化方法。

盡管GenAI表現出色,但在可視化應用中它可能面臨許多挑戰,因為可視化有其獨特的數據結構和分析需求。例如,可視化圖像的生成與自然或藝術圖像的生成有顯著不同。首先,GenAI在可視化任務中的評估比自然圖像生成更復雜,因為需要考慮許多超出圖像相似性的因素,如效率[21]和數據完整性[22]。其次,與在具有簡單注釋的大型數據集上訓練的通用GenAI任務相比,可視化任務的多樣性和復雜性需要更復雜的訓練數據[23],這更難以策劃。第三,傳統可視化管道與強規則約束之間的差距使得與端到端GenAI方法的完全整合變得困難。這些獨特的特性使得利用最新的通用預訓練GenAI模型來實現特定可視化生成變得不那么直接。因此,了解以前的工作如何利用GenAI進行各種可視化應用,面臨的挑戰是什么,尤其是如何調整GenAI方法以適應這些任務是很重要的。

雖然之前的一些綜述涵蓋了AI在可視化中的一般應用[3],但據我們所知,沒有研究專門集中在綜述GenAI方法在可視化中的應用。本文廣泛綜述了文獻并總結了為可視化開發的AI驅動生成方法。我們根據具體任務將各種GenAI方法分類,這些任務對應于可視化生成的不同階段。通過這種方式,我們收集了81篇關于GenAI4VIS的研究論文。我們特別關注在特定任務中使用的不同算法,希望幫助研究人員理解最新技術的發展及其挑戰。我們還討論并突出潛在的研究機會。 本文的結構如下。第二部分概述了我們綜述的范圍和分類,并定義了關鍵概念。從第三部分到第六部分,每一部分對應于GenAI在可視化管道中的一個階段。具體來說,第三部分討論了GenAI在數據增強中的應用。第四部分總結了利用GenAI進行視覺映射生成的工作。第五部分重點介紹了GenAI如何用于風格化和與可視化的交流。第六部分涵蓋了支持用戶交互的GenAI技術。第三至第六部分的每個小節涵蓋了該階段中的一個特定任務。為了全面理解當前GenAI方法如何處理特定結構的數據以及在特定任務中仍然存在的挑戰,小節的結構分為兩部分:數據和算法以及討論。最后,第七部分討論了未來研究的主要挑戰和研究機會。

范圍與分類

范圍與定義

生成式人工智能(GenAI)是一種通過分析訓練樣本,學習其模式和分布,然后創建逼真仿制品的AI技術。GenAI利用生成建模和深度學習(DL)的進步,通過利用現有的文本、圖形、音頻和視頻等媒體,在大規模上生成多樣化的內容[7, 8]。GenAI的一個關鍵特征是通過從數據中學習而不是通過顯式編程來生成新內容。

** GenAI方法分類**

盡管生成目標在文本、代碼、多媒體到3D生成等不同領域有所不同,但生成的具體算法實際上依賴于數據結構,這些數據結構在不同領域中表現出共同的特征。特別是在GenAI4VIS應用中,基于數據結構的分類可以促進對不同可視化任務中涉及的不同類型數據的算法的更具體理解。這里,我們概述了與數據可視化相關的典型數據結構的不同類型GenAI。

  • 序列生成:此類別包括有序數據的生成,例如文本、代碼、音樂、視頻和時間序列數據。序列生成模型,如LSTMs和Transformers,可用于創建具有順序或時間結構的內容。
  • 表格生成:此類別涵蓋以行和列形式生成結構化數據,如電子表格或數據庫表。應用包括數據增強、匿名化和數據插補。
  • 圖生成:此類別涉及生成圖和網絡結構,如社交網絡、分子結構或推薦系統。像圖神經網絡(GNNs)和圖卷積網絡(GCNs)這樣的模型可以用來生成或操作圖結構數據。
  • 空間生成:此類別涵蓋2D圖像和3D模型的生成。這些數據具有在歐幾里得空間中進行2D或3D投影的空間數據的共同特征,可以表示為具有2D/3D坐標的像素、體素或點。2D生成包括圖像合成、風格遷移和數字藝術,而3D生成涵蓋計算機圖形、虛擬現實和3D打印。像GANs、VAEs和PointNet [24]等技術可以用于創建2D和3D內容。 GenAI4VIS任務分類

為了對收集到的文章進行分類和組織,我們借鑒了描述不同基本階段的經典可視化管道[25]。然而,由于GenAI被應用于不同于傳統操作的更廣泛場景中,我們也修改了該管道以涵蓋一些最新的研究主題,包括數據增強、視覺映射生成、風格化和交互。值得注意的是,數據轉換部分被概括為數據增強的概念,這一術語靈感來自McNabb等人的研究[26]。此外,由于很少有GenAI用于可視化的工作專注于基本視圖轉換,我們將此部分替換為更廣泛的風格化與交流概念。在不同階段下,我們進一步將工作分類為具體任務,如圖1所示。

  • 數據增強:數據增強是指改善數據質量或完整性,或增強數據的特征表示以便后續可視化的過程。這可以包括數據增強、嵌入或其他變換,使其更適合可視化。
  • 視覺映射生成:這是指使用算法和軟件工具自動生成可視化,而無需大量手動干預。自動視覺映射生成允許用戶利用如何創建適當可視化的常識來減少工作量和人為違反設計原則的情況。
  • 風格化:擴展了[27]中提出的呈現概念,我們在可視化中定義了風格化,這涉及應用設計原則和美學選擇,使可視化更具吸引力和有效傳達信息。它包括關于顏色方案、字體、布局和其他視覺或文本元素的決策,以增強信息輔助可視化[20]。 -** 交互**:在數據可視化的背景下,交互是指用戶與可視化數據之間的動態參與和交流。它包括用戶操縱、探索和解釋視覺表示的能力。這可以涉及各種形式的交互,例如圖形交互(如縮放、平移、點擊)和自然語言交互(如圖表問答)。 這些任務的早期方法側重于具有復雜專家設計規則反映設計原則的基于規則的算法,這在許多應用(如色彩映射生成[28])中仍然有效。一些研究還利用基于優化的方法來最小化專家定義的顯式目標函數。然而,這些類型的方法與GenAI方法不同,因為它們是自上而下的,并不從現實世界的數據中學習。為了縮小我們綜述的范圍,我們排除所有純粹基于規則或優化的生成算法。 ** 不同GenAI方法與任務的關系**

由于GenAI4VIS的廣泛多樣化應用,不同GenAI方法與任務之間沒有明確的一對一關系。然而,我們可以觀察到一些有趣的關聯。首先,序列生成主要應用于視覺映射或與交互相關的任務。這是因為如翻譯模型和最新的大型語言模型(LLMs)或視覺-語言模型在生成指定視覺映射的代碼序列或交互流程和輸出序列方面非常有用。其次,表格生成主要用于數據增強。這是因為具有屬性列的表格數據是可視化的最常見初始輸入數據,通過數據增強(如代理數據生成)可以為后續任務帶來好處。接下來,圖生成也主要用于數據增強,因為數據推理和增強可以促進圖數據的后續分析。然而,盡管其使用相對較少,它在視覺映射和風格化方面具有巨大潛力,因為圖結構(如知識圖譜或場景圖)可以優化視覺編碼和布局。最后,空間生成主要應用于數據增強和風格化任務。這是因為2D和3D數據(如圖像和體數據)也是VIS4AI和SciVis應用中常見的輸入類型,而將基本圖表修飾為風格化圖表則依賴于基于圖像的生成方法。圖2通過桑基圖展示了GenAI4VIS任務與方法之間的關系,并例示了不同方法涉及的具體數據類型。表1進一步列出了每種數據結構和任務的詳細方法。

付費5元查看完整內容

相關內容

生成式人工智能是利用復雜的算法、模型和規則,從大規模數據集中學習,以創造新的原創內容的人工智能技術。這項技術能夠創造文本、圖片、聲音、視頻和代碼等多種類型的內容,全面超越了傳統軟件的數據處理和分析能力。2022年末,OpenAI推出的ChatGPT標志著這一技術在文本生成領域取得了顯著進展,2023年被稱為生成式人工智能的突破之年。這項技術從單一的語言生成逐步向多模態、具身化快速發展。在圖像生成方面,生成系統在解釋提示和生成逼真輸出方面取得了顯著的進步。同時,視頻和音頻的生成技術也在迅速發展,這為虛擬現實和元宇宙的實現提供了新的途徑。生成式人工智能技術在各行業、各領域都具有廣泛的應用前景。

邊緣人工智能(AI)包括一個由互聯系統和設備組成的網絡,這些系統和設備接收、緩存、處理和分析與數據捕獲位置密切相關的數據。近年來,AI效率的提升、物聯網(IoT)設備的廣泛使用以及邊緣計算的興起,揭示了邊緣AI的巨大潛力。邊緣AI的目標是優化數據處理的效率和速度,同時確保數據的機密性和完整性。盡管這一研究領域相對較新,從2014年開始到現在,但在過去五年中已經顯示出顯著和快速的發展。在本文中,我們對邊緣AI進行了系統的文獻綜述,討論了現有研究、最新進展和未來的研究方向。我們創建了一個用于云和邊緣計算分析的協作邊緣AI學習系統,包括對支持這一機制的架構的深入研究。邊緣AI的分類法有助于邊緣AI系統的分類和配置,同時還考察了其在基礎設施、云計算、霧計算、服務、使用案例、機器學習和深度學習以及資源管理等諸多領域的潛在影響。本研究強調了邊緣AI在網絡邊緣處理實時數據的重要性。此外,它還突出了邊緣AI系統面臨的研究挑戰,包括資源限制、安全威脅的脆弱性以及可擴展性問題。最后,本研究強調了旨在通過提供創新解決方案來解決邊緣AI當前局限性的潛在未來研究方向。

關鍵詞:邊緣計算、人工智能、云計算、機器學習、邊緣AI

I. 介紹

近年來,人工智能(AI)效率的提升、物聯網(IoT)設備的采用以及邊緣計算能力的增強,正在共同釋放邊緣人工智能(Edge AI)的潛力【1】。眾多分析師和企業正在討論和實施邊緣計算,其起源可以追溯到20世紀90年代,當時位于客戶附近的邊緣服務器被用于通過內容分發網絡提供網頁和視頻內容【2】。在這一邊緣AI中,邊緣計算是一種范式轉換,它將數據存儲和處理更接近數據源,從而提高響應時間并減少帶寬使用。與傳統云計算不同的是,邊緣計算在網絡的邊緣處理數據【3】。這種接近性降低了延遲,提高了實時數據處理能力,并支持IoT設備和服務的擴展【4】。邊緣計算的主要優勢包括服務靈活性提高、低延遲、增強的一致性以及消除單點故障,使其在智能城市、自主車輛和工業自動化應用中高度相關【5】。通過地理分布計算資源,邊緣計算確保數據處理發生在數據源附近,滿足實時分析和決策的需求。

另一方面,AI包含廣泛的技術和方法,使機器能夠執行通常需要人類智能的任務,如學習、推理和自我糾正【6】。AI的應用涉及多個領域,包括醫療、金融、交通等,在這些領域,AI用于分析大型數據集、自動化任務和提供預測性見解【7】。將AI整合到不同部門中,已經通過提高效率、改進決策和創造創新機會,徹底改變了流程。隨著機器學習(ML)或深度學習(DL)的改進,AI方法在執行需要人類認知功能的復雜任務方面變得越來越有能力【8】。特別是涉及神經網絡的AI算法在圖像和語音識別、自動駕駛和預測性維護等領域取得了顯著成功。

**A. 用于AI的邊緣計算

邊緣計算與AI的融合涉及在用戶設備上處理AI算法,提供如降低延遲、能源效率和實時應用等益處。這種集成允許在源頭進行實時數據處理和決策,顯著減少延遲和帶寬使用【9】。邊緣計算與AI的結合使得更智能和更靈敏的應用成為可能,如自主車輛、工業物聯網、智能家居系統等。通過利用邊緣AI,組織可以實現更高的效率、增強的隱私和更快的洞察力,推動各個領域的創新【10】。邊緣AI是指在網絡邊緣集成AI功能,使邊緣設備具備分布式智能。其目的是改善網絡連接性,支持具有定義質量目標的AI流水線部署,并允許數據驅動應用的適應【11】。在邊緣嵌入AI功能解決了基于云處理IoT的局限性,如隱私問題和網絡連接問題。邊緣AI的部署增強了對延遲敏感的任務,并減少了網絡擁塞,提高了無線網絡的效率和安全性。

此外,基于AI的技術在解決邊緣環境中的服務質量(QoS)感知調度和資源分配挑戰方面起著至關重要的作用,確保服務質量和用戶體驗。邊緣AI支持作為服務的AI(AIaaS)部署,具有可配置的模型復雜性和數據質量,提高了性能并降低了成本【12】【13】。這種創新方法通過在邊緣利用AI功能,支持智能安全應用并增強分布式系統的安全措施。邊緣智能,一種有前途的技術,通過將計算從云服務器轉移到IoT邊緣設備,賦能實時應用,創造了擁有廣闊可能性的智能企業【14】。在邊緣而非集中位置利用AI,釋放了與IoT設備和邊緣計算結合的AI潛力,在資源受限的邊緣設備上部署AI算法,用于各種應用如自主車輛、醫療保健和監控。 邊緣AI的重要性在于它能夠在不將大量數據發送到多個集中位置的情況下提供即時的洞察和行動【15】。這種能力在延遲和帶寬是重大限制的情況下尤為關鍵,如在自主駕駛中,必須實時做出決策,或在醫療保健中,必須快速處理患者數據以提供及時的干預【16】。邊緣AI的崛起也得益于硬件的進步,如更強大和高效能的處理器,使得在智能手機和IoT傳感器等設備上運行復雜的AI模型成為可能【17】。

**B. 動機和貢獻

將邊緣計算與AI結合的動機是多方面的,主要驅動因素是實時處理數據的迫切需求以及解決集中云計算系統固有局限性【18】。隨著連接設備數量的指數級增長和數據量的激增,傳統的云中心模型越來越多地面臨如延遲、帶寬限制和顯著的數據隱私問題。邊緣AI作為解決這些挑戰的關鍵方案,倡導本地化數據處理【19】。這種轉變不僅減少了對遠程云基礎設施的依賴,從而大幅降低延遲,還顯著增強了應用對實時數據輸入的響應能力。這種范式轉變對于推動需要瞬時數據分析和決策的下一代技術發展尤為重要,涵蓋了如自主車輛、智能城市基礎設施和尖端醫療系統等領域。

此外,邊緣AI使得即使在稀疏連接的情況下,應用也能高效運行,通過在源頭直接處理數據。這種能力在遠程或高度移動的環境中至關重要,在這些環境中,持續和可靠的互聯網訪問并不總是有保障的【20】。通過現場處理數據,邊緣AI顯著增強了數據隱私和安全措施,減少了將敏感信息傳輸到遠程服務器的需求。在如醫療和金融等領域,數據的機密性和完整性至關重要,這一特性尤為關鍵。邊緣AI還通過減少需要通過網絡傳輸的數據量,支持帶寬效率,是數據密集型應用的經濟選擇【21】。這種效率不僅降低了運營成本,還緩解了網絡擁堵,促進了更順暢和可靠的數據流。可擴展性是邊緣AI提供的另一個重要優勢【6】。隨著設備網絡的擴展,邊緣計算允許無縫擴展,而不會因集中處理能力的瓶頸而受限,使企業和技術能夠在不受基礎設施限制的情況下增長。

總的來說,邊緣計算與AI的結合不僅是技術進步,也是滿足現代應用動態需求的戰略必要。通過提倡降低延遲、增強隱私和安全、提高帶寬效率和可擴展性,邊緣AI將徹底改變數據驅動決策的方式,迎來一個高效且以隱私為中心的智能時代。

本文的主要貢獻是:

  • 我們提供了對邊緣AI的全面介紹,涵蓋其歷史、挑戰和前景。
  • 我們進行了系統的文獻綜述,基于多個應用領域對邊緣AI研究進行了詳盡的審查,突出當前趨勢和未來可能的方向。
  • 我們提出了一個邊緣AI的分類法,有助于邊緣AI系統的分類和排列,并通過各種應用探索其跨學科的潛在影響。
  • 我們強調了邊緣AI在網絡邊緣實時處理數據的重要性,同時指出了邊緣AI系統面臨的挑戰,如資源限制、安全風險和擴展問題。
  • 我們提出了旨在通過提供創新解決方案和未來研究機會來解決邊緣AI當前局限性的有前途的未來方向。

****

**C. 文章組織結構

第二部分討論了一個相關的調查,重點關注與邊緣AI集成的不同應用中的算法、優化技術、安全和隱私問題。第三部分介紹了邊緣AI的背景和現狀。第四部分詳細描述了采用的審查方法。第五部分概述了涵蓋基礎設施、云計算、霧計算、服務、用例、機器學習和深度學習以及資源管理的分類法。第六部分基于分類法比較了現有的邊緣AI實現。第七部分呈現了分析和獲得的結果,并在第八部分討論了未來的研究方向。最后,第九部分總結了這項調查。

邊緣AI:背景與現狀

本節為讀者解釋了與邊緣AI背景和現狀相關的一些概念。子節III-A解釋了邊緣計算及其歷史起源。子節III-B提供了有關AI與邊緣技術整合的信息。接下來通過子節III-C和子節III-D分別解釋邊緣AI應用和挑戰。

**A. 邊緣計算的歷史起源

邊緣計算的概念是一種范式,將計算資源更接近數據源,而不是通過遠程服務器提供服務的云計算【51】。這樣可以在如今需要處理大量數據的世界中減少不必要的帶寬占用和延遲問題【52】。為了理解邊緣計算的出現,更有用的是考察之前的范式,如云計算和霧計算。圖1顯示了云計算、霧計算和邊緣計算各自的優點及其層次安排。現在簡要介紹這些概念:

  • 云計算:云計算是一種可以追溯到1970年代的范式,指的是用戶通過互聯網在服務器上使用公共計算資源【53】。今天,主要由大公司如微軟Azure、谷歌云平臺和IBM云提供給用戶的各種服務模式。云計算的優點如下【54】:

  • 高處理能力和集中存儲,使用戶可以輕松訪問資源,只要有互聯網。這減少了用戶的數據丟失風險,并為用戶提供了從任何有互聯網的地方工作的自由。

  • 可擴展性,如果計算資源需求增加(需求波動),云計算通過擴展資源提供更多的處理能力和存儲服務。這樣,保證了SLA和QoS等性能指標。

  • 按使用付費,通過云計算提供的無服務器(功能即服務(FaaS)+ 后端即服務(BaaS))服務模式,用戶只為使用的計算資源付費。這樣提供了一種經濟的模式,吸引更多用戶。

  • 霧計算:霧計算的概念由思科在2012年提出【55】。這種范式建議將計算資源更接近網絡的終端(如路由器和網關),以減少云計算中的延遲和帶寬問題。當查看圖1時,霧計算作為云和邊緣之間的一層。霧計算的優點如下【56】:

  • 由于將計算資源更接近網絡邊緣,霧計算的延遲低于云計算。

  • 作為云和終端設備之間的一層,通過處理部分需要發送到云的大量數據,減少不必要的帶寬使用。

  • 邊緣計算:物聯網和傳感器技術的發展使得需要處理的數據量增加到巨大的水平。在云計算資源上處理所有這些數據可能導致不必要的帶寬占用和延遲問題。因此,邊緣計算的概念作為一種通過在數據源附近處理數據來優化延遲和帶寬使用的范式應運而生【57】。此外,邊緣計算是解決霧計算所帶來的復雜性、安全性和管理挑戰(額外一層)的良好解決方案【58】。邊緣計算的優點如下【59】:

  • 通過將數據處理移到網絡邊緣,減少延遲和帶寬使用,

  • 相比霧計算,提供了如更少的復雜性和更好的安全性等優點。

**B. AI與邊緣技術的整合

將AI與邊緣計算的概念結合起來是最近的熱門話題之一。圖2顯示了一個解釋邊緣AI概念的主要圖示。邊緣AI是在靠近數據源的邊緣節點(物聯網和移動設備)上分布處理AI算法數據,而不是在集中式云平臺上處理數據【60】。這兩種技術提供的優點如下【6】:

  • 在如低延遲、時間敏感的自主車輛和監測患者的電子健康等應用中,延遲量至關重要。通過邊緣和AI整合,可以通過實時處理數據來克服這個問題。
  • 在數據安全方面,由于數據將在靠近源的點進行處理,敏感數據如生物特征數據將在網絡內的本地設備上處理。這樣可以消除如數據泄漏等安全隱患。
  • 可擴展資源,邊緣范式由由同質或異質設備組成的節點組成。這樣,可以根據處理能力需求進行任務調度。

**C. 邊緣AI應用

由邊緣和AI概念結合創建的邊緣AI應用比基于云的AI應用提供了更低的延遲和更高的安全性。圖3展示了其中一些應用。讓我們解釋這些應用:

  • 醫療保健:邊緣AI應用基于在網絡邊緣的分布式AI模型中處理從可穿戴設備收集的數據。此外,使用便攜式醫學成像技術進行的早期診斷研究可以作為例子【54】。
  • 智能停車:隨著交通工具的增加,停車已成為一個大問題,特別是在大城市。可以利用傳感器和物聯網的幫助解決這些問題的邊緣AI解決方案【61】。
  • 智能家居:用于現代家庭的解決方案如家庭照明系統和智能冰箱可以作為這些應用的例子。通過防止城市中不必要的電力消耗,可以優化能源消耗【56】。
  • 計算機視覺:邊緣AI可以使用如生物特征認證的方法識別人員【51】。此外,邊緣AI在需要實時決策的工業應用中提供了巨大優勢【58】。
  • 網絡安全:可以使用基于邊緣AI的安全應用檢測未經授權的訪問、可疑物品和持武人員。此外,可以通過檢測網絡上的可疑流量來進行異常檢測,以防止網絡攻擊【62】。
  • 交通運輸:可以將基于邊緣AI的解決方案用于現代復雜的交通信號燈操作【63】。

**D. 邊緣AI實施挑戰

結合邊緣和AI而產生的邊緣AI帶來了其提供的優點,但也帶來了仍需解決的挑戰。這些挑戰顯示在圖4中。讓我們解釋這些挑戰:

  • 能效:邊緣設備通常由具有低處理和存儲能力的同質和異質設備組成。需要自然語言處理(NLP)和密集圖像處理的應用將導致邊緣設備上過度的資源消耗【64】。因此,需要如專用AI芯片或任務工程等新解決方案。
  • 維護和更新:由于邊緣設備由分布在不同位置的設備組成,這意味著黑客的更多攻擊目標【65】。此外,邊緣節點中的所有設備并非都是同質結構,這意味著每個節點需要單獨的系統維護和更新【66】。可以采取如自動更新等措施來解決這些問題。
  • 可擴展性:由于邊緣設備通常由異質設備組成,將單個應用分配到不同設備仍然是一個挑戰(任務調度等)【67】。此外,難以在所有設備之間同步數據。可以使用有效的微服務架構和負載均衡算法來防止節點過載,解決這個問題。
付費5元查看完整內容

圖在表示社交網絡、知識圖譜和分子發現等各種領域的復雜關系中發揮著重要作用。隨著深度學習的出現,圖神經網絡(GNNs)已成為圖機器學習(Graph ML)的基石,促進了圖結構的表示和處理。最近,大語言模型(LLMs)在語言任務中展示了前所未有的能力,并廣泛應用于計算機視覺和推薦系統等多種應用中。這一顯著的成功也吸引了人們將LLMs應用于圖領域的興趣。人們越來越多地努力探索LLMs在推進圖機器學習的泛化、可遷移性和小樣本學習能力方面的潛力。同時,圖,特別是知識圖譜,富含可靠的事實知識,可以用來增強LLMs的推理能力,潛在地緩解它們的局限性,如幻覺現象和缺乏可解釋性。鑒于這一研究方向的迅速進展,對LLMs時代圖機器學習的最新進展進行系統的綜述是必要的,以便為研究人員和實踐者提供深入的理解。因此,在這篇綜述中,我們首先回顧了圖機器學習的最近發展。然后,我們探討如何利用LLMs來提高圖特征的質量,減輕對標記數據的依賴,并應對圖異質性和分布外(OOD)泛化等挑戰。之后,我們深入探討了圖如何增強LLMs,突出了它們提升LLM預訓練和推理的能力。此外,我們還研究了各種應用,并討論了這一有前途的領域的潛在未來發展方向。

圖數據在許多實際應用中都有廣泛的應用,包括社交圖、知識圖譜和推薦系統。通常,圖由節點和邊組成,例如,在社交圖中,節點代表用戶,邊代表關系。除了拓撲結構外,圖還傾向于擁有各種節點特征,如文本描述,這些特征提供了有關節點的寶貴上下文和語義信息。為了有效地建模圖,圖機器學習(Graph ML)已引起了重大關注。隨著深度學習(DL)的出現,圖神經網絡(GNNs)因其消息傳遞機制而成為圖機器學習的關鍵技術。該機制允許每個節點通過遞歸接收和聚合來自鄰近節點的消息來獲取其表示,從而捕捉圖結構中的高階關系和依賴性。為了減少對監督數據的依賴,許多研究集中于開發自監督圖機器學習方法,以提升GNNs捕捉可遷移圖模式的能力,增強它們跨各種任務的泛化能力。鑒于圖數據應用的指數級增長,研究人員正在積極開發更強大的圖機器學習方法。

最近,大語言模型(LLMs)開啟了人工智能的新趨勢,并在自然語言處理(NLP)中展示了顯著的能力。隨著這些模型的發展,LLMs不僅被應用于語言任務,還在計算機視覺(CV)、推薦系統等各種應用中展示了巨大的潛力。LLMs在復雜任務中的有效性歸因于它們在架構和數據集大小上的廣泛規模。例如,擁有1750億參數的GPT-3展示了生成類人文本、回答復雜問題和編程的激動人心的能力。此外,由于其龐大的訓練數據集,LLMs能夠掌握廣泛的通用知識和復雜的推理能力。因此,它們在語言語義和知識推理方面的能力使它們能夠學習語義信息。此外,LLMs展示了在有限或無特定訓練的新任務和領域中的突出能力,這一屬性預計將在不同的下游數據集和任務中提供高泛化能力,即使在少樣本或零樣本情況下也是如此。因此,利用LLMs在圖機器學習(Graph ML)中的能力引起了越來越多的關注,并有望增強Graph ML,推動圖基礎模型(GFMs)的發展。

GFMs通常在廣泛的數據上訓練,并可以適應廣泛的下游任務。通過利用LLMs的能力,有望增強Graph ML在各種任務中的泛化能力,從而促進GFMs的發展。目前,研究人員已經進行了一些初步努力,探索LLMs在推進Graph ML向GFMs發展中的潛力。圖1展示了將LLMs和GNNs集成用于各種圖任務的一個例子。首先,一些方法利用LLMs減輕原始Graph ML對標記數據的依賴,它們根據隱含和顯式圖結構信息進行推斷。例如,InstructGLM通過將圖數據序列化為令牌并編碼圖的結構信息來解決圖任務,對諸如LlaMA和T5的模型進行微調。其次,為了克服特征質量的挑戰,一些方法進一步利用LLMs提高圖特征的質量。例如,SimTeG在文本圖數據集上對LLMs進行微調,獲取文本屬性嵌入,然后利用這些嵌入增強GNN以執行各種下游任務。此外,一些研究探索使用LLMs來解決圖的異質性和OOD問題。

另一方面,盡管LLM在各個領域取得了巨大成功,但它仍面臨幾個挑戰,包括幻覺、實際意識缺乏和解釋性不足。圖,尤其是知識圖譜,以結構化格式捕獲大量高質量可靠的事實知識。因此,將圖結構整合到LLMs中可以提高LLMs的推理能力并緩解這些限制。為此,已進行了一些努力,探索圖在增強LLMs解釋性和緩解幻覺方面的潛力。鑒于這一領域的迅速發展和巨大潛力,對LLMs時代圖應用和圖機器學習的最新進展進行全面回顧是必要的。

因此,在這篇綜述中,我們旨在提供關于LLMs時代圖機器學習的全面回顧。綜述的大綱如圖2所示:第二部分回顧與圖機器學習和基礎模型相關的工作。第三部分介紹了圖上的深度學習方法,重點是各種GNN模型和自監督方法。隨后,綜述深入探討了如何在第四部分使用LLMs來增強Graph ML,以及在第五部分如何采用圖來增強LLMs。最后,第六部分和第七部分分別討論了Graph ML在LLMs時代的一些應用和潛在的未來方向。我們的主要貢獻可以總結如下:

我們詳細描述了從早期圖學習方法到LLMs時代最新的GFMs的演變; 我們提供了當前LLMs增強的Graph ML方法的全面分析,突出了它們的優勢和局限,并提供了系統的分類; 我們徹底調查了圖結構應對LLMs限制的潛力;

我們探索了Graph ML在LLMs時代的應用和未來方向,并討論了各個領域的研究和實際應用。 與我們的綜述同時進行的,Wei等人回顧了圖學習的發展。Zhang等人提供了大型圖模型的前瞻性回顧。Jin等人和Li等人分別回顧了在圖上預訓練語言模型(特別是LLMs)及其應用到不同類型的圖的不同技術。Liu等人根據流程回顧了圖基礎模型。Mao等人關注基本原則,并討論了GFMs的潛力。

與這些同時進行的綜述不同,我們的綜述提供了更全面的回顧,具有以下不同之處:(1)我們提供了關于Graph Machine Learning發展的更系統的回顧,并進一步探索了LLMs對Graph ML向GFMs的發展;(2)我們提出了LLMs時代Graph ML最新進展的更全面和細致的分類;(3)我們深入探討了最近Graph ML的局限性,并提供了從LLMs的角度克服這些局限性的洞見;(4)我們進一步探討了如何使用圖來增強LLMs;(5)我們徹底總結了廣泛的應用范圍,并提出了對挑戰和未來方向的更前瞻性討論。

盡管具有巨大潛力,基于GNN的圖機器學習(Graph ML)仍存在固有局限。首先,常規的GNN模型通常需要標記數據進行監督,獲取這些注釋可能在時間和成本上非常耗資源。其次,現實世界中的圖往往包含豐富的文本信息,這對下游任務至關重要。然而,GNN通常依賴于淺層文本嵌入來提取語義,從而限制了它們捕捉復雜語義和文本特征的能力。此外,圖的多樣性為GNN模型在不同領域和任務中的泛化提出了挑戰。最近,大語言模型(LLMs)在處理自然語言方面取得了顯著成功,具有如下激動人心的特點:(1)進行零/少樣本預測;(2)提供統一的特征空間。這些能力為解決圖機器學習和圖基礎模型(GFMs)所面臨的上述挑戰提供了潛在的解決方案。因此,本節旨在研究當前LLMs能為提升圖機器學習向GFMs的進展做出什么貢獻,同時也審視它們當前的局限性,如圖4所示。

大語言模型(LLMs)在各個領域展示了令人印象深刻的語言生成和理解能力。然而,它們仍面臨幾個迫切的挑戰,包括事實性認知、幻覺、推理過程中的有限可解釋性等問題。為了緩解這些問題,一種潛在的方法是利用知識圖譜(KGs),知識圖譜以結構化格式存儲高質量、人工策劃的事實知識。最近的綜述[152]–[154]總結了使用KGs來增強語言模型(LMs)的研究。Hu等人[152]提供了關于知識增強的預訓練語言模型用于自然語言理解和自然語言生成的綜述。Agrawal等人[153]系統地回顧了通過利用KGs來減輕LLMs中的幻覺的研究,這些研究涵蓋三個維度:推理過程、學習算法和答案驗證。Pan等人[154]從三個不同的視角全面總結了KGs和LLMs的整合:KG增強的LLMs、LLM增強的KGs和雙方相互加強的LLMs與KGs的協同作用。在本節中,我們將深入探討相關研究,這些研究探索了使用KGs實現知識增強的語言模型預訓練、減輕幻覺和提高推理可解釋性的用途。

結論

在這項綜述中,我們全面回顧了大語言模型(LLMs)時代圖應用和圖機器學習(Graph ML)的最新進展,這是圖學習中的一個新興領域。我們首先回顧了圖機器學習的發展,然后深入探討了各種LLMs增強圖機器學習的方法。由于在各個領域的顯著能力,LLMs有巨大的潛力推動圖機器學習向圖基礎模型(GFMs)發展。我們進一步探索了用圖增強LLMs,突出了它們在增強LLM預訓練和推理方面的能力。此外,我們展示了它們在多樣化應用中的潛力,如分子發現、知識圖譜和推薦系統。盡管取得了成功,這個領域仍在發展中,呈現了許多進一步發展的機會。因此,我們進一步討論了幾個挑戰和潛在的未來方向。總的來說,我們的綜述旨在為研究人員和實踐者提供一個系統和全面的回顧,激發對這一有前途領域的未來探索。

付費5元查看完整內容

隨著ChatGPT和Sora的卓越成就,生成式人工智能(GAI)受到了越來越多的關注。GAI的應用不僅限于內容生成領域,由于其強大的學習和泛化能力,它還廣泛用于解決無線通信場景中的問題。因此,本文討論了GAI在改善無人機(UAV)通信和網絡性能中的關鍵應用。具體來說,我們首先回顧了GAI的關鍵技術和UAV網絡的重要作用。然后,我們展示了GAI如何改善UAV系統的通信、網絡和安全性能。隨后,我們提出了一個用于先進UAV網絡的新型GAI框架,并基于該框架提出了一個UAV啟用的頻譜圖估計和傳輸率優化的案例研究,以驗證GAI啟用的UAV系統的有效性。最后,我們討論了一些重要的未解決方向。

從基于規則的算法到先進的學習模型,人工智能(AI)能夠解決的任務變得越來越復雜,這顯示了它在工業、商業和日常生活中解決問題的巨大潛力。傳統的AI方法,如判別式AI(DAI)或預測式AI(PAI),可以從大規模數據集中學習特定的范式,利用深度神經網絡處理分類和預測任務。雖然這些AI方法為現代數據驅動環境提供了基礎,并在處理動態需求中表現出良好的性能,但它們仍然面臨一些問題,例如依賴廣泛標注的數據集。 幸運的是,生成式AI(GAI)的出現緩解了DAI和PAI面臨的限制,標志著AI發展的新階段。具體來說,GAI可以從訓練數據中學習概率分布而不是類別邊界,然后基于學習到的分布生成可信的新樣本。與傳統AI方法相比,GAI的優勢可以總結如下:

  • 數據增強:GAI能夠基于學習到的分布生成新數據。這一過程可以擴展訓練集,有助于增強模型的泛化能力并解決數據集稀缺問題。
  • 潛在空間表征:GAI能夠在訓練過程中將輸入數據映射到潛在空間,有助于學習訓練樣本的潛在結構和特征。請注意,傳統AI方法通常缺乏這種精細控制。
  • 創造性:鑒于GAI強大的生成能力及其在無監督學習中的卓越表現,GAI在探索性數據分析和新領域應用中具有優勢。

得益于上述優勢,GAI在處理復雜任務中的重要性逐漸顯現。特別是ChatGPT和Sora的巨大成功激發了GAI研究,并催生了包括人機交互、圖像處理和視頻生成在內的多種應用。值得注意的是,除了在內容創作方面表現出色外,強大的生成和探索能力使其在處理復雜的通信和網絡優化問題上具有印象深刻的潛力,例如天線陣列優化[1]。 然而,對于無人機(UAV)通信和網絡的GAI研究還很少。目前,DAI、凸優化和博弈論常用于解決UAV優化問題。然而,這些傳統方法可能在處理UAV網絡問題時有限制,因為UAV的移動性和高度動態的環境。此外,如DAI等學習方法可能無法捕捉數據的潛在結構和特征,從而導致對問題的理解不全面,處理未知情況的能力弱。 GAI顯示出解決上述問題的巨大潛力。特別是,GAI所展示的強大學習和泛化能力可以用來優化UAV網絡的資源管理問題,以提高通信性能。例如,考慮到UAV的資源有限,GAI可以根據從目標區域部分收集的數據準確推斷整個目標區域的狀況,從而進行合理的資源分配和軌跡規劃。盡管將GAI整合到UAV通信和網絡中提供了顯著的優勢,但仍有一些問題需要進一步討論:

  • Q1:為什么GAI適合UAV通信和網絡?
  • Q2:GAI可以處理哪些UAV通信和網絡問題?
  • Q3:GAI如何處理這些問題?

因此,我們提供了一個系統的教程來回答上述問題。據我們所知,這是第一項系統展示采用GAI解決UAV通信和網絡優化問題的工作。我們的貢獻總結如下:

  • 我們首先介紹了GAI的一些具體技術和應用。隨后,展示了UAV的角色和特征。最后,我們簡要介紹了DAI的局限性并簡要介紹了用于UAV通信和網絡的GAI。
  • 我們從通信、網絡和安全的角度討論了GAI解決與UAV相關問題的潛力。
  • 我們提出了一個利用GAI的UAV通信和網絡的新框架。此外,我們構建了一個案例研究來展示基于所提框架的GAI增強UAV啟用的頻譜感知和通信的有效性。****

GAI與UAV網絡概述在本節中,我們首先介紹GAI的關鍵技術和應用。隨后,介紹了UAV在網絡中的角色。最后,我們在物理層、網絡層和應用層展示了UAV上的GAI應用。 A.** GAI及其應用GAI基于從大規模訓練數據集獲得的廣泛通用知識,能夠執行滿足用戶需求的任務**。此外,它主要依賴于以下關鍵AI技術:

  • 大型語言模型(LLM):LLM基于大量文本數據訓練,學習各種語言模式和結構,以理解和生成自然語言。基于出色的理解和推理生成能力,LLM廣泛應用于文本生成和人機交互等領域。
  • Transformer:Transformer是一種帶有自注意機制的序列到序列模型,能夠同時處理輸入序列中各個位置的信息。因此,Transformer在自然語言處理(NLP)中取得了巨大成功,如機器翻譯和文本摘要。
  • 生成對抗網絡(GAN):GAN包括一個生成模型和一個判別模型。具體來說,前者負責生成與原始數據相似的數據,后者則判斷數據的真實性。因此,GAN通過訓練對抗性神經網絡能生成復雜和逼真的數據。當前,GAN在視頻和網絡安全等領域有廣泛應用。
  • 變分自編碼器(VAE):VAE是一個由編碼器和解碼器組成的生成模型。具體來說,VAE的訓練過程依賴于一種特定的損失函數,該函數測量重建數據和原始數據之間的差異,同時考慮潛在空間的分布特性。因此,VAE能學習數據的潛在表示,并生成與訓練數據相似的新數據點,因此在處理信號處理和異常檢測等任務中具有顯著優勢。
  • 生成擴散模型(GDM):GDM通過一系列可逆轉換將簡單的噪聲分布轉換為目標數據分布。在GDM的訓練過程中,逐漸向原始數據添加噪聲,然后學習逆向擴散過程,以從噪聲中構建所需的數據樣本。由于生成過程的靈活性和生成數據的高質量,GDM常用于圖像處理、數據增強和恢復以及問題優化等領域。 目前,采用上述模型的GAI方法在各個領域催生了大量應用并取得了令人印象深刻的成果。接下來,我們將從人工智能生成內容(AIGC)和人工智能生成一切(AIGX)的角度簡要介紹一些GAI應用。
  • AIGC:AIGC指的是GAI生成滿足用戶需求的內容,主要包括文本、圖像、視頻和音頻等媒體內容的生成。例如,基于LLM的chatGPT可以與用戶互動,并根據用戶的提示生成相關文本內容,如翻譯、摘要和寫作文章。
  • AIGX:隨著GAI的發展,它已進化到一個新階段,在該階段,GAI被用來處理其他領域中更復雜的問題,并生成更復雜的數據類型,而不僅限于媒體內容。值得注意的是,GDM可以用于無線網絡優化,如最大化傳輸速率、通信容量和能效。

B. UAV通信和網絡UAV通信和網絡系統受到學術界越來越多的關注,并且已在實際應用中取得顯著成果。具體來說,UAV系統在通信和網絡領域的幾個主要角色如圖1所示,可以具體描述如下。

  • 中繼:UAV可用作移動中繼站,連接地面基站和遠程設備之間的通信鏈路。例如,在一些特殊區域,如山區,傳統基站難以覆蓋且成本高昂,UAV可被指派為中繼,以擴大覆蓋范圍并實現長距離信號傳輸。
  • 空中基站:UAV可用作空中基站,向地面用戶提供穩定高效的通信服務。例如,UAV可以在人口密集的地區臨時用作通信基站,以增強通信覆蓋和容量,滿足高峰通信需求。
  • 邊緣計算:UAV可以作為邊緣計算設備,收集用戶數據進行實時分析和處理。例如,在智能交通管理中,UAV可以根據獲得的交通流統計數據分析當前交通狀況,及時調整交通控制,以緩解交通壓力。
  • 攻擊檢測器:鑒于其多功能性,UAV可用于協助預防、檢測和恢復對5G和6G無線網絡的攻擊。 UAV通信和網絡系統的廣泛應用是不可避免的,因為它們相比傳統地面系統具有以下優勢。
  • 靈活性:由于其高度移動性和靈活的部署能力,UAV可以迅速移動到特定區域以滿足通信需求。
  • 適應性:UAV可以為一些意外情況建立臨時網絡,支持UAV節點的臨時增加或撤回,同時保持高可用性。
  • 高性價比:與地面固定系統相比,UAV可以攜帶多種設備提供靈活多樣的服務。此外,UAV系統的成本通常較低。 請注意,由于上述優勢和廣泛的應用范圍,UAV通信和網絡系統被認為在6G的空天地海一體化網絡中扮演重要角色。因此,高效解決UAV通信和網絡問題至關重要。

C. GAI在UAV通信和網絡中的應用請注意,DAI方法已廣泛用于解決UAV通信和網絡優化問題。例如,人工神經網絡被用來解決UAV通信的信道行為預測問題,支持向量機被用來解決超密集網絡中UAV輔助的資源分配問題。然而,采用DAI進行UAV網絡仍面臨以下限制:

  • 數據依賴性:DAI方法通常依賴廣泛注釋的數據集,并需要大量良好標注的數據來學習數據之間的關系。然而,在UAV通信和網絡領域,獲得大量良好標注的數據是困難的。特別是,UAV網絡的物理層數據通常很嘈雜,這對一些對噪聲敏感且易受數據不完整性影響的DAI模型構成挑戰。
  • 適應性不足:DAI更多地關注已知數據的模式和特征,這導致在處理未知情況時面臨挑戰。特別是,UAV所面對的網絡層環境通常非常動態,因此DAI可能難以提供靈活的解決方案。
  • 建模能力不足:DAI專注于學習數據的特征,對數據生成過程的理解有限。因此,DAI方法更適合建模明確且簡單的問題。對于通常涉及多種資源約束的UAV網絡應用層,數據通常龐大且復雜。在這種情況下,DAI可能無法完全理解數據所攜帶的信息,從而進行準確建模。

DAI方法在解決UAV通信和網絡問題中所面臨的限制促使GAI的出現。接下來,我們將從物理層、網絡層和應用層三個角度展示GAI可以為UAV提供的服務,并分析UAV系統與其他無線系統在這些服務中的差異。

  1. 物理層:與地面通信系統相比,UAV網絡的高度動態性和靈活性使得信道特性更為復雜。因此,信道估計需要實時考慮飛行狀態的變化,以維持穩定和高效的通信連接。在這種情況下,采用VAE模型的GAI可以通過生成更精確的信道參數來提高UAV通信的性能,根據預測的鏈路狀態進行調整。
  2. 網絡層:在傳統地面系統中,節點位置通常是固定的,通信路徑相對穩定。相比之下,由于UAV的移動性,UAV系統的網絡拓撲更為靈活和動態。在這種情況下,GAI能夠實時生成適應不同通信場景的自適應網絡拓撲管理方案,根據任務需求進行調整。例如,提出WaveGAN方法優化動態飛行自組織網絡中的網絡拓撲。
  3. 應用層:UAV在應用層的多樣化任務需求和實時數據處理能力使其與其他無線系統顯著不同。此外,由于UAV資源受限的特性,對資源分配過程以及多目標之間的權衡提出了更高要求。在這種情況下,GAI能夠根據當前任務和環境變化的實時需求生成智能資源分配和任務調度解決方案,確保UAV系統的各種性能。具體來說,一個典型的例子是基于GAN的方法,以最小化UAV的能耗和地面用戶的任務延遲。

付費5元查看完整內容

大型語言模型(LLM)的出現顯著地重塑了人工智能革命的發展軌跡。然而,這些LLM存在一個明顯的限制,因為它們主要擅長處理文本信息。為了解決這一約束,研究人員努力將視覺能力與LLM整合,從而催生了視覺-語言模型(VLM)的出現。這些先進的模型在處理更復雜的任務,如圖像描述和視覺問答等方面發揮著重要作用。在我們的綜述論文中,我們深入探討了VLM領域的關鍵進展。我們的分類將VLM分為三個不同的類別:致力于視覺-語言理解的模型、處理多模態輸入以生成單模態(文本)輸出的模型,以及同時接受和產出多模態輸入和輸出的模型。這一分類基于它們在處理和生成各種數據模態方面的相應能力和功能。我們對每個模型進行了細致的解析,提供了其基礎架構、訓練數據來源以及可能的優點和限制的廣泛分析,以便為讀者提供對其核心組件的全面理解。我們還分析了VLM在各種基準數據集中的表現。通過這樣做,我們旨在提供對VLM多樣化景觀的細致理解。此外,我們強調了在這一動態領域未來研究的潛在途徑,期待進一步的突破和進展。

大型語言模型(LLM)的出現標志著人工智能領域變革性時代的開始,重塑了整個行業的格局。橫跨學術界和工業界的研究實驗室正積極參與到一個競爭激烈的賽跑中,以推動LLM的能力發展。然而,這些模型面臨一個顯著的限制——它們僅限于處理單一模態的數據,特別是文本。這一約束突顯了在持續完善LLM以便跨多種模態無縫運作的過程中一個關鍵的挑戰,這是AI領域進一步創新的重要途徑。

天生的智能擅長處理多種模態的信息,包括書面和口頭語言、圖像的視覺解釋以及視頻的理解。這種無縫整合不同感官輸入的能力使人類能夠導航復雜的現實世界。為了模仿人類的認知功能,人工智能同樣必須擁抱多模態數據處理。這一需求不僅僅是技術性的,更是為了讓AI系統在現實世界場景中具備上下文意識和適應性而必需的。

為了應對這些限制,研究人員開創了一種稱為視覺-語言模型(VLM)的尖端神經模型類別。這些模型復雜地結合了視覺和文本信息,展現出在理解和生成涉及圖像和文本的內容方面的卓越能力。VLM在執行圖像描述、響應視覺查詢和基于文本描述生成圖像等任務方面表現出多才多藝的能力。它們無縫整合視覺和語言模態的能力使它們站在技術進步的前沿,使它們能夠以無與倫比的技巧導航圖像與文本之間的復雜相互作用。

近期,主要研究實驗室持續推出創新的VLM,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。例如GPT-4(V)和Gemini展示了聊天機器人在VLM領域的進化。值得注意的是,并非所有多模態模型都是VLM;例如,像Midjourney和DALL-E [Ramesh et al., 2021]這樣的文本到圖像模型缺乏語言生成組件,凸顯出多模態AI領域的多樣化景觀。VLM的一般架構包括一個圖像和文本編碼器,用于生成嵌入,這些嵌入然后在圖像-文本融合層中融合,融合后的向量通過LLM生成最終的視覺感知生成文本。VLM的工作原理在圖2中顯示。

在這篇綜述論文中,我們根據它們的輸入處理和輸出生成能力,將VLM分為三大類:視覺-語言理解模型、多模態輸入文本生成模型和最先進的多模態輸入-多模態輸出模型。隨后的各節深入解釋了每一類別,闡明了這些多樣化VLM框架的細微功能和能力。

近期的相關綜述,如[Wang et al., 2023b]主要探討了用于開發多模態模型的各種預訓練技術和數據集,[Yin et al., 2023]探討了訓練各種多模態語言模型的關鍵技術。[Wu et al., 2023a]提供了使用多模態語言模型的實際應用和指導。最新的一篇由[Zhang et al., 2024]深入介紹了大約26種最新的VLM。與之前的綜述相比,沒有一個系統地根據它們的輸入處理和輸出生成能力對視覺-語言模型(VLM)進行分類。我們的綜述通過提供對VLM的徹底分類,揭示了它們功能的復雜性。我們廣泛分析了不同VLM在基準數據集上的表現,特別包括最新的MME基準,提供全面的見解。我們的綜述代表了迄今為止最全面、最新的VLM匯編,涵蓋了大約70個模型。它為用戶提供了在這一開創性研究領域不斷演變的視覺-語言模型的最新和最全面的見解,是最終的指南。

圖1:視覺語言模型的分類,突出顯示模型能夠處理的輸入和輸出格式。

2 視覺-語言模型(VLM)

在本節中,我們對VLM進行了全面的考察,將它們分類為三個主要類別: * 視覺-語言理解(VLU):這一類別包括專門為解釋和理解視覺信息與語言結合的模型。 * 多模態輸入的文本生成:在這一分類中,我們探索了在利用多模態輸入的同時,擅長生成文本內容的模型,從而融合了多種形式的信息。 * 多模態輸出與多模態輸入:這一類別深入研究了通過處理多模態輸入來生成多模態輸出的模型。這涉及到多種模態的合成,如視覺和文本元素,以產生全面而連貫的結果。我們在圖1.1中展示了這一寬泛的分類。

比較分析 我們對幾種視覺和語言模型(VLM)進行了廣泛的分析,這些模型跨越了十個廣泛認可的基準數據集,涵蓋了視覺問題回答(VQA)和圖像描述等任務。這一分析的結果呈現在表1中。此外,我們還使用多模態模型評估(MME)基準評估了這些VLM的感知和認知能力,其發現總結在表2中。更進一步,對各種VLM在視頻問題回答數據集上的比較考察詳細記錄在表3中。 3. 未來方向

預訓練與模塊結構之間的權衡:當前有很多研究正在進行中,通過引入模塊化代替黑盒預訓練,以增強VLM的理解、控制和可信度。納入其他模態:正在進行的工作包括引入更精細的模態,如受[Cheng et al., 2022]啟發的注視/手勢,這對教育行業非常重要。VLM的細粒度評估:正在進行更細致的VLM評估,關注偏見、公平等參數。在這方面的一些研究包括DALL-Eval [Cho et al., 2023a]和VP-Eval [Cho et al., 2023b]。VLM中的因果關系和反事實能力:已經完成了很多工作,以理解LLM的因果和反事實能力,這激發了研究人員在VLM領域探索相同的問題。Cm3 [Aghajanyan et al., 2022]是該領域的最早工作之一,該主題目前非常活躍。持續學習/遺忘:VLM領域存在一個趨勢,即有效地持續學習,無需從頭開始訓練。VQACL [Zhang et al., 2023a]和Decouple before Interact [Qian et al., 2023]是該領域的最初工作之一。受到LLM中觀察到的知識遺忘概念[Si et al., 2023]的啟發,研究人員也在VLM領域探索類似的方法。訓練效率:研究人員集中精力開發高效的多模態模型,如BLIP-2顯示出前景,它在零樣本VQA-v2中的表現超過Flamingo-80B 8.7%,同時使用的可訓練參數顯著減少(少54倍)。VLM的多語種基礎:繼OpenHathi [sarvam.ai, 2023]和BharatGPT [corovor.ai, 2023]等多語種LLM的最近激增之后,開發多語種視覺-語言模型(VLM)的勢頭正在增強。更多領域特定的VLM:各種領域特定的VLM,如MedFlamingo [Moor et al., 2023]和SkinGPT [Zhou et al., 2023]項目示例,已在其專業領域鋪平了道路。進一步的努力正在進行中,以特別為教育和農業等行業量身定制VLM。

4 結論

本文提供了一個關于VLM領域最新發展的綜述。我們根據VLM的用例和輸出生成能力對其進行分類,提供了對每個模型架構、優點和局限的簡潔見解。此外,我們突出介紹了該領域的未來方向,這些方向是根據近期趨勢來提供進一步探索的路線圖。我們相信這篇論文將作為一個寶貴的資源,為在多模態學習領域積極涉獵的計算機視覺和自然語言處理領域的研究人員提供指導。

付費5元查看完整內容

隨著近年來人工智能(AI)和機器人技術的發展,無人系統集群因其提供人類難以完成且危險的服務的潛力而受到學術界和工業界的極大關注。然而,在復雜多變的環境中學習和協調大量無人系統的動作和行動,給傳統的人工智能方法帶來了巨大的挑戰。生成式人工智能(GAI)具有復雜數據特征提取、轉換和增強的能力,為解決無人系統集群的這些難題提供了巨大的潛力。為此,本文旨在全面考察 GAI 在無人系統集群中的應用、挑戰和機遇。具體來說,我們首先概述了無人系統和無人系統集群及其使用案例和現有問題。然后,深入介紹各種 GAI 技術的背景及其在增強無人系統集群方面的能力。然后,我們全面回顧了 GAI 在無人系統集群中的應用和挑戰,并提出了各種見解和討論。最后,我們強調了無人系統集群中 GAI 的開放性問題,并討論了潛在的研究方向。

圖1:本文的總體結構。

近年來,無人系統(UVs)已成為一種顛覆性技術,為日常生活的各個領域帶來了革命性的變化,其應用范圍從包裹遞送、民用物聯網(IoT)到軍事用途[1, 2]。具體來說,無人車指的是可以在有限或無人干預的情況下運行的車輛、設備或機器,例如,車上沒有人類駕駛員或機組人員。得益于這一特殊屬性,UV 可用于在具有挑戰性或危險的環境中執行任務。一般來說,無人系統可分為無人飛行器(UAV)、無人地面車輛(UGV)、無人水面航行器(USV)和無人水下航行器(UUV)。正如其名稱所示,每種無人系統都是為特定任務和環境而設計的。例如,UAV 被廣泛用于航拍、環境和野生動物監測以及監視 [3, 4],而 UGV 則可用于運輸和炸彈探測等任務。不同的是,USV 和 UUV 分別用于水面和水下作業,包括海洋學數據收集、水下勘探和潛艇監視 [5,6]。

隨著近年來人工智能(AI)和機器人技術的發展,無人潛航器的概念已經發展到了一個全新的層次,即無人系統集群。從本質上講,無人系統集群是通過協調一組無人飛行器(如機器人、無人機和其他自主飛行器)來實現一個共同目標而設計的[7, 8]。實際上,無人集群中的每個系統都可以配備自己的傳感器、處理器和通信能力。為了讓它們高效地協同工作,人們采用了人工智能和機器人學的先進技術來協調它們的行為,并執行自主導航、自組織和故障管理等復雜任務 [7,9]。因此,與傳統的無人系統相比,無人系統集群擁有各種優勢。特別是,它們可以根據具體任務和要求動態調整車輛數量,從而提供可擴展性和操作靈活性。此外,如果無人系統群中有幾個無人系統無法運行,剩余的無人系統仍然可以協同工作,確保任務成功。這對于需要高彈性和魯棒性的任務尤其有用。最后,通過允許無人系統集群相互學習和協作,無人系統集群可以實現集群智能,即所謂的集體智能[10, 11],從而大大提高運行效率和可靠性。

雖然在無人系統集群中發揮著重要作用,但傳統的人工智能技術仍面臨諸多挑戰。特別是,這些技術需要大量標注的訓練數據,而且只能在特定環境下才能獲得良好的性能。因此,它們極易受到環境的動態性和不確定性的影響,而環境的動態性和不確定性正是無人系統集群的特點,例如無人系統之間的動態連接、風和洋流的影響以及物聯網應用中傳感器的不確定性和多樣性。此外,傳統的人工智能方法在具有大量 UV 的復雜場景以及水下、偏遠地區和受災地區等具有挑戰性的環境中可能表現不佳。為了克服傳統人工智能技術面臨的這些挑戰,生成式人工智能(GAI)在理解、捕捉和生成復雜的高維數據分布方面具有開創性的能力,因此最近在文獻中被廣泛采用。鑒于 GAI 在 UV 集群中的潛力,本文旨在從不同角度全面探討 GAI 在實現群體智能方面的挑戰、應用和機遇。

文獻中有一些調查側重于人工智能在 UV 中的應用[12, 13, 14, 15]。例如,文獻[12]的作者研究了深度學習、深度強化學習和聯邦學習等傳統人工智能技術在基于無人機的網絡中的應用,而文獻[13]的作者則對機器學習(ML)在無人機操作和通信中的應用進行了更全面的調查。不同的是,在文獻[15]中,作者綜述了物聯網網絡中人工智能無人機優化方法,重點關注人工智能在無人機通信、群體路由和聯網以及避免碰撞方面的應用。同樣,文獻[7]也討論了 AI/ML 在無人機群體智能中的應用。值得注意的是,上述調查和其他文獻主要關注無人機和傳統人工智能方法。據我們所知,目前還沒有任何文獻對無人機群的 GAI 發展進行全面的調查。本文的主要貢獻可歸納如下。

  • 介紹了 UV 集群的基本原理,包括其在空中、地面、水面和水下領域的設計和運行以及實際應用案例。
  • 深入概述了常見的 GAI 技術,包括生成對抗網絡 (GAN)、變異自動編碼器 (VAE)、生成擴散模型、變換器和歸一化流。我們還詳細介紹了每種技術在 UV 群體中的主要優勢和挑戰。
  • 全面回顧了 GAI 在 UV 集群各種問題中的應用,如狀態估計、環境感知、任務/資源分配、網絡覆蓋和點對點通信以及安全和隱私。通過回顧這些 GAI 應用,我們深入了解了如何將 GAI 應用于解決 UV 集群中新出現的問題。
  • 介紹了 UV 集群中 GAI 的基本開放問題和未來研究方向,包括可擴展性、自適應 GAI、可解釋群體智能、安全/隱私和異構群體智能。

本文的整體結構如圖 1 所示。第二節介紹了 UV 集群的基本原理。第三節深入概述了不同的 GAI 技術及其優勢。然后,第四節深入探討了 GAI 在 UV 集群新問題中的應用。第五節強調了 GAI 在UV集群中的未決問題和未來研究方向。此外,表 I 列出了本文中使用的所有縮寫。

圖2:UV系統的基礎結構及其應用。

圖 5:探索創新范圍:本圖展示了 12 個突破性的模型結構,每個方面都有兩種不同的方法,以展示 GAI 在提高性能和應對UV集群挑戰方面的各種應用。每個模型都包含獨特的策略和解決方案,全面展示了該領域的技術進步。

狀態估計

狀態估計對 UVs 集群的應用至關重要,尤其是在自動駕駛和交通估計等領域。在導航或軌跡規劃過程中,位置、速度和方向等狀態變量對橫向決策起著至關重要的作用 [128]。然而,系統測量和機器人動態的隨機性會導致實際狀態的不確定性。因此,狀態估計的主要目標是根據現有的時間觀測結果推導出狀態變量的分布 [127]。

將 GAI 集成到 UV 的狀態估計中提供了廣泛的創新方法,每種方法都是針對特定挑戰和操作環境量身定制的。例如,在應對 UGV 交通狀態估計中數據不足的挑戰時,[121] 中的作者利用圖嵌入 GAN,通過捕捉道路網絡中的空間互連,為代表性不足的路段生成真實的交通數據。在這一提議的框架中,生成器使用類似路段的嵌入向量來模擬真實交通數據。同時,判別器會區分合成數據和實際數據,并對生成器進行迭代訓練,以優化這兩個部分,直到生成的數據在統計上與真實數據無異。與 Deeptrend2.0 等傳統模型[129]相比,這種方法不僅填補了數據空白,還大大提高了估計精度,平均絕對誤差的減少就是明證。交通狀態估計的這種進步凸顯了 GAI 在復雜交通場景中改善 UGV 導航和決策的潛力 [121]。

除標準 GAN 外,cGAN 也可用于根據原始測量結果生成相應的系統狀態估計變量 [123]。cGAN 框架采用傳感器的原始測量值作為條件約束,解決了在動態環境中準確估計多個無人機運動的難題。文獻[124]中的作者將 Social LSTM 網絡[130]的單個運動預測與 Siamese 網絡[131]的全局運動洞察相結合,實現了綜合運動狀態預測。這種方法在準確預測無人飛行器軌跡方面表現出色,這對有效的集群導航至關重要。通過有效地分離和融合單個運動和全局運動,基于 cGAN 的框架表現出色,與原始的 Social LSTM 相比,提高了多目標跟蹤的性能。

此外,VAE 在捕捉無人機無線信道中的時間相關性方面的應用凸顯了 GAI 在通信系統中的重要性,它通過生成真實、多樣的信道樣本,改善了信道狀態估計和信號清晰度[125]。這種探索延伸到了基于擴散的分數模型和深度歸一化流,用于生成復雜的狀態變量分布,展示了 GAI 以更靈活的方式建模和估計狀態的能力,從狀態變量(即位置、速度和方向)到這些分布的復雜高維梯度[126, 127]。

GAI 在 UV 集群狀態估計方面的多功能性體現在兩個方面:通過對抗機制生成缺失信息的能力和融合各種數據源進行綜合狀態分析的能力。這些能力可以在復雜的運行場景中實現更精確的狀態估計。

環境感知

UV 的環境感知通常是指飛行器實時感知和了解周圍環境的能力 [142]。這是 UV 集群實現自主導航和完成任務的關鍵技術。這種技術通常涉及使用激光雷達、攝像頭和毫米波雷達等傳感器與外部環境進行交互 [143]。GAI 的各種創新應用明顯推進了 UV 的環境感知領域,詳見表 III。例如,由于運動造成的運動模糊、不利的天氣條件和不同的飛行高度等內在限制,無人機經常捕捉到低分辨率的圖像。為解決這一問題,作者在 [132] 中介紹了一種名為 Latent Encoder Coupled Generative Adversarial Network(LE-GAN)的框架,旨在實現高效的高光譜圖像(HSI)超分辨率。LE-GAN 中的生成器使用短期光譜空間關系窗口機制來利用局部-全局特征并增強信息帶特征。判別器采用真實圖像和生成圖像的概率分布之間基于瓦瑟斯坦距離的損失。這種框架不僅提高了 SR 質量和魯棒性,而且通過學習潛空間中高分辨率 HSI 的特征分布,緩解了模式坍縮問題造成的光譜空間失真[132]。

除了通過提高遙感分辨率來改善 UV 的精度外,GAI 更常見的應用是生成合成數據集,這表明了數據不足導致模型精度降低的難題[138]。例如,一個名為軌跡 GAN(Trajectory GAN,TraGAN)的框架用于從高速公路交通數據中生成逼真的變道軌跡[133]。另一個基于 GAN 的框架名為 DeepRoad,用于自動駕駛系統的測試和輸入驗證 [134],通過生成不同天氣條件下的駕駛場景來提高測試的可靠性。VAE 也被用于生成更真實、更多樣的碰撞數據,以解決傳統數據增強方法的局限性 [136]。此外,結合 VAE 和 GANs 的圖像轉換框架可用于將模擬圖像轉換為真實的合成圖像,以訓練和測試變化檢測模型 [135,137],不過它們仍需要真實圖像作為參考。此外,[139] 中的作者介紹了一種利用文本到圖像擴散模型的方法,用于生成逼真、多樣的無人機圖像,這些圖像以不同的背景和姿勢為背景。通過合并背景描述和基于地面實況邊界框的二進制掩碼生成的 20,000 多張合成圖像,檢測器在真實世界數據上的平均精度提高了 12%。

GAI 的另一個應用領域是場景理解或字幕制作。這種方法包括使用 CLIP 前綴進行圖像字幕處理,將 UV 捕捉到的圖像的視覺內容轉化為準確的文本描述,以便在 UV 中進行決策[140]。另一種方法是部署生成知識支持變換器(GKST),通過融合來自不同車輛視角的圖像信息來增強特征表示和檢索性能。[141]. 這些技術的一個有趣方面是,它們能夠處理和解釋復雜的視覺輸入,提供與人類感知非常相似的上下文理解水平。這種能力在動態環境中尤為有益,因為在動態環境中,快速準確地解讀視覺數據對有效決策至關重要。

總之,GAI 的生成能力在 UV 的環境感知領域證明是非常寶貴的。從提高圖像分辨率到生成合成數據集、創建多樣化的測試環境以及推進場景理解,GAI 是推動 UV 演進和提高其理解周圍環境并與之互動的效率的基石技術。

自主程度

自主性是指系統在沒有人類干預的情況下執行任務或決策的能力[152]。自主水平代表了 UV 在完全依賴機載傳感器、算法和計算資源的情況下獨立運行的能力。在 UV 蜂群中,自主水平取決于各種因素,如任務的類型和復雜程度、規劃和執行路線的能力等 [153]。表 IV 說明了 GAI 的集成在推進這些自主能力方面的關鍵作用。

在 UV 集群合作戰略領域,GAI 的應用體現在生成對抗模仿學習(GAIL)與多智能體 DRL 的集成上。例如,作者在 [144] 中介紹了一種基于多智能體 PPO 的生成式對抗仿真學習(MAPPO-GAIL)算法,該算法采用多智能體近似策略優化來同時采樣軌跡,完善策略和價值模型。與傳統的 DRL 搜索算法相比,該算法將網格概率用于環境目標表示,將平均目標發現概率提高了 73.33%,而平均損壞概率僅降低了 1.11%。此外,GAIL 還可用于在虛擬環境中訓練無人機執行導航任務,從而適應復雜多變的場景 [146]。

此外,還提出了一種基于 VAE 的模型,名為 BézierVAE,用于車輛軌跡建模,特別是安全驗證。BézierVAE 將軌跡編碼到潛在空間,并使用貝塞爾曲線對其進行解碼,從而生成多樣化的軌跡。與傳統模型 TrajVAE 相比,BézierVAE 顯著減少了 91.3% 的重構誤差和 83.4% 的不平滑度[133],大大提高了自動駕駛車輛的安全性驗證[147]。在自主機器人調度方面,COIL 利用 VAE 生成優化的定時調度,大大提高了運行效率 [148]。最后,在多智能體軌跡預測中,考慮到意圖和社會關系的復雜性,采用了受條件 VAE 啟發的 GRIN 模型來預測智能體軌跡。雖然復雜系統面臨挑戰,如遵守物理定律等上下文規則,但可以通過使用特定解碼器或代理模型來近似這些限制,從而應對挑戰[149]。

在 UV 的路由規劃中,變壓器架構與 DRL 相結合,用于優化多個合作無人機的路由。與傳統算法相比,該方法性能優越,并行處理效率高,可持續獲得高回報 [150]。

增強 UV 的自主性對其獨立和合作的集群行動至關重要。GAI 的生成能力應用于多個方面,從生成新軌跡到完善路由策略,以及在不同場景中模仿智能體的路由行為。這些多樣化的應用展示了動態和適應性強的解決方案,對于 UV 在復雜多變的環境中高效、獨立地導航和運行至關重要。

任務/資源分配

在多智能體 UV 群的任務和資源分配領域,GAI 引入了有效的方法,提高了這些系統的效率和適應性。傳統方法通常依賴于固定算法和啟發式方法,但這些方法并不總能滿足動態和復雜環境的要求 [159]。如表 V 所示,GAI 為這些具有挑戰性的場景提供了必要的靈活性。

有人提出了一種基于 GAIL 的算法,用于為 DRL 重建虛擬環境,其中生成器生成專家軌跡,判別器將專家軌跡與生成的軌跡區分開來 [154]。這種方法可以創建一個接近真實世界條件的虛擬邊緣計算環境。它為計算資源分配多智能體 DRL 方法提供了探索和推斷獎勵函數的場所,同時避免了任意探索造成的對用戶體驗的損害。此外,一種基于自動編碼器的方法被應用到匈牙利算法中,以減輕數據速率矩陣中出現的相同權重造成的信息模糊問題,尤其是在蜂窩用戶(CU)和設備到設備用戶(D2DU)之間的帶寬和功率資源分配中[155]。該方法利用潛空間作為超參數,提供了一個最佳的重構成本矩陣,以協助資源分配決策。

此外,作者在 [156] 中提出了一種基于擴散模型的人工智能生成最優決策(AGOD)算法。該算法可根據實時環境變化和用戶需求進行自適應和響應式任務分配。正如深度擴散軟行為者批判(D2SAC)算法所展示的那樣,該算法通過整合 DRL 進一步提高了功效。與傳統的 SAC 方法相比,D2SAC 算法在任務完成率方面提高了約 2.3%,在效用收益方面提高了 5.15%[156]。傳統的任務分配方法假定所有任務及其相應的效用值都是事先已知的,而 D2SAC 則不同,它可以解決選擇最合適服務提供商的問題,因為任務是實時動態到達的。與傳統方法相比,D2SAC 在完成率和效用方面都有顯著的性能提升。

在聯合計算和通信資源分配領域,由于 UV 的獨立性質和電池限制,有效管理的重要性在 UV 中更加突出。文獻[157]中提出的基于擴散的模型提供了一種先進的方法,用于設計語義信息傳輸的最佳能源分配策略。該模型的一個主要優勢是能夠迭代改進功率分配,確保在 UV 群動態環境造成的不同條件下優化傳輸質量。在傳輸距離為 20 米、傳輸功率為 4 千瓦的條件下,這種基于擴散模型的人工智能生成方案超過了其他傳統的傳輸功率分配方法,如平均分配(名為 Avg-SemCom)和基于置信度的語義通信(Confidence-SemCom)[157],迭代次數約為 500 次,傳輸質量提高了 0.25。

另一方面,作者在論文[158]中提出結合 LLM 探索提升 GAI 在多智能體 UV 群任務和資源分配方面的能力。利用 LLM 先進的決策和分析能力,為每個用戶創建了獨立的 LLM 實例,以實現 "通過以下方式減少網絡能耗 "的初衷Δp=0.85W"轉化為一系列細節任務,如調整發射功率和信道測量。然后將結果提示給 LLM,由 LLM 添加后續任務并指示相關執行器采取行動。通過在 LLM 上的集成,無人機智能體成功地在 2 個回合內實現了省電目標。盡管進一步的仿真結果表明,當智能體數量增加時,當前的 GPT-4 在維持多個目標方面會遇到一些困難。這種整合標志著 UV 蜂群在自主性和功能性方面的顯著進步。

總之,GAI 大大推進了多智能體 UV 群的任務和資源分配領域。從創建生動的仿真環境供分配算法探索,到迭代調整分配策略和打破粗略的任務細節意圖,GAI 展示了處理動態環境和各種挑戰的強大能力。

網絡覆蓋和點對點通信

如第二節所述,UV 的一個關鍵應用是作為移動基站重建通信網絡[46, 47, 48, 49, 164]。在這種情況下,有效的定位策略至關重要,它能以有限的 UV 實現最大的用戶覆蓋范圍,從而確保無縫接入。此外,當 UV 蜂群以分層結構部署時,領導 UV 充當指揮中心,確保子 UV 之間的有效通信覆蓋對于任務分配和協作至關重要。如表 VI 所示,各種 GAI 可滿足高效網絡覆蓋和車對車(V2V)通信的需求。

雖然利用無人機作為移動站來提供動態無線通信中的臨時網絡鏈接正變得越來越流行,但由于無人機高度、移動模式、空間域干擾分布和外部環境條件等因素的不同,優化網絡可能非常復雜,這帶來了獨特的挑戰。為解決有限無人機的網絡覆蓋優化問題,作者在 [160] 中提出使用 cGAN。該框架包括一個用于建模和預測最佳網絡配置的生成器、一個用于評估這些配置在真實世界場景中的效率的判別器,以及一個用于適應性和可擴展性的編碼機制。基于 cGAN 的方法不僅保證了無人機的最佳定位,還簡化了計算復雜度。作者在文獻 [163] 中提出的另一種解決方案利用基于自我注意的變壓器來預測用戶的移動性,并改進空中基站的布置。變壓器模型能夠捕捉時空相關性并處理長輸入和輸出序列。與常規部署方案相比,基于變壓器的方案在覆蓋率方面取得了顯著提高,比常規方案提高了 31% 以上[167],比基于 LSTM 的方案提高了 9% 以上。

在對 UV 蜂群中的安全導航至關重要的 V2V 通信領域,車輛經常會通過轉發圖像來交流環境數據。然而,由于傳輸中斷、環境噪聲和車輛運動造成的噪聲,這些圖像可能會被破壞。為解決這一問題,作者在 [162] 中整合了用于圖像復原和網絡優化的 GDM。GDM 可使車輛通過減少數據傳輸和通信延遲,將傳輸的圖像恢復到原始質量。基于隨機微分方程的 GDM 具有迭代特性,善于完善車聯網網絡解決方案,特別是在路徑規劃等領域。例如,GDM 以初步路徑啟動優化,然后根據關鍵性能指標逐步改進。該過程利用這些指標梯度來引導路徑修改,以實現最優解。與傳統的 DQN 方法相比 [168],所提出的基于 GDM 的方法在 300 個歷時[162]的平均累積獎勵中實現了 100% 的增長。

總之,對于網絡覆蓋和可達性,GAI 可以直接生成定位策略,也可以充當編碼器,通過捕捉空間信息來增強傳統算法。在效率方面,GAI 可作為一個框架,利用語義信息減少數據傳輸,同時通過引導生成保持通信。然而,盡管這些發展代表了管理 UV 蜂群的飛躍,但仍有一些領域有待進一步探索。例如,[162] 中的作者提出了整合其他模式以提高通信效率的問題。這為未來研究在 UV 網絡中整合多模態數據處理提供了機會。這種探索可以大大提高這些技術對不同網絡拓撲結構和環境條件的適應性。此外,GAI 有可能促進 UV 蜂群部署中的自主決策,這為推動該領域的發展提供了一條大有可為的途徑。通過擴大 GAI 的應用范圍,研究人員可以針對各種復雜的現實世界場景進一步優化 UV。

安全/隱私

安全和隱私是 UV 蜂群的重要方面,尤其是在軍事和監控應用中。將 GAI 集成到這些領域可為增強系統安全性和確保隱私提供創新解決方案。如圖 6 所示,一個有趣的潛在應用是利用 GAI 生成虛假數據或模擬通信活動的能力來充當 "蜜罐",誤導潛在攻擊者并加強系統安全性[176]。LLM 生成的 "蜜罐 "可作為額外的保護層,傳播虛假信息,迷惑和誘捕攻擊者,從而增強蜂群的集體安全性。在蜂群網絡中創新性地使用語言處理技術,是保護自動駕駛汽車免受復雜網絡威脅的一個新領域。表七詳細介紹了 GAI 在 UV 蜂群安全和隱私保護中的應用。

自動駕駛 GAN(ADGAN)[169]是 GAI 在隱私保護領域的一個顯著應用。ADGAN 是一種基于 GAN 的圖像到圖像轉換方法,旨在保護車輛攝像頭位置數據的隱私。ADGAN 通過移除或修改圖像中的背景建筑物來實現這一目標,同時保留了識別交通標志和行人等其他物體的功能。語義通信是增強 UV 群安全性的有效手段,因為它能去除與任務無關的背景圖像。此外,ADGAN 引入了多判別器設置,提高了圖像合成性能,并提供了更強的隱私保護保障,可抵御更強大的攻擊者[169]。另一個類似的應用是基于 GAN 的框架,該框架通過改變可識別的特征來保護街景圖像中的身份隱私,例如用逼真的背景替換移動的物體 [172]。

在軌跡數據隱私方面,TrajGAN 通過生成合成軌跡來保護軌跡數據的隱私[170]。這些軌跡遵循與真實數據相同的分布,同時掩蓋了用戶的個人位置和身份。它們保留了真實數據的統計屬性,并捕捉到了人類的移動模式。不過,TrajGANs 在創建密集的軌跡表示時可能會面臨挑戰,特別是在時間戳和路段方面,而且可能無法識別數據中的一些罕見或特殊事件。為了進一步加強保護,作者在 [171] 中提出了 LSTM-TrajGAN 框架。該框架由三部分組成:一個生成器,用于生成和預測真實的軌跡配置;一個判別器,用于將這些配置與真實數據進行比較,以驗證其真實性和實用性;以及一個專門的編碼機制,利用 LSTM [177] 循環神經網絡對軌跡數據及其各自的時間戳進行時空嵌入。使用軌跡-用戶鏈接(TUL)算法作為攻擊者,對其隱私保護效果進行了評估[178]。在真實世界的語義軌跡數據集上進行評估后發現,與隨機擾動(66.8%)和高斯地理掩碼(48.6%)等傳統地理掩碼方法相比,所提出的方法能將攻擊者的準確率從 99.8% 降低到 45.9%,從而實現更好的隱私保護[179]。這些結果表明,LSTM-TrajGAN 可以更好地防止用戶被重新識別,同時保留真實軌跡數據的基本時空特征。

VAE 也被用于保護 UV 軌跡隱私。文獻[173]中的作者利用 VAE 創建合成車輛軌跡,通過在數據中添加噪聲來確保不同的隱私。這種方法有助于有效模糊車輛位置,但由于添加了噪聲,可能會導致一些數據失真。如文獻[174]所述,聯合學習中的變形器通過在網絡間只共享基本數據特征來提高自動駕駛的隱私性。這種方法提高了隱私性,但面臨著通信鏈路穩定性和外部干擾的挑戰。

為了保護車輛網絡安全,作者在文獻 [175] 中提出了一種基于變壓器的入侵檢測系統,為車輛網絡提供了一種復雜的解決方案。該系統采用自我注意機制分析控制器局域網(CAN)報文,將其準確地分類為各種車內攻擊,如拒絕服務、欺騙和重放攻擊。作者在 [174] 中提出的另一個基于變壓器的模型是將變壓器集成到聯合學習設置中。這種方法可以在自動駕駛汽車網絡中共享關鍵數據特征而不是原始數據。這種方法能最大限度地減少敏感數據的暴露,同時還能實現協同決策和計算,從而大大提高了隱私保護。

總之,GAI 在 UV 群中的應用徹底改變了安全和隱私措施,特別是在軍事和監控等敏感領域。"蜜罐 "和基于 GAN 的框架等技術展示了 GAI 在數據處理方面的能力,從而增強了安全性。此外,在針對軌跡隱私的聯合學習中實施 VAE 和轉換器,以及先進的入侵檢測系統,都凸顯了 GAI 在防范復雜網絡威脅方面的適應性和有效性。

UV安全和故障檢測

UV安全是另一個關鍵問題,包括系統故障的檢測、隔離和解決。與避免碰撞或為 UV 集群制定安全路徑規劃策略等與這些系統的自主水平更密切相關的其他安全問題不同[184],UV 安全研究突出了 UV 系統內部漏洞(包括算法和硬件故障)帶來的獨特挑戰。該領域的研究旨在通過開發方法和技術,使這些系統能夠在潛在故障影響車輛性能或安全之前有效識別并排除故障,從而提高 UV 運行的整體可靠性和安全性。

監測運行參數以檢測 UV 系統故障對于確保其安全性和效率至關重要。有人提出了一種新穎的框架,該框架使用 LSTM 網絡與自動編碼器相結合,能夠從車輛性能數據中持續學習 [181]。這一框架增強了系統精確定位和逐步處理故障的能力。LSTM 在處理時間序列數據方面的能力使這種方法在各種因素都可能影響車輛性能的動態環境中尤為有效。LSTM 自動編碼器可以生成代表潛在故障場景的合成數據點,從而增強訓練數據集,使模型能夠從更廣泛的條件中學習,并根據模擬數據在檢測不同類型的無人機誤操作方面達到 90% 的準確率,在分類方面達到 99% 的準確率。這大大提高了 UV 系統的安全性和運行效率。在隨后的發展中[182],無人機故障檢測和分類取得了進展,特別是通過基于 FPGA 的硬件加速,速度提高了四倍,而能耗卻降低了一半。這項研究進一步確定了 GAI 的關鍵考慮因素,表明模型計算可針對實時操作進行優化。在無人機群中的成功部署也表明,類似的策略可以提高 GAI 在動態環境和復雜任務協調中的性能。

另一方面,VAE 提出了在 UV 蜂群中進行故障和異常檢測的復雜方法。作者在 [180] 中提出了一種新方法,即在代表 UV 正常運行的數據上訓練 VAE。這種方法有助于 VAE 理解什么是標準性能。學習過程涉及輸入數據的重建,其中模型準確復制原始數據的能力是識別操作一致性的基礎。重構誤差與標準值的重大偏差預示著潛在的故障或異常。通過對輸入數據進行重構并計算所產生的誤差,基于 VAE 的方法在檢測故障和異常方面的平均準確率達到了 95.6%[180]。利用 VAE 映射關系能力的優勢在于,它們能熟練發現訓練數據集中不存在或未考慮的新故障或問題。這一特點確保了基于 VAE 的系統能夠在各種不可預測的場景中保持高水平的安全性和可靠性。在經常會遇到各種環境條件和操作挑戰的 UV 操作中,這一特性顯得彌足珍貴。然而,必須承認的是,VAE 的性能會受到各種因素的影響,其中包括 VAE 模型本身的復雜性、用于訓練的數據的質量和多樣性,以及將重建錯誤標記為潛在故障的特定閾值。

此外,作者在文獻[183]中利用時空變壓器網絡對電動汽車的電池故障進行診斷和故障預報,因為該網絡具有專門的架構,在提取多個時空尺度的關鍵特征方面表現出色。采用時空變壓器網絡進行車輛電池故障診斷和故障預報,在識別預警信號和預測不同時空尺度的故障方面表現出色。它利用車載傳感器數據分析和預測電池故障演變的能力完全符合 UV 的需求,因為 UV 的運行嚴重依賴于電池的完整性。通過集成這樣一個模型,預測性維護策略得到了極大的增強,可以在 24 小時到一周的精確時間窗口內及早發現異常并預測電池故障。這種方法不僅可以通過優化車輛計劃來減少停機時間,從而提高運營效率,而且在防范可能危及車輛安全的潛在電池故障方面也發揮著至關重要的作用。

在 UV 運行中,確保安全性和可靠性不僅包括檢測故障,還包括隔離受影響的組件以防止出現更多問題,并實施有針對性的解決方案來解決問題。例如,在傳感器故障導致信息丟失等相對較小的問題上,VAE 和 GAN 的使用說明了 GAI 在故障管理中的創新應用[185]。通過優化 VAE-CGAN 結構,這些模型可以重新生成缺失的時間序列數據,從而證明了它們在運行故障損害數據完整性的情況下的有效性。這一功能尤其適用于無人機農業監控等應用,在這些應用中,數據收集的連續性至關重要。

在解決危及 UV 蜂群運行的嚴重問題時,當前研究中一個引人入勝的方面是為脫穎而出的 "在哪里墜毀 "決策協議制定策略[186]。這一概念針對的是在發生嚴重故障時,UV 應如何以及在何處終止運行的預定協議需求,以最大限度地減少次生危害。這些協議包括無人機的緊急著陸區、USV 和 UUV 的特定下沉點以及 UGV 的受控停止措施。然而,這些預定義協議可能無法適應所有可能出現的情況。因此,將 GAI 集成到 UV 星群故障管理策略中為提高安全性提供了一種先進的方法。例如,通過分析實時傳感器數據和了解蜂群動態的復雜性,變形金剛能夠做出情境感知決策,為受損的 UV 準確識別最安全的終止點 [187]。采用這種 GAI 不僅可以改善關鍵故障的管理,還能降低二次事故的風險。

付費5元查看完整內容

大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。

1 引言

最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。

基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。

我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。

為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。

關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。

解析LLM-MA系統:界面、輪廓、通信和能力

在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。

應用

LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。

使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。

結論

基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。

付費5元查看完整內容

深度學習已經成功應用于許多應用領域,但其在時間序列預測方面的優勢顯現較慢。例如,在著名的 Makridakis(M)競賽中,傳統統計或機器學習技術的混合應用直到最近才開始表現突出。隨著深度學習的最新架構進展(例如,帶有注意力機制的編碼器-解碼器、變換器和圖神經網絡)被應用于時間序列預測,深度學習開始展現顯著優勢。然而,在大流行病預測領域,深度學習模型仍面臨挑戰:時間序列長度不足以進行有效訓練、對累積的科學知識缺乏認識、以及模型的可解釋性問題。為此,基礎模型(具有廣泛預訓練的大型深度學習模型)的開發使得模型能夠理解模式和獲得知識,這些知識可以在廣泛訓練數據變得可用之前應用于新的相關問題。此外,深度學習模型還可以利用包括知識圖譜和用科學領域知識微調的大型語言模型等大量知識。目前,正在研究如何將這些知識利用或注入到深度學習模型中。在這篇綜述中,我們回顧了幾種最新的建模技術,并提出了進一步工作的建議。1 引言

過去四年對 COVID-19 的經歷向像國家科學基金會(NSF)和疾病控制與預防中心(CDC)這樣的組織清楚地表明,我們需要為下一次大流行做更好的準備。截至 2024 年 1 月 13 日星期六,僅在美國,COVID-19 就造成了 6,727,163 例住院和 1,169,666 例死亡(美國首例 1/15/2020,美國首次死亡 2/29/2020)。下一次大流行可能會更具傳染性,帶來更大的影響。有一些顯著的成功,例如能夠比以往方法更快開發的信使 RNA 疫苗。然而,檢測大流行開始和預測其軌跡的記錄還有改進的空間。 大流行病準備包括持續監測的需求。在復雜的隨機系統中預測罕見事件非常困難。從出現前到流行病再到大流行的過渡,只有在事后才能清楚地看到。使用模型進行大流行預測也非常重要。由于其高影響和可能造成的生命損失,復雜的模型被用于預測颶風的未來。大流行的影響可能會更大。與天氣預報一樣,準確的大流行預測需要三件事:(1)模型的收集,(2)準確的數據收集,以及(3)數據同化。如果這三者中的任何一個出現問題,準確性就會下降。準確性下降時,干預和控制機制無法最優化地應用,導致公眾的挫敗感。 在 COVID-19 大流行期間,數據每天都在收集,但如圖 1 所示,存在一個非常強烈的每周模式,主導了新增死亡曲線,這是報告流程的人為影響。另外,注意住院人數和重癥監護病房(ICU)患者數量似乎是很好的領先指標。 由于每日死亡人數的鋸齒形模式,一些建模研究發現使用每周數據更好。在 COVID-19 后期,日報停止,只剩下每周報告。不幸的是,這意味著用于訓練深度學習模型的數據大大減少。應用的建模技術是統計的、機器學習的或基于理論的腔室模型,這些模型是對易感-感染-康復(SIR)或易感-暴露-感染-康復(SEIR)模型的擴展。這些狀態之間的轉換由微分方程控制,其速率常數可以從數據中估計。不幸的是,估計例如處于暴露狀態的個體的人口可能非常困難。另外兩個類別,統計和機器學習(包括深度學習和基礎模型),可以說更適應可用數據,因為它們尋找重復的模式、依賴過去和領先指標。兩者都可以被構建為多變量時間序列(MTS)預測問題,盡管 MTS 分類和異常檢測的相關問題也非常重要。然而,與理論的聯系是可取的,可能會導致更好的長期預測,以及對現象的更深入理解。這導致了對理論指導的數據科學(TGDS)[52, 82]和物理信息神經網絡(PINN)[51]的研究。統計和機器學習技術相互補充。例如,建模研究應該有可靠的基線模型,根據我們的研究,應該包括隨機游走(RW)、自回歸(AR)和季節性、自回歸、整合、移動平均帶外部變量(SARIMAX)。當訓練數據有限時,SARIMAX 通常與深度學習模型競爭。如果使用每周數據,那么在大流行的早期階段,訓練數據將是有限的,正是準確預測最需要的時候。像 SARIMAX 這樣的基線也可以幫助進行超參數調整,因為有足夠的數據,人們會期望深度學習模型表現良好;SARIMAX 的結果可以幫助衡量這一點。此外,SARIMAX 已被用于數據增強,以幫助訓練深度學習模型[42]。 展望未來,這篇擴展了 [80] 的綜述論文提出了一個問題:人工智能(AI),特別是深度學習,如何被用于提高大流行病準備和預測,以便更好地深度學習模型、更可解釋的模型、使用大型語言模型(LLM)訪問科學文獻、開發和使用知識庫和知識圖譜,以及更好和持續的評估大流行干預和控制。

本文的其余部分組織如下:第 2 節提供了 MTS 預測的兩波改進的概述。第 3 節重點關注了最近在 MTS 預測方面的進展,著眼于變換器和相關建模技術。這些建模技術越來越努力更好地捕捉時間動態,并傾向于成為國家級 COVID-19 預測的頂尖表現者。第 4 節重點關注了最近在空間-時間域中的 MTS 預測進展,各種類型的圖神經網絡在這里有自然的吸引力。這些建模技術傾向于應用于州級 COVID-19 數據。第 5 節討論了用于時間序列預測的基礎模型,即大型預訓練深度學習模型。第 6 節討論了各種形式的知識,如知識圖譜,它是預測模型的自然補充。這些知識可以用于提高預測準確性,檢查預測的合理性(特別是長期預測的問題),指導建模過程,并幫助解釋建模結果。第 7 節給出了當前文獻中發現的幾種建模技術的有效性比較的元研究。最后,第 8 節給出了總結,包括展望未來 MTS 可能的發展方向。

付費5元查看完整內容

高度靈活、可重用的人工智能(AI)模型的異常快速發展可能會在醫學中引入新的能力。本文提出一種醫學人工智能的新范式,稱為全科醫學人工智能(GMAI)。GMAI模型將能夠使用很少或沒有特定任務的標記數據來執行一系列不同的任務。GMAI通過在大型、多樣化的數據集上進行自監督而建立,將靈活地解釋不同的醫療模式組合,包括來自圖像、電子健康記錄、實驗室結果、基因組學、圖或醫學文本的數據。反過來,模型將產生表現力的輸出,如自由文本解釋、口頭建議或圖像注釋,這些顯示了先進的醫學推理能力。本文確定了GMAI的一組高影響的潛在應用,并列出了實現它們所需的特定技術能力和訓練數據集。我們預計,支持GMAI的應用程序將挑戰目前監管和驗證醫療人工智能設備的策略,并將改變與大型醫療數據集收集相關的實踐。

付費5元查看完整內容

數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。

1. 引言

數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。

深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。

最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。

2 任務和數據集

在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。

2.1 數學應用題解決

幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。

2.2 定理證明

自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。

2.3 幾何解題

自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。

2.4 數學問答

數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。

3 用于數學推理的神經網絡

3.1 數學的Seq2Seq網絡

序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。

3.2基于圖的數學網絡

Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡

注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。

4 預訓練的數學推理語言模型

預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。

**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。

5 .基于上下文的數學推理學習

大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。

結論:

本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新

付費5元查看完整內容

在過去的幾年里,機器學習得到了迅猛的發展,并在各個領域得到了廣泛的應用。這股熱潮始于2009年,當時出現了一種新的模型,即深度人工神經網絡,它開始在一些重要的基準上超越其他已建立的成熟模型。后來,它被廣泛應用于學術界和工業界。從圖像分析到自然語言處理,它充分發揮了它的魔力,現在已經成為最先進的機器學習模型。深度神經網絡在醫學影像技術、醫療數據分析、醫療診斷等醫療保健問題上具有巨大的潛力,并在臨床前甚至臨床階段得到推廣。在這篇綜述中,我們概述了機器學習在醫學圖像分析中的應用的一些新進展和挑戰,特別是在光聲成像中的深度學習。

這篇綜述的目的有三個:(i)介紹了深度學習的一些重要基礎知識,(ii)回顧了近年來在光聲成像的整個生態鏈中應用深度學習的工作,從圖像重建到疾病診斷,(iii)為有興趣將深度學習應用于光聲成像的研究人員提供一些開源材料和其他資源。

付費5元查看完整內容
北京阿比特科技有限公司