大型語言模型(LLMs)經歷了顯著的擴展,并越來越多地被整合到各個領域中。特別是在機器人任務規劃領域,LLMs 利用其先進的推理和語言理解能力,根據自然語言指令制定精確高效的行動計劃。然而,對于具身任務,即機器人與復雜環境互動的任務,僅基于文本的 LLMs 通常面臨挑戰,因為它們與機器人的視覺感知缺乏兼容性。本研究提供了一個關于 LLMs 和多模態 LLMs 融入各種機器人任務的全面概述。此外,我們提出了一個利用多模態 GPT-4V 的框架,通過結合自然語言指令和機器人視覺感知來增強具身任務規劃。我們的結果,基于多樣化的數據集,表明 GPT-4V 在具身任務中有效地提升了機器人的性能。這項關于 LLMs 和多模態 LLMs 在各種機器人任務中的廣泛綜述和評估,豐富了對以 LLM 為中心的具身智能的理解,并提供了向前看的洞見,以幫助彌合人-機器人-環境互動的差距。
由于預訓練模型在模型大小和數據量方面的擴展,一些大型預訓練模型在一系列復雜任務中展示了卓越的能力 [1],[2]。大型語言模型(LLMs)因其卓越的上下文生成能力,在各個領域受到了廣泛關注 [2]–[10]。這種突現能力以前所未有的方式賦能了人工智能算法,改變了人們使用人工智能算法的方式,并促使對人工通用智能(AGI)的可能性進行重新評估。
隨著LLMs的快速發展,指令調優和對齊調優已成為將其適應特定目標的主要方法。在自然語言處理(NLP)領域,LLMs在某種程度上可以作為解決語言相關任務的多功能解決方案 [3],[5],[11]–[13]。這些基于變換器(Transformer)的大型模型在多個領域取得了非凡的成就 [14]–[17],深刻地改變了人工智能的最新水平 [3],[12],[18]–[26]。研究范式也轉向了利用LLMs來解決子領域特定問題。在計算機視覺(CV)領域,研究人員也在開發類似于GPT-4和Gemini [27],[28]的大型模型,這些模型結合了視覺和語言信息,從而支持多模態輸入 [29]。這種增強LLMs的策略不僅提升了它們在下游任務中的性能,而且為確保與人類價值觀和偏好的一致性,對機器人技術的發展提供了重要指導。這種方法已在眾多領域廣泛采用 [7],[29]–[32],甚至在卷積神經網絡(CNNs)一直是主要技術的領域也是如此 [33]–[40]。
LLMs處理和內化大量文本數據的能力為提升機器的理解能力和自然語言分析能力提供了前所未有的潛力 [41],[42]。這包括理解手冊和技術指南等文件,并將這些知識應用于進行連貫、準確、符合人類對話的對話 [43]–[45]。通過對話,自然語言指令從文本提示翻譯成機器可理解的代碼,觸發相應的動作,從而使機器人在適應廣泛的用戶命令方面更加靈活和適應性強 [46]–[48]。將現實世界的傳感器模態整合到語言模型中,有助于建立單詞和感知之間的聯系,使其能夠應用于各種特定任務。然而,僅基于文本的LLMs缺乏對物理世界的經驗性接觸和觀察的實證結果,這使得在特定環境中使用它們進行決策變得具有挑戰性。因此,將多模態性納入LLMs對于有效執行機器人任務至關重要。此外,機器人技術領域呈現出更微妙的任務變化。與NLP和CV不同,這些領域可以利用來自互聯網的大量數據集,而獲取用于機器人交互的大型和多樣化數據集卻具有挑戰性 [49]。這些數據集通常要么專注于單一環境和對象,要么強調特定任務領域,導致它們之間存在顯著差異 [50]。這種復雜性在將LLMs與機器人技術整合時帶來了更大的挑戰。
如何克服機器人技術所面臨的挑戰,并利用LLMs在其他領域的成就為機器人領域帶來好處,是本綜述解決的核心問題。在這篇文章中,工作的貢獻可以概括為四個主要點。
我們對現有的用于機器人學的大型語言模型(LLM)進行了細致的調研和綜合,探索了在三個不同的任務類別中的最新進展:規劃、操作、推理。
我們總結了LLMs為機器人領域提供的主要技術方法,考察了訓練通用機器人策略的潛力,并為該領域的研究人員提供了基礎性綜述。
我們評估了多模態GPT-4V在不同環境和情景下進行機器人任務規劃的有效性。
我們總結了我們調查的主要發現,思考未來努力中需要解決的突出挑戰,并提出了一個前瞻性的視角。
大型語言模型機器人
基于大型語言模型(LLMs)的機器人研究領域已取得顯著進步。這些模型展示出卓越的自然語言理解和常識推理能力,顯著增強了機器人理解環境和執行命令的能力。當前研究聚焦于利用LLMs解析復雜的環境和指令,包括解決歧義、消除模糊性,并理解隱含信息。在這個領域的一個關鍵進展包括視覺-語言模型的開發,[51]–[53]這顯著提高了如視覺問題回答[54]–[56]和圖像描述[57]、[58]等任務的性能。這些進步極大地增強了機器人在物理世界中的推理能力,特別是在復雜命令導航等領域。[59]、[60]通過視覺語言處理系統,機器人能夠理解圖像內容并將其與相關的語言信息結合起來,例如圖像描述和命令執行。這種多模態信息處理同樣適用于音頻-視覺集成。LLMs的另一個主要進展是在人機交互方面,通過交互式學習過程更好地適應人類的需求和偏好。例如,通過將強化學習與人類反饋結合,機器人可以持續改進任務執行,解決大型模型應用中遇到的語義歧義,通過結合人類指導和大型語言模型,機器人可以更精確地細化指令,從而更好地實現自主學習和環境適應,以實現更準確和針對性的控制。機器人還可以通過交互學習和適應用戶的行為、偏好和需求,提供更個性化和定制化的交互體驗。這些進步不僅增強了機器人技術的實用性,也為未來人機互動開辟了新的可能性。
大型語言模型的多模態任務規劃
在大型語言模型(LLMs)領域內的多模態任務規劃構成了人工智能學科的一個復雜交匯點,涉及到不同數據模態(如文本、視覺和聽覺輸入)的融合,以促進更全面和細致的AI驅動分析 [61]–[65]。 這種跨學科的方法超越了LLMs的傳統界限,后者主要關注文本理解和生成,引領這些模型在解釋、關聯和與多種數據流同時互動方面變得更為熟練。在這種背景下,LLMs的角色從單純的語言處理演變為更加綜合的功能,綜合和響應復雜數據的相互作用。在大型語言模型的多模態任務規劃領域,最近的進展,如Inner Monologue和SayCan項目所示,展示了該領域不斷增長的復雜性和成熟度。Inner Monologue [65]的方法論代表了這一領域的重大飛躍,它整合了來自環境的多模態反饋源。這種整合使得能夠生成更可靠和更具上下文意識的任務規劃,協調不同的感官輸入,以創造對AI周圍環境更為連貫的理解。同樣地,SayCan的框架 [61] 為LLMs的應用引入了一個新的維度。該系統將LLMs作為模型的“手和眼睛”,生成最佳的長期指令,并有效地評估當前場景下指令的可行性概率。這種方法不僅增強了AI理解和與其直接環境互動的能力,而且利用LLMs的細膩理解來規劃和執行復雜的動作序列,持續較長時間。 在多模態任務規劃領域內將Inner Monologue和SayCan中的這些先進技術與LLMs的整合代表了向創建不僅更能認識到多種數據流、也能將這些數據流綜合為可行智能的AI系統方面的重大進步。這一進展指向了一個未來,即AI能夠以一種更加動態、具有上下文意識和自主的方式在現實世界中導航和互動 [61]、[65]–[67],推動了AI驅動創新和跨學科綜合所能達到的界限。
結論
在本文中,我們概述了大型語言模型(LLMs)與各種機器人系統和任務的集成情況。我們的分析顯示,LLMs展現出令人印象深刻的推理、語言理解和多模態處理能力,這些能力可以顯著提高機器人對指令、環境和所需行動的理解。我們在9個數據集的30多個案例上評估了最近發布的GPT-4V模型,用于實體任務規劃。結果表明,GPT-4V能夠有效地利用自然語言指令和視覺感知來生成詳細的行動計劃以完成操控任務。這表明使用多模態LLMs作為實體智能的機器人大腦是可行的。
然而,在我們朝著更實用和能力更強的基于LLM的AI系統發展的過程中,仍需解決一些挑戰,包括模型的透明度、魯棒性、安全性和現實世界的適用性。具體來說,大型神經模型的黑盒性質使得難以完全理解其內部推理過程和失敗模式。此外,彌合模擬與現實世界之間的差距仍然是一個挑戰,難以在不降低性能的情況下轉移政策。通過標準化測試、對抗性訓練、政策適應方法和更安全的模型架構等技術,仍需大量研究來解決這些問題。對依賴LLMs的自主智能系統進行問責和監督的協議也值得深思熟慮。在我們在這個領域取得進步的過程中,以一種謹慎、道德和社會負責的方式克服這些多方面的挑戰是至關重要的。
隨著語言模型繼續從多模態數據中積累廣泛的實地知識,我們預期將迅速創新地將它們與機器人和基于模擬的學習整合。這可能使得在仿真中直觀地開發和驗證智能機器人成為可能,然后再使用實景模擬技術進行部署。這樣的發展可能深刻地增強和改變我們構建、測試和部署智能機器人系統的方式。
總的來說,自然語言處理和機器人技術的協同整合是一個充滿機遇和挑戰的前沿領域,值得未來進行廣泛的跨學科研究。
大型語言模型(LLMs)在廣泛的任務中取得了顯著的成功。由于LLMs令人印象深刻的規劃和推理能力,它們被用作自動執行許多任務的自主智能體。最近,基于將一個LLM作為單一規劃或決策智能體的發展,基于LLM的多智能體系統在復雜問題解決和世界模擬方面取得了相當的進展。為了向社區提供這一動態領域的概覽,我們呈現這篇綜述,以提供關于基于LLM的多智能體系統的基本方面及挑戰的深入討論。我們的目標是讓讀者對以下問題獲得實質性的見解:基于LLM的多智能體模擬哪些領域和環境?這些智能體如何被描述,它們如何通信?什么機制有助于智能體能力的增長?對于那些有興趣深入研究這一領域的人,我們還總結了常用的數據集或基準,以便他們方便地訪問。為了讓研究人員了解最新的研究,我們維護一個開源的GitHub倉庫,致力于概述基于LLM的多智能體系統的研究。
1 引言
最近,大型語言模型(LLMs)展現出了達到與人類相當的推理和規劃能力的顯著潛力。這種能力完全符合人類對能夠感知周圍環境、做出決策并作出響應的自主智能體的期待[Xi等,2023;Wooldridge和Jennings,1995;Russell和Norvig,2009;Guo等,2023;Liang等,2023]。因此,基于LLM的智能體已被研究和快速發展,以理解和生成類似人類的指令,促進在廣泛的上下文中進行復雜的互動和決策[Yao等,2023;Shinn等,2023;Li等,2023d]。及時的綜述文章系統地總結了基于LLM的智能體的進展,如在文獻[Xi等,2023;Wang等,2023b]中所見。
基于單個LLM智能體的啟發性能力,已提出基于LLM的多智能體,以利用多個智能體的集體智能和專業化輪廓及技能。與使用單一LLM驅動的智能體的系統相比,多智能體系統通過1) 將LLMs專業化為具有不同能力的各種不同智能體,以及2) 使這些多樣化的智能體之間進行互動,有效地模擬復雜的現實世界環境,提供了先進的能力。在這一背景下,多個自主智能體協作參與規劃、討論和決策,反映了人類團隊工作在解決問題任務中的合作本質。這種方法利用了LLMs的溝通能力,借助它們生成文本進行交流和對文本輸入的響應能力。此外,它利用了LLMs在各個領域的廣泛知識和專門化特定任務的潛力。最近的研究已經展示了使用基于LLM的多智能體解決各種任務的有希望的結果,如軟件開發[Hong等,2023; Qian等,2023]、多機器人系統[Mandi等,2023; Zhang等,2023c]、社會模擬[Park等,2023; Park等,2022]、政策模擬[Xiao等,2023; Hua等,2023]以及游戲模擬[Xu等,2023c; Wang等,2023c]。由于這個領域的跨學科研究性質,它吸引了來自社會科學、心理學和政策研究等不同背景的研究者,研究論文的數量正在迅速增加,如圖1所示(受[Gao等,2023b]設計的啟發),從而擴大了基于LLM的多智能體研究的影響。盡管如此,早期的工作是獨立進行的,導致缺乏系統回顧以總結它們,建立這個領域的全面藍圖,并檢查未來的研究挑戰。這強調了我們工作的重要性,并作為呈現這篇綜述論文的動機,致力于基于LLM的多智能體系統的研究。
我們期望我們的綜述能對LLMs的研究和開發以及利用LLMs進行的更廣泛的跨學科研究做出重大貢獻。讀者將獲得關于基于LLM的多智能體(LLM-MA)系統的全面概覽,把握基于LLMs建立多智能體系統所涉及的基本概念,并捕捉到這一動態領域中最新的研究趨勢和應用。我們認識到這個領域正處于初級階段,并且隨著新方法和應用的迅速發展。為了提供一種持續的資源來補充我們的綜述論文,我們維護了一個開源的GitHub倉庫。我們希望我們的綜述能激發進一步的探索和創新,以及在廣泛的研究領域中的應用。
為了幫助來自不同背景的個人理解LLM-MA技術,并補充現有的綜述通過解決未解決的問題,我們以以下方式組織了我們的綜述論文。在第2節中闡述背景知識后,我們提出了一個關鍵問題:LLM-MA系統如何與協作任務解決環境對齊?為了回答這個問題,我們在第3節提出了一個全面的框架,用于定位、區分和連接LLM-MA系統的各個方面。我們通過討論: 1)智能體-環境界面,詳細說明智能體如何與任務環境互動; 2)智能體輪廓,解釋一個智能體如何被LLM描述以以特定方式行為; 3)智能體通信,考察智能體如何交換信息和協作;以及 4)智能體能力獲取,探索智能體如何發展其解決問題的能力。
關于LLM-MA研究的另一個視角是它們的應用。在第4節,我們將當前應用分為兩個主要流:用于問題解決的多智能體和用于世界模擬的多智能體。為了指導個人識別合適的工具和資源,我們在第5節提出了用于研究LLM-MA的開源實現框架,以及可用的數據集和基準。基于前面的總結,我們在第6節開放了對未來研究挑戰和機會的討論。結論在第7節中總結。
解析LLM-MA系統:界面、輪廓、通信和能力
在本節中,我們深入探討LLM-MA系統的復雜性,其中多個自主智能體參與類似于人類群體動力學的協作活動,應對問題解決場景。我們要解決的一個關鍵問題是,這些LLM-MA系統如何與它們的操作環境以及它們旨在實現的集體目標對齊。為了闡明這一點,我們在圖2中展示了這些系統的通用架構。我們的分析解剖了這些系統的操作框架,重點關注四個關鍵方面:智能體-環境界面、智能體輪廓、智能體通信和智能體能力獲取。
應用
LLM-MA系統已在廣泛的應用中被使用。我們在表1中總結了兩類應用:問題解決和世界模擬。我們將在下面詳細闡述這些應用。請注意,這是一個快速發展的研究領域,幾乎每天都有新應用出現。我們維護一個開源倉庫來報告最新的工作。
使用LLM-MA進行問題解決的主要動機是利用具有專門專業知識的智能體的集體能力。這些智能體,每個都作為個體行動,協作以有效地解決復雜問題,例如軟件開發、具體化智能體、科學實驗和科學辯論。 LLM-MA的另一個主流應用場景是世界模擬。這一領域的研究正在迅速增長,涵蓋了包括社會科學、游戲、心理學、經濟學、政策制定等在內的多種領域。在世界模擬中使用LLM-MA的關鍵原因在于它們出色的角色扮演能力,這對于現實地描繪模擬世界中的各種角色和觀點至關重要。世界模擬項目的環境通常被設計來反映被模擬的特定場景,智能體以各種輪廓設計以匹配這一背景。與專注于智能體合作的問題解決系統不同,世界模擬系統涉及多種智能體管理和通信方法,反映了現實世界交互的復雜性和多樣性。
結論
基于LLM的多智能體展現了激勵人心的集體智能,并迅速在研究者中獲得了越來越多的興趣。在這篇綜述中,我們首先系統回顧了LLM-MA系統的發展,通過從不同方面定位、區分和連接它們,涉及智能體-環境界面、LLMs對智能體的描述、管理智能體通信的策略以及能力獲取的范式。我們還總結了LLM-MA在問題解決和世界模擬中的應用。通過突出常用的數據集和基準,并討論挑戰和未來機會,我們希望這篇綜述能成為各個研究領域的研究者們的有用資源,激發未來的研究去探索基于LLM的多智能體的潛力。
大型語言模型(LLMs),如ChatGPT和LLaMA,正因其強大的文本編解碼能力和新發現的突現能力(例如,推理)在自然語言處理領域創造重大進展。雖然LLMs主要設計用于處理純文本,但在許多現實世界場景中,文本數據與圖形(例如,學術網絡和電子商務網絡)形式的豐富結構信息相關聯,或者圖形數據與豐富的文本信息(例如,帶有描述的分子)配對。此外,盡管LLMs已展示其基于純文本的推理能力,但是否可以將此能力泛化到圖形場景(即基于圖的推理)尚未得到充分探索。在本文中,我們提供了關于圖上大型語言模型的場景和技術的系統綜述。我們首先將采用圖上LLMs的潛在場景歸納為三類,即純圖,文本豐富的圖,以及與文本配對的圖。然后,我們討論了在圖上使用LLMs的詳細技術,包括將LLM作為預測器、編碼器和對齊器,并比較了不同模型類別的優缺點。此外,我們還提到了這些方法的實際應用,并總結了開源代碼和基準數據集。最后,我們總結了這一快速發展領域未來的潛在研究方向。相關源碼可以在此處找到://github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs。//www.zhuanzhi.ai/paper/4361cf9d534dbfbd91be3d22f7ebc742
大型語言模型(LLMs)(例如,BERT [22]、T5 [30]、LLaMA [119])經過在非常大的文本語料庫上的預訓練,已被證明在解決自然語言處理(NLP)任務方面非常強大,包括問題回答 [1]、文本生成 [2] 和文檔理解 [3]。早期的LLMs(例如,BERT [22]、RoBERTa [23])采用僅編碼器架構,并主要應用于文本表示學習 [4] 和自然語言理解 [3]。近年來,越來越多的關注被放在了僅解碼器架構 [119] 或編碼器-解碼器架構 [30] 上。隨著模型規模的擴大,這樣的LLMs也展示了推理能力甚至更先進的突現能力 [5],展現了對人工通用智能(AGI)的強大潛力。 雖然LLMs廣泛應用于處理純文本,但越來越多的應用場景中,文本數據與以圖形形式呈現的結構信息相關聯。如圖1所示,在學術網絡中,論文(帶有標題和描述)和作者(帶有個人簡介文本)通過作者關系相互連接。理解這些圖上作者/論文的文本信息以及作者-論文結構信息可以有助于更先進的作者/論文建模和精準的合作推薦;在科學領域,分子以圖形表示,并通常與描述其基本信息的文本(例如,毒性)配對。同時建模分子結構(圖)和相關的豐富知識(文本)對于更深入的分子理解非常重要。由于LLMs主要用于建模順序排列的文本,上述場景提出了新的挑戰,即如何使LLMs能夠編碼圖上的結構信息。此外,由于LLMs已展示了其卓越的基于文本的推理能力,探索它們是否有潛力解決純圖上的基本圖推理問題是有前景的。這些圖推理任務包括推斷連通性 [6]、最短路徑 [7] 和子圖匹配 [8]。最近,擴展LLMs用于基于圖的應用(如圖1所總結)引起了越來越多的興趣。根據圖1所呈現的圖與文本之間的關系,應用場景可以歸類為純圖、文本豐富的圖和與文本配對的圖。根據LLMs的角色及其與圖神經網絡(GNNs)的交互方式,圖上LLMs的技術可以分為將LLMs作為任務預測器(LLM as Predictor)、將LLMs作為GNNs的特征編碼器(LLM as Encoder)以及將LLMs與GNNs對齊(LLM as Aligner)。 目前探索LLMs與圖交叉點的綜述文獻數量有限。關于圖上的深度學習,Wu et al. [17] 提供了圖神經網絡(GNNs)的全面概述,詳細闡述了循環圖神經網絡、卷積圖神經網絡、圖自編碼器和時空圖神經網絡。Liu et al. [18] 討論了圖上的預訓練基礎模型,包括它們的骨干架構、預訓練方法和適應技術。Pan et al. [19] 回顧了LLMs與知識圖譜(KGs)之間的聯系,特別是KGs如何增強LLMs的訓練和推理,以及LLMs如何促進KG的構建和推理。總而言之,現有的綜述要么更多地關注GNNs而非LLMs,要么未能從系統的視角提供它們在圖1中所示的各種圖場景中的應用。我們的論文提供了關于圖上LLMs的全面綜述,旨在幫助計算機科學和機器學習社區以外的不同背景的廣泛研究人員進入這個快速發展的領域。
**分類與框架 **
在本節中,我們首先介紹我們對可以采用語言模型的圖場景的分類。然后我們討論圖上LLMs技術的分類。最后,我們總結了圖上語言模型的訓練與推理框架。 1 語言模型的圖場景分類
純圖(無文本信息)是指沒有文本信息或沒有語義豐富文本信息的圖。這類圖的例子包括交通圖和電力傳輸圖。這些圖通常作為測試大型語言模型圖推理能力(解決圖論問題)的背景,或作為知識來源以增強大型語言模型(減輕幻覺現象)。 文本豐富的圖是指節點或邊與語義豐富的文本信息相關聯的圖。這類圖也被稱為文本豐富的網絡 [32]、帶文本屬性的圖 [62]、文本圖 [73] 或文本邊網絡 [75]。現實世界中的例子包括學術網絡、電子商務網絡、社交網絡和法律案例網絡。在這些圖上,人們對學習具有文本信息和結構信息的節點或邊的表示感興趣 [73] [75]。 與文本配對的圖是指文本描述定義在整個圖結構上的圖。這類圖包括分子或蛋白質,其中節點代表原子,邊代表化學鍵。文本描述可以是分子標題或蛋白質文本特征。盡管圖結構是影響分子屬性的最重要因素,但分子的文本描述可以作為補充知識來源,幫助理解分子 [148]。圖場景可以在圖1中找到。 **2 圖上LLM技術的分類 **
根據LLMs的角色以及解決圖相關問題的最終組件,我們將圖上LLM技術分類為三個主要類別: LLM作為預測器。這類方法將LLM作為輸出表示或預測的最終組件。它可以通過GNNs增強,并可以根據圖信息如何注入LLM進行分類:1)圖作為序列:這種方法不對LLM架構做任何改變,但通過將“圖標記序列”作為輸入使其意識到圖結構。“圖標記序列”可以是圖的自然語言描述或由圖編碼器輸出的隱藏表示。2)增強圖的LLM:這種方法修改了LLM基礎模型(即變壓器)的架構,并使其能夠在其架構內進行聯合文本和圖編碼。3)圖感知LLM微調:這種方法不對LLMs的輸入或LLM架構做任何改變,但只是在圖的監督下對LLMs進行微調。 LLM作為編碼器。這種方法主要用于節點或邊與文本信息相關聯的圖(解決節點級或邊級任務)。GNNs是最終組件,我們采用LLM作為初始文本編碼器。具體來說,首先利用LLMs對與節點/邊相關的文本進行編碼。LLMs輸出的特征向量然后作為輸入嵌入用于GNNs進行圖結構編碼。GNNs輸出的嵌入被采用為下游任務的最終節點/邊表示。然而,這些方法存在收斂問題、稀疏數據問題和效率問題,我們從優化、數據增強和知識蒸餾的角度總結了解決方案。 LLM作為對齊器。這類方法將LLMs作為文本編碼組件,并將它們與作為圖結構編碼組件的GNNs對齊。LLMs和GNNs一起作為任務解決的最終組件。具體來說,LLMs和GNNs之間的對齊可以分為1)預測對齊,其中從一種模態生成的偽標簽用于在另一種模態上進行迭代學習訓練,和2)潛空間對齊,其中采用對比學習將LLMs生成的文本嵌入和GNNs生成的圖嵌入對齊。 **3 使用LLMs的訓練與推理框架 **
在圖上應用語言模型有兩種典型的訓練和推理范式:1) 預訓練-然后微調:通常用于中等規模的大型語言模型;以及 2) 預訓練-然后提示:通常用于大規模的大型語言模型。 預訓練指的是使用無監督目標訓練語言模型,以初始化它們具備下游任務的語言理解和推理能力。純文本的典型預訓練目標包括掩蔽語言建模 [22]、自回歸因果語言建模 [25]、損壞-重構語言建模 [29] 和文本到文本轉換建模 [30]。在圖領域擴展時,語言模型預訓練策略包括文檔關系預測 [31]、網絡上下文化掩蔽語言建模 [32]、對比性社交預測 [33] 和上下文圖預測 [34]。 微調是指使用標記數據訓練語言模型以進行下游任務。語言模型微調方法可進一步分類為完全微調、高效微調和指令調整。 * 完全微調意味著更新語言模型內的所有參數。這是最常用的微調方法,可以充分激發語言模型對下游任務的潛力,但可能會導致重大計算負擔 [37] 和過擬合問題 [36]。 * 高效微調是指僅微調語言模型內的一部分參數。純文本的高效調整方法包括提示調整 [38]、前綴調整 [39]、適配器 [40] 和LoRA [41]。特別為圖數據設計的高效語言模型微調方法包括圖神經提示 [42] 和增強圖的前綴 [43]。 * 指令調整指的是使用下游任務指令微調語言模型 [44] [45],以鼓勵模型在推理中對未見任務的泛化。這是一個與完全微調和高效微調正交的概念,換句話說,人們可以同時選擇完全微調和高效微調進行指令調整。指令調整在圖領域用于節點分類 [46]、鏈接預測 [47] 和圖級任務 [48]。 提示是一種在不更新模型參數的情況下應用語言模型解決下游任務的技術。需要將測試樣本制定成自然語言序列,并讓語言模型直接根據上下文演示進行推理。這是一種特別適用于大規模自回歸語言模型的技術。除了直接提示,后續工作提出了思維鏈提示 [49]、思維樹提示 [50] 和思維圖提示 [51]。 在接下來的章節中,我們將遵循第3節的分類,并討論每個圖場景的詳細方法論。
**結論 **
在本文中,我們提供了關于圖上大型語言模型的全面綜述。我們首先對可以采用語言模型的圖場景進行分類,并總結了圖上大型語言模型的技術。然后,我們對每個場景內的方法進行了徹底的審查、分析和比較。此外,我們總結了可用的數據集、開源代碼庫和多種應用。最后,我們提出了圖上大型語言模型的未來發展方向。
大型語言模型(LLMs)是在大量文本上訓練的深度學習算法,學習了數十億個單詞之間的數學關系(也稱為“參數”)。它們已經為我們大多數人所熟知,作為像OpenAI的ChatGPT和用于Google的Bard這樣的聊天機器人的算法基礎。如今的最大模型擁有數千億個參數,訓練成本也達到數十億美元。 盡管大規模的通用模型如ChatGPT可以幫助用戶處理從電子郵件到詩歌的各種任務,但專注于特定知識領域可以使模型更小且更易訪問。例如,經過精心訓練的高質量醫學知識的LLMs可能有助于民主化獲取循證信息,以幫助指導臨床決策。
已經有許多努力試圖利用和改進LLMs在醫學知識和推理能力方面,但迄今為止,產生的AI要么是閉源的(例如MedPaLM和GPT-4),要么在規模上受限,約為130億參數,這限制了它們的訪問或能力。 為了改善訪問和表現,洛桑聯邦理工學院計算機與通信科學學院的研究人員開發了MEDITRON 7B和70B,一對分別具有7億和70億參數的開源LLM,適應于醫學領域,并在他們的預印本MEDITRON-70B: Scaling Medical Pretraining for Large Language Models中進行了描述。
MEDITRON是在Meta發布的開源Llama-2模型的基礎上,持續融入臨床醫生和生物學家的輸入而訓練的。MEDITRON使用了精心策劃的高質量醫學數據源進行訓練,包括來自像PubMed這樣的開放獲取倉庫的同行評審醫學文獻,以及覆蓋多個國家、地區、醫院和國際組織的獨特的臨床實踐指南集。
大型語言模型(LLMs)可能有助于實現醫學知識的民主化。雖然已經做出了許多努力來利用和提高LLMs在醫學知識和推理能力方面的表現,但結果模型要么是封閉源代碼的(例如,PaLM、GPT-4),要么在規模上有限(≤ 13B參數),這限制了它們的能力。在這項工作中,我們通過發布MEDITRON來改善對大規模醫學LLMs的訪問:一套適應醫學領域的開源LLMs,擁有7B和70B參數。MEDITRON基于Llama-2構建(通過我們對Nvidia的Megatron-LM分布式訓練器的調整),并在綜合策劃的醫學語料庫上擴展預訓練,包括精選的PubMed文章、摘要和國際認可的醫學指南。使用四個主要醫學基準進行的評估顯示,在任務特定微調前后均取得了顯著的性能提升,超過了幾個最先進的基線。總體而言,MEDITRON在其參數類別中的最佳公開基線上實現了6%的絕對性能提升,以及在我們從Llama-2微調的最強基線上實現了3%的提升。與封閉源代碼LLMs相比,MEDITRON-70B超過了GPT-3.5和Med-PaLM,并且與GPT-4相差5%,與Med-PaLM-2相差10%。我們發布了策劃醫學預訓練語料庫和MEDITRON模型權重的代碼,以推動更有能力的醫學LLMs的開源開發。 //www.zhuanzhi.ai/paper/3a80007a9ee77b1b5c116259d8506624
醫學深深植根于知識中,回顧證據是指導臨床決策標準的關鍵。然而,雖然“循證醫學”(EBM)現在已成為質量護理的同義詞,但它需要的專業知識并不是普遍可得的。因此,確保公平獲得標準化醫學知識是醫學所有領域持續的優先事項。最近在大型語言模型(LLMs)(Brown et al., 2020; Touvron et al., 2023a; Almazrouei et al., 2023; Touvron et al., 2023b; OpenAI, 2023b; Chowdhery et al., 2022)方面的進展有可能徹底改變獲取醫學證據的方式。如今,最大的LLMs擁有數十億或數千億參數(Bommasani et al., 2021; Hoffmann et al., 2022; Kaplan et al., 2020),并且在龐大的預訓練語料庫上進行訓練(Raffel et al., 2019; Gao et al., 2020; Together AI, 2023; Soldaini et al., 2023)。這種前所未有的規模使LLMs具備了人類決策的核心特征:逐步思維推理、連貫溝通和情境解讀(Bubeck et al., 2023; Wei et al., 2023; Wang et al., 2023)。
直到最近,LLMs主要針對通用任務進行開發和評估,主要使用從不同互聯網來源收集的數據,這些數據在領域特定證據方面的質量各不相同(Rozière et al., 2023)。這種方法雖然通常非常強大,但會阻礙特定任務的性能,包括醫學領域。一些新的特定任務模型,經過更精心策劃的數據集訓練,已經多次超越了通用模型(Wu et al., 2023b; Yue et al., 2023; Rozière et al., 2023; Azerbayev et al., 2023),揭示了在預訓練數據方面平衡質量和數量的潛力。實現這種平衡的一個有希望的方法是使用通用LLMs,然后繼續在更精選的領域特定數據上訓練。這些系統獲得了自然語言和領域特定語言理解及生成技能的結合(Gururangan et al., 2020)。在醫學領域,這種方法僅在13B參數以下的模型中有報告(Lee et al., 2020; Gu et al., 2021; Peng et al., 2023; Wu et al., 2023a)。在更大規模(即≥70B參數)上,之前的研究僅探討了指令調整(M42-Health)或參數高效微調(Toma et al., 2023)的范圍。 在這項工作中,我們介紹了MEDITRON-7B和70B,這是一對用于醫學推理的生成LLMs,由Llama-2(Touvron et al., 2023b)改編,通過在精心策劃的高質量醫學數據源上繼續預訓練:PubMed Central(PMC)和PubMed開放獲取研究論文(通過S2ORC語料庫收集,Lo et al., 2020),S2ORC中的PubMed摘要(來自非開放獲取論文),以及從互聯網收集的多種醫學指南,涵蓋多個國家、地區、醫院和國際組織。為了支持訓練,我們擴展了Nvidia的Megatron-LM分布式訓練庫,以支持Llama-2架構。 我們使用四個醫學推理基準對MEDITRON進行評估,包括在上下文學習中(在提示期間提供示例,即在上下文窗口內)和特定任務的微調。基準包括兩個醫學考試題庫,MedQA(來自美國醫學執照考試,Jin et al., 2020)和MedMCQA(醫學領域的多主題多選題數據集,Pal et al., 2022),PubMedQA(基于PubMed摘要的生物醫學問答,Jin et al., 2019)和MMLU-Medical(來自大規模多任務語言理解的醫學主題評估集,Hendrycks et al., 2021a)。在沒有微調的情況下使用上下文學習,MEDITRON-7B超過了幾個最先進的基線,顯示出比PMC-Llama-7B(一種類似的LLM,由Llama改編,通過在PubMed Central論文上繼續預訓練,Touvron et al., 2023a)平均10%的性能提升,以及比Llama-2-7B模型平均5%的性能提升。在特定任務訓練數據上微調后,MEDITRON的性能也在同等規模的其他微調基線上有所提升,達到了5%(7B)和2%(70B)的平均性能提升。最后,將MEDITRON-70B微調以支持高級提示策略,如思維鏈和自我一致性,進一步提高了最佳基線3%和最佳公開基線12%的性能。總的來說,MEDITRON在醫學推理基準上表現強勁,在同等規模的最先進基線上匹敵或超越。
總結來說,我們提出了一種優化的工作流程,用于擴展醫學LLMs的領域特定預訓練,包括基于知識的數據策劃、通過分布式訓練管道的持續預訓練、微調、少樣本上下文學習,以及高級推理方法,如思維鏈推理和自我一致性。我們發布了策劃的訓練語料庫、分布式訓練庫2和MEDITRON模型(7B和70B)3,包括經過微調和未經微調的版本,以確保公眾能夠進行現實世界評估,促進其他領域類似工作的發展。
醫學訓練數據
MEDITRON的領域適應性預訓練語料庫GAP-REPLAY結合了來自四個數據集的48.1B個詞符;臨床指南:來自各種醫療相關來源的46K份臨床實踐指南的新數據集,論文摘要:來自16.1M閉源PubMed和PubMed Central論文的公開可用摘要,醫學論文:從500萬份公開可用的PubMed和PubMed Central論文中提取的全文文章,以及回放數據集:一般領域數據提煉而成,占整個語料庫的1%。
模型
結果
結論
我們發布了MEDITRON,一套適用于醫療領域的高級語言模型(LLM),展示出卓越的醫學推理能力和改進的領域特定基準性能。通過對精心策劃的高質量醫療資源進行持續預訓練(包括一套新的臨床指南),MEDITRON在臨床推理基準上表現出比所有最先進基準規模更大8倍商業LLM 10%性能提升。值得注意的是,MEDITRON在所有醫療基準上均優于開源多功能和醫療LLM。我們將我們的模型(以7B和70B規模)、籌備訓練語料庫所需工具以及分布式訓練庫作為開放資源提供。這不僅確保了對真實世界情境下評估結果,還促使進一步微調和指導性模型發展成為可能。通過公開提供這些資源,我們旨在幫助釋放共享模型潛藏于增強醫學研究、改善患者護理并推動各種健康相關領域創新方面變革潛力。
大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。
最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。
在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。
至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。
通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。
與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。
本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。
幻覺的原因
幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)。
數據引起的幻覺
預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。
訓練引起的幻覺
大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。
推理引起的幻覺
解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。
幻覺緩解
在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。
緩解與數據相關的幻覺
與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。
緩解與訓練相關的幻覺
與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。
緩解與推理相關的幻覺
在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。
結論
在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。
基礎模型如ChatGPT和GPT-4由于其新興的能力,如少量提示、多步推理、指令跟隨和模型校準,在學術界和工業界都受到了極大的關注。這樣的能力過去只能通過特別設計的模型獲得,例如使用知識圖譜的模型,但現在可以通過基礎模型在更大的規模上實現。
隨著基礎模型的能力的增加,它們的大小也以遠遠超過摩爾定律的速度增長。例如,2018年發布的BERT大型模型是一個334M參數模型。而2022年發布的Pathways Language Model (PaLM)是一個540B參數模型,這在短短4年內增加了超過三個數量級。基礎模型的訓練需要大量的計算能力。例如,使用多個A100芯片的單一最先進的GPU機器訓練BERT模型可能需要幾天,而在大型多實例GPU集群上訓練GPT-3模型可能需要幾個月的時間來完成估計的3*10^23 flops。
本教程提供了對支持新AI芯片的基礎模型訓練和推理的最新進展的概述。它回顧了建模方面的進展,重點是Transformer架構,并介紹了支持訓練和服務基礎模型的系統架構。這包括編程語言框架如PyTorch和TensorFlow、圖編譯器、3D并行性,以及像GPU H100、TPU和Trainium這樣的加速器。最后,該教程介紹了我們使用不同系統訓練基礎模型的經驗。
1.1 從模型到比特
1.1.1 算法概覽。 我們涵蓋了廣泛使用的深度學習(DL)架構,包括遞歸和卷積神經網絡,以及穩定的擴散模型和Transformer架構(例如,僅編碼器、僅解碼器、編碼器-解碼器和多模態模型)。我們概述了常見的訓練和推理任務,如預訓練、微調、推理和評估。我們介紹了高級建模技術,如不同的注意機制、訓練目標及其實現細節。 1.1.2 系統概覽。 有效地訓練大規模的基礎模型需要在所有層面上都有強大的系統支持。在前端,我們需要在DL框架中適當地表示模型和分布式處理策略。在中端,模型執行需要廣泛的性能優化,如圖重寫、內核融合、內核優化、計算和通信重疊等。在后端,模型將在某種硬件上運行,該硬件按照某種網絡拓撲連接。在這個環節中,我們將概述每一層中出現的挑戰。
1.2 使用模型并行化訓練基礎模型
在這一節中,我們將討論用于跨多臺機器訓練擁有數十億參數的模型的現代分布式訓練技術,包括完全分片數據并行(FSDP)[16, 15]、Deepspeed Zero [11, 10]、張量并行化[4, 7, 14]和流水線并行化[3, 6]。這些技術在使大型神經網絡的訓練成為可能方面起到了關鍵的作用。我們將研究和比較與特定模型架構緊密集成的方法的局限性,以及依賴于底層ML框架快速演變的內部接口的技術。最后,我們將介紹可以用來使用這些技術訓練模型的開源庫。
1.3 案例研究
在四個案例研究中,我們將介紹不同基礎模型的特點以及在新興AI加速器上運行它們時出現的挑戰。我們將介紹包括BERT[2]、RoBERTa[5]和DistilBERT[13]在內的“BERT系列”模型、GPT2[8]和GPT-3[1]、文本到文本轉移變換器(T5)[9]和穩定擴散[12]。在對每種架構簡要介紹之后,我們將分享我們在不同加速器上訓練這些模型的經驗。我們將以對有興趣在新興AI芯片上訓練或評估模型的實踐者的實際建議和注意事項來結束本教程。
講者:
Jun (Luke) Huan 是AWS AI實驗室的首席科學家。煥博士的研究領域是AI和數據科學。他已經發表了超過160篇的同行評審的文章并指導了11名博士學生完成學業。在加入AWS之前,他在百度研究院工作,并曾創建了一個AI初創公司StylingAI Inc。在進入工業界之前,他在堪薩斯大學的EECS部門擔任教授。煥博士還在美國的NSF工作過,負責其大數據項目。 Yida Wang 是亞馬遜的AWS AI團隊的首席科學家。他的研究領域包括系統、高性能計算和大數據分析。他目前專注于深度學習系統的研究,特別是編譯和優化深度學習模型。 Youngsuk Park 是AWS AI實驗室的高級應用科學家。他的研究興趣集中在機器學習、基礎模型、優化和決策制定等方面。在加入AWS之前,他在Stanford University完成了電氣工程的碩士和博士學位。 Aashiq Muhamed 在AWS AI實驗室工作,專注于優化深度學習系統。在加入AWS AI實驗室之前,他在Amazon Search工作,并在Stanford University進行研究生學習。 Rahul Solanki 在亞馬遜的AWS Neuron團隊工作。他目前的工作重點是構建可以高效地在AI加速器上進行深度學習模型訓練和推理的框架和工具。他從Georgia Institute of Technology獲得了碩士學位。 Christian Bock 是AWS AI實驗室的應用科學家。他的研究興趣主要集中在語言模型的可解釋性以及其在各個領域的應用上。他在ETH Zurich完成了博士學位。
視覺系統看到并理解視覺場景的組合性質對于理解我們的世界至關重要。在真實世界的環境中,物體與其位置之間的復雜關系、模糊性和變化可以更好地用受到語法規則和其他模態(如音頻和深度)制約的人類語言來描述。 模型學習如何彌合這些模態之間的差距,并結合大規模訓練數據,促進了上下文推理、泛化和測試時的即時能力。這些模型被稱為基礎模型。這種模型的輸出可以通過人提供的提示進行修改,而無需重新訓練,例如,通過提供一個邊界框來分割特定的物體,通過詢問關于圖像或視頻場景的問題進行交互式對話,或通過語言指令操縱機器人的行為。 在這次調查中,我們提供了這些新興基礎模型的全面回顧,包括結合不同模態(視覺、文本、音頻等)的典型架構設計、訓練目標(對比性、生成性)、預訓練數據集、微調機制,以及常見的提示模式:文本、視覺和異質性。 我們討論了計算機視覺中基礎模型的開放性挑戰和研究方向,包括它們的評估和基準測試困難、對真實世界理解的差距、上下文理解的局限性、偏見、對對抗性攻擊的脆弱性和解釋性問題。我們回顧了這一領域的最新發展,全面系統地涵蓋了基礎模型的廣泛應用。本工作研究的基礎模型的全面列表可以在
//github.com/awaisrauf/Awesome-CV-Foundational-Models上找到。
近年來,我們已經見證了開發基礎模型的顯著成功,這些模型在大規模的廣泛數據上進行訓練,一旦訓練完成,它們就可以作為一個基礎,并可以適應(例如,微調)與原始訓練模型相關的廣泛的下游任務[18]。盡管基礎模型的基本組成部分,如深度神經網絡和自監督學習,已經存在了很多年,但最近的激增,特別是通過大型語言模型(LLMs),主要可以歸因于大規模地擴展數據和模型大小[346]。例如,像GPT-3 [20]這樣擁有數十億參數的最新模型已經被有效地用于零/少量樣本學習,而無需大規模的任務特定數據或模型參數更新,從而實現了令人印象深刻的性能。同樣,最近的5400億參數的Pathways Language Model (PaLM)已經在從語言理解和生成到推理和代碼相關任務的許多具有挑戰性的問題上展示了最先進的能力[52, 8]。
與自然語言處理中的大型語言模型(LLMs)并行,最近的文獻中也探討了用于不同感知任務的大型基礎模型。例如,像CLIP [214]這樣的預訓練的視覺-語言模型(VL)在不同的下游視覺任務上都展示出了有前景的零樣本性能,包括圖像分類和物體檢測。這些VL基礎模型通常使用從網絡上收集的數百萬的圖像-文本對進行訓練,并提供具有泛化和轉移能力的表示。然后,這些預訓練的VL基礎模型可以通過為其提供給定任務的自然語言描述和提示來適應下游任務。例如,開創性的CLIP模型使用精心設計的提示在不同的下游任務上進行操作,包括零樣本分類,其中文本編碼器通過類名或其他自由形式的文本動態地構造分類器。在這里,文本提示是手工制作的模板,例如,“一張{label}的照片”,這有助于指定文本與視覺圖像內容相對應。最近,許多工作也探索了通過在特定的指令集上對它們進行微調,為VL模型添加交互式能力[169, 360, 57, 190, 314]。
除了大型的視覺-語言基礎模型,還有一些研究努力致力于開發可以由視覺輸入提示的大型基礎模型。例如,最近推出的SAM [140]可以執行與類別無關的分割,給定一個圖像和一個視覺提示,如盒子、點或遮罩,這指定了在圖像中要分割的內容。這樣的模型在數十億的物體遮罩上進行訓練,遵循模型在循環中的數據集注釋設置(半自動化)。進一步說,這種基于通用視覺提示的分割模型可以被適應于特定的下游任務,如醫學圖像分割[189, 292]、視頻物體分割[316]、機器人學[303]和遙感[35]。除了基于文本和視覺提示的基礎模型,研究工作還探索了開發模型,努力對齊多個配對的模態(例如,圖像-文本、視頻-音頻或圖像-深度),以學習對不同下游任務有幫助的有意義的表示[92, 102, 188]。
論文組織
在這項工作中,我們系統地回顧了計算機視覺中的基礎模型。首先,我們簡要介紹了基礎模型的背景和初步內容,簡要涵蓋了常見的架構類型、自監督學習目標、大規模訓練和提示工程(第2節)。然后,我們將現有的工作區分為基于文本的提示(第3-4節)、基于視覺的提示(第5節)、基于異構模態(第6節)和基于具體實體的基礎模型(第7節)。在基于文本提示的基礎模型中,我們進一步將它們區分為對比、生成、混合(對比和生成)以及會話型VL模型。最后,我們根據我們的分析討論了開放的挑戰和研究方向(第8節)。接下來,我們回顧了與我們相關的其他調查,并討論了它們的差異和獨特之處。
總結
對于開發能夠有效感知和推理現實世界的AI系統,具有對多種模態(包括自然語言和視覺)的基礎理解的模型是至關重要的。這次調查回顧了視覺和語言基礎模型,重點關注它們的架構類型、訓練目標、下游任務適應性及其提示設計。我們為基于文本提示、基于視覺提示和異構模態模型提供了系統的分類。我們廣泛地涵蓋了它們在各種視覺任務中的應用,包括零樣本識別和定位能力、關于圖像或視頻的視覺對話、跨模態和醫學數據理解。我們總結了視覺中的基礎模型如何作為通用模型同時解決多個任務,以及它們與大型語言模型的結合如何催生基礎實體代理,這些代理可以在復雜環境中不斷學習和導航。我們希望這一努力將進一步推動研究者充分利用基礎模型的潛力,同時解決它們的局限性,例如有限的上下文理解、偏見和對惡意使用的脆弱性。
隨著ChatGPT等大型人工智能(AI)模型的廣泛應用,人工智能生成內容(AIGC)越來越受到關注,正引領著內容創建和知識表示的范式轉變。AIGC使用生成性大型AI算法,根據用戶提供的提示,以更快的速度和更低的成本輔助或替代人類創建大量的、高質量的、類似人類的內容。盡管AIGC最近取得了顯著的進步,但其安全性、隱私性、道德和法律挑戰仍需得到解決。本文深入調研了AIGC的工作原理、安全和隱私威脅、最先進的解決方案以及AIGC范式的未來挑戰。具體而言,我們首先探討了AIGC的啟用技術、通用架構,并討論其工作模式和關鍵特征。然后,我們調研了AIGC的安全和隱私威脅的分類,并強調了GPT和AIGC技術的道德和社會影響。此外,我們回顧了關于AIGC模型及其生成內容的可規范AIGC范式的最新AIGC水印方法。最后,我們確定了與AIGC相關的未來挑戰和開放的研究方向。
//www.zhuanzhi.ai/paper/b8bd2d1b3785e54627ad947b1997f5d9
1. 引言
人工智能生成內容(AIGC)指的是利用生成性AI算法來協助或替代人類,基于用戶的輸入或需求,以更快的速度和更低的成本創建豐富的個性化和高質量內容[1]-[3]。AIGC包含了廣泛的合成內容,包括文本(如詩歌),圖片(如藝術品),音頻(如音樂),視頻(如動畫),增強訓練樣本和交互式3D內容(如虛擬化身,資產和環境)。作為傳統內容創作范例,如專業生成內容(PGC)和用戶生成內容(UGC)的補充,充滿前景的AIGC范例允許以自動化和有效的方式生產大量的內容,且成本低[4],這對各種新興應用如元宇宙[5]和數字孿生[6]都非常有益。例如,在Roblox(一款交互式元宇宙游戲)中,AIGC可以為化身產生個性化皮膚和3D游戲場景,使用戶能在一個沉浸式的虛擬空間中玩耍,合作和社交。根據Gartner的數據[7],到2025年,生成性AI算法預計將生產約10%的所有數據。
從技術角度看,AIGC通常由兩個階段組成[3]:(i) 提取和理解用戶的意圖信息,以及 (ii) 根據提取的意圖生成所需的內容。2022年11月,OpenAI發布了ChatGPT,這是一個多功能的語言模型,能夠生成代碼,編寫故事,執行機器翻譯,進行語義分析等等。到2023年1月,每天有近1300萬用戶在與ChatGPT交互[8]。ChatGPT是生成預訓練Transformer(GPT)的一個變種,GPT是一個基于Transformer的大型語言模型(LLM),能夠理解人類語言并創造類似人類的文本(例如,故事和文章)[9],如圖1所示。隨著最近大型語言模型(如ChatGPT和其后繼者GPT-4)的進步,AIGC的能力得到了顯著加強,可以執行更復雜的任務(例如,多模態任務)并具有更高的準確性,這得益于LLM提供的更好的意圖提取[10]。由于技術進步和需求增加,AIGC已經引起了全球的關注,并在娛樂,廣告,藝術和教育等各種應用中展現出了巨大的潛力。包括OpenAI,Google,Microsoft,NVIDIA和百度在內的科技巨頭都已經宣布他們將探索AIGC,并開發了他們自己的AIGC產品。
在AIGC時代,更大的數據集是"燃料",更大的基礎模型是"引擎",而廣泛的計算能力則起到了"加速器"的作用。對于從GPT-3.5模型微調的ChatGPT,其訓練數據集包括近1萬億個詞,大約45TB大小[11],并且在預訓練GPT中整合了自我監督學習,強化學習和提示學習等多種AI技術。ChatGPT的訓練所需的計算能力大約是每天3640 PetaFLOPs,相當于每秒計算10萬億次,需要3640天才能完成[12]。在大數據,大模型和大計算能力的工程組合下,ChatGPT展示了強大的新功能和更高級模式的學習能力,并能根據用戶的多模態提示自動創作有價值的內容。除了大規模訓練數據和廣泛計算能力帶來的好處外,ChatGPT還整合了一系列新技術。例如,ChatGPT使用了思維鏈(CoT)提示[13],這使得預訓練的LLM能夠通過逐步推理來解釋其推理過程,在少示例和零示例學習設置中。此外,從人類反饋中的強化學習(RLHF)[14]被整合進來,通過訓練一個包含人類反饋的獎勵模型并通過強化學習對LLM進行微調,幫助ChatGPT更好地理解人類的偏好。更進一步的,在計算機視覺(CV)領域,由創業公司Stability AI開發的穩定擴散[15]和由OpenAI在2022年開發的DALL-E 2[16]已經成功地從復雜和多樣的文本描述中生成高分辨率和自然看起來的圖像。
A.動機 盡管AIGC的前景光明,但安全和隱私問題對其廣泛應用構成了重大障礙。在AIGC服務的生命周期中,可能會出現一些安全漏洞、隱私泄露、信任問題和道德問題,這些問題可能源自普遍的數據收集,智能模型/數據盜竊,到大量的網絡釣魚郵件的分發。
安全漏洞。AIGC模型在生命周期的每個階段都面臨著安全威脅。例如,在模型訓練過程中,攻擊者可能使用有毒或敵對的樣本來降低模型性能[17],或發起后門攻擊以操縱模型結果[18];在模型部署后,攻擊者可能通過智能模型盜竊攻擊來竊取AIGC模型或其部分功能[19]。由于大型AIGC模型如ChatGPT采用的策略比通用模型更復雜,可能會出現更多的安全威脅(如越獄[20]和提示注入[21]),這些威脅可能是全新的。此外,生成型AI模型仍然面臨著關于透明度、魯棒性和偏見/歧視的技術限制。
隱私侵權。AIGC模型的成功在很大程度上依賴于可能無可避免地包含用戶敏感和私人信息的大量訓練數據集。例如,ChatGPT在與用戶交互時,能夠記住與會話相關的項目以及用戶輸入、cookie和日志[22],[23]。這為在AIGC中的數據濫用和犯罪活動帶來了新的可能。根據最近的一項研究[24],對黑盒GPT-2模型,攻擊者可以使用提示注入和公共文本特征從AI記憶中恢復最多67%的訓練文本,包括個人名字、地址和電話號碼。2023年3月,由于對隱私合規的擔憂,意大利禁止使用ChatGPT[25]。
信任問題。AIGC技術的快速發展使得創造和傳播虛假信息和假證據,如深度偽造內容和假新聞[26]變得越來越容易。這導致了新類型的犯罪活動的出現,如AI欺詐、誹謗、身份盜竊和冒充[27]。例如,ChatGPT可以產生誤導和不道德的回應,具有惡意意圖的個人可以利用其生成無瑕疵文本的能力進行欺詐,復制語音模式進行冒充,和開發惡意代碼進行黑客攻擊。這極大地增加了為由生成性AI模型產生的材料建立可追溯來源和規定的需求,以確保其問責制。
道德影響。作為一把雙刃劍,AIGC技術也對人類社會產生了負面影響,并可能被濫用用于分發惡意軟件、勒索軟件和網絡釣魚郵件。例如,ChatGPT產生即時和令人信服的對話的能力可以使其更容易制作釣魚郵件,誘騙收件人點擊有害鏈接,下載惡意軟件,或者泄露機密信息[28]。此外,AIGC可以促進課堂上的作弊,藝術中的抄襲,和學術論文的欺詐,使得這樣的行為更容易被犯下,也更難被發現。
本文的其余部分按如下方式組織。在第二部分,我們介紹AIGC的工作原理。第三部分討論了AIGC中安全和隱私問題的分類,以及最新的對策。第四部分介紹了AIGC模型和內容的IP保護和規定。第五部分探討了未來的研究方向。最后,第六部分得出結論。本文的組織結構在圖2中展示。
2. AI生成內容:工作原理
在這一部分,我們首先介紹AIGC的發展路線圖和啟用技術。然后,我們討論內容創建范式以及知識表示和使用范式的范式轉變。之后,我們展示了AIGC的一般架構,工作模式,關鍵特性,應用,以及現代原型。
如圖3所示,人工智能生成內容即服務(AIGCaaS)的一般架構包括以下三層:(i)基礎設施層,(ii)AIGC引擎層,和(iii)AIGC服務層。
? 基礎層。隨著大型AI模型(如參數達1750B的GPT-3)的規模持續擴大,對廣泛的計算能力,強大的AI算法,和大量訓練數據的需求日益增長。對于ChatGPT,大計算能力,大數據,和大模型的組合釋放出了其在學習用戶提供的多模態提示并自動生成高質量內容方面的強大的突現能力。AI算法包括AI框架(如TensorFlow,Pytorch,和Keras),有監督/無監督學習算法,和生成AI模型(如transformer和擴散模型)。配備了強大的GPU,TPU,AI芯片和大量存儲的云服務器,使得基礎AIGC模型的高效訓練成為可能。所涉及的訓練數據可以是已標注的數據,或從互聯網收集的數據,可以是非結構化和多模態的。
? AIGC引擎層。多模態基礎模型(如GPT-4)在大量的多模態數據上進行預訓練,并能在不需要任務特定微調的情況下執行多種不同的任務[33]。此外,各種底層技術,如CoT提示,人類反饋的強化學習(RLHF),和多模態技術,都被集成到訓練和優化基礎模型中。多模態基礎模型作為AIGCaaS的引擎,為上層AIGC服務賦予了越來越強的實時學習能力。此外,多模態基礎模型可以通過與數十億用戶的實時和密集交互進行逐步的演化和優化,因為它允許從更多的私有數據(如用戶輸入和歷史對話)以及個人和機構的反饋中學習[38]。
? AIGC服務層。從能力的角度看,AIGC服務包括生成文本,音頻,圖像,視頻,代碼,3D內容,數字人,和多模態內容。從終端用戶的角度看,AIGC服務可以分為兩種類型:ToB(面向業務)和ToC(面向消費者)。雖然基礎模型為各種任務提供了一種一刀切的解決方案,但它可能在特定任務上的表現不如專用AI模型。① 對于ToB情況,一個機構或機構聯盟可以通過在包含標注業務數據的較小數據集上對基礎模型進行微調,訓練出一個專用AI模型來執行特定任務,如醫療診斷或財務分析。例如,一個機構聯盟可以通過聯邦學習和遷移學習技術使用本地業務數據共同訓練一個在基礎模型之上的專用AI模型[39]。此外,還可以結合兩種方法以獲得更好的結果。例如,可以使用一個專用AI模型進行特定任務,并將其輸出作為輸入提供給基礎模型,以生成更全面的響應。 ② 對于ToC情況,每個用戶都可以定制一個網絡分身[6](即智能手機或PC中的程序),并使用自然語言與之交流。網絡分身有自己的記憶存儲用戶的偏好,興趣和歷史行為,以及任務特定的專業知識。利用這些知識,網絡分身為用戶生成個性化的提示,從而提供高效和定制的AIGC服務。此外,它還實現了一個反饋環,用戶可以對AI提供的建議進行評價。網絡分身也可以通過構建一個連接的網絡并自由分享所學習的知識和技能,來協同完成更復雜的任務[6]。 對于ToB和ToC兩種情況,以倫理和保護隱私的方式處理個人和機構的私有數據都至關重要。此外,在提供AIGC服務時,保護基礎模型和專用AI模型的知識產權,以及AI生成內容的出處,也是非常重要的。
在未來,AIGC有可能完全取代簡單和非創新的人類工作,同時也加速了人機協作時代的到來。AIGC在內容生成方面有兩種主要模式:輔助生成和自主生成[5]。
? AI-Assisted Content Creation(需要人類干預)。在這種模式下,AI算法為創造內容的人類提供建議或幫助。然后,人類可以根據AI提出的建議編輯和改進內容,以提高最終產品的質量。然而,這種模式在內容創建上往往比較慢且成本更高。
? Autonomous Content Creation by AI(不需要人類干預)。在這種模式下,AI完全自主地創造內容,沒有任何人類的干預。AI機器人可以自主快速且低成本地創建大量內容,而產生的內容質量取決于生成的AI模型。
在此部分,我們將討論不同類型的AI生成內容以及其應用: 1)文本生成。大型語言模型(LLM)可以比人類作者更快、更有效地生成高質量的文本 [10]。這包括博客、新聞、代碼、文章、營銷副本和產品描述。此外,它使聊天機器人和虛擬助手能夠通過AI生成的文本以人類的方式與客戶和客戶進行溝通。 2)圖像生成。大型視覺模型(LVM)可以將草圖轉化為數字繪制的圖像,用于各種目的,包括創造視覺藝術、廣告圖片、游戲場景、駕駛模擬環境以及增加訓練樣本。 3)音頻生成。AI生成的音頻有著廣泛的應用,包括語音合成、音樂創作和聲音設計。如Amper Music這樣的音樂創作AI程序,允許用戶使用AI創建原創音樂。 4)視頻生成。AI生成的視頻可以廣泛用于虛擬現實、增強現實、營銷、廣告、娛樂和教育等各種領域。 5)3D內容生成。AIGC可以通過分析照片和視頻等真實世界的數據來創建逼真的3D模型,AI生成的3D模型可以用來創建動畫、游戲資產和產品設計。 6)數字人生成。AIGC可以生成具有高度逼真動作和表情的數字人,可用于游戲、虛擬現實和廣告等各種領域。 7)跨模態生成。AIGC中的跨模態內容生成指的是使用基礎AIGC模型在多種模態之間生成新內容 [3]。它包括文本到圖像、圖像到文本、文本到代碼、文本到視頻、文本到音頻等。 總的來說,AIGC讓生活變得更加便捷和高效,但也帶來了新的安全/隱私威脅、倫理問題以及潛在的偏見,這些將在下一節中展示。
ChatGPT和GPT-4的顯著成就引發了對大型語言模型在通用人工智能(AGI)領域的研究和關注。這些模型為我們提供了更接近人類思維的智能解決方案,使我們能夠使用通用人工智能來解決各種應用中的問題。然而,在遙感領域,關于AGI實施的科學文獻相對較少。現有的與AI相關的研究主要關注視覺理解任務,而忽視了對象及其關系的語義理解。這正是視覺-語言模型的優勢所在,因為它們可以推理關于圖像及其關聯文本描述的信息,從而更深入地理解基礎語義。視覺-語言模型可以超越識別圖像中的對象,能夠推斷它們之間的關系,以及生成圖像的自然語言描述。這使得它們更適合于需要視覺和文本理解的任務,如圖像字幕,基于文本的圖像檢索和視覺問題回答。本文對遙感領域的視覺-語言模型研究進行了全面的回顧,總結了最新的進展,突出了當前的挑戰,并指出了潛在的研究機會。具體來說,我們回顧了視覺-語言模型在幾個主流遙感任務中的應用,包括圖像描述,基于文本的圖像生成,基于文本的圖像檢索,視覺問題回答,場景分類,語義分割和對象檢測。對于每個任務,我們簡要描述了任務背景并回顧了一些代表性的工作。最后,我們總結了現有工作的局限性,并提供了一些未來發展的可能方向。本回顧旨在為遙感領域的視覺-語言模型研究的當前狀態提供全面的概述,并激發對這一激動人心且重要領域的進一步研究。
1. 引言
深度學習已經成為遙感(RS)應用的強大工具。早期的遙感工作主要側重于使用從圖像中提取的視覺特征來執行各種任務,例如物體檢測、語義分割、土地覆蓋分類和變化檢測。作為最常用的深度學習方法之一,卷積神經網絡(CNNs)可以自動學習遙感圖像的分層表示,使它們能夠捕獲局部和全局的空間特征和模式。此外,注意力機制已被整合進深度學習模型,通過讓模型關注輸入的特定區域來提高其在遙感任務中的表現。由于深度神經網絡強大的特征學習能力,深度學習模型在各種遙感任務中的有效性得到了證明,與傳統的機器學習方法相比,它們達到了最先進的性能。然而,現有的基于深度學習的研究主要關注視覺理解任務,而忽視了對象及其關系的語義理解。例如,在進行土地覆蓋分類時,如果只有視覺的模型可能會把一個像高速公路的建筑物屋頂像素分類為高速公路。這是因為模型缺乏高速公路不能在建筑物屋頂內的一般知識。 近年來,大型語言模型(LLMs)在自然語言處理(NLP)和計算機視覺領域成為了熱門的研究話題。這些模型構建了大規模的視覺和自然語言理解轉換網絡,并在各種語言理解任務中取得了最先進的性能,例如語言建模、文本生成和問題回答[115]。值得注意的是,ChatGPT的顯著成就在通用人工智能(AGI)領域的大型語言模型研究中引發了一波關注和研究。預期這些模型在圖像理解和自然語言處理方面將會有更多的進步,他們有望將語言理解的水平提升到前所未有的水平。大型語言模型的巨大成功鼓勵了大量的視覺-語言模型(VLMs)研究。
視覺-語言模型(VLMs)通常被定義為一類結合了計算機視覺和自然語言處理技術的人工智能模型,它們能夠生成對視覺和文本信息的全面理解。通過共同識別視覺和語義模式及其關系,VLMs可以超越識別圖像中的對象,能夠推斷它們之間的關系,以及生成圖像的自然語言描述。這使得它們更適合于需要視覺和文本理解的任務,如圖像字幕,基于文本的圖像檢索和視覺問題回答。更重要的是,通過將視覺模型與具有一般推理能力的大型語言模型(LLMs)結合,VLMs提供了一種更全面和類人的方法來理解視覺內容。近年來,VLMs在各種計算機視覺任務中展示了令人印象深刻的結果,包括圖像理解[19],[198],視覺問題回答[75],[74],文本到圖像生成[125],語義分割[20],[187],對象檢測[183],[99]等。 在遙感中,使用VLMs是一個相對新的研究領域。隨著與遙感數據相關的文本元數據的日益增多,研究人員已經開始探索在這個領域使用視覺和語言模型[147]。近年來,一些早期的嘗試試圖探索VLMs用于各種遙感數據分析任務,包括遙感圖像字幕[133],[100],[185],[188],[186],[48],[83],[132],[155],[82],[190],[60],[202],[160],基于文本的遙感圖像生成[10],[18],[189],[48],[168],基于文本的遙感圖像檢索[1],[48],[118],[48],[178],[4],[25],[177],[176],[119],視覺問題回答[96],[192],[192],[15],[15],[3],[9],[174],[175],場景分類[72],[136],[113],[150],[86],語義分割[20],[187],對象檢測[58],[183],[99]等。隨著大規模遙感數據集的可用性增加和深度學習技術的進步,預計視覺和語言模型的使用將在遙感應用的未來中發揮重要作用。
在這項研究中,我們提供了一項全面的綜述,從視覺到語言,再到視覺-語言模型(VLMs)在遙感(RS)中模型的演變。具體來說,我們對近期在遙感領域VLMs的進展進行了廣泛的文獻調研。此外,我們為遙感應用領域VLMs的未來研究方向提供了有價值的見解和建議。我們的工作有助于更好地理解VLMs的當前最新水平,并為這個領域的研究人員提供了探索這些模型在遙感任務中潛力的指導。
遙感中的視覺-語言模型
A. 基礎模型。
基礎模型指的是在大量數據上以任務無關的方式預訓練的大型深度學習神經網絡。這些模型可以通過微調、少樣本學習或零樣本學習應用于各種下游任務。基礎模型的例子包括GPT-3 [12],BERT [32]和T5 [117]。這些模型已經在大量文本數據上進行了預訓練,并能夠為各種NLP任務進行微調,如語言翻譯、問答和文本分類。在遙感(RS)中,預訓練對于提高分類、檢測和分割任務的性能至關重要[165]。以前的方法主要利用ImageNet數據集進行預訓練。然而,將ImageNet預訓練模型轉移到RS任務會因自然圖像和RS圖像之間的巨大差異而產生巨大的領域差距。因此,設計一個針對RS數據的基礎模型是必要的。研究人員使用兩種方法來達到這個目標:監督學習和自我監督學習。在監督學習中,[152]在MillionAID數據集上預訓練了深度神經網絡,這是一個大規模的RS數據集,并提高了這些模型在RS數據集上的性能。然而,需要大量標注數據仍然是一個障礙,因為它可能阻礙更大模型的訓練。因此,自我監督技術逐漸成為開發遙感基礎模型的主要方法,因為它們可以利用大量的未標注數據[157]。一些工作[2],[79],[6],[105],[47]采用對比學習訓練基礎模型,加入RS特定信息,如地理數據、時間序列數據、音頻數據等。
最近,遮蔽圖像建模(MIM)在計算機視覺中越來越受到關注,如BEiT [8],MAE [45],SimMIM [164],因為它消除了對額外信息、數據增強和正負對選擇的需要。因此,利用大量數據變得更容易。一些工作將MIM應用于開發RS基礎模型。例如,[137]從衛星和航空平臺收集了200萬張RS圖像,創建了一個大規模的RS數據集。基于這個數據集,他們設計了第一個生成自監督RS基礎模型,RingMo。RingMo在包括變化檢測、場景識別、對象檢測和語義分割在內的四個下游任務的八個數據集上取得了最新的成果。[153]首次嘗試構建一個具有大約1億參數的簡單視覺變換器,用于定制RS任務的大型視覺基礎模型。方法概述如圖7所示。他們還引入了一個旋轉的可變大小窗口注意機制,以增強視覺變換器適應RS圖像的能力。[106]發現在構建地理空間基礎模型時,應該考慮到在多樣化數據集上預訓練的模型,例如ImageNet-22k,因為它們的表現仍然有效。因此,他們以可持續的方式構建了一個用于地理空間應用的地理空間基礎模型。[14]開發了RS領域的第一個十億規模的基礎模型,并證明了將模型的大小從百萬規模增加到十億規模的效果。
B. 遙感圖像描述
遙感圖像描述(RSIC)是一項復雜的任務,需要機器理解遙感(RS)圖像的內容并用自然語言進行描述。這是一個具有挑戰性的任務,因為生成的描述不僅必須捕捉到不同規模的地面元素,還必須描述出它們的屬性以及它們之間的相互關系。與其它旨在預測單個標簽或單詞的任務不同,RSIC旨在生成全面的句子。為了生成簡潔而有意義的句子描述,重要的是要識別并識別出不同級別的地面元素,分析它們的屬性,并從高級角度利用類別依賴性和空間關系。
C. 基于文本的圖像生成
基于文本的圖像生成是一個新興的研究領域,它結合了自然語言處理和計算機視覺,以便從文本描述中創建逼真的圖像。將這種技術應用到遙感(RS)圖像中,在現實世界的應用中具有巨大的潛力。它可能帶來的一大益處是,通過根據文本描述生成逼真的RS圖像,來幫助城市規劃者。這將使他們能夠評估他們設計的可行性,并做出更明智的決策。另一個可能的用例是生成高質量的RS圖像標注數據集,這通常是一個具有挑戰性和耗時的過程。基于文本的圖像生成技術可以用于從文本描述中創建合成的RS數據集,從而緩解標注樣本的短缺。
D. 基于文本的圖像檢索
如何有效組織和管理大量的遙感(RS)數據,長期以來都是RS領域面臨的重大挑戰。為了解決這個挑戰,基于文本的圖像檢索(TBIR)已經成為一個突出的研究課題,旨在為RS數據管理提供有效的解決方案。圖像檢索的主要目標是從大型數據集中提取特定的圖像,近年來該領域已經得到了相當多的關注。其基本思想是縮小對目標圖像的搜索范圍,并檢索出與特定查詢相匹配的圖像。這項任務在諸如森林砍伐檢測、視覺導航和城市規劃等實際應用中具有價值。
E. 視覺問題回答
視覺問題回答(VQA)是一項旨在對與圖像相關的問題提供答案的任務。盡管在計算機視覺領域已經獲得了廣泛的關注,但在遙感(RS)領域仍處于早期階段。遙感VQA系統使非專業用戶可以使用自然語言問題作為查詢來與RS圖像進行交互,從而實現對圖像的用戶友好和高級理解。開創性的工作[96]建立了RS圖像的第一個大規模VQA基準數據集。從OpenStreetMap中收集了低分辨率和高分辨率的RS圖像數據,以及與圖像相關的人生成的問題和答案。在[96]中,作者提供了一種基準方法,使用卷積神經網絡(CNNs)進行視覺特征學習,采用長短期記憶網絡(LSTM)[48]進行文本嵌入提取。進一步設計了相互關注機制以增強視覺和文本特征之間的對齊。在[95]中,作者通過參考每張RS圖像中土地使用類別的存在,構建了一個大規模的遙感VQA數據集。鄭等人[192]引入了一個相互關注網絡,利用視覺和文本特征之間的語義對應關系,采用雙線性模塊進行特征融合。Chappuis等人[15]建議使用大型語言轉換器,例如BERT[32]進行文本特征學習,并證明其性能優于循環神經網絡。
F. 視覺定位
針對遙感數據的視覺定位(RSVG)是近期的一個新穎課題,對于這個任務的研究仍然有限。具體來說,RSVG涉及使用遙感圖像和相關的查詢表達式,為特定的感興趣的對象提供邊界框[180]。通過使用自然語言引導在遙感場景中定位對象的過程,RSVG提供了對象級別的理解,并為終端用戶提供便利。RSVG的潛在應用包括目標對象的檢測和識別、搜索和救援任務、城市規劃等。
G. 零樣本場景分類
零樣本遙感場景分類(RSSC)的目標是通過參考視覺特征和語義類別之間的語義關系來識別未見過的場景概念。Li等人[72]提出了第一種基于零樣本學習的遙感(RS)場景分類方法,該方法使用在Wikipedia語料庫上預訓練的word2vec模型來獲取類別名稱的語義嵌入,然后構建語義圖以捕獲類別間的關系。Quan等人[113]通過結合半監督的Sammon嵌入算法[127]來對齊語義和視覺原型,從而加強了這種方法。
H. 少樣本目標檢測
目標檢測是遙感(RS)中的一個重要任務,涉及到通過識別其邊界框和類別標簽來檢測對象實例。由于近年來的大量研究努力,這個領域已經取得了重大進步,包括兩階段檢測器,如Fast RCNN[40]和Faster R-CNN[123],一階段檢測器,如SSD[92],YOLO[122]和RetinaNet[89],以及最近提出的DETR變體[13],[200]。
I. 少樣本/零樣本語義分割
在語義分割領域,少樣本學習方法使得在有限數量的標注圖像下能夠進行新類別的分割。最近的研究主要集中在兩類方法,即參數匹配方法和原型方法。值得注意的是,開創性的工作PANet [154]通過引入一個原型對齊模塊,為每個語義類別生成高度代表性的原型,并基于特征匹配進行查詢對象的分割,從而在少樣本分割領域實現了突破。Jiang等人[58]提出了一種用于遙感(RS)圖像分割的少樣本學習方法,但是少樣本學習在RS圖像分割中的應用仍然處于起步階段。為了克服深度學習分割方法對數據的依賴,最近的研究[20],[187]已經探索了自我/半監督學習和弱監督學習,以減少對密集標注的需求。Chen等人[20]介紹了一種基于對比學習的RS圖像少樣本分割的半監督方法。Zhang等人[187]引入了一個用于跨場景高光譜圖像分類的網絡,該網絡利用語言指導實現領域泛化。圖15給出了該方法的概述。
3. 結論與未來趨勢
計算機視覺和自然語言處理傳統上被視為兩個不同的領域,每個領域都有自己獨特的挑戰和應用。然而,ChatGPT的非凡成功最近在大型語言模型(AGI)領域的研究者中引發了巨大關注。這些模型將計算機視覺和自然語言處理的優勢結合在一起,促進了更像人類的智能系統的開發,這些系統是基于VLMs構建的。在遙感(RS)的一些研究中,已經證明了VLMs在各種RS任務中比純視覺模型更優越,包括圖像標注、基于文本的圖像生成、基于文本的圖像檢索、視覺問題回答、場景分類、語義分割和目標檢測。雖然這些早期的嘗試已經展示了將VLMs應用于遙感的成功,但對于大多數研究者來說,這仍然是一個新興領域。因此,本文旨在提供一個全面的關于在遙感中應用視覺語言模型的綜述,為其他研究者提供關于該領域背景和最近進展的快速理解。它還旨在鼓勵在這個令人興奮且重要的領域進行進一步的研究。在回顧了遙感中VLMs的文獻后,我們發現了當前研究的一些限制。首先,用于訓練VLMs的RS數據集數量有限,樣本量遠小于計算機視覺領域的數十億圖像數據集。其次,大多數現有的RS VLMs仍然使用經典的CNN和RNN作為圖像和語言編碼器,只有少數工作探討了在計算機視覺中使用預訓練的視覺變換器和大型語言模型,如GPT、BERT和Flan-T5。這可能限制了這些模型的特征學習能力。此外,從零開始訓練這些VLMs需要大量的計算負擔,尤其是對于擁有數十億參數的大網絡。這就需要在RS中為大型VLMs提供有效的模型微調技術。此外,由于光照條件、大氣干擾和傳感器噪聲等因素的影響,RS數據可能會表現出高度的變化性。
大型語言模型(LLMs)在自然語言處理(NLP)領域憑借其出色的語言理解和生成能力取得了顯著進步。然而,由于受限于領域特定知識和詞匯的接觸,它們在長尾或領域特定任務的表現可能不盡如人意。此外,大多數最先進的(SOTA)LLMs缺乏透明度,只能通過API訪問,這阻礙了使用自定義數據進一步微調。而且,數據隱私是一個重要問題。為了應對這些挑戰,我們提出了一種創新的參數知識引導(PKG)框架,該框架為LLMs配備了一個知識引導模塊,以在運行時訪問相關知識,而無需更改LLMs的參數。我們的PKG基于開源的“白盒”小型語言模型,允許將LLMs所需的任何知識進行離線存儲。我們證明了我們的PKG框架可以增強“黑盒”LLMs在一系列長尾和領域特定下游任務的表現,這些任務需要事實、表格、醫學和多模態知識。
//www.zhuanzhi.ai/paper/4bf640cc7e3ca1bf060a6aafc401de8e
1. 引言
諸如GPT3 [Brown et al., 2020]的大型語言模型(LLMs)在各種自然語言處理(NLP)任務中展示出令人印象深刻的熟練程度。這些模型通常在廣泛的互聯網數據上進行訓練,從而使它們能夠將大量的隱式世界知識融入到其參數中。因此,LLMs已成為既適用于NLP研究又適用于工業應用的多功能工具。例如,它們可用于機器翻譯 [Jiao et al., 2023],段落摘要 [Yang et al., 2023]和推薦系統 [Gao et al., 2023]。憑借其卓越的語言理解和生成能力,LLMs為各種工業應用提供了新的機會,如最近推出的New Bing [Microsoft, 2023]和ChatGPT插件 [OpenAI, 2023a]。 盡管在一般自然語言處理(NLP)任務上表現出色,但在長尾或領域特定任務上,LLMs可能會因受限于相關知識和詞匯而難以獲得最佳結果 [Chalkidis, 2023; Kasai et al., 2023; Nascimento et al., 2023]。雖然LLMs在預訓練過程中獲取了隱式知識,但這種知識可能對某些任務來說是有損失或不足的,導致準確度降低和效果不佳。此外,許多最先進(SOTA)的LLMs被認為是“黑箱”模型,只能通過API訪問。這種缺乏透明度使得微調這些模型對大多數研究人員和公司來說變得困難和昂貴。此外,能夠承擔微調費用的用戶必須向LLM所有者提供他們的私人數據,將其暴露于濫用、違規或其他安全威脅的風險中 [BBC, 2023]。這些限制阻礙了LLMs適應特定用例或領域的能力。
最近的研究主要集中在使用基于檢索的方法從外部知識庫中提取領域特定知識,以提高LLMs的性能 [Liu, 2022; Shi et al., 2023; Peng et al., 2023a]。雖然這種方法取得了有前景的結果,但它還存在一些局限性。首先,它嚴重依賴外部知識來源,這些來源可能并不總是容易獲得或可用。此外,這些方法可能無法處理需要從多個來源或模態整合信息的復雜查詢。
為了克服這些局限性,我們提出了一種名為參數知識引導(PKG)的新框架,它將檢索替換為生成,如圖1所示。PKG模塊是一個額外的背景知識生成模塊,使LLMs能夠在運行時訪問相關信息,而無需更新它們的參數。通過提供必要的知識,增強型LLMs可以在長尾或領域特定任務上取得更好的性能。
我們的PKG框架基于開源且免費使用的“白盒”小型語言模型,使其能夠被更廣泛的用戶所使用。為了與給定任務或領域所需的特定知識保持一致,我們引入了一種基于指令微調的兩步知識對齊方法 [Ouyang et al., 2022]。參數模塊可以存儲LLMs所需的任何知識,并且可以在離線情況下高效地進行更新。
我們的實驗表明,所提出的PKG框架能夠提高“黑箱”LLMs在需要領域特定背景知識的各種下游任務上的性能,包括事實知識(FM2 [Eisenschlos et al., 2021], +7.9%)、表格知識(NQ-Table [Herzig et al., 2021], +11.9%)、醫學知識(MedMC-QA [Pal et al., 2022], +3.0%)和多模態知識(ScienceQA [Lu et al., 2022], +8.1%)。我們將我們的貢獻總結如下:
我們提出了一種創新的參數知識引導(PKG)框架,通過集成一個額外的背景知識生成模塊來增強語言模型(LMs)的能力。
我們引入了一種兩步知識對齊方法,將PKG模塊與給定任務或領域所需的特定知識對齊。該方法基于指令微調,并使參數模塊能夠進行高效的離線更新。
我們對各種下游任務進行了廣泛的實驗,以評估我們提出的PKG框架的有效性。這些實驗的結果表明,我們的PKG框架可以提高LLMs在這些任務上的能力。
2 參數化知識引導
在本節中,我們介紹了一種名為參數知識引導(PKG)的創新框架,旨在提高“黑箱”LLMs在長尾或領域特定任務上的性能。PKG利用一個離線參數知識生成模塊,該模塊與LLM集成,以在運行時提供相關知識,指導其推理。為實現這一目標,我們首先利用一個小型開源語言模型來高效地與領域特定知識對齊,這些知識通常是長尾的或不存在于LLM的訓練數據中。然后,給定一個輸入問題或句子,PKG提供相應的背景文檔,擴展LLMs的輸入上下文,使它們能夠處理更廣泛的任務。
**2.1 導引器的知識對齊 **
針對特定任務或領域,我們通過指令微調 [Ouyang et al., 2022] 將導引器模塊與相關知識對齊。如圖2所示,我們將此過程分為兩個步驟。首先,我們收集有關目標任務/領域的原始數據,作為我們的知識來源。然后,我們將數據轉換為一組(指令,輸入,輸出)三元組。指令作為輸入的提示,并指導模塊與預期輸出對齊。接下來,采用這組三元組來調整我們的基本PKG模塊,優化其為給定任務或領域的LLMs提供相關且有效指導的能力。這個過程使PKG模塊能夠學習并生成領域特定知識,并在運行時提供給LLMs。指令提示的示例是:
指令作為提示,指導模型提供與特定領域或任務相關的背景知識。輸入是一個提示,提示模型在指定的領域或任務中生成一句話或回答問題。輸出是模型基于給定指令和輸入生成的相關知識。為生成輸出,我們以自回歸方式訓練基本的導引器模塊,其中模型在給定先前上下文的情況下生成輸出。一旦訓練完成,基本模型就會演變成參數化知識導引器,可以根據相應的指令生成特定領域/任務的背景知識。
2.2 用PKG增強LLMs
在許多情況下,使用“黑箱”LLMs的標準方法是將輸入句子/問題作為提示,并請求LLMs使用API返回響應/答案。然而,這種方法對于需要超出輸入本身所含知識的復雜任務可能并不有效。為了克服這個限制,一種常見的方法是為LLMs提供額外的上下文,使它們能夠訪問與任務相關的更多相關信息。在PKG的情況下,我們增強輸入與領域特定的背景知識,擴展輸入上下文。這個補充信息作為LLMs的指南,使它們能夠訪問更豐富的任務上下文,從而潛在地提高它們生成響應的準確性。一個增強的提示的例子是:
3 實驗
在本節中,評估了所提出的PKG框架在四種不同類型的知識上的有效性:事實性、表格性、醫學和多模態知識。將所提出方法的性能與幾個基線方法進行了比較,表1和表2所示的結果表明,PKG比"黑盒" LLM取得了顯著的改進。這些發現為所提出方法的通用性和有效性提供了令人信服的證據。
開放信息抽取(OpenIE)有助于從大型語料庫中獨立于領域的關系事實發現。該技術非常適合許多開放世界的自然語言理解場景,如自動知識庫構建、開放領域問題回答和顯式推理。由于深度學習技術的快速發展,許多神經OpenIE架構被提出,并取得了相當大的性能提升。在這項綜述中,我們提供了最先進的神經OpenIE模型的廣泛概述,它們的關鍵設計決策,優點和缺點。然后,我們討論了當前解決方案的局限性和OpenIE問題本身的開放性問題。最后,我們列出了有助于擴大其范圍和適用性的最新趨勢,為OpenIE的未來研究奠定了良好的方向。據我們所知,這是關于神經OpenIE的第一篇綜述。
OpenIE(開放信息抽取)以n元關系元組的形式提取事實,即(arg1, predicate, arg2,…, argn),從非結構化文本,而不依賴預定義的本體模式[Niklaus等人,2018]。圖1顯示了從給定句子中提取的示例OpenIE元組。與傳統的(或封閉的)IE系統要求預定義關系相比,OpenIE減少了設計復雜的、領域相關的關系模式的人力勞動。因此,它有可能在最少的人工干預下處理異構語料庫。通過OpenIE,可以開發Web規模的無約束IE系統,獲取大量的知識。然后,收集的知識可以集成并用于廣泛的自然語言處理(NLP)應用,如文本蘊積[Berant et al., 2011],總結[Stanovsky et al., 2015],問題回答[Fader et al., 2014; Mausam, 2016]和顯性推理[Fu et al., 2019]。
在深度學習之前,傳統的OpenIE系統要么基于統計,要么基于規則,并且嚴重依賴于語法模式的分析[Niklaus et al., 2018]。最近,由于大規模OIE基準(如OIE2016 [Stanovsky and Dagan, 2016], CaRB [Bhardwaj et al., 2019]),以及基于神經的模型在各種NLP任務上的巨大成功(如NER [Li et al.,2022],機器翻譯[Yang et al.,2020]),神經OpenIE解決方案變得流行起來。從Stanovsky等人2018年和Cui等人2018年開始,基于神經的方法主導了OpenIE研究,因為它們在多個OpenIE基準上具有良好的提取質量。神經解決方案主要將OpenIE定義為序列標記問題或序列生成問題。基于標記的方法將句子中的標記或span標記為參數或謂詞[Stanovsky et al.,2018;Kolluru et al.,2020a;詹和趙,2020]。生成方法使用自回歸神經結構從句子輸入中生成提取[Cui et al.,2018;Kolluru et al.,2020b]。最近的一些工作側重于通過引入新的損失來校準神經模型參數[Jiang et al.,2019年],或通過引入新的目標來實現語法上合理和語義上一致的提取[Tang et al.,2020年]。
本文系統地回顧了神經OpenIE系統。現有的OpenIE綜述[Niklaus et al., 2018; Glauber and Claro, 2018; Claro et al., 2019]關注傳統解決方案,并沒有很好地涵蓋最近的基于神經的方法。由于范式的改變,OpenIE未來研究機會的潛在途徑也需要重新考慮。在這項綜述中,我們總結了最近的研究進展,分類現有的神經OpenIE方法,確定剩余的問題,并討論開放的問題和未來的方向。本文的主要貢獻如下: 1) 基于神經OpenIE模型的任務公式,提出了神經OpenIE模型的分類方法。然后我們討論他們的優點和缺點; 2) 我們對OpenIE的背景和評估方法進行了有益的討論。我們還提供了當前SOTA方法的詳細比較;3) 我們討論了制約OpenIE發展的三個挑戰:評估、注釋和應用。在此基礎上,我們突出未來的方向: 更開放、更專注、更統一。
神經OpenIE解決方案
標記模型 Tagging-based Models
基于標記的模型將OpenIE定義為序列標記任務。給定一組標記,其中每個標記表示一個標記或標記跨度的一個角色(例如,參數,謂詞),模型學習每個標記或標記跨度以句子為條件的標記的概率分布。然后,OpenIE系統根據預測的標記輸出元組。基于標記的OpenIE模型與NLP中用于序列標記任務的其他神經模型(例如,NER NER [Li et al., 2022])共享類似的架構。一個模型通常包含三個模塊: 生成標記的分布式表示的嵌入層,生成上下文感知的標記表示的編碼器,以及基于標記表示和標記方案預測標記的標記解碼器。該嵌入層通常將詞嵌入與句法特征嵌入相結合,以更好地捕獲句子中的句法信息。最近,預訓練語言模型(PLMs)在各種NLP任務中表現出了卓越的性能[Devlin et al,2019]。因為PLM產生上下文感知的令牌表示,它們既可以用于產生令牌嵌入,也可以用作編碼器。根據標記方案,我們將模型分為基于token的模型、基于span的模型和基于圖的模型。
生成式模型 Generative Models
生成模型將OpenIE定義為一個序列生成問題,它讀取一個句子并輸出一系列的提取。圖2(d)給出了生成序列的示例。形式上,給定一個令牌序列S和期望的提取序列Y = (y1, y2,…, ym),模型使條件概率Q P(Y |S) = IIp(yi |y1, y2, . . . , yi?1; S); 也有生成對抗性元組的工作,目的是使分類器難以將它們與真實元組區分開來。
模型結果比較
神經OpenIE系統在兩個流行的基準OIE2016和CaRB上的性能,每個都有多個部分匹配策略。每個評估設置下的最佳結果(基于可用的分數)以黑體顯示,次佳的結果以下劃線顯示。文獻中缺失的結果標記為“-”。由于logcian僅在中國基準上進行評估,而Adversarial-OIE僅在OIE2016上給出了precision-recall曲線,沒有AUC評分,因此這兩個系統不在這里列出。為了全面起見,我們還包括了兩種流行的基于規則的系統,即ClausIE和OpenIE4。