隨著在線視頻平臺的迅猛增長和視頻內容量的激增,對于精通視頻理解工具的需求顯著增強。大型語言模型(LLMs)在關鍵語言任務中展現出驚人的能力,這項綜述為利用大型語言模型的視頻理解的最新進展(Vid-LLMs)提供了詳細概覽。Vid-LLMs的新興能力令人驚訝地先進,特別是它們結合常識知識的開放式空間-時間推理能力,為未來的視頻理解展示了一條有希望的路徑。我們檢查了 Vid-LLMs 的獨特特征和能力,將方法分為四大類:基于LLM的視頻智能體,Vid-LLMs預訓練,Vid-LLMs指令微調,以及混合方法。此外,這項綜述還全面研究了 Vid-LLMs 的任務和數據集,以及用于評估的方法。此外,綜述還探討了 Vid-LLMs 在各個領域的廣泛應用,從而展示了它們在應對現實世界視頻理解挑戰方面的顯著可擴展性和多功能性。最后,綜述總結了現有 Vid-LLMs 的局限性和未來研究的方向。欲了解更多信息,我們建議讀者訪問 //github.com/yunlong10/Awesome-LLMs-for-Video-Understanding 存儲庫。
我們生活在一個多模態的世界中,視頻已成為最常見的媒體形式,這在一定程度上得益于互聯網技術,特別是移動互聯網技術的發展。隨著在線視頻平臺的快速擴張和監控、娛樂、自動駕駛中相機的日益普及,視頻內容已成為一種關鍵且吸引人的媒介,其豐富性和吸引力超越了傳統的文本和圖文結合形式。這一進步促使視頻制作呈指數級增長,每天都有數以百萬計的視頻被創作出來。然而,手動處理如此龐大的視頻內容既費時又費力。因此,對于能夠有效管理、分析和處理這些大量視頻內容的工具的需求日益增長。為了滿足這一需求,視頻理解和分析技術應運而生,利用智能分析技術。該技術旨在自動識別和解釋視頻內容,從而減輕人類操作者的負擔。
正如圖1所示,視頻理解方法的演變可分為四個階段: 傳統方法。在視頻理解的早期階段,使用了手工特征提取技術,如尺度不變特征變換(SIFT)[1]、加速穩健特征(SURF)[2]和定向梯度直方圖(HOG)[3]來捕捉視頻中的關鍵信息。背景減除[4]、光流方法[5]和改進的密集軌跡(IDT)[6, 7]用于跟蹤建模運動信息。由于視頻可以被視為時間序列數據,因此也使用了隱藏馬爾可夫模型(HMM)[8]等時間序列分析技術來理解視頻內容。在深度學習普及之前,也使用了基本的機器學習算法,如支持向量機(SVM)[9]、決策樹和隨機森林,用于視頻分類和識別任務。集群分析[10]用于分類視頻段落,或主成分分析(PCA)[11, 12]用于數據降維,也是視頻分析中常用的方法。
神經視頻模型。與經典方法相比,用于視頻理解的深度學習方法具有更優越的任務解決能力。DeepVideo[13]是最早將深度神經網絡引入視頻理解的方法,具體是卷積神經網絡(CNN)。然而,由于對運動信息的使用不足,其性能并未超過最佳手工特征方法。雙流網絡[14]結合了CNN和IDT來捕獲運動信息以提高性能,驗證了深度神經網絡在視頻理解方面的能力。為了處理長視頻理解,采用了長短時記憶(LSTM)[15]。時間段網絡(TSN)[16]也為長視頻理解而設計,通過單獨分析視頻段然后聚合它們。基于TSN,引入了Fisher向量(FV)編碼[17]、雙線性編碼[18]和局部聚合描述符(VLAD)[19]編碼[20]。這些方法在UCF-101[21]和HMDB51[22]數據集上提高了性能。與雙流網絡不同,3D網絡通過引入3D CNN到視頻理解(C3D)[23]開啟了另一分支。膨脹的3D ConvNets(I3D)[24]利用了2D CNN,即Inception[25]的初始化和架構,在UCF-101和HMDB51數據集上取得了巨大的進步。隨后,人們開始使用動力學-400(K-400)[26]和某些事物(Something-Something)[27]數據集來評估模型在更具挑戰性的場景中的性能。ResNet[28]、ResNeXt[29]和SENet[30]也從2D轉向3D,導致了R3D[31]、MFNet[32]和STC[33]的出現。為了提高效率,3D網絡在各種研究中被分解為2D和1D網絡(例如,S3D[34]、ECO[35]、P3D[36])。LTC[37]、T3D[38]、Non-local[39]和V4D[40]專注于長期時間建模,而CSN[41]、SlowFast[42]和X3D[43]則致力于高效率。引入視覺變壓器(ViT)[44]促進了一系列杰出模型的出現(例如,TimeSformer[45]、VidTr[46]、ViViT[47]、MViT[48])。
自監督視頻預訓練。自監著學習預訓練模型[51]在視頻理解方面的可轉移性[49, 50]使它們能夠在最小額外標注的情況下跨多種任務泛化,克服了早期深度學習模型對大量特定任務數據的需求。VideoBERT [52] 是進行視頻預訓練的早期嘗試。它基于雙向語言模型BERT [53],為自監著學習設計了與視頻-文本數據相關的任務。它使用層次性k-means對視頻特征進行標記化。預訓練模型可以微調以處理多個下游任務,包括動作分類和視頻字幕。遵循“預訓練”和“微調”范式,出現了大量針對視頻理解的預訓練模型研究,特別是視頻-語言模型。它們要么使用不同的架構(ActBERT [54]、掩蔽自動編碼器作為空時學習者 [55]、OmniMAE [56]、VideoMAE [57]、MotionMAE [58]),要么采用預訓練和微調策略(MaskFeat [59]、VLM:任務不可知[60]、ALPRO [61]、全能變壓器 [62]、maskViT [63]、CLIP-ViP [64]、揭示視頻-語言學習的單幀偏見 [65]、LF-VILA [66]、EMCL [67]、HiTeA [68]、CHAMPAGNE [69])。
大型語言模型用于視頻理解。最近,大型語言模型(LLMs)迅速進步[70]。在大量數據集上預訓練的大型語言模型的出現引入了新的情境學習能力[71]。這使它們能夠使用提示來處理多種任務,而不需要微調。ChatGPT [72] 是基于這一基礎的第一個開創性應用。這包括生成代碼和調用其他模型的工具或API的能力等。許多研究正在探索使用像ChatGPT這樣的LLMs來調用視覺模型API,解決計算機視覺領域的問題,包括Visual-ChatGPT [73]。指令調整的出現進一步增強了這些模型有效響應用戶請求和執行特定任務的能力。集成視頻理解能力的LLMs提供了更復雜的多模態理解優勢,使它們能夠處理和解釋視覺和文本數據之間的復雜交互。類似于它們在自然語言處理(NLP)[74]中的影響,這些模型作為更通用的任務解決器,擅長處理更廣泛的任務范圍,利用它們從大量多模態數據中獲得的廣泛知識庫和情境理解。這使它們不僅能理解視覺內容,還能以更符合人類理解的方式推理。許多工作也在探索使用LLMs進行視頻理解任務,即Vid-LLMs。 以前的綜述論文要么研究視頻理解領域的特定子任務,要么關注視頻理解之外的方法。例如,[75]綜述了通用視覺-語言任務的多模態基礎模型,包括圖像和視頻應用。[76]和[77]分別專注于視頻字幕和視頻動作識別任務的綜述。其他視頻理解任務,如視頻問答和定位未被考慮。此外,[78]和[79]分別調研了視頻相關方法
——視頻擴散模型和LLMs,缺乏對視頻理解的專注。盡管對社區有重要價值,但以前的綜述論文在基于大型語言模型調研一般視頻理解任務方面留下了差距。本文通過對使用大型語言模型的視頻理解任務進行全面綜述來填補這一差距。
本綜述結構如下:第2節提供了全面概述,強調利用LLMs能力的方法,并詳細介紹這些方法解決的具體任務和數據集。第3節深入探討了利用LLMs進行視頻理解的最新研究,介紹了它們在該領域的獨特方法和影響。第4節提供了各種任務、相關數據集和評估指標的詳細總結和分析。第5節探索了Video-LLMs在多個重要領域的應用。綜述在第6節總結關鍵發現,并識別未解決的挑戰和未來研究的潛在領域。
除了這篇綜述外,我們還建立了一個GitHub存儲庫,匯集了用于大型語言模型(Vid-LLMs)視頻理解的各種支持資源。這個專注于通過Vid-LLMs增強視頻理解的存儲庫可以在Awesome-LLMs-for-Video-Understanding中訪問。
基礎
視頻理解是一個充滿挑戰的任務,它激發了眾多創新任務的創造,目的是增強模型解釋視頻內容的能力。從視頻分類和動作識別的基礎任務出發,該領域已經演化為包括更復雜的任務。這些任務范圍從帶有詳細描述的視頻字幕,到視頻問答。后者不僅需要理解視頻內容,還需要運用邏輯和常識知識進行推理以制定回答。隨著我們在這一領域的進步,任務變得越來越復雜和具有挑戰性,需要模型能夠像人類一樣直觀地解釋視頻。我們將視頻理解的主要任務總結如下:
識別與預測。這些任務在視頻理解中形成了一對緊密結合的雙胞胎,強調視頻中的時間連續性和進展。 字幕和總結。專注于更細致的細節,這些任務涉及提供每個時刻的準確和具體的文本描述,并提煉視頻的精髓,捕捉主要主題和關鍵敘述。這些任務提供了對視頻內容的微觀和宏觀理解,結合了以細節為導向的洞察力和更廣闊的視角。
定位和檢索。無縫地將視覺內容與文本上下文聯系起來,這類任務要求模型識別出與提供的文本描述準確對應的特定視頻或片段。
問答。這些任務強調模型不僅要理解視頻的視覺和聽覺組成部分,還要整合外部知識和推理能力,提供與上下文相關的答案。
隨著具有挑戰性的任務的發展,模型的進展反映了它們設計用來解決的任務的日益復雜化。從處理有限數量幀以將視頻分類為預定義標簽的經典方法(反映了理解的狹窄范圍)到更復雜模型的出現,視頻分類的視野發生了巨大擴張。現代大型模型現在能夠處理數百幀,使它們不僅能生成詳細的文本描述,還能回答有關視頻內容的復雜問題。這種能力的飛躍標志著從經常難以泛化的任務特定、經典方法向更多功能和綜合方法的重大轉變。將LLMs整合到視頻理解中目前由四個主要策略引領:
基于LLM的視頻智能體。在這種方法中,LLMs充當中心控制器。它們指導視覺模型有效地將視頻中的視覺信息翻譯到語言領域。這包括提供詳細的文本描述和轉錄音頻元素。 Vid-LLM預訓練。該方法重點使用監督或對比訓練技術從頭開始開發基礎視頻模型。在這個框架中,LLMs作為編碼器和解碼器,提供全面的視頻理解方法。 Vid-LLM指令調整。這種策略涉及構建專門的調整數據集,以微調視覺模型與LLMs的整合,特別是為視頻領域量身定制。 混合方法。這些策略利用視覺模型在微調過程中提供額外的反饋。這種協作方法使模型能夠獲得超越文本生成的技能,如對象分割和其他復雜的視頻分析任務。 接下來,我們將分解LLMs的關鍵組成部分,并仔細研究它們如何與基礎模型一起工作以改進視頻理解。
近期,大型視覺-語言模型(LVLMs)的發展在人工智能領域引起了越來越多的關注,因其實際應用潛力。然而,“幻覺”——或更具體地說,事實視覺內容與相應文本生成之間的錯配,為利用LVLMs提出了一個重大挑戰。在這份全面的綜述中,我們解剖與LVLM相關的幻覺現象,試圖建立一個概覽并促進未來的緩解措施。我們的綜述從闡明LVLMs中幻覺的概念開始,呈現了多種幻覺癥狀并突出了LVLM幻覺固有的獨特挑戰。隨后,我們概述了專門為評估LVLMs獨有的幻覺而定制的基準和方法論。此外,我們深入調查了這些幻覺的根本原因,包括來自訓練數據和模型組件的洞察。我們還批判性地回顧了緩解幻覺的現有方法。本綜述最后討論了與LVLMs中的幻覺相關的開放問題和未來方向。
1. 引言
在人工智能迅速發展的領域中,如GPT-4 [OpenAI, 2023]、LLaMA [Touvron等,2023a]和LLaMA2 [Touvron等,2023b]等大型語言模型(LLMs)在自然語言理解(NLU)和生成(NLG)方面取得了顯著進步。為了利用LLMs的NLU和NLG能力來處理視覺-語言任務,一種流行的方法是將視覺特征作為補充輸入插入到LLMs中,并將它們與文本特征對齊。這種方法已經在幾個大型視覺-語言模型(LVLMs)中得到應用,如MiniGPT-4 [Zhu等,2023]、LLaVA [Liu等,2023c]和LLaVA-1.5 [Liu等,2023b]。盡管現有LVLMs顯示出了令人充滿希望的結果,但一個不可忽視的問題一直阻礙著它們的實際應用:幻覺。LVLM中的幻覺指的是圖像的事實內容與相應生成的文本內容之間的不一致,類似于在大型語言模型中遇到的純文本幻覺[Huang等,2023a]。
現有研究[Rohrbach等,2018; Li等,2023b; Hu等,2023; Zhai等,2023]已經解決了圖像標題生成模型中的幻覺問題,主要關注“對象的存在”,特別是給定圖像中描繪的對象是否被模型生成的文本準確描述。與在封閉領域內訓練的圖像標題生成模型相比,LVLMs利用LLMs的強大理解和表達能力,獲得更詳細和可解釋的生成描述。然而,這些增強的能力也多樣化并可能加劇了幻覺,這不僅限于對象的存在,還表現在描述性錯誤中,如屬性和關系錯誤。我們關注視覺幻覺,指的是圖像傳達的語義內容與模型生成的文本內容之間的所有不一致。
LVLMs中的幻覺癥狀是多方面的。從認知角度來看,幻覺可以表現為真/假判斷的錯誤和對視覺信息描述的不準確。例如,正如圖1的第一個例子所示,模型對“圖像中有貓嗎?”和“圖像中有四只鳥嗎?”等問題的響應有缺陷,顯示出錯誤的事實辨別。此外,第二個例子顯示了生成的描述與視覺事實的不一致。同時,從視覺語義的角度提供了一個三元分類:對象、屬性和關系上的幻覺。例如,模型在圖像中生成不存在的對象如“筆記本電腦”和“小狗”,提供錯誤的屬性描述如將男人描述為“長發”,并對對象之間的關系進行不準確的斷言,如聲稱自行車“在”男人“前面”。當前方法基于模型的認知性能評估這些LVLMs中的幻覺,主要關注兩個方面:非幻覺生成和幻覺鑒別。前者涉及對模型響應中的幻覺元素進行詳細分析并量化它們的比例。后者,另一方面,只需要對響應是否包含任何幻覺內容進行二元判斷。這些方法在§3中進行了全面討論。
盡管LLM社區已廣泛討論了LLMs中幻覺的原因,但LVLMs的視覺模態引入了分析這些事件的獨特挑戰。我們對LVLMs中的幻覺進行了徹底分析,重點關注訓練數據和模型特性。我們的分析表明,LVLMs中的幻覺不僅由LLMs的生成性質引起,還由偏見訓練數據、視覺編碼器無法準確地定位圖像、不同模態之間的錯位、對上下文關注不足以及許多其他因素引起。在此之后,我們提供了現有幻覺緩解方法的全面概述。針對這些原因,當前的緩解方法主要集中在訓練數據的優化、LVLMs內各個模塊的精細化以及生成輸出的后處理上。這些方法被用來減少幻覺的發生,從而產生更忠實的響應。最后,我們列出了幾個發展LVLMs中幻覺研究的重要方向。 總之,這項研究旨在為LVLMs的發展提供洞察,并探索與LVLMs幻覺相關的機會和挑戰。這一探索不僅幫助我們了解當前LVLMs的局限性,還為未來的研究和開發更可靠、更高效的LVLMs提供了重要指導。
LVLMs是處理視覺和文本數據以解決涉及視覺和自然語言的復合任務的高級多模態模型。結合了LLMs的能力,LVLMs是之前視覺-語言預訓練模型(VLPMs)[Long等,2022]的演進。 LVLM架構通常包含三個組件:視覺編碼器、模態連接模塊和LLM。視覺編碼器,通常是CLIP視覺編碼器[Radford等,2021]的一個調整,將輸入圖像轉換為視覺令牌。連接模塊旨在將視覺令牌與LLM的詞嵌入空間對齊,確保LLM可以處理視覺信息。模態對齊的方法有多種,包括交叉注意力[Alayrac等,2022]、適配器[Gao等,2023]、Q-Formers[Li等,2023a; Dai等,2023a; Zhu等,2023],以及更簡單的結構如線性層或多層感知器(MLP)[Liu等,2023c; Chen等,2023b; Liu等,2023b]。LLM在LVLMs中像中央處理單元一樣,接收對齊的視覺和文本信息,隨后綜合這些信息以產生響應。 LVLMs的訓練涉及兩個關鍵階段:(1)預訓練,LVLMs從對齊的圖像-文本對中獲取視覺-語言知識;(2)指令調優,期間LVLMs學習使用多樣化的任務數據集遵循人類指令。完成這些階段后,LVLMs可以高效地處理和解釋視覺和文本數據,使它們能夠在像視覺問題回答(VQA)這樣的復合多模態任務中進行推理。
LVLMs中的幻覺指的是視覺輸入(視為“事實”)和LVLM的文本輸出之間的矛盾。通過視覺-語言任務的視角,LVLM幻覺癥狀可以被解釋為判斷或描述的缺陷。 當模型對用戶的查詢或陳述的響應與實際視覺數據不一致時,會發生判斷幻覺。例如,如圖1所示,當面對展示三只鳥的圖像并詢問圖片中是否有貓時,模型錯誤地肯定回答“是”。另一方面,描述幻覺是無法忠實地描繪視覺信息的失敗。例如,在圖1下部,模型不準確地描述了男人的頭發、杯子的數量和顏色、自行車的位置,并編造了不存在的對象,如筆記本電腦和狗。 從語義角度來看,這種錯位可以通過聲稱不存在的對象、不正確的對象屬性或不準確的對象關系來表征,如不同顏色所突出的那樣。
LVLMs通過結合視覺和語言模塊來處理視覺-語言任務。然而,這種整合也在幻覺檢測、因果推理和緩解方法方面帶來了獨特的挑戰。 幻覺檢測困難:LVLM的多模態性質妨礙了幻覺的檢測。LVLM幻覺可能在包括但不限于對象、屬性和關系等多個語義維度上表現出來[Zhai等,2023; You等,2023]。為了全面檢測這些幻覺,模型不僅需要進行自然語言理解,還需要使用細粒度的視覺注釋并將它們與生成的文本精確對齊。
LVLMs中幻覺的原因通常是多方面的。一方面,LLMs和LVLMs共享的數據相關問題,如錯誤信息、偏見以及知識邊界限制[Hu等,2023]。然而,LVLMs獨特地受到它們結合視覺數據的影響。例如,視覺不確定性,如不清晰或扭曲的圖像,可以加劇LVLMs中的語言先驗和統計偏見,導致更嚴重的幻覺[Liu等,2023a]。
除了采用針對LLM的幻覺緩解方法,如數據質量提升、編碼優化和與人類偏好對齊外,LVLM特有的方法還包括精煉視覺表現和改進多模態對齊。例如,有建議擴大視覺分辨率可以有效減少幻覺[Bai等,2023]。盡管如此,使用大量數據訓練高分辨率視覺編碼器可能需要大量資源。因此,探索更具成本效益的增強視覺表現的策略是至關重要的。此外,視覺和文本令牌之間的顯著差距表明,改善視覺-語言令牌對齊可能降低幻覺發生率[Jiang等,2023]。
在建立了LVLM中幻覺的概念之后,我們轉向檢查現有的LVLM幻覺評估方法和基準。對應于圖1中提到的描述和判斷任務中的幻覺癥狀,當前的評估方法可以分為兩大類:(1) 評估模型生成非幻覺內容的能力,和(2) 評估模型幻覺鑒別的能力,如圖2所示。同樣,基于評估任務,基準也可以被分類為區分性和生成性兩種,如表1所示。
手工流程方法(Handcrafted Pipeline Methods):這些方法通過手動設計多個步驟,具有強解釋性。例如,CHAIR(Caption Hierarchy and Image Relationship)專注于評估圖像描述中對象幻覺,通過量化模型生成與真實描述之間的差異。CCEval(Contrastive Caption Evaluation)則在應用CHAIR之前使用GPT-4進行對象對齊。FAITHSCORE提供了一種無參考的、細粒度的評估方法,通過識別描述性子句、提取原子事實,并與輸入圖像進行比較。 * 基于模型的端到端方法(Model-based End-to-End Methods):這些方法直接評估LVLMs的響應。LLM-based Evaluation使用先進的LLM(如GPT-4)基于幻覺來評估LVLM生成的內容。幻覺數據驅動模型評估則構建標記的幻覺數據集,用于微調模型以檢測幻覺。例如,M-HalDetect創建了一個帶有注釋的LVLM圖像描述數據集,并在該數據集上微調InstructBLIP模型以識別幻覺。
這些方法通常采用問答格式,詢問LVLMs關于圖像內容的問題,并評估模型的響應。例如,POPE(Perceptual Object Presence Evaluation)設計了關于圖像中對象存在的二元(是/否)問題來評估LVLMs的幻覺鑒別能力。CIEM(Contrastive Instruction Evaluation Method)類似于POPE,但通過ChatGPT自動化對象選擇。NOPE(Negative Object Presence Evaluation)是另一種基于VQA的方法,旨在評估LVLMs識別視覺查詢中對象缺失的能力。
基準測試是專門針對LVLMs的幻覺問題設計的,旨在評估模型在非幻覺內容生成或幻覺鑒別方面的能力。這些基準可以分為兩類:
這些基準專注于評估模型在對象幻覺方面的性能。例如,POPE、NOPE和CIEM都是判別性基準,它們的數據集大小分別為3000、17983和72941,主要關注對象幻覺,使用準確度作為評估指標。
生成性基準擴展了評估范圍,包括屬性和關系幻覺。例如,AMBER(A Multimodal Language Model Benchmark)是一個綜合性基準,集成了生成性和判別性任務。生成性基準的評估指標通常比判別性基準更復雜和多樣化,因為它們需要針對特定的幻覺類別設計定制的評估方法。
這些評估方法和基準為研究者提供了一套工具,以系統地分析和改進LVLMs在處理視覺-語言任務時的性能,特別是在減少幻覺方面。通過這些工具,研究者可以更好地理解模型的局限性,并開發出更有效的緩解策略。
數據偏見(Data Bias):訓練數據中可能存在分布不平衡,例如在事實判斷問答對中,大多數答案可能是“是”(Yes),導致模型傾向于給出肯定的回答,即使在不準確的情況下。 * 注釋不相關性(Annotation Irrelevance):生成的指令數據可能包含與圖像內容不匹配的對象、屬性和關系,這可能是由于生成模型的不可靠性造成的。
有限的視覺分辨率(Limited Visual Resolution):視覺編碼器可能無法準確識別和理解高分辨率圖像中的所有細節,這可能導致在生成描述時出現幻覺。 * 細粒度視覺語義(Fine-grained Visual Semantics):視覺編碼器可能無法捕捉到圖像中的所有細粒度信息,如背景描述、對象計數和對象關系,從而導致幻覺。
連接模塊的簡單性(Connection Module Simplicity):簡單的連接模塊,如線性層,可能無法充分對齊視覺和文本模態,增加了幻覺的風險。 * 有限的標記約束(Limited Token Constraints):在模態對齊過程中,由于標記數量的限制,可能無法完全編碼圖像中的所有信息,導致信息丟失和幻覺。
上下文注意力不足(Insufficient Context Attention):在解碼過程中,模型可能只關注部分上下文信息,忽視了輸入的視覺信息,導致生成的文本內容與視覺輸入不一致。 * 隨機采樣解碼(Stochastic Sampling Decoding):隨機采樣引入了解碼過程中的隨機性,雖然有助于生成多樣化的內容,但也增加了幻覺的風險。 * 能力錯位(Capability Misalignment):LLM在預訓練階段建立的能力與在指令調整階段提出的擴展要求之間存在差距,導致模型生成超出其知識范圍的內容,增加了幻覺的可能性。
這些原因相互交織,共同作用于LVLMs,導致在視覺-語言任務中出現幻覺現象。為了緩解這些問題,研究者們提出了一系列針對性的優化策略,旨在提高模型的準確性和可靠性。
LVLM(Large Vision-Language Models)中的幻覺問題是指模型生成的文本內容與實際視覺輸入之間存在不一致性。為了緩解這一問題,研究者們提出了多種方法,這些方法主要針對幻覺產生的原因進行優化。數據優化:通過改進訓練數據來減輕幻覺。視覺編碼器增強(Vision Encoder Enhancement):提高圖像分辨率和感知能力。連接模塊增強(Connection Module Enhancement):開發更強大的連接模塊以更好地對齊視覺和語言模態。LLM解碼優化(LLM Decoding Optimization):通過優化解碼策略和與人類偏好對齊來減少幻覺。后處理(Post-processing):通過額外的模塊或操作來修正生成的輸出。
配備了先進的視覺編碼器、強大的LLMs和模態對齊模塊,LVLMs在開放領域的視覺-語言任務中表現出色。然而,幻覺嚴重挑戰了LVLMs的實際應用。在這項綜述中,我們對LVLMs中幻覺現象進行了細致的調查。這項探索涵蓋了對這些幻覺背后基本原因的詳細分析,評估了創新的評估方法及相關基準,并討論了有效的緩解方法。我們還深入探討了現有的挑戰,并討論了可能的方向。這項綜述旨在為解決LVLMs中幻覺的復雜性奠定基礎,并促進未來研究,以便在各種應用中實際實施這些模型。 參考:
eason. //zhuanlan.zhihu.com/p/681171544 參考文獻 [Alayrac et al., 2022] Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc, et al. Flamingo: a visual language model for few-shot learning. In NeurIPS, volume 35, 2022. [Bai et al., 2023] Jinze Bai, Shuai Bai, Shusheng Yang, et al. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966, 2023. [Chen et al., 2023a] Chi Chen, Ruoyu Qin, Fuwen Luo, et al. Position-enhanced visual instruction tuning for multimodal large language models. arXiv preprint arXiv:2308.13437, 2023. [Chen et al., 2023b] Jun Chen, Deyao Zhu, Xiaoqian Shen, et al. Minigpt-v2: large language model as a unified interface for vision-language multi-task learning. arXiv preprint arXiv:2310.09478, 2023. [Chen et al., 2023c] Zhe Chen, Jiannan Wu, Wenhai Wang, et al. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. arXiv preprint arXiv:2312.14238, 2023.
大型模型,包括大型語言模型和擴散模型,已在接近人類智能方面展現出卓越的潛力,引起了學術界和工業界的極大興趣。然而,這些大型模型的訓練需要大量的高質量數據,而且隨著這些模型的持續更新,現有的高質量數據資源可能很快就會耗盡。這一挑戰促使人們大量研究數據增強方法。利用大型模型,這些數據增強技術已超越傳統方法。本文提供了一篇關于大型模型驅動的數據增強方法的全面綜述。我們首先建立了相關研究的分類,分為三個主要類別:**圖像增強、文本增強和配對數據增強。**接著,我們深入探討了與基于大型模型的數據增強相關的各種數據后處理技術。我們的討論隨后擴展到這些數據增強方法在自然語言處理、計算機視覺和音頻信號處理等領域的應用范圍。我們繼續評估基于大型模型的數據增強在不同場景中的成功與局限性。在我們的綜述中,我們突出了數據增強領域未來探索的潛在挑戰和途徑。我們的目標是為研究人員提供關鍵洞察,最終有助于更復雜大型模型的發展。我們持續維護相關的開源材料在: //github.com/MLGroup-JLU/LLM-data-aug-survey。
數據增強,作為機器學習中的關鍵策略,解決了用有限的標記數據訓練不同任務模型的挑戰。它涉及增強訓練樣本的充足性和多樣性,而無需顯式收集新數據,因此在提高模型泛化方面起著至關重要的作用(Feng et al., 2021; Shorten and Khoshgoftaar, 2019)。數據增強的本質在于通過各種變換改變現有數據點來生成新數據。這防止了模型記憶無關的數據模式,增強的數據緊密反映了真實數據的分布(Cubuk et al., 2019; Wei and Zou, 2019)。這些技術直接適用于監督學習(Liu et al., 2021c)并且可以通過一致性規則化(Zhang et al., 2021a)在半監督學習中用于未標記數據。最初為計算機視覺(CV)開發的數據增強方法通過裁剪、旋轉和色彩調整等操作創建人工圖像(Kanwal et al., 2022; Krell and Kim, 2017; Takahashi et al., 2019)。在自然語言處理(NLP)中,類似的方法包括隨機字符插入、單詞刪除和同義詞替換(Liu et al., 2020; Shorten and Khoshgoftaar, 2019)。
數據增強的重要性在學術和工業領域引起了廣泛關注。作為一個活躍的研究領域,它解決了機器學習中對大量高質量標記數據的日益增長的需求,這一需求在現實世界中往往無法滿足。盡管在過去幾十年中,特別是在深度學習技術方面,數據增強取得了顯著進展,但這些方法仍然難以捕捉現實世界數據的復雜性(Feng et al., 2021),生成可擴展數據(Yang et al., 2022),并抵御對抗性示例(Qiu et al., 2020)。
為了應對這些限制,當前研究正在探索創新技術來增強數據增強方法的效果和多樣性。其中,大型模型,包括大型語言模型(Zhao et al., 2023)和擴散模型(Yang et al., 2023),顯示出相當大的潛力。大型語言模型(LLMs),如GPT-4(OpenAI, 2023a)和Llama2(Touvron et al., 2023b),已經革新了NLP。這些模型以Transformer架構(Vaswani et al., 2017)為特點,并在廣泛的語料庫上進行訓練,擅長理解和生成類似人類的文本,標志著機器學習能力的重大進步(Zhao et al., 2023)。這些擁有數十億參數的模型可以承擔包括代碼生成(Zhang et al., 2023b)和數據增強(Dai et al., 2023)在內的多樣化和復雜任務,為人工通用智能(AGI)的實現鋪平了道路。
擴散模型(Ho et al., 2020; Song et al., 2020),一種新的最先進的生成模型家族,在計算機視覺中的圖像合成方面超越了長期占據主導地位的生成對抗網絡(GANs)(Goodfellow et al., 2014)(Dhariwal and Nichol, 2021; Ho et al., 2020)。與變分自編碼器(VAEs)(Kingma and Welling, 2013)和GANs等先前模型不同,擴散模型通過迭代添加和逆轉噪聲來生成高質量的合成圖像,并已實現文本到圖像的生成(Saharia et al., 2022),擴展了數據增強的范圍。
方法論
大型模型的出現徹底改變了數據增強的方式,提供了與傳統方法相比更具多樣性的創新和有效手段來生成訓練數據。本節將現有的方法基于目標數據類型分為三個不同的類別:圖像增強、文本增強和配對數據增強。圖像增強涉及擴展圖像數據,文本增強涉及擴展文本數據,而配對數據增強則涉及兩者。這些方法反映了數據增強的最新趨勢,突出了大型模型的重要作用。
圖像增強圖像增強通過額外信息的指導來合成逼真的圖像。我們將這些技術分為基于提示的和基于主題的方法:在基于提示的類別中包括文本、視覺和多模態方法;在基于主題的類別中包括針對特定主題的策略。文本提示驅動的方法從文本描述中生成圖像,視覺提示驅動的方法使用視覺線索,而多模態提示驅動的方法結合了文本描述和視覺指導。基于主題的方法為特定主題量身定制增強。這些方法提升了深度學習任務的性能,有助于更加健壯的訓練體驗。現有方法在表3中總結。
文本增強
文本增強著重于利用大型模型的先進能力來增強文本數據集,包括兩種策略:基于標簽的和基于生成內容的。在基于標簽的方法中,模型被用于注釋文本數據,有效地豐富了文本數據集,增加了更多的標記實例。基于生成內容的策略指導模型合成新的文本數據,從而擴展了數據集,增加了新生成的文本材料。現有方法在表4中展示。
配對數據增強
MixGen(Hao et al., 2023)是一種用于視覺-語言表示學習的數據增強方法,通過圖像插值和文本連接生成具有保留語義關系的圖像-文本對。Bakhtiarnia等人(2023)提出了一種名為PromptMix的方法,該方法從現有數據集中提取文本描述,使用提取的文本作為輸入到潛在擴散模型以生成類似于現有數據集中的圖像,使用高性能的重量級網絡對生成的圖像進行注釋,并將這個假數據集與真實數據混合,以改善輕量級深度神經網絡的訓練。為了解決視覺語言數據集中的報告偏差問題,特別是對象屬性關聯對訓練模型的潛在有害影響,Wu等人(2023b)提出了一種稱為BigAug的雙模態增強方法。這種方法利用對象屬性解耦來合成不同的視覺語言示例,并創建跨模態的硬否定。LLM和基礎對象檢測器的整合有助于提取目標對象,其中LLM為每個對象提供詳細的屬性描述。這些描述以及相應的硬否定接著被用來通過修補模型生成圖像。這個明確的過程引入了缺失的對象和屬性以供學習,其中硬否定指導模型區分對象屬性。
總結
在本節中,我們提供了對我們在第3、4和5節中審查的主要發現的綜合概述。 基于大型模型的數據增強仍然是一個充滿機會和挑戰的領域。本調查旨在全面審查基于大型模型的數據增強方法,伴隨的數據后處理技術以及在下游任務中的應用。 它還仔細分類了現有的基于大型模型的數據增強方法。通過總結和分析當前的研究工作,我們確定了當前方法的成功和失敗,并辨別了基于大型模型的數據增強的新趨勢。此外,我們總結了用于評估基于大型模型的數據增強的現有方法。最重要的是,這些總結可以幫助提出未來研究的新挑戰和機會。
在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。
自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。
傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。
大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。
鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。
本綜述的組織:我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。
在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。
當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。
本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。
基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。
結論
在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。
在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。
多模態3D場景理解由于其在自動駕駛和人機交互等多個領域的廣泛應用而受到了廣泛關注。與傳統的單一模態3D理解相比,引入額外的模態不僅提高了場景解釋的豐富性和精確性,而且確保了更為魯棒和有彈性的理解。在多變和具有挑戰性的環境中,這尤為重要,因為僅依賴3D數據可能是不夠的。盡管在過去三年中,多模態3D方法的發展呈現上升趨勢,尤其是那些整合多攝像頭圖像(3D+2D)和文本描述(3D+語言)的方法,但值得注意的是,缺乏一個全面且深入的綜述。在這篇文章中,我們提供了最近進展的系統性調研,以填補這一空白。我們首先簡要介紹一個背景,正式定義各種3D多模態任務并總結其固有的挑戰。之后,我們提出了一個新穎的分類法,根據模態和任務對現有方法進行了全面分類,探索了它們各自的優勢和局限性。此外,我們還提供了最近方法在幾個基準數據集上的比較結果,以及深入的分析。最后,我們討論了尚未解決的問題,并為未來的研究提供了幾個可能的方向。
//www.zhuanzhi.ai/paper/db0ef107bb8313585581f0bab52ab996
給定一個3D點云和來自另一模態的信息,如2D圖像和自然語言,多模態3D場景理解旨在理解每個物體及其周圍環境的語義含義 [1], [2], [3]。對3D場景的全面理解使代理能夠識別實體的類別和位置,并創建場景的新品牌內容和風格。與僅使用3D點云相比,2D圖像的加入提供了額外的顏色和紋理信息,而自然語言的引入則實現了人機交互。因此,多模態3D場景理解已成為計算機視覺中的一個重要研究領域,應用于自動駕駛[4]、機器人導航[5]和人機交互[6]。
多模態3D場景理解可進一步分為:(1) 3D+2D場景理解。3D LiDAR點云提供了充足的深度和幾何結構信息,這有助于獲得3D物體的形狀和姿態。但它們缺乏顏色信息和紋理細節,對于遠距離的物體往往稀疏而無序[7], [8], [9], [10], [11]。相反,2D相機圖像通常包含豐富的顏色、紋理和背景,但缺乏幾何信息,且易受天氣和光線條件的影響[12], [13], [14], [15]。自然地,利用LiDAR點云和相機圖像之間的互補性可以更好地、更完整地感知3D環境。但這兩種傳感器捕獲的同一個3D場景的表示之間經常會出現差異,因為LiDAR傳感器通過360度旋轉捕獲點云,而相機從透視視圖捕獲圖像,沒有深度感[16]。為了解決這個問題,提出了一些3D+2D場景理解方法,通過基于幾何的對齊[17]和基于語義的對齊[18]來進行LiDAR-相機融合。基于融合的特征,這些方法可以進一步執行3D物體檢測和分割[19], [20], [21],這通常用于自動駕駛和機器人導航。(2) 3D+語言場景理解。傳統的3D場景理解通常要求用戶具有專業知識,這對普通用戶不友好[22], [23], [24], [25], [26], [27]。用戶現在期望有一種更便捷的方式將他們的意圖傳達給計算機,實現信息交換并獲得個性化的結果。為了實現便捷的人機交互,研究人員提出了3D+語言場景理解。它結合3D視覺信息和自然語言作為輸入[28], [29], [30],因為自然語言可以作為背景知識和查詢條件來反映用戶意圖。通過多模態交互,經常采用如Transformer[31], [32]或圖神經網絡[33], [34]等技術,3D+語言場景理解方法不僅可以定位用戶提到的實體(例如,視覺定位和開放詞匯識別),還可以生成用戶所需的內容(例如,密集字幕,視覺問題回答,場景生成)。
盡管近年來出現了眾多方法,但多模態3D場景理解的很大一部分仍然分散在不同的任務中,并且沒有此類系統的調查存在。因此,有必要系統地總結近期的研究,全面評估不同方法的性能,并有前瞻性地指出未來的研究方向。這激發了本次調查,將填補這一空白。本文的主要貢獻可以總結為:
? 關于多模態3D場景理解的系統性調查。據我們所知,這是第一篇全面討論多模態3D場景理解近期進展的調查。為了使讀者對我們的文章有清晰的理解,我們從所需數據模態和目標下游任務的角度將算法分類為不同的分類,如圖1所示。
? 全面的性能評估和分析。我們比較了幾個公開可用的數據集上現有的多模態3D場景理解方法。我們的深入分析可以幫助研究者為其特定應用選擇合適的基線,同時也提供了關于修改現有方法的有價值的見解。
?** 對未來前景的有洞察力的討論**。基于系統調查和全面的性能比較,討論了一些有前途的未來研究方向,包括大規模3D基礎模型、數據高效訓練、3D建模的計算效率以及添加額外模態。
本文的結構組織如下。第2節總結了多模態3D場景理解中的問題定義和主要挑戰。第3節和第4節分別對3D+2D和3D+語言場景理解中用于不同下游任務的典型方法進行了深入探討。第5節介紹了基準數據集、評估指標以及不同技術的比較分析。最后,第6節總結了這篇文章并討論了未來研究的有前途的方向。
3D+2D多模態場景理解可以細分為多模態室外/室內3D對象檢測和多模態室外/室內3D語義分割。從2020年至今的現有3D+2D多模態方法的時間性概述如圖2所示。
3D+語言多模態場景理解可以分為3D視覺錨定、3D密集標注、3D問題回答、文本驅動的3D場景生成、開放詞匯的3D識別以及其他類別。從2020年至今的現有3D+語言多模態方法的時間性概述如圖5所示。
**結論與展望 **
本綜述為您提供了多模態3D場景理解的最新深入了解。我們首先總結了3D+2D和3D+語言情況下的任務定義和固有挑戰。接著是對每個任務的關鍵技術的結構化分類。此外,我們提供了對幾個基準數據集的最新進展的比較結果,并提供了有洞察力的觀察。我們希望這項調查能為新手和經驗豐富的從業者提供一個全面的指導。在多模態3D場景理解中,仍有許多進一步探索的可能性。以下提供了一些有前途的未來研究方向。 大規模3D-語言基礎模型。基于2D到3D轉移的當前3D VLMs在零射擊能力和下游應用中受到限制,主要是由于數據規模有限和幾何信息保留不足[41]。這強調了大規模3D-語言基礎模型的必要性。解決這一挑戰的主要解決方案在于創建可以支持從零開始訓練VLMs的大型數據集。此外,高效的遷移學習方法,包括像提示調整[177]和LORA[178]這樣的技術,通過利用預訓練的知識為特定任務提供了很大的應用前景。
數據高效訓練。考慮到與數據收集和注釋相關的顯著成本,當前的許多研究都局限于小規模數據集。因此,強調為有限數據量量身定制的健壯模型訓練和優化的開發變得越來越重要,從而減少對大規模數據集的依賴。最近的研究已經在解決數據注釋挑戰方面展現出了有前途的結果,通過無監督和弱監督學習方法。此外,使用文本到圖像或文本到3D生成合成逼真樣本有望進一步被研究,這可能緩解數據收集問題。
3D建模的計算效率。鑒于點云的大量體積,計算需求可能會顯著增加。因此,計算效率高的3D模型變得至關重要。為了應對這一挑戰,采用模型壓縮技術,如量化[179]、修剪[180]和高效結構[181],對于減少計算復雜性至關重要。此外,利用硬件優化如Flash attention[182]可以促進應用在邊緣設備上的部署,為提高效率提供另一種途徑。
納入其他模式。盡管在多模態3D建模方面取得了令人印象深刻的進展,但主要的重點仍然是圖像和語言。我們設想將更多的模式,如音頻,納入一個綜合模型來適應它們的聯合分布,這對于理解復雜的3D場景更為有助。鑒于訓練新模型時的復雜訓練要求和成對數據的稀缺,提高現有的多模態3D模型的效果可能更為有效,通過集成其他模式。一個可行的方法[183]是使用最小的成對數據集對齊每一個定義良好的、特定模式的模型。
人工智能(AI)的歷史見證了高質量數據對各種深度學習模型的重大影響,例如ImageNet對于AlexNet和ResNet。最近,AI社區的關注點已從設計更復雜的神經結構(即模型為中心的方法)轉移到了數據為中心的方法,這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習,操作于無處不在的拓撲數據上,也在深度學習時代中起到了重要作用**。在這次綜述中,我們從數據為中心的角度全面回顧了圖學習方法,并旨在回答兩個關鍵問題**:(1)何時修改圖數據以及(2)如何修改圖數據以發掘各種圖模型的潛力。因此,我們提出了一個基于圖學習流程中的階段的新分類法,并強調了圖數據中不同數據結構的處理方法,即拓撲、特征和標簽。此外,我們分析了嵌入在圖數據中的一些潛在問題,并討論了如何以數據為中心的方式解決它們。最后,我們為數據為中心的圖學習提供了一些建議的未來方向。
最近在非歐幾里得領域的進展引起了人工智能(AI)社區的大量關注。圖,作為典型的非歐幾里得數據,在現實世界中無處不在,并已在許多領域中得到廣泛應用,例如推薦、安全、生物信息學等。在過去的十年中,由于圖模型的創新,圖相關研究得到了推動,從圖核心[1][2]到圖嵌入[3][4],再到最新的圖神經網絡(GNNs)[5][6]。相反,關于圖數據的固有方面的研究較少,包括質量、多樣性、安全性等。 通常,AI的革命始終是由大量高質量數據的可用性引發的,隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功,它為深度卷積神經網絡的發展做出了重要貢獻,例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可,最近,AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。
新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力?”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而,與圖像和表格數據等歐幾里得數據不同,圖的不規則性為以數據為中心的圖學習提出了幾個問題:首先,在什么時候我們應該修改圖數據以使圖模型受益?數據修改可能會在圖學習的不同階段發生。例如,我們可以在訓練之前啟發式地擾動邊,而在訓練期間我們也可以從節點表示中估計新的圖結構。其次,我們應該修改圖數據的哪一部分?圖數據涉及各種結構,包括邊、節點、特性和標簽,每一個都在圖表示學習中起到了重要作用。第三,如何防止圖模型受到有問題的圖數據的影響?由于手工定義的關系和特性,圖數據可能不可避免地引入噪聲和偏見,這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說,為了回答第一個問題,我們將圖學習過程分為四個階段:準備、預處理、訓練和推斷,如圖1所示。我們討論了每個階段對圖數據的重要性。接下來,我們進一步從結構的角度對現有方法進行分類,以解決第二個問題。具體來說,我們考慮如何處理圖數據的拓撲、特征和標簽。最后,我們分析了現有圖數據中的潛在問題,包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。
本文的貢獻可以總結如下:
? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類,包括預處理、訓練和推理。對于每個階段,我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構,包括拓撲、特征和標簽,以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響,并討論了如何以數據為中心的方式緩解這些問題。此外,我們提出了四個可能的數據中心圖學習的未來方向,這可能有助于這個領域的發展。 組織. 本調查的其余部分組織如下:第2節概述了數據中心圖學習的背景,并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題,并討論了如何處理這些問題。最后,第7節對本文進行了總結,并提出了一些有前途的未來方向。
2. 預處理階段
在本節中,我們將討論圖數據預處理階段的數據中心方法。具體來說,我們將現有的方法分為兩類:基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布,同時保持圖實例不變。此外,我們還考慮了不同的數據結構,包括拓撲、特征和標簽。相關方法列示在表1中。
圖的簡化 (Graph Reduction)
隨著圖的規模的增大,其計算所消耗的時間和空間也會增加。因此,如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練,減少過擬合,并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類:邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化,而節點的簡化包括圖的粗糙化和圖的凝縮。
圖的增強 (Graph Augmentation)
在深度學習中,數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重,因此一個好的增強方法的重要性更為明顯。與其他數據形式相比,直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里,我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單,但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)
通過創建或修改節點特征,特征增強可以使后續模型避免過擬合并提高其性能。 對于已經有特征的圖,我們可以做一些直觀的調整來加強它們,例如特征損壞 [143]-[145],特征洗牌,特征掩碼 [66], [87], [146],特征添加,特征重寫 [147], [148],特征傳播,特征混合 [149]等 [15]。 對于最初沒有特征的節點,有適當生成特征的方法。為了獲取結構信息,Perozzi 提出了基于 word2vec [150] 的 deepwalk [3],它從每個節點開始,多次隨機走動,最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著,node2vec [4] 來自 deepwalk [3],它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說,他們將鄰接矩陣的每一列作為初始節點嵌入,這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。 在非標記圖中,特征增強是通過無監督學習實現的。例如,GREET [211] 將原始圖分割成兩個子圖,一個包含同質邊,另一個包含異質邊,然后通過兩個單獨的 GNN 得到子圖嵌入,再連接這些子圖嵌入來獲取節點特征。 總的來說,特征增強是多種多樣和任意的,特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)
眾所周知,信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制,不能區分同構圖 [212]。為了打破這個限制,一個受歡迎的方法是用一些位置信息來增強節點特征,這被稱為位置編碼。在本節中,我們將介紹兩種類型的位置編碼:絕對方法和相對方法。 標簽混合 (Label Mixing)
標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例,并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性,不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面,面對圖分類任務,我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者,我們可以隨機選擇一個子圖,并用另一個圖中的相應子圖替代它,同時保留原始圖的嵌入,使模型更好地集中于數據的相關方面 [175], [176]。另一方面,一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合,用于節點分類任務。 圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略,主張模型從簡單樣本開始學習,然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂,并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法,主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能,難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度,以給予學習優先權,而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計,CL 方法可以分為兩類,即預定義的 CL 和自動的 CL。在本節中,我們將介紹預定義的 Graph CL。 圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣,并在計算節點的表示時僅聚合部分節點的信息,這加速了模型的收斂并減少了內存開銷。在這部分中,我們將討論啟發式采樣方法,這些方法可以進一步劃分為兩個類別:隨機采樣和重要性采樣。 圖生成 (Graph Generation) 在現實世界中,某些圖數據集對于圖模型來說太小,無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型:自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)
在本節中,我們介紹了訓練階段的圖數據修改方法,其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言,我們介紹了三種模型-數據協同的訓練范式,包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)
推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段,我們重新定義下游任務為一個統一的模板,以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距,實現高質量的知識轉移和多任務適應。此外,推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看,調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中,我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明,我們將現有的圖提示方法分為兩類:預提示 (pre-prompt) 和后提示 (post-prompt),這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作,如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)
在這篇綜述中,我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類:一個是學習階段,包括預處理、訓練和推斷;另一個是數據結構,包括拓撲、特征和標簽。通過這兩個視角,我們仔細解釋了何時修改圖數據以及如何修改圖數據,以釋放圖模型的潛力。此外,我們還介紹了圖數據的一些潛在問題,并討論了如何用數據中心的方法解決它們。最后,我們提出了該領域的幾個有前景的未來方向。總的來說,我們相信數據中心的人工智能是通向一般人工智能的可行路徑,并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。
來自香港科技大學(廣州)等學者發表的《深度多模態學習的身體語言識別與生成》綜述,首次全面了解了深度多模態學習在各種BL生成和識別方面的應用
身體語言(BL)指的是通過身體動作、手勢、面部表情和姿勢表達的非語言溝通方式。它是一種在不使用口頭或書面語言的情況下傳達信息、情感、態度和意圖的形式。在人際交往中起著至關重要的作用,可以作為口頭溝通的補充甚至是替代。深度多模態學習技術在理解和分析BL的這些多樣方面方面顯示出了潛力,這些方面通常涵蓋多種模態。
該綜述探討了深度多模態學習的最新進展,強調了它們在BL生成和識別方面的應用。其中考慮了幾種常見的BL,例如手語(SL)、提示語(CS)、共同語言(CoS)和說話頭像(TH),我們首次對這四種BL進行了分析并建立了它們之間的聯系。它們的生成和識別通常涉及多模態方法,例如多模態特征表示、多模態融合和多模態聯合學習。為BL研究收集和整理了基準數據集,并評估了這些數據集上最先進的方法。本綜述強調了挑戰,如有限的標記數據、多模態學習以及需要領域適應來將模型推廣到未見過的說話者或語言。
本文提出了未來的研究方向,包括探索自監督學習技術、整合來自其他模態的上下文信息以及利用大規模預訓練的多模態模型。強調了面向實際應用和用戶中心評估,以推動實際應用。總之,這篇綜述論文首次全面了解了深度多模態學習在各種BL生成和識別方面的應用。通過分析進展、挑戰和未來方向,它為推動該領域的研究人員和實踐者提供了寶貴的資源。此外,我們維護了一個持續更新的深度多模態學習BL識別和生成論文列表://github.com/wentaoL86/awesome-body-language。
身體語言(BL)作為非語言溝通的重要組成部分,在促進有效溝通和增強社交互動方面具有重要意義。分析和理解BL具有各種應用,從BL識別和生成到數字人類互動和輔助技術。理解BL通常需要融合多種模態。深度多模態學習將視覺、音頻和文本模態相結合,已成為提高智能BL多模態轉換系統的準確性和穩健性的一種有前途的方法。在這項綜述中,我們主要關注四種典型的BL,并以它們為例來回顧和分析多模態BL識別和生成。
圖1展示了這四種類型的簡單圖示,即提示語(CS)[1]、手語(SL)[2]、共同語言(CoS)[3]和說話頭像(TH)[4]。在這個領域,已經有許多先前的工作取得了重要進展。然而,盡管在深度多模態學習用于BL生成和識別方面取得了進展,仍然存在一些挑戰和開放性研究問題,比如不同類型數據模態的多模態學習、標記數據集的稀缺性、表示細粒度線索、建模時間動態以及有限的計算資源。這些挑戰需要在多模態BL識別和生成中得到解決,以進一步推進該領域的發展。
本綜述的組織結構如下:在第2節中,我們首先介紹了四種典型的BL變體,并建立了這四種類型之間的聯系。接著,在第3節中,我們組織并呈現了用于BL識別和生成的各種類型的數據集,同時介紹了評估指標。在第4節和第5節中,我們分別對CS、SL、CoS和TH的BL識別和生成進行了詳細的回顧。此外,在第6節中,我們詳細分析了這些類型BL面臨的挑戰。最后,我們通過提出需要研究的多個研究方向來討論和總結本綜述。本綜述的架構在圖2中進行了可視化展示。現有BL研究的結構化分類以及一些代表性的研究作品在圖3中展示。
自動身體語言識別
在這里,我們將介紹四種BL變體的識別,特別關注多模態學習的應用擴展和創新。在圖8中,我們總結了一些代表性的BL識別研究工作。
自動身體語言生成
姿勢生成任務旨在使用多模態輸入(例如,手語、語音和文本)生成連續的姿勢序列(例如,面部、頭部和手勢)。在本節中,我們介紹與姿勢語言生成相關的研究,并回顧姿勢語言生成應用的發展時間線,例如CS、SL、CoS姿勢生成以及TH生成。
**結論 **
本綜述深入探討了用于自動BL識別和生成的深度多模態學習領域,揭示了其潛力和挑戰。本綜述主要關注四種經典的BL變體,即手語、提示語、共同語言和說話頭像。通過對各種模態(包括視覺、聽覺和文本數據)及其整合的細致考察,我們探索了捕捉和解釋這四種BL的復雜性。通過調研基準方法,如特征融合、表示學習、識別和生成方法,我們揭示了當前方法的優勢和局限性。強調了數據集和基準在促進研究進展方面的重要性,重點關注了注釋方法和評估指標。
盡管取得了進展,但挑戰仍然存在,需要創建多樣化的數據集,解決有限標記數據問題,提高模型的可解釋性,并確保模型在不同環境和文化背景下的魯棒性。展望未來,更復雜的架構和訓練策略有望利用多模態數據的互補性,借助多模態學習、大規模預訓練模型、自監督學習和強化學習等進展。隨著這一研究領域的發展,它有望徹底改變人際和人機交互,促進不同領域之間的自然有效的交流。
Multimodal Large Language Model (MLLM) 最近已成為新興的研究熱點,它使用強大的大型語言模型 (LLMs) 作為大腦來執行多模態任務。MLLM 的令人驚訝的涌現能力,比如基于圖像編寫故事和無需 OCR 的數學推理,是傳統方法中很少見的,這暗示著通向人工通用智能的潛在途徑。在本文中,我們的目標是追蹤和總結 MLLM 的最新進展。首先,我們介紹 MLLM 的構造并描述其相關概念。然后,我們討論關鍵技術和應用,包括多模態指令微調(M-IT)、多模態上下文學習(M-ICL)、多模態思維鏈(M-CoT)和 LLM 輔助視覺推理(LAVR)。最后,我們討論現存的挑戰并指出有前途的研究方向。鑒于 MLLM 時代剛剛開始,我們將繼續更新這篇綜述,并希望它能激發更多的研究。一個收集最新論文的相關 GitHub 鏈接可在 //github.com/BradyFU/AwesomeMultimodal-Large-Language-Models 找到。
近年來,大型語言模型取得了顯著的進步[1-4]。通過擴大數據規模和模型規模,這些大型語言模型展現出了驚人的新能力,典型的包括上下文學習(In-Context Learning, ICL)[5]、指令執行[4, 6]和思維鏈(Chain of Thought, CoT)[7]。盡管大型語言模型在大多數自然語言處理(NLP)任務上展示出驚人的零樣本/少樣本推理能力,但由于它們只能理解離散文本,因此在本質上對視覺是“盲目的”。與此同時,大型視覺基礎模型在感知方面取得了迅猛的進步[8-10],而它們與文本的傳統結合在更多地關注模態對齊[11]和任務統一[12],在推理方面的發展較為緩慢。
鑒于這種互補性,單模態的大型語言模型和視覺模型同時朝著彼此靠攏,最終催生出多模態大型語言模型(MLLM)這個新領域。正式地說,它指的是具有接收和處理多模態信息能力的基于大型語言模型的模型。從發展通用人工智能(AGI)的角度來看,MLLM相較于LLM可能是一個進步,原因如下:(1)** MLLM更符合人類感知世界的方式**。我們人類天然地接收多種感官輸入,這些輸入通常是互補且協同的。因此,多模態信息有望使MLLM更加智能。(2) MLLM提供了更加用戶友好的界面。由于支持多模態輸入,用戶可以以更加靈活的方式與智能助手進行互動和溝通。(3) MLLM是更加全面的任務解決者。雖然LLM通常可以執行NLP任務,但MLLM通常可以支持更廣泛的任務。
GPT-4 [2] 通過展示驚人的示例點燃了關于MLLM的研究熱潮。然而,GPT-4并沒有開放多模態接口,到目前為止也沒有關于該模型的信息公之于眾。盡管如此,研究界還是做出了很多努力來開發有能力的、開源的MLLM,并展示了一些令人驚訝的實用能力,比如根據圖像編寫網站代碼[13],理解一個梗圖的深層含義[14],以及無需OCR的數學推理[15]。我們撰寫這篇綜述,以向研究人員提供MLLM的基本概念、主要方法和當前進展的了解。請注意,我們主要關注視覺和語言模態,但也包括涉及其他模態的工作。具體而言,我們將現有的MLLM分為四種類型,并附上相應的總結,同時開設一個GitHub頁面,該頁面將實時更新。據我們所知,這是關于MLLM的第一篇綜述。
本文將近期代表性的MLLM分為四個主要類型:多模態指令微調(MIT),多模態上下文學習(M-ICL),多模態思維鏈(M-CoT)和LLM輔助視覺推理(LAVR)。前三者構成了MLLM的基礎,而最后一個是以LLM為核心的多模態系統。請注意,這三種技術相對獨立,并且可以組合使用。因此,我們對某一概念的說明可能也涉及其他內容。我們按照這四個主要類別組織本文,并依次介紹它們。我們首先詳細介紹M-IT(第3.1節),以揭示在架構和數據兩個方面,LLM如何適應多模態。然后,我們介紹M-ICL(第3.2節),這是一種常用于推理階段以提升少樣本性能的有效技術。另一個重要的技術是M-CoT(第3.3節),通常用于復雜的推理任務。之后,我們進一步總結LLM在LAVR(第3.4節)中主要扮演的幾個角色,這通常涉及這三種技術。最后,我們以總結和潛在的研究方向結束我們的綜述。
2. 方法
2.1. 多模態指令微調
指令是對任務的描述。指令微調是一種技術,涉及在一系列指令格式的數據集[16]上對預訓練的大型語言模型進行微調。通過這種方式調整,LLM可以通過遵循新的指令來泛化到未見過的任務,從而提升零樣本性能。這個簡單而有效的想法引發了后續在NLP領域的成功作品,如ChatGPT [1]、InstructGPT [17]、FLAN [16, 18]和OPT-IML [19]。圖1說明了指令微調與相關典型學習范例之間的比較。監督微調方法通常需要大量特定任務的數據來訓練特定任務的模型。提示方法減少了對大規模數據的依賴,并可以通過提示工程完成專門的任務。在這種情況下,盡管少樣本性能得到改善,但零樣本性能仍然相當一般[5]。不同的是,指令調整學習如何泛化到未見過的任務,而不是像兩個對應方法那樣適應特定任務。此外,指令調整與多任務提示[20]高度相關。
相比之下,傳統的多模態模型仍然局限于前兩種調整范式,缺乏零樣本能力。因此,許多近期的研究[13, 21, 22]已經探討了如何將LLM中指令微調的成功應用擴展到多模態。為了從單模態擴展到多模態,對數據和模型都需要進行相應的調整。對于數據,研究人員通常通過調整現有的基準數據集[23-28]或通過自我指導[13,21,29]來獲取M-IT數據集。對于模型,一種常見的方法是將外部模態的信息注入到LLM中,并將它們視為強大的推理器。相關工作要么直接將外部嵌入與LLM對齊[21, 23-25, 27, 28, 30-32],要么求助于專家模型將外部模態轉換為LLM能夠處理的自然語言[33, 34]。以這種方式構建,這些工作通過多模態指令微調將LLM轉變為多模態聊天機器人[13, 21, 22, 33, 35]和多模態通用任務解決器[23, 24, 26]。 在本節的后續部分,我們首先提供基礎知識(第3.1.2節)。在轉向M-IT的描述之前,我們還額外介紹了在M-IT之前的常見過程,即對齊預訓練(第3.1.3節)。然后,我們按照圖2所示的結構安排剩余的內容:我們首先介紹如何收集M-IT數據(第3.1.4節),然后詳細討論MLLM的模型適應,即彌合不同模態之間差距的各種方式(第3.1.5節)。最后,我們介紹評估指令調整后的MLLM的評估方法(第3.1.6節)。
2.2. 多模態上下文中學習
ICL(In-Context Learning,上下文中學習)是LLM的重要能力之一。ICL有兩個優點:(1) 與從大量數據中學習隱含模式的傳統監督學習范式不同,ICL的關鍵是通過類比學習[74]。具體來說,在ICL設置中,LLM通過少量示例以及可選的指令學習,并對新問題進行外推,從而以少樣本的方式解決復雜和未見過的任務[14, 75, 76]。 (2) ICL通常以無需訓練的方式實現[74],因此可以靈活地在推理階段集成到不同的框架中。與ICL密切相關的技術是指令微調(見第3.1節),經驗證明可以增強ICL能力[16]。在MLLM的背景下,ICL已擴展到更多模態,從而形成多模態ICL(M-ICL)。在(第3.1.2節)中的設置基礎上,在推理時,可以通過添加演示集,即一組上下文樣本,來實現M-ICL。在這種情況下,模板可以擴展為表3所示。注意,我們列出了兩個上下文示例作為說明,但示例的數量和順序可以靈活調整。實際上,模型通常對示例的排列敏感[74, 77]。在多模態應用方面,M-ICL主要用于兩種場景:(1) 解決各種視覺推理任務[14, 27, 63, 78, 79];(2) 教LLM使用外部工具[75, 76, 80]。前者通常涉及從少量特定任務的示例中學習,并推廣到新的但相似的問題。從指令和演示中提供的信息中,LLM了解任務的內容和輸出模板,并最終生成預期答案。相比之下,工具使用的示例通常僅為文本,并且更加細致。它們通常包括一系列可以按順序執行以完成任務的步驟。因此,第二種情況與CoT(見第3.3節)密切相關。
2.3. 多模態思維鏈條
正如開創性工作[7]所指出的,CoT(Chain of Thought,思維鏈條)是“一系列中間推理步驟”,已被證明在復雜推理任務中是有效的[7, 87, 88]。CoT的主要思想是提示LLM不僅輸出最終答案,而且輸出通往答案的推理過程,類似于人類的認知過程。受NLP中的成功啟發,已經提出了多項工作[81, 82, 85, 86],將單模態CoT擴展到多模態CoT(M-CoT)。我們總結這些工作如圖3所示。首先,與M-IT的情況類似(見§3.1節),需要填補模態間的差距(§3.3.1節)。然后,我們介紹獲取M-CoT能力的不同范例(§3.3.2節)。最后,我們詳細描述M-CoT的更具體方面,包括配置(§3.3.3節)和鏈條的構建(§3.3.4節)。
2.4. LLM輔助的視覺推理
受到工具增強LLM的成功啟發[95-98],一些研究探索了調用外部工具[14, 34, 75, 76]或視覺基礎模型[14, 83, 84, 91, 92, 99]來進行視覺推理任務的可能性。這些工作以LLM作為擔任不同角色的助手,構建特定任務[84, 90, 93]或通用目的[14, 75, 76, 80, 83]的視覺推理系統。與傳統的視覺推理模型[100-102]相比,這些工作表現出幾個優點:(1) 強大的泛化能力。這些系統配備了從大規模預訓練中學到的豐富的開放世界知識,可以輕松地泛化到未見過的對象或概念,并具有顯著的零/少示例性能[75, 76, 90, 91, 93, 94]。(2) 新興的能力。在LLM的強大推理能力和豐富知識的幫助下,這些系統能夠執行復雜任務。例如,給定一張圖片,MM-REACT[14]可以解釋其背后的意義,比如解釋為什么一個梗圖是有趣的。(3) 更好的交互性和控制。傳統模型通常只允許一套有限的控制機制,并且通常需要昂貴的精心策劃的數據集[103,104]。相比之下,基于LLM的系統能夠在用戶友好的界面(如點擊和自然語言查詢)中進行精細控制[84]。
接下來的部分按照圖4所示進行組織:我們首先介紹在構建LLM輔助視覺推理系統中使用的不同訓練范例(§3.4.2節)。隨后,我們深入探討LLM在這些系統中扮演的主要角色(§3.4.3節)。最后,我們以各種類型的性能評估來結束我們的討論。
3. 挑戰和未來方向
MLLM的發展仍處于初級階段,因此有很多改進的空間,我們在下面進行總結:
? 當前的MLLM在感知能力上仍然受限,導致不完整或錯誤的視覺信息獲取[13, 73]。這可能是由于信息容量和計算負擔之間的妥協。更具體地說,Q-Former[64]只使用32個可學習的令牌來表示圖像,這可能導致信息丟失。然而,增加令牌大小不可避免地會給LLM帶來更大的計算負擔,因為其輸入長度通常是有限的。一種潛在的方法是引入大型視覺基礎模型,如SAM[8],以更有效地壓縮視覺信息[21, 29]。
? MLLM的推理鏈可能是脆弱的。例如,Fu等人[73]發現,在一個數學計算的案例中,盡管MLLM計算出正確的結果,但由于推理中斷,它仍然給出錯誤的答案。這表明,單模態LLM的推理能力可能不等于接收視覺信息后的LLM的推理能力。改進多模態推理的主題值得研究。
?** MLLM的遵循指示能力需要升級**。在M-IT之后,一些MLLM無法生成預期的答案(“是”或“否”),盡管有明確的指示,“請回答是或否”[73]。這表明,指令微調可能需要涵蓋更多任務以提高泛化能力。
? 對象幻覺問題很普遍[13, 44],這在很大程度上影響了MLLM的可靠性。這可能歸因于對齊預訓練不足[13]。因此,一種可能的解決方案是在視覺和文本模態之間進行更細粒度的對齊。細粒度是指圖像的局部特征,可以通過SAM獲得[21,29],以及相應的局部文本描述。
? 需要參數高效的訓練。現有的兩種模態橋接方式,即可學習的接口和專家模型,都是減少計算負擔的初步探索。更高效的訓練方法可能會在有限的計算資源下解鎖MLLM的更多潛力。
4. 結論
在本文中,我們對現有的MLLM文獻進行了調研,并提供了其主要方向的廣泛視角,包括三種常見技術(M-IT, M-ICL, 和 M-CoT)以及構建任務解決系統的通用框架(LAVR)。此外,我們強調了需要填補的當前研究差距,并指出了一些有前景的研究方向。我們希望這篇綜述能為讀者提供MLLM當前進展的清晰畫面,并激發更多的工作。
如何讓模型適配專業領域?這篇文章夠了
大型語言模型(LLMs)顯著推進了自然語言處理(NLP)領域的發展,為廣泛應用提供了高度有用且任務不受限的基礎。LLMs作為通用任務解決器的巨大潛力激勵人們將其功能大幅度擴展,遠超“聊天機器人”,并將其用作特定領域如健康保健、金融和教育等領域的專家和工具的助手甚至替代品。然而,直接應用LLMs解決特定領域的復雜問題會遇到許多難題,這些難題由領域數據的異質性、領域知識的復雜性、領域目標的獨特性,以及領域應用中的各種限制(例如,各種社會規范、文化一致性、宗教信仰和道德標準)所引起。為了填補這種空白,在最近幾年中,對LLMs領域專化的研究和實踐已經爆炸式增長,然而,這需要一個全面和系統的審查來更好地總結和引導這個有前景的領域。在這篇綜述論文中,首先,我們提出了一個系統的分類法,該分類法根據對LLMs的可訪問性對LLMs領域專化技術進行分類,并總結了所有子類別的框架以及它們之間的關系和差異。我們還提出了一個全面的關鍵應用領域分類法,這些領域可以從專業化的LLMs中受益,討論了它們的實際意義和開放的挑戰。此外,我們還提供了關于該領域當前研究狀態和未來趨勢的見解。
//www.zhuanzhi.ai/paper/3279a4c93753550f0d2fbcd780b30414
1. 引言
自然語言處理(NLP)和人工智能(AI)模型的演變經歷了顯著的軌跡,始于1950年和1960年的基于規則的系統,轉變為1990年的統計模型,然后是2010年神經網絡的出現。由于自注意力和基于Transformer的神經網絡架構[240]的成功,預訓練語言模型(PLMs)在2010年后期出現并迅速流行,這得益于它們能以無監督的方式從大規模數據中學習通用語言表示,這對許多下游NLP任務如常識推理[270],多選題回答[206]和故事生成[30]都有益處,同時避免了從頭開始訓練新模型。在過去的幾年中,隨著大規模語料庫和硬件容量的快速增長,研究人員發現,通過擴大模型和訓練數據可以持續提高模型的容量,遵循擴展規則[99],最終導致了大型語言模型(LLMs)[259]的出現,如GPT-3[28](175B參數),PaLM[39](540B參數),和LLaMA[235](65B參數)。LLMs在理解和生成類人文本方面明顯優于較小的模型,已經成為一個有前途的AI研究趨勢。他們通過高效的文獻分析、新穎的假設生成和復雜的數據解釋,對改變自然和社會科學的潛力,可能會加速研究、提高發現過程并促進跨學科合作。
大型語言模型(LLMs)作為通用任務解決器的巨大前景激勵人們將其功能大幅度擴展,遠超過僅作為“聊天機器人”[173],而是將其用作特定領域如健康保健、金融和教育的助手,甚至替代人工或現有的事實上的工具。然而,直接應用LLMs進行領域特定的問題解決會遇到許多難題。首先,不同領域、角色和任務的對話和語言風格存在顯著差異,范圍從醫療處方,到法律句子,到在線聊天等。獲取這些能力和經驗甚至需要人類進行多年的訓練,其中很多都是實踐性的和專有的。此外,不同的領域、機構和團隊有自己的“商業模式”,關于哪種回應將最大化他們自己的效用函數以完成他們的任務,這是不能直接被一個沒有定制的通用LLMs解決器所替代的。更重要的是,專業級使用的領域知識要求也需要非常深入,實時且準確,這些都不是預訓練的LLMs能輕易達到的。許多領域知識資源是機構的專有資產和核心競爭力,絕不能泄露給通用的LLMs。最后但并非最不重要的一點,語言受到社會規范、文化一致性、宗教信仰、法律要求和道德實踐的約束,所有這些在不同的地方、國家、人口、種族、社區等都是變化的參數,這使得通用的LLMs不可能成為一個無需任何定制的一體適應所有的解決器。所有上述的難題都導致了“將LLMs專業化到領域”或“LLMs的領域專業化”的必要性,即將通用的LLMs定制到領域的上下文數據,增強領域知識,優化領域目標,并受到領域限制的調控。為了實現這個目標,這個主題目前正在經歷極其快速的增長。
LMs領域專業化是一個關鍵且具有挑戰性的問題,需要創新并集成有效的技術來解決其獨特特性引起的嚴重挑戰,包括:1) 知識差距和領域專業知識。LLMs的力量主要歸因于其大量的訓練語料。然而,這也意味著LLMs往往有一個知識斷層(即,LLMs無法獲取最新的信息、事件或發現)。在許多專業領域,新的發現、規定和最佳實踐不斷出現,這使得LLMs難以保持最新。例如,每天都有超過30,000篇主流新聞文章發布[247]。對于社交媒體分析和事實檢查,LLMs可能無法處理它們,因為從訓練語料中提取的知識是離線的。這表明需要定期重新訓練或持續學習機制來保持LLMs在這些動態領域的相關性和準確性。然而,確保模型的新鮮度可能需要大量的資源,因為它需要連續的高質量和最新的數據收集、處理,以及計算密集的模型重新訓練。2) 從LLMs中引出領域知識。默認情況下,LLMs具有廣泛主題的通用知識,并可能已經看到并獲得了大部分領域的特定知識。然而,更受歡迎或廣泛討論的話題可能被過度代表,而一些領域特定的話題可能被低估,這使得它們難以被有效地提取用于領域特定的任務。此外,領域特定的任務通常涉及復雜的概念、專業術語和不同實體之間的復雜關系。沒有適當的指導,LLMs可能會生成聽起來合理但對類似查詢(即,LLM的幻覺)或略微改寫的問題的答案不一致[15]。這個問題是因為LLMs被設計為基于輸入預測最可能的詞序列,而不是基于結構化知識庫提供確定的答案。研究人員發現,通過為LLMs提供一些任務特定的演示,用戶可以指導模型生成更相關、準確和任務特定的回應,從而提高AI系統在眾多領域的整體效用和效率[259]。使得理解預期含義或期望結果變得困難。更不用說LLMs通常具有有限的上下文窗口,通常由它們可以處理的最大令牌長度決定(例如,ChatGPT只能處理4097個令牌)。3) 模型復雜性和微調所需的大量計算資源。為了更好地適應特定領域應用,微調歷史上是專門化語言模型的常用做法。然而,與傳統的語言模型不同,微調LLM需要大量的高質量、領域特定數據進行有效的微調。獲取、清洗和預處理這樣的數據可能會耗費大量時間和資源。此外,LLM的復雜性使得確定最適當的微調策略變得具有挑戰性,因為超參數的選擇、學習率和訓練持續時間的選擇可以顯著影響模型的性能。Chen等人[34]還討論了微調LLM可能會導致嚴重的災難性遺忘,因為具有復雜架構的LLM在微調過程中更有可能忘記之前學到的知識,并過度適應目標領域。除了數據需求和復雜模型架構之外,LLM通常由數十億的參數組成,例如,生成預訓練Transformer 3(GPT-3)[28]和Pathways Language Model (PaLM)[39]都包含超過1000億的參數,這需要大量的計算能力進行訓練。微調或重新訓練這些模型需要訪問高性能GPU或專用硬件,如TPU,這可能會很昂貴,尤其是對于個人研究者或小型組織來說,獲取這些資源可能會非常困難。
在過去的幾年中,對LLMs領域專業化技術進行了大量的研究。許多方法側重于通用技術貢獻,只需進行少量修改并獲取領域特定信息,就可以適應特定領域。然而,將這些技術在不同應用領域間進行交叉引用仍然是一個挑戰,同樣的,缺乏對評估各種領域專業化技術的方法進行系統標準化和總結的挑戰也存在。這種缺乏清晰度為非AI專業人員制造了障礙,并使現有的瓶頸、陷阱、開放問題和潛在的未來研究方向變得模糊不清。為了克服這些障礙,更有效地利用人工智能完成各種領域的任務,這篇綜述文章提供了對當前最先進的LLM領域專業化的全面和系統的回顧。本文的主要貢獻包括:
? 對LLMs領域專業化技術的系統分類和分類法:我們基于對LLM的不同級別(即,黑箱、灰箱和白箱)的可訪問性,全面地分類了現有的方法,并將其對應的技術組織成一個分類法。我們討論了不同子類別之間的細節、關系、優點和缺點。這個提出的分類法旨在幫助領域專家確定最適合他們的目標問題設置的技術。
? 對主要應用領域的全面分類和總結:我們首次提出了代表性應用領域的分類法,LLMs的領域專業化可以增強這些領域。每個應用領域或子領域的實際意義和開放挑戰都被闡明,便于與提出的技術分類法進行易于映射。研究人員和各種領域的專家可以交叉引用額外的應用領域,以評估他們新提出的方法,同時擴大他們的先進技術以包含新的應用領域。
? 對這個領域當前研究狀況和未來趨勢的深入討論。我們已經概述并討論了LLM領域專業化的整體情況和趨勢。本文最后通過展示對瓶頸、開放問題的新見解,以及可能的未來方向的討論來結束。
2. 領域專業化的分類法
大型語言模型通常被稱為基于Transformer架構的大規模預訓練語言模型 (PLMs) [157, 193]。實證證據表明,擴展預訓練語言模型,如增加模型大小或數據大小,常常能提升模型在下游任務中的處理能力。在本節中,我們首先回顧了PLMs的基本概念,然后介紹了一套針對特定領域專門化大型語言模型的現有技術的全面分類法。
根據對大型語言模型(LLMs)的可訪問性級別,將專門化LLMs進入領域的方法分為三類,即無訪問權限(黑箱),部分訪問權限(灰箱)和全訪問權限(白箱)。黑箱通常表示我們只能訪問模型API(例如,ChatGPT和GPT4),而不知道除生成的輸出外的任何信息;灰箱表示我們有限的信息(例如,GPT-3 API中生成的令牌的概率),這樣的信息可以指導我們設計并微調適當的提示,以更好地引出領域知識;白箱則表示我們可以全面訪問LLM(例如,LLaMA及其變種),包括參數設置,訓練數據和完整的模型架構。我們在圖2中提供了每種方法的概述。具體來說,
1)外部增強(黑箱)并不需要訪問LLM的內部參數空間,使其對資源有限的用戶(例如,計算資源,特定領域的數據)最為可接觸。如圖2(b)所示,通過使用外部資源或工具,將領域特定知識融入輸入提示,生成的輸出,或兩者,有效地改進了LLM的性能,而無需修改其內部結構。
2)提示制作(灰箱)涉及訪問LLM的梯度或損失值來設計各種類型的提示,允許更精細地控制模型的行為。
3)模型微調(白箱)需要最多的訪問權限和資源,因為它涉及更新LLM的參數,將領域特定知識直接融入模型。(圖2(d))。
3 LLM領域專業化的應用
在這篇綜述性的論文中,我們探索了LLMs在一系列特定領域任務中的應用,這些領域包括社會科學(如教育,金融,法律),自然科學(如生物醫學,地球科學),以及應用科學(如人機交互,軟件工程和網絡安全)。為了在這些多元化領域實現LLMs的領域專業化,讀者可以采用各種技術,如外部增強,指示制作,和知識更新。這些方法可以幫助將LLMs定制到每個領域的特定任務和挑戰,從而使得應用更準確,相關和有效。雖然每個領域都有其獨特的挑戰和需求,但在這些領域中,專門化的LLMs有幾個共同的應用:
? 高級信息提取:它們可以從特定領域的文本中識別實體,關系和事件,如從生物醫學文獻中識別基因,或在合同中檢測法律條款。 ? 文本生成和摘要:它們可以生成高質量的,特定領域的內容,并創建復雜領域特定文本的準確摘要。 ? 數據驅動的預測和推薦:它們可以分析特定領域的數據進行預測和提供推薦,如預測金融趨勢或建議個性化的醫療治療方案。 ? 對話代理和專家系統:它們可以被融入到對話代理或專家系統中,提供特定領域的指導,如虛擬導師或法律聊天機器人。 ? 自動化代碼生成和分析:在軟件工程中,它們可以基于自然語言描述生成或分析代碼,識別錯誤,或提出改進建議。
4. 結論
總的來說,大型語言模型的快速發展引發了人們對利用它們的潛力來處理各種自然,社會和應用科學領域中的特定領域任務的極大興趣。然而,若干挑戰,如特定領域的專業知識有限,知識誘導和模型復雜性,阻礙了LLMs在這些領域的直接應用。本調查系統地對基于對LLM的訪問級別的現有領域專業化技術進行了分類和總結,并提供了一個全面的應用領域分類,這些領域可以從專門化的LLMs中受益。通過提供不同技術和領域之間的優點,缺點和關系的詳細分析,這份調查旨在幫助領域專家確定適合他們目標問題設置的技術,同時也為數據科學家提供了對各種應用領域中實踐意義和開放挑戰的清晰理解。此外,該文還強調了這一領域研究的當前狀態,揭示了未來的趨勢和跨學科合作的潛在途徑。隨著LLM領域專業化的領域繼續發展,這份調查為研究人員和從業人員提供了寶貴的資源,進一步推動了人工智能在多個領域應用的進步和創新。
來自牛津大學、弗萊堡大學、谷歌研究院等機構的十余位研究者撰文綜述 AutoRL。
強化學習 (RL) 與深度學習的結合帶來了一系列令人印象深刻的成果,許多人認為(深度)強化學習提供了通向通用智能體的途徑。然而,RL 智能體的成功通常對訓練過程中的設計選擇高度敏感,可能需要繁瑣且容易出錯的手動調整。這使得將 RL 用于新問題具有挑戰性,同時也限制了 RL 的全部潛力。
在機器學習的許多其他領域,AutoML 已經表明可以自動化此類設計選擇,并且在應用于 RL 時也產生了有希望的初步結果。然而,自動強化學習 (AutoRL) 不僅涉及 AutoML 的標準應用,還包括 RL 獨有的額外挑戰,這使得研究者自然而然地產生了一些不同的方法。
AutoRL 已成為 RL 研究的一個重要領域,為從 RNA 設計到圍棋等游戲的各種應用提供了希望。由于 RL 中考慮的方法和環境具有多樣性,因此許多研究都是在不同的子領域進行的。來自牛津大學、弗萊堡大學、谷歌研究院等機構的十余位研究者撰文試圖統一 AutoRL 領域,并提供了通用分類法,該研究詳細討論了每個領域并提出未來研究人員可能感興趣的問題。