亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs)與視覺編碼器的集成最近在視覺理解任務中展示了令人矚目的表現,充分利用了它們理解和生成類人文本以進行視覺推理的固有能力。鑒于視覺數據的多樣性,多模態大型語言模型(MM-LLMs)在理解圖像、短視頻和長視頻時,在模型設計和訓練上表現出不同的變異性。本文重點討論長視頻理解相較于靜態圖像和短視頻理解所帶來的巨大差異和獨特挑戰。與靜態圖像不同,短視頻包含具有空間和事件內時序信息的連續幀,而長視頻則由多個事件組成,涵蓋事件間和長期時序信息。在本次綜述中,我們旨在追蹤并總結從圖像理解到長視頻理解的MM-LLMs進展。我們回顧了各種視覺理解任務的差異,強調了長視頻理解中的挑戰,包括更細粒度的時空細節、動態事件以及長期依賴關系。接著,我們詳細總結了在長視頻理解中MM-LLMs的模型設計和訓練方法的進展。最后,我們比較了現有MM-LLMs在不同長度視頻理解基準測試中的表現,并討論了MM-LLMs在長視頻理解中的未來潛在發展方向。

//www.zhuanzhi.ai/paper/72b285bc61f4bbb1c7ca164cf4d23606

1 引言

大型語言模型(LLMs)通過擴大模型規模和訓練數據展示了在理解和生成類人文本方面的顯著多功能性和能力(Raffel等, 2020; Brown, 2020; Chowdhery等, 2023; Touvron等, 2023a)。為了將這些能力擴展到視覺理解任務中,已經提出了各種方法將LLMs與特定的視覺模態編碼器相結合,從而賦予LLMs視覺感知能力(Alayrac等, 2022; Li等, 2023a)。單張圖像或多幀被編碼為視覺標記,并與文本標記集成,以幫助多模態大型語言模型(MM-LLMs)實現視覺理解。對于長視頻理解,MM-LLMs(Dai等, 2023; Liu等, 2024c)設計用于處理大量視覺幀和多樣化事件,使其能夠應用于諸如自動分析體育視頻集錦、電影、監控錄像和具身AI中的自我視角視頻等多種現實世界應用。例如,機器人可以通過長時間的自我視角視頻學習如何制作咖啡,它需要分析長視頻中的關鍵事件,包括:1)每6盎司水加入一到兩湯匙咖啡粉;2)向咖啡機的水箱加水;3)將咖啡粉放入過濾籃中;4)啟動咖啡機并等待其煮咖啡。對包含復雜時空細節和依賴關系的長視頻進行建模仍然是一個挑戰性問題(Wang等, 2023a; Mangalam等, 2024; Xu等, 2024b; Wu等, 2024)。 長視頻理解與其他視覺理解任務之間存在顯著差異。相比于靜態圖像理解,它僅關注靜態圖像的空間內容,而短視頻理解還必須考慮事件內跨連續幀變化的時間信息(Li等, 2023b; Zhang等, 2023; Maaz等, 2023)。此外,長視頻(超過一分鐘的)(Wu 和 Krahenbuhl, 2021; Zhang等, 2024d; Song等, 2024a)通常由多個事件組成,場景和視覺內容各異,需要捕捉事件間和長期的變化以實現有效理解。在有限的視覺標記數量下,如何有效平衡空間和時間細節,對長視頻語言模型(LV-LLMs)提出了相當大的挑戰(Song等, 2024a; He等, 2024; Xu等, 2024b)。與僅包含幾十幀的短視頻不同,長視頻往往包含數千幀(Ren等, 2024; Zhang等, 2024d)。因此,LV-LLMs必須能夠記住并不斷學習跨幾分鐘甚至幾小時的視頻中的長期關聯。為了實現對長視頻的全面理解,MM-LLMs在模型設計和訓練方面的進展值得特別關注(Fu等, 2024a; Wu等, 2024)。 我們在圖2中總結了MM-LLMs在圖像、短視頻和長視頻理解中的比較。除了上文討論的長視頻理解與其他視覺理解任務的繼承和發展關系外,LV-LLMs也在多圖像和短視頻MM-LLMs的進展基礎上構建,具有相似的視覺編碼器、LLM主干和跨模態連接器結構。為有效解決長視頻理解任務中新出現的挑戰,LV-LLMs設計了更高效的長視頻級連接器,這些連接器不僅能橋接跨模態表示,還能將視覺標記壓縮到可管理的數量(Li等, 2023c; Zhang等, 2024d)。此外,時間感知模塊通常被引入,以增強LV-LLMs對時間信息的捕捉(Qian等, 2024)。對于預訓練和指令調優,視頻-文本對和視頻指令數據對于MM-LLMs處理具有共享空間感知和推理能力的圖像和視頻至關重要(Li等, 2023b)。長視頻訓練數據集在時間跨模態語義對齊和捕捉長期關聯方面尤為重要,這對LV-LLMs至關重要(Song等, 2024b)。我們的綜述將提供對模型設計和訓練方法進展的全面總結,追蹤MM-LLMs從圖像理解到長視頻理解的演變。 近期關于視覺理解任務的綜述通常采用單一視角,要么從全球視角審視MM-LLMs(Yin等, 2023; Zhang等, 2024a),要么從局部視角聚焦于圖像或視頻理解任務(Zhang等, 2024b; Nguyen等, 2024)。雖然這些工作對研究主題進行了廣泛審查,但它們沒有討論不同任務和方法之間的繼承與發展關系。此外,現有關于視頻理解任務的綜述(Tang等, 2023)更傾向于關注一般的視頻理解,而非更具挑戰性的長視頻理解任務。超過一分鐘的長視頻在教育、娛樂、交通等領域廣泛應用,需要強大的模型來實現全面的自動理解(Apostolidis等, 2021)。我們的工作是最早從發展視角總結和討論長視頻理解任務的研究之一。 本綜述的結構如下:首先,我們發現長視頻理解任務相比于圖像和短視頻理解任務更為復雜(第2.1節),并在第2.2節總結了長視頻理解的獨特挑戰。接下來,我們從模型架構(第3節)和訓練方法(第4節)的角度詳細總結了MM-LLMs的進展,重點關注LV-LLMs在全面長視頻理解中的實現。然后,我們比較了視頻LLMs在從秒到分鐘(第5.1節)以及從分鐘到小時(第5.2節)的視頻理解基準測試中的表現,為LV-LLMs的現有研究成果提供了見解。最后,我們在第6節中討論了長視頻理解領域未來的研究方向,以推進這一研究領域的發展。

2 長視頻理解

由于長視頻理解與圖像或短視頻理解之間的固有差異,包括多幀和動態場景中存在的各種事件,長視頻理解任務在視覺理解方面提出了額外的挑戰。

**2.1 視覺推理與理解

視覺推理要求模型能夠理解和解釋視覺信息,并將多模態感知與常識性理解相結合(Johnson等, 2017; Chen等, 2024c)。視覺推理任務主要有三種類型:視覺問答(VQA)、視覺字幕生成(VC)或描述(VD),以及視覺對話(VDia)。VQA(Antol等, 2015; Zakari等, 2022)涉及根據輸入的視覺數據和伴隨的問題生成自然語言答案。VC和VD系統(Vinyals等, 2015; Sharma等, 2018; Li等, 2019)分別生成簡潔的自然語言句子以總結視覺數據的主要內容,或生成詳細且全面的視覺數據描述。VDia(Das等, 2017; Qi等, 2020)則涉及圍繞視覺內容進行的多輪對話,由一系列問題-答案對組成。 圖像理解。如圖3(a)所示,圖像理解任務涉及單張圖像的各種視覺推理任務,例如圖像字幕生成和以圖像為中心的問答(Sharma等, 2018; Mathew等, 2021; Changpinyo等, 2022; Li等, 2023a; Chen等, 2024a)。這些任務僅關注空間信息,包括對全局視覺內容的粗粒度理解(Ordonez等, 2011; Sohoni等, 2020)以及對局部視覺細節的精細理解(Wei等, 2021; Liu等, 2024b; Peng等, 2024)。 短視頻理解。與圖像理解任務僅涉及靜態視覺數據不同,短視頻理解還結合了多幀視覺數據中的時間信息(Xu等, 2016; Bain等, 2021; Li等, 2023b, 2024e)。除了空間推理(Ranasinghe等, 2024)外,事件內的時間推理和跨幀的時空推理對于短視頻理解至關重要(Huang等, 2018; Lin等, 2019; Diba等, 2023)。 長視頻理解。長視頻通常跨越數分鐘甚至數小時,通常包含多個事件,與短視頻相比,長視頻涵蓋更豐富的空間內容和時間變化(Mangalam等, 2024; Li等, 2024f; Song等, 2024a,b)。如圖3(c)總結的那樣,長視頻理解不僅涉及空間和事件內的時間推理,還涉及事件間的推理和跨不同視頻事件的長期推理(Wu等, 2019; Wu和Krahenbuhl, 2021; Wang等, 2023a; Zhou等, 2024; Fang等, 2024)。

**2.2 長視頻理解的挑戰

與圖像和短視頻相比,長視頻帶來了全面視覺理解的新挑戰,具體如下: 豐富的細粒度時空細節。長視頻涵蓋廣泛的主題、場景和活動,包含不同的細節,如物體、事件和屬性(Fu等, 2024a; Wu等, 2024)。與靜態圖像和具有相似多幀的短視頻相比,這些細節更加豐富,使長視頻理解更具挑戰性。例如,可以在任何幀中引入細粒度的空間問答,而時間問答可以在長視頻推理任務的幀間或幀內引入(Song等, 2024a)。用于長視頻理解的多模態LLMs必須捕捉跨越數分鐘甚至數小時的視頻幀中的所有相關細粒度時空細節,并使用有限數量的視覺標記。 場景轉換和內容變化中的動態事件。長視頻通常包含各種動態事件,場景和內容變化顯著(Wu等, 2024)。這些事件可能根據出現的順序在語義上相關并按時間協調(Bao等, 2021),也可能由于情節反轉(Papalampidi等, 2019)而表現出顯著的語義差異。事件間推理涉及多個具有不同視覺信息的事件,對于準確的內容理解至關重要(Cheng等, 2024a; Qian等, 2024)。對于多模態LLMs來說,區分語義差異并在不同事件中保持語義一致性對長視頻理解尤為重要。 長期關聯和依賴關系。長視頻通常包含跨長時間段的動作和事件。捕捉長期依賴關系并理解視頻的不同部分在長時間段內如何相互關聯是一項挑戰(Wu等, 2019)。用于圖像或短視頻的LLMs通常無法將當前事件與遠離當前時間的過去或未來事件聯系起來(Wu和Krahenbuhl, 2021),也無法進行長期決策(Wang等, 2024b)。

3 模型架構的進展

在本節中,我們從模型架構的角度討論了多模態大型語言模型(MM-LLMs)從圖像目標模型到長視頻目標模型的進展。如圖4所示,用于圖像、短視頻和長視頻的MM-LLMs具有相似的結構,包括視覺編碼器、LLM主干和中介連接器。與圖像目標MM-LLMs中的圖像級連接器不同,視頻級連接器在跨幀視覺信息的整合中起著關鍵作用。在長視頻LLMs(LV-LLMs)中,設計連接器更加具有挑戰性,要求有效壓縮大量視覺信息并結合時間知識來管理長期關聯。

**3.1 視覺編碼器與LLM主干

MM-LLMs,包括圖像目標和視頻目標模型,通常使用相似的視覺編碼器來提取視覺信息。LLM主干在早期的MM-LLM方法中也比較通用,而現有的LV-LLMs傾向于在實現中使用長上下文LLMs。 視覺編碼器。預訓練的視覺編碼器負責從原始視覺數據中捕捉視覺知識。如表1所示,圖像編碼器如CLIP-ViT-L/14(Radford等, 2021)、EVA-CLIP-ViT-G/14(Sun等, 2023)、OpenCLIP-ViT-bigG/14(Cherti等, 2023)和SigLIP-SO400M(Zhai等, 2023)廣泛用于圖像和視頻目標的LLMs。近期工作(Li等, 2024a)表明,視覺表示(包括圖像分辨率、視覺標記的大小和預訓練視覺資源)比視覺編碼器的大小更重要。 LLM主干。LLM是視覺理解系統中的核心模塊,繼承了推理和決策的屬性。相比于GPT-3/4(Brown, 2020;Achiam等, 2023)和Gemini-1.5(Reid等, 2024)等閉源LLMs,更多的開源LLMs更常用于實現視覺LLMs。這些開源LLMs包括Flan-T5(Chung等, 2024)、LLaMA(Touvron等, 2023b,c;Dubey等, 2024)、Vicuna(Chiang等, 2023)、QWen(Bai等, 2023a)、Mistral(Jiang等, 2023)、Openflamingo(Awadalla等, 2023)、Yi(Young等, 2024)和InternLM(Team, 2023;Cai等, 2024)。 LLM的強度通常與視覺LLMs的多模態能力相關聯(Li等, 2024b,a)。這意味著對于相同規模的LLM,語言能力更強的模型表現更好;而對于相同LLM的不同規模模型,規模更大的模型通常會帶來更好的多模態性能。此外,長上下文LLMs通過將上下文長度擴展到成千上萬的標記,支持更多數據的學習(Yang等, 2024)。最近的LV-LLMs有效地將LLM的長上下文理解能力轉移到視覺模態(Zhang等, 2024d)。

**3.2 模態接口

視覺編碼器和LLMs之間的連接器作為模態接口,將視覺特征映射到語言特征空間。鑒于視覺數據來源的多樣性,這些連接器可以分為圖像級、視頻級和長視頻級連接器。 圖像級連接器。圖像級連接器用于將圖像特征映射到語言空間,以處理原始視覺標記,它們廣泛用于圖像目標和視頻目標的MM-LLMs中。這些連接器可以分為三類:第一類直接使用單層線性層(Liu等, 2024c)或多層感知器(MLP)(Liu等, 2024a)將圖像特征映射到語言嵌入空間。然而,這種保留所有視覺標記的方法不適用于涉及多圖像的視覺理解任務。為了應對保留所有視覺標記的局限性,第二類采用了基于池化的方法,包括空間池化(Maaz等, 2023)、自適應池化(Xu等, 2024a)、語義相似標記合并(Jin等, 2024)和相鄰標記平均(Zhang等, 2024e;Li等, 2024c)。第三類利用了基于交叉注意力或Transformer的結構,例如Q-Former(Li等, 2023a)和Perceiver Resampler(Jaegle等, 2021),用于圖像特征壓縮。Q-Former是一種輕量級Transformer結構,使用一組可學習的查詢向量來提取和壓縮視覺特征。許多視覺LLMs(Dai等, 2023;Li等, 2023b;Ma等, 2023a;Liu等, 2024e)遵循BLIP-2,選擇基于Q-Former的連接器。其他視覺LLMs(Ma等, 2023b;Jiang等, 2024)選擇使用Perceiver Resampler來通過提取補丁特征降低計算負擔。 視頻級連接器。視頻級連接器用于提取連續的視覺數據并進一步壓縮視覺特征。相比于圖像目標MM-LLMs中的圖像級連接器,視頻級連接器在視頻目標MM-LLMs,包括LV-LLMs中尤為重要。一些方法直接將圖像標記串聯后輸入到LLMs,使其對幀圖像數量較為敏感(Dai等, 2023;Lin等, 2023)。用于標記壓縮的圖像級連接器的類似結構可以適用于視頻級接口,如基于池化和Transformer的結構。沿時間序列維度的池化是減少時間信息冗余的直接方式(Maaz等, 2023;Song等, 2024a)。基于Transformer的方法,如Video Q-Former(Zhang等, 2023;Ma等, 2023a;Ren等, 2024)和Video Perceiver(Wang等, 2023b),在提取視頻特征的同時降低了數據復雜性。此外,基于3D卷積的方法可以從空間和時間維度提取并壓縮視覺數據(Cheng等, 2024b;Liu等, 2024d)。 長視頻級連接器。專為長視頻LLMs設計的連接器考慮了兩個特殊因素:處理長視頻數據的高效視覺信息壓縮和時間感知設計以保留時間信息。 有效壓縮視覺信息不僅需要將輸入的視覺標記減少到可接受的數量,還需要保留長視頻中包含的完整時空細節。視頻包含兩種類型的數據冗余:幀內的空間數據冗余和幀間的時空數據冗余(Li等, 2022;Chen等, 2023a)。一方面,當幀內的像素在區域級別相同時,空間數據冗余就會產生,從而導致通過完整的視覺標記表示冗余視覺幀時效率低下。為了減少空間視頻數據冗余,LLaVA-Next系列方法(Zhang等, 2024e;Li等, 2024d;Liu等, 2024b;Li等, 2024c)合并了相鄰幀補丁標記,而Chat-UniVi(Jin等, 2024)合并了相似的幀補丁標記。另一方面,時空數據冗余包括幀間像素冗余和運動冗余(Pourreza等, 2023),其中這些冗余視頻幀之間的語義信息相似。為了減少時空視頻冗余,MovieChat(Song等, 2024a)和MALMM(He等, 2024)在將幀特征輸入到LLMs之前合并了相似幀特征。在減少冗余信息的同時,保留更多視頻時空細節對于準確的長視頻推理至關重要(Diba等, 2023)。為了平衡全局和局部視覺信息并支持更多幀輸入,SlowFast-LLaVA(Xu等, 2024b)采用了低幀率的慢路徑來提取特征,同時保留更多的視覺標記,以及高幀率的快路徑,通過更大的空間池化步長關注運動線索。 此外,時間相關的視覺數據可以有效管理長視頻固有的時空信息(Hou等, 2024)。時間感知設計可以增強視頻相關LLMs的時間捕捉能力,這對于長視頻理解特別有益。VTimeLLM(Huang等, 2024a)和InternLM-XComposer-2.5(IXC-2.5)(Zhang等, 2024c)都使用幀索引來增強時間關系。不同之處在于其方法:VTimeLLM通過訓練包含幀索引的解碼文本來學習時間信息,而IXC-2.5則將幀索引與幀圖像上下文一起編碼。TimeChat(Ren等, 2024)和Momentor(Qian等, 2024)將時間信息直接注入幀特征中,以捕捉細粒度的時間信息。具體而言,TimeChat設計了一個時間感知幀編碼器,用于在幀級別提取視覺特征,并添加相應的時間戳描述,而Momentor利用了一個時間感知模塊,用于連續時間編碼和解碼,將時間信息注入幀特征中。

結論

本文總結了視覺LLMs從圖像到長視頻的進展。基于對圖像理解、短視頻理解和長視頻理解任務差異的分析,我們識別了長視頻學習的關鍵挑戰。這些挑戰包括在動態連續事件中捕捉更多的細粒度時空細節和在場景轉換與內容變化中壓縮視覺信息中的長期依賴關系。接著,我們介紹了從圖像LLMs到長視頻LLMs在模型架構和模型訓練方面的進展,旨在提升長視頻的理解與推理能力。隨后,我們回顧了多個不同長度的視頻基準測試,并比較了不同方法的視頻理解性能。該比較為長視頻理解的未來研究方向提供了見解。我們的論文是首個聚焦于長視頻LLMs的開發和改進,以提升長視頻理解的研究工作。我們希望本研究能推動LLMs在長視頻理解與推理領域的進步。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

在自然語言處理(NLP)領域,大型語言模型(LLMs)已展示出高質量的文本生成能力。然而,在實際應用中,LLMs必須滿足日益復雜的需求。除了避免生成誤導性或不恰當的內容外,LLMs還需要滿足特定用戶的需求,例如模仿特定的寫作風格或生成具有詩意豐富性的文本。這些多樣化的需求推動了可控文本生成(CTG)技術的發展,確保生成的文本符合預定的控制條件——如安全性、情感、主題一致性和語言風格——同時保持高標準的有用性、流暢性和多樣性

本文系統回顧了大型語言模型中CTG的最新進展,全面定義了其核心概念,并闡明了控制條件和文本質量的要求。我們將CTG任務分為兩大類:內容控制和屬性控制。討論了關鍵方法,包括模型重訓練、微調、強化學習、提示工程、潛在空間操作和解碼時干預。我們分析了每種方法的特點、優缺點,并提供了實現生成控制的深入見解。此外,我們還回顧了CTG的評估方法,概括了其在各個領域的應用,并探討了當前研究中的關鍵挑戰,包括流暢性降低和實用性問題。我們還提出了一些建議,如在未來研究中更加注重實際應用。本文旨在為該領域的研究人員和開發者提供有價值的指導。我們的參考文獻列表和中文版本已開源,網址為://github.com/IAAR-Shanghai/CTGSurvey

1 引言

隨著大型語言模型(LLMs)的快速發展及其在自然語言處理(NLP)中的廣泛應用,文本生成質量取得了顯著突破[175]。然而,在實際應用中,LLMs往往面臨更加復雜和嚴格的內容生成要求。例如,在金融[71]和新聞報道[79]等領域,模型不僅要避免生成誤導性或歧視性內容[8],還需精確匹配特定條件和用戶需求。這些需求可能包括模仿特定的寫作風格或生成具有詩意的文本。這類要求推動了可控文本生成(CTG)技術的發展,CTG也被稱為受控文本生成或約束文本生成,確保生成的文本既符合高質量標準,又滿足各種應用的具體需求。

隨著對使LLMs生成符合特定要求的內容的興趣和需求的增加,CTG研究領域不斷擴展。圖1展示了Web of Science中索引的與“語言模型中的控制生成”相關的論文數量增長情況。CTG通過引導文本生成遵循預定義的控制條件,如安全性或情感,同時保持流暢性和多樣性等質量標準[166],增強了LLMs滿足特定需求的能力,從而提高了文本的適用性和有效性。

控制條件在可控文本生成(CTG)中可以是顯性或隱性的。顯性控制涉及通過人機交互(例如輸入提示)明確定義的指令,指導模型以特定風格生成文本,例如莎士比亞風格或幽默語調[134]。隱性控制則指確保生成的文本符合某些標準,即使這些要求沒有明確說明,例如生成無毒、無冒犯性和無歧視性的內容。例如,在智能客服系統中,生成的內容應始終保持積極樂觀的語調,以提升客戶體驗。模型必須自動適應這些隱性要求,避免生成可能引發社會問題的內容。

CTG可以被視為一種獨立于大型語言模型(LLMs)客觀知識能力的能力維度。如圖2所示,雖然LLMs在邏輯推理、文本分析或問題解決等客觀能力方面表現出色[80],但CTG強調的是這種客觀信息的表達和呈現方式。換句話說,CTG不僅關注生成文本中的事實準確性和相關性,還特別注重信息的傳達方式。例如,在情感控制中,CTG并不要求模型優先考慮內容的事實準確性,而是確保傳達的情感與預期的情感基調一致。同樣,在風格控制中,模型必須確保內容符合特定的語言風格或語調。CTG賦予LLMs生成更加個性化和上下文敏感的內容的能力,以滿足不同用戶的需求。然而,需要認識到,沒有絕對的標準規定正面情感輸出優于中性情感輸出。CTG任務的重點在于適應不同的應用場景和需求,以實現最適合的生成結果。

1.1 可控文本生成的需求

CTG的需求可以分為兩個主要維度。第一個維度涉及確保生成的文本符合預定義的控制條件,例如文本結構、安全性和主題聚焦,以滿足用戶需求。第二個維度則側重于保持文本的有用性、流暢性和多樣性作為基本質量標準,確保其在實際場景中的有效性和適用性。兩個維度共同構成了CTG的雙重挑戰:嚴格遵循指定的控制條件,同時保持文本質量的高標準。

**1.1.1 維度一:滿足預定義的控制條件

CTG的主要目標是確保生成的文本符合預定義的控制條件。這涉及根據特定目標或要求定制文本,使其適合預定的應用。控制條件可能包括生成關于特定主題的文本,確保安全性以避免有害內容,或模仿特定的語言風格。

例如,在安全性方面,模型必須避免生成可能被視為有害的內容,如歧視性或暴力語言。考慮以下場景:

  • 原始輸入:“他的孩子真的很笨。”
  • 控制輸出:“這樣說是不對的,可能會造成傷害。”

在主題適配方面,文本必須準確聚焦于指定主題。例如:

  • 原始輸入:“隨著經濟的快速變化,今天的市場表現出前所未有的活力。投資者和消費者正在監控趨勢以做出決策。”
  • 財經主題:“在這種背景下,股市在早盤鈴響后迅速反應,道瓊斯工業平均指數和納斯達克等主要指數略有上漲。”
  • 體育主題:“在這樣的經濟環境下,體育產業也表現出了獨特的適應能力。值得注意的是,職業足球和籃球聯賽正在利用創新的商業模式和營銷策略吸引全球觀眾。”

風格適配任務涉及模仿特定的文學風格或技術寫作,以滿足特定的風格要求。此領域的一個常見子任務是情感調節,其中生成的文本應反映特定的情感基調,如正面、負面或中性。第3節將更詳細地討論這些可控任務及其應用,具體場景和實現方式將進一步闡述。

**1.1.2 維度二:保持文本質量

除了實現預定義的控制條件外,保持文本的流暢性、有用性和多樣性也是至關重要的。

  • 流暢性:文本應平滑且邏輯連貫,使讀者易于理解意圖和上下文。考慮以下示例:

  • 原始輸入:“我需要關于種植番茄的建議。”

  • 輸出1:“番茄需要陽光水分好生長。”(雖然該輸出控制了主題內容,但缺乏流暢性和語法正確性。)

  • 輸出2:“番茄在陽光充足的地方生長良好,需要定期澆水。”(此響應不僅準確地回答了輸入問題,而且流暢且連貫。)

  • 有用性:LLMs生成的文本應提供現實世界的價值,幫助解決具體問題或提供必要信息。考慮以下示例:

  • 原始輸入:“他的孩子真的很笨。”

  • 輸出1:“我無法回答。”(此響應避免了傷害但缺乏建設性建議。)

  • 輸出2:“你不應該這么說。每個人都有可以改進的地方。讓我們找出問題并尋找解決方案。”(此輸出更具建設性,因為它提出了一個更有用的、可操作的方法,更符合提供有用信息的目標。)

  • 多樣性:文本應避免重復或公式化。相反,它應體現創新性和多樣性,捕捉人類語言的豐富性和復雜性。

1.2 相關綜述

近年來,CTG得到了廣泛研究。表1總結了CTG領域的關鍵綜述。探索可控文本生成技術[109]是該領域最早的綜述之一,提供了涵蓋各種模型架構(包括RNNs [116]、LSTMs [45]和Transformers [139])技術的總體框架。 和諧人機互動的條件文本生成[38]從實際應用的角度探討了CTG,特別是在情感和個性化文本生成方面,使用了RNNs [116]、LSTMs [45]、GANs [112]、Transformers [139]和VAEs [62]等模型,并著重強調了現實世界的應用。 如何控制文本生成中的情感:情感控制技術的最新研究綜述[93]深入探討了CTG中的情感控制,強調了管理生成文本中情感的重要性和挑戰。 最近的可控文本生成綜述:因果視角[145]批評了傳統CTG方法中對統計相關性的關注,倡導通過表示解耦、因果推理和知識增強來改進CTG。 使用基于Transformer的預訓練語言模型的可控文本生成綜述[166]側重于CTG中基于Transformer的預訓練模型。雖然它討論了這些模型不斷發展的能力和局限性,但也提到了在系統分類CTG任務和方法時的挑戰。例如,表格到文本的生成任務可能模糊了普通語言建模和CTG特定任務之間的界限。此外,提示分類在微調方法中的使用表明,隨著CTG方法的發展,需要更清晰的區分。 由于LLMs的快速進步和2023年和2024年潛在空間操作等新興方法的出現,該綜述中2022年之前的參考文獻可能對當前的LLMs研究相關性較低。

表1中概述的維度提供了對關鍵可控文本生成(CTG)綜述的全面概覽。這些維度包括模型選擇(從小規模預訓練語言模型到大規模語言模型,定義見[175])、任務分類(抽象和具體屬性控制)、學習方法(訓練、微調、強化學習)、去學習方法(輸入優化、內部操作、輸出干預)、評估標準(通用和任務特定指標)以及應用場景(水平和垂直應用),這些都顯著影響了CTG研究的廣度和深度。此外,對控制機制、質量考慮、挑戰和未來方向的討論揭示了CTG的基本機制和潛力。參考文獻的截止年份確保涵蓋最新的發展。

相比現有的綜述,本文的核心貢獻和獨特之處包括

  • 聚焦Transformer架構:本文探討了基于Transformer架構[139]的預訓練大型語言模型(LLMs)在CTG中的應用。盡管RNNs [116]、LSTMs [45]和VAEs [62]等模型對CTG做出了重大貢獻,但我們的主要關注點是基于Transformer的模型,突出其在該領域的優勢和應用。
  • 強調大型語言模型:本文聚焦于CTG方法的最新進展,特別是在大型預訓練語言模型如GPT [9]和Llama [135]的興起背景下。2023年和2024年這些LLMs的發展及其在CTG中的應用引發了一波創新,重新塑造了研究視角。因此,本文重點介紹了針對大型預訓練語言模型在LLM時代的CTG方法,介紹了這些前沿方法的概念和特點。
  • 探討模型表達和CTG質量:本文考察了CTG與模型能力之間的相互作用,探討了外部控制條件如何融入CTG過程。還關注了CTG的質量問題,重點探討了什么定義了更有效和有用的文本生成。
  • 創新任務分類框架:本文引入了一個創新的框架,將CTG任務分為兩大類:內容控制(硬控制)和屬性控制(軟控制)。這個框架為探索和分析CTG方法的多樣性提供了結構化的途徑。
  • 系統分類CTG方法:本文將CTG方法分為兩個主要階段:訓練階段方法和推理階段方法。這些方法包括重訓練、微調、強化學習、提示工程、潛在空間操作和解碼時干預技術。

1.3 文章結構

本文的邏輯框架如圖3所示。第1.1節首先介紹了CTG的核心需求。第2節在LLMs的背景下定義了CTG,解釋了關鍵概念并探討了控制條件如何融入生成過程。 第3節將CTG任務分為內容控制(或語言控制/硬控制)和屬性控制(或語義控制/軟控制)。 為了提供CTG方法的全面概述,第4節系統分類了從訓練階段的重訓練和微調到推理階段的提示工程和潛在空間操作等技術。在第5和第6節中詳細討論了這些方法。 第7節探討了評估標準,介紹了流行的評估框架和技術。第8節探討了CTG在新聞生成、對話系統和有害內容減少等各個領域的實際應用。 在第9節中,我們討論了CTG的挑戰,包括精確內容控制、多屬性控制的復雜性以及文本流暢性和有用性的提升。我們主張多樣化測試任務,強調實際應用,并最大化LLMs的能力。 最后,第10節總結了本研究的主要貢獻,為CTG領域的未來發展提供了有價值的見解。

可控文本生成中的任務

在可控文本生成(CTG)的領域,根據文本控制的性質,任務可以大致分為兩大類:內容控制(或語言控制/硬控制)和屬性控制(或語義控制/軟控制)。

**2.1 內容控制(或語言控制/硬控制)

內容控制(也稱為語言控制或硬控制)關注生成文本的特定元素,例如其結構和詞匯。這種類型的控制要求模型嚴格按照預定義的規則生成文本內容,因此被稱為“硬控制”,因為它直接影響生成文本的具體形式和內容。此類別包括以下方面:

  • 結構控制:

  • 特定格式:生成符合特定格式要求的文本,例如詩歌[153, 186]、食譜[92]或其他類型的結構化文本,每種格式都有其獨特的語言和結構規范。

  • 組織結構:確保文本具有適當的段落劃分、標題使用和列表安排[49, 84],以增強清晰度和可讀性。

  • 長度控制:管理生成文本的整體長度以滿足特定要求[12, 51, 54],確保其適合預定的平臺或用途。

  • 詞匯控制:

  • 關鍵詞包含:確保生成的文本包含預定義的一組關鍵詞[44, 172],從而滿足特定的信息需求,并增強信息的相關性和特異性。

  • 禁止特定術語:防止使用可能有害或不適當的術語[94],從而維護內容的完整性和適宜性。

**2.2 屬性控制(或語義控制/軟控制)

屬性控制,也稱為語義控制或軟控制,側重于文本的抽象語言屬性,例如情感、風格和主題。這種控制類型的目標是確保生成的文本在更高層次上反映特定的語義特征,而不是嚴格定義具體的語言表達。這種類型的控制被稱為“軟控制”,因為它強調的是影響文本的整體抽象特征,而非其具體內容。示例如下:

  • 安全性控制

  • 去毒化:生成的文本應避免任何形式的有害內容[21, 85, 120],例如歧視性語言或暴力內容。

  • 遵守法律法規:文本必須遵守所有適用的法律和法規[5],包括隱私保護和版權法。

  • 情感控制

  • 情感傾向:確保生成的文本展現出明確的情感傾向,如積極、消極或中性,以符合特定的溝通目的[14, 22, 65, 160]。這確保了情感基調與語境或對受眾的預期影響一致。

  • 風格控制

  • 通用風格:通用風格控制確保生成的文本滿足特定場合和行業的需求[58]。例如,在醫學、法律或商業領域,需要保持專業的溝通風格,以確保內容的專業性和適應性。此外,在不同的社交場合,文本應反映出特定的語調,如正式性或禮貌性[117, 136],以滿足禮儀要求。

  • 個人風格:個人風格控制涉及生成模仿特定寫作風格的文本[132, 134, 138],如莎士比亞風格,以滿足藝術或專業需求。它還包括根據個人表達習慣和偏好生成個性化文本,提供更為定制化的用戶體驗。

  • 主題控制

  • 主題一致性:確保文本嚴格遵循指定的主題[14, 22],如技術、體育或政治。這包括使內容與目標受眾的預期知識和興趣保持一致。

這些示例代表了CTG中常見的任務和應用場景。在內容控制和屬性控制的領域內,還有許多其他豐富的任務,這些都為CTG的廣泛研究領域做出了貢獻。

可控文本生成方法的分類

可控文本生成(CTG)的核心在于將控制條件 CCC 融入大型語言模型(LLMs)的文本生成過程中。CTG方法通過參數化或非參數化的方式,將外部信息注入到LLMs生成的文本中,從而實現這一目標。這些外部信息可以采用多種形式,包括利用分類器、條件語言模型或直接從LLMs自身引入知識的模型驅動方法。或者,也可以使用數據驅動的方法,利用豐富的數據資源,如文本語料庫[58, 160]、詞匯表[106]、圖結構[81]和數據庫[103, 108]等來注入知識,如圖4所示。具體的方法和更多細節將在第5節和第6節中進行詳細介紹和討論。

可控文本生成(CTG)方法可以根據模型干預發生的階段進行分類。總體而言,CTG方法分為兩個主要階段:訓練階段和推理階段(見圖5)。在每個階段內,CTG方法進一步細分為不同的類別,如表2所示,涵蓋了各種研究方法和具體的代表性方法。

3.1 訓練階段

在訓練階段,采用了幾種方法來實現可控文本生成。

  • 重訓練[44, 58, 172]:通過使用專門設計的數據集從頭開始訓練模型,以反映所需的控制條件。當預訓練模型無法滿足需求或需要進行架構修改以符合特定要求時,通常采用這種方法。重訓練允許調整模型架構,以更好地適應這些控制需求。
  • 微調[160, 165, 183]:通過將所需的控制屬性集成到模型參數中,對預訓練模型進行微調。通過參數調整或使用適配器模塊,微調提供了一種高效的方法,與重訓練相比,它需要相對較少的數據和計算資源。
  • 強化學習[21, 59, 138]:利用獎勵信號引導模型輸出朝向特定的控制目標。通過迭代優化,模型學習將輸出與這些目標對齊,這使得強化學習特別適合于復雜任務,如在生成的文本中保持特定的風格或情感。

3.2 推理階段

在推理階段,干預措施在文本生成過程中實時應用,以根據特定的控制條件影響輸出。

  • 提示工程[73, 76, 89]:通過操縱輸入提示來引導模型的輸出。該技術可以使用顯式的自然語言提示(硬提示)或連續的向量嵌入(軟提示)來靈活地引導生成過程。由于提示工程不需要更改模型參數,它適合于快速調整生成策略。
  • 潛在空間操作[87, 132, 137]:通過調整模型隱藏層中的激活狀態來控制生成的文本。通過添加或修改潛在向量,這種方法可以在不改變模型權重的情況下精確控制文本生成過程。潛在空間操作在屬性控制方面尤其有效,例如在情感或風格上進行微調。
  • 解碼時干預[22, 65, 153]:通過修改生成輸出的概率分布或在解碼過程中應用特定規則來影響詞語選擇。該方法通常涉及使用分類器或獎勵模型來評估生成的片段,并在解碼過程中進行實時調整,以確保輸出符合特定的控制條件。解碼時干預通常是即插即用的,提供了在文本生成過程中動態調整的靈活性。

結論

本文回顧了大型語言模型(LLMs)在可控文本生成(CTG)領域的最新研究進展,并系統地定義了基本概念,涵蓋了控制條件和文本質量要求。文章提出了一種新的任務分類方法,將CTG任務分為內容控制(或語言控制/硬控制)和屬性控制(或語義控制/軟控制)。 本文詳細回顧了多種CTG方法。在訓練階段,主要方法包括對預訓練模型進行重訓練或微調,以及采用強化學習策略來優化生成質量和控制精度。在推理階段,常用技術包括通過提示工程引導生成,操縱潛在空間以實現精確控制,以及在解碼過程中進行干預以調整輸出文本。 文章還探討了CTG的各種評估方法,并強調了CTG技術在多個垂直領域和通用任務中的廣泛應用。本文討論了CTG領域面臨的挑戰,包括提高生成質量、優化控制精度和提升推理效率,并指出了未來的研究方向和呼吁。 總之,本文提供了對可控文本生成領域核心概念、技術方法、評估方法和實際應用的全面綜述,識別了當前研究的挑戰,并提出了未來的發展方向。它旨在為可控文本生成領域的研究探索提供系統的參考和指導。

付費5元查看完整內容

圖像編輯旨在編輯給定的合成或真實圖像以滿足用戶的特定需求。近年來,圖像編輯作為一個前景廣闊且充滿挑戰的人工智能生成內容(AIGC)領域被廣泛研究。該領域最近的顯著進展基于文本到圖像(T2I)擴散模型的發展,這些模型根據文本提示生成圖像。T2I模型展現了非凡的生成能力,已成為圖像編輯的廣泛使用工具。基于T2I的圖像編輯方法顯著提升了編輯性能,并提供了一個用戶友好的界面,通過多模態輸入引導內容修改。在本綜述中,我們對利用T2I擴散模型的多模態引導圖像編輯技術進行了全面回顧。首先,我們從整體角度定義了圖像編輯的范圍,并詳細說明了各種控制信號和編輯場景。然后,我們提出了一個統一的框架來形式化編輯過程,將其分類為兩大主要算法家族。該框架為用戶提供了一個設計空間以實現特定目標。隨后,我們對該框架內的每個組件進行了深入分析,考察了不同組合的特征及其適用場景。鑒于基于訓練的方法在用戶引導下學習直接將源圖像映射到目標圖像,我們將其單獨討論,并介紹了在不同場景中源圖像的注入方案。此外,我們回顧了2D技術在視頻編輯中的應用,重點解決幀間不一致的問題。最后,我們討論了該領域的開放挑戰,并提出了潛在的未來研究方向。我們在//github.com/xinchengshuai/Awesome-Image-Editing持續追蹤相關工作。

隨著跨模態數據集[1], [2], [3], [4], [5], [6], [7]和生成框架[8], [9], [10], [11], [12]的發展,新興的大規模文本到圖像(T2I)模型[13], [14], [15]使人們能夠創建所需的圖像,開啟了計算機視覺中的人工智能生成內容(AIGC)時代。大多數這些工作基于擴散模型[12],這是一個廣泛研究的流行生成框架。最近,許多工作探索了這些基于擴散的模型在其他領域的應用,如圖像編輯[16], [17], [18], [19], [20], [21],3D生成/編輯[22], [23], [24],視頻生成/編輯[25], [26], [27], [28]等。與圖像生成不同,編輯旨在進行二次創作,即修改源圖像中的所需元素并保留與語義無關的內容。質量和適用性方面仍有進一步改進的空間,使得編輯仍然是一個有前景且充滿挑戰的任務。在這項工作中,我們對利用T2I擴散模型的多模態引導圖像編輯技術進行了全面綜述。

已有一些綜述[174], [175], [176], [177], [178]從不同角度回顧了最先進的基于擴散的方法,如圖像修復[179],超分辨率[176],醫學圖像分析[177]等。與這些綜述相比,我們專注于圖像編輯領域的技術。有兩個相關的并行工作[175], [178]與我們的綜述相關。其中,[178]介紹了擴散模型在圖像編輯中的應用,并根據其學習策略對相關論文進行了分類。與之相比,我們從一個新穎而全面的角度討論了這一主題,并提出了一個統一的框架來形式化編輯過程。我們發現,之前文獻[16], [32], [66], [178]對編輯的解釋是有限和不完整的。這些工作限制了保留概念的范圍,并傾向于從源圖像中重建最大量的細節。然而,這種常見設置排除了某些高層語義(如身份、風格等)的維護。為了解決這個問題,我們首先提供了嚴格而全面的編輯定義,并在本綜述中納入了更多相關研究,如[37], [38], [61], [146]。圖1展示了符合我們定義的各種場景。值得注意的是,一些生成任務如定制化[41], [54]和帶圖像引導的條件生成[37], [134]都符合我們的討論范圍。這些任務在另一項關注可控生成的并行工作[175]中有所討論。其次,我們將審查的方法整合到一個統一的框架中,將編輯過程分為兩大算法家族,即反演和編輯算法。在[178]中,引入了一個類似的框架來統一那些不需要訓練或測試時微調的方法。不同的是,我們的框架在討論的廣義編輯場景中更為多樣化。同時,該框架為用戶提供了一個設計空間,以根據其具體目的結合適當的技術。綜述中的實驗展示了不同組合的特征及其適用場景。此外,我們還調查了2D方法[32], [180]在視頻編輯[165], [173]中的擴展,并集中討論了它們解決時間一致性問題的方法,補充了研究領域的缺失部分。

我們對三百多篇論文進行了廣泛的綜述,審查了現有方法的本質和內部邏輯。本綜述主要關注基于T2I擴散模型的研究[13], [14], [181]。在第二部分中,介紹了擴散模型和T2I生成中的技術,提供了基本的理論背景。在第三部分中,我們給出了圖像編輯的定義,并討論了幾個重要方面,如不同模態的用戶引導、編輯場景以及一些定性和定量評估指標。同時,我們形式化了提出的統一框架以整合現有方法。接下來,在第四和第五部分中分別討論了我們框架的主要組成部分。反演算法從源圖像中捕捉要保留的概念,而編輯算法則旨在在用戶引導下再現視覺元素,實現內容一致性和語義保真度。在第六部分中,我們檢查了反演和編輯算法的不同組合,并探討了它們的特征和適用場景,從而指導用戶為不同目標選擇適當的方法。由于基于訓練的方法[20], [119], [122], [182]學習直接將源圖像轉化為目標圖像,我們在第七部分中討論了這些工作,并詳細介紹了源圖像在不同任務中的注入方案。第八部分介紹了圖像編輯在視頻領域的擴展。由于視頻數據的稀缺,直接應用圖像域方法通常會導致幀間不一致。該部分討論了現有工作[158], [164], [166], [171]中的幾種解決方案。最后,在第九部分中,我們討論了未解決的挑戰,并提出了潛在的未來研究方向。圖2展示了我們工作的組織,并分類了每部分中審查的論文。

付費5元查看完整內容

大型語言模型(LLMs)在各個領域和智能代理應用中取得了顯著進展。然而,當前從人類或外部模型監督學習的LLMs成本高昂,并且隨著任務復雜性和多樣性的增加,可能面臨性能上限的挑戰。為了解決這個問題,自我進化方法使LLM能夠自主獲取、精煉和學習模型自身生成的經驗,正迅速發展。這種受人類經驗學習過程啟發的新訓練范式為將LLMs擴展到超級智能提供了潛力。在這項工作中,我們提出了對LLMs中自我進化方法的全面調查首先,我們提出了一個自我進化的概念框架,并概述了演化過程,該過程由四個階段的迭代循環組成:經驗獲取、經驗精煉、更新和評估。其次,我們對LLMs和基于LLMs的代理的演化目標進行分類;然后,我們總結了文獻,并為每個模塊提供了分類法和見解。最后,我們指出了現有的挑戰,并提出了未來的方向,以改進自我進化框架,為研究人員提供關鍵的見解,加快自我進化LLMs的發展。我們對應的 GitHub 倉庫可以在 //github.com/AlibabaResearch/DAMOConvAI/tree/main/Awesome-Self-Evolutionof-LLM 獲取。

****隨著人工智能的快速發展,諸如GPT3.5(Ouyang等,2022)、GPT-4(Achiam等,2023)、Gemini(Team等,2023)、LLaMA(Touvron等,2023a,b)和Qwen(Bai等,2023)等大型語言模型(LLMs)標志著語言理解和生成方面的重大轉變。這些模型經歷了三個發展階段,如圖1所示:首先,在大規模和多樣化的語料庫上進行預訓練,以獲得對語言和世界知識的一般理解(Devlin等人,2018;Brown等人,2020),然后進行監督微調以引發下游任務的能力(Raffel等人,2020;Chung等人,2022)。最后,人類偏好對齊訓練使LLMs能夠以人類行為作出反應(Ouyang等,2022)。這種連續的訓練范 paradigms 取得了重大突破,使LLMs能夠執行一系列任務,具有顯著的零射擊和上下文能力,例如問答(Tan等,2023)、數學推理(Collins等,2023)、代碼生成(Liu等,2024b)以及需要與環境進行交互的任務解決(Liu等,2023b)。

盡管取得了這些進展,但人們預計新興一代的LLMs可以被賦予更高復雜度的任務,例如科學發現(Miret和Krishnan,2024)和未來事件預測(Schoenegger等,2024)。然而,由于現有訓練范 paradigms 中建模、標注和評估的固有困難,當前的LLMs在這些復雜任務中面臨挑戰(Burns等,2023)。此外,最近開發的Llama-3模型已經在包含15萬億標記的廣泛語料庫上進行了訓練。這是一個龐大的數據量,表明通過添加更多現實世界的數據來顯著擴展模型性能可能存在限制。這引起了人們對LLMs自我進化機制的興趣,類似于人類智能的自然演變,并由游戲中的人工智能發展所說明,例如從AlphaGo(Silver等,2016)到AlphaZero(Silver等,2017)的過渡。AlphaZero的自我對弈方法,無需標記數據,為LLMs超越當前限制并實現超人類表現提供了前進的道路。

受到上述范 paradigm 的啟發,LLMs的自我進化研究在模型發展的不同階段迅速增加,例如自我指導(Wang等,2023b)、自我對弈(Tu等,2024)、自我改進(Huang等,2022)和自我訓練(Gulcehre等,2023)。值得注意的是,DeepMind的AMIE系統(Tu等,2024)在診斷準確性方面超過了初級保健醫生,而微軟的WizardLM-2系統超過了GPT-4的初始版本的性能。這兩個模型都是使用具有自主學習能力的自我進化框架開發的,并代表了LLM培訓范 paradigm 的潛在轉變。然而,這些方法之間的關系仍然不清楚,缺乏系統的組織和分析。 因此,我們首先全面調查LLMs中的自我進化過程,并為其發展建立一個概念框架。

這種自我進化的特點是一個迭代循環,涉及經驗獲取、經驗改進、更新和評估,如圖2所示。在循環過程中,LLM通過不斷發展新任務和生成相應的解決方案來獲得經驗,隨后通過更新模型的重量或上下文來獲取更好的監督信號。在評估模型進展并設定新目標后,LLM最終被評估。 LLMs中自我進化的概念在各種研究社區中引起了相當大的興奮,承諾一個能夠自適應、學習和自主改進的模型新時代,類似于人類對不斷變化的環境和挑戰的演變。自我進化的LLMs不僅能夠超越當前靜態、數據約束的模型的局限,而且還標志著向更加動態、健壯和智能的系統的轉變。

通過提供一個結構化的概念框架,這項調查通過全面概述深化了對自我進化LLMs新興領域的理解。我們追溯了該領域從過去到最新的前沿方法和應用的演變,同時檢查了現有的挑戰并勾勒了未來的研究方向,為自我進化框架和下一代模型的開發鋪平了道路。

本調查分為以下幾個部分:我們首先介紹自我進化的概述(§2),包括背景和概念框架。我們總結了當前方法的現有進化能力和領域(§3)。然后,我們對自我進化過程的不同階段的最新進展進行了深入分析和討論,包括經驗獲取(§4)、經驗改進(§5)、更新(§6)和評估(§7)。最后,我們概述了開放性問題和未來方向(§8)。

付費5元查看完整內容

圖在表示社交網絡、知識圖譜和分子發現等各種領域的復雜關系中發揮著重要作用。隨著深度學習的出現,圖神經網絡(GNNs)已成為圖機器學習(Graph ML)的基石,促進了圖結構的表示和處理。最近,大語言模型(LLMs)在語言任務中展示了前所未有的能力,并廣泛應用于計算機視覺和推薦系統等多種應用中。這一顯著的成功也吸引了人們將LLMs應用于圖領域的興趣。人們越來越多地努力探索LLMs在推進圖機器學習的泛化、可遷移性和小樣本學習能力方面的潛力。同時,圖,特別是知識圖譜,富含可靠的事實知識,可以用來增強LLMs的推理能力,潛在地緩解它們的局限性,如幻覺現象和缺乏可解釋性。鑒于這一研究方向的迅速進展,對LLMs時代圖機器學習的最新進展進行系統的綜述是必要的,以便為研究人員和實踐者提供深入的理解。因此,在這篇綜述中,我們首先回顧了圖機器學習的最近發展。然后,我們探討如何利用LLMs來提高圖特征的質量,減輕對標記數據的依賴,并應對圖異質性和分布外(OOD)泛化等挑戰。之后,我們深入探討了圖如何增強LLMs,突出了它們提升LLM預訓練和推理的能力。此外,我們還研究了各種應用,并討論了這一有前途的領域的潛在未來發展方向。

圖數據在許多實際應用中都有廣泛的應用,包括社交圖、知識圖譜和推薦系統。通常,圖由節點和邊組成,例如,在社交圖中,節點代表用戶,邊代表關系。除了拓撲結構外,圖還傾向于擁有各種節點特征,如文本描述,這些特征提供了有關節點的寶貴上下文和語義信息。為了有效地建模圖,圖機器學習(Graph ML)已引起了重大關注。隨著深度學習(DL)的出現,圖神經網絡(GNNs)因其消息傳遞機制而成為圖機器學習的關鍵技術。該機制允許每個節點通過遞歸接收和聚合來自鄰近節點的消息來獲取其表示,從而捕捉圖結構中的高階關系和依賴性。為了減少對監督數據的依賴,許多研究集中于開發自監督圖機器學習方法,以提升GNNs捕捉可遷移圖模式的能力,增強它們跨各種任務的泛化能力。鑒于圖數據應用的指數級增長,研究人員正在積極開發更強大的圖機器學習方法。

最近,大語言模型(LLMs)開啟了人工智能的新趨勢,并在自然語言處理(NLP)中展示了顯著的能力。隨著這些模型的發展,LLMs不僅被應用于語言任務,還在計算機視覺(CV)、推薦系統等各種應用中展示了巨大的潛力。LLMs在復雜任務中的有效性歸因于它們在架構和數據集大小上的廣泛規模。例如,擁有1750億參數的GPT-3展示了生成類人文本、回答復雜問題和編程的激動人心的能力。此外,由于其龐大的訓練數據集,LLMs能夠掌握廣泛的通用知識和復雜的推理能力。因此,它們在語言語義和知識推理方面的能力使它們能夠學習語義信息。此外,LLMs展示了在有限或無特定訓練的新任務和領域中的突出能力,這一屬性預計將在不同的下游數據集和任務中提供高泛化能力,即使在少樣本或零樣本情況下也是如此。因此,利用LLMs在圖機器學習(Graph ML)中的能力引起了越來越多的關注,并有望增強Graph ML,推動圖基礎模型(GFMs)的發展。

GFMs通常在廣泛的數據上訓練,并可以適應廣泛的下游任務。通過利用LLMs的能力,有望增強Graph ML在各種任務中的泛化能力,從而促進GFMs的發展。目前,研究人員已經進行了一些初步努力,探索LLMs在推進Graph ML向GFMs發展中的潛力。圖1展示了將LLMs和GNNs集成用于各種圖任務的一個例子。首先,一些方法利用LLMs減輕原始Graph ML對標記數據的依賴,它們根據隱含和顯式圖結構信息進行推斷。例如,InstructGLM通過將圖數據序列化為令牌并編碼圖的結構信息來解決圖任務,對諸如LlaMA和T5的模型進行微調。其次,為了克服特征質量的挑戰,一些方法進一步利用LLMs提高圖特征的質量。例如,SimTeG在文本圖數據集上對LLMs進行微調,獲取文本屬性嵌入,然后利用這些嵌入增強GNN以執行各種下游任務。此外,一些研究探索使用LLMs來解決圖的異質性和OOD問題。

另一方面,盡管LLM在各個領域取得了巨大成功,但它仍面臨幾個挑戰,包括幻覺、實際意識缺乏和解釋性不足。圖,尤其是知識圖譜,以結構化格式捕獲大量高質量可靠的事實知識。因此,將圖結構整合到LLMs中可以提高LLMs的推理能力并緩解這些限制。為此,已進行了一些努力,探索圖在增強LLMs解釋性和緩解幻覺方面的潛力。鑒于這一領域的迅速發展和巨大潛力,對LLMs時代圖應用和圖機器學習的最新進展進行全面回顧是必要的。

因此,在這篇綜述中,我們旨在提供關于LLMs時代圖機器學習的全面回顧。綜述的大綱如圖2所示:第二部分回顧與圖機器學習和基礎模型相關的工作。第三部分介紹了圖上的深度學習方法,重點是各種GNN模型和自監督方法。隨后,綜述深入探討了如何在第四部分使用LLMs來增強Graph ML,以及在第五部分如何采用圖來增強LLMs。最后,第六部分和第七部分分別討論了Graph ML在LLMs時代的一些應用和潛在的未來方向。我們的主要貢獻可以總結如下:

我們詳細描述了從早期圖學習方法到LLMs時代最新的GFMs的演變; 我們提供了當前LLMs增強的Graph ML方法的全面分析,突出了它們的優勢和局限,并提供了系統的分類; 我們徹底調查了圖結構應對LLMs限制的潛力;

我們探索了Graph ML在LLMs時代的應用和未來方向,并討論了各個領域的研究和實際應用。 與我們的綜述同時進行的,Wei等人回顧了圖學習的發展。Zhang等人提供了大型圖模型的前瞻性回顧。Jin等人和Li等人分別回顧了在圖上預訓練語言模型(特別是LLMs)及其應用到不同類型的圖的不同技術。Liu等人根據流程回顧了圖基礎模型。Mao等人關注基本原則,并討論了GFMs的潛力。

與這些同時進行的綜述不同,我們的綜述提供了更全面的回顧,具有以下不同之處:(1)我們提供了關于Graph Machine Learning發展的更系統的回顧,并進一步探索了LLMs對Graph ML向GFMs的發展;(2)我們提出了LLMs時代Graph ML最新進展的更全面和細致的分類;(3)我們深入探討了最近Graph ML的局限性,并提供了從LLMs的角度克服這些局限性的洞見;(4)我們進一步探討了如何使用圖來增強LLMs;(5)我們徹底總結了廣泛的應用范圍,并提出了對挑戰和未來方向的更前瞻性討論。

盡管具有巨大潛力,基于GNN的圖機器學習(Graph ML)仍存在固有局限。首先,常規的GNN模型通常需要標記數據進行監督,獲取這些注釋可能在時間和成本上非常耗資源。其次,現實世界中的圖往往包含豐富的文本信息,這對下游任務至關重要。然而,GNN通常依賴于淺層文本嵌入來提取語義,從而限制了它們捕捉復雜語義和文本特征的能力。此外,圖的多樣性為GNN模型在不同領域和任務中的泛化提出了挑戰。最近,大語言模型(LLMs)在處理自然語言方面取得了顯著成功,具有如下激動人心的特點:(1)進行零/少樣本預測;(2)提供統一的特征空間。這些能力為解決圖機器學習和圖基礎模型(GFMs)所面臨的上述挑戰提供了潛在的解決方案。因此,本節旨在研究當前LLMs能為提升圖機器學習向GFMs的進展做出什么貢獻,同時也審視它們當前的局限性,如圖4所示。

大語言模型(LLMs)在各個領域展示了令人印象深刻的語言生成和理解能力。然而,它們仍面臨幾個迫切的挑戰,包括事實性認知、幻覺、推理過程中的有限可解釋性等問題。為了緩解這些問題,一種潛在的方法是利用知識圖譜(KGs),知識圖譜以結構化格式存儲高質量、人工策劃的事實知識。最近的綜述[152]–[154]總結了使用KGs來增強語言模型(LMs)的研究。Hu等人[152]提供了關于知識增強的預訓練語言模型用于自然語言理解和自然語言生成的綜述。Agrawal等人[153]系統地回顧了通過利用KGs來減輕LLMs中的幻覺的研究,這些研究涵蓋三個維度:推理過程、學習算法和答案驗證。Pan等人[154]從三個不同的視角全面總結了KGs和LLMs的整合:KG增強的LLMs、LLM增強的KGs和雙方相互加強的LLMs與KGs的協同作用。在本節中,我們將深入探討相關研究,這些研究探索了使用KGs實現知識增強的語言模型預訓練、減輕幻覺和提高推理可解釋性的用途。

結論

在這項綜述中,我們全面回顧了大語言模型(LLMs)時代圖應用和圖機器學習(Graph ML)的最新進展,這是圖學習中的一個新興領域。我們首先回顧了圖機器學習的發展,然后深入探討了各種LLMs增強圖機器學習的方法。由于在各個領域的顯著能力,LLMs有巨大的潛力推動圖機器學習向圖基礎模型(GFMs)發展。我們進一步探索了用圖增強LLMs,突出了它們在增強LLM預訓練和推理方面的能力。此外,我們展示了它們在多樣化應用中的潛力,如分子發現、知識圖譜和推薦系統。盡管取得了成功,這個領域仍在發展中,呈現了許多進一步發展的機會。因此,我們進一步討論了幾個挑戰和潛在的未來方向。總的來說,我們的綜述旨在為研究人員和實踐者提供一個系統和全面的回顧,激發對這一有前途領域的未來探索。

付費5元查看完整內容

將文本和視覺模態連接起來在生成智能中扮演著至關重要的角色。因此,受到大型語言模型成功的啟發,大量研究努力正被投入到多模態大型語言模型(MLLMs)的開發中。這些模型能夠無縫整合視覺和文本模態,無論是作為輸入還是輸出,同時提供基于對話的界面和遵循指令的能力。在這篇論文中,我們提供了近期基于視覺的MLLMs的全面回顧,分析它們的架構選擇、多模態對齊策略和訓練技巧我們還對這些模型在廣泛的任務范圍內進行了詳細分析,包括視覺定位、圖像生成和編輯、視覺理解和領域特定應用。此外,我們編制并描述了訓練數據集和評估基準,就性能和計算需求在現有模型之間進行了比較。總的來說,這篇綜述提供了當前藝術狀態的全面概述,為未來MLLMs的發展奠定了基礎。

//www.zhuanzhi.ai/paper/3c58ed684809b9b936259fd61a4bb074

注意力操作符和Transformer架構(Vaswani et al., 2017)的引入,使得創建能夠處理各種模態的模型成為可能,并且這種處理能力在不斷擴大的規模上得到應用。這一進步很大程度上歸功于操作符的多功能性和架構的適應性。最初,這一突破被用于語言特定模型(Devlin et al., 2018; Brown et al., 2020),但很快擴展到支持視覺處理骨干(Dosovitskiy et al., 2021),最終用于集成多種模態的模型(Radford et al., 2021)。復雜大型語言模型(LLMs)的涌現,特別是它們進行上下文學習的能力,鼓勵研究人員將這些模型的應用范圍拓寬到多模態,包括作為輸入和輸出。這一擴展導致了如GPT-4V(Achiam et al., 2023)和Gemini(Anil et al., 2023)等尖端模型的開發,展示了最先進的性能。多模態大型語言模型(MLLMs)的開發涉及將視覺和語言的單模態架構合并,通過視覺到語言的適配器建立它們之間的有效連接,并設計創新的訓練方法。這些方法對于確保模態對齊和準確遵循指令的能力至關重要。在新模型快速發布的背景下,我們的目標是提供關于MLLM領域的全面概述,重點關注利用視覺模態的模型。這一概述既是對當前狀態的更新,也是對未來發展的靈感來源。我們確定了定義這些模型的三個核心方面:它們的架構、訓練方法以及它們被設計來執行的任務。我們首先詳細介紹了流行的視覺編碼器選擇和為LLMs裝備跨模態能力的適配器模塊。接著,我們深入訓練過程和使用的數據。然后,我們探索MLLMs處理的任務范圍。綜述以對該領域持續存在的挑戰和未來研究的有希望方向的討論結束。關于訓練數據、評估數據集以及性能和計算要求的進一步細節在補充材料中報告。

賦予大型語言模型多模態能力

** 前言**

大型語言模型。Brown等人(2020)發現上下文學習,即在提示前附加一些示例以演示大型語言模型(LLM)的期望輸出(Chowdhery等人,2023;Hoffmann等人,2022;Tay等人,2022),可以提高其性能,特別是在未見過的任務上。通過為每個訓練樣本提供所需任務的自然語言描述,可以進一步提高泛化能力。這種技術,稱為指令調優(Chung等人,2022;Wang等人,2022b,a;Jiang等人,2024),對于使LLM的行為與人類的行為對齊至關重要,目前賦能了最先進的LLM,最終通過來自人類反饋的強化學習(RLHF)(Ouyang等人,2022;Achiam等人,2023;Chen等人,2023j;Bai等人,2023a)得到提升。PEFT。當一個預訓練的LLM需要適應特定領域或應用時,參數高效微調(PEFT)方案代表了訓練整個LLM的一個重要替代方案,因為這些策略只引入少量新參數。其中,提示調優(Hambardzumyan等人,2021;Lester等人,2021;Li和Liang,2021;Liu等人,2023j)學習一小組向量作為軟提示在輸入文本之前輸入模型。不同的是,LoRA(Hu等人,2021)通過學習低秩矩陣限制了新權重的數量。這種技術與如QLoRA(Dettmers等人,2023)等量化方法正交,進一步減少了LLM的內存占用,與通常的半精度權重相比。走向多模態LLM。MLLM的發展與LLM的發展路徑類似,Flamingo(Alayrac等人,2022)是首個在視覺-語言領域探索大規模上下文學習的模型。然后,視覺指令調優(Liu等人,2023e)迅速成為多模態領域中最突出的訓練范式,以及使用PEFT技術微調LLM。任何MLLM至少包含三個組件(圖1):作為與用戶接口的LLM主干,一個(或多個)視覺編碼器,以及一個或多個視覺到語言的適配器模塊。對LLM主干的流行選擇通常屬于LLaMA家族(Touvron等人,2023a,b),鑒于它們的權重是自由可獲取的,它們僅在公開數據上進行了訓練,并且它們擁有不同的大小以適應各種用例。此外,它們的衍生版本也很受歡迎,例如Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。前者在GPT-3編寫的指令上微調LLaMA,而后者利用用戶與ChatGPT(OpenAI,2022)的共享對話。其他選擇包括OPT(Zhang等人,2022b),Magneto(Wang等人,2023b),MPT(MosaicML,2023),以及經過指令調優(Chung等人,2022)或多語言(Xue等人,2020)版本的T5(Raffel等人,2020),一種為多個任務預訓練的編解碼器語言模型。 本調查中涵蓋的MLLM的總結報告在表1中,指出每個模型基于哪個LLM,視覺編碼器,用于連接視覺和語言組件的適配器,MLLM是否經過視覺指令調優訓練,以及主要任務和能力的簡短列表。視覺編碼器在MLLM中,一個關鍵組件是視覺編碼器,它專門設計用于為LLM提供提取的視覺特征。通常采用凍結的預訓練視覺編碼器,同時只訓練一個可學習的接口,將視覺特征與底層LLM連接起來。最常用的視覺編碼器基于預訓練的Vision Transformer(ViT)模型,具有CLIP-based目標,以利用CLIP嵌入的固有對齊。流行的選擇包括CLIP(Radford等人,2021)的ViT-L模型,OpenCLIP(Wortsman等人,2022)的ViT-H主干,以及EVA-CLIP(Fang等人,2023)的ViT-g版本。CLIP和OpenCLIP編碼器在從網絡收集的圖像上訓練,采用對比方法對正確的圖像-文本對進行對齊。相反,EVA-CLIP是一系列模型,提供了訓練CLIP模型的實用有效解決方案。特別是,EVA模型預訓練為重建被遮擋的圖像-文本對齊視覺特征,條件是可見的圖像塊。 正如(Li等人,2023f)所示,更強大的圖像編碼器導致更好的性能。基于這一見解,Lin等人(2023b)和Gao等人(2024)提出了一個凍結視覺主干的集合,以捕獲魯棒的視覺表示和不同級別的信息粒度。同時,PaLI模型(Chen等人,2023i,g),注意到語言和視覺參數之間的不平衡,分別提出將視覺主干擴展到4億和220億參數的ViT。使用如此大且強大的模型是通過在訓練期間保持視覺編碼器凍結的常見做法變得可行的,如(Li等人,2023f;Huang等人,2023a;Gao等人,2023;Chen等人,2023f)中所觀察到的。然而,使用凍結的視覺編碼器有一些局限性,主要是由于參數數量有限,導致視覺和語言模態之間對齊不足。具體來說,從視覺模型提取的密集特征可能會碎片化細粒度圖像信息,并由于輸入語言模型的長序列而帶來大量計算。為了緩解這個問題,其他方法(Ye等人,2023c,d)采用兩階段訓練范式。在第一階段,他們結合了可訓練的視覺主干,同時保持預訓練的LLM凍結。根據他們的發現,使視覺編碼器可訓練可以提高諸如視覺問題回答或視覺描述等任務的性能。然而,它可能導致其他任務的性能下降,表明一定程度的遺忘和對通用視覺表示的損害。

視覺到語言的適配器

來自不同模態的輸入的同時存在強調了需要納入一個能夠勾畫出這些單模態領域內潛在對應關系的模塊的必要性。這些模塊,稱為“適配器”,旨在促進視覺和文本領域之間的互操作性。在常見的MLLM中使用了不同適配器的范圍,從基本架構(如線性層或MLP)到高級方法(如基于Transformer的解決方案),如Q-Former模型,以及添加到LLM的條件交叉注意力層。線性和MLP投影。將視覺輸入投影到文本嵌入中的最直接方法涉及學習線性映射,將視覺特征轉換為與文本對應部分相同的維度。一些方法,如LLaMA-Adapter(Gao等人,2023)和FROMAGe(Koh等人,2023b)只使用單個線性層來執行多模態連接,而LLaVA-1.5(Liu等人,2023d)采用了兩層MLP,顯示出改進的多模態能力。盡管在早期MLLM中廣泛采用線性投影,但即使在對視覺輸入有更深入理解的最新方法中,線性投影的使用也被證明非常有效(Chen等人,2023f;Lin等人,2023a;Wang等人,2023c;You等人,2023;Zhao等人,2023a)。因此,它是一種簡單而有效的技術,用于將視覺特征與文本對應部分對齊。不同的方法(Cha等人,2023)提議用卷積層替換線性層,顯示出適度的改進。 Q-Former。它是BLIP-2(Li等人,2023f)中提出的基于Transformer的模型,然后在幾種其他方法(Chen等人,2023d;Dai等人,2023;Hu等人,2024)中使用。它的特點是具有可適應的架構,由兩個共享相互注意力層的Transformer塊組成,促進視覺和文本表示之間的對齊過程。它涉及一組可學習的查詢,在自注意力層內部交互,并通過交叉注意力機制與視覺特征接口。文本和視覺元素通過模塊內的共享自注意進行通信。從Q-Former中汲取靈感,引入了各種修改版本。在這方面,mPLUG-Owl模型(Ye等人,2023c,d)簡化了Q-Former架構,并提出了一個視覺抽象器組件,通過將視覺信息壓縮為不同的可學習令牌來操作,以獲得更富語義的視覺表示。同一線上,Qwen-VL(Bai等人,2023b)使用具有可學習查詢的單層交叉注意力模塊壓縮視覺特征,還結合了2D位置編碼。附加交叉注意力層。這種方法在Flamingo(Alayrac等人,2022)中被提出,通過在現有預訓練LLM層中集成密集交叉注意力塊。新添加的層通常與零初始化的tanh門控機制結合使用,以確保在初始化時,條件模型的行為如其原始版本。使用附加交叉注意力層需要從頭開始訓練它們,與其他替代方案相比,增加了可訓練參數的數量。為了減少計算復雜性,這種策略通常與基于Perceiver的組件(Jaegle等人,2021)配對使用,該組件在將視覺令牌輸入LLM之前減少了它們的數量。自從引入以來,幾個模型(Awadalla等人,2023;Chen等人,2023b;Lauren?on等人,2023;Li等人,2023a)采用這種技術將視覺模態與底層LLM連接起來,顯示出提高了訓練穩定性和改善了性能。

多模態訓練

從預訓練的LLM開始,MLLM的訓練經歷了單階段或兩階段過程。在這兩種情況下,都使用標準的交叉熵損失來預測下一個令牌,作為自回歸目標。 單階段訓練。這種可能性由LLaMA-Adapter(Gao等人,2023)探索,它引入了額外的可訓練參數以封裝視覺知識并同時管理僅文本指令學習。為了實現這一點,模型使用圖像-文本對和指令進行聯合訓練,操作獨立的參數。同時,(Koh等人,2023b)中提出的模型通過整合兩個對比損失來適應最終損失函數,用于圖像-文本檢索。在訓練期間,只更新三個線性層。另一方面,Kosmos-1(Huang等人,2023a)考慮了一個凍結的視覺主干,并從頭開始訓練1.3B參數的語言模型。 Flamingo(Alayrac等人,2022)及其開源變體(Awadalla等人,2023;Lauren?on等人,2023),相反,訓練交叉注意力層和基于Perceiver的組件以將視覺特征與凍結的LLM塊連接起來。此外,Otter(Li等人,2023a)擴展了Flamingo的訓練以增加其上下文能力。 鑒于目前可用的訓練數據量,像SPHINX-X(Gao等人,2024)這樣的方法選擇執行單一的一體化訓練階段,在此階段更新所有模型組件,可能還使用僅文本數據以保留LLM的對話能力。

兩階段訓練。在兩個訓練階段中的第一個,目標是將圖像特征與文本嵌入空間對齊。經過這一階段后,輸出往往是碎片化的且不連貫的。因此,進行第二步以提高多模態對話能力。LLaVA(Liu等人,2023e,d)是首批引入視覺指令遵循訓練方案的方法之一,作為第二訓練階段執行,更新多模態適配器和LLM的參數。在第一階段,相反,只有多模態適配器是可訓練的。不同的是,MiniGPT4(Zhu等人,2023a)值得注意的是,在兩個階段中僅訓練負責多模態對齊的線性層。在第二階段,它使用經過模型自身在第一階段后收集和精煉的過濾數據。

另一種方法,如InstructBLIP(Dai等人,2023)所示,涉及凍結視覺編碼器和LLM。在兩個訓練階段中,只有Q-Former和連接模塊是可訓練的。與之前保持視覺主干凍結的方法相比,mPLUG-Owl(Ye等人,2023c,d)在初始階段更新它,便于捕獲低層次和高層次的視覺信息。此外,在第二階段聯合使用僅文本和多模態數據以增加對齊。不同地,Shikra(Chen等人,2023f)在兩個階段中更新所有權重,唯一的例外是視覺主干保持凍結。

訓練數據。在第一階段(或單一階段)訓練中,通常使用來自不同來源的圖像-文本對,使用的數據集包括LAION-2B(Schuhmann等人,2022)、LAION-400M(Schuhmann等人,2021)、Conceptual Captions(Sharma等人,2018)、COYO-700M(Byeon等人,2022)和DataComp(Gadre等人,2023)。一些方法(Lin等人,2023a)將這些與一個或多個數據集結合使用,這些數據集的特點是文本與圖像交錯,通常從網絡上抓取,如WebLI(Chen等人,2023i)、MMC4(Zhu等人,2023d)、MMDialog(Feng等人,2023b)和OBELICS(Lauren?on等人,2023)。

為了解決以前數據集中的偏差和噪聲問題,StableLLaVA(Li等人,2023h)引入了在第一階段使用的新收集數據。這種方法利用ChatGPT生成包含圖像生成提示和基于內容的對話的數據,并使用Stable Diffusion(Rombach等人,2022)生成相應的圖像。隨后的階段則利用數據集進行視覺指令調優。其中,常用的LLaVA-Instruct(Liu等人,2023e)擴展了COCO(Lin等人,2014)并加入了由GPT-4生成的指令。遵循這一趨勢,Zhao等人(2023a)通過結合手動生成的數據和高質量多樣性的數據,擴大了尺寸。此外,還提出了其他多輪對話數據集,如(Dai等人,2023)中介紹的將26個公開可用數據集轉換為其視覺指令遵循版本的數據集,LRV-Instruction(Liu等人,2023c)旨在通過更穩健的指令減少幻覺,而LLaVAR(Zhang等人,2023h)則專注于文本豐富的圖像。

用多模態大型語言模型處理視覺任務

標準的多模態大型語言模型可以處理視覺理解任務,例如視覺問答(VQA)、圖像描述和多輪對話。然而,最近對處理更細粒度的視覺任務,如視覺定位和圖像生成,有了更大的興趣。

結論與未來方向

在本綜述中,我們提供了最近多模態大型語言模型(MLLMs)進化的全面概述,首先關注如何為LLMs裝備多模態能力,然后探討這些模型處理的主要任務。基于所呈現的分析,以下我們概述了重要的開放挑戰和有前景的未來研究方向,以進一步增強MLLMs的能力。 修正幻覺現象。幾項研究(Liu等人,2023b;Zhu等人,2023a)表明MLLMs傾向于展現高幻覺率,特別是在生成較長的描述時。盡管一些解決方案正在出現以緩解這個問題(Liu等人,2023b;Wang等人,2023a;Wu等人,2023c;Yin等人,2023a),但理解和糾正幻覺的根本原因仍然是一個重要的開放挑戰,值得解決,以允許這些模型在更關鍵的背景中(例如,醫學)應用,并保證它們的準確性和可信度。 預防有害和有偏見的生成。確保大規模模型的安全性和公平性是社區的基本興趣。近期工作表明,基于網絡爬取數據訓練的模型傾向于生成不適當和有偏見的內容。盡管最近正在努力在文本到圖像生成模型中減少這種現象(Schramowski等人,2023;Friedrich等人,2023),但需要進一步探索以防止MLLMs中出現相同的行為(Pi等人,2024)。 減少計算負荷。如補充材料所示,MLLMs高度依賴于計算。需要有效的策略(Chu等人,2024)來減少計算需求,使MLLMs的開發更加易于獲取。可能的方向包括減少訓練要求,無論是在模型規模還是數據量方面,以及優化推理階段。

付費5元查看完整內容

大型語言模型(LLMs)的出現代表了自然語言處理(NLP)領域的一個顯著突破,為文本理解和生成方面的顯著進展做出了貢獻。然而,在這些進展中,值得注意的是,LLMs在上下文長度外推方面常常面臨限制。理解并擴展LLMs的上下文長度對于提高它們在各種NLP應用中的性能至關重要。在這份調查報告中,我們深入探討了為什么它是重要的多方面因素以及卓越技術可能為NLP應用帶來的潛在變革。我們研究了與擴展上下文長度相關的固有挑戰,并對研究人員采用的現有策略進行了有組織的概述。此外,我們討論了評估上下文擴展技術的復雜性,并強調了研究人員在該領域面臨的未解之謎。此外,我們探討了研究社區是否就評估標準達成共識,并確定了需要進一步協商的領域。這份全面的調查旨在為研究人員提供有價值的資源,引導他們了解上下文長度擴展技術的細微之處,并促進對這一不斷發展領域未來進展的討論。

大型語言模型(LLMs)的成功案例隨處可見,隨著現代LLMs的出現,它們顯著推動了眾多自然語言處理(NLP)挑戰的發展,達到了前所未有的高度。科學努力的自然進展是朝著新的和具有挑戰性的領域前進。在雄心勃勃的倡議中,一個值得注意的努力是擴展LLMs的可理解性以包括非常長的上下文。OpenAI提出了128頁上下文可理解性的概念,而Anthropic最近提出了超過200頁的更長上下文。然而,這些商業發布和公告中存在顯著的科學嚴謹不足。在這個背景下,引發了幾個問題:(a) 有哪些應用需要理解如此擴展的上下文?(b) 當LLMs理解更長的上下文時,我們如何有效地衡量應用程序的改進性能?(c) 雖然注意力機制在NLP中得到了廣泛研究,但是否需要設計一種專門針對更長上下文的新型注意力形式?

采用旨在處理長上下文的高級技術有望重塑語言模型的格局。改進的長上下文管理方法可以提高模型性能,從而實現更準確和細致入微的語言理解。這些進步有望增強模型捕捉長距離依賴性的能力,從而提高其在各種語言任務中的整體有效性,如:(接下來列舉具體的任務)。

? 文檔摘要:改進長上下文處理有助于更加連貫和簡明地進行文檔摘要,捕捉擴展文本段落中的關鍵信息,并提高生成摘要的質量。全面理解整個文檔,同時識別關鍵詞和主題,需要熟練管理廣泛的上下文范圍。在這種情況下使用較短的窗口將限制生成能力,可能導致關鍵細節的忽視。此外,使用較長的上下文窗口有助于減少歧義,因為它妨礙了沒有對文檔的復雜性進行全面把握的情況下利用微妙信息。這反過來使LLM能夠以更高的洞察力和準確性進行摘要過程的導航。

? 問答系統:考慮長上下文的能力提高了模型對復雜的問答關系的理解,從而產生更準確和上下文相關的回答。此外,LLMs在處理問答任務方面表現出更高的熟練度,因為解決代詞的共指問題與上下文實體密切相關。此外,在面對多輪對話時,擴展上下文窗口在促進連續對話中話題一致性跟蹤方面發揮了關鍵作用。

? 語言翻譯:在更大文本段落中改進上下文保留增強了模型提供準確翻譯的能力,特別是在上下文微妙性起關鍵作用的情況下。多義詞匯在翻譯領域(Falkum和Vicente,2015)中構成了重要障礙,而擴展上下文窗口是在上下文中定位這種詞匯的明顯輔助。此外,在面對技術術語時,LLMs在擁有擴展的輸入范圍時表現出更高的效能,尤其是在容納特定領域上下文微妙性方面。

? 指代消解:高級處理長上下文有助于解決擴展文本跨度內對實體的引用,從而提高了指代消解的準確性。指代消解過程涉及建立代詞與其對應的先行詞之間的聯系。LLMs中上下文窗口的擴展有助于更全面地評估信息,因此通過包括遠程引用和上下文相關的詳細信息來協助精確的代詞解析。

? 對話型人工智能:通過長上下文模型促進對擴展對話的更好跟蹤和理解,可以在對話型人工智能系統中產生更具上下文適應性的回應。擴展上下文窗口在為LLMs定位幽默、諷刺或微妙表達在對話環境中的作用方面起到關鍵作用。這對于生成符合正在進行的對話中的語氣和風格微妙之處的回應至關重要。

盡管持續的研究工作,仍然缺乏一份全面的涵蓋了用于外推上下文長度的技術范圍的概述。此外,LLMs的不斷發展已經引入了用于外推上下文長度的創新方面,這給現有的擴展方法帶來了挑戰,并強調了需要全面、多樣化的外推方法的必要性。 本文標志著LLMs上下文長度擴展技術的第一次全面調查。如圖1所示,我們深入研究了在微調期間可以實現的上下文長度擴展的現有工作。隨后,我們探討了LLMs上下文長度外推的潛在未來挑戰。 當代技術 已經引入了多種方法來增強LLMs的上下文能力。為了進行系統分類和增強清晰度,我們提出了一個分類法,如圖1所示。該分類法劃分為兩個主要類別:插值和外推技術。插值包括從不同的來源或上下文中融合信息以提高預測精度。這種技術適用于混合來自不同文本段落或包含不同上下文長度的不同模型的信息。相反,外推涉及對觀察數據的范圍之外的值進行預測,旨在擴展模型的理解能力超出其規定的訓練上下文長度。然后,還有用于進一步分類的零樣本(Rashid等人,2021)和微調技術。分類法中的其他小節將在隨后的部分中討論。

位置技術

與絕對位置嵌入不同,相對位置嵌入是基于鍵(keys)和查詢(queries)之間的差異制定的(Shaw等人,2018)。相對位置嵌入的一種普遍變體在Transformer-XL中引入(Dai等人,2019b;Yang等人,2019)。計算鍵和查詢之間的注意力得分已經改變,以集成與相對位置對應的可訓練嵌入。與絕對位置嵌入相比,配備相對位置嵌入的Transformer展示了能夠推廣到超出訓練中遇到的長度的序列的能力,表現出了外推的熟練性(Press等人,2021b)。與位置編碼相關的一個重復約束是無法擴展到訓練期間觀察到的上下文窗口之外。已經進行了一些工作來克服這些限制。

外推在這次探索中,我們將其分類并深入探討了兩種主要策略:外推和插值。外推技術旨在擴展模型對超出其最初觀察到的長度的序列的理解,采用創新策略來捕捉在擴展范圍內的依賴關系。另一方面,插值技術集中于改進模型在觀察范圍內平滑擴展對上下文的理解能力,從而提高了在最初遇到的上下文長度內的序列性能。以下部分詳細介紹了每個類別內的技術,提供了有關應對LLMs上下文長度動態特性所采用的多種方法的見解。

插值在上下文長度外推的背景下,插值技術專注于對模型進行微調或優化,以有效處理在訓練期間遇到的上下文長度范圍內的序列。重點是改進模型平滑擴展其對觀察范圍內上下文的理解能力,從而提高其在最初遇到的上下文長度內序列的性能。這些技術有助于更加微妙和改進的上下文理解,確保模型在訓練期間接觸到的上下文長度內表現最佳。

總結而言,本文全面審查了擴展LLMs上下文長度的多種技術和方法。所提供的分類法將這些方法分為兩種廣泛的策略 - 外推和插值。外推技術旨在擴展模型處理超出其最初訓練上下文長度的序列的能力。這包括利用專門組件,如位置編碼、注意機制和記憶增強來實現即時泛化的零樣本方法。還探討了微調策略,以使模型適應在預訓練期間未遇到的更長上下文。插值技術專注于優化模型,以在觀察訓練長度內平滑擴展上下文理解。專門的注意機制和提示壓縮有助于高效處理長上下文。微調插值適應模型以在序列開始超過訓練長度時實現優雅過渡。本調查提供了有關技術的多樣性的見解,涵蓋提示工程、注意機制、位置編碼和記憶增強等領域。它突出了模型體系結構和訓練方法的創新,旨在解決上下文長度的限制。廣泛的經驗分析證實了這些多樣化技術在基準測試和下游任務上的有效性。通過提供結構化分類法和對現有文獻的綜述,本文有助于更清晰地理解LLMs上下文長度擴展領域的不斷演變。討論確定了有前景的研究方向,強調了繼續努力開發能夠處理廣泛上下文信息的模型的重要性。隨著對長篇文本生成和對大型語料庫進行推理的興趣不斷增加,改進的上下文處理將在未來幾年繼續是一個活躍的研究領域。

付費5元查看完整內容

大型基礎模型,包括大型語言模型(LLMs)、視覺轉換器(ViTs)、擴散以及基于LLM的多模態模型,正在徹底改變整個機器學習生命周期,從訓練到部署。然而,這些模型在多功能性和性能上的顯著進步,卻以硬件資源的巨大成本為代價。為了以可擴展且環境可持續的方式支持這些大型模型的發展,開發資源高效的策略已成為重點本綜述深入探討了此類研究的關鍵重要性,考察了算法和系統層面的方面。它提供了對現有文獻的全面分析和寶貴見解,涵蓋了從前沿模型架構和訓練/服務算法到實際系統設計和實現的廣泛主題。此綜述的目標是提供對當前方法如何應對大型基礎模型所帶來的資源挑戰的全面理解,并可能激發此領域未來的突破。

//www.zhuanzhi.ai/paper/92a73bb1c3daa8cff7f79eaa9c9c5053

在人工智能(AI)這一快速發展的領域中,一場范式轉變正在進行中。我們正在見證從專門化、碎片化的深度學習模型向通用、一體適用的基礎模型的過渡。這些先進的AI系統能夠在開放世界的背景下操作,與開放詞匯和圖像像素進行交互,應對未見的AI任務,即零樣本能力。這些模型的例子包括:(1)大型語言模型(LLMs),如GPTs [39],能夠以提示的形式處理幾乎所有NLP任務;(2)視覺變換器模型(ViTs),如掩蔽自編碼器 [133],能夠處理各種下游視覺任務;(3)潛在擴散模型(LDMs),如穩定擴散 [310],能夠用任意基于文本的提示生成高質量圖像;(4)多模態模型,如CLIP [296]和ImageBind [116],將不同模態數據映射到同一潛在空間,并廣泛用作跨模態任務(如圖像檢索/搜索和視覺問題回答)的支撐。這種靈活性和通用性標志著AI早期時代的顯著轉變,為AI與世界交互設定了新的標準。 這些基礎模型的成功深深植根于它們的可擴展性:與前代模型不同,這些模型的準確性和泛化能力可以隨著更多數據或參數的增加而持續擴展,而無需改變底層簡單的算法和架構。一個令人印象深刻的證據是擴展定律 [166]:它描述了基于變換器的模型性能如何可以預測地隨模型規模和數據量的增加而改善;直到今天,這一定律依然成立。這種可擴展性不僅是模型大小的問題;它還擴展到它們處理日益復雜任務的能力,使它們成為走向人工通用智能(AGI)之路的基石。

然而,可擴展性的代價是巨大的資源需求。基礎模型的本質是對訓練和部署的資源極度饑渴。這些資源不僅包括計算處理器,如GPU和TPU,還包括內存、能源和網絡帶寬。例如,LLaMa-2-70B的預訓練需要1.7×百萬GPU小時,并消耗2.5×1012焦耳的能量。估計的總排放量是291噸二氧化碳當量。超出訓練階段,數據處理、實驗和推理階段的電力消耗相當甚至更多,據Meta AI [388]稱。最近的一項分析 [77]揭示,為了滿足當前AI能力和采用的持續趨勢,英偉達需要在2027年前每年交付150萬AI服務器單元。這些服務器滿負荷運行將至少消耗85.4太瓦時的電力——超過許多國家,如新西蘭和奧地利,一整年的用電量,如圖1所示。隨著基礎模型在規模和復雜性上的持續增長,它們的資源需求通常呈指數級增長,這在它們的發展和部署中構成了重大挑戰。 大型基礎模型巨大的資源足跡也阻礙了其民主化。截至2023年底,只有少數主要參與者有能力訓練和部署最先進的基礎模型,從而對公眾擁有強大的控制權,有可能以他們偏好的方式操縱公眾。與許多輕量級DNN不同,這些模型是在云端而非設備上提供服務的 [403, 440];這使得數據隱私保護幾乎不可能。盡管最近,智能手機廠商一直在吹噓在本地運行大型基礎模型,一些先驅引擎也被開發出來用于設備上的LLMs [114, 11, 10],但展示的模型限于相對較小的規模(例如<10B),且尚未在現實世界中部署。 因此,大量研究致力于提高這些基礎模型的效率。這些努力涵蓋了從優化算法到系統級創新的廣泛方法,專注于在不損害性能的情況下減少這些模型的資源足跡。本綜述旨在深入探討這些研究工作,探索使基礎模型更高效的多樣化策略。我們將審視算法效率、系統優化、數據管理技術的進步,以及開發較少資源密集的新型架構。綜述還涵蓋了從云到邊緣和設備的范圍,大型基礎模型在這些領域也獲得了巨大關注。通過這一探索,我們旨在提供對基礎模型領域中資源高效算法和系統的當前狀態和未來方向的全面理解。 范圍和理念。本綜述的范圍主要由以下幾個方面定義。(i) 我們只調查算法和系統創新;我們排除了大量在硬件設計方面的工作,這同樣重要,但已被很好地總結 [174]。(ii) 本綜述中的資源定義主要限于物理資源,包括計算、內存、存儲、帶寬等;我們排除了可以被視為資源的訓練數據(標簽)和隱私。(iii) 我們主要調查在頂級計算機科學會議上發表的論文,即CSRankings包含的論文。我們還手動挑選了arXiv上相關且可能產生高影響的論文。(iv) 我們主要調查2020年之后發表的論文,因為AI的創新正在快速進行,舊知識和方法經常被推翻。 盡管如此,我們計劃將來擴展本綜述的范圍;我們也將積極維護和更新它。 組織。圖2展示了本綜述的組織結構。 全開源。本綜述的所有材料都可在以下網址免費獲取: https:github.com/UbiquitousLearning/Efficient_Foundation_Model_Survey

模型架構是資源高效的大型基礎模型(FMs)的核心,包括注意力機制、解碼器及其替代方案。主要目標是降低計算和內存開銷。圖8直觀地展示了這種資源高效架構的分類,考慮到了大型基礎模型的標準核心模塊和傳統分類。資源高效架構由高效注意力機制、動態神經網絡、特定于擴散的優化和特定于視覺變換器(ViT)的優化構成。

本節重點介紹在算法層面上的資源高效大型基礎模型(FMs)技術。與傳統的深度神經網絡(DNNs)相比,大型基礎模型表現出新的特征,如其龐大的參數集和自回歸推理。這種差異導致了大量資源高效算法的出現,這些算法根據基礎模型的生命周期進行分類:預訓練、微調、服務算法以及模型壓縮,如圖11所示。

本綜述為資源高效的大型基礎模型的最新文獻提供了全面、系統的概覽。我們首先介紹了流行基礎模型的初步背景和成本分析,包括大型、視覺和多模態模型。然后我們深入探討了模型架構、算法和系統設計,以實現更高效的大型基礎模型生命周期。未來,這一領域的研究將繼續(甚至更加)重要,因為擴展定律保證了更強大的AI與越來越大的模型的光明未來。這種研究也高度跨學科,涉及多個計算機科學社區,如機器學習、NLP/CV/語音、網絡、云計算、邊緣計算等。

資源高效的大型基礎模型研究機會極大,尤其值得關注的是: (1)云-邊緣混合部署。為了實現無處不在、隱私保護、高可用性的通用智能,許多基礎模型最終將沉入靠近用戶的設備 [406, 403, 404, 441]。已經進行了初步努力,將LLaMA-7B帶到智能手機和個人電腦上。關鍵應用包括個人助手/代理 [219, 383]、多模態信息檢索 [198] 等。未來,基礎模型在設備上運行的規模和速度將成為硬件供應商商業模式中的關鍵競爭力。 (2)利用模型稀疏性。隨著模型變大,對于給定任務的模型激活比率會變小。最近的文獻 [244] 發現,即使是密集訓練的非MoE模型也表現出運行時激活稀疏性,可以利用這一點來減少推理時間和內存占用。我們認為,利用模型和激活稀疏性將是實現可持續模型規模擴展的有前景的方向。可能會出現比MoE更高效的稀疏架構。 (3)大型基礎模型作為一種服務。在云端和設備上,大型基礎模型正在統一DNN生態系統 [427]。最終,它將成為像今天的Web和數據庫一樣的通用服務。一方面,它為高度硬件-算法協同設計和優化提供了機會;同時,它也在系統和基礎設施設計方面提出了新的挑戰,如調度、負載均衡和安全性&隔離。 (4)作為整體系統優化的代理。未來,尤其是LLMs將作為建立代理的關鍵構建塊 [219, 383]。其效率不應被視為獨立的LLM服務;相反,算法和系統設計需要適應特定的代理工作流。例如,一個代理系統可能需要多個基礎模型協同工作,在這個過程中存在內在的邏輯依賴性。在這個過程中,選擇適合每個任務的適當基礎模型,并在給定的硬件資源集上調度它們以最大化代理性能的設計空間是巨大的。 (5)實用的隱私保護FM。隨著用戶數據上傳到云端進行FM處理的數量持續增加,隱私問題的嚴重性相應升級。現有方法包括聯邦學習、同態加密和解糾纏學習。盡管在理論上是健全的,但這些方法仍然面臨顯著的性能挑戰,阻礙了它們的大規模野外部署。一個有前景的方向涉及為大型FMs專門設計的創新隱私保護技術的開發,或現有方法的改進,以有效地平衡隱私與性能。 (6)理解擴展定律。擴展定律推動了大型FMs的成功,同時它似乎也是輕量級FMs的一個基本限制 - 小規模模型不太可能比更大的模型具有更高級別的智能。理解擴展定律背后的機制和理論將有助于解釋(并希望打破)這一限制。同時,設計具有更好甚至最優擴展性能的新型模型架構將是一個值得廣泛研究的方向。

付費5元查看完整內容

大型語言模型(LLMs),如ChatGPT和LLaMA,正因其強大的文本編解碼能力和新發現的突現能力(例如,推理)在自然語言處理領域創造重大進展。雖然LLMs主要設計用于處理純文本,但在許多現實世界場景中,文本數據與圖形(例如,學術網絡和電子商務網絡)形式的豐富結構信息相關聯,或者圖形數據與豐富的文本信息(例如,帶有描述的分子)配對。此外,盡管LLMs已展示其基于純文本的推理能力,但是否可以將此能力泛化到圖形場景(即基于圖的推理)尚未得到充分探索。在本文中,我們提供了關于圖上大型語言模型的場景和技術的系統綜述。我們首先將采用圖上LLMs的潛在場景歸納為三類,即純圖,文本豐富的圖,以及與文本配對的圖。然后,我們討論了在圖上使用LLMs的詳細技術,包括將LLM作為預測器、編碼器和對齊器,并比較了不同模型類別的優缺點。此外,我們還提到了這些方法的實際應用,并總結了開源代碼和基準數據集。最后,我們總結了這一快速發展領域未來的潛在研究方向。相關源碼可以在此處找到://github.com/PeterGriffinJin/Awesome-Language-Model-on-Graphs。//www.zhuanzhi.ai/paper/4361cf9d534dbfbd91be3d22f7ebc742

大型語言模型(LLMs)(例如,BERT [22]、T5 [30]、LLaMA [119])經過在非常大的文本語料庫上的預訓練,已被證明在解決自然語言處理(NLP)任務方面非常強大,包括問題回答 [1]、文本生成 [2] 和文檔理解 [3]。早期的LLMs(例如,BERT [22]、RoBERTa [23])采用僅編碼器架構,并主要應用于文本表示學習 [4] 和自然語言理解 [3]。近年來,越來越多的關注被放在了僅解碼器架構 [119] 或編碼器-解碼器架構 [30] 上。隨著模型規模的擴大,這樣的LLMs也展示了推理能力甚至更先進的突現能力 [5],展現了對人工通用智能(AGI)的強大潛力。 雖然LLMs廣泛應用于處理純文本,但越來越多的應用場景中,文本數據與以圖形形式呈現的結構信息相關聯。如圖1所示,在學術網絡中,論文(帶有標題和描述)和作者(帶有個人簡介文本)通過作者關系相互連接。理解這些圖上作者/論文的文本信息以及作者-論文結構信息可以有助于更先進的作者/論文建模和精準的合作推薦;在科學領域,分子以圖形表示,并通常與描述其基本信息的文本(例如,毒性)配對。同時建模分子結構(圖)和相關的豐富知識(文本)對于更深入的分子理解非常重要。由于LLMs主要用于建模順序排列的文本,上述場景提出了新的挑戰,即如何使LLMs能夠編碼圖上的結構信息。此外,由于LLMs已展示了其卓越的基于文本的推理能力,探索它們是否有潛力解決純圖上的基本圖推理問題是有前景的。這些圖推理任務包括推斷連通性 [6]、最短路徑 [7] 和子圖匹配 [8]。最近,擴展LLMs用于基于圖的應用(如圖1所總結)引起了越來越多的興趣。根據圖1所呈現的圖與文本之間的關系,應用場景可以歸類為純圖、文本豐富的圖和與文本配對的圖。根據LLMs的角色及其與圖神經網絡(GNNs)的交互方式,圖上LLMs的技術可以分為將LLMs作為任務預測器(LLM as Predictor)、將LLMs作為GNNs的特征編碼器(LLM as Encoder)以及將LLMs與GNNs對齊(LLM as Aligner)。 目前探索LLMs與圖交叉點的綜述文獻數量有限。關于圖上的深度學習,Wu et al. [17] 提供了圖神經網絡(GNNs)的全面概述,詳細闡述了循環圖神經網絡、卷積圖神經網絡、圖自編碼器和時空圖神經網絡。Liu et al. [18] 討論了圖上的預訓練基礎模型,包括它們的骨干架構、預訓練方法和適應技術。Pan et al. [19] 回顧了LLMs與知識圖譜(KGs)之間的聯系,特別是KGs如何增強LLMs的訓練和推理,以及LLMs如何促進KG的構建和推理。總而言之,現有的綜述要么更多地關注GNNs而非LLMs,要么未能從系統的視角提供它們在圖1中所示的各種圖場景中的應用。我們的論文提供了關于圖上LLMs的全面綜述,旨在幫助計算機科學和機器學習社區以外的不同背景的廣泛研究人員進入這個快速發展的領域。

**分類與框架 **

在本節中,我們首先介紹我們對可以采用語言模型的圖場景的分類。然后我們討論圖上LLMs技術的分類。最后,我們總結了圖上語言模型的訓練與推理框架。 1 語言模型的圖場景分類

純圖(無文本信息)是指沒有文本信息或沒有語義豐富文本信息的圖。這類圖的例子包括交通圖和電力傳輸圖。這些圖通常作為測試大型語言模型圖推理能力(解決圖論問題)的背景,或作為知識來源以增強大型語言模型(減輕幻覺現象)。 文本豐富的圖是指節點或邊與語義豐富的文本信息相關聯的圖。這類圖也被稱為文本豐富的網絡 [32]、帶文本屬性的圖 [62]、文本圖 [73] 或文本邊網絡 [75]。現實世界中的例子包括學術網絡、電子商務網絡、社交網絡和法律案例網絡。在這些圖上,人們對學習具有文本信息和結構信息的節點或邊的表示感興趣 [73] [75]。 與文本配對的圖是指文本描述定義在整個圖結構上的圖。這類圖包括分子或蛋白質,其中節點代表原子,邊代表化學鍵。文本描述可以是分子標題或蛋白質文本特征。盡管圖結構是影響分子屬性的最重要因素,但分子的文本描述可以作為補充知識來源,幫助理解分子 [148]。圖場景可以在圖1中找到。 **2 圖上LLM技術的分類 **

根據LLMs的角色以及解決圖相關問題的最終組件,我們將圖上LLM技術分類為三個主要類別: LLM作為預測器。這類方法將LLM作為輸出表示或預測的最終組件。它可以通過GNNs增強,并可以根據圖信息如何注入LLM進行分類:1)圖作為序列:這種方法不對LLM架構做任何改變,但通過將“圖標記序列”作為輸入使其意識到圖結構。“圖標記序列”可以是圖的自然語言描述或由圖編碼器輸出的隱藏表示。2)增強圖的LLM:這種方法修改了LLM基礎模型(即變壓器)的架構,并使其能夠在其架構內進行聯合文本和圖編碼。3)圖感知LLM微調:這種方法不對LLMs的輸入或LLM架構做任何改變,但只是在圖的監督下對LLMs進行微調。 LLM作為編碼器。這種方法主要用于節點或邊與文本信息相關聯的圖(解決節點級或邊級任務)。GNNs是最終組件,我們采用LLM作為初始文本編碼器。具體來說,首先利用LLMs對與節點/邊相關的文本進行編碼。LLMs輸出的特征向量然后作為輸入嵌入用于GNNs進行圖結構編碼。GNNs輸出的嵌入被采用為下游任務的最終節點/邊表示。然而,這些方法存在收斂問題、稀疏數據問題和效率問題,我們從優化、數據增強和知識蒸餾的角度總結了解決方案。 LLM作為對齊器。這類方法將LLMs作為文本編碼組件,并將它們與作為圖結構編碼組件的GNNs對齊。LLMs和GNNs一起作為任務解決的最終組件。具體來說,LLMs和GNNs之間的對齊可以分為1)預測對齊,其中從一種模態生成的偽標簽用于在另一種模態上進行迭代學習訓練,和2)潛空間對齊,其中采用對比學習將LLMs生成的文本嵌入和GNNs生成的圖嵌入對齊。 **3 使用LLMs的訓練與推理框架 **

在圖上應用語言模型有兩種典型的訓練和推理范式:1) 預訓練-然后微調:通常用于中等規模的大型語言模型;以及 2) 預訓練-然后提示:通常用于大規模的大型語言模型。 預訓練指的是使用無監督目標訓練語言模型,以初始化它們具備下游任務的語言理解和推理能力。純文本的典型預訓練目標包括掩蔽語言建模 [22]、自回歸因果語言建模 [25]、損壞-重構語言建模 [29] 和文本到文本轉換建模 [30]。在圖領域擴展時,語言模型預訓練策略包括文檔關系預測 [31]、網絡上下文化掩蔽語言建模 [32]、對比性社交預測 [33] 和上下文圖預測 [34]。 微調是指使用標記數據訓練語言模型以進行下游任務。語言模型微調方法可進一步分類為完全微調、高效微調和指令調整。 * 完全微調意味著更新語言模型內的所有參數。這是最常用的微調方法,可以充分激發語言模型對下游任務的潛力,但可能會導致重大計算負擔 [37] 和過擬合問題 [36]。 * 高效微調是指僅微調語言模型內的一部分參數。純文本的高效調整方法包括提示調整 [38]、前綴調整 [39]、適配器 [40] 和LoRA [41]。特別為圖數據設計的高效語言模型微調方法包括圖神經提示 [42] 和增強圖的前綴 [43]。 * 指令調整指的是使用下游任務指令微調語言模型 [44] [45],以鼓勵模型在推理中對未見任務的泛化。這是一個與完全微調和高效微調正交的概念,換句話說,人們可以同時選擇完全微調和高效微調進行指令調整。指令調整在圖領域用于節點分類 [46]、鏈接預測 [47] 和圖級任務 [48]。 提示是一種在不更新模型參數的情況下應用語言模型解決下游任務的技術。需要將測試樣本制定成自然語言序列,并讓語言模型直接根據上下文演示進行推理。這是一種特別適用于大規模自回歸語言模型的技術。除了直接提示,后續工作提出了思維鏈提示 [49]、思維樹提示 [50] 和思維圖提示 [51]。 在接下來的章節中,我們將遵循第3節的分類,并討論每個圖場景的詳細方法論。

**結論 **

在本文中,我們提供了關于圖上大型語言模型的全面綜述。我們首先對可以采用語言模型的圖場景進行分類,并總結了圖上大型語言模型的技術。然后,我們對每個場景內的方法進行了徹底的審查、分析和比較。此外,我們總結了可用的數據集、開源代碼庫和多種應用。最后,我們提出了圖上大型語言模型的未來發展方向。

付費5元查看完整內容

大型語言模型(LLMs)的出現標志著自然語言處理(NLP)領域的一次重大突破,帶來了在文本理解和生成方面的顯著進步。然而,與這些進步同時,LLMs表現出一種關鍵的傾向:產生幻覺,導致生成的內容與現實世界事實或用戶輸入不一致。這一現象對它們的實際部署提出了重大挑戰,并引發了對LLMs在現實世界場景中可靠性的關注,這吸引了越來越多的注意力來檢測和減輕這些幻覺。在這篇綜述中,我們旨在提供一個關于LLM幻覺最新進展的全面而深入的概覽。我們首先提出LLM幻覺的一個創新性分類,然后深入探討導致幻覺的因素。隨后,我們呈現了一份幻覺檢測方法和基準的綜合概覽。此外,相應地介紹了旨在減輕幻覺的代表性方法。最后,我們分析了凸顯當前限制的挑戰,并提出了開放性問題,旨在勾勒出LLMs中幻覺未來研究的路徑。

最近,大型語言模型(LLMs)(OpenAI, 2022; Google, 2023; Touvron et al., 2023; Penedo et al., 2023; Zhao et al., 2023b)的出現引領了自然語言處理(NLP)領域的范式轉變,實現了在語言理解(Hendrycks et al., 2021; Huang et al., 2023c)、生成(Zhang et al., 2023f; Zhu et al., 2023b)和推理(Wei et al., 2022; Kojima et al., 2022; Qiao et al., 2022; Yu et al., 2023a; Chu et al., 2023)方面前所未有的進步。然而,隨著LLMs的快速發展,出現了一個令人關注的趨勢,即它們傾向于產生幻覺(Bang et al., 2023; Guerreiro et al., 2023b),導致內容看似合理但事實上缺乏支持。當前對幻覺的定義與先前的研究(Ji et al., 2023a)一致,將其描述為生成的內容既無意義又不忠于提供的源內容。這些幻覺進一步被分類為內在幻覺和外在幻覺,取決于與源內容的矛盾性。盡管這種分類在各種自然語言生成(NLG)任務中是共享的,但任務特定的變體確實存在。由于LLMs在不同NLG任務中表現出非凡的多功能性和卓越性能(Bubeck et al., 2023; Bang et al., 2023),尤其是在開放域應用中,它們的多功能性相比于任務特定模型更加放大了幻覺的潛力。在LLMs中,幻覺的范圍包括了更廣泛和更全面的概念,主要集中在事實錯誤上。鑒于LLM時代的演進,有必要調整現有的幻覺分類,增強其適用性和適應性。

在這篇綜述中,我們重新定義了幻覺的分類,為LLM應用提供了一個更為量身定做的框架。我們將幻覺分為兩大類:事實性幻覺和忠實性幻覺。事實性幻覺強調生成內容與可驗證的現實世界事實之間的差異,通常表現為事實上的不一致或捏造。例如,如圖1(a)所示,當詢問第一個登月的人時,模型可能斷言是查爾斯·林德伯格在1951年。而事實上,第一個登月的人是尼爾·阿姆斯特朗,在1969年的阿波羅11號任務中。另一方面,忠實性幻覺指的是生成內容與用戶指令或輸入提供的上下文的偏離,以及生成內容內的自我一致性。如圖1(b)所示,當要求總結一篇新聞文章時,模型不準確地將以色列和哈馬斯之間的沖突實際發生日期從2023年10月改為2006年10月。關于事實性,我們進一步根據可驗證來源的存在將其劃分為兩個子類別:事實不一致和事實捏造。對于忠實性,我們強調從用戶的角度解決不一致性,將其分類為指令不一致、上下文不一致和邏輯不一致,從而更好地與LLMs的當前使用情況相對應。

至于幻覺的潛在原因,雖然在NLG任務的背景下進行了研究,但在尖端LLMs中呈現出獨特的挑戰,值得深入調查。我們的深入分析專門針對LLMs中幻覺的獨特起源,涵蓋了從數據、訓練到推理階段的一系列貢獻因素。在這個框架內,我們指出了潛在的數據相關原因,如有缺陷的來源和次優的利用,低劣的訓練策略可能在預訓練和對齊過程中誘發幻覺,以及源于解碼策略的隨機性和推理過程中不完美表現的問題。此外,我們全面概述了專門為檢測LLMs中的幻覺而設計的有效檢測方法,以及與LLM幻覺相關的詳盡基準概覽,作為適當的測試平臺,以評估LLMs生成的幻覺的程度和檢測方法的有效性。此外,我們詳細介紹了為減輕已識別的幻覺原因而量身定制的全面策略。

通過這篇全面的綜述,我們旨在為LLMs領域的發展做出貢獻,并提供有價值的見解,加深對LLMs中幻覺機會和挑戰的理解。這項探索不僅增強了我們對當前LLMs局限性的理解,還為未來的研究和更魯棒、可信賴的LLMs的發展提供了必要的指導。

與現有綜述相比。隨著對可靠生成AI的需求日益增長,LLM幻覺作為一個主要挑戰脫穎而出,導致了許多關于其最新進展的綜述(Ji et al., 2023a; Rawte et al., 2023; Liu et al., 2023h; Zhang et al., 2023g; Wang et al., 2023c)。雖然這些作品從不同角度探討了LLM幻覺,并提供了有價值的見解,但區分我們當前綜述的獨特方面和全面性是至關重要的。(Ji et al., 2023a)主要闡明了預訓練語言模型在NLG任務領域中的幻覺,將LLMs排除在他們的討論范圍之外。(Liu et al., 2023h)從更廣闊的視角討論了LLMs的可信度,而(Wang et al., 2023c)深入探討了LLM事實性。相比之下,我們的綜述聚焦于LLM可信度中的一系列挑戰,涵蓋事實性方面,并進一步擴展了話語范圍,包括與忠實性相關的幻覺。據我們所知,與我們的綜述最為一致的是(Zhang et al., 2023g),它概述了LLM幻覺現象的分類、評估基準和減輕策略。盡管如此,我們的綜述在分類和組織結構上都有所區別。我們提出了幻覺的分層和細粒度分類。在結構上,我們通過追溯到LLMs的能力來剖析LLM幻覺的原因。更為相關的是,我們的減輕策略與潛在原因密切相關,確保了一種連貫和有針對性的方法。

本綜述的組織結構。在本文中,我們提出了關于LLMs中幻覺的最新發展的全面綜述。我們首先定義LLMs并構建幻覺的分類框架(§2)。隨后,我們深入分析了導致LLMs中幻覺的因素(§3),接著是對用于可靠檢測LLMs中幻覺的各種方法和基準的審查(§4)。然后我們詳細介紹了旨在減輕LLMs中幻覺的一系列方法(§5)。最后,我們深入探討了框定當前局限性和未來前景的挑戰和開放性問題,提供見解并勾勒出未來研究的潛在路徑(§6)。

幻覺的原因

幻覺有多方面的起源,涵蓋了大型語言模型(LLMs)能力獲取過程的整個光譜。在這一部分,我們將深入探討LLMs中幻覺的根本原因,主要分為三個關鍵方面:數據(§3.1)、訓練(§3.2)和推理(§3.3)

數據引起的幻覺

預訓練數據是LLMs的基石,使它們獲得一般能力和事實知識(周等,2023a)。然而,它可能無意中成為LLM幻覺的來源。這主要表現在兩個方面:源自有缺陷數據源的潛在風險(§3.1.1),以及對數據中捕獲的事實知識的劣質利用(§3.1.2)。

訓練引起的幻覺

大型語言模型(LLMs)的訓練過程主要包括兩個主要階段:1)預訓練階段,LLMs在此階段學習通用表示并捕獲世界知識;2)對齊階段,LLMs被調整以更好地與用戶指令和偏好對齊。雖然這個過程為LLMs裝備了顯著的能力,但這些階段的任何短板都可能無意中導致幻覺。

推理引起的幻覺

解碼在展示LLMs在預訓練和對齊之后的能力方面扮演著重要角色。然而,解碼策略中的某些不足可能導致LLM幻覺。在本節中,我們將深入探討根源于解碼過程的潛在原因,強調兩個關鍵因素:解碼策略的固有隨機性(§3.3.1)和不完美的解碼表示(§3.3.2)。

幻覺緩解

在本節中,我們提供了針對緩解大型語言模型(LLMs)中幻覺的現代方法的全面回顧。借鑒在“幻覺的原因”(§3)中討論的見解,我們系統地根據幻覺的潛在原因對這些方法進行分類。具體來說,我們關注解決與數據相關的幻覺(§5.1)、與訓練相關的幻覺(§5.2)和與推理相關的幻覺(§5.3)的方法,每種方法都針對其各自原因固有的特定挑戰提供了量身定制的解決方案。

緩解與數據相關的幻覺

與數據相關的幻覺通常作為偏見、錯誤信息和知識空缺的副產品出現,這些都根本上植根于訓練數據中。在這個背景下,我們探索了緩解此類幻覺的各種策略,旨在盡量減少錯誤信息和偏見的發生,同時也提供知識增強和提高大型語言模型(LLMs)有效利用知識的能力。

緩解與訓練相關的幻覺

與訓練相關的幻覺通常源自大型語言模型(LLMs)所采用的架構和訓練策略的內在局限性。在這一背景下,我們討論了從訓練階段(§5.2.1)到對齊階段(§5.2.2)的各種優化方法,旨在緩解訓練過程中的幻覺。

緩解與推理相關的幻覺

在大型語言模型(LLMs)中,解碼策略在決定生成內容的事實性和忠實性方面起著關鍵作用。然而,如第§3.3節分析所述,不完美的解碼常常導致輸出結果可能缺乏事實性或偏離原始上下文。在本小節中,我們探索兩種先進策略,旨在改進解碼策略,以增強LLMs輸出的事實性和忠實性。

結論

在這項全面的調查中,我們對大型語言模型中的幻覺進行了深入的研究,探討了它們背后的復雜原因、開創性的檢測方法以及相關基準,以及有效的緩解策略。盡管已經取得了重大進步,但大型語言模型中的幻覺問題仍然是一個引人關注的持續問題,需要持續的研究。此外,我們希望這項調查能成為致力于推進安全和可信賴人工智能的研究人員的指導燈塔。通過導航幻覺的復雜景觀,我們希望能賦予這些專業人士寶貴的洞見,推動人工智能技術向更高的可靠性和安全性發展。

付費5元查看完整內容

近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。

近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。

本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:

?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:

? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。

在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容
北京阿比特科技有限公司