亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,基礎語言模型(LMs)在自然語言處理(NLP)和計算機視覺(CV)領域取得了顯著成就。與傳統神經網絡模型不同,基礎語言模型通過在大量無監督數據集上進行預訓練,獲得了豐富的常識知識,并且具有強大的遷移學習能力。然而,由于災難性遺忘,基礎語言模型仍然無法模擬人類的持續學習能力。因此,各種基于持續學習(CL)的方法被開發出來,以改進語言模型,使其能夠在適應新任務的同時不遺忘以前的知識。然而,現有方法的系統分類和性能比較仍然缺乏,這正是本綜述旨在填補的空白。我們深入綜述、總結并分類了現有文獻中應用于基礎語言模型的持續學習方法,如預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)。我們將這些研究分為離線持續學習和在線持續學習,其中包括傳統方法、基于參數高效的方法、基于提示調優的方法和持續預訓練方法。離線持續學習包括領域增量學習、任務增量學習和類別增量學習,而在線持續學習則細分為硬任務邊界和模糊任務邊界設置。此外,我們概述了持續學習研究中使用的典型數據集和指標,并詳細分析了基于語言模型的持續學習所面臨的挑戰和未來工作。

** 1 引言**

近年來,基礎語言模型(LMs)在自然語言處理(NLP)[136, 226, 232]和計算機視覺(CV)[188]領域設立了新的基準。基礎語言模型主要包括三大類:預訓練語言模型(PLMs)[136]、大語言模型(LLMs)[226]和視覺-語言模型(VLMs)[42]。PLMs如BERT [88]、RoBERTa [120]和BART [102]專注于文本任務,通過利用掩碼語言建模等任務進行預訓練,對于理解和生成語言至關重要。LLMs如GPT-4 [1]和LLaMA [173]通過擴大模型架構和訓練數據的規模,擴展了PLMs的能力,從而增強了它們在更廣泛任務中的普適性和適應性。VLMs如VisualBERT [106]、CLIP [154]、LLaVA [113]和DALL-E [156]集成了文本和圖像模態,使視覺和文本信息之間能夠進行復雜交互。這些模型的基本范式是通過在廣泛的、通常是無標簽的數據集上進行預訓練來捕獲豐富的語義信息,然后針對具體任務或領域進行微調。這種方法不僅提升了各類應用的性能,還顯著增強了模型的靈活性和任務適應性 。 然而,這些基礎模型在具有一系列任務的動態環境中往往表現出局限性,主要原因是訓練完成后參數固定。這些模型通常缺乏在不進行重新訓練的情況下整合新數據或概念的能力。一個重要挑戰是“災難性遺忘”[92],即模型在學習新信息時會喪失先前獲得的知識。這與人類的持續學習過程形成鮮明對比,人類學習過程本質上是連續且適應性的。盡管多任務學習(MTL)和遷移學習(TL)在某些應用中取得了成功,但它們在現實場景中有其局限性。MTL需要在開始時就提供所有任務及其數據,這在推出新服務時構成挑戰,因為模型必須重新訓練所有數據。此外,TL通常只涉及兩個任務,即源任務和目標任務,這對于擁有多個目標任務的現實在線平臺來說是不切實際的。為了解決這些挑戰,模型需要處理和學習不斷擴展和多樣化的數據集。這需要允許模型在適應新語言現象和趨勢的同時,不影響對歷史數據的準確性和敏感性的機制。

因此,持續學習(CL)[175, 186],也被稱為終身學習[145]或增量學習[230],是人工智能中的一個關鍵領域,旨在開發能夠持續更新自身并獲取新知識的系統,而不遺忘先前學到的信息,類似于人類學習[34]。這一范式在基礎語言模型(LMs)的背景下尤為重要,因為它們面臨災難性遺忘(CF)和跨任務知識轉移(KT)等特定問題。災難性遺忘是一個顯著挑戰,模型在學習新信息時傾向于喪失先前獲得的知識。為了解決這一問題,語言模型必須在適應新的語言趨勢的同時,保持對過去語言數據的穩固掌握。此外,跨任務知識轉移對于增強持續學習過程至關重要。有效的知識轉移不僅加速新任務的學習曲線(前向轉移),還通過新知識的反饋提高模型在先前任務上的性能(反向轉移)。

持續學習方法的最新進展大大提升了基礎語言模型(LMs)的適應性和知識保留能力。這些進展對于解決CL中先前觀察到的復雜挑戰至關重要。研究人員制定了創新策略來減輕這些挑戰,從而使LMs能夠在各種任務中保持高性能,同時持續整合新知識[30, 99, 134]。在不同的下游任務中記錄了顯著的成功,例如基于方面的情感分析,其中持續學習使動態適應不斷變化的方面和情感成為可能[84]。同樣,在對話生成中,新技術通過持續交互幫助模型改進和擴展其對話能力[164]。在文本分類中,持續學習促進了新類別的整合和對文本分布變化的調整,而無需完全重新訓練[158]。此外,在視覺問答領域,持續學習對于更新模型處理和響應新類型視覺內容和查詢的能力至關重要[148, 220]。上述工作強調了持續學習對提升基礎語言模型性能的潛力。

在持續學習領域,傳統方法向整合基礎語言模型的方法發生了顯著的范式轉變(見圖1)。首先,基礎語言模型由于在大規模數據集上的廣泛預訓練,展示了增強的泛化和遷移學習能力。模型具有快速適應下游任務的專門遷移能力,只需少量樣本。因此,在促進新技能獲取的同時,減輕零樣本遷移和歷史任務能力的退化至關重要。其次,由于基礎語言模型中大量的參數,采用參數高效技術[59]如提示調優[119]和適配器[140],無需全面重新訓練即可更新參數。第三,基礎語言模型具備通過指令學習[39, 144]進行動態和上下文感知交互的能力。

本綜述系統地將這些策略和技術分類為兩個核心領域:離線持續學習和在線持續學習(圖2)。我們首先給出離線和在線CL的詳細定義和場景,其中離線CL包括領域增量、任務增量和類別增量CL,而在線CL包括硬任務邊界和模糊任務邊界。這些學習策略進一步細分為基于預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)的方法。然后,我們總結了與傳統方法、持續預訓練方法、參數高效調優方法和基于指令方法相關的論文。最后,我們從多個角度統計了主要數據集,并回顧了評估模型遺忘和知識轉移的關鍵指標。

本綜述論文的主要貢獻如下

  • 我們全面回顧了現有的基于基礎語言模型的持續學習方法文獻,這些方法將基礎語言模型與CL整合起來,在不重新訓練模型的情況下學習新知識。這與傳統CL大不相同,因為基礎語言模型具有強大的遷移學習、零樣本和指令跟隨能力,并且參數龐大。
  • 我們定義了不同的設置,并將這些研究分類為各種類型,以便更好地理解該領域的發展。除了傳統方法如重放、正則化和參數隔離算法外,我們還總結了持續預訓練方法、參數高效調優方法和基于指令調優的方法。
  • 我們提供了現有持續學習數據集的特征,并展示了評估防止遺忘和知識轉移性能的主要指標
  • 我們討論了基于基礎語言模型的持續學習面臨的最具挑戰性的問題,并指出了該領域未來有前景的研究方向本文結構如下:在第2節中,我們回顧了與持續學習相關的主要綜述。然后,在第3節中,我們介紹了持續學習的基本設置和學習模式,包括CL的定義和場景。此外,我們在第4節中展示了與離線持續學習相關的研究,這些研究可以分為領域增量學習、任務增量學習和類別增量學習。在第5節中,我們重點介紹了在線持續學習,包括硬任務邊界和模糊任務邊界設置。第6和第7節提供了典型數據集和指標。最后,我們在第8節分析了挑戰和進一步的工作,并在第9節給出結論。

付費5元查看完整內容

相關內容

近期,多功能大規模語言模型(LLMs)的激增在很大程度上依賴于通過偏好學習將越來越強大的基礎模型與人類意圖對齊,從而在廣泛的背景下增強LLMs的適用性和有效性。盡管已經進行了眾多相關研究,但關于如何將人類偏好引入LLMs的視角仍然有限,這可能阻礙了對人類偏好與LLMs之間關系的深入理解以及其局限性的實現。在這篇綜述中,我們從偏好中心的角度回顧了在人類偏好學習領域針對LLMs的探索進展,涵蓋了偏好反饋的來源和形式、偏好信號的建模和使用以及對齊LLMs的評估。

我們首先根據數據來源和形式對人類反饋進行分類。然后總結了人類偏好建模的技術,并比較了不同模型派別的優缺點。此外,我們根據利用人類偏好信號的目標展示了各種偏好使用方法。最后,我們總結了評估LLMs在人類意圖對齊方面的一些流行方法,并討論了我們對LLMs人類意圖對齊的展望。

大規模語言模型(LLMs)[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]對人工智能(AI)產生了突破性的影響,改變了人們對AI系統理解和應用人類語言潛力的看法。這些具有大規模參數(主要超過100億)的神經網絡語言模型最初在從各種來源收集的大規模語料庫上進行了預訓練,其中相當一部分來源于互聯網[11]。通過模仿人類在文本數據中使用自然語言的方式進行預訓練,基礎LLMs獲得了強大而通用的語言技能[1, 12]。另一方面,觀察發現基礎LLMs在理解或恰當地回應多樣化的人類指令方面存在困難[13],因為預訓練中的模仿過程并未強制基礎LLMs按照人類意圖來執行指令[13, 14]。來自互聯網的預訓練語料庫中殘留的一些有毒、有偏見或事實錯誤的內容甚至會導致基礎LLMs的不當模仿,產生不理想的生成結果[15, 16, 17, 18, 19, 20]。在現實生活中的實際應用中,基礎LLMs必須進化得更加符合人類意圖,而不是模仿預訓練語料庫中可能存在噪聲的行為。

人類偏好學習[21]可以通過根據輸出結果中反映人類偏好的反饋信息優化LLMs,有效地使LLMs與人類意圖對齊,從而指定人類的意圖[22]。最近涌現的大量進化后的LLMs能夠生成適當的響應以應對各種人類指令,驗證了這一方法的有效性[2, 6, 8, 9, 13]。目前,關于人類偏好學習的綜述大多集中于狹義的人類偏好學習方法或廣義的語言模型(LM)對齊方法。關于人類偏好學習的綜述主要集中于強化學習(RL),這可能不適用于LLMs,也不包含與非RL偏好學習方法相關的見解[23, 24]。關于LM對齊[25, 26, 27, 28]以及一般AI系統對齊[22]或超越語言的大模型[29]的綜述,主要將人類偏好學習視為解決對齊問題的工具。這些綜述缺乏對偏好學習,特別是偏好建模方法的系統回顧和討論,而偏好建模方法對于捕捉人類意圖以實現LM對齊至關重要[13]。為了進一步探索更有效的偏好學習方法以實現更好的LLM對齊,我們對適用于語言模型的人類偏好學習方法進行了全面綜述,從偏好學習的角度審視LLM對齊方法。通過分析偏好學習框架內的各種對齊方法,我們勾勒出將人類偏好引入LLMs的全貌,從各個方面提供關于人類偏好學習的見解,適用于各個領域。 具體而言,如圖1所示,我們引入了人類偏好學習在LLMs中的各個方面,包括偏好反饋的來源和形式、偏好建模、偏好信號的使用以及整合人類偏好的LLMs的評估:

  • 反饋來源:偏好反饋的質量和規模對于人類偏好學習至關重要,而反饋收集的來源可以極大地影響它們。最近的人類偏好學習方法不僅從人類那里收集偏好反饋,還從模擬人類的方式中收集,探索高質量和大規模之間的平衡。
  • 反饋形式:偏好反饋的形式決定了其信息密度和收集難度,從而也影響了偏好反饋的質量和規模。人類偏好學習工作中采用的反饋形式大致包括自然適合偏好表達但信息量較少的相對關系,以及更能反映人類偏好的絕對屬性,但更難收集。不同形式的結合可以進一步增加偏好反饋的信息密度。
  • 偏好建模:偏好建模旨在從偏好反饋中獲得偏好模型,提供可推廣和直接可用的人類偏好信號以對齊LLMs。各種偏好建模方法專注于獲取具有數值輸出的偏好模型。一些工作還探索了具有自然語言輸出的偏好建模方法。除了明確獲得任何偏好模型外,另一類研究通過直接使用反饋數據作為偏好信號來隱式建模人類偏好,以間接偏好建模目標對齊LLMs或利用對齊的LLMs提供偏好信號。
  • 偏好使用:偏好使用是根據偏好信號的指導調整基礎LLMs的階段,使LLMs與人類意圖對齊。根據偏好信號使用的具體目標,最近的方法可以分為四大類:基于人類反饋的強化學習(RLHF),最大化LLM輸出的總體預期獎勵分數;在首選輸出上的監督微調(SFT),最大化人類偏好輸出樣本的生成概率;偏好引導的對比學習,增加更偏好的輸出的生成概率,同時減少不太偏好的輸出的生成概率;以及偏好條件的微調和生成,最大化由相應偏好信號條件生成的輸出的生成概率。
  • 評估:最后,全面評估LLMs的遵循人類意圖的能力對于驗證人類偏好學習的有效性至關重要。現行的評估協議分為三類:開放形式基準,評估LLMs對多樣化指令響應的人類偏好而不提供標準答案;自動評估,在具有標準標簽的一組任務上使用自動指標評估LLMs;以及定性分析,直接檢查對一些代表性指令的每個響應。 值得注意的是,本綜述涵蓋了雖然不是特定于LLMs但可用于對齊LLMs的人類偏好學習研究工作,從經典強化學習等領域提供見解。我們進一步總結了近期在對齊LLMs與人類意圖方面取得的關鍵進展,并討論了當前未解決的挑戰和未來研究的可能前景,包括多元化人類偏好學習、可擴展的LLMs對齊監督、語言無關的LLM對齊、多模態互補對齊、LLM對齊進展的全面評估以及對欺騙性對齊的實證研究。我們希望這篇綜述能幫助研究人員發現人類偏好在LLM對齊中的運作機制,通過對前沿研究工作的回顧,啟發他們在對齊LLMs和其他AI系統方面實現與人類意圖的對齊。

本綜述的其余部分組織如下。我們在第二部分開始介紹本綜述的背景,介紹人類偏好學習在LLMs中的發展歷程。然后,我們從第三部分到第七部分介紹人類偏好學習在LLMs中的各個方面,包括反饋來源(第三部分)、反饋形式(第四部分)、偏好建模(第五部分)、偏好使用(第六部分)和評估(第七部分)。最后但同樣重要的是,我們在第八部分總結了人類偏好學習,并討論了我們對未來的展望。

付費5元查看完整內容

隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。

隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的方法,旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。 內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中,包括持續預訓練和持續微調等策略。例如,在工業應用中,常采用持續垂直領域預訓練,公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能,但也有可能削弱模型的廣泛知識基礎,說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法,如文本分類、命名實體識別、關系抽取和機器翻譯等,以及任務無關的方法,如指令微調、對齊和知識編輯。此外,在持續對齊中使用了人類反饋的強化學習,以確保LLM遵守人類價值觀,如安全和禮貌,突顯了所謂的“對齊稅”,即過于專注于特定價值觀可能會導致模型的通用能力下降。

外部知識類通過將新知識作為外部資源(如維基百科或API)引入,而不更新模型參數,包括基于檢索和工具的終身學習,利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略,如檢索增強生成,通過提供上下文相關、準確和最新的外部數據庫(如維基百科)信息來增強文本生成,確保模型輸出隨時間保持相關性。同時,工具學習類借鑒人類工具使用的類比,模型學習使用外部計算工具,從而無需直接修改其核心知識庫,拓寬了其問題解決能力。

通過對這些組及其各自類別的詳細檢查,本文旨在強調將終身學習能力整合到LLM中,從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新,本綜述旨在為開發更強大和多功能的LLM做出貢獻,使其能夠在不斷變化的數字環境中蓬勃發展。

本綜述與現有綜述的差異。近年來,終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡(CNN)的終身學習,探討了CNN的各種終身學習情景,包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外,一些綜述探討了圖神經網絡的終身學習。然而,只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理(NLP)中終身學習的早期綜述,但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景,包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧,包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向(或垂直持續學習)和水平方向(或水平持續學習)兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式,包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻,但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景,并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知,我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。

本綜述的貢獻。我們的綜述的主要貢獻包括

  • 新穎的分類法:我們引入了一個詳細且結構化的框架,將終身學習的廣泛文獻劃分為12種情景。

-** 常見技術**:我們在所有終身學習情景中識別了常見技術,并將現有文獻分類到每個情景內的各種技術組中。

  • 未來方向:我們強調了模型擴展和數據選擇等在LLM之前時代較少探索的新興技術。

本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向,并總結了本綜述。

付費5元查看完整內容

在過去的一年中,多模態大型語言模型(MLLMs)在視覺問答、視覺理解和推理等任務中表現出色。然而,龐大的模型規模和高昂的訓練與推理成本阻礙了MLLMs在學術界和工業界的廣泛應用。因此,研究高效且輕量級的MLLMs具有巨大的潛力,特別是在邊緣計算場景中。在這篇綜述中,我們對當前高效MLLMs的研究現狀進行了全面而系統的回顧。具體來說,我們總結了代表性高效MLLMs的時間線、高效結構和策略的研究現狀以及應用。最后,我們討論了當前高效MLLM研究的局限性和未來有前景的研究方向。更多詳情請參考我們的GitHub倉庫://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。

大規模預訓練作為人工智能(AI)領域的一種領先方法,使得像大型語言模型和多模態模型這樣的通用模型在許多任務中超越了專門的深度學習模型。大型語言模型(LLM)的卓越能力激發了將它們與其他基于模態的模型結合起來以增強多模態能力的努力。這一概念得到了OpenAI的GPT-4V[1]和Google的Gemini[2]等專有模型顯著成功的進一步支持。因此,多模態大型語言模型(MLLMs)應運而生,包括mPLUG-Owl系列[3, 4]、InternVL[5]、EMU[6]、LLaVA[7]、InstructBLIP[8]、MiniGPT-v2[9]和MiniGPT-4[10]。這些模型通過有效利用每種模態的預訓練知識,繞過了從頭開始訓練的計算成本。MLLMs繼承了LLM的認知能力,展示了許多顯著特性,如強大的語言生成和遷移學習能力。此外,通過與其他基于模態的模型建立強大的表示連接和對齊,MLLMs能夠處理來自多種模態的輸入,顯著拓寬了它們的應用范圍。 MLLMs的成功主要歸因于規模定律:隨著數據、計算能力或模型規模等資源的增加,AI模型的性能會提高。然而,可擴展性伴隨著高資源需求,這阻礙了大型模型的發展和部署。例如,MiniGPT-v2的訓練需要基于NVIDIA A100 GPU計算出的總計超過800個GPU小時[9]。這對主要企業外的研究人員來說是一個巨大的費用負擔。除了訓練之外,推理也是MLLMs資源消耗的主要部分。考慮一個典型場景,模型輸入包括一個尺寸為336 × 336像素的圖像和一個長度為40個tokens的文本提示,使用LLaVA-1.5和Vicuna-13B LLM骨干進行推理需要18.2T的FLOPS和41.6G的內存使用量。大規模模型的資源密集型特性也引發了關于民主化和隱私保護的擔憂,因為當前主流的MLLMs,如GPT-4V和Gemini,由少數幾家主導企業控制,并在云端運行。如上述實驗所示,即使是開源的MLLMs,對計算資源的高要求也使得在邊緣設備上運行它們變得具有挑戰性。這進一步加劇了確保公平訪問和保護用戶隱私的挑戰。

鑒于這些挑戰,高效MLLMs的研究受到了越來越多的關注。這些努力的主要目標是減少MLLMs的資源消耗,擴大其適用性,同時盡量減少性能下降。高效MLLMs的研究始于用輕量級替代品替換大型語言模型,并進行典型的視覺指令微調。隨后,研究進一步通過以下方式增強了能力并擴展了用例:(1)引入更輕量的架構,注重效率,旨在減少參數數量或計算復雜度[25, 13, 18];(2)開發了更專業的組件,聚焦于高級架構的效率優化或賦予特定屬性,如局部性[19, 17, 12];(3)支持資源敏感任務,一些工作采用視覺token壓縮來提高效率,使MLLM的能力能夠轉移到資源密集型任務中,如高分辨率圖像和視頻理解[35, 39, 14, 40]。

在本綜述中,我們旨在呈現快速發展的高效MLLMs領域的最新進展,如圖2所示。我們將文獻組織成六個主要類別,涵蓋高效MLLMs的各個方面,包括架構、高效視覺、高效LLMs、訓練、數據和基準測試以及應用。Architecture 關注通過高效技術開發的MLLM框架,以降低計算成本。該架構由多個基于模態的基礎模型組成,具有不同于單模態模型的特征,從而促進了新技術的發展。

Efficient Vision 探討優化高效視覺特征提取策略,強調在保持準確性的同時提高效率的方法。它解決了集成高質量視覺數據以實現有效跨模態理解的問題。

Efficient LLMs 探索提高語言模型計算效率和可擴展性的策略。它研究了模型復雜性與性能之間的權衡,并提出了平衡這些競爭因素的有前景途徑。

Training 調查了對高效MLLMs開發至關重要的訓練方法的現狀。它解決了與預訓練階段、指令微調階段及整體訓練策略相關的挑戰,以實現最先進的結果。

Data and Benchmarks 評估用于多模態語言模型評估的數據集和基準測試的效率。它評估了數據集規模、復雜性和計算成本之間的權衡,同時倡導開發優先考慮效率和與現實世界應用相關性的基準測試。

Application 研究高效MLLMs在各個領域的實際影響,強調性能和計算成本之間的平衡。通過解決諸如高分辨率圖像理解和醫療問答等資源密集型任務,本節強調了高效MLLMs在拓寬其應用范圍和解決現實問題方面的潛力。

總之,這篇綜述深入探討了這些研究工作,探索了多種使MLLMs更具資源效率的策略。我們回顧了高效MLLMs的發展歷史,提供了高效MLLMs策略的分類法,并全面比較了現有高效MLLMs的性能。通過這一探索,我們希望提供對當前最先進技術的全面理解,從而揭示這一新興領域的復雜細微之處。此外,這篇綜述還充當了路線圖,突出了未來研究的潛在途徑,促進了對高效MLLMs領域挑戰和機遇的更深入理解。除了這篇綜述,我們還建立了一個GitHub倉庫,收錄了綜述中提到的論文,并按照相同的分類法進行整理,地址為:

按照標準的MLLM框架,高效MLLMs可以分為三個主要模塊:視覺編碼器g,負責接收和處理視覺輸入;預訓練語言模型,管理接收到的多模態信號并進行推理;視覺-語言投影器P,作為連接兩種模態的橋梁。為了提高通用MLLMs的效率,主要的優化在于處理高分辨率圖像、壓縮視覺令牌、實施高效結構以及使用緊湊的語言模型等策略。圖3展示了架構圖。表1概述了高效MLLMs的總結,包括基礎LLM、視覺編碼器、圖像分辨率和用于連接視覺和語言的投影器。這些高效MLLMs包括:MobileVLM[20]、LLaVA-Phi[21]、Imp-v1[22]、TinyLLaVA[23]、Bunny[24]、Gemini Nano-2[2]、MobileVLMv2[17]、MoE-LLaVA-3.6B[25]、Cobra[13]、Mini-Gemini[26]、Vary-toy[27]、TinyGPT-V[28]、SPHINX-Tiny[14]、ALLaVA[29]、MM1-3B[30]、LLaVA-Gemma[31]、Mipha-3B[32]、VLMamba[18]、MiniCPM-V2.0[70]、DeepSeek-VL[34]、KarmaVLM[71]、moondream2[72]。在本節中,我們將按順序全面概述這三個模塊以及其他高效組件。

Vision Transformer (ViT) [94] 架構在計算機視覺應用中獲得了顯著的關注并被廣泛使用。然而,隨著ViT模型規模的增長,可訓練參數和操作數量也隨之增加,影響了它們的部署和性能。此外,自注意力機制的計算和內存成本隨著圖像分辨率的增加呈二次增長。參考論文[95],本綜述旨在探索可用于高效MLLMs的最有效的視覺編碼方法。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

大型語言模型(LLM)的出現顯著地重塑了人工智能革命的發展軌跡。然而,這些LLM存在一個明顯的限制,因為它們主要擅長處理文本信息。為了解決這一約束,研究人員努力將視覺能力與LLM整合,從而催生了視覺-語言模型(VLM)的出現。這些先進的模型在處理更復雜的任務,如圖像描述和視覺問答等方面發揮著重要作用。在我們的綜述論文中,我們深入探討了VLM領域的關鍵進展。我們的分類將VLM分為三個不同的類別:致力于視覺-語言理解的模型、處理多模態輸入以生成單模態(文本)輸出的模型,以及同時接受和產出多模態輸入和輸出的模型。這一分類基于它們在處理和生成各種數據模態方面的相應能力和功能。我們對每個模型進行了細致的解析,提供了其基礎架構、訓練數據來源以及可能的優點和限制的廣泛分析,以便為讀者提供對其核心組件的全面理解。我們還分析了VLM在各種基準數據集中的表現。通過這樣做,我們旨在提供對VLM多樣化景觀的細致理解。此外,我們強調了在這一動態領域未來研究的潛在途徑,期待進一步的突破和進展。

大型語言模型(LLM)的出現標志著人工智能領域變革性時代的開始,重塑了整個行業的格局。橫跨學術界和工業界的研究實驗室正積極參與到一個競爭激烈的賽跑中,以推動LLM的能力發展。然而,這些模型面臨一個顯著的限制——它們僅限于處理單一模態的數據,特別是文本。這一約束突顯了在持續完善LLM以便跨多種模態無縫運作的過程中一個關鍵的挑戰,這是AI領域進一步創新的重要途徑。

天生的智能擅長處理多種模態的信息,包括書面和口頭語言、圖像的視覺解釋以及視頻的理解。這種無縫整合不同感官輸入的能力使人類能夠導航復雜的現實世界。為了模仿人類的認知功能,人工智能同樣必須擁抱多模態數據處理。這一需求不僅僅是技術性的,更是為了讓AI系統在現實世界場景中具備上下文意識和適應性而必需的。

為了應對這些限制,研究人員開創了一種稱為視覺-語言模型(VLM)的尖端神經模型類別。這些模型復雜地結合了視覺和文本信息,展現出在理解和生成涉及圖像和文本的內容方面的卓越能力。VLM在執行圖像描述、響應視覺查詢和基于文本描述生成圖像等任務方面表現出多才多藝的能力。它們無縫整合視覺和語言模態的能力使它們站在技術進步的前沿,使它們能夠以無與倫比的技巧導航圖像與文本之間的復雜相互作用。

近期,主要研究實驗室持續推出創新的VLM,包括DeepMind的Flamingo、Salesforce的BLIP和OpenAI的CLIP。例如GPT-4(V)和Gemini展示了聊天機器人在VLM領域的進化。值得注意的是,并非所有多模態模型都是VLM;例如,像Midjourney和DALL-E [Ramesh et al., 2021]這樣的文本到圖像模型缺乏語言生成組件,凸顯出多模態AI領域的多樣化景觀。VLM的一般架構包括一個圖像和文本編碼器,用于生成嵌入,這些嵌入然后在圖像-文本融合層中融合,融合后的向量通過LLM生成最終的視覺感知生成文本。VLM的工作原理在圖2中顯示。

在這篇綜述論文中,我們根據它們的輸入處理和輸出生成能力,將VLM分為三大類:視覺-語言理解模型、多模態輸入文本生成模型和最先進的多模態輸入-多模態輸出模型。隨后的各節深入解釋了每一類別,闡明了這些多樣化VLM框架的細微功能和能力。

近期的相關綜述,如[Wang et al., 2023b]主要探討了用于開發多模態模型的各種預訓練技術和數據集,[Yin et al., 2023]探討了訓練各種多模態語言模型的關鍵技術。[Wu et al., 2023a]提供了使用多模態語言模型的實際應用和指導。最新的一篇由[Zhang et al., 2024]深入介紹了大約26種最新的VLM。與之前的綜述相比,沒有一個系統地根據它們的輸入處理和輸出生成能力對視覺-語言模型(VLM)進行分類。我們的綜述通過提供對VLM的徹底分類,揭示了它們功能的復雜性。我們廣泛分析了不同VLM在基準數據集上的表現,特別包括最新的MME基準,提供全面的見解。我們的綜述代表了迄今為止最全面、最新的VLM匯編,涵蓋了大約70個模型。它為用戶提供了在這一開創性研究領域不斷演變的視覺-語言模型的最新和最全面的見解,是最終的指南。

圖1:視覺語言模型的分類,突出顯示模型能夠處理的輸入和輸出格式。

2 視覺-語言模型(VLM)

在本節中,我們對VLM進行了全面的考察,將它們分類為三個主要類別: * 視覺-語言理解(VLU):這一類別包括專門為解釋和理解視覺信息與語言結合的模型。 * 多模態輸入的文本生成:在這一分類中,我們探索了在利用多模態輸入的同時,擅長生成文本內容的模型,從而融合了多種形式的信息。 * 多模態輸出與多模態輸入:這一類別深入研究了通過處理多模態輸入來生成多模態輸出的模型。這涉及到多種模態的合成,如視覺和文本元素,以產生全面而連貫的結果。我們在圖1.1中展示了這一寬泛的分類。

比較分析 我們對幾種視覺和語言模型(VLM)進行了廣泛的分析,這些模型跨越了十個廣泛認可的基準數據集,涵蓋了視覺問題回答(VQA)和圖像描述等任務。這一分析的結果呈現在表1中。此外,我們還使用多模態模型評估(MME)基準評估了這些VLM的感知和認知能力,其發現總結在表2中。更進一步,對各種VLM在視頻問題回答數據集上的比較考察詳細記錄在表3中。 3. 未來方向

預訓練與模塊結構之間的權衡:當前有很多研究正在進行中,通過引入模塊化代替黑盒預訓練,以增強VLM的理解、控制和可信度。納入其他模態:正在進行的工作包括引入更精細的模態,如受[Cheng et al., 2022]啟發的注視/手勢,這對教育行業非常重要。VLM的細粒度評估:正在進行更細致的VLM評估,關注偏見、公平等參數。在這方面的一些研究包括DALL-Eval [Cho et al., 2023a]和VP-Eval [Cho et al., 2023b]。VLM中的因果關系和反事實能力:已經完成了很多工作,以理解LLM的因果和反事實能力,這激發了研究人員在VLM領域探索相同的問題。Cm3 [Aghajanyan et al., 2022]是該領域的最早工作之一,該主題目前非常活躍。持續學習/遺忘:VLM領域存在一個趨勢,即有效地持續學習,無需從頭開始訓練。VQACL [Zhang et al., 2023a]和Decouple before Interact [Qian et al., 2023]是該領域的最初工作之一。受到LLM中觀察到的知識遺忘概念[Si et al., 2023]的啟發,研究人員也在VLM領域探索類似的方法。訓練效率:研究人員集中精力開發高效的多模態模型,如BLIP-2顯示出前景,它在零樣本VQA-v2中的表現超過Flamingo-80B 8.7%,同時使用的可訓練參數顯著減少(少54倍)。VLM的多語種基礎:繼OpenHathi [sarvam.ai, 2023]和BharatGPT [corovor.ai, 2023]等多語種LLM的最近激增之后,開發多語種視覺-語言模型(VLM)的勢頭正在增強。更多領域特定的VLM:各種領域特定的VLM,如MedFlamingo [Moor et al., 2023]和SkinGPT [Zhou et al., 2023]項目示例,已在其專業領域鋪平了道路。進一步的努力正在進行中,以特別為教育和農業等行業量身定制VLM。

4 結論

本文提供了一個關于VLM領域最新發展的綜述。我們根據VLM的用例和輸出生成能力對其進行分類,提供了對每個模型架構、優點和局限的簡潔見解。此外,我們突出介紹了該領域的未來方向,這些方向是根據近期趨勢來提供進一步探索的路線圖。我們相信這篇論文將作為一個寶貴的資源,為在多模態學習領域積極涉獵的計算機視覺和自然語言處理領域的研究人員提供指導。

付費5元查看完整內容

將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。

付費5元查看完整內容

表格推理旨在根據提供的表格以及可選的表格文本描述,按照用戶需求生成相應的問題答案,有效提高獲取信息的效率。近來,使用大型語言模型(LLMs)已成為表格推理的主流方法,因為它不僅顯著降低了注釋成本,還超過了以往方法的性能。然而,現有研究仍然缺乏基于LLM的表格推理工作的總結。由于現有研究的缺乏,哪些技術可以在LLMs時代提高表格推理性能、LLMs為何在表格推理上表現出色、以及如何在未來增強表格推理能力的問題,仍然大部分未被探索。這一差距顯著限制了研究進展。為了回答上述問題并推進LLMs下的表格推理研究,我們呈現了這篇綜述,以分析現有研究,激發未來的工作。在這篇論文中,我們分析了在LLM時代用于提高表格推理性能的主流技術,以及LLMs相比于LLMs之前的模型在解決表格推理問題時的優勢。我們從現有方法的改進和實際應用的擴展兩個方向提供研究指導,以激發未來的研究。

付費5元查看完整內容

高效的分子建模和設計對于新分子的發現和探索至關重要,深度學習方法的引入已經徹底改革了這一領域。特別是,大型語言模型(LLMs)提供了一種全新的方法來從自然語言處理(NLP)的角度解決科學問題,引入了一種稱為科學語言建模(SLM)的研究范式。然而,仍有兩個關鍵問題:如何量化模型與數據模態之間的匹配度以及如何識別模型的知識學習偏好。為了應對這些挑戰,我們提出了一個多模態基準,命名為ChEBI-20-MM,并進行了1263次實驗來評估模型與數據模態和知識獲取的兼容性。通過模態轉換概率矩陣,我們提供了關于任務最適合的模態的見解。此外,我們引入了一種統計上可解釋的方法,通過局部特征過濾發現特定上下文的知識映射。我們的先驅性分析提供了對學習機制的探索,并為推進分子科學中的SLM鋪平了道路。 Transformers[8]以其強大的文本編碼和生成能力提供了優勢。這些模型可以通過最小的任務特定調整進行微調,使它們在分子建模和設計中更加多才多藝和高效。此外,自從ChatGPT[9]和GPT-4[10]的出現以來,大型語言模型(LLMs)已成為尤其在分子科學中的一種突破性趨勢。LLMs憑借其在處理和生成類人文本的先進能力,提出了一個理解和設計分子結構的新范式。它們吸收和分析大量文本數據的能力可以提供前所未有的洞察,克服了傳統AI方法的一些限制。這種新能力結合了準確性和新穎性,以改善結果,被稱為化學知識。其有效性取決于輸入數據、模型架構和訓練策略等因素。然而,對這一能力的當前綜述和基準評估并不全面。 分子科學中現有的綜述,如分子生成綜述[11],通常缺乏全面的模型比較,并且任務范圍有限。知識驅動的綜述[12]對分子學習進行了分類,但缺少詳細的方法比較和數據集討論。而最近的基準測試,如測試ChatGPT的[13],涵蓋了八個化學任務,每個任務都提供了獨特的化學洞察。Mol-Instructions[14]提供了一個用于微調的數據集,包含各種分子和蛋白質指令,增強了LLMs中的生物分子理解。然而,這些綜述和基準測試缺乏多模態內容,也沒有充分探索模型的化學知識。 總結來說,本研究全面回顧了Transformers和LLMs在分子建模與設計中的應用。我們將六個常見的分子任務分類為三個不同的目標:描述、嵌入和生成,如圖1所生動描繪。此外,我們建立了一個統一的多模態基準ChEBI-20-MM,并進行實驗評估數據模態、模型架構和不同任務類型的兼容性,考察它們對任務性能的影響。此外,我們的端到端可視化方法展示了嵌入化學知識的建模洞察的發現。總體來說,我們的主要貢獻包括: ? 本工作分析了LLMs在分子建模中的應用,分類現有模型,并提出了一個多模態基準(ChEBI-20-MM)進行性能評估,支持1263次實驗。 ? 我們分析了模態轉換概率矩陣,并確定了不同數據模態和模型架構之間的最佳匹配。 ? 我們引入了一種統計上可解釋的方法,通過局部特征過濾展示了知識獲取。 本文的其余部分如下組織。第2節介紹相關定義和背景。然后,我們探討分子建模和設計中的六個關鍵任務。第3節展示了我們的基準測試和洞察。第4節討論了關鍵結果和限制,第5節總結了我們的貢獻和未來研究方向。

付費5元查看完整內容

近年來,大型語言模型(LLMs)因其出色的理解、分析和基于其廣泛知識和推理能力的文本生成能力,已經重塑了學術和工業領域。盡管如此,LLMs的一個主要缺點是由于其前所未有的參數量,其預訓練的計算成本相當高。當需要經常向預訓練的模型中引入新知識時,這一缺點會被放大。因此,開發有效且高效的技術來更新預訓練的LLMs至關重要。傳統方法通過直接微調將新知識編碼到預訓練的LLMs中。然而,重新訓練LLMs可能在計算上很密集,并且面臨退化與模型更新無關的寶貴預訓練知識。最近,基于知識的模型編輯(KME)受到了越來越多的關注,其目的是精確修改LLMs以納入特定的知識,而不負面影響其他無關的知識。在這次綜述中,我們旨在提供關于KME領域近期進展的全面且深入的概述。我們首先介紹KME的一般公式,以涵蓋不同的KME策略。之后,我們根據新知識如何被引入到預訓練的LLMs中提供了KME技術的創新分類,并研究現有的KME策略,同時分析每個類別的方法的關鍵見解、優點和局限性。此外,相應地介紹了KME的代表性指標、數據集和應用。最后,我們對KME的實用性和剩余挑戰進行了深入的分析,并建議在這一領域進一步發展的有前景的研究方向。

近期,大型語言模型(LLMs)已成為一個熱門話題,徹底改變了學術界和工業界[10, 78, 106, 122]。通過在大型語料庫上進行預訓練,獲得了大量的事實知識和推理能力,LLMs展示了對文本信息的前所未有的理解,能夠像人類專家一樣分析和生成文本。然而,LLMs的一個主要缺點是由于參數數量龐大,訓練過程的計算開銷極高。隨著世界的不斷進化,經常出現更新預訓練LLMs以糾正過時信息或納入新知識以保持其相關性的需求,這使得該問題進一步加劇[124]。例如,在圖1中,一個過時的LLM無法準確描述Lionel Messi的最新成就,這需要明確注入新知識以生成正確的答案。

更新預訓練的大型語言模型(LLMs)的一個可行而直接的策略是通過樸素的微調[15, 26, 103, 116],在此,預訓練LLMs的參數直接被優化,以從新數據中編碼新知識[5, 72, 80, 122]。例如,提出了各種基于指令調整的方法,以在新收集的語料庫上以有監督的學習方式微調預訓練的LLMs[73, 81, 112, 114]。盡管這樣的微調技術被廣泛使用,并且能夠將新知識注入到LLMs中,但它們因以下缺點而聞名:(1) 即使提出了一些參數高效策略來提高效率[66, 113, 120],微調LLMs可能仍需要大量的計算資源[70, 75, 123]。 (2) 細調模型可能會過擬合新數據,尤其是當用于細調的數據集規模較小時[19, 71, 74]。 (3) 更重要的是,微調LLMs會不受約束地改變預訓練的權重,這有可能喪失LLMs中的寶貴現有知識[24, 48, 69]。這些挑戰限制了使用微調技術更新LLMs新知識的實用性。

為了解決更新LLMs的微調的缺點,更多的注意力已被賦予基于知識的模型編輯(KME),也被稱為知識編輯。一般來說,KME旨在精確修改預訓練LLMs的行為,以更新特定的知識,而不負面影響與更新無關的其他預訓練知識[85, 111, 119]。在KME中,LLMs中特定知識的更新通常被制定為一個編輯,例如將“誰是美國總統?”的答案從“特朗普”更正為“拜登”。關于特定的編輯,KME策略通常通過引入輔助網絡(或一組參數)到預訓練模型[41, 63, 124],或更新(部分)參數以存儲新知識[16, 39, 40, 64]來修改模型輸出。通過這些策略,KME技術可以在內存中存儲新知識或在模型參數中定位它進行更新,從而精確地將知識注入模型。此外,某些方法還引入明確的損失以包含更新過程,從而使編輯后的模型在未修改的知識上保持一致的行為。借助這些優勢,KME技術可以提供一種高效且有效的方法,不斷地用新知識更新LLMs,而無需明確地重新訓練模型。

盡管KME與微調策略有某些相似之處,但它在更新LLMs方面具有獨特的優勢,值得深入研究。特別是,KME和模型微調都尋求通過注入新知識來更新預訓練的LLMs。然而,除了這一共同目標外,KME更加關注兩個關鍵屬性,這兩個屬性不能容易地由微調來解決。 (1) 局部性要求編輯過的模型不會無意中影響具有不同語義的其他不相關輸入的輸出。例如,當有關美國總統的編輯得到更新時,編輯過的模型不應改變其關于英國首相的知識。KME方法的實用性在很大程度上依賴于它們維持與不相關輸入的輸出的能力,這是KME和微調之間的主要區別[86]。 (2) 通用性代表編輯過的模型是否可以泛化到與編輯知識相關的更廣泛的輸入范圍。具體來說,它表示模型在具有語義相似性的輸入上表現出一致行為的能力。例如,當模型關于總統的部分被編輯時,對總統配偶的查詢的答案也應相應地改變。在實踐中,確保KME方法使編輯過的模型能夠很好地適應這些相關的輸入文本是很重要的。總之,由于這兩個獨特的目標,KME仍然是一個具有挑戰性的任務,需要特定的策略才能獲得令人滿意的有效性。

與現有綜述的區別:已經進行了幾次綜述來檢查(大型)語言模型的各個方面[11, 29, 51, 53, 104, 122]。盡管如此,仍然缺乏徹底的綜述,可以全面涵蓋現有的文獻和LLM編輯領域的持續進展。例如,最近的工作[73, 114]已經討論了在預訓練的LLMs中使用更多的數據樣本合并新知識的微調策略。然而,KME的獨特性,即局部性和普遍性,并沒有得到充分的討論,這將在這次綜述中得到徹底的分析。另外兩項綜述[30, 47]回顧了知識增強的語言模型。但是,他們的主要關注點是利用外部知識來增強預訓練的LLMs的性能,而沒有解決基于特定知識的編輯任務。據我們所知,與我們的綜述最相關的論文是[119],它提供了KME的簡要概述,并簡潔地討論了KME方法的優勢和它們的挑戰。盡管如此,這項綜述缺乏對KME的更多細節,例如分類、數據集和應用程序的徹底審查。另一項最近的工作[111]提出了一個統一了幾種代表性方法的KME框架。這項工作側重于KME技術的實現,而對不同策略的技術細節的重視較少。最近,一項工作[85]討論了KME方法在編輯模型的忠實性方面的局限性,而它相對較短,缺乏對所有現有方法的更全面的介紹。考慮到KME技術的快速進展,我們認為有必要回顧所有代表性KME方法的細節,總結共同點,同時討論每種方法的獨特性,并討論KME領域的開放挑戰和前瞻性方向,這將促進該領域的進一步發展。

本次綜述的貢獻:本次綜述提供了對預訓練LLMs的編輯技術、挑戰和機會的全面和深入的分析。我們首先提供了KME任務的概述,以及一個創新的公式化。特別是,我們將一般的KME任務公式化為一個受限制的優化問題,同時結合了準確性、局部性和普遍性的目標。然后,我們將現有的KME策略分類為三個主要類別,即外部記憶、全局優化和局部修改。重要的是,我們證明了每個類別中的方法都可以被公式化為一個專門的受限制的優化問題,其中的特性基于一般的公式化理論總結。此外,我們提供了關于每個類別中方法的有效性和可行性的有價值的見解,這可以幫助實踐者選擇最適合特定任務的KME方法。我們對KME方法的優點和缺點的分析也為KME研究社區的持續進展起到了催化劑作用。總之,我們的主要貢獻可以總結為以下三個方面:

?** 新的分類法**:我們引入了一個全面和結構化的分類框架,系統地總結了LLM編輯的現有工作。具體來說,基于如何將新知識引入預訓練的LLMs,我們的分類包括三個不同的類別:外部記憶、全局優化和局部修改,其中這些類別的共性和差異在這次調查中都得到了徹底的討論。

? 深入分析:我們將LLM編輯任務公式化為一個受約束的優化問題,其中每個類別的方法都可以被視為具有細化約束的特殊情況。此外,我們強調了每個類別的主要見解、優點和局限性。在這個背景下,我們深入研究了每個類別的代表性方法,并系統地分析了它們之間的聯系。 ? 未來方向:我們分析了現有KME技術在各種數據集和應用程序中的實用性。我們還全面討論了現有KME技術的挑戰,并提出了未來探索的有前景的研究方向。

本文的其余部分組織如下。第2部分介紹了LLM編輯的背景知識。第3部分提供了KME任務的一般公式,可以適應各種應用場景。第4部分為KME策略提供了一個全面的評價指標總結,這對于公正地比較各種方法至關重要。在深入探討具體方法之前,我們在第5.1節為現有方法提供了一個全面的分類,其中討論了它們的關系和差異。然后我們詳細介紹了三個類別中的方法,其中總結了每個類別的優點和局限性。第6部分介紹了廣泛使用的公共數據集。第7部分詳細介紹了可以從KME技術中受益的各種實際任務。第8部分討論了現有技術尚未解決的KME的潛在挑戰。這一部分還提供了一些可以激發未來研究的潛在方向。最后,我們在第9部分總結了這次綜述。

面對舊信息的快速折舊和新知識的出現,各種KME方法已經被提議來更新預先訓練的LLMs,以保持它們的最新性和相關性。KME確保新知識能夠高效地融入預訓練的LLMs,而不會負面影響與編輯無關的預訓練知識。 在這份調查中,我們將現有的KME方法分為以下三個主要類別:

? 基于外部記憶的方法利用外部存儲器來存儲新的知識,以進行編輯,而不修改預訓練的權重,其中預訓練的知識可以在LLM權重中完全保留。通過使用外部參數存儲新知識,基于記憶的策略能夠準確地表示新知識,并具有良好的可伸縮性,因為記憶容易擴展以融入新知識。

?** 全局優化方法通過優化在新知識的指導下尋求將新知識普遍地合并到預訓練的LLMs中**,其中引入了定制策略來限制其他預訓練知識的影響,與簡單的微調區分開來。然而,由于需要優化的參數數量眾多,這些方法在應用于LLMs時可能在編輯效率上有所不足。

? 基于局部修改的方法旨在找到LLMs中特定知識的相關參數,并相應地更新它以融入與編輯相關的新知識。局部修改的主要優勢是只可能更新模型參數的一小部分,從而與基于記憶的方法相比提供了相當的內存效率,并與全局優化相比提供了計算效率。

上述分類是基于新信息被引入LLM的位置(例如,外部參數或內部權重)和方式(例如,通過優化或直接合并)進行的。具體而言,每個類別的方法在Sec. 4中引入的四個關鍵評估指標方面都展現出不同的優勢和劣勢。例如,當計算資源有限而需要大量編輯時,外部記憶在場景中占優勢,因為記憶的大小可以控制以適應不同的要求。另一方面,當實踐者更關注編輯知識的普遍性時,全局優化是有利的,因為優化可以促進相關知識的學習[2]。該分類法在圖3中進行了直觀的說明,并在表2中總結了所有方法的具體特點。

在這次綜述中,我們對知識為基礎的模型編輯(KME)技術進行了全面而深入的調研,以準確且高效地更新預訓練LLMs中的新知識。我們首先將KME問題構建為一個受約束的優化目標,該目標同時確保編輯的準確性和保留,這適用于包括不同KME策略。接著,我們提供了KME的評估指標概述,這有助于了解編輯模型的理想屬性。隨后,我們提出了一個結構化的分類框架,以系統地分類現有的KME技術。在每個類別中,我們概述了核心挑戰,詳細說明了代表性方法,并討論了它們的優勢和劣勢。此外,我們總結了廣泛用于評估KME技術的數據集,強調某些技術需要特定的數據集結構進行訓練或評估。為了激勵研究人員設計更多的實際實現,我們還強調了KME技術的實際應用。最后,我們確定了未來研究的幾個潛在挑戰,并提供了有助于進一步推進該領域的有見地的方向。

付費5元查看完整內容

傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。

付費5元查看完整內容
北京阿比特科技有限公司