亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要——在數據爆炸性增長和技術快速發展的時代,多模態大型語言模型(MLLMs)處于人工智能(AI)系統的前沿。MLLMs旨在無縫集成包括文本、圖像、視頻、音頻和生理序列在內的多種數據類型,解決遠遠超出單一模態系統能力范圍的復雜現實應用問題。在本文中,我們系統地梳理了MLLM在自然語言、視覺和音頻等多模態任務中的應用。我們還對不同MLLM在任務中的關注點進行了對比分析,并深入探討了當前MLLMs的不足之處,并提出了未來研究的潛在方向。通過這些討論,本文希望為MLLM的進一步發展和應用提供寶貴的見解。關鍵詞——MLLMs, 任務, AI應用, 融合技術。多模態大型語言模型(MLLMs)是設計用來處理和集成各種類型數據的復雜人工智能(AI)系統,包括文本、圖像、視頻、音頻和生理序列數據[1],[2],[3]。隨著我們進入多模態數據融合的時代,信息技術的快速進步和數據量的爆炸性增長,單一模態系統的能力已不足以應對復雜的現實任務[4],[5],[6]。因此,MLLMs的發展不僅是技術進化的必然趨勢,也是提高AI應用有效性的關鍵改進。通過融合來自多個數據源的信息,MLLMs培育了更全面和準確的信息表示,這種能力不僅釋放了巨大的潛力,還展示了在各個領域的顯著實際應用價值。多樣化數據集的整合使得MLLMs能夠更有效地執行任務,確立其作為下一代技術的不可或缺地位,致力于充分發揮AI技術的潛力[7],[8],[9]。值得注意的是,MLLMs在語言、圖像、視頻和音頻處理等多種多模態任務中表現出了顯著的性能。這些模型在集成多模態信息以增強多模態任務的有效性方面表現出色。在自然語言處理(NLP)任務中,如文本生成和機器翻譯,MLLMs利用圖像、視頻和音頻提供上下文支持,增強生成文本的準確性和表達力[10],[11],[12]。這些模型在情感分析和對話系統中也表現出色,通過整合多模態信息來提高理解和生成能力。特別是,MLLMs通過結合視覺和聽覺數據,豐富了文本生成和機器翻譯[13],[14],[15]。這些模型提高了生成文本的準確性和表達力,提供了傳統模型無法實現的細膩上下文支持。在情感分析和對話系統中,MLLMs能夠整合多模態信息,進一步加深系統的理解和響應能力,展示了在人機交互方面的重大進步[16],[17]。此外,在視覺任務中,MLLMs顯著提升了任務的理解、分析和生成能力。整合文本描述和圖像指令使得圖像分類、目標檢測和圖像注釋等任務更加準確。例如,像GPT-4V[13]和Gemini[18]這樣的MLLMs結合圖像內容和自然語言描述,產生更生動和精確的注釋結果。這些模型在圖像生成方面也取得了進展,可以從文本描述生成圖像或實現跨模態圖像風格遷移,從而拓寬了該領域的可能性。同時,由于視頻處理的復雜性,它提出了獨特的挑戰。然而,MLLMs的出現推動了語言模型在這一領域的能力發展。像NExT-GPT[19]和Sora[20]這樣的模型在多模態視頻生成方面處于領先地位,通過學習多模態數據生成更豐富和逼真的視頻內容。此外,智能視頻理解技術的進步,如VideoChat[21]和Video-LLaVA[22],顯著增強了分析和處理視頻內容的能力。這些發展在虛擬現實、電子游戲和教育應用中承諾了增強的用戶體驗。在音頻任務中,MLLMs為音頻處理任務帶來了新的技術變革。傳統的音頻處理通常依賴于單一模態的信號處理方法,如語音識別[23]或音頻分類[24],這些方法在處理復雜的多模態數據時存在局限性。MLLMs通過結合音頻信號、文本和視覺信息,能夠更好地理解和生成音頻相關內容。例如,在語音生成任務中,MLLMs可以利用文本和視覺信息生成更自然和上下文相關的語音輸出[25],[26]。在音頻理解任務中,這些模型可以結合視覺線索和文本描述,更準確地執行情感識別、音頻分類或音頻事件檢測。此外,MLLMs在跨模態音頻文本翻譯、音頻配樂生成和多模態情感分析等任務中顯示出強大的潛力[27],[18]。這些技術進步不僅提高了音頻處理的有效性,還擴展了其在智能家居、虛擬助手、影視制作等現實應用中的場景。本文回顧了MLLM應用的最新進展,在第二節介紹了MLLMs的基本概念和主要架構,第三節描述了它們在不同領域的表現,以識別其優缺點,第四節通過比較分析突出MLLMs的變革性影響,并在第五節提供了未來研究的路線圖。我們的討論旨在激勵持續創新,確保MLLMs在AI技術發展的前沿位置。通過對當前實施和進展的全面回顧,本文旨在總結研究成果,提供有價值的參考,并為MLLM領域的未來研究提供指導。我們的目標是激發新思想和新方向,以確保MLLMs在AI技術發展中保持領先地位。

II. 多模態大型語言模型概述

**A. 定義和基本概念

總體而言,MLLMs 代表了人工智能和機器學習領域的重大進展,具備處理和解釋多種數據類型(包括文本、圖像、音頻和視頻)的能力[28], [29], [30]。通過整合和合成這些不同模態的數據,MLLMs 實現了對信息更全面和精確的理解和生成[3]。

特別是,MLLMs 是專門設計用來同時處理和解碼多模態數據的復雜系統。MLLMs 的核心原理在于不同模態的整合和交互,這顯著增強了模型的有效性。這種多模態方法不僅提升了對單一數據類型的理解,還促進了它們之間的更細致的互動,從而擴展了 AI 應用的范圍和準確性。例如,在圖像描述任務中,MLLMs 利用文本和視覺數據生成準確且上下文相關的圖像描述。這種協同作用使模型能夠超越單一模態系統的限制,提供更豐富和詳細的輸出。此外,音頻和視覺數據的結合可以大大提高視頻理解和注釋任務的性能,使 MLLMs 成為需要詳細多媒體分析的應用中的寶貴工具。

通過利用各種數據類型的集體優勢,MLLMs 不僅增強了 AI 解釋和與世界互動的能力,還為機器理解復雜、多方面的信息開辟了新的發展方向。

**B. 多模態大型語言模型的主要組件

MLLM 通過多個關鍵組件有效地處理和整合來自不同模態的數據。這些組件設計用于將各種來源的原始輸入轉化為可操作的見解,使這些模型非常通用和有效。這些模型的架構大致可以分為三個主要組件:多模態輸入編碼器、特征融合機制和多模態輸出解碼器。

多模態輸入編碼器:多模態輸入編碼器是 MLLMs 中的關鍵組件,設計用于將來自不同模態的原始輸入數據轉化為模型可以有效處理的結構化格式。這個重要模塊專門處理不同類型的數據,確保每種數據形式都能被優化編碼,從而有效地貢獻于模型的整體功能。以下是編碼器如何處理每種數據類型的細節:

文本:對于文本數據,編碼器利用嵌入層技術,將詞匯映射到連續數字向量中,以及多層感知器(MLP)或更高級的 Transformer 來管理文本中的長程依賴和上下文。

圖像:視覺數據通過最先進的架構如 Vision Transformer (ViT) [31] 處理,ViT 將圖像部分視為序列以更好地捕捉關系,或通過殘差網絡(ResNet)[32] 處理,ResNet 幫助在各層中學習更深的特征而不丟失上下文。

音頻:音頻數據使用 C-Former [33]、HuBERT [34]、BEATs [35] 或 Whisper [36] 等模型進行分析。這些模型專門捕捉聲音的獨特特性,從基本音調到復雜的語言,增強了模型準確解釋聽覺信息的能力。

序列數據:對于如腦電圖(EEG)和心跳等序列數據,編碼器采用 1D 卷積神經網絡(1D-CNN)和長短期記憶網絡(LSTM)單元的組合。該設置特別有效于捕捉數據中的時間和空間模式,這對于醫療應用中的早期診斷至關重要。

通用編碼器:一種較新的創新是通用編碼器,旨在標準化處理各種高度多樣化的數據類型,包括音頻、視頻和功能性磁共振成像(fMRI)。該編碼器利用一種通用方法來處理和整合多種形式的數據,促進數據處理的一致性和效率。這些編碼器將原始輸入轉換為特征向量,然后轉化為固定長度的特征序列。這種標準化對于進一步處理數據至關重要,確保模型的后續層可以有效地執行特征融合和解碼。

通過適應和優化各種數據類型的初始處理,多模態輸入編碼器不僅提升了模型的性能,還擴展了其在不同領域的適用性。無論是提高圖像描述的準確性,豐富機器翻譯的上下文,還是推進醫療診斷工具的精度,這個編碼器在使 AI 模型能夠執行復雜任務方面發揮了基礎性作用。 特征融合機制:多模態模型的核心在于整合不同模態的特征。這個整合可以在不同階段進行[37],[38]:

早期融合:在初始階段結合輸入數據,利用不同模態的原始互聯性。

中期融合:在特征提取階段融合特征,使每種模態都能為統一表示做出獨特貢獻。

晚期融合:在決策階段整合單獨模態路徑的最終輸出,通常用于需要多種數據類型綜合判斷的任務。

聯合融合:一種混合方法,結合早期、中期和晚期融合,最大化各階段的數據利用。這些融合過程通常利用預訓練的大型語言模型(LLM),這些模型雖然最初設計用于文本數據,但通過高級特征投影和序列化技術適應處理和綜合多模態輸入。

多模態輸出解碼器:最后,多模態輸出解碼器將融合、綜合的多模態信息重新轉換為特定任務所需的可用形式。比如在圖像描述任務中,解碼器可能基于視覺輸入生成描述性文本。在視頻理解任務中,它可能生成結合視覺和聽覺數據的注釋或摘要。每個解碼器都經過精心設計以優化準確性和質量,確保輸出精確反映從綜合模態中獲得的見解。

總之,多模態大型語言模型的復雜架構使其能夠通過整合和合成文本、圖像和音頻數據來處理復雜任務。這種能力不僅提升了 AI 應用的性能,還為我們理解和互動技術開辟了新的創新途徑。

**C. 大型語言模型中的多模態特征概述

在融合多模態特征時,通常不會從零開始訓練新模型,而是利用現有的預訓練大型模型,如 LLMs。盡管預訓練的 LLMs 主要設計用于處理文本輸入,但可以通過各種技術使這些模型適應處理多模態數據。我們將在本節介紹一個具體示例,以詳細說明融合過程并進行理解。

首先,需要將每種模態的數據編碼并投影到統一的特征空間中。例如,可以使用預訓練模型如 ResNet 或 Vision Transformer 將圖像數據轉換為特征向量 Vimage。文本數據可以使用預訓練文本編碼器如 BERT [39] 轉換為特征向量 Vtext,音頻數據可以通過預訓練音頻編碼器如 wav2vec [40] 轉換為特征向量 Vaudio。然后,通過線性變換或其他投影方法將不同模態的特征向量映射到共享特征空間中。為了將這些多模態特征輸入到預訓練的 LLM 中,需要將來自不同模態的特征組織成一個序列。可以簡單地通過連接來自不同模態的特征(如 [Vimage, Vtext, ..., Vaudio, Vtext])來形成多模態特征序列。

接下來,將構建的多模態特征序列輸入到預訓練的 LLM 中進行處理。Transformer 模型通過多層自注意力機制和前饋神經網絡處理輸入特征序列。每一層包含自注意力和前饋網絡模塊,更新和整合特征表示,逐步提取更高層次的特征。經過多層 Transformer 處理后,模型生成一個包含綜合信息的特征表示序列。根據任務需求,可以通過特定的輸出層生成最終結果。例如,如果任務是生成文本描述,可以將綜合特征表示輸入到文本生成器中以生成描述性文本。

通過遵循這些步驟,可以有效地由 LLM 處理多模態特征。盡管預訓練語言模型如 GPT 和 LLAMA 主要設計用于文本輸入,但其能力可以通過特征投影和序列化方法擴展,以處理和整合多模態數據,從而執行復雜的多模態任務。

付費5元查看完整內容

相關內容

摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。

情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。

多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。

多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。

多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。

本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。


綜述的結構

第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。

多模態情感計算中的多模態學習

多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。

A. 初步概述

隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。

B. 多模態融合

多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。

**1) 跨模態學習

跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。

在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。

**2) 模態一致性與差異性

模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。

**3) 多階段模態融合

多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。

C. 多模態對齊

多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。

**1) 缺失模態的對齊

在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。

第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。

**2) 跨模態語義對齊

語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。

多模態情感計算中的模型

在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。

A. 多任務學習

多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。

**1) 多模態情感分析

在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。

**2) 多模態對話情感識別

在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。

**3) 多模態基于方面的情感分析

Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。

**4) 多模態多標簽情感識別

對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。

B. 預訓練模型

近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。

**1) 多模態情感分析

在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。

**2) 多模態對話情感識別

在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。

**4) 多模態多標簽情感識別

一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。

C. 增強知識

在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。

**1) 多模態情感分析

在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。

**2) 多模態對話情感識別

在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。

**4) 多模態多標簽情感識別

在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。

D. 上下文信息

上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。

**1) 多模態情感分析

在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。

**2) 多模態對話情感識別

在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。

**4) 多模態多標簽情感識別

MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論

多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。

付費5元查看完整內容

摘要——近年來,大規模基礎模型(FMs)如大型語言模型(LLMs)和潛在擴散模型(LDMs)對包括音樂在內的各個領域產生了深遠的影響。本綜述全面考察了音樂領域的最先進(SOTA)預訓練模型和基礎模型,涵蓋了表示學習、生成學習和多模態學習。我們首先將音樂在各行業中的重要性置于背景之中,并追溯了人工智能在音樂領域的發展歷程。通過分析基礎模型針對的多種模態,我們發現許多音樂表示在基礎模型的發展中仍然未被充分探索。接著,我們重點探討了以往方法在多樣化音樂應用中的局限性,以及基礎模型在音樂理解、生成和醫學應用中的潛力。通過全面探討模型預訓練范式、架構選擇、標記化、微調方法和可控性,我們強調了諸如指令調優和上下文學習、規模法則和涌現能力、長序列建模等重要議題,應該得到更多關注。我們還專門分析了音樂智能體,并對預訓練和下游任務所必需的數據集和評估進行了深入探討。最后,通過強調倫理考量的重要性,我們倡導未來在音樂基礎模型研究中應更加關注可解釋性、透明度、人類責任和版權等問題。本文為音樂領域的人機協作未來的挑戰和趨勢提供了見解,旨在塑造該領域的發展方向。

關鍵詞——自監督學習、基礎模型、音樂信息檢索、音樂指令跟隨、音樂生成

1. 引言

音樂是人類文化的重要組成部分,雖然在各個文化中普遍存在,但其形式卻千差萬別。音樂的功能包括情感調節、交流、促進社會凝聚力等,廣泛應用于藝術、娛樂、宗教和廣告領域,并且是一個對全球經濟有重要貢獻的大型產業。音樂不僅在文化上為人類社會帶來益處,而且在與人工智能結合時也帶來了獨特的技術挑戰。 計算機音樂領域位于音樂、計算機科學、電氣工程和人工智能的交叉點上,借鑒了哲學(美學)、心理學(感知、認知和生產)以及物理學(聲學)等學科的知識。對音樂的計算方法通常使用信號處理等技術從音頻信號中提取特征,然后應用機器學習算法進行音樂信息檢索(MIR)任務或音樂創作。 盡管基礎模型(FMs)在自然語言處理、計算機視覺和語音處理領域已經得到廣泛應用,但我們在藝術領域的AI應用,尤其是音樂領域,仍然處于起步階段。音樂特有的一個挑戰是復調信號建模。與語音和語言信號不同,音樂通常有多個同時發聲的“說話者”,且這些“說話者”所表達的“意義”并未與現實世界的物體或事件建立聯系。不同音符事件的出現并非獨立的,這使得捕捉音樂“語言”的建模任務變得具有挑戰性。此外,與語音或一般音頻相比,音樂通常持續時間更長,采樣率更高,這也增加了對整個音樂片段進行建模的難度。 近年來,預訓練語言模型(PLMs)的進展在一系列與音樂相關的計算任務中顯著優于傳統算法,展示了現代機器學習技術在前所未有的規模上理解和處理音樂的潛力。然而,一個關鍵的瓶頸是數據集的規模和質量。為了使算法在復雜、真實的場景中可靠運行,必須在多樣且具有代表性的數據集上進行訓練。算法的性能在很大程度上取決于標注數據集的規模及其標注質量,這也說明了為何需要大量高質量的數據。不幸的是,由于版權保護的公共領域數據有限以及標注和注釋的高昂成本,音樂數據集往往規模受限。 基礎模型通過使用自監督學習(SSL)方法在大量未標注的音樂數據上進行預訓練,從而解決了這一問題。SSL使模型能夠通過利用數據的內在結構,在無需顯式標注的情況下學習有意義的表示。這種方法類似于自然的人類學習過程。例如,當兒童聽到不同樂器演奏時,他們能夠學習每種未知樂器的特征,并在新樂曲中識別這些樂器,而不一定知道它們的名稱。同樣,SSL使得機器學習模型能夠從大量未標注的數據集中提取通用知識,從而提高其在缺乏大量標注數據的下游任務中的性能。與其他領域的成功案例類似,通過這種方法訓練的模型在音樂理解和生成方面顯示出有希望的結果。

**A. 什么是基礎模型?

“基礎模型”一詞用來描述一種多用途的機器學習模型,該模型并非為單一特定任務而訓練,而是作為多個派生模型的基礎,這些模型能夠執行廣泛的任務[BHA+21]。這一術語反映了從傳統的架構或任務細節到廣泛適用的模型的重點轉移,這些模型的涌現能力和泛化能力通過顯著增加模型參數數量而得到釋放[WBZ+21],[CND+22]。與強調人工智能發展中狹窄方面的術語(如大型語言模型或自監督學習)相反,“基礎模型”捕捉到了這些模型的通用性本質。 基礎模型的興起得益于計算硬件的進步、神經網絡架構的創新(如Transformer架構),以及對最低限度監督訓練范式的關注。基礎模型通常采用深度神經網絡架構,并在大規模未標注的數據集上使用SSL進行訓練。在預訓練階段之后,基礎模型可以通過相對輕量級的微調或上下文學習階段適應各種下游任務,例如使用比預訓練數據少幾個數量級的標注數據集。 從Google的BERT(雙向編碼器表示Transformers [DCLT18])和OpenAI的GPT(生成預訓練Transformer [BMR+20])系列語言模型開始,基礎模型展示了SSL在大規模網絡數據集上訓練的強大能力,擺脫了對標注數據的依賴,而這些標注數據在經濟上難以擴展到網絡規模的數據量。這些PLMs不僅在文本分析和文本生成中展現了其效用,還在其他模態中展示了其價值,包括CLIP [RKH+21a]、DALLE [RPG+21] 和Flamingo [ADL+22]的圖像處理,Audiobox [VSL+23]的語音和音頻生成,Jukebox [DJP+20a]、MusicLM [ADB+23]和MusicGen [CKG+24]的音樂生成,以及RT-2 [BBC+23]的機器人控制。 2022年Stable Diffusion1和ChatGPT2的發布標志著基礎模型在公眾影響力以及工業和學術界對AI生成內容(AIGC)的興趣方面的一個重要轉折點。這一顯著進展主要得益于對語言指令的跟隨能力、在擴展到大型語言模型(LLMs)時算法進展中的涌現能力,以及潛在擴散模型(LDMs)的真實質量[RBL+21]。這些方法表明了人工智能的范式轉變,因為通用框架可以支持跨不同領域的多種應用。盡管自AI研究的最初階段以來,開發具有多任務和未見任務通用能力的AI一直是研究人員的目標[NSS59],但在隨后的幾十年里,大多數AI研究都集中在單一或有限數量的預定義任務上。此外,通過自然語言交互訪問高級問題解決能力促進了非專業人士的使用。盡管開發基礎模型需要大量的資金和計算投資以及大量的人力投入,但為特定需求適應現有模型的成本更為低廉,而Stable Diffusion、Llama [TLI+23a]、Mistral [JSM+23]和MAP-NEO [ZQL+24]等開源基礎模型的發布使用戶、開發者和研究人員都能夠探索這些模型的可能性。 本文將討論兩種經過自監督預訓練的基礎模型,它們可以執行多種下游任務。第一種是單模態預訓練模型,適用于波形或符號域,需要對下游任務進行微調。這可以是某種音樂理解的PLM變體,如MERT [LYZ+24],也可以是音樂生成的PLM,如Jukebox [DJP+20a]。第二種是多模態預訓練模型,可以同時接受自然語言和音樂作為輸入,并且有潛力通過上下文學習解決下游任務。這包括帶有多個文本輸入的潛在擴散模型(LDMs),如MusicLDM [CWL+23a],在LLM前加上音樂編碼器的模型,如Mu-llama [LHSS24],或者帶有多模態標記器的LLM,如AnyGPT [ZDY+24]、Gemini 1.5 [RST+24]和GPT-4o。

**B. 為什么選擇音樂的基礎模型?

音樂的基礎模型不僅解決了數據稀缺問題并減少了注釋成本,還增強了音樂信息檢索和創作中的泛化能力。通過在大型音樂數據集上進行預訓練,這些模型提供了對未見結構、流派或樂器的更好理解能力。這些算法還可以通過世界音樂分析、音樂教育和新形式的藝術表達,幫助保護音樂的文化遺產。

  1. 對行業的影響:基礎模型比以往的方法在音樂方面擁有或將擁有更強大的商業應用潛力,包括在創作過程、音樂理解以及娛樂行業中的應用。

在創意應用領域,AIGC可能是基礎模型最明顯的應用,包括音樂,如個性化音樂生成和與音樂家的協同創作。基礎模型使得能夠基于用戶指定的偏好(如流派、情緒、節奏和樂器)生成音樂。隨著LLMs和LDMs在音樂領域的最新進展,許多具有商業影響力的音樂生成初創公司,如SunoAI、TiangongAI和Udio等,已經涌現。音樂家和制作人可以操控上述參數來引導創作過程,輔助創意構思。這類音樂生成應用能夠實現用戶與音樂家之間的新型互動形式。音樂可以根據聽眾的反饋或提示信息進行變化,潛在地創造出更具沉浸感和個性化的聽覺體驗。此外,基礎模型在與音樂家或音樂編輯的協作中表現出更強的專業性和穩定性,能夠更好地執行他們的指令。 基礎模型解決了音樂理解的多個方面。通過分析聽眾的習慣和理解音樂的偏好,基礎模型可以為聽眾提供更個性化的推薦,改善流媒體平臺上的用戶體驗。基礎模型還可以更好地檢測翻唱歌曲并識別版權侵權行為,幫助藝術家和公司更有效地保護他們的知識產權。它們還可以提供對音樂作品的分析,幫助音樂學家理解音樂結構、特征等。 在娛樂和媒體領域,基礎模型可以為音樂家和音樂編輯創建與視覺媒體敘事相對應的自適應音軌,增強電影和電子游戲的影響力和沉浸感。

  1. 社會影響:音樂基礎模型具有理解、生成和處理音樂的能力,可以對文化和社會產生深遠的影響。隨著基礎模型在各種音樂相關任務中的優勢顯現,音樂信息檢索的大多數主要應用領域都可以視為基礎模型的領域,因此基礎模型有可能改變我們與音樂互動、保護和理解音樂的方式,這也提出了重要的倫理和文化遺產考量。

關于文化保護與多樣性,基礎模型可以在保護瀕臨消失的世界文化和音樂傳統中發揮作用。通過分析多樣化的音樂數據集,這些模型可以識別出世界各地風格、作品和表演中的獨特特征,這類似于當前LLMs在理解小語種方面的能力。此外,基礎模型還可以促進文化認知,幫助人們探索世界不同地區的音樂。 在音樂人類學領域,基礎模型可以作為研究不同國家和時代音樂演變的工具。通過分析大量音樂數據,基礎模型可以揭示音樂模式和文化影響。將這種分析與社會和歷史數據聯系起來,基礎模型可能為音樂在不同社會中的角色提供洞見。 基礎模型可以通過創建適應學習者節奏和風格的個性化學習體驗,改善音樂教育。例如,可以作為虛擬導師提供理論和實踐知識、反饋、虛擬伴奏和模擬合奏演奏。這可能使音樂教育更易于獲得,無論傳統音樂教育資源的可用性如何,從而鼓勵更包容的音樂學習文化,并消除歷史上限制人們參與音樂創作的障礙。 在音樂治療中,基礎模型可以定制生成符合個人治療目標或情感需求的音樂,潛在地提供心理健康支持。同樣,在非臨床環境中,通過生成反映或對抗聽眾情緒狀態的音樂,基礎模型可以在情緒調節和健康實踐中發揮作用。 基礎模型生成模仿人類作品的音樂的能力提出了重要的倫理考量。模型從數百萬音樂家和藝術家創作的訓練數據中獲益這一事實引發了有關數據合法使用的法律挑戰和辯論。倫理討論集中在版權、原創性以及AI在創作過程中的角色等問題上,理想情況下應注重可解釋性和透明性。隨著這些模型的普及,社會必須在利用技術進行音樂創作創新與尊重人類藝術家的權利和貢獻之間取得平衡。 音樂基礎模型的影響可能是深遠的,提供了用于生成、分析和互動音樂的新工具,以及用于音樂教育和治療的新手段。隨著這些模型的發展,必須謹慎考慮其倫理影響,確保它們能夠豐富人類文化,促進更公平和包容的全球社會。有關音樂基礎模型倫理問題的更多信息,請參見第六節。

**C. 本綜述的目標

本綜述旨在全面概述與音樂領域相關的基礎模型,包括LLMs和LDMs。盡管先前的一些綜述文章已經探討了FMs [BHA+21] 或LLMs [ZZL+23], [HLC+24] 在特定領域(如視覺 [ZHJL24],語音 [ZLL+23], [MMB+23], [LCP+23] 和音頻 [WCL+24], [MLPW22], [LSS+23], [TTG+24])的應用,但它們并未全面覆蓋與音樂相關的FMs應用。此外,先前的音樂綜述也未能提供關于FMs的全面概述。例如, [JLY20] 未能納入2021年后的新進展,特別是在LLMs和音頻LDMs方面。同樣,[HSF+24] 主要關注數字信號處理方法,忽視了FMs在音樂合成和理解中的整合。[HOHOB22] 雖然簡要提到了LLMs和LDMs,但缺乏對其在音樂理解以及多模態性應用中的深入探討。[ZBRR23] 提供了有限的關于音樂生成模型的討論,主要側重于商業場景,忽略了關鍵技術細節和倫理考量。 我們的綜述旨在彌合這一差距,回顧從音樂理解到生成、治療及與這些技術相關的倫理影響的廣泛FM應用。通過這樣做,我們希望強調音樂數據為FMs提出的獨特挑戰和機遇,包括建模長期時間依賴性和評估藝術輸出等方面。此外,本綜述還致力于更新文獻中未覆蓋的LLMs和音頻LDMs的最新進展。 本綜述將詳細探討音樂中的基礎模型。第2節研究了音樂模態和表示,包括心理聲學、音頻表示、符號音樂表示及其與其他模態的整合。然后,我們在第3節討論了FMs在音樂中的多樣化應用,包括理解、生成和醫學應用。第4節涵蓋了FMs的技術方面,重點討論預訓練策略、(指令)微調、模型架構、音頻標記化、LLM基礎模型的應用、音樂智能體、規模法則和涌現能力,以及未來工作。第5節的討論擴展到數據集和評估方法,重點介紹了音樂理解和生成任務中聲學和符號域的挑戰和解決方案。最后幾節批判性地評估了在音樂中使用FMs的倫理和社會影響以及版權問題。它們還涉及了潛在的文化問題,包括算法的透明性和互操作性、人類的責任和版權問題。我們建議一般機器學習研究人員關注第2和第3節,計算機音樂研究人員關注第4節中的FM方法論。若需快速入門,請參閱GitHub倉庫。

付費5元查看完整內容

摘要——大型語言模型(LLMs)的快速進展有潛力革新各個領域,但其迅猛發展在監督、倫理開發和建立用戶信任方面帶來了顯著挑戰。本綜述全面調研了LLMs中的關鍵信任問題,重點關注意外傷害、缺乏透明性、易受攻擊、人類價值觀對齊和環境影響等問題。我們強調了可能破壞用戶信任的諸多障礙,包括社會偏見、決策過程中的不透明性、潛在的濫用以及技術快速演變帶來的挑戰。隨著LLMs在金融、醫療、教育和政策等敏感領域的普及,解決這些信任差距至關重要。 為了解決這些問題,我們建議采用綜合方法,包括倫理監督、行業問責、監管和公眾參與。我們主張重塑AI開發規范、對齊激勵措施,并在整個機器學習過程中整合倫理考量,這需要技術、倫理、法律和政策等不同領域專業人士的密切合作。我們的綜述通過提供一個評估LLMs信任的強大框架和對復雜信任動態的深入分析,為該領域作出了貢獻。我們提供了上下文化的指南和標準,旨在負責任地開發和部署這些強大的AI系統。 本綜述識別了在開發可信AI過程中面臨的關鍵限制和挑戰。通過應對這些問題,我們的目標是創建一個透明、負責的AI生態系統,在帶來社會利益的同時將風險降至最低。我們的研究成果為研究人員、政策制定者和行業領導者提供了寶貴的指導,幫助他們在各類應用中建立對LLMs的信任,并確保其負責任地使用造福社會。 關鍵詞——AI治理、算法偏見、可解釋的AI、大型語言模型、可信的AI。

人工智能(AI)的發展顯著受到了作出基礎性貢獻的關鍵人物的影響。AI的創始人約翰·麥卡錫提出了“人工智能”一詞,并倡導使用數學邏輯來表示知識,開創了知識表示領域。他還開發了LISP,這是一種對AI進展至關重要的編程語言[1]。麻省理工學院計算機科學與人工智能實驗室的聯合創始人馬文·明斯基通過理論AI研究推動了對機器智能和推理的理解[2]。由麥卡錫、明斯基、內森尼爾·羅切斯特和克勞德·香農提出的1956年達特茅斯會議是AI歷史上的一個關鍵時刻,將該領域從理論概念轉向實際應用[3]。這一時期見證了啟發式搜索技術和早期機器學習模型的進步,展示了AI向實際應用的轉變。

1970年代后期,AI進展放緩,被稱為“第一次AI寒冬”。這是由于未能達到預期和計算能力有限導致資金和興趣的減少。1980年代見證了向實際AI應用的轉變,如專家系統和自然語言處理,為大型語言模型(LLMs)奠定了基礎,推進了AI對語言理解和生成的能力。盡管在AI寒冬期間面臨挑戰,早期的專家系統在AI商業化方面起到了關鍵作用[4]。

最近的AI進展歸因于廣泛的數據集和日益增加的計算能力,特別是GPU的使用。這些因素在推動深度學習技術的發展中起到了關鍵作用,顯著影響了計算機視覺和語音識別[5],[6]。另一個重要的里程碑是語言模型的創建,這些模型能夠處理和生成類人文本,從而擴展了AI的能力。深度神經網絡(DNNs)和LLMs的有效性導致了AI在醫療、金融、交通和零售等各個行業的廣泛采用,提高了效率和數據處理能力[8]-[10]。神經網絡(NNs)用于分析大量數據集并識別模式,而LLMs則用于為自動化客戶服務的聊天機器人提供動力[11]-[14]。這些技術革新了不同領域的技術互動,凸顯了深度學習和語言模型對AI進展的重大影響[9]。 DNN架構,包括LLMs,導致了“黑箱”問題,使得理解其工作原理及其結果變得困難[15]。雖然像決策樹這樣的簡單AI模型是透明的,但LLMs缺乏透明性,這在用于決策時引發了倫理問題。挑戰在于使這些系統更透明和可理解,同時考慮到潛在的偏見和錯誤。解決這些問題的努力包括開發使算法過程更透明的方法,但這在AI倫理和治理中仍然是一個重大挑戰[16]。要更好地理解這一點,請參見圖1,它展示了AI的演變和信任挑戰。

時間軸展示了AI在醫療、金融、交通、零售和電子商務領域的日益擴大影響。LLMs在利用先進的語言生成技術變革內容創建方面處于領先地位。時間軸強調了AI中的信任和監督挑戰以及建立信任策略的重要性[17],[18]。它揭示了AI進展與政策和治理發展之間的差距。

LLMs的最新進展改善了其語言生成能力,但其復雜性阻礙了我們對其決策過程的理解。黃和王在2023年的調查[19]強調了解釋性對LLMs的重要性,特別是在需要透明度和信任的關鍵行業。主要發現包括:a)用于基于神經網絡的NLP模型的事后解釋工具如InSeq工具包;b)模型校準和不確定性估計技術;c)用于擴展和推理的指令微調LLMs研究,問題回答中的元推理;d)LLMs的數學推理能力,語義解析魯棒性研究,減少LLM使用危害的舉措,Aug-imodels等框架[19]用于高效和可解釋的模型,評估代碼訓練的LLMs,以及e)改進LLM推理性能的Chain-of-Thought樞紐措施。他們的研究強調了解釋性對LLMs的倫理和實際重要性。在LLMs被集成到多種應用中時,提供可理解和可解釋的響應是重要的。增強模型設計和交互、提高魯棒性和效率、指導訓練技術都是理解LLM操作的好處。他們的調查是揭開LLM復雜性的一個重要貢獻,為在醫療、金融和法律領域透明和倫理部署LLM奠定了基礎。它為未來研究奠定了基礎,以彌合原始LLM輸出與人類可理解解釋之間的差距。持續開發LLM解釋性對推進AI技術的可信性和可及性至關重要。

A. 構建大型語言模型的信任

黃和王的調查工作[19]及更廣泛的解決“黑箱”問題的努力指明了清晰的前進方向。然而,我們需要一種綜合方法,考慮倫理、技術和政策,以構建AI系統的信任,尤其是像LLMs這樣復雜的模型。 1)LLMs的倫理問題:LLMs在醫療、金融、政策制定和法律系統等領域的日益使用引發了關于隱私、偏見、公平和問責的倫理問題,原因是它們具有先進的自然語言能力。 LLMs可能會因為訓練文本數據中包含敏感信息而損害隱私。這可能導致隱私泄露,例如暴露醫療保健中的機密患者數據或在數據分析中泄露敏感的客戶記錄。為減少這些風險,有必要避免將個人可識別信息納入模型,并評估其隱私影響。確保LLM系統中的透明性和用戶對其數據的控制至關重要。明確的數據隱私指南和法規對于與用戶建立信任至關重要[20]-[30]。 偏見是LLMs的另一個倫理問題。它指的是LLMs在訓練數據中反映和延續的偏見,這可能導致偏見輸出或決策,損害邊緣化群體。性別、種族或文化偏見可能影響LLM模型,導致不公平或刻板印象的輸出和歧視性決策。例如,一個以人力資源為重點的LLM助手可能會對某些群體不利。為解決這一問題,公司應建立多元化的審查委員會,并定期使用偏見檢測工具審核LLM輸出[31]-[33]。 LLMs的另一個倫理問題是公平性,指的是公正待遇。LLM系統必須避免偏見并確保公平,通過公正對待每個人來實現。不公平的LLM模型可能會加劇不平等并造成傷害。例如,在公共政策中使用LLMs評估貸款或抵押申請可能會加劇經濟不平等。實現LLMs的公平性需要防止數據和算法中的偏見,使用對抗性去偏技術,并使用明確定義的指標持續評估公平性[34]-[37]。 問責在LLM系統中至關重要[38]-[40]。由于其復雜的推理過程,LLMs在醫療、司法和就業等影響人們生活的領域中尤其難以追究責任。用戶和利益相關者應知道誰對開發、部署和維護負責。他們應有錯誤、偏見或傷害的申訴機制。組織應建立明確的責任制和透明的治理,包括AI倫理委員會、模型性能的詳細記錄和跟蹤,以及關于LLM系統開發和部署的全面報告。 訓練和運行如GPT-3之類的LLMs需要大量的計算資源,導致高能耗和碳排放[41]。例如,GPT-3的訓練消耗了大約1287 MWh的電力,產生了502公噸的CO2排放,相當于112輛燃油車一年的排放。推理過程可能比訓練消耗更多的能量,估計約60%的AI能量用于推理,40%用于訓練[42]。一次ChatGPT請求的能耗可能是一次谷歌搜索的100倍。盡管LLMs目前對整個ICT行業的排放貢獻不到0.5%,對全球總排放的貢獻不到0.01%,但其影響正在迅速增加[43],[44]。為了促進AI的可持續性,行業應優先透明測量能耗和排放,利用可再生能源數據中心,開發更高效的AI硬件和算法,啟用排放跟蹤功能,并考慮轉向較小的專用模型而非大型通用LLMs。盡管LLMs目前對全球排放的貢獻很小,但其日益廣泛的使用需要積極努力減輕其環境影響,確保AI發展惠及世界而不加劇氣候變化。AI社區、政府和科技公司之間的合作對于實現更可持續的AI未來至關重要[45],[46]。

2)信任基礎上的LLMs技術進步:LLM系統需要解決技術挑戰以建立信任,例如解釋性。解釋性指的是理解和解釋LLM系統的決策過程。透明性通過使用戶理解系統的推理并識別潛在的偏見或錯誤來建立信任。可解釋的LLM系統可以幫助識別倫理問題并提供決策見解[20],[47],[48]。 可解釋AI(XAI)技術對于理解LLMs及建立其復雜系統的信任至關重要。注意力機制提供了對模型預測的見解[49],但其解釋可能存在爭議[50]。更可靠的方法如綜合梯度[51]和代理模型[52]提供了特征相關性的量化指標,增強了我們對模型決策的理解。最新進展應用電路分析[53]來分解復雜的黑箱LLMs為可解釋的元素,提供了模型操作的詳細見解。使用提示技術生成的模型解釋允許全面的因果敘述[54]。然而,重要的是嚴格評估這些解釋的準確性和有用性[55]。使用各種XAI方法對于LLM的負責任使用至關重要。清晰的解釋通過描述模型的能力、局限性和風險來幫助建立終端用戶的信任[56]。它們對于調試[57]、識別偏見[58]和促進倫理使用至關重要。隨著LLMs的進步,開發可解釋的LLMs至關重要。這在技術上具有挑戰性,但在倫理和研究上必不可少。定制的XAI技術需要在各個層次提供解釋,反映模型的邏輯以增強用戶信心、確保安全并指導AI的倫理使用。

另一個技術挑戰是數據偏見。數據偏見指的是LLM訓練數據中的不公平偏向或歧視。它可能導致有偏見的結果并延續社會不平等。解決數據偏見需要采取措施,如數據審計、預處理以減輕偏見以及多樣化訓練數據集以實現代表性和包容性。明確定義的指標可以幫助評估LLM系統的公平性、準確性、可靠性和透明性,提供其倫理表現的量化指標[20],[37],[47],[48]。

最新研究探索了通過解決幻覺和缺乏可解釋性等問題來提高LLMs可信度的技術[59]。他們提出了一種稱為圖上的推理(RoG)的方法,通過知識圖譜與LLMs協同進行真實和可解釋的推理。在其檢索-推理優化方法中,RoG使用知識圖譜檢索推理路徑,以便LLMs生成答案。RoG中的推理模塊使LLMs能夠識別重要的推理路徑并提供可解釋的解釋,增強了AI系統的可信度。通過專注于知識圖譜中的推理過程并提供透明的解釋,像RoG這樣的方法展示了建立LLMs信任的有希望的方向[59]。

具有可靠日志記錄的可解釋系統增強了透明性、審計和問責制[60]。文檔和日志記錄提供了對決策過程的見解,支持錯誤解決,并確保遵守倫理和法規標準,從而建立用戶信任。這些機制使技術和非技術利益相關者能夠理解AI系統的內部運作,并確定影響其輸出的因素。

3)用戶信任的心理因素:用戶對LLMs的信任在很大程度上取決于心理因素,而不僅僅是技術的可靠性[61]-[65]。用戶必須對LLM系統的可靠性、準確性和可信度有信心。通過有效的溝通和透明性可以實現這一點。組織應清楚地傳達LLM系統的能力和局限性,提供有關系統工作原理和決策方式的信息。此外,組織應對其數據收集和使用實踐保持透明,讓用戶了解他們的數據如何被使用和保護。

4)信任基礎上的LLMs政策與治理:有效的治理對于管理部署LLM系統相關的倫理、技術和問責問題至關重要[36],[40],[47],[61],[66]-[69]。應建立結構和流程,以確保LLM系統的倫理和負責任開發、部署和監控。涉及關鍵利益相關者,如AI倫理委員會、監管機構和行業專家,可以提供指導和監督。為了確保公平和無偏見的決策,必須包括用戶反饋和多樣化的觀點。為了建立對LLMs的信任,我們必須解決解釋性和數據偏見等技術問題,同時建立強有力的治理框架。

5)社會經濟影響:必須評估LLMs的社會經濟影響,以了解其對勞動力和社會的影響。LLMs可能會取代人類工人,導致失業和社會動蕩。需要投資于技能發展,以幫助工人適應變化。再培訓計劃和其他培訓可以使工人能夠與LLMs協同工作或從事新角色。應實施優先考慮工作保障和社會支持的政策,以減輕影響。探索LLMs的潛在社會福利,如增加信息獲取,可以促進更包容的社會。在設計和實施LLMs時,倫理考量和負責任的部署至關重要。應建立促進透明、問責和公平的政策和法規。對LLMs影響的仔細考慮、技能發展的投資和負責任的部署對于對社會產生積極影響至關重要[70]-[72]。

B. 本綜述的主要貢獻

本綜述對AI系統的信任進行了全面分析,重點關注LLMs。通過審查倫理、技術和社會因素,我們為負責任的AI開發討論作出了貢獻。我們的綜述提供了應對構建AI系統信任挑戰的見解和建議,特別是LLMs。主要貢獻如下所述。

? 綜合評估框架:本綜述提供了一個用于分析高級AI系統,特別是LLMs中的算法偏見和漏洞的分類法。該框架由八個視角組成,涵蓋透明性、魯棒性、人類價值對齊和環境影響等方面。此方法使得能夠對LLMs的信任進行徹底評估,解決其開發和部署中的問題。通過整合多種視角,該框架提供了LLM可信度的全貌,對負責任的AI作出了重要貢獻。 ?** 綜合信任動態分析**:本綜述審查了影響用戶對AI系統信任的因素,包括心理、倫理、技術和政策方面。通過分析AI能力、法規和社會接受度的交叉點,識別了實現可信AI的障礙。此研究揭示了信任動態,為從事負責任的AI開發和實施的研究人員、政策制定者和行業專業人士提供了指導。 ? 針對LLMs的上下文化指南和標準:本綜述審查了現代AI系統,特別是不透明模型如LLMs的倫理指南和政策標準的應用。倫理指南在確保AI使用的責任方面發揮重要作用。然而,LLMs由于其類人文本生成和缺乏透明性,面臨獨特的挑戰,這使得理解和解釋其行為變得困難。本綜述探討了在實際LLM部署中實施倫理原則的實際意義,考慮了技術限制、社會影響和潛在風險。它識別了局限性并提供了解釋和操作化LLM開發和部署倫理指南的見解。目標是通過突出差距并倡導完善LLM特定指南來促進AI治理,促進AI使用的透明性、公平性和問責制。

C. 本綜述的局限性

本綜述對AI信任進行了全面審查,特別關注LLMs。然而,重要的是要承認我們研究的局限性。我們的分析基于現有的AI倫理和信任領域的文獻和研究,包括專門針對LLMs的相關工作。因此,本綜述可能無法完全捕捉這些快速發展的領域中最新的想法或進展。

我們的分析范圍限于學術出版物和行業報告,這限制了所考慮的觀點范圍。對于LLMs,這尤為相關,因為本綜述可能未包括未出版的研究或不太知名的觀點,這些觀點可能提供寶貴的見解。此外,鑒于AI技術發展和LLMs倫理考慮不斷演變的速度,本綜述中提出的一些討論和結論可能會隨著時間的推移而變得不再相關。盡管我們的綜述旨在涵蓋AI,包括LLMs,越來越多部署在高風險領域中的情況,但它并未詳盡地解決所有與LLMs相關的信任方面或行業特定挑戰。本綜述中提出的解釋和分析基于撰寫時可獲得的最佳數據和研究。讀者在評估這些發現和建議時應考慮這些局限性。

需要強調的是,本綜述的目標是對AI和LLMs的信任進行全面審查,同時保持對分析范圍的透明度。我們旨在通過探索現有的指南和框架、討論構建LLMs信任的方法和挑戰以及提出未來研究方向,為AI信任和倫理的持續對話作出貢獻。我們鼓勵在可能探索較少或快速發展的領域進行進一步研究和對話,因為這些討論對于AI系統負責任的開發和部署至關重要。在本綜述中,我們創建了一個敘述,捕捉了AI信任的當前狀態及其領域中的潛在發展。然而,AI倫理和信任的領域是復雜和多面的,我們的綜述可能未涵蓋每一個細微差別或觀點。盡管如此,我們希望這項工作能為研究人員、政策制定者和從業人員在應對與AI和LLMs信任相關的挑戰和機遇時,提供有價值的資源。

付費5元查看完整內容

盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。

大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。

為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。

本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。

投機解碼:并行預測與驗證

投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。

**Blockwise 解碼

Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。

**SpecDec 方法

SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。

**自我投機解碼(SSD)

自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。

提前退出機制:動態計算資源分配

提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。

**CALM 框架

Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。

**FREE 方法

Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。

**HASH EE

Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。

非自回歸模型:并行生成目標令牌

非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。

**NAT 模型

非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。

**FlowSeq 模型

FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。

**依賴感知解碼器(DePA)

依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。

結論與未來展望

本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。

付費5元查看完整內容

摘要 —— 隨著ChatGPT的興起,大型模型的使用顯著增加,迅速在整個行業中脫穎而出,并在互聯網上廣泛傳播。本文是對大型模型微調方法的全面綜述。本文研究了最新的技術進展以及在諸如任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調和動態微調等方面應用先進方法。 索引術語 —— 大型語言模型(LLMs)、任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調、動態微調 I. 引言 變換器(Transformer)模型的出現標志著自然語言處理(NLP)領域的一個重要里程碑。變換器架構最初是為了解決循環神經網絡(RNNs [143])和卷積神經網絡(CNNs [55])在處理長距離依賴關系中的局限而設計的,該架構由Vaswani等人在2017年引入[126],徹底改變了我們處理語言理解和生成任務的方式。 變換器架構背景:變換器模型源于對比傳統模型更有效處理序列數據的需求。其獨特的架構,不依賴遞歸和卷積,利用注意力機制來抽取輸入與輸出之間的全局依賴關系,顯著提高了處理效率和模型性能。 編碼器[19]、解碼器[95] [96] [13]以及編解碼器[100]架構:變換器架構主要由其編碼器和解碼器組成。編碼器處理輸入序列,創建每個詞的豐富上下文表征。相比之下,解碼器通常在語言翻譯任務中生成輸出序列,使用編碼信息。 兩者的區別在于它們的角色:編碼器是輸入的上下文感知處理器,而解碼器基于編碼輸入生成預測。編解碼器架構常用于序列到序列的任務,結合這兩個組件,便于處理復雜任務,如機器翻譯,編碼器處理源語言,解碼器生成目標語言。 大型模型中的微調興起:微調大型語言模型的概念源于將這些模型從訓練于龐大、多樣的數據集適應到特定任務或領域的挑戰。微調調整模型的權重,針對特定任務,增強其從廣泛語言模式到特定應用需求的泛化能力。隨著模型規模和復雜性的增長,這種方法變得越來越重要,需要更精細的適應技術來充分發揮其潛力。 本文的結構旨在提供關于微調大型語言模型的方法論和進展的全面概覽。后續部分的組織如下: 文獻回顧:審視語言模型的發展,突出變換器架構的關鍵發展和基礎概念。 理論基礎:深入探討變換器模型的理論基礎,包括注意力機制、編碼器和解碼器的機制。 微調策略:討論各種微調方法,如任務特定、領域特定的適應和高級技術,如小樣本學習和動態微調。 挑戰與未來方向:識別微調方法中的當前挑戰,并探索這一迅速發展領域的潛在未來研究方向。 本文介紹了基于變換器架構的大型語言模型的范式,并提供了常用的大模型微調方法的詳細概述。文章以一個比較實驗結束,聚焦于六個文本分類數據集上的模型大小和LoRA微調范式。實驗代碼已在GitHub上提供。

付費5元查看完整內容

人工智能模型的成功依賴于大量、多樣化和高質量數據集的可用性,由于數據稀缺、隱私問題和高成本,獲取這些數據可能面臨挑戰。合成數據作為一種解決方案應運而生,通過生成模仿現實世界模式的人造數據。本文提供了合成數據研究的概覽,討論了其應用、挑戰和未來方向。我們呈現了先前藝術作品的實證證據,以證明其有效性,并強調確保其事實性、保真度和無偏見性的重要性。我們強調需要負責任地使用合成數據,以構建更強大、包容和可信的語言模型。

//www.zhuanzhi.ai/paper/23dede415fe236688f496c1c456a1265

人工智能(AI)技術的迅速發展導致其在眾多領域得到廣泛應用,從助手代理(例如,Adept AI的ACT-1)和軟件開發(例如,Cognition Lab的Devin)到醫療保健(Singhal等人,2022年)和金融(Zheng等人,2022年)。然而,AI模型的成功在很大程度上依賴于大量、多樣化和高質量數據集的可用性,用于訓練和評估。由于數據稀缺(Babbar和Sch?lkopf,2019年)、隱私問題(Abay等人,2019年)以及數據收集和注釋的高成本(Gilardi等人,2023b),獲取此類數據集可能是一個重大挑戰。悲觀者預測,到2050年我們將耗盡新鮮的文本數據,到2060年將耗盡圖像數據(Villalobos等人,2022年)。合成數據已經成為解決這些挑戰的有希望的解決方案(Nikolenko,2021年)。合成數據指的是通過算法(Saxton等人,2019年)、生成模型(Borisov等人,2022年;Meng等人,2022年)或甚至模擬(Liu等人,2023c;Vezhnevets等人,2023年)而非直接由人類創建的,模仿現實世界數據特征和模式的人造數據。通過利用合成數據,我們不僅可以克服現實世界數據的限制,還可以解鎖發展更健壯、可靠和公平AI模型的潛力(Lu等人,2023年;Lucini,2021年)。合成數據的許多好處之一是它可以大規模生成,為AI模型提供豐富的訓練和測試數據。這在現實世界數據稀缺或難以獲取的領域尤其寶貴(例如,涵蓋所有條件的天氣數據(Lam等人,2023年;Li等人,2023a))。其次,合成數據可以根據特定需求進行定制,例如通過引入控制變異來確保不同類別的平衡表征(例如,在多語言學習中增加低資源語言的權重(Przystupa和Abdul-Mageed,2019年))。這種對數據特征的控制水平可以提高模型性能和泛化能力。第三,合成數據可以通過創建匿名化或去標識化數據集來幫助緩解隱私問題,這些數據集不包含敏感的個人信息(El Emam等人,2020年;Howe等人,2017年)。這在醫療保健等領域至關重要,在這些領域中,患者隱私至關重要(Dahmen和Cook,2019年;Wei等人,2019年)。盡管合成數據具有潛力,但也存在需要解決的挑戰。其中之一是確保合成數據的事實性和保真度(Heusel等人,2017年;Wood等人,2021年),因為在虛假、幻覺或有偏見的合成數據上訓練的模型可能無法推廣到現實世界情境(Guarnera等人,2020年;Van Breugel等人,2023年)。研究人員必須開發復雜的生成模型和評估指標,以創建準確反映現實世界數據中復雜模式和關系的合成數據。另一個挑戰是,如果合成數據設計和驗證不當,可能會放大偏見或引入新的偏見(Barbierato等人,2022年;Gupta等人,2021年)。我們認為,嚴格的測試和公平性評估是必要的,以減輕這些風險。在本文中,我們追蹤了合成數據研究的當前狀態,并討論了當前的最佳實踐和經驗教訓。本文的其余部分組織如下。第2節提供了合成數據生成技術及其在模型訓練中的應用的概述,呈現案例研究和實證證據。第3節討論了合成數據在評估中的用途。第4節討論了合成數據的挑戰和局限性,在第5節中,我們概述了潛在的解決方案和未來研究方向。

2. 合成數據在訓練中的應用

合成數據通過模擬真實世界收集的真實數據生成,已被證明是一種有效且相對低成本的真實數據替代品。本節探討了幾個利用合成訓練數據的顯著領域。

2.1. 推理

數學。最近在語言模型(LMs)的數學推理方面的進展促使了各種提升數學相關任務性能的方法的發展。其中一種方法是在針對數學的預訓練數據上訓練,例如Minerva(Lewkowycz等人,2022年)、Llemma(Azerbayev等人,2023年)和DeepSeekMath(Shao等人,2024年)。另一種主流方法是生成模擬目標基準的訓練或驗證集的合成問題和答案。例如,WizardMath(Luo等人,2023a)利用GPT-3.5進行一系列操作以提高問題和答案的復雜性,而MetaMath(Yu等人,2023)通過語義重述、自我驗證和逆向推理等不同方式改寫MATH和GSM8K的問題。GAIR-Abel(Chern等人,2023)發現增強答案的格式對最終性能至關重要,以問題的釋義開始,然后逐步解答的答案表現優于普通格式。Xwin-Math(Li等人,2024)進一步將合成SFT數據擴展到一百萬例,并發現LLaMA-2 7B模型(Touvron等人,2023)仍可從數據擴展中受益。MMIQC(Liu和Yao,2024)組成了一個數據集包,將SFT風格數據(通過問題-答案重述或直接來自MetaMath)與一部分高質量的數學預訓練數據(如OpenWebMath(Paster等人,2023))結合起來。擴大生成合成數學數據是一個直接的過程,但確保生成的數學數據的正確性仍然是實踐者面臨的重大挑戰。AlphaGeometry(Trinh等人,2024)是最近解決這一問題的嘗試,該模型通過使用1億個合成數據點進行訓練,提出解決方案并指導符號演繹引擎驗證解決復雜幾何問題時每個分支的正確性。通過結合合成數據的力量和嚴格的驗證過程,AlphaGeometry實現了與人類奧林匹克金牌得主相當的解題能力,展示了這種方法在處理復雜數學推理任務中的潛力。編碼。與數學不同,合成數據用于代碼推理可以自然地將執行結果與結構化代碼結合起來,因為正確代碼的一個要求是可執行的。在增強編碼的模型中,CodeRL(Le等人,2022年)提出了一種演員-評論家方法,通過對合成代碼樣本的反饋信號改進預訓練語言模型。Haluptzok等人(2022年)提出了一種自我改進策略,其中模型生成自己的合成難題-解決方案對。這些對然后由真實解釋器驗證并過濾,之后用于微調語言模型。Shypula等人(2023年)進一步提出了一個框架,利用模擬環境和自我改進合成數據生成及CoT提示等適應策略進行代碼優化。Yang等人(2024年)開發了InterCode,一個旨在增強交互式代碼生成的框架,在這個框架中,代碼作為動作,執行反饋作為觀察。Reflexion(Shinn等人,2024年)利用外部或內部模擬的語言反饋信號來提高語言模型的代碼推理能力。關于合成SFT數據,Code Alpaca包含一個由20K代碼指令自動生成的數據集,這些指令通過將SELF-INSTRUCT(Wang等人,2022a)應用于ChatGPT的21個種子任務生成。WizardCoder(Luo等人,2023b)引入Code Evol-Instruct來指導ChatGPT,通過啟發式提示增強合成數據的復雜性和多樣性。同時,Magicoder(Wei等人,2023c)開發了OSS-INSTRUCT,從開源代碼片段生成75K多樣化的合成指令樣本。其他推理任務。合成數據在其他推理任務中也帶來了令人印象深刻的表現。例如,Wei等人(2023a)通過將自然語言標簽替換為任意符號,增強現有自然語言數據集,生成了超過50萬個合成示例。使用這些合成數據進行監督微調顯著提高了模型在未見過的上下文學習和算法推理任務上的性能。STaR(Zelikman等人,2022年)生成合成的思維過程理由,并過濾掉那些導致錯誤答案的理由,以微調語言模型,提高其推理能力。在物理推理領域,Mind’s Eye(Liu等人,2022年)采用了一種新穎的方法,通過合成“文本描述 → 渲染代碼”的數據訓練文本到代碼模型。這使得模型能夠將文本問題轉換為渲染代碼,然后在物理引擎(即DeepMind MuJoCo(Todorov等人,2012年))中執行。渲染結果被注入上下文中,即使是小型語言模型也能借助Mind’s Eye實現與100倍大的模型相當的性能。

2.2. 工具使用和規劃

通過合成軌跡學習使用工具。合成數據也是一種強大的方法,可以通過模擬軌跡使LMs學習使用工具的能力,因為收集真實世界中的人類使用工具的數據可能既耗時又不實際,并且調用工具的實際分布可能是偏斜的。例如,LaMDA(Thoppilan等人,2022年)不僅在網頁文檔上進行了訓練,還在眾包工作者與模型本身之間的交互數據上進行了訓練,合成數據中注明了調用適當工具的信息。這一訓練過程使LaMDA能夠發展出使用計算器進行算術、使用搜索引擎進行實時信息搜索和使用機器翻譯進行翻譯的能力。類似地,Toolformer(Schick等人,2024年)學習決定調用哪些API及傳遞什么參數,通過在模板生成的數據上訓練,而Galactica(Taylor等人,2022年)將API調用數據融入預訓練混合中。ToolAlpaca(Tang等人,2023年)是一個旨在自動生成多樣化工具使用語料庫的新穎框架,通過構建多代理模擬環境并讓代理反復選擇并使用工具。這些例子展示了合成軌跡在使LMs獲得使用工具的能力和提高其在各種領域的推理能力方面的潛力。在合成環境中學習規劃。自治機器智能(LeCun,2022年)中代理的一個重要特征是規劃——將復雜任務分解為子任務并以獎勵最優的方式完成子任務的能力(Kambhampati等人,2024年)。合成數據在這里可以作為一種寶貴的工具,因為它可以作為從模擬器收集的反饋信號(Park等人,2023年),并且在其上的學習可以使代理意識到可供性(Ahn等人,2022年;Liang等人,2022年)。例如,Inner Monologue(Huang等人,2022年)利用模擬環境生成的自然語言形式反饋教導基于LLM的機器人規劃。他們發現這種反饋顯著提高了在模擬和真實世界領域的高級指令完成率。為了組成大量現實的規劃任務(例如,“重新排列桌子上的物品以匹配給定場景。”),VIMA(Jiang等人,2022年)創建了一個稱為VIMA-Bench的多模態模擬環境,支持可擴展的物品和紋理集合。在Minecraft游戲中,Voyager(Wang等人,2023年)部署了多個基于GPT-4的代理與合成環境交互,發現代理能夠更快地解鎖新技能并在合成反饋的幫助下更有效地完成規劃。

2.3 多模態

從視覺到文本的逆向渲染。視覺-語言對齊數據側重于準確地將視覺輸入與LLM(通常通過視覺編碼器)對齊。自從CLIP(Radford等人,2021年)和ALIGN(Jia等人,2021年)以來,網絡抓取的圖像-標題對在過去幾年中一直是最受歡迎的多模態對齊數據。然而,網絡抓取的圖像-文本對通常很嘈雜,并且只具有粗粒度的對應關系,不足以在語言中對圖像的細節進行定位。在文檔、屏幕、圖表和圖解等領域,這種精細的對齊最方便地可以通過構建圖像渲染引擎的數據合成流水線獲得。Pix2Struct(Lee等人,2023年)使用Web服務器將HTML代碼渲染成網站截圖,并且訓練任務是將遮蓋的截圖逆向渲染回完整的HTML代碼。MatCha(Liu等人,2023b年)和DePlot(Liu等人,2023a年)將表格數據渲染成圖表,使用Python繪圖庫,并通過給出渲染圖像并生成代碼和/或表格數據來預訓練基礎模型。Si等人(2024年)和Lauren?on等人(2024年)在將網頁截圖轉換為代碼實現的任務上對合成生成的HTML和CSS文件進行訓練。在合成數據上微調的模型可以在從互聯網抓取的現實數據上合理地泛化。Borkman等人(2021年)提議使用物理引擎或游戲引擎(例如Unity)作為合成數據生成器,以幫助計算機視覺研究。多模態指令跟隨。多模態LLMs的下游應用需要推理和指令跟隨能力。這類數據通常是長形式的問題響應對,人類創建此類數據成本高昂。LLaVA(Liu等人,2024b年)使用現有的圖像標題提示GPT-4(僅文本模式)編寫多樣化和長形式的提示-答案對。在多模態LLM訓練期間,使用圖像和提示作為輸入,而可以隱藏標題和邊界框信息。除了圖像標題外,其他圖像屬性信息來源,如對象邊界框(Zhao等人,2023年)、OCR(Zhang等人,2023d年)和逆渲染圖表(Carbune等人,2024年;Masry等人,2023年)都可以適用于此類圖像屬性+文本LLM重寫合成數據流水線。

2.4 多語言

回譯增強。許多多語言語言模型使用回譯作為數據增強方法,從單語數據源創建合成的平行訓練數據(Bi等人,2021年;Caswell等人,2019年;Liao等人,2021年;Marie等人,2020年;Pham等人,2021年;Sennrich等人,2016年;Xu等人,2022年;Zheng等人,2020年)。例如,Sennrich等人(2016年)將單語目標數據回譯成源語言數據,提供額外的平行訓練樣本,以實質性改善翻譯任務。研究人員還探索了回譯的不同抽樣方法(例如,束搜索、受限抽樣、不受限抽樣)及其比較效果(Edunov等人,2018年;Gra?a等人,2019年;Sennrich等人,2016年)。Xu等人(2022年)強調了合成數據的權重和質量對最佳NMT性能的重要性,并提出了一種優化搜索方法與伽馬得分比例的方法,以平衡估計的重要性權重和質量。然而,基于回譯的合成數據生成也存在一些局限性。例如,合成數據的質量和多樣性取決于回譯方法的性能。如果合成數據過于嘈雜或不夠多樣化,性能提升將受限(Chauhan等人,2022年;Epaliyana等人,2021年)。大規模生成多語言問題和答案。最近的研究探索了生成和利用合成多語言問題-答案(QA)對以提高語言模型在多語言和跨語言問題解答中的性能(Abulkhanov等人,2023年;Asai等人,2021年;Chi等人,2020年;Kumar等人,2019年;Li和Callison-Burch,2023年;Riabi等人,2021年)。一種方法是將現有的單語問題和/或答案翻譯成其他語言(Asai等人,2021年)。另一種方法涉及使用問題生成(QG)模型根據答案和/或源文本以跨語言方式生成合成問題(Chi等人,2020年;Kumar等人,2019年;Riabi等人,2021年)。最近的努力還集中在聯合生成多種語言的問題和答案上,以獲得更大的靈活性(Li和Callison-Burch,2023年;Shakeri等人,2021年)。例如,Shakeri等人(2021年)在QA生成任務和多語言遮蔽語言建模任務的混合上對預訓練的多語言T5模型(Xue等人,2020年)進行微調,以產生多種語言的合成QA對。這些努力通常表明,訓練在合成QA對上的語言模型在多語言QA和信息檢索基準測試上表現得更好。

3. 在評估中使用合成數據

合成數據在不同視角的評估中被廣泛使用: 事實性。AI系統可能會生成沒有基于事實知識或數據的信息或響應,導致誤導性或虛假內容的產生,這種現象正式稱為幻覺(Ji等人,2023)。事實性評估旨在確保AI系統輸出的知識與其訓練數據和知識庫提供的知識一致(Ji等人,2023;張等人,2023c)。早期基于統計的幻覺評估方法依賴于n-gram來直接計算輸入和輸出內容之間的詞匯重疊(Dhingra等人,2019;Wang等人,2020)。然而,這些方法有限制,因為它們只考慮詞匯重疊,沒有考慮語義或句子意義(Ji等人,2023),使它們不適合評估更復雜形式的幻覺。后續保證方法從統計方法轉向基于模型的方法,與基于令牌差異的方法相比,這些方法更為穩健(Honovich等人,2021)。雖然這些基于模型的評估方法比它們的前身更先進,但仍有局限性。例如,模型只能輸出幻覺的程度,可能難以指出具體錯誤(Falke等人,2019)。Feng等人(2023a)提議將LLM生成與知識圖譜上的隨機游走相結合,生成用于事實性的合成評估數據,這些數據能識別圖中的實體和關系。Wei等人(2024)創建了一個名為LongFact的合成數據集,用于長形事實性評估,并使用谷歌搜索作為基準源和LLM進行自動判斷,以實現人類水平的準確性但成本大大降低(Min等人,2023)。

安全性。紅隊測試是評估AI模型的安全性和健壯性的一種強大技術(Casper等人,2023b;Ganguli等人,2022)。通過生成設計來引發未對齊或有害輸出的多樣化和現實場景(Casper等人,2023a),紅隊測試可以暴露AI系統的漏洞和弱點(Perez等人,2022)。例如,Perez等人(2023)使用LMs生成數據集來評估其他LMs的行為。他們最終生成了154個高質量數據集,并由人類驗證,發現新的逆向縮放案例,即LMs隨著大小增加而變差。Hubinger等人(2024)利用合成數據在大規模觸發LMs的后門攻擊;他們發現LMs可以表現出欺騙行為,并在此類攻擊下創造出安全的假象,而標準的“安全訓練”無法輕易消除這種欺騙。這些方法展示了使用AI輔助擴大人類監督的可行性(Bowman等人,2022),處理復雜問題和未見領域。

輔助人類評估。最近的研究表明,在許多情況下,大規模LMs(LLMs)的合成判斷可以作為實際人類評估的合格、快速和低成本的替代品(Gilardi等人,2023a)。使用GPT-4作為評判,Alpaca Eval(Li等人,2023b)和MT Bench(Zheng等人,2023)是兩個流行的基準測試,用來衡量基于LM的ChatBot的綜合能力。在編碼任務中,合成環境是幫助人類評估的常見選擇,因為人類可以通過實際執行和對運行日志的分析更高效地進行評估。Gu等人(2024)提出了CRUXEval,一個由CodeLLaMA-34B生成的800個Python函數組成的代碼執行推理基準。同樣,Liu等人(2024a)引入了CodeMind,一個框架,用來衡量LLMs在獨立執行推理(IER)、依賴執行推理(DER)和規范推理(SR)上的代碼推理能力。所有這些基于合成數據的評估都與真實人類判斷有強烈的相關性。

合成數據的挑戰與局限

盡管合成數據提供了許多好處和應用,但認識到并解決與其使用相關的潛在挑戰和限制至關重要。本節將深入探討合成數據周圍的三個重大問題:

合成數據誤用可能導致錯誤信息的擴散。合成數據的潛在誤用是一個重要問題,必須解決以確保AI系統的負責任開發。當前AI模型越來越能夠生成類似人類的數據,從文本(Gemini-Team等人,2023,2024),圖像(Ramesh等人,2022;Saharia等人,2022b),到視頻(例如,OpenAI SORA)。當合成數據用來冒充真實人物、操縱公共意見或影響政治過程時,這可能特別危險。此外,合成數據驅動的錯誤信息的傳播可能會侵蝕對合法信息來源的信任,使人們越來越難以區分真相和謬誤(Byman等人,2023;Rid,2020)。為了降低這些風險,對研究人員、開發人員和政策制定者來說,制定清晰的合成數據生成和使用的道德準則和最佳實踐至關重要,包括強大的檢測和對抗合成錯誤信息的機制(Groh等人,2022)。通過積極應對這些挑戰,我們可以利用合成數據的好處,同時最小化其潛在的危害。

合成數據可能導致AI對齊的模糊不清。在對齊AI模型中使用合成數據的增加(例如,Constitutional AI (Bai等人,2022))可能引入重大的模糊性和不確定性。AI對齊的目標是確保AI系統的行為與人類價值觀和意圖一致。然而,合成數據是人工生成的,而不是從現實世界來源收集的,可能無法準確代表人類價值觀和偏好的細微差別(Zhou等人,2024)。這種差異可能導致AI模型從有偏見的(Feng等人,2023b;Liu等人,2021)、無根據的(Liu等人,2022;Patel和Pavlick,2022)或不代表現實世界情境的數據中學習(Ji等人,2023;Weidinger等人,2021)。因此,受合成數據訓練的AI系統可能表現出與人類期望不一致的行為,可能導致意外后果甚至有害行為(Anderljung等人,2023;Zou等人,2023)。此外,合成數據引入的模糊性可能使解釋和理解AI模型的決策過程變得復雜(Lightman等人,2023),進一步增加確保對齊的難度。為了降低這些風險,研究人員必須仔細考慮在對齊研究中使用合成數據的局限性和潛在缺陷,并開發出驗證和測試受此類數據訓練的AI模型的健壯方法。

使用合成數據訓練使評估去污染更加困難。在模型訓練中使用合成數據對公平評估提出了重大挑戰。評估基準通常通過引用公共文本來源(如課程網站或論壇)來創建。因此,可以認為所有公開可用的基準測試案例可能偶爾會被包括在LLMs的預訓練數據中(Gao等人,2021;Hoffmann等人,2022)。使用合成數據加劇了這個問題而不是緩解它。盡管社區提出了幾種檢測此類評估污染的技術,如min-??% prob(Shi等人,2023),檢查??長尾詞的概率,但當模型使用合成數據訓練時,這些令牌級去污染方法是不充分的。合成數據可能包括基準數據的改寫版本(Mattern等人,2023;Oren等人,2023),使令牌級去污染無效。除了開發更先進的評估污染檢測技術外,我們建議模型開發者投資創建和維護內部和受保護的評估基準。這些專有基準應該被小心保護以防泄漏,并確保評估過程的完整性。

未來工作的方向

隨著合成數據領域的不斷發展,未來的研究和開發有幾個有前景的方向。本節概述了三個需要進一步探索的關鍵領域: 合成數據的擴展。許多經過過度訓練的小型語言模型(例如,Mistral系列模型(Jiang等人,2023年)和Gemma系列模型(Gemma-Team等人,2024年))的印象深刻的表現證明了使用大量令牌進行訓練的必要性(甚至超過了計算最優的chinchilla法則(Rae等人,2021年))。然而,使用合成數據進行訓練是否有類似的結論仍是一個未解決的問題,因為合成數據的質量可能不如現實世界的數據(Yu等人,2024年)。未來的研究應該調查合成數據的規模化法則,并確定合成樣本的數量和質量之間的最佳平衡。這種探索可以幫助我們了解在大規模語言模型訓練中利用合成數據的最有效策略,可能導致更高效和更具成本效益的方法(Muennighoff等人,2024年)。

進一步提高合成數據的質量和多樣性。盡管現有生成合成數據的方法顯示出前景,但在創造高質量、具有真實屬性的合成樣本方面仍有改進空間,這些樣本能夠密切模仿現實世界數據。未來的研究應該專注于開發新的高級技術(或基于現有技術如生成對抗網絡(GANs)(Goodfellow等人,2020年)或擴散模型(Ho等人,2020年)),這些技術可以控制和操縱生成數據的特定屬性,使得創建多樣化和可定制的合成數據集成為可能。此外,研究人員應探索可以將領域特定知識整合進來的方法,以確保生成的數據遵循目標領域中存在的底層約束和模式(例如,通過檢索增強生成(RAG)(Borgeaud等人,2022年;Lewis等人,2020年))同時保持數據質量。通過推進歸因合成數據生成的最新技術,我們可以為隱私保護分析(Assefa等人,2020年)和跨多個領域的模型訓練(例如,醫療保健領域的合成醫學圖像(Frid-Adar等人,2018年;Wei等人,2019年)和金融領域的模擬交易軌跡(Zheng等人,2022年))解鎖新的機會。

朝向高保真和更高效的可擴展監督。隨著AI模型變得日益復雜和自主,使用傳統的依賴人類監督或真實世界數據的監督方法來監控和評估它們的行為變得具有挑戰性(Amodei等人,2016年)。未來的研究應探索使用合成數據對這些先進系統進行高保真的可擴展監督。現有方法通常在社會迭代中模擬某些場景,如辯論(Leike等人,2018年)、反思(Zhang等人,2023a)或修訂(Liu等人,2023c)以獲取合成數據,而新的方法可以涵蓋更全面的場景和更多的模態(Sun等人,2023年),因為最近的研究發現許多僅涵蓋范圍狹窄(Cheng等人,2023年)或過于簡化(Zhou等人,2024年)的場景的模擬問題。展望未來,另一個增長方向可能是如何更高效地實現可擴展的監督——鑒于我們完全控制合成數據的生成,我們可能可以提供更有針對性的監督,而使用更少的合成數據。隨著對有效的AI治理和監管的需求增長,合成數據將在啟用更可信的可擴展監督機制中發揮越來越重要的作用,這些機制促進AI技術的健壯、負責任和安全部署,以造福社會(Askell等人,2021年;Bowman等人,2022年)。

結論

合成數據已經成為解決數據稀缺、隱私擔憂和AI開發高成本問題的有前景的解決方案。通過生成逼真和多樣化的數據集,合成數據使得在各個領域的大規模AI模型的訓練和評估成為可能。隨著我們接近人類水平甚至超人類水平的智能,獲取合成數據變得更加關鍵,因為模型需要比平均人類質量更好的數據才能進步。然而,確保合成數據的事實性、保真性和無偏見仍是一個關鍵挑戰。未來關于合成數據的研究方向可以關注提高生成模型的保真性和可控性,并開發標準化的評估和污染協議及工具。我們還可以探索將合成數據與其他技術整合以及在其他領域的應用。盡管存在挑戰,但合成數據在推進AI研究方面的潛在好處是顯著的。通過負責任和有效地利用合成數據,我們可以構建更強大、更包容、更可信的AI系統,造福整個社會。

付費5元查看完整內容

圖在表示和分析諸如引文網絡、社交網絡和生物數據等實際應用中的復雜關系方面扮演著重要角色。最近,大型語言模型(LLMs),它們在各個領域取得了巨大成功,也被用于圖相關任務,超越了傳統的基于圖神經網絡(GNNs)的方法,實現了最先進的性能。在這篇綜述中,我們首先全面回顧和分析了結合LLMs和圖的現有方法。首先,我們提出了一個新的分類法,根據LLMs在圖相關任務中扮演的角色(即增強器、預測器和對齊組件)將現有方法分為三類。然后,我們系統地調查了沿著分類法的三個類別的代表性方法。最后,我們討論了現有研究的剩余局限性,并強調了未來研究的有希望的途徑。相關論文已總結,并將在以下網址持續更新://github.com/yhLeeee/Awesome-LLMs-in-Graph-tasks。

圖論,在現代世界的許多領域,特別是在技術、科學和物流領域,扮演著基礎性的角色[Ji et al., 2021]。圖數據代表了節點之間的結構特性,從而闡明了圖組件內的關系。許多實際世界的數據集,如引文網絡[Sen et al., 2008]、社交網絡[Hamilton et al., 2017]和分子數據[Wu et al., 2018],本質上都是以圖的形式表示的。為了處理圖相關任務,圖神經網絡(GNNs)[Kipf and Welling, 2016; Velickovic et al., 2018]已經成為處理和分析圖數據的最受歡迎的選擇之一。GNNs的主要目標是通過在節點之間的遞歸信息傳遞和聚合機制,獲取在節點、邊或圖層面上的表達性表示,用于不同種類的下游任務。

近年來,如Transformer [Vaswani et al., 2017]、BERT [Kenton and Toutanova, 2019]、GPT [Brown et al., 2020] 及其變體等大型語言模型(LLMs)在多個領域取得了重大進展。這些LLMs可輕易地應用于各種下游任務,幾乎無需調整,就在多種自然語言處理任務中展現了卓越性能,例如情感分析、機器翻譯和文本分類 [Zhao et al., 2023d]。雖然它們主要聚焦于文本序列,但目前越來越多的研究開始關注于增強LLMs的多模態能力,使其能夠處理包括圖形 [Chai et al., 2023]、圖像 [Zhang et al., 2023b] 和視頻 [Zhang et al., 2023a] 在內的多種數據類型。 LLMs在圖相關任務中的應用已顯著改變了我們與圖的交互方式,特別是那些含有與文本屬性相關聯的節點的圖。將LLMs與傳統GNNs(圖神經網絡)的結合可以帶來互利共贏,增強圖學習。盡管GNNs擅長捕捉結構信息,但它們主要依賴語義上受限的嵌入作為節點特征,這限制了它們表達節點完整復雜性的能力。通過整合LLMs,GNNs可以得到更強大的節點特征,有效捕捉結構和語境方面的信息。另一方面,LLMs擅長編碼文本,但通常難以捕捉圖數據中的結構信息。結合GNNs和LLMs可以利用LLMs強大的文本理解能力,同時發揮GNNs捕捉結構關系的能力,從而實現更全面、強大的圖學習。例如,TAPE [He et al., 2023] 利用與節點(如論文)相關的語義知識,這些知識由LLMs生成,來提高GNNs中初始節點嵌入的質量。此外,InstructGLM [Ye et al., 2023] 用LLMs替換了GNNs中的預測器,通過平鋪圖形和設計提示(提示)等技術,利用自然語言的表現力。MoleculeSTM [Liu et al., 2022] 將GNNs和LLMs對齊到同一向量空間,將文本知識引入圖形(如分子)中,從而提高推理能力。 顯然,LLMs從不同角度對圖相關任務產生了重要影響。為了更好地系統概覽,如圖2所示,我們遵循Chen et al. [2023a]的方法,組織我們的一級分類法,基于LLMs在整個模型管道中扮演的角色(即增強器、預測器和對齊組件)進行分類。我們進一步細化我們的分類法,并為初始類別引入更多細粒度。 動機。盡管LLMs在圖相關任務中的應用越來越廣泛,但這個迅速發展的領域仍然缺乏系統的綜述。張等人[Zhang et al., 2023d]進行了一項前瞻性綜述,提出了一篇討論圖與LLMs整合所面臨挑戰和機遇的觀點文章。劉等人[Liu et al., 2023b]提供了另一項相關綜述,總結了現有的圖基礎模型,并概述了預訓練和適應策略。然而,這兩篇文章都在全面覆蓋和缺乏專門關注LLMs如何增強圖的分類法方面存在局限性。相比之下,我們專注于圖和文本模態共存的場景,并提出了一個更細粒度的分類法,以系統地回顧和總結LLMs技術在圖相關任務中的當前狀態。

貢獻。這項工作的貢獻可以從以下三個方面總結: (1)結構化分類法。通過結構化分類法,對該領域進行了廣泛概覽,將現有工作分為四類(圖2)。 (2)全面綜述。基于提出的分類法,系統地描述了LLMs在圖相關任務中的當前研究進展。 (3)一些未來方向。我們討論了現有工作的剩余局限性,并指出了可能的未來發展方向。

**LLM作為增強器 **

圖神經網絡(GNNs)已成為分析圖結構數據的強大工具。然而,最主流的基準數據集(例如,Cora [Yang et al., 2016] 和 Ogbn-Arxiv [Hu et al., 2020])采用了樸素的方法來編碼TAGs中的文本信息,使用的是淺層嵌入,如詞袋法、跳躍模型 [Mikolov et al., 2013] 或 TF-IDF [Salton and Buckley, 1988]。這不可避免地限制了GNNs在TAGs上的性能。LLM作為增強器的方法對應于利用強大的LLMs來提升節點嵌入的質量。衍生的嵌入被附加到圖結構上,可以被任何GNNs利用,或直接輸入到下游分類器中,用于各種任務。我們自然地將這些方法分為兩個分支:基于解釋和基于嵌入,這取決于它們是否使用LLMs產生額外的文本信息。

LLM作為預測器

這一類別的核心思想是利用LLMs來對廣泛的圖相關任務進行預測,例如在統一的生成范式下的分類和推理。然而,將LLMs應用于圖模態提出了獨特的挑戰,主要是因為圖數據往往缺乏直接轉換成序列文本的方式,不同的圖以不同的方式定義結構和特征。在這一部分,我們根據模型是否使用GNNs來提取結構特征供LLMs使用,將模型大致分為基于平鋪和基于GNN的預測兩類。

GNN-LLM 對齊

對GNNs和LLMs的嵌入空間進行對齊是整合圖模態與文本模態的有效方式。GNN-LLM對齊確保在特定階段協調它們的嵌入空間時,每個編碼器的獨特功能得以保留。在這一部分,我們總結了對齊GNNs和LLMs的技術,這些技術可以根據是否對GNNs和LLMs都給予同等重視,或是否優先考慮一種模態而另一種模態則不那么重視,被分類為對稱或非對稱。

結論

近年來,將大型語言模型(LLMs)應用于與圖相關的任務已成為研究的一個突出領域。在這篇綜述中,我們旨在提供對適應圖的LLMs的現有策略的深入概述。首先,我們介紹了一個新的分類法,根據LLMs所扮演的不同角色(即增強器、預測器和對齊組件),將涉及圖和文本模態的技術分為三類。其次,我們根據這種分類系統地回顧了代表性的研究。最后,我們討論了一些限制,并強調了幾個未來的研究方向。通過這篇全面的綜述,我們希望能夠揭示LLMs在圖學習領域的進步和挑戰,從而鼓勵在這一領域進一步的提升。

付費5元查看完整內容

大模型如何做知識更新?這篇文章全面綜述

盡管大型語言模型(LLMs)在解決各種任務上表現出色,但它們在部署后很快就可能會過時。在當前時代,保持它們的最新狀態是一個迫切的關注點。本文提供了對最近在不從頭開始重新訓練的情況下,將LLMs與不斷變化的世界知識對齊的進展的全面回顧。我們系統地對研究工作進行分類,并提供深入的比較和討論。我們還討論了現存的挑戰,并強調了未來的研究方向,以促進這一領域的研究。

//www.zhuanzhi.ai/paper/895473a03ca23c3b2ff748c92eae7551

大型語言模型(LLMs)(Brown 等人,2020;Ouyang 等人,2022;Chowdhery 等人,2022;Zhang 等人,2022;OpenAI, 2023b;Touvron 等人,2023;Anil 等人,2023)經過在各種來源(例如,維基百科,書籍,Github)的大量語料庫上的訓練,在其參數中隱式地存儲了大量的世界知識(Petroni 等人,2019;Roberts 等人,2020;Jiang 等人,2020),使它們能夠作為多功能的基礎模型,直接通過情境學習(Liu 等人,2023b;OpenAI, 2023b;Bubeck 等人,2023;Kamalloo 等人,2023)來執行各種自然語言處理(NLP)任務,或進一步為特定領域的用途進行微調(Singhal 等人,2022;Google, 2023;Liu 和 Low, 2023)。

盡管它們的表現令人印象深刻,但LLMs在部署后是靜態的,沒有更新自己或適應變化環境的機制(Kasai 等人,2022;Bubeck 等人,2023)。然而,我們的世界是動態的并且不斷發展。如圖1所示,經過訓練的LLMs的靜態特性使存儲的知識迅速過時,這經常導致幻覺,使它們對知識密集型任務不可靠(Lazaridou 等人,2022;Luu 等人,2022;Ji 等人,2023;Si 等人,2023)。在LLMs的時代,確保它們與不斷變化的世界知識保持一致,并在部署后保持其最新狀態是一個迫切的問題,因為許多用戶和下游應用依賴它們。不幸的是,由于禁止性的成本(Patterson 等人,2021),僅僅使用最新信息重新訓練LLMs是不可行的。 從直覺上講,要更新LLM,可以通過修改其參數用新的知識替換模型中隱式存儲的過時知識,或使用從世界上明確檢索的新信息覆蓋過時的模型輸出。文獻中已經提出了大量的工作,隱式或顯式地刷新部署的LLMs;但是,這些方法在各種任務中散布,并沒有被系統地回顧和分析。

在這篇綜述中,我們調查了與不斷變化的世界知識對齊已部署的LLMs的最新引人注目的進展。我們系統地對研究工作進行分類,并在每個類別中突出代表性的方法(§2),并為洞察提供深入的比較和討論(§3)。最后,我們討論了促進這一領域研究的潛在未來方向(§4)。 **方法分類 **

根據方法是否傾向于直接改變LLMs中隱式存儲的知識,或利用外部資源來覆蓋過時的知識,我們粗略地將它們分類為隱式方法(§2.1)或顯式方法(§2.2)。圖2提供了每個類別中代表性作品的摘要(詳細綜述請見附錄中的圖6)。方法的詳細描述可以在附錄A.1中找到。

**隱式地使LLMs與世界知識對齊 **

先前的研究已經表明,經過在大量語料庫上預訓練后,LLMs可以在其大量參數中隱式記憶知識 (Petroni 等人, 2019; Roberts 等人, 2020; Jiang 等人, 2020; Singhal 等人, 2022)。為了保持LLMs的最新狀態并與當前的世界知識對齊,直接的方法是改變模型自身的行為以生成期望的輸出。天真地說,可以定期從頭開始重新訓練模型或使用最新的語料庫對模型進行微調以與當前的世界知識對齊。但是,重新訓練是昂貴且對環境不友好的 (Patterson 等人, 2021),特別是在具有數十億參數的LLMs的時代。無約束的微調可能會產生"蝴蝶效應"并影響模型中的其他知識或技能 (Kirkpatrick 等人, 2017; Li 等人, 2022; AlKhamissi 等人, 2022)。為了應對這個問題,這一系列工作旨在設計更好的策略,以更可控和高效的方式修改LLMs的內部狀態,這可以分為知識編輯 (§2.1.1) 和連續學習 (§2.1.2)。

**顯式地使LLMs與世界知識對齊 **

盡管改變LLMs中隱式存儲的知識已被證明是有效的 (Jang等人, 2022b; Meng等人, 2023),但由于神經網絡的復雜性,這是否會影響模型的一般能力仍不清楚。相比之下,顯式地通過從各種來源檢索的最新信息來增強LLMs可以有效地使模型適應新的世界知識,而不影響原始的LLMs (Mialon等人, 2023)。然而,之前的檢索增強方法 (Karpukhin等人, 2020; Guu等人, 2020; Lewis等人, 2020; Izacard等人, 2022; Borgeaud等人, 2022; Jiang等人, 2022; Kaur等人, 2022) 通常以端到端的方式聯合訓練檢索器和語言模型,這使得它難以應用于已部署的LLM(例如,GPT-3)。最近,研究者們關注于為固定的LLM配備外部記憶 (增強記憶;§2.2.1)、現成的檢索器 (增強檢索;§2.2.2) 或互聯網 (增強互聯網;§2.2.3) 來解決這個問題。

**挑戰和未來方向 **

魯棒高效的知識編輯

KE提供了細粒度的知識更新,在某些場景中是可取的。盡管有前景,但KE仍處于初級階段。1 各種知識。更新LLMs參數中存儲的內部知識是具有挑戰性的,現有的努力只探討了更新關系知識,而忽略了其他知識 (Meng等人, 2023);2 編輯數據集。當前的KE方法假設已存在編輯過的知識對,這些對必須提前進行注釋。實際上,LLMs如何知道哪些知識已經過時,因此需要更新 (Zhang和Choi, 2023; Yin等人, 2023)?3 記憶機制。Hase等人 (2023a) 認為,通過因果追蹤定位特定知識可能不可靠,需要更好地理解LLMs的內部記憶 (Tirumala等人, 2022; Carlini等人, 2023);4 通用化。最近的研究 (Onoe等人, 2023; Zhong等人, 2023) 發現,現有的KE方法在編輯知識的傳播上表現不佳,這意味著LLM不能基于新獲得的知識進行進一步的推理;5 有效性和效率。盡管已經進行了早期的努力 (Hernandez等人, 2023; Huang等人, 2023; Hartvigsen等人, 2023),但有效、高效、持續地更新LLMs的知識的方法尚有待深入探索。

**LLMs的高效持續學習 **一個持續預訓練的LLM可以更新其內部知識并適應變化的世界,但保持下游任務所需的一般知識而不遺忘是具有挑戰性的 (Ke和Liu, 2023)。此外,現有的方法僅限于小規模的LM,使得LLMs的CL很少被研究。盡管參數有效的調整 (Ding等人, 2022) 可能是有益的,但通過CL使LLM與動態世界對齊仍然沒有被充分探索。

**解決知識沖突 **用新知識替代舊知識可能會導致知識沖突,無論使用隱式或顯式方法。對于隱式方法,這些副作用只在特定設置中進行評估,不知道LLMs的一般技能如何受到影響 (Brown等人, 2023)。對于基于檢索的方法,從世界上檢索的知識可能與LLMs內部記憶的知識矛盾,LLMs有時傾向于在生成期間更多地依賴其內部知識,而不是提供的上下文 (例如在Fig.5中的一個例子; Neeman等人 2022; Li等人 2022; Chen等人 2022)。雖然已經進行了初步嘗試 (Mallen等人, 2023; Zhou等人, 2023; Xie等人, 2023),但它們仍然受到限制。

**魯棒高效的檢索 **與外部資源互動可能會在生成期間引起中斷,顯著增加推理開銷,特別是對于涉及多次檢索或修訂的多階段方法。可能的補救措施是有效的內存管理 (Peng等人, 2023b; Kang等人, 2023; Cheng等人, 2023) 或選擇性檢索,只在必要時咨詢外部資源 (Mallen等人, 2023)。另一方面,檢索到的上下文可能是無關的和嘈雜的,這可能會分散LLMs的注意力 (Shi等人, 2023a; Luo等人, 2023),或者太長,超出了輸入限制,并帶來高昂的成本 (Shi等人, 2023b)。

**全面的評估和基準測試 **盡管不同類別的方法可以在不重新訓練的情況下將訓練過的LLMs與變化的世界對齊,但它們的有效性主要在特定設置的合成數據集上進行評估,這可能不是很全面 (Jang等人, 2022a,b; Hoelscher-Obermaier等人, 2023)。此外,盡管已經進行了努力來評估KE (Wu等人, 2023; Cohen等人, 2023; Ju和Zhang, 2023),但沒有對不同類別的方法進行定量比較(即,比較KE vs. CL vs. 基于檢索的方法),這阻礙了它們在不同場景中的應用。最后,現有的基準測試對于度量動態世界來說太靜態了,這呼吁進行實時評估基準測試 (Li?ka等人, 2022; Kasai等人, 2022)。

**結論 **

在本文中,我們系統地回顧了在不重新訓練的情況下使LLMs與不斷變化的世界知識保持一致的最新進展。我們總結了現有的方法,并根據它們是傾向于直接改變LLMs中隱式存儲的知識,還是利用外部資源來覆蓋過時的知識進行分類。我們全面比較了不同類別的方法,并指出了這一領域研究的挑戰和未來方向。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理方面展示了令人印象深刻的能力。然而,它們的內部機制仍然不清楚,這種不透明性對下游應用帶來了不希望的風險。因此,理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中,我們引入了可解釋性技術的分類體系,并提供了關于解釋基于Transformer的語言模型方法的結構化概述我們根據LLMs的訓練范式對技術進行分類:傳統的微調范式和基于提示的范式。對于每個范式,我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準,并討論了如何利用解釋來調試模型和提高性能。最后,我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。

大型語言模型(LLMs),如BERT(Devlin等,2019a)、GPT-3(Brown等,2020)、GPT-4(Bubeck等,2023)、LLaMA-2(Touvron等,2023b)和Claude(AnthropicAI,2023),在各種自然語言處理(NLP)任務中展示出了令人印象深刻的性能。主要科技公司,如微軟、谷歌和百度,已在其商業產品和服務中部署了LLMs以增強功能。例如,微軟利用GPT-3.5來改善新Bing的搜索相關性排名(Mehdi,2023)。由于LLMs通常是復雜的“黑盒子”系統,其內部工作機制是不透明的,高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生(Weidinger等,2021)。因此,開發解釋能力以揭示這些強大模型的工作方式至關重要。

可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力(Doshi-Velez和Kim,2017;Du等,2019a)。提高LLMs的可解釋性至關重要,有兩個關鍵原因。首先,對于一般終端用戶,可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任,無需技術專業知識。通過這種方式,終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次,對于研究人員和開發人員,解釋模型行為提供了洞察力,以識別意外偏見、風險和性能改進的領域。換句話說,可解釋性充當了一個調試輔助工具,可以快速提高下游任務上的模型性能(Strobelt等,2018;Bastings等,2022;Yuksekgonul等,2023)。它有助于追蹤模型能力隨時間的變化,進行不同模型之間的比較,并開發可靠、道德和安全的模型,以供實際部署使用。 由于LLMs的獨特屬性,其可解釋性技術與傳統機器學習(ML)模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看,ML模型以監督方式依賴人工構建的特征,而LLMs旨在自動從原始輸入數據中學習特征(Chai和Li,2019)。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看,傳統ML模型通常是針對具體任務設計的,具有不同的模型架構(Liu和Sun,2023)。相比之下,經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務(Yang等,2023)。此外,LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性(Hu,2020)。由于注意力權重中編碼的知識和模式可能提示了模型的理解,注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外,由于LLMs的性能更好,還應進一步研究transformer的組件,包括神經元、層和模塊,學到了什么以及它們是否有不同的功能。從應用的角度來看,傳統ML模型專注于低級模式識別任務,如解析和形態分析,而LLMs可以處理高級推理任務,如回答問題和常識推理(Lauriola等,2022)。特別是,理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs,有必要回顧和總結專為LLMs定制的解釋技術。 在本文中,我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中,我們介紹了應用LLMs的兩個主要范式:1)傳統的下游微調范式和2)提示范式。基于這一分類,我們在第3節中回顧了適用于微調LLMs的解釋方法,并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中,我們討論了解釋方法的評估。最后,在第6節中,我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰,并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式

LLMs的訓練可以基本分為兩個范式,傳統微調和提示,根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別,因此分別提出了各種類型的解釋(如圖1所示)。 傳統微調范式

在這個范式中,首先對語言模型進行了大規模無標簽文本數據的預訓練,然后在特定下游領域的一組標記數據上進行微調,例如GLUE基準測試中的SST-2、MNLI和QQP(Wang等人,2019)。在微調過程中,很容易在語言模型的最終編碼器層上方添加完全連接的層,使其適應各種下游任務(Rogers等人,2021)。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如,包括BERT(Devlin等人,2019a)、RoBERTa(Liu等人,2019)、ELECTRA(Clark等人,2020)、DeBERTa(He等人,2021)等。對于這個范式的解釋重點在于兩個關鍵領域:1)理解自監督預訓練如何使模型獲得語言的基礎理解(例如句法、語義和上下文關系);以及2)分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。

**提示范式 **

提示范式涉及使用提示,例如自然語言句子中的空白,以便模型填充,實現零樣本學習或少樣本學習,而無需額外的訓練數據。根據其開發階段,這個范式下的模型可以分為兩種類型: 基礎模型:隨著LLMs的規模和訓練數據的增加,它們展示了令人印象深刻的新能力,無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型(擁有數十億參數)(例如GPT-3(Brown等人,2020)、OPT(Zhang等人,2022b)、LLaMA-1(Touvron等人,2023a)、LLaMA-2(Touvron等人,2023b)、Falcon(Almazrouei等人,2023))。這些模型被稱為基礎模型或基礎模型,它們可以與用戶進行對話,無需進一步與人類喜好對齊。大規模模型通常適用于這種范式,規模超過10億。例如,LLaMA-2(Touvron等人,2023b)擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型:基礎模型存在兩個主要限制:1)它們不能按照用戶的指令進行操作,因為預訓練數據包含少量指令-響應示例,2)它們傾向于生成有偏見和有毒的內容(Carlini等人,2023)。為了解決這些限制,基礎模型通過監督微調進一步進行微調(見圖2),以實現人類級別的能力,例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過(提示,響應)演示對和來自人類反饋的強化學習(RLHF)進行指導調整。模型通過自然語言反饋進行訓練,以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4(Bubeck等人,2023)、Anthropic的Claude(AnthropicAI,2023)以及一些開源模型,如Meta的LLaMA-2-Chat(Touvron等人,2023b)、Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。

**傳統微調范式的解釋 **

在本節中,我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先,我們介紹了提供局部解釋(第3.1節)和全局解釋(第3.2節)的方法。在這里,局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解,而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來,我們討論了如何利用解釋來調試和改進模型(第3.3節)。

局部解釋

解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景,我們有一個語言模型,并將特定文本輸入模型。模型隨后產生分類輸出,例如情感分類或下一個標記的預測。在這種情景下,解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測,我們將其稱為局部解釋。這個類別包括四個主要方法流,包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。

**全局解釋 **

不同于旨在解釋模型的個體預測的局部解釋,全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件(神經元、隱藏層和較大模塊)編碼了什么,以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法:探測方法,用于分析模型表示和參數;神經元激活分析,用于確定模型對輸入的響應性;以及基于概念的方法。

**提示范式的解釋 **

在本節中,我們介紹了解釋屬于提示范式的模型的技術,包括1)解釋基礎模型,如LLaMA-2(第4.1節),2)解釋助手模型,如LLaMA-2-Chat(第4.2節),以及3)如何利用LLMs的推理和解釋能力生成用戶友好的解釋(第4.3節)。

基礎模型解釋

隨著語言模型的規模增大,它們展示出了新的能力,如少樣本學習,即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈(CoT)提示能力。鑒于這些新興屬性,解釋性研究有三個主要目標:1)研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務,2)理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務,從而幫助終端用戶解釋模型的推理,以及3)解釋思維鏈提示。

**助手模型解釋 **

由于大規模無監督預訓練和有監督對齊微調,屬于這一范式的LLMs具有強大的推理能力。然而,它們的巨大規模也使它們容易生成問題輸出,如幻覺。解釋性研究旨在:1)闡明對齊微調的作用,2)分析幻覺產生的原因。

結論

在本文中,我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性,以及提高人類可解釋性。隨著LLMs的不斷進步,可解釋性將變得極其重要,以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織,同時突顯了未來工作的開放性問題。

付費5元查看完整內容

轉載機器之心報道

機器之心編輯部

為什么仿佛一夜之間,自然語言處理(NLP)領域就突然突飛猛進,摸到了通用人工智能的門檻?如今的大語言模型(LLM)發展到了什么程度?未來短時間內,AGI 的發展路線又將如何?自 20 世紀 50 年代圖靈測試提出以來,人們始終在探索機器處理語言智能的能力。語言本質上是一個錯綜復雜的人類表達系統,受到語法規則的約束。因此,開發能夠理解和精通語言的強大 AI 算法面臨著巨大挑戰。過去二十年,語言建模方法被廣泛用于語言理解和生成,包括統計語言模型和神經語言模型。近些年,研究人員通過在大規模語料庫上預訓練 Transformer 模型產生了預訓練語言模型(PLMs),并在解決各類 NLP 任務上展現出了強大的能力。并且研究人員發現模型縮放可以帶來性能提升,因此他們通過將模型規模增大進一步研究縮放的效果。有趣的是,當參數規模超過一定水平時,這個更大的語言模型實現了顯著的性能提升,并出現了小模型中不存在的能力,比如上下文學習。為了區別于 PLM,這類模型被稱為大型語言模型(LLMs)。

從 2019 年的谷歌 T5 到 OpenAI GPT 系列,參數量爆炸的大模型不斷涌現。可以說,LLMs 的研究在學界和業界都得到了很大的推進,尤其去年 11 月底對話大模型 ChatGPT 的出現更是引起了社會各界的廣泛關注。LLMs 的技術進展對整個 AI 社區產生了重要影響,并將徹底改變人們開發和使用 AI 算法的方式。考慮到 LLMs 的快速技術進步,中國人民大學的二十幾位研究者通過背景知識、關鍵發現和主流技術等三方面回顧了 LLMs 的最新進展,尤其關注 LLMs 的預訓練、自適應調優、使用和能力評估。此外他們還總結和開發 LLMs 的可用資源,討論了未來發展方向等問題。對于領域內研究人員和工程師而言,這份綜述是一份極其有用的學習資源。

論文鏈接://www.zhuanzhi.ai/paper/d571a453590ccfc2c2ac1a9effa896cb

在進入正文前,我們先來看 2019 年以來出現的各種大語言模型(百億參數以上)時間軸,其中標黃的大模型已開源。

LLMs 概覽

**在第一節中,研究者詳細介紹了 LLMs 的背景、能力和關鍵技術。LLMs 的背景通常,大型語言模型(LLM)是指包含數千億(或更多)參數的語言模型,這些參數是在大量文本數據上訓練的,例如模型 GPT-3、PaLM、Galactica 和 LLaMA。具體來說,LLM 建立在 Transformer 架構之上,其中多頭注意力層堆疊在一個非常深的神經網絡中。現有的 LLM 主要采用與小語言模型類似的模型架構(即 Transformer)和預訓練目標(即語言建模)。作為主要區別,LLM 在很大程度上擴展了模型大小、預訓練數據和總計算量(擴大倍數)。他們可以更好地理解自然語言,并根據給定的上下文(例如 prompt)生成高質量的文本。這種容量改進可以用標度律進行部分地描述,其中性能大致遵循模型大小的大幅增加而增加。然而根據標度律,某些能力(例如,上下文學習)是不可預測的,只有當模型大小超過某個水平時才能觀察到。

LLMs 的涌現能力LLM 的涌現能力被正式定義為「在小型模型中不存在但在大型模型中出現的能力」,這是 LLM 與以前的 PLM 區分開來的最顯著特征之一。當出現這種新的能力時,它還引入了一個顯著的特征:當規模達到一定水平時,性能顯著高于隨機的狀態。以此類推,這種新模式與物理學中的相變現象密切相關。原則上,這種能力也可以與一些復雜的任務有關,而人們更關心可以應用于解決多個任務的通用能力。這里簡要介紹了 LLM 的三種代表性的涌現能力:上下文學習。GPT-3 正式引入了上下文學習能力:假設語言模型已經提供了自然語言指令和多個任務描述,它可以通過完成輸入文本的詞序列來生成測試實例的預期輸出,而無需額外的訓練或梯度更新。指令遵循。通過對自然語言描述(即指令)格式化的多任務數據集的混合進行微調,LLM 在微小的任務上表現良好,這些任務也以指令的形式所描述。這種能力下,指令調優使 LLM 能夠在不使用顯式樣本的情況下通過理解任務指令來執行新任務,這可以大大提高泛化能力。循序漸進的推理。對于小語言模型,通常很難解決涉及多個推理步驟的復雜任務,例如數學學科單詞問題。同時,通過思維鏈推理策略,LLM 可以通過利用涉及中間推理步驟的 prompt 機制來解決此類任務得出最終答案。據推測,這種能力可能是通過代碼訓練獲得的。

關鍵技術接下來來看 LLMs 的關鍵技術,包括了縮放、訓練、能力激發、對齊調優、工具利用等。縮放。縮放是增加 LLMs 模型容量的關鍵因素,最開始 GPT-3 將模型參數增至 1750 億,隨后 PaLM 進一步將模型參數增至 5400 億。大規模參數對于涌現能力至關重要。縮放不僅針對模型大小,還與數據大小和總計算量有關。訓練。由于規模巨大,成功訓練一個具備強大能力的 LLMs 非常具有挑戰性。因此需要分布式訓練算法來學習 LLMs 的網絡參數,經常聯合使用各種并行策略。為了支持分布式訓練,DeepSpeed 和 Megatron-LM 等優化框架被用來促進并行算法的實現和部署。此外,優化技巧對訓練穩定性和模型性能也很重要,例如重新啟動訓練損失尖峰和混合精度訓練。最近的 GPT-4 開發了特殊的基礎設施和優化方法,從而利用小得多的模型來預測大模型的性能。能力激發。在大規模語料庫上經過預訓練后,LLMs 被賦予了解決一般任務的潛在能力。然而當 LLMs 執行某個特定任務時,這些能力可能不會顯式地表現出來。因此設計適合的任務指令或特定的上下文策略來激發這些能力非常有用,比如思維鏈 prompt 有助于通過中間推理步驟等解決復雜推理任務。此外還可以進一步對具有自然語言任務描述的 LLMs 進行指令調優,以提高對未見過任務的泛化能力。對齊調優。由于 LLMs 被訓練用來捕獲預訓練語料庫的數據特征(包括高質量和低質量的數據),它們很可能生成對有毒、有偏見和有害的文本內容。為了使 LLMs 與人類價值觀保持一致,InstructGPT 設計了一種利用強化學習和人類反饋的高效調優方法,使得 LLMs 能夠遵循預期指令。ChatGPT 是在類似 InstructGPT 的技術上開發的,在產生高質量、無害的響應方面表現出了強大的對齊能力。工具利用。LLMs 本質上是基于大規模純文本語料庫訓練的文本生成器,因此在數值計算等文本表達不佳的任務上表現沒那么好。此外 LLMs 的能力受限于預訓練數據,無法捕獲最新信息。針對這些問題,人們提出使用外部工具來彌補 LLMs 的不足,比如可以利用計算器進行精確計算,使用搜索引擎檢索未知信息。ChatGPT 更是利用外部插件來聯網學習新知識,這種機制可以廣泛擴展 LLMs 的能力范圍。 LLMs 資源考慮到具有挑戰性的技術問題和巨大的計算資源需求,開發或復制 LLMs 絕不是一件容易的事情。一個可行的方法是從現有的 LLMs 中學習經驗,并重新使用公開的資源來進行漸進式的開發或實驗研究。在第三節中,研究者主要總結了開源的模型檢查點或 API、可用的語料庫以及對 LLM 有用的庫。下表 1 為近年來百億參數以上大模型的統計數據。

下表 2 列出了常用的數據源。

**預訓練 **

預訓練建立了 LLMs 的能力基礎。通過對大規模語料庫的預訓練,LLMs 可以獲得基本的語言理解和生成技能。在這個過程中,預訓練語料庫的規模和質量是 LLMs 獲得強大能力的關鍵。此外,為了有效地預訓練 LLMs,模型架構、加速方法和優化技術都需要精心設計。在第四節中,研究者首先在第 4.1 節討論了數據的收集和處理,然后在第 4.2 節介紹了常用的模型架構,最后在第 4.3 節介紹了穩定和有效優化 LLMs 的訓練技術。數據收集要開發一個強大的 LLM,從各種數據源中收集大量的自然語言語料至關重要。現有 LLMs 主要利用各種公共文本數據集作為預訓練語料庫。下圖 2 列出了現有 LLMs 的預訓練數據源分布。

收集大量文本數據后,必須對它們進行預訓練以構建預訓練語料庫,包括去噪、去冗余、去除不相關和潛在有毒的數據。下圖 3 展示了為 LLMs 預訓練數據的預處理 pipeline。

架構在本節中,研究者回顧了 LLMs 的架構設計,即主流架構,預訓練目標和細節配置。下表 3 列出了幾個具有代表性的 LLMs 的模型卡片以及公開的詳細信息。

由于出色的并行化性和容量,Transformer 架構已成為開發各種 LLM 的 backbone,使得將語言模型擴展到數千億個參數成為可能。一般來說,現有 LLMs 的主流架構大致可以分為三大類,即編碼器 - 解碼器、臨時解碼器和前綴解碼器。自 Transformer 出現以來,各種改進被相繼提出以提高其訓練穩定性,性能和計算效率。在這一部分中,研究者討論了 Transformer 四個主要部分的相應配置,包括歸一化、位置編碼、激活函數、注意力機制和偏置。預訓練起著十分關鍵的作用,它將一般知識從大規模語料庫編碼到大規模模型參數中。對于訓練 LLMs,有語言建模和去噪自編碼兩個常用的預訓練任務。模型訓練在這一部分中,研究者回顧了訓練 LLMs 的重要設置,技術和訓練 LLMs 技巧。對于 LLMs 的參數優化,研究者提出了常用的批量訓練、學習率、優化器和訓練穩定性的設置。 隨著模型和數據規模的增加,在有限的計算資源下有效地訓練 LLMs 模型已經變得困難。特別是,需要解決兩個主要技術問題,例如通過輸入增加訓練和將更大的模型加載到 GPU 內存中。這一部分回顧了現有工作中幾種廣泛使用的方法,以解決上述兩個挑戰,即 3D 并行、ZeRO 和混合精度訓練,并就如何利用它們進行訓練給出了建議。

LLMs 的適應性調優經過預訓練,LLMs 可以獲得解決各種任務的通用能力。然而越來越多的研究表明,LLMs 的能力可以根據具體目標進一步調整。在第五節中,研究者詳細介紹了調整預訓練 LLMs 的兩個主要方法,即指令調優(instruction tuning)和對齊調優(alignment tuning)。前一種方法主要是為了提高或解鎖 LLMs 的能力,而后一種方法則是為了使 LLMs 的行為與人類的價值觀或偏好一致。指令調優本質上,指令調優是在自然語言形式的格式化實例集合上微調預訓練 LLMs 的方法,這與監督微調和多任務提示訓練高度相關。為了執行指令調優,我們首先需要收集或構建指令格式的實例。然后,我們通常使用這些格式化實例以監督學習方式微調 LLMs(例如,使用序列到序列損失進行訓練)。在指令調整后,LLMs 可以展示出卓越的能力,泛化出能解決未見任務的能力,即使在多語言環境中也是如此。最近的一項調查對指令調優研究進行了系統的概述。相比之下,本文主要關注指令調優對 LLMs 的影響,并提供實例收集和調優的詳細指南或策略。此外,本文還討論了使用指令調優來滿足用戶的實際需求,這已廣泛應用于現有的 LLMs,例如 InstructGPT 和 GPT-4。格式化實例構建:通常,指令格式的實例由任務描述(稱為指令)、輸入輸出對和少量演示(可選)組成。作為重要的公共資源,現有研究已經發布了大量以自然語言格式化的標記數據(參見表 5 中的可用資源列表)。接下來,本文將介紹構造格式化實例的兩種主要方法(參見圖 4 中的插圖),然后討論實例構造的幾個關鍵因素。指令調優策略:與預訓練不同,指令調優通常更有效,因為只有適度數量的實例用于訓練。雖然指令調優可以被認為是一個有監督的訓練過程,但它的優化在幾個方面與預訓練不同,例如訓練目標(即序列到序列損失)和優化配置(例如更小的批次) 大小和學習率),這在實踐中需要特別注意。除了這些優化配置之外,指令調優還需要考慮兩個重要方面:

  • 平衡數據分布。
  • 結合指令調優和預訓練。

對齊調優這部分首先介紹了對齊的背景及其定義和標準,然后重點介紹了用于對齊 LLMs 的人類反饋數據的收集,最后討論了用于對齊調整的人類反饋強化學習的關鍵技術。

使用在預訓練或適應性調整之后,使用 LLMs 的一個主要方法是為解決各種任務設計合適的 prompt 策略。一個典型的 prompt 方法是上下文學習(in-context learning),它以自然語言文本的形式制定了任務描述或演示。此外,思維鏈 prompting 方法可以通過將一系列中間推理步驟納入 prompt 中來加強上下文學習。在第六節中,研究者詳細介紹了這兩種技術的細節。上下文學習**


作為一種特殊的 prompt 形式,上下文學習(ICL)是 GPT-3 首次提出的,它已經成為利用 LLMs 的一種典型方法。思維鏈 prompt思維鏈(CoT)是一種改進的 prompt 策略,可以提高 LLM 在復雜推理任務中的表現,如算術推理、常識推理和符號推理。CoT 不是像 ICL 那樣簡單地用輸入 - 輸出對來構建 prompt,而是將能夠導致最終輸出的中間推理步驟納入 prompt。在第 6.2 節中,研究者詳細說明了 CoT 與 ICL 的用法,并討論 CoT 何時有效以及為何有效。 能力評估為了研究 LLMs 的有效性和優越性,研究者利用了大量的任務和基準來進行實證評估和分析。第七節首先介紹了三種用于語言生成和理解的 LLMs 的基本評估任務,然后介紹幾種具有更復雜設置或目標的 LLMs 的高級任務,最后討論了現有的基準和實證分析。基本評估任務

 圖 7:一個公開 LLM 的內在和外在幻覺的例子(訪問日期:2023 年 3 月 19 日)。作為內在幻覺的例子,LLM 對 Cindy 和 Amy 之間的關系給出了一個與輸入相矛盾的判斷。對于外在幻覺,在這個例子中,LLM 似乎對 RLHF(從人類反饋中強化學習)的含義有不正確的理解,盡管它能正確理解 LLM 的含義。

高級任務評估除了上述基本評估任務,LLMs 還表現出一些高級能力,需要特別評估。在第 7.2 節中,研究者討論了幾個有代表性的高級能力和相應的評價方法,包括人工對齊、與外部環境的交互以及工具的操作。

總結與未來方向

在最后一節中,研究者總結了這次調查的討論,并從以下幾個方面介紹了 LLMs 的挑戰和未來發展方向。理論和原理:為了理解 LLM 的基本工作機制,最大的謎團之一是信息如何通過非常大的深度神經網絡進行分配、組織和利用。揭示建立 LLMs 能力基礎的基本原則或元素是很重要的。特別是,縮放似乎在提高 LLMs 的能力方面發揮了重要作用。已有研究表明,當語言模型的參數規模增加到一個臨界點(如 10B)時,一些新興能力會以一種意想不到的方式出現(性能的突然飛躍),典型的包括上下文學習、指令跟隨和分步推理。這些「涌現」的能力令人著迷,但也令人困惑:LLMs 何時以及如何獲得這些能力?最近的一些研究要么是進行廣泛的體驗,調查新興能力的效果和這些能力的促成因素,要么是用現有的理論框架解釋一些特定的能力。一個有見地的技術帖子將 GPT 系列模型作為目標也專門討論了這個話題,然而仍然缺少更正式的理論和原則來理解、描述和解釋 LLM 的能力或行為。由于涌現能力與自然界中的相變有著密切的相似性,跨學科的理論或原則(例如 LLMs 是否可以被視為某種復雜系統)可能對解釋和理解 LLMs 的行為有幫助。這些基本問題值得研究界探索,對于開發下一代的 LLMs 很重要。模型架構:由于可擴展性和有效性,由堆疊的多頭自注意力層組成的 Transformer 已經成為構建 LLMs 的普遍架構。人們提出了各種策略來提高這個架構的性能,如神經網絡配置和可擴展的并行訓練(見 4.2.2 節討論)。為了進一步提高模型的容量(如多輪對話能力),現有的 LLMs 通常保持較長的上下文長度,例如,GPT-4-32k 具有 32768 個 token 的超大上下文長度。因此,一個實際的考慮是減少標準的自注意力機制所產生的時間復雜性(原始的二次成本)。此外,研究更高效的 Transformer 變體對構建 LLMs 的影響是很重要的,例如稀疏注意力已經被用于 GPT-3。災難性遺忘也一直是神經網絡的挑戰,這也對 LLMs 產生了負面影響。當用新的數據調整 LLMs 時,原先學到的知識很可能被破壞,例如根據一些特定的任務對 LLMs 進行微調會影響它們的通用能力。當 LLMs 與人類的價值觀相一致時,也會出現類似的情況,這被稱為對齊稅(alignment tax)。因此有必要考慮用更靈活的機制或模塊來擴展現有的架構,以有效支持數據更新和任務專業化。模型訓練:在實踐中,由于巨大的計算量以及對數據質量和訓練技巧的敏感性,預訓練可用的 LLMs 非常困難。因此,考慮到模型有效性、效率優化和訓練穩定性等因素,開發更系統、更經濟的預訓練方法來優化 LLMs 變得尤為重要。開發更多的模型檢查或性能診斷方法(例如 GPT-4 中的可預測縮放),便于在訓練中發現早期的異常問題。此外,它還要求有更靈活的硬件支持或資源調度機制,以便更好地組織和利用計算集群中的資源。由于從頭開始預訓練 LLMs 的成本很高,因此必須設計一個合適的機制,根據公開的模型檢查點(例如 LLaMA 和 Flan-T5)不斷地預訓練或微調 LLMs。為此,必須解決一些技術問題,包括數據不一致、災難性遺忘和任務專業化。到目前為止,仍然缺乏具有完整的預處理和訓練日志(例如準備預訓練數據的腳本)的開源模型檢查點以供重現的 LLM。為 LLMs 的研究提供更多的開源模型將是非常有價值的。此外,開發更多的改進調整策略和研究有效激發模型能力的機制也很重要。模型的使用:由于微調在實際應用中的成本很高,prompt 已經成為使用 LLMs 的突出方法。通過將任務描述和演示例子結合到 prompt 中,上下文學習(prompt 的一種特殊形式)賦予了 LLMs 在新任務上良好的表現,甚至在某些情況下超過了全數據微調模型。此外,為了提高復雜推理的能力,人們提出了先進的 prompt 技術,例如思維鏈(CoT)策略,它將中間的推理步驟納入 prompt。然而,現有的 prompt 方法仍然有以下幾個不足之處。首先,它在設計 prompt 時需要大量的人力,因此為解決各種任務而自動生成有效的 prompt 將非常有用;其次,一些復雜的任務(如形式證明和數字計算)需要特定的知識或邏輯規則,而這些知識或規則可能無法用自然語言描述或用例子來證明,因此開發信息量更大、更靈活的任務格式化的 prompt 方法很重要;第三,現有的 prompt 策略主要集中在單圈的表現上,因此開發用于解決復雜任務的交互式 prompt 機制(如通過自然語言對話)非常有用,ChatGPT 已經證明了這一點。安全和對齊:盡管 LLMs 具備相當的能力,但它的安全問題與小型語言模型相似。例如,LLMs 表現出產生幻覺文本的傾向,比如那些看似合理但可能與事實不符的文本。更糟糕的是,LLMs 可能被有意的指令激發,為惡意的系統產生有害的、有偏見的或有毒的文本,導致濫用的潛在風險。要詳細討論 LLMs 的其他安全問題(如隱私、過度依賴、虛假信息和影響操作),讀者可以參考 GPT-3/4 技術報告。作為避免這些問題的主要方法,來自人類反饋的強化學習(RLHF)已被廣泛使用,它將人類納入訓練循環,以發展良好的 LLMs。為了提高模型的安全性,在 RLHF 過程中加入安全相關的 prompt 也很重要,如 GPT-4 所示。然而,RLHF 在很大程度上依賴于專業標簽人員的高質量的人類反饋數據,使得它很難在實踐中得到正確的實施。因此,有必要改進 RLHF 框架,以減少人類標簽員的工作,并尋求一種更有效的注釋方法,保證數據質量,例如可以采用 LLMs 來協助標注工作。最近,紅色團隊被采用來提高 LLMs 的模型安全性,它利用收集的對抗性 prompt 來完善 LLMs(即避免紅色團隊的攻擊)。此外,通過與人類交流建立 LLMs 的學習機制也很有意義,人類通過聊天給出的反饋可以直接被 LLMs 利用來進行自我完善。應用和生態系統:由于 LLMs 在解決各種任務方面表現出強大的能力,它們可以被應用于廣泛的現實世界的應用(例如,遵循特定的自然語言指令)。作為一個顯著的進步,ChatGPT 已經潛在地改變了人類獲取信息的方式,這帶來了新必應的發布。在不久的將來,可以預見,LLMs 將對信息搜索技術產生重大影響,包括搜索引擎和識別系統。此外,隨著 LLMs 的技術升級,智能信息助理的發展和使用將得到極大的促進。在更廣泛的范圍內,這一波技術創新傾向于建立一個由 LLMs 授權的應用程序的生態系統(例如,ChatGPT 對插件的支持),這將與人類生活密切相關。最后,LLMs 的崛起為通用人工智能(AGI)的探索提供了啟示。它有希望開發出比以往更多的智能系統(可能有多模態信號)。同時,在這個發展過程中,人工智能的安全性應該是首要關注的問題之一,也就是說,讓人工智能為人類帶來好處而不是壞處。

付費5元查看完整內容
北京阿比特科技有限公司