亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多模態大規模語言模型(MLLMs)因其在視覺問答、視覺感知、理解與推理等多種應用中的出色表現,在學術界和工業界日益受到關注。近年來,研究人員從多個角度對 MLLMs 進行了深入研究。本文對180個 MLLMs 的基準和評估進行了全面綜述,重點探討了以下幾個方面:(1) 感知與理解,(2) 認知與推理,(3) 特定領域,(4) 關鍵能力,以及 (5) 其他模態。最后,我們討論了當前 MLLMs 評估方法的局限性,并探討了未來的有前景的研究方向。我們的核心論點是,評估應被視為一門至關重要的學科,以更好地支持 MLLMs 的發展。更多詳情請訪問我們的 GitHub 倉庫://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey。

1 引言

近年來,大規模語言模型(LLM)在學術界和工業界引起了廣泛關注。諸如GPT [1] 等LLM的出色表現使人們對其代表通用人工智能(AGI)邁出的重要一步充滿樂觀。這些卓越的能力激發了將LLM與其他模態模型結合以增強多模態能力的研究努力。由此,多模態大規模語言模型(MLLMs) [2] 應運而生。這一概念得到了OpenAI的GPT-4V [3] 和Google的Gemini [4] 等專有模型的巨大成功的進一步支持。與早期僅限于解決特定任務的模型不同,MLLMs 在廣泛的應用中表現出了卓越的性能,包括一般的視覺問答(VQA)任務和特定領域的挑戰。

為MLLMs 提供全面且客觀的基準評估對于比較和研究各種模型的性能至關重要,并且在MLLMs 的成功中發揮了關鍵作用。首先,評估LLM有助于我們更好地理解MLLMs 的優勢和劣勢。例如,SEED-Bench [5] 顯示了當前MLLMs 在理解物體之間的空間關系方面能力較弱,而在全局圖像理解方面則表現出較高的性能。其次,在各種場景中的評估可以為MLLM在醫學、工業和自動駕駛等領域的應用提供有價值的指導,從而激發未來的設計并擴大其能力范圍。第三,MLLMs 的廣泛適用性強調了確保其穩健性、安全性和可靠性的重要性,特別是在安全敏感的領域。最后,評估MLLMs 的其他用戶友好特性也具有重要意義,包括處理長文本上下文的能力以及準確執行指令的能力。因此,我們旨在通過回顧當前的評估協議,引起社區對MLLM評估重要性的關注。最近,眾多研究工作從感知、理解、認知和推理等多個角度對MLLMs 進行了評估。此外,還測試了MLLMs 的其他能力,包括穩健性、可信性、專門應用和不同模態。盡管進行了這些努力,仍然缺乏一個全面概述,能夠捕捉到這些評估的全貌。在本綜述中,我們旨在提供對快速發展的MLLM評估領域的全面概述。如圖1所示,我們的綜述涵蓋了MLLM評估的五個關鍵領域,涉及20-30個詳細類別。該圖還展示了MLLM評估論文隨時間的趨勢,顯示了出版物數量的快速增長。這種增長表明該研究領域已廣泛引起關注。此外,我們提供了自2024年以來83個基準測試中三大MLLMs 的性能統計數據,數據顯示OpenAI的GPT-4和Google的Gemini表現優異,吸引了顯著的學術關注。正如圖2所示,我們對180個基準進行了調查,并將文獻按五個主要類別組織,涵蓋感知與理解、認知與推理、特定領域、關鍵能力和其他模態等方面。

感知與理解 指的是接收和提取多模態數據特征并進行跨模態分析的能力。評估MLLMs的感知與理解能力包括評估MLLMs是否能夠感知視覺表征、識別視覺細節、理解圖像傳達的含義和情感,并正確回答相關問題。這些能力是MLLMs的基石,使其能夠執行廣泛的任務和應用。

認知與推理 包括模型在基本感知與理解之上的高級處理和復雜推理能力。認知能力涉及處理和操作信息以將其轉化為知識,而推理能力則側重于得出邏輯結論和解決問題。強大的認知與推理能力使MLLMs能夠在復雜任務中進行有效的邏輯推理。

特定領域 關注MLLMs在特定任務和應用中的能力,例如處理文本豐富的視覺信息以及在現實場景中執行基于代理的決策任務。討論還擴展到評估其在醫學、自動駕駛和工業等專門領域的表現。

關鍵能力 對MLLMs的性能和用戶體驗產生重大影響,包括管理復雜對話、準確執行指令、避免幻覺并保持可信性。這些能力對于確保MLLMs在各種實際應用中有效運行并適應各種實際場景至關重要。

其他模態 包括視頻、音頻和3D點云,這些模態也包含反映現實世界的豐富多樣的信息。這些模態提供了關鍵的上下文并增強了MLLMs理解復雜場景的能力。評估MLLMs處理各種模態的能力有助于理解其在不同類型數據和任務中的表現,確保它們適合處理復雜的現實世界場景和挑戰性任務。

預備知識

圖1比較了幾種常見的多模態大規模語言模型(MLLMs),包括GPT-4 [3]、Gemini [4]、LLaVA [185]、Qwen-VL [186]、Claude [187]、InstructBLIP [188]、mPLUG-Owl2 [189]、SPHINX [190]、Intern-VL [191]、Yi-VL [192]、VideoChat2 [193]、Video-LLaMA [194]、Cambrian-1 [195]、PLLaVA [196]、Blip2 [197] 和 MiniGPT4-Video [198]。標準的MLLM框架可以分為三個主要模塊:一個視覺編碼器 ggg,其任務是接收和處理視覺輸入;一個預訓練語言模型,用于管理接收的多模態信號并執行推理;以及一個視覺-語言投影器 PPP,其作為橋梁對齊這兩種模態。圖3展示了這種架構和訓練過程的示意圖。該圖概述了基本語言模型、視覺編碼器、投影器以及相關的預訓練和指令微調過程。

感知與理解

在評估多模態大規模語言模型(MLLMs)的感知與理解能力時,我們重點關注那些評估模型在視覺信息處理方面基本能力的基準。這包括評估MLLMs在物體識別與檢測的準確性、場景上下文與物體關系的理解,以及對圖像內容相關問題的響應能力。感知與理解能力是MLLMs的基石,使其能夠執行廣泛的任務和應用。本節首先介紹MLLMs的綜合評估基準,然后分別討論粗粒度和細粒度的視覺感知評估基準。

認知與推理

多模態大規模語言模型(MLLMs)的認知與推理能力包括模型在基本感知與理解之上的高級處理和復雜推理的能力。認知能力涉及整合和操作提取的信息,以形成連貫的表征,而推理能力則側重于得出邏輯結論和解決問題。強大的認知與推理能力使MLLMs能夠在復雜任務中進行有效的邏輯推理。

本節重點探討多模態大規模語言模型(MLLMs)在特定任務和應用中的能力,例如它們整合復雜的視覺和文本信息的能力、適應動態環境中決策角色的能力以及有效處理多樣化文化和語言數據的能力。隨后,本節還將擴展討論MLLMs的實際應用,強調它們在醫學、工業和自動駕駛等多個領域的影響。通過概述這些基準,本節旨在強調MLLMs性能評估的進展及其在應對不同領域現實世界挑戰中的潛力。

結論

評估具有深遠的意義,在推動通用人工智能(AGI)模型的發展中變得至關重要。它不僅確保模型按預期運行,還確保其達到所需的準確性、穩健性和公平性標準。通過嚴格的評估,我們可以識別模型的優勢與劣勢,指導進一步的改進,并在實際應用中建立對AI系統的信任。在本研究中,我們對多模態大規模語言模型(MLLMs)的評估與基準進行了全面概述,將其分類為感知與理解、認知與推理、特定領域、關鍵能力和其他模態。我們旨在增強對當前MLLMs 狀態的理解,闡明其優勢與局限性,并為MLLMs 的未來發展提供見解。鑒于這一領域的動態性,可能會有一些最新的進展未能完全覆蓋。為此,我們計劃持續更新并增強我們網站上的信息,隨著新見解的出現進行補充。

付費5元查看完整內容

相關內容

在現實世界中,信息跨越不同模態且種類繁多,理解并利用多種數據類型來改進檢索系統是研究的關鍵重點之一。多模態復合檢索集成了文本、圖像、音頻等多種模態,以提供更精準、個性化和上下文相關的結果。為了促進對這一有前景方向的深入理解,本綜述深入探討了多模態復合編輯與檢索,涵蓋了圖文復合編輯、圖文復合檢索及其他多模態復合檢索。本文系統整理了應用場景、方法、基準、實驗以及未來方向。在大模型時代,多模態學習是一個熱門話題,同時也見證了《PAMI》期刊上關于多模態學習和視覺-語言模型與Transformers的若干綜述的發表。據我們所知,本綜述是首個關于多模態復合檢索的全面文獻回顧,是對現有多模態融合綜述的及時補充。為了幫助讀者快速跟蹤這一領域的進展,我們為本綜述建立了項目頁面,訪問地址為://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrieval。 關鍵詞——多模態復合檢索,多模態融合,圖像檢索,圖像編輯。

引言

在當今的數字化環境中,信息通過文本、圖像、音頻和雷達等多種渠道傳遞,導致數據量和復雜性的顯著增加。隨著數據呈指數級擴展,處理和整合多樣化信息的挑戰變得至關重要。高效檢索個性化且相關的信息變得越來越具有挑戰性。

傳統的單模態檢索方法[37], [49], [55], [83], [86], [87], [226]–[228], [237], [239]依賴于單一模態,如圖像或文本,作為查詢。然而,這些方法往往難以充分捕捉真實世界信息檢索場景的復雜性和細微差別。這一局限性促使多模態復合圖像檢索[11], [21], [28], [88], [106], [172], [190]的出現,這是一個超越單一模態邊界的有前途的框架。通過利用各種數據類型的互補優勢,多模態復合檢索系統增強了對用戶查詢和上下文的理解,從而提高了檢索性能和用戶滿意度。 如圖1所示,多模態復合檢索涉及將文本、圖像、音頻等多樣化的數據形式進行復雜的融合與分析,以實現信息檢索。這種方法在多個現實場景中具有重要價值,包括多媒體內容[80]、社交媒體平臺和電子商務[59], [70], [150], [194], [203]。此外,它的應用還涉及一些專門領域,如醫學圖像檢索[19], [65], [144]、文檔檢索[72], [80]和新聞檢索[178]。通過采用多樣的多模態查詢,這些技術能夠提供靈活且準確的結果,從而提升用戶體驗,幫助做出更明智的決策。因此,多模態復合檢索在信息科學、人工智能以及跨學科應用中具有重要的潛力和研究價值。 大多數現有的多模態復合檢索方法[4], [11], [27], [28], [77], [85], [88], [106], [115], [132], [190]主要集中在集成圖像和文本以實現預期結果。早期方法采用卷積神經網絡(CNN)進行圖像編碼,并使用長短期記憶(LSTM)網絡[108]進行文本編碼。隨著強大Transformer模型的興起,如Vision Transformer (ViT) [186]、Swin Transformer (Swin) [128]和BERT [102],提出了眾多基于Transformer的多模態復合檢索方法[184], [208],以提高圖像檢索性能。此外,視覺-語言預訓練(VLP)[94], [120], [121], [158]通過彌合文本描述和視覺內容之間的語義差距,改變了與圖像理解和檢索相關的任務。多種基于VLP的多模態復合圖像檢索方法[11], [85], [132]顯示出有前景的結果。此外,圖文復合編輯方法[31], [39], [46], [71], [118], [119], [126], [152], [232]使用戶能夠通過自然語言指令直接修改圖像或生成新內容,從而實現與用戶意圖高度一致的精確檢索。對音頻[2]和動作[215]等其他模態的探索也正在加速進行。

動機

盡管在多模態復合檢索模型上已有廣泛研究,但新的挑戰不斷涌現,仍有待解決。在這一快速發展的領域中,迫切需要進行全面、系統的分析。本綜述旨在通過系統地組織應用場景、方法、基準、實驗以及未來方向,促進對多模態復合編輯與檢索的深入理解。我們回顧并分類了130多種先進的多模態復合檢索方法,為進一步研究奠定了堅實的基礎。

文獻收集策略

為了確保對多模態復合檢索的全面概述,我們采用了一種系統的搜索策略,涵蓋了廣泛的相關文獻。我們的重點包括多模態檢索系統中的創新方法、應用和進展。我們選擇了諸如“多模態復合檢索”、“多模態學習”、“圖像檢索”、“圖像編輯”和“特征融合”等關鍵詞,涵蓋了這一領域的各個方面。這些術語反映了多模態研究中常見的基礎概念、具體技術和新興趨勢。我們在知名學術數據庫中進行了搜索,包括Google Scholar、DBLP、ArXiv、ACM和IEEE Xplore。通過這些探索,我們收集了多種來源,包括期刊文章、會議論文和預印本。為了精煉我們的選擇,我們排除了主要專注于單模態方法或不相關模態的研究,并手動審核了剩余文獻的相關性和質量。最終選擇過程中,我們基于每篇論文的貢獻和影響進行了評估,以便為深入分析策劃關鍵研究。通過應用這些標準,我們力圖為多模態復合檢索的當前形勢和未來方向提供全面的視角。

分類

為了澄清與多模態復合編輯和檢索相關的討論,我們將其按應用場景分為三類,即1) 圖文復合編輯,2) 圖文復合檢索和3) 其他多模態復合檢索,如圖2所示。具體來說,圖文復合編輯涉及通過自然語言指令修改圖像或創建全新內容,用戶可以清晰直觀地傳達其意圖。圖文復合檢索則通過輸入文本和圖像信息來搜索個性化結果,從而通過文本描述定位相關圖像或根據圖像生成描述性文本,提升搜索體驗。其他多模態復合檢索任務則將音頻、動作等不同模態的組合作為輸入,提供更豐富和靈活的上下文感知檢索體驗。

貢獻

總而言之,我們的貢獻如下: * 據我們所知,本文是首個關于多模態復合檢索的全面綜述,旨在為這一快速發展的領域提供及時的概覽和寶貴的見解,為未來的研究提供參考。 * 我們系統地組織了研究成果、技術方法、基準和實驗,幫助理解這一主題,并通過多層次的分類為現有研究提供廣泛的覆蓋,滿足讀者的多樣化需求。 * 我們解決了多模態復合檢索中的挑戰和未解問題,識別了新興趨勢并提出了可行的未來研究方向,以推動該領域的創新。

論文組織

本文其余部分的結構如下。第二部分介紹了與多模態復合檢索相關的基礎概念和應用,并為討論的方法奠定了背景。第三部分深入探討了該領域使用的各種方法,并根據其基本原理進行分類,分析其優缺點。第四部分概述了用于評估這些方法的基準和實驗設置,并展示了最新研究的結果。第五部分討論了多模態復合檢索的現狀,指出了挑戰并提出了未來研究方向。最后,第六部分總結了關鍵發現并強調了這一領域對未來研究的重要性。

付費5元查看完整內容

1 介紹

本文對大型語言模型的壓縮和效率推理進行了綜述。大型語言模型基于Transformer架構,具有強大的性能,但也帶來了巨大的內存和計算成本。本文從算法角度對大型語言模型的壓縮和效率推理方法進行了分類,包括量化、剪枝、知識蒸餾、緊湊架構設計和動態網絡。大型語言模型有兩個顯著特點: (1)大多數壓縮算法需要在壓縮后對模型進行微調和甚至重新訓練,而大型模型的微調和訓練成本非常高。因此,許多算法,如量化和剪枝,開始探索免調優算法。(2)大型模型強調通用性和泛化能力,而非單一任務的性能。因此,許多算法,如知識蒸餾,關注如何在壓縮后保留其通用性和泛化能力。 2 基本知識

2.1 Transformer

Transformer 是一種用于機器翻譯的模型,其基本結構如圖1所示。Transformer 的輸入(一個句子)通常通過嵌入層投影為一系列向量(稱為標記)作為 Transformer 的輸入。

圖1 Transformer 基本結構 每個 Transformer 塊由一個注意力模塊和一個多層感知器(MLP)模塊組成。注意力模塊將查詢和一組鍵-值對映射到輸出,輸出是值的加權和,權重由兼容性函數計算得出。注意力模塊可以描述為將查詢和鍵-值對映射到輸出的函數。兼容性函數通常是點積函數,其中權重是查詢與相應的鍵的點積,√d是縮放因子。多頭注意力將輸入標記映射到h個不同的查詢、鍵和值({Qi,Ki,Vli∈[1,h]}),然后使用不同的線性層。最終輸出是:多頭注意力=連接(head1,…,headn)W。head;=注意力(Qi,Ki,Vi),其中Wo是線性投影矩陣。 Transformer 的編碼器和解碼器結構有所不同。編碼器首先獨立地處理輸入序列(例如,用源語言編寫),解碼器將編碼器的輸出作為輸入并預測最終輸出(例如,目標語言)。編碼器和解碼器的注意力模塊有兩個核心區別:(1)編碼器使用全注意力,其中輸入序列中的任何兩個標記都是可見的,輸出標記只能看到之前的輸出標記;(2)編碼器使用自注意力模塊,即 Q、K、V 都來自輸入標記的注意力,其中 K、V 來自編碼器的輸出,而 Q 是解碼器的最后一個輸出標記。 2.2 中/大型語言模型

本文將語言模型分為中等規模和大規模兩類。中等規模的語言模型參數規模在1億以下,大規模的語言模型參數規模在1億以上。大規模的語言模型相較于中等規模的語言模型,具有更強的泛化能力和通用性,能夠處理更復雜的任務。然而,大規模的語言模型在壓縮和加速方面也面臨著更大的挑戰。 2.3 參數高效的微調(PEFT)

參數高效的微調(PEFT)是指在微調過程中盡量減少需要調整的參數數量或微調的輪數,以降低微調成本。對于中等或大型模型,全參數微調和訓練成本非常高。因此,許多參數高效的微調算法被提出,旨在盡可能減少需要調整的參數或微調的輪數。 3 量化

量化是指將輸入值從一個較大的連續集合映射到一個較小的有限集合的過程。它是降低大型語言模型內存成本和加速推理的最直接方法,特別是在支持低比特數據類型快速操作的硬件上。量化方法有許多優點,例如減少內存占用、提高推理速度等。 3.1 基本概念

  • 均勻量化:將實數范圍內的連續值映射到有限數量的離散值,以減少表示數據的位數。均勻量化中,相鄰離散值之間的距離相等,且離散值是均勻分布的。
  • 非均勻量化:非均勻量化是均勻量化的對立面,其中量化值不一定是均勻分布的,且量化間隔的長度不一定相同。非均勻量化可以更好地適應數據的分布,從而在保持相同精度的情況下,減少量化誤差。
  • 剪切范圍和校準:剪切范圍是指將實數范圍內的連續值映射到有限數量的離散值時,相鄰離散值之間的距離。校準是指選擇合適的剪切范圍,以最小化量化誤差,通常使用最小/最大值(即-α=rmin,β=Tmax)或使用絕對最大值化損失(即KL散度)來選擇剪切范圍。
  • 對稱/非對稱量化:對稱量化和非對稱量化是量化方法的兩種類型。對稱量化是指量化范圍關于0對稱,即a=-β,此時對應的量化方法稱為對稱量化;否則稱為非對稱量化。
  • 量化粒度:量化粒度是指在量化過程中,將權重或激活值劃分為多少個組進行量化。常見的量化粒度包括層粒度、通道粒度、組粒度等。
  • 訓練后的量化PTQ/量化感知訓練QAT:PTQ是一種在訓練后對模型進行量化的方法,不需要重新訓練模型,通常將權重和激活值量化為較低的精度,以減少模型大小和計算成本。QAT是一種在訓練過程中對模型進行量化的方法,旨在最小化量化引起的性能損失,通過在訓練過程中引入量化誤差來調整模型權重,以最小化量化誤差。
  • 靜態/動態量化:靜態量化在推理過程中使用固定的量化參數,而動態量化在推理過程中根據輸入數據動態調整量化參數。
  • 模擬/僅整數量化:模擬量化在運行時動態調整量化參數,可以減少神經網絡的內存成本和數據傳輸時間,通常比靜態量化更準確,但計算開銷較高。僅整數量化可以進一步享受特定硬件支持的高效低比特操作。

僅權重/權重+激活量化:僅權重量化只量化權重,可以進一步享受特定硬件支持的高效低比特操作,但可能會損失一些精度。而權重+激活量化同時量化權重和激活,可以更好地適應輸入數據的分布,但計算速度較慢。

3.2 中型語言模型的量化方法

本節主要討論了中型語言模型的量化方法,小于或接近1B大小的模型被稱為中型語言模型,如BERT、GPT-2和BART。 量化方法主要采用QAT框架而不是PTQ,因為重新訓練中型語言模型的代價相對可以接受。重新訓練帶來的評估指標(例如精度)的改進是顯著的,特別是在極端低比特設置(例如1比特或2比特量化)下。 **中等規模語言模型中的QAT。**QAT是一種在訓練過程中引入量化誤差的方法,可以在不損失模型性能的情況下實現模型壓縮。QAT技術在中等規模語言模型中的應用主要體現在將BERT類模型中的權重向量化到INT8,例如Q8BERT將BERT模型中的權重和激活都量化為8位,而沒有顯著降低模型性能。有些工作使用更復雜的方法實現了低于8位的量化寬度,例如Q-BERT將激活保持在8位,并將混合精度權重降低到2/3位。TernaryBERT將權重限制在-1,0和+1之間,僅使用2位,并使用8位的激活。BinaryBERT將BERT的量化限制為權重二值化,即權重限制在{-α,+α}中。BiBERT是BERT的全二進制化(即1位權重、嵌入和激活)。一些工作在模型性能退化和量化位寬之間實現了自動平衡,例如趙等人利用可微神經架構搜索方法來自動分配參數的精度。 **中等規模語言模型中的PTQ。**PTQ(Post-Training Quantization)是一種在訓練后對模型進行量化的方法。PTQ不需要重新訓練整個模型,而是通過在訓練后引入量化誤差來實現模型壓縮。GOBO將大多數權重進行3位量化,少數異常權重單獨保存為FP32。I-BERT為特定的非線性函數設計了僅整數近似的方法,無需任何浮點運算即可實現端到端僅整數BERT推斷。Dai等使用更精細的粒度來減少量化誤差,將權重和激活量化為4位,并使用校準集來確定每個組的縮放因子。此外,精心定制的PTQ方法所得到的量化參數,可以作為QAT方法重新訓練的一個良好的初始化點。 **量化生成的中型語言模型。**盡管對BERT類模型進行量化的方法取得了成功,但在生成語言模型(如GPT、BART)出現之前,對生成式LLM進行量化的嘗試卻很少見。量化誤差在token-by-token生成過程中逐個累積,因此量化生成式語言模型通常是一個更復雜的問題。Tao等人的研究發現,直接將專為BERT類模型設計的量化方法應用于生成語言模型會受到同質詞嵌入和權重分布差異的阻礙。為了解決這些挑戰,作者提出了兩個解決方案:token級別的對比性引導和模塊依賴的動態縮放。DQ-BART使用QAT框架和一種序列到序列模型的量化和去噪訓練目標,即BART,進行去噪訓練。DQ-BART采用標準對稱均勻量化,并設定訓練目標為最小化量化后的低精度學生模型和全精度教師模型之間的輸出logits、注意力以及隱藏狀態之間的差異。 3.3 LLM的PTQ

針對LLM的PTQ工作分為兩類:僅權重量化和權重+激活量化 僅權重量化(Weight-Only Quantization)只對模型的權重進行量化,以減小模型大小,降低內存占用和計算成本。權重量化方法可分為有符號量化和無符號量化,通常采用量化誤差最小化的方法。基于訓練后量化的方法在訓練完成后對權重進行量化,而基于量化感知訓練的方法在訓練過程中對權重進行量化。權重量化方法可以實現不同程度的模型壓縮,例如,GPTQ和QulP等方法可以將權重量化為2位或更低的精度,從而顯著降低內存占用和計算成本。 權重+激活量化是一種深度學習模型壓縮方法,通過將權重和激活值轉換為較低精度表示,減少模型大小和計算復雜度。這種方法在移動端推理、邊緣計算、嵌入式系統等領域具有廣泛應用,可以顯著提高推理速度、降低存儲空間需求和減小計算復雜度。具體實現方法包括二值化量化、8位量化、自適應量化等。 3.4 對LLM的量化感知訓練(QAT)

量化感知訓練是一種重新訓練量化模型的方法,用于從量化引起的性能下降中恢復。這種方法通常涉及整個模型的全部參數重新訓練,但對于LLM來說成本太高。因此,一些嘗試將量化與參數高效的訓練方法相結合,以顯著降低LLM上QAT的成本。當前針對LLM的QAT方法分為兩類:全參數重新訓練和參數-高效再訓練。其中,參數-高效再訓練是一種更有效的LLM QAT方法。 全參數重新訓練是指在量化 LLM 時,對 LLM 進行完整的參數重新訓練。這種方法的主要挑戰是如何在不損害 LLM 的涌現能力的情況下,在較小的數據集上重新訓練 LLM。當前的方法通常結合 QAT 和蒸餾來保留原始模型的這些能力。LLM-QAT 直接應用基本的 QAT 框架到 LLM,并使用數據生成方法生成數據,然后使用原始 LLM 對生成的數據進行訓練,以匹配量化 LLM 的輸出分布。這種方法還允許量化和 QAT 鍵值緩存,這在長句生成過程中占用大量內存。為了減輕重新訓練完整 LLM 的成本,可以使用邊緣蒸餾方法。 參數-高效再訓練是指采用參數高效的方法重新訓練LLM。本節討論了使用LoRA、適配器、提示調整等方法對LLM進行微調的一系列工作。其中,LoFTQ和LACos-BLOOM等提出了改進的量化方法,而INT2.1則將額外的可訓練參數用于LoRA矩陣的優化。其他工作則結合了量化和適配器以及提示調整等方法。這些工作有助于提高LLM的性能和效率。 3.5 關于LLM量化的其他主題

量化相關工作還包括與量化的算法共同設計高效的內核,設計對硬件友好的量化方法,并將量化方法集成到實際應用中。例如,LUT-GEMM是為擴展版本的BCQ方法設計的有效內核,可以表示均勻和非均勻量化。其他有意義的作品研究LLM量化的內在特性,例如,Dettmers和Zettlemoyer在BLOOM、OPT、NeoX/Pythia和GPT-2等LLM家族中進行了大規模實驗,使用16位激活和k位權重的組合(3≤k≤8),規模為19M到176B參數。一些工作還專注于研究LLMs中出現系統性異常值的原因,并尋找從源頭抑制異常值的方法。例如,可量化變壓器認為激活中的異常值是由于注意力頭部的行為,注意力頭部試圖避免更新殘差。 4 剪枝

神經網絡剪枝是一種用于壓縮和加速的技術,通過消除非必要的權重或結構來保持網絡性能水平。盡管剪枝在CNN中顯示出顯著效果,但在LLMs中效果不太穩定。剪枝效果不那么有效的原因在于微調成本高昂,但剪枝對于模型壓縮至關重要,需要進一步探索以增強和改進其效果。剪枝技術對于LLMs的優化和性能提升具有重要意義。 4.1 基本概念

  • 剪枝單元:剪枝單元在剪枝過程中起到關鍵作用,包括權重、神經元、注意力頭、層等。非結構化剪枝關注單個權重,可以獲得更高的稀疏度比并保持更好的性能,但計算效率較低。結構化剪枝可以輕松實現推理速度提升,但稀疏度比低于非結構化剪枝模型。在結構化剪枝中,需要避免集成結構刪除導致模型性能下降。
  • 剪枝度量:剪枝度量是決定元素是否被剪枝的準則,主要分為三類:基于幅度、基于損失和基于正則化。基于幅度的剪枝方法通過比較權重的絕對值確定重要性;基于損失的方法通過比較權重的梯度或梯度加權和確定重要性;基于正則化的方法通過比較權重的L1或L2范數確定重要性。這些方法可單獨或組合使用,如GBLM-Pruner結合了基于幅度和基于正則化的方法以獲得更好的剪枝效果。
  • 動態/靜態剪枝:動態/靜態剪枝是指在訓練過程中對模型進行剪枝的方法。動態剪枝在訓練過程中實時調整模型結構,適應數據分布的變化,但計算復雜度較高;靜態剪枝在訓練結束后一次性剪枝,計算復雜度較低,但可能無法充分利用數據分布的信息。
  • 迭代/一次性剪枝:迭代式方法通過多次迭代訓練、剪枝和微調,保持模型性能,但計算時間長。一次性方法只進行一次剪枝,不迭代和微調,計算時間短,但可能影響模型性能。迭代式方法常用于較小模型,一次性方法常用于較大模型。
  • 全局/局部剪枝:全局剪枝將比較所有剪枝單元,以識別并消除不重要的單元,可能導致特定區域過度剪枝。局部剪枝則對每個區域的稀疏性施加約束,確保每個區域內的稀疏度比率不會過低,從而降低模型崩潰的風險。
  • 數據驅動和免數據裁剪:數據驅動和免數據裁剪是兩種不同的網絡裁剪方法,數據驅動依賴于可用數據,表現更優,而免數據裁剪獨立于數據輸入執行網絡裁剪。Magnitude Pruning是最廣泛采用的裁剪方法,簡單易實現且在許多復雜方法中取得了具有競爭力的結果,同時解決了在某些場景下數據集可能不可用的挑戰。

上/下游剪枝:語言模型訓練包括預訓練和微調兩個階段。上游修剪在微調前對模型進行修剪,保留模型對多種任務的適應性,確保其多功能性;下游修剪在微調過程中進行修剪,指導模型專注于一個明確的任務。兩者各有特點,根據實際需求選擇合適的方法。

4.2 中型語言模型的剪枝方法

針對語言模型的專業設計剪枝方法具有獨特性,不同于傳統的剪枝方法。它專門針對基于轉換器的模型和適用于多種不同架構模型的通用方法。這些剪枝方法可分為無結構方法和結構化方法。 4.2.1 針對中型語言模型的非結構化剪枝

非結構剪枝方法在不考慮約束的情況下,將非必要權重置為零。接下來介紹了三種修剪方法:基于規模的剪枝、基于損失的剪枝和正則化。這些技術有助于減少模型參數數量,提高模型性能和效率。 基于規模的剪枝是指根據模型的大小來選擇合適的剪枝方法。基于規模的剪枝方法,將權重的規模和激活值的規模納入到剪枝度量中,其中幅度修剪是最常用的方法,在研究中被應用于中型語言模型。Gordon等人通過幅度修剪壓縮BERT,結果表明約30-40%的權重是不必要的,丟棄不會影響BERT的性能。漸變幅度修剪和GMP?等方法引入了稀疏度比例計劃,在整個修剪過程中逐漸降低稀疏度比例,這種方法允許在隨后的修剪步驟中更多的恢復時間,最終導致性能改善。 基于損失的剪枝是一種通過分析權重對損失函數的貢獻來確定哪些權重可以被剪枝的方法。它通常比基于權重大小的剪枝方法更準確,因為它考慮了權重在特定任務中的重要性。基于損失的剪枝主要有兩種方法:基于梯度的剪枝和基于Hessian矩陣的剪枝。基于梯度的剪枝包括OBD和OBS等,基于Hessian矩陣的剪枝包括L-OBS和L-OBD等。這些方法在語言模型剪枝中取得了很好的效果,例如SparseGPT和LLM Surgeon方法。 正則化方法包括L1、L2和Lo正則化,其中Lo正則化在模型壓縮中更常用。Lo正則化將權重的Lo范數納入損失函數,實現非零權重的稀疏化。然而,離散的Lo范數在梯度下降優化中存在挑戰,因此使用硬混凝土分布作為二進制掩碼的近似,如圖4。 圖4 使用蒙特卡洛模擬對硬混凝土分布的近似概率密度直方圖。該硬混凝土分布的參數為對數α=0,β=0.5,γ=?0.1,和ζ=1.1。在該規格下,硬混凝土分布大致將其質量的一半分配到{0,1}中,其余分配到(0,1)中。 **其他。**非結構剪枝方法與N:M稀疏性集成,可以解決稀疏矩陣的非規則性質帶來的挑戰,提供純非結構化方法可能缺乏的推理速度提升。N:M稀疏性原則要求在神經網絡中連續的M組權重中,不超過N個權重具有非零值,底層硬件可以壓縮經常出現的零值,實現推理加速。這種方法在保持模型性能的同時,顯著提高了計算速度。 4.2.2 針對中型語言模型的結構化剪枝

無結構剪枝方法雖然能實現高稀疏度并保持性能,但不一定能在普通硬件上實現推理加速。在應用于中型語言模型的有序剪枝方法中,選擇適當的剪枝單位與度量同樣重要。使用與模型架構相關的結構作為剪枝單元往往能產生更理想的結果。接下來將深入探討結構化剪枝的領域,包括基于權重的剪枝、基于損失的剪枝和正則化技術。 **基于權重的剪枝。**修剪單元權重的加權和可以作為有意義的表示,廣泛應用于CNN中的卷積核。該方法也可擴展到中型語言模型,例如通過將權重大小與L2范數加權和,表示注意力頭、FFN神經元和權重塊的重要性。然后,根據重要性得分排序,去除不重要的結構。 **基于損失的剪枝。**在基于損失的剪枝方法中,對注意力頭部的探索和分析得到了相當的關注。頭部剪枝方法可以顯著提高模型性能和推理速度,同時保持測試準確性。此外,塊移動修剪方法通過考慮任意大小的塊并集成到運動修剪中來擴展結構方法,同時與FFN中神經元修剪的組合可以獲得最佳的整體性能。此外,一些結構化剪枝方法可以泛化,因為其中的剪枝單元是神經元。 **正則化。**正則化方法包括L0和L1正則化。其中,L0正則化因其廣泛的應用而脫穎而出,而L1正則化也得到了相關研究。這些方法主要應用于注意力頭的剪枝,包括因子化低秩剪枝、粗粒度和細粒度剪枝等。這些方法通過結合稀疏性誘導的目標學習得到不同大小的剪枝模型,并可以通過微調提高性能。這些方法在實驗中實現了超過10倍的速度提升,同時精度只略有下降。 **其他。**結構化修剪還有層修剪、令牌修剪等方法。層修剪涉及在推理過程中刪除不重要的令牌以減少計算需求。學習令牌剪枝是一種直接有效的方法,根據輸入序列穿過轉換器層的情況來適當地刪除不重要令牌。每個令牌的剪枝度量由Transformer塊中歸一化注意力概率的總和確定。此外,還有譜歸一化身份先驗(SNIP)等單元,它采取策略來剪枝注意力層和FFN子層。這些方法有助于減少計算需求并提高模型性能。 4.3 LLM的修剪方法

本節介紹了針對LLM的剪枝方法,包括其順序和特點,并進行了全面的比較。這些方法采用與中等規模語言模型所使用的并行方法相同的方法,但省略了微調過程。表3總結了LLM的各種修剪方法,這些方法在LLM領域具有廣泛的應用前景。表3 對LLM的各種修剪方法的總結

4.3.2 LLM的非結構化剪枝

非結構剪枝方法在保持模型性能方面具有優勢,能夠實現50%的稀疏度比率,被廣泛用作后續方法的基準。后續方法在NLP任務中超越了這些方法,取得了優越的結果。雖然這些方法難以提高推理速度,但它們可以與N:M稀疏性結合以加速推理速度。這些方法需要最少的校準數據,即對模型的一次前向傳遞專門獲取激活值或梯度以計算權重的重要性。LLM的非結構化剪枝可分為基于規模的剪枝方法和基于損失的剪枝方法。 基于規模的剪枝方法將權重幅度和激活值結合作為剪枝度量。例如,Wanda和RIA使用權重幅度和激活度量,E-Sparse還引入信息熵到度量中。Wanda引入一種新穎的修剪度量,同時考慮了權重和激活值的幅度,認為權重的意義不應該孤立地評估,而應該考慮它與相應激活值的產品。RIA也同時考慮權重和激活,主要區別在于其緩解通道腐敗的方法,用相對重要性取代了權重的幅度。E-Sparse引入了隱藏狀態特征的信息熵到剪枝度量中,熵作為信息豐富度的度量,數值越高表示信息越豐富。 基于損失的剪枝方法包括二階和一階方法。其中,SparseGPT是一種高效的二階剪枝方法,將OBS技術融入GPT家族模型中,并使用稀疏性比率分配給每個權重矩陣。此外,還介紹了基于OBS和OBD的概念,以及一種新型剪枝度量ISC。一階方法中,GBLM-Pruner是一種基于梯度的語言模型剪枝方法,通過與權重的幅度以及不同樣本的相應梯度的歸一化相乘來定義權重。 4.3.3 LLM的結構化剪枝

LLM的結構剪枝方法不依賴硬件,能加速推理,但需微調以恢復性能。LLM-Pruner作為基準,促進比較。微調雖在非結構剪枝中不再使用,但LLM中仍廣泛采納。LLM的結構化剪枝涵蓋基于規模的剪枝、基于損失的剪枝和正則化。 基于規模的剪枝方法考慮行或列作為剪枝單位。例如,基于波動自適應結構化剪枝(FLAP)的剪枝單位是列。權重矩陣中每個列的重要性得分通過“波動度量”來測量,該度量是輸入特征的樣本方差,其中權重與權重矩陣相應列的平方范數相關聯。此外,FLAP還納入了旨在減輕組件刪除所產生的負面影響偏差補償機制,以消除微調的必要性。 基于損失的剪枝方法中,梯度信息至關重要。一些方法利用梯度信息來定義剪枝結構、選擇剪枝目標等。其中一些方法可以動態地識別和指定剪枝單元,如LLM-Pruner和LoRAShear。此外,Ji等人提出了一種新穎的方法,使用非神經模型作為精度預測器來自動識別最佳修剪模型。這種方法通過評估和預測不同修剪配置對神經網絡精度的沖擊,促進更有效和自動化的最佳修剪模型選擇。這些方法在保持模型性能的同時實現高稀疏比率具有挑戰性。 正則化方法包括剪枝LLaMA和Compresso。剪枝LLaMA通過聯合修剪粗粒度和細粒度模塊,引入了目標結構剪枝和動態批量加載兩個新穎組件,實現了緊湊替代方案并優于從頭開始訓練的模型。Compresso將LoRA集成到L0正則化中,通過協作剪枝范式提高LLM在剪枝過程中的理解和合作,從而提高性能并適應修改后的模型結構**。**

4.4 關于LLM剪枝的其他主題

**提高LLM的剪枝效率。**為了增強針對LLMs的定制修剪方法的有效性,開發出了幾種輔助技術,包括針對子區域定制的稀疏性比率、后修剪微調方法和硬件優化。其中一種定制稀疏比率的方法是“離群加權分層稀疏”(OWL),它引入了一套定制的非均勻分層稀疏比率。另一種后修剪微調方法是“動態稀疏無訓練”,它無需完整的微調過程即可進一步細化稀疏LLM。這些技術可以提高現有剪枝方法(如Wanda和SparseGPT)的性能,表明剪枝性能的潛在提升可以通過各種與剪枝方法核心無關的手段實現。 **LLM剪枝的未來工作。**LLM剪枝領域面臨兩個重要挑戰,一是將剪枝與其他方法結合以提高性能,二是微調成本高。科研人員和從業人員需應對無法執行完整微調的挑戰,特別是當處理旨在增強剪枝性能的LLM時。解決這些挑戰對于提高剪枝技術的有效性和實用性至關重要。 5 知識蒸餾(KD)

知識蒸餾是一種將教師模型的知識轉移給學生模型的技術,用于壓縮和加速模型,以更簡潔和更有效的方式表示教師模型的知識。 5.1 基本概念

圖5 知識蒸餾分類

  • Logit-based KD 是一種基于輸出概率的知識蒸餾方法,它通過最小化學生模型和教師模型之間的輸出概率差異來實現知識傳遞。這種方法通常使用 KL 散度作為損失函數,將教師模型的輸出概率作為目標,引導學生模型學習教師模型的輸出分布。這種方法的優點是可以直接優化模型輸出,避免引入額外的中間表示。
  • Feature-based KD 是一種基于特征的知識蒸餾方法,它通過匹配教師模型和學生模型的輸出特征來傳遞知識。這種方法要求學生模型不僅要知道結果,還要理解底層過程。
  • Relation-based KD 是一種基于關系的知識蒸餾方法,它旨在讓學生模型學習教師模型如何處理關系型知識。這種關系主要體現在兩個方面:同一樣本在不同層的輸出關系和不同樣本的輸出關系。

Black-box KD 是一種黑盒知識蒸餾方法,它不需要訪問教師模型的內部信息,而是通過教師模型的預測結果來傳遞知識。這種方法適用于大型模型的知識蒸餾,因為大型模型的內部信息通常是不可訪問的。黑盒知識蒸餾的損失函數通常包括預測損失和關系損失兩部分,其中預測損失用于衡量學生模型和教師模型預測結果的差異,關系損失用于衡量學生模型和教師模型在處理關系型知識時的差異。黑盒知識蒸餾的主要優點是可以更好地模擬教師模型的行為,但缺點是需要更多的計算資源。

5.2 中等規模語言模型的知識蒸餾方法

中等規模的語言模型基于transformer結構,通過預訓練和微調兩個階段進行訓練。預訓練階段使用大規模的無標簽數據集,學習語言的通用特征和結構;微調階段使用帶標簽的數據,使其適應特定任務。模型蒸餾可分為微調蒸餾和預訓練蒸餾兩類。表4展示了各種中等規模模型蒸餾方法的訓練階段、知識來源和損失函數。表4 BERT各種KD方法的總結。嵌入、注意力、隱藏和預測代表知識分別來自嵌入、注意力機制、隱藏層和模型的預測。

微調蒸餾計算成本高,因此提出了許多微調知識蒸餾方法來減少成本。預訓練蒸餾可以減少針對特定任務的計算成本,但帶來新的挑戰。教師模型比學生模型具有更大的容量和更強的表示能力,學生模型在大量開放域訓練數據上產生與教師模型匹配的預測是一項具有挑戰性的任務。因此,選擇預訓練蒸餾和微調蒸餾之間的通用方法取決于如何在模型大小和性能之間進行權衡。 5.3 大語言模型的知識蒸餾方法

大型語言模型數量不斷增加,但許多模型是閉源的,這限制了學生模型的知識獲取。通過利用教師模型的響應,即知識剩余來源,我們可以將信息傳遞給學生模型,實現知識蒸餾。根據學生模型的知識來源是否僅限于教師模型提供的答案,可以將大型語言模型的知識蒸餾分為黑盒蒸餾和白盒蒸餾。黑盒蒸餾適用于學生模型可以從教師模型響應之外的其他來源獲取知識的場景,而白盒蒸餾適用于學生模型只能從教師模型響應中獲取知識的場景。 **黑盒知識蒸餾。**研究人員發現,當模型的參數足夠大時,LLMs表現出涌現能力,能夠處理復雜的任務。黑箱蒸餾方法利用這種能力,通常使用三種常見的方法:指令跟隨、思想鏈和上下文學習。此外還有還有其他方法生成特定的強化數據集,例如使用符號知識折衷為常識模型獲得高質量的常識知識圖譜,DISCO使用LLM獲取反事實數據并過濾以獲得高質量數據集以提高學生在NLI任務中的能力,PubMedBERT提出了一種全新框架處理不良事件實體和ADE關系提取,以及Promptmix使用LLM根據比例混合和重新標記文本數據用于分類問題以獲得更強大的訓練數據集。 **白盒知識蒸餾。**白盒蒸餾的研究工作相對較少,但仍有一些探索。MINILLM和GKD等模型專注于損失函數,并使用反向KL散度來幫助學生從教師分布中學習。此外,Padmanabhan等人通過提示語言模型生成轉移集,使學生的分布與轉移集上的教師分布相匹配。TSLD利用判別概率表征進行標記化,以減少在應用QAT時引入的錯誤。MiniMA發現當學生模型的大小約為教師模型參數數量的40%時,最佳的蒸餾效果會出現。這些方法都旨在幫助學生訓練,并利用教師提供的信息來增強學生的表達能力。 6 緊湊架構設計

緊湊架構設計是一種提高效率和精簡的理念,通過優化網絡結構和算法,顯著提高模型效率,同時減少計算資源和內存的使用。它可分為微觀和宏觀兩個層次進行研究,重點優化注意力計算和Transformer架構設計。 6.1 高效注意力

Transformer中的標準自注意力機制時空復雜度為O(N2),阻礙了處理長序列問題的能力。為了解決這個問題,出現了高效注意力工作,包括稀疏注意力、線性近似注意力和閃存注意力等。 稀疏注意力方法允許每個標記只關注局部或主要相關的項,從而實現稀疏注意力模式,從而降低計算和內存需求。稀疏注意力方法可以分為基于全局、基于窗口和基于數據三種方法。基于全局的方法包括全局注意力、基于窗口的方法包括局部注意力和固定注意力模式,基于數據的方法包括隨機注意力和數據驅動的稀疏注意力。 圖6 比較稀疏注意力模式。(a) 完全自注意力(b) 步長注意力(c) 窗口注意力(d) 全局注意力 線性近似注意力方法以解決標準注意力計算中存在的二次時間復雜度問題。線性近似注意力計算方法可以分為基于關聯性和低秩的方法。基于關聯性的方法通過計算 KTV 并利用軟最大化實現線性注意力,而低秩方法則通過將 QKT 分解為低秩矩陣實現線性注意力。 6.2 神經架構搜索(NAS)

NAS是一種通過搜索算法自動尋找最優神經網絡結構的方法。這種方法可以避免手動設計神經網絡結構的繁瑣過程,并且能夠找到在特定任務上表現更好的模型結構。HAT 是一種神經架構搜索方法,它通過構建一個 Super Transformer 來近似包含搜索空間中的所有 Sub Transformer 模型,并通過延遲預測器預測延遲,從而加速搜索過程。這種方法可以避免昂貴的重新訓練,并且可以觀察到一些重要的性質。 7 動態網絡(DyNN)

動態網絡(DyNN)是一種在資源受限環境下處理大型語言模型(LLM)的方法,它只使用網絡的一部分來處理每個輸入,從而降低計算和內存需求。在自然語言處理(NLP)和LLM領域,當前的DyNN研究主要包括三種方法:早期退出、級聯推理和混合專家(MoE)。早期退出旨在在深度神經網絡的早期層動態終止推理過程,以減少響應時間。級聯推理將模型分解為多個子模型,每個子模型處理輸入序列的不同部分。混合專家將模型分解為多個專家,每個專家處理輸入序列的不同部分。這些方法可以結合其他壓縮加速方法來提高LLMs的效率。表5中總結了一些具有代表性的MoE方法。表5 各種MoE方法總結

7.1 將MoE與其他高效技術結合使用

MoE 與其他高效技術結合的研究包括剪枝、知識蒸餾和參數高效微調(PEFT)。在稀疏 MoE 模型中,大多數現有工作都關注如何在保留大部分表示能力的同時減少內存占用。MoEBERT 將預訓練 BERT 中的前饋網絡(FFN)轉換為多個專家,并在推理時只激活一個專家,以提高速度。MoEfication 旨在將 FFN 轉換為 MoE 層的轉換推廣到各種 Transformer 模型。σ-MoE 和 SwitchHead 引入了額外的稀疏性到 FFN 和注意力組件,以減少標準 Transformer 的計算和內存需求。Sparse Mixers 和 SMLP 替換了大部分自注意力子層和 FFN,并使用 MoE 子層和路由機制確保來自同一句子的標記被發送到同一專家。AdaMix 提出了一種混合適配器或低秩分解矩陣的混合方法,以增強下游性能。MixDA 使用一組領域適配器注入領域特定知識,并訓練一個混合適配器門動態融合多個領域任務。EcoAssistant 和 FrugalGPT 利用查詢緩存和 LLM 層次結構處理不同復雜度的請求。MoE 的研究歷史較長,廣泛應用于今天的 LLM,包括模型壓縮和加速技術。 8 加速框架

本章主要介紹了一些用于加速大型語言模型(LLM)推理的框架。這些框架旨在提高 LLM 在不同場景下的效率,包括延遲、吞吐量和內存等。這些框架可以分為通用框架和特定框架。通用框架包括 DNNFusion 和 DeepSpeed Inference,它們可以應用于各種場景,而特定框架則針對特定場景進行優化,如 TurboTransformer 和 ByteTransformer。表6為各種加速框架的總結。這些框架通過操作融合、張量并行、推理管道和卸載系統等技術來提高 LLM 的推理效率。表6 各種加速框架的總結

付費5元查看完整內容

在不斷發展的深度學習領域,數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型(LLMs)的出現為合成數據生成提供了一種以數據為中心的解決方案,緩解了現實世界數據的限制。然而,目前對這一領域的研究缺乏統一的框架,大多停留在表面。因此,本文基于合成數據生成的一般工作流程,整理了相關研究。通過這樣做,我們突出了現有研究中的空白,并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。

在深度學習領域不斷演變的背景下,數據數量和質量的問題一直是一個長期存在的困境。大語言模型(LLMs)的革命性出現引發了深度學習領域的顯著范式轉變(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。盡管有這些進展,大量高質量數據仍然是構建穩健自然語言處理(NLP)模型的基礎(Gandhi et al., 2024)。具體來說,這里的高質量數據通常指的是包含豐富監督信號(通常以標簽形式)并與人類意圖緊密對齊的多樣化數據。然而,由于高成本、數據稀缺、隱私問題等原因,依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的(Kurakin et al., 2023)。此外,多項研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人類生成的數據由于其固有的偏見和錯誤,可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題:是否有其他更有效和可擴展的數據收集方法可以克服當前的限制?

鑒于LLMs的最新進展,它們展示了生成與人類輸出相當的流暢文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說,合成數據旨在模仿真實世界數據的特征和模式(Liu et al., 2024)。一方面,LLMs通過廣泛的預訓練,積累了豐富的知識庫,并展現出卓越的語言理解能力(Kim et al., 2022; Ding et al., 2023a),這為生成真實的數據奠定了基礎。另一方面,LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性,從而能夠為特定應用創建定制的數據集,并設計更靈活的流程(Eldan and Li, 2023)。這兩個優勢使LLMs成為極具前景的合成數據生成器。

作為LLMs的一項關鍵應用,合成數據生成對于深度學習的發展具有重要意義。如圖1所示,LLMs驅動的合成數據生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整個模型訓練和評估過程實現自動化,最小化了人類參與的需求(Huang et al., 2023),從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外,LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的見解強調了數據質量對于有效模型學習的重要性,而LLMs賦予我們主動“設計”模型學習內容的能力,通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月,Hugging Face上已有超過300個被標記為“合成”的數據集,許多主流LLMs利用高質量的合成數據進行訓練,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。

盡管看似簡單,但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程,并涉及許多技巧(Gandhi et al., 2024),使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務(如預訓練(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微調(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、評估(Feng et al., 2023; Wei et al., 2024))和不同領域(如數學(Yu et al., 2023a; Luo et al., 2023a)、代碼(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))進行數據生成,但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題,并開發通用工作流程,本綜述調查了最近的研究,并根據生成、策展和評估三個密切相關的主題進行組織,如圖2所示。我們的主要目的是提供該領域的全面概述,確定關鍵關注領域,并突出需要解決的空白。我們希望為學術界和工業界帶來見解,并推動LLMs驅動的合成數據生成的進一步發展。

付費5元查看完整內容

在蓬勃發展的大型語言模型(LLMs)領域,開發一種健全的安全機制,也就是俗稱的“保護措施”或“護欄”,已成為確保LLMs在規定范圍內倫理使用的當務之急。本文對這一關鍵機制的當前狀態進行了系統的文獻綜述。文章討論了其主要挑戰,并探討了如何將其增強為一個全面的機制,以應對各種情境下的倫理問題。首先,本文闡明了主要LLM服務提供商和開源社區所采用的現有保護機制的現狀。接著,本文介紹了評估、分析和增強護欄可能需要執行的一些(不)理想屬性的技術,例如幻覺、公平性、隱私等。在此基礎上,我們回顧了繞過這些控制(即攻擊)、防御攻擊以及強化護欄的技術。盡管上述技術代表了當前的狀態和活躍的研究趨勢,我們還討論了一些不能輕易用這些方法處理的挑戰,并提出了我們對如何通過充分考慮多學科方法、神經-符號方法和系統開發生命周期來實現全面護欄的愿景。

近年來,生成式人工智能(GenAI)顯著加快了人類邁向智能時代的步伐。像ChatGPT和Sora [1]這樣的技術已經成為推動新一代產業轉型的關鍵力量。然而,大型語言模型(LLMs)的快速部署和整合引發了關于其風險的重大關注,包括但不限于倫理使用、數據偏見、隱私和魯棒性 [2]。在社會背景下,擔憂還包括惡意行為者通過傳播虛假信息或協助犯罪活動等方式的潛在濫用 [3]。在科學背景下,LLMs可以在專業領域使用,并需要專門考慮科學研究中的倫理問題和風險 [4]。

為了解決這些問題,模型開發者實施了各種安全協議,以將這些模型的行為限制在更安全的功能范圍內。LLMs的復雜性,包括復雜的網絡和眾多參數,以及閉源性質(如ChatGPT),都帶來了巨大的挑戰。這些復雜性需要不同于前LLM時代的策略,當時主要關注白盒技術,通過各種正則化和架構調整來增強模型訓練。因此,除了從人類反饋中進行強化學習(RLHF)和其他訓練技能如上下文訓練外,社區還傾向于采用黑盒、事后策略,特別是護欄 [5], [6],它們監控和過濾訓練后的LLMs的輸入和輸出。護欄是一種算法,它將一組對象(例如LLMs的輸入和輸出)作為輸入,并確定是否以及如何采取某些強制措施來減少對象中嵌入的風險。如果輸入與兒童剝削有關,護欄可能會阻止輸入或調整輸出以變得無害 [7]。換句話說,護欄用于在查詢階段識別潛在的濫用,并防止模型提供不應給出的答案。

構建護欄的難點往往在于確定其要求。不同國家的AI法規可能不同,在公司背景下,數據隱私可能不如公共領域那么嚴格。然而,LLMs的護欄可能包括一個或多個類別的要求:幻覺、公平性、隱私、魯棒性、毒性、合法性、分布外、不確定性等。本文不包括典型的要求,即準確性,因為它們是LLMs的基準,嚴格來說不是護欄的責任。也就是說,LLMs和護欄之間在責任(尤其是魯棒性)方面可能沒有明確的界限,兩者應協作以實現共同的目標。然而,對于具體應用,需要精確定義要求及其相應的度量標準,并需要采用多學科方法。緩解給定的要求(如幻覺、毒性、公平性、偏見等)已經很復雜,如第5節所討論的那樣。當涉及多個要求時,這種復雜性更加嚴重,特別是當一些要求可能相互沖突時。這樣的復雜性需要復雜的解決方案設計方法來管理。在護欄設計方面,雖然可能沒有“一統天下”的方法,但一種可行的護欄設計是神經-符號的,學習代理和符號代理在處理LLMs的輸入和輸出方面協作。多種類型的神經-符號代理 [8]。然而,現有的護欄解決方案,如Llama Guard [9]、Nvidia NeMo [10]和Guardrails AI [11]使用的是最簡單、松散耦合的解決方案。鑒于護欄的復雜性,探討其他更深度耦合的神經-符號解決方案設計將是有趣的。

像安全關鍵軟件一樣,需要一個系統化的過程來涵蓋開發周期(從規范、設計、實施、集成、驗證、確認到生產發布),以謹慎地構建護欄,如ISO-26262和DO-178B/C等工業標準所示。本綜述從第2節的一些背景介紹開始。目標是(1)了解現有的護欄框架,這些框架用于控制LLM服務中的模型輸出,以及評估、分析和增強護欄以應對特定理想屬性的技術(第3節);(2)了解用于克服這些護欄的技術,以及防御攻擊和強化護欄的技術(第4節);然后討論如何實現完整的護欄解決方案,包括為特定應用背景設計護欄的一些系統化設計問題(第5節)。

大型語言模型的背景

大型語言模型(LLMs)主要基于Transformer架構 [12],由多個Transformer塊組成的深度神經網絡構成。每個塊集成了一個自注意力層和一個通過殘差連接的前饋層。特定的自注意力機制使模型在分析特定詞元時能夠專注于鄰近詞元。最初,Transformer架構是專為機器翻譯開發的。新開發的利用Transformer架構的語言模型可以進行微調,從而無需針對特定任務的專用架構 [13]。通常,這些網絡包含數千億(或更多)的參數,并在大規模文本語料庫上進行訓練。示例包括ChatGPT-3 [14]、ChatGPT-4 [1]、LLaMA [15]和PaLM [16]。

LLMs被用于各種復雜任務,如對話式AI [17]、翻譯 [18]和故事生成 [19]。當前的LLMs利用的架構和訓練目標類似于較小語言模型,如Transformer架構和以語言建模為中心的任務。然而,LLMs在模型尺寸、數據量、應用范圍的廣度和計算成本等方面顯著擴大。構建離線模型包括三個主要階段 [2]:預訓練、適應性調優和使用改進。通常,預訓練階段類似于傳統的機器學習訓練,包括數據收集、選擇架構和進行訓練。適應性調優包括指令調優 [20]和對齊調優 [21],以從任務特定指令中學習并遵循人類價值觀。最后,使用改進可以增強用戶交互,包括上下文學習 [14]和思維鏈學習 [22]。

在訓練完LLM后,其性能是否符合預期非常重要。此評估通常包括三個維度:評估基本性能,進行安全分析以了解實際應用中的潛在后果,以及利用公開可用的基準數據集。主要的性能評審集中在語言生成和復雜推理等基本能力上。安全分析深入研究LLM與人類價值觀的對齊、與外部環境的交互以及整合到更廣泛應用中的情況,如搜索引擎。此外,基準數據集和可訪問工具支持這一綜合評估。評估結果決定了LLM是否符合預定標準并準備部署。如果不符合,則回到早期訓練階段之一,以解決發現的問題。在部署階段,LLM可以在網頁平臺上用于直接用戶交互,如ChatGPT,或整合到搜索引擎中,如新Bing。無論應用如何,標準做法是在LLM和用戶之間的交互中實施護欄,以確保遵守AI法規。

**護欄的設計與實施技術 **

本節介紹了由LLM服務提供商或開源社區提出的幾種現有護欄技術。然后,我們回顧了根據期望的理想屬性評估、分析和增強LLMs的方法。

護欄框架和支持軟件包

LLM護欄構成了一套旨在監督和規范用戶與LLM應用交互的安全措施。這些措施是可編程的、基于規則的系統,位于用戶和基礎模型之間。其主要功能是確保LLM模型遵守組織的既定原則,并在規定的倫理和操作框架內運行。護欄在用戶與已部署的LLMs交互階段應用,這是LLM生命周期的最后一步。圖1展示了通用護欄機制的生命周期和潛在漏洞。開發者通過數據處理、護欄模型訓練和模型定制或微調(例如,Llama Guard和NeMo Guardrails)完成護欄的開發,如圖1黃色區域所示。這些護欄隨后部署在LLMs中,以促進與用戶的交互。通常,用戶預定義需要保護的內容,也稱為自定義規則。隨后,用戶通過提示與LLMs進行交互并等待生成的響應。護欄根據預定義規則評估輸出以確定其合規性。如果內容被認為不安全,護欄可能會直接阻止或向用戶發出預設警告。相反,如果輸出符合標準,則直接顯示給用戶,如圖1橙色區域所示。值得注意的是,一些現有攻擊方法允許不安全內容繞過護欄保護,如圖1紅框所示;有關這些攻擊方法的詳細討論,請參閱第4節。

欄中(不)理想屬性的技術

在本節中,我們討論幾種不同的屬性,詳細說明它們的標準定義以及如何使用護欄來保護這些屬性。需要注意的是,屬性的數量過于龐大,無法全面覆蓋,因此我們重點關注幻覺、公平性、隱私、魯棒性、毒性、合法性、分布外和不確定性。

克服與增強護欄

如第3節所述,實施先進的保護技術在增強LLMs的安全性和可靠性方面發揮了重要作用。然而,[125]指出,使用護欄并不能增強LLMs抵御攻擊的魯棒性。他們研究了諸如ModerationEndpoint、OpenChatKitModeration Model和Nemo等外部護欄,發現它們僅在一定程度上減少了越獄攻擊的平均成功率。越獄攻擊(“jailbreaks”)旨在通過操縱模型的響應來利用語言模型的固有偏見或漏洞。這些成功的攻擊允許用戶繞過模型的保護機制、限制和對齊,可能導致生成非常規或有害內容,或者任何由對手控制的內容。通過繞過這些約束,越獄攻擊使模型能夠產生超出其安全訓練和對齊邊界的輸出。 因此,本節我們探討了當前用于繞過LLMs護欄的方法。在表2中,我們比較了不同的越獄攻擊: 1. 攻擊者訪問類型: 白盒、黑盒和灰盒。在白盒場景中,攻擊者可以完全查看模型的參數。黑盒情況限制了攻擊者觀察模型的輸出。在灰盒背景下,攻擊者通常對部分訓練數據有部分訪問權限。 1. 提示級別的操控: 用戶提示或系統提示。用戶提示是由用戶指定的輸入提示,允許個性化或針對性的輸入。系統提示則是由模型自動生成的,可能包括攻擊者巧妙設計以欺騙或操縱系統響應的輸出。 1. 核心技術: 用于攻擊LLM的主要技術。 1. 隱蔽性: 高隱蔽性意味著攻擊難以被人類察覺,應該是一些邏輯、語義和有意義的對話,而不是一些無意義的內容。 1. GPT-4 評估: 由于許多越獄攻擊并未直接針對帶有護欄的LLMs,而GPT-4有其默認護欄,因此對GPT-4的評估可以看作是比較的替代指標。 1. 目標操縱的生成響應屬性: 毒性、隱私、公平性和幻覺。

付費5元查看完整內容

雖然像ChatGPT這樣的大型語言模型(LLMs)在自然語言處理(NLP)任務中表現出令人印象深刻的能力,但對其在這一領域潛力的系統性研究仍然較少。本研究旨在填補這一空白,探索以下問題:(1)LLMs目前在文獻中如何應用于NLP任務?(2)傳統的NLP任務是否已經被LLMs解決?(3)LLMs在NLP中的未來是什么?為了解答這些問題,我們首先提供了一個關于LLMs在NLP中全面概述的第一步。具體來說,我們首先介紹了一個統一的分類,包括(1)參數凍結應用和(2)參數微調應用,以提供一個統一的視角來理解LLMs在NLP中的當前進展。此外,我們總結了新的前沿領域及相關挑戰,旨在激發進一步的突破性進展。我們希望這項工作能為LLMs在NLP中的潛力和局限性提供寶貴的見解,同時也作為構建有效的LLMs在NLP中的實用指南。

近年來,大型語言模型(LLMs)通過擴大語言模型的規模,代表了人工智能領域的重大突破(Zhao et al., 2023a; Kaddour et al., 2023; Yang et al.; Hadi et al., 2023; Zhuang et al., 2023)。目前關于LLMs的研究,如GPT系列(Brown et al., 2020; Ouyang et al., 2022)、PaLM系列(Chowdhery et al., 2022)、OPT(Zhang et al., 2022a)和LLaMA(Touvron et al., 2023),顯示了令人印象深刻的零樣本性能。此外,LLMs還帶來了一些新興能力,包括指令遵循(Wei et al., 2022a)、鏈式思維推理(Wei et al., 2022c)和上下文學習(Min et al., 2022),這些能力引起了越來越多的關注(Wei et al., 2022b)。

為了回答上述問題,我們首次嘗試對LLMs在NLP中的應用進行全面而詳細的分析。本工作的總體目標是探索LLMs在NLP中的當前發展。為此,在本文中,我們首先介紹相關背景和預備知識。此外,我們引入了LLMs在NLP中的統一范式:(1)參數凍結應用,包括(i)零樣本學習和(ii)小樣本學習;(2)參數微調應用,包括(i)全參數微調和(ii)參數高效微調,旨在提供一個統一的視角來理解LLMs在NLP中的當前進展:

  • 參數凍結應用直接在NLP任務中使用提示方法,不需要參數微調。這一類別包括零樣本和小樣本學習,具體取決于是否需要小樣本示例。
  • 參數微調應用指需要對LLMs的參數進行微調以適應NLP任務。這一類別包括全參數微調和參數高效微調,具體取決于是否需要對所有模型參數進行微調。 最后,我們通過確定未來研究的潛在前沿領域及相關挑戰來刺激進一步的探索。總結來說,這項工作提供了以下貢獻:
  1. 首個綜述:我們首次對大型語言模型(LLMs)在自然語言處理(NLP)任務中的應用進行了全面綜述。
  2. 新分類法:我們引入了一個新的分類法,包括(1)參數凍結應用和(2)參數微調應用,這提供了一個理解LLMs在NLP任務中應用的統一視角。
  3. 新前沿:我們討論了LLMs在NLP中的新興研究領域,并強調了相關挑戰,旨在激發未來的突破。
  4. 豐富資源:我們創建了第一個LLMs在NLP中的資源集合,包括開源實現、相關語料庫和研究論文列表。這些資源可在//github.com/LightChen233/Awesome-LLM-for-NLP獲取。 我們希望這項工作能成為研究人員的寶貴資源,并推動基于LLMs的NLP領域的進一步進展。

我們首先描述了一些典型的自然語言處理理解任務,包括語義分析(§3.1)、信息抽取(§3.2)、對話理解(§3.3)和表格理解(§3.4)。

付費5元查看完整內容

隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。

  1. ChatGPT:本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后,我們遵循與REBEL模型相同的步驟,以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗,我們將參數“溫度”的值設為0,以獲得更具確定性的輸出,因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容

行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1

付費5元查看完整內容

自然語言生成(NLG)技術利用人工智能和語言學的方法來自動地生成可理解的自然語言文本。NLG降低了人類和計算機之間溝通的難度,被廣泛應用于機器新聞寫作、聊天機器人等領域,已經成為人工智能的研究熱點之一。首先,列舉了當前主流的NLG的方法和模型,并詳細對比了這些方法和模型的優缺點;然后,分別針對文本到文本、數據到文本和圖像到文本等三種NLG技術,總結并分析了應用領域、存在的問題和當前的研究進展;進而,闡述了上述生成技術的常用評價方法及其適用范圍;最后,給出了當前NLG技術的發展趨勢和研究難點。

//www.joca.cn/CN/abstract/abstract24496.shtml

付費5元查看完整內容

//cea.ceaj.org/CN/abstract/abstract39198.shtml

近年來,深度學習技術被廣泛應用于各個領域,基于深度學習的預處理模型將自然語言處理帶入一個新時代。預訓練模型的目標是如何使預訓練好的模型處于良好的初始狀態,在下游任務中達到更好的性能表現。對預訓練技術及其發展歷史進行介紹,并按照模型特點劃分為基于概率統計的傳統模型和基于深度學習的新式模型進行綜述;簡要分析傳統預訓練模型的特點及局限性,重點介紹基于深度學習的預訓練模型,并針對它們在下游任務的表現進行對比評估;梳理出具有啟發意義的新式預訓練模型,簡述這些模型的改進機制以及在下游任務中取得的性能提升;總結目前預訓練的模型所面臨的問題,并對后續發展趨勢進行展望。

付費5元查看完整內容

我們生活在一個由大量不同模態內容構建而成的多媒體世界中,不同模態信息之間具有高度的相關性和互補性,多模態表征學習的主要目的就是挖掘出不同模態之間的共性和特性,產生出可以表示多模態信息的隱含向量.該文章主要介紹了目前應用較廣的視覺語言表征的相應研究工作,包括傳統的基于相似性模型的研究方法和目前主流的基于語言模型的預訓練的方法.目前比較好的思路和解決方案是將視覺特征語義化然后與文本特征通過一個強大的特征抽取器產生出表征,其中Transformer[1]作為主要的特征抽取器被應用表征學習的各類任務中.文章分別從研究背景、不同研究方法的劃分、測評方法、未來發展趨勢等幾個不同角度進行闡述.

//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6125&flag=1

付費5元查看完整內容
北京阿比特科技有限公司