隨著大型語言模型(LLMs)的快速發展,使策略模型與人類偏好保持一致變得愈發重要。直接偏好優化(DPO)作為一種不依賴強化學習(RL)的替代方法,逐漸成為對齊的有前途的途徑,替代了基于人類反饋的強化學習(RLHF)。盡管 DPO 在多方面取得了進展,并且其內在的局限性也備受關注,但目前文獻中尚缺乏對這些方面的深入綜述。在這項工作中,我們對 DPO 的挑戰和機遇進行了全面回顧,涵蓋了理論分析、變體、相關偏好數據集和應用。具體而言,我們根據關鍵研究問題對近期的 DPO 研究進行了分類,以全面了解 DPO 的現狀。此外,我們提出了多個未來研究方向,以為研究社區提供有關模型對齊的見解。
通過使用預測下一個詞的目標,基于大規模、高質量語料庫進行預訓練,耗費大量計算資源,大型語言模型(LLMs)[OpenAI, 2022; Touvron等, 2023a; OpenAI, 2024a; Jiang等, 2023]將廣泛的世界知識內化于其內部參數中,展現了令人印象深刻的語言理解和生成能力。此外,LLMs 已經擴展到支持多模態輸入,包括語言和視覺,從而催生了大型視覺語言模型(LVLMs)[OpenAI, 2023a; Liu等, 2024a; Team等, 2023; Bai等, 2023]。這些基礎模型作為通用解決方案,在廣泛的語言和視覺語言任務中表現優異,標志著向人工通用智能(AGI)邁出了重要的一步。 隨著這些基礎模型規模的擴大和性能的提升,它們仍然難以完全遵循用戶的指令(顯式目標)并實現“有幫助、誠實、無害”(隱式目標),這歸因于預訓練階段使用的下一個詞預測任務的目標不完全對齊[Leike等, 2018; Askell等, 2021; OpenAI, 2023b]。因此,在典型的后訓練階段,會進行偏好優化(例如,從人類反饋中進行強化學習,RLHF),在響應級別上對預訓練的語言模型進行對齊,以確保它們與用戶的意圖保持一致,并且保持有幫助、誠實和無害[Ouyang等, 2022a; Dai等, 2024; Sun等, 2023]。RLHF 首先在收集的人工偏好數據上訓練顯式獎勵模型。隨后,RLHF使用強化學習算法(例如,近端策略優化(PPO; Schulman等, 2017a])微調策略模型(即目標微調的LLM),以生成能夠最大化由獎勵模型評分的響應獎勵的響應,但不偏離參考模型太遠,受KL散度約束。然而,RLHF需要精心調整超參數和大量計算資源來維持強化學習訓練的穩定性。此外,一些研究還指出與此顯式獎勵建模相關的一些挑戰,例如獎勵濫用[Casper等, 2023]、獎勵錯誤指定[Pan等, 2022]和分布外泛化問題[Tien等, 2023]。 為了避免上述RLHF的限制,提出了多種不依賴強化學習的偏好優化方法。Yuan等[2023]、Dong等[2023]、Liu等[2024b]、Song等[2024]提出從策略模型中采樣多個響應,并使用經過良好訓練的獎勵模型進行評分。然后,在沒有使用強化學習算法的情況下,直接在最優的響應(稱為拒絕采樣)或通過應用排序損失微調策略模型。另一方面,從RL中帶有KL約束的獎勵最大化目標出發,直接偏好優化(DPO; Rafailov等, 2023)推導出其學習目標,特別是基于離線偏好數據的簡單最大似然目標,直接在策略模型和參考模型上進行建模,從而繞過了顯式獎勵模型訓練階段,并消除了強化學習優化的需要。實際上,DPO的優化目標等同于Bradley-Terry模型[Bradley和Terry, 1952a],其中隱式獎勵函數由策略模型本身參數化。與RLHF相比,DPO在多種應用中表現出穩定、高效且計算輕量的優勢[Rafailov等, 2023; Ethayarajh等, 2024; Ivison等, 2024]。 最近的一些研究表明,盡管避免了計算成本高昂的強化學習,DPO仍然面臨一些重大挑戰。例如,DPO中的隱式獎勵建模可能導致偏向分布外響應的策略[Xu等, 2024a; Saeidi等, 2024],離線DPO在經驗上不如在線對齊方法[Ivison等, 2024],經過對齊的模型可能會經歷所謂的“對齊成本”[Lin等, 2024a; Lu等, 2024a]。因此,近期提出了多種改進版的DPO,包括KTO[Ethayarajh等, 2024]、IPO[Azar等, 2023]、CPO[Xu等, 2024b]、ORPO[Hong等, 2024]、simPO[Meng等, 2024],以及其他方法[Lu等, 2024b; Xiao等, 2024; Zeng等, 2024]。隨著DPO的快速發展,迫切需要一篇綜合性綜述,幫助研究人員識別該領域中的新興趨勢和挑戰。我們觀察到一些關于LLM對齊的同時進行的研究與我們的工作相關[Ji等, 2023; Wang等, 2023a; Shen等, 2023]。然而,現有的綜述文章主要關注LLMs的整體對齊,包括指令微調和RLHF。它們涉及DPO的部分不足以捕捉這一領域當前快速發展的態勢。此外,這些綜述往往關注于語言模型的對齊,未能提供對DPO特定的應用和數據集的深入介紹。 為了彌補這一空白,我們在本文中對DPO的最新進展進行了全面綜述,涵蓋了相關的偏好數據集、理論分析、變體和應用。具體而言,我們根據以下研究問題對當前的DPO研究進行分類:
我們希望這篇綜述能夠幫助研究人員抓住該領域中的新趨勢和挑戰,探索DPO在對齊LLMs和多模態LLMs(MLLMs)中的潛力,并為構建更具可擴展性和普適性的DPO做出貢獻。具體而言,我們認為未來的研究應優先開發更先進的DPO變體,這些變體能夠:(i)超越實例級反饋,捕捉更細粒度和準確的獎勵;(ii)通過數據、學習目標和獎勵展示出與在線RLHF相比具有競爭力或更強的泛化能力;并且(iii)促進復雜應用的發展,如深度推理系統(例如OpenAI o1 [OpenAI, 2024b])、混合模態模型(例如Chameleon [Team, 2024])。 本文其余部分的組織結構如下。(§ 2)介紹了RLHF和DPO的背景知識。(§ 3)介紹了DPO的研究問題和不同變體。DPO使用的數據集和應用分別在(§ 4)和(§ 5)中介紹。(§ 6)討論了DPO的機遇和挑戰。最后在(§ 7)中給出了簡短的結論。
算法設計(AD)在各個領域的高效問題解決中至關重要。大型語言模型(LLM)的出現顯著提升了該領域的自動化和創新,提供了新的視角和優越的解決方案。在過去的三年中,LLM在算法設計(LLM4AD)中的應用取得了顯著進展,應用領域廣泛,包括優化、機器學習、數學推理和科學探索。鑒于該領域的快速發展和應用范圍的擴展,進行系統性的綜述已成為必要。本論文對LLM4AD領域的研究工作進行了系統性綜述。首先,我們概述并總結了現有研究成果。接著,我們從四個維度——LLM的作用、搜索技術、提示策略和應用領域——對現有研究進行了系統分類和評審。此外,我們討論了各個領域的成就與挑戰,以及LLM4AD在應對這些挑戰方面的能力。最后,我們探討了當前的局限性,并提出了若干開放性問題和未來研究的潛在方向。
附加關鍵詞和短語:算法設計、大型語言模型、學習優化、優化、啟發式方法、超啟發式方法、進化計算。
1 引言
算法在解決工業、經濟、醫療和技術等多個領域的各種問題中發揮著關鍵作用[32, 82]。傳統的手工算法設計方法需要大量的專家知識和時間,過程繁瑣且耗時。因此,越來越多的研究者關注將學習和計算智能技術整合到算法開發過程中,以簡化并優化算法的設計[12, 154]。近年來,大型語言模型(LLMs)作為生成式人工智能的重大突破,因其龐大的模型規模、海量的訓練數據及其在數學推理[5]、代碼生成[80]和科學發現[163]等多個研究領域中的出色表現而備受矚目。
在過去三年中,將大型語言模型應用于算法設計(LLM4AD)逐漸成為一個新興的研究領域,有望徹底改變算法的構思、優化和實施方式。LLM的強大性能和適應性在提高和轉變算法設計過程方面展現出了巨大的潛力,包括啟發式生成[98]、代碼優化[109],甚至為特定問題定制新算法的創建[54]。這種方法不僅減少了設計階段所需的人力,還提升了解決方案的創造性和效率[98, 139]。
盡管LLM4AD備受關注,但這一新興領域內的系統綜述仍然稀缺。現有文獻主要關注LLM在特定算法上下文中的單一應用,缺乏對方法、應用、挑戰和未來方向的系統概覽。已有的綜述主要集中在LLM用于特定優化主題[66, 72, 177],或LLM在電子設計自動化[205]、規劃[129]、軟件工程[69]、推薦系統[176]和智能代理[165]等特定問題上的應用。本論文旨在彌補這一空白,提供對LLM在算法設計領域的系統性綜述,探索其應用、討論關鍵挑戰,并提出未來的研究方向。通過整合這些見解,本文將加深對LLM在算法設計中潛力的理解,并為該領域進一步創新奠定基礎。
本論文的貢獻如下:
LLM4AD的系統性綜述:我們對最近三年內發表的180余篇研究論文進行了系統綜述,不僅匯總了該領域的現狀,還對研究成果進行了分類,深入分析了方法、結果和算法設計的進展。該綜述可為新入門的研究人員和尋求最新進展的資深專家提供寶貴的資源。
多維分類法的開發:我們引入了一個多維分類法,將LLM4AD的研究工作和功能分為四個不同的維度:1) LLM在算法設計中的角色,包括作為優化器、預測器、信息提取器和設計者,闡明了LLM在算法設計中的具體貢獻;2) 搜索方法,分析了LLM在算法設計中用于導航和優化搜索空間的各種方法;3) 提示方法,探討了多樣化的提示策略;4) 應用領域,確定了LLM在解決復雜算法問題時所應用的關鍵領域和行業。此分類法不僅澄清了LLM4AD的研究現狀,還有助于識別未來研究的空白和機會。
關于局限性和未來方向的討論:我們不僅對現有文獻進行總結,還深入分析了LLM用于算法設計研究中的局限性,討論了可擴展性、可解釋性、高成本和安全性等挑戰。此外,我們提出了若干潛在的未來研究方向,以應對這些限制,包括開發特定領域的LLM、探索多模態LLM、實現與人類專家交互的系統、使用LLM進行算法評估、理解LLM行為、推動完全自動化的算法設計,以及為LLM在算法設計中的系統評估建立基準標準。這些討論旨在激發新的研究方法,推動該領域的進一步發展。
2 方法和分類法
2.1 綜述范圍
本文旨在對算法設計的大型語言模型(LLM4AD)這一新興領域的現有研究工作進行系統性綜述和分類。我們進一步明確了本文綜述的范圍如下:
我們不打算涵蓋所有關于LLM和算法的文獻。具體而言,我們排除了其他分支的工作,如針對LLM優化的算法(例如提示工程算法[141])和LLM訓練算法[1]。
“大型語言模型”指的是具有足夠規模,以實現各種任務的強大零樣本性能的語言模型,包括語言理解、代碼生成和數學推理等。這些模型通常采用變換器架構并以自回歸的方式運行[204]。
我們排除了使用較小模型進行算法設計的研究,例如傳統模型算法和機器學習輔助算法[12]。盡管“大型”模型的定義存在挑戰,但目前大多數前沿的LLM包含超過十億個參數[119, 204]。
僅具備視覺處理功能的其他大型模型不在我們的考慮范圍內,但包含語言處理功能的多模態LLM屬于我們的范圍。
在此背景下,算法指的是一組設計用于解決問題的數學指令或規則,特別是在計算機上執行時[32]。該廣義定義涵蓋了傳統數學算法[5]、大多數啟發式方法[113, 117]以及某些可以解釋為算法的智能體或策略[179]。
2.2 統計
我們介紹了論文收集和篩選的詳細流程,分為四個階段:
第一階段:數據提取和收集:我們通過Google Scholar、Web of Science和Scopus收集相關論文。我們的搜索邏輯是標題必須包含以下兩個組中的至少一個詞的組合:“LLM”、“LLMs”、“Large Language Model”、“Large Language Models”和“Algorithm”、“Heuristic”、“Search”、“Optimization”、“Optimizer”、“Design”、“Function”(例如,LLM和優化、LLMs和算法)。作為一個快速發展的研究領域,大多數關于LLM4AD的論文以Arxiv等預印本形式在線發表,因此從Google Scholar收集的論文數量顯著多于Web of Science和Scopus(超過800篇)。去重后,截至2024年7月1日,我們最終收集了850篇論文。
第二階段:摘要篩選:我們首先檢查每篇論文的標題和摘要,以高效排除無關的論文。排除標準包括非英語論文、非算法設計領域及不使用大型語言模型的論文。篩選后,剩余260篇論文。
第三階段:全文篩選:在此階段,我們仔細閱讀每篇論文的全文,剔除未包含相關內容的論文。篩選后,剩余160篇論文。
第四階段:補充:為了避免遺漏重要研究,我們根據領域內的相關知識手動搜索相關文獻。整合額外的論文后,最終收集了180余篇。
我們將首先概述LLM4AD的論文列表,并呈現一個分類法來系統地審視進展。除了整理好的論文列表外,本綜述還包含一些在2024年7月1日之后發布的出版物,統計數據將根據需要更新。 2.3 概述
圖2a展示了按月劃分的論文發表趨勢。圖中顯示了與LLM4AD相關的研究活動顯著增加,尤其是大多數研究集中在過去一年內進行。這表明LLM4AD是一個新興領域,隨著不同領域學者逐漸意識到其巨大的潛力,未來研究成果的數量將顯著增加。值得注意的是,作為快速擴展的領域,大部分研究首先以Arxiv預印本的形式發表,其中許多隨后被頂級會議(如ICML和NeurIPS)接收。 圖2c和圖2b展示了主要貢獻機構及其所屬國家在LLM4AD領域的研究分布。美國位居首位,中國緊隨其后,兩國的論文數量占總數的50%。接下來的八個國家(包括新加坡、加拿大和日本)共同貢獻了總出版量的三分之一。主要參與該領域研究的機構包括著名大學如清華大學、南洋理工大學、多倫多大學,以及大型企業如華為、微軟和谷歌。此分布表明了該研究主題的廣泛關注及其在實際應用中的巨大潛力。 在圖3中,我們基于所有被審查論文的標題和摘要生成了詞云,其中每個詞至少出現五次。該詞云展示了前80個關鍵詞,分為四個顏色編碼的集群,分別為“語言”、“GPT”、“搜索與優化”和“科學發現”。幾個關鍵字如“演化”、“策略”、“優化器”和“智能體”也被重點標出。
近期,多功能大規模語言模型(LLMs)的激增在很大程度上依賴于通過偏好學習將越來越強大的基礎模型與人類意圖對齊,從而在廣泛的背景下增強LLMs的適用性和有效性。盡管已經進行了眾多相關研究,但關于如何將人類偏好引入LLMs的視角仍然有限,這可能阻礙了對人類偏好與LLMs之間關系的深入理解以及其局限性的實現。在這篇綜述中,我們從偏好中心的角度回顧了在人類偏好學習領域針對LLMs的探索進展,涵蓋了偏好反饋的來源和形式、偏好信號的建模和使用以及對齊LLMs的評估。
我們首先根據數據來源和形式對人類反饋進行分類。然后總結了人類偏好建模的技術,并比較了不同模型派別的優缺點。此外,我們根據利用人類偏好信號的目標展示了各種偏好使用方法。最后,我們總結了評估LLMs在人類意圖對齊方面的一些流行方法,并討論了我們對LLMs人類意圖對齊的展望。
大規模語言模型(LLMs)[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]對人工智能(AI)產生了突破性的影響,改變了人們對AI系統理解和應用人類語言潛力的看法。這些具有大規模參數(主要超過100億)的神經網絡語言模型最初在從各種來源收集的大規模語料庫上進行了預訓練,其中相當一部分來源于互聯網[11]。通過模仿人類在文本數據中使用自然語言的方式進行預訓練,基礎LLMs獲得了強大而通用的語言技能[1, 12]。另一方面,觀察發現基礎LLMs在理解或恰當地回應多樣化的人類指令方面存在困難[13],因為預訓練中的模仿過程并未強制基礎LLMs按照人類意圖來執行指令[13, 14]。來自互聯網的預訓練語料庫中殘留的一些有毒、有偏見或事實錯誤的內容甚至會導致基礎LLMs的不當模仿,產生不理想的生成結果[15, 16, 17, 18, 19, 20]。在現實生活中的實際應用中,基礎LLMs必須進化得更加符合人類意圖,而不是模仿預訓練語料庫中可能存在噪聲的行為。
人類偏好學習[21]可以通過根據輸出結果中反映人類偏好的反饋信息優化LLMs,有效地使LLMs與人類意圖對齊,從而指定人類的意圖[22]。最近涌現的大量進化后的LLMs能夠生成適當的響應以應對各種人類指令,驗證了這一方法的有效性[2, 6, 8, 9, 13]。目前,關于人類偏好學習的綜述大多集中于狹義的人類偏好學習方法或廣義的語言模型(LM)對齊方法。關于人類偏好學習的綜述主要集中于強化學習(RL),這可能不適用于LLMs,也不包含與非RL偏好學習方法相關的見解[23, 24]。關于LM對齊[25, 26, 27, 28]以及一般AI系統對齊[22]或超越語言的大模型[29]的綜述,主要將人類偏好學習視為解決對齊問題的工具。這些綜述缺乏對偏好學習,特別是偏好建模方法的系統回顧和討論,而偏好建模方法對于捕捉人類意圖以實現LM對齊至關重要[13]。為了進一步探索更有效的偏好學習方法以實現更好的LLM對齊,我們對適用于語言模型的人類偏好學習方法進行了全面綜述,從偏好學習的角度審視LLM對齊方法。通過分析偏好學習框架內的各種對齊方法,我們勾勒出將人類偏好引入LLMs的全貌,從各個方面提供關于人類偏好學習的見解,適用于各個領域。 具體而言,如圖1所示,我們引入了人類偏好學習在LLMs中的各個方面,包括偏好反饋的來源和形式、偏好建模、偏好信號的使用以及整合人類偏好的LLMs的評估:
本綜述的其余部分組織如下。我們在第二部分開始介紹本綜述的背景,介紹人類偏好學習在LLMs中的發展歷程。然后,我們從第三部分到第七部分介紹人類偏好學習在LLMs中的各個方面,包括反饋來源(第三部分)、反饋形式(第四部分)、偏好建模(第五部分)、偏好使用(第六部分)和評估(第七部分)。最后但同樣重要的是,我們在第八部分總結了人類偏好學習,并討論了我們對未來的展望。
近年來,以ChatGPT為代表的能夠適應復雜場景、并能滿足人類的各種應用需求為目標的文本生成算 法模型成為學術界與產業界共同關注的焦點 . 然而,ChatGPT等大規模語言模型(Large Language Model,LLM)高度忠 實于用戶意圖的優勢隱含了部分的事實性錯誤,而且也需要依靠提示內容來控制細致的生成質量和領域適應性,因 此,研究以內在質量約束為核心的文本生成方法仍具有重要意義. 本文在近年來關鍵的內容生成模型和技術對比研 究的基礎上,定義了基于內在質量約束的文本生成的基本形式,以及基于“信、達、雅”的6種質量特征;針對這6種質量 特征,分析并總結了生成器模型的設計和相關算法;同時,圍繞不同的內在質量特征總結了多種自動評價和人工評價 指標與方法. 最后,本文對文本內在質量約束技術的未來研究方向進行了展望.
2022 年 11 月 30 日,由 OPENAI 實驗室推出的一款 基于 GPT3.5的內容生成工具 ChatGPT[1,2] ,通過進一步 提升模型的記憶能力與文本理解能力,使其自動生成 的問題解答、軟件代碼、數學計算和信件內容等結果, 不僅具備優秀的內容完整性和邏輯性,而且能夠符合 用戶偏好并實現場景的自適應性,從而引起了學術界 和工業界的廣泛關注,并使基于人工智能的內容生成 技術(AI Generate Content,AIGC)成為目前 AI 技術領 域中熱議的焦點之一[3,4] . AIGC 技術的核心是通過 AI 算法自動化地生成滿足特定目標和質量要求的文本 內容,生成文本不僅需要符合圖靈假設[5] ,而且應當滿 足人們在瀏覽信息時所需要的“信(Credible)、達(Ex? pressiveness)、雅(Elegance)”的質量需求[6] . 目前,以 GPT-3 [3] ,T5 [7] 和 GPT-4 [8] 為核心的大規模預訓練語言 模 型(Large Language Model,LLM)不 僅 具 有 的 層 數 多、參數量大的結構特點,而且通過海量語料的訓 練,具有很強的理解能力和泛化能力,逐漸成為 AIGC 技術的主流 . 但是,相比 LLM 聚焦不同外在環境和任 務的普適性,如何提升語言模型所生成文本的內在 質量以符合特定領域的質量需求,迫切需要開展深入 的研究. 近年來語言生成模型的技術演化路線如圖1所示. 其中,Google 和 OpenAI 的研究者在早期基于多頭注意 力機制的Transformer[9] 模型基礎上,通過增加預訓練子 任務或改進解碼器結構,分別提出了用于自然語言理 解任務的 BERT 模型[10] 和適應多種任務的自回歸模型 GPT[11] . 此后預訓練語言模型出現了兩個重要分支: 一是以 GPT-2 [12] ,GPT-3 [3] ,T5 [7] 和 GPT-4 [8] 為代表的自 回歸模型采用了更加豐富的訓練語料和更加龐大的 參數,進一步增強了 LLM 在多種不同生成任務中的性 能 與 泛 化 性 ;二 是 以 RoBERTa[13],SpanBERT[14]和 SBERT[15]為代表的改進模型通過改進掩碼機制和預 訓練子任務,進一步提升了 BERT 模型的編碼性能和 應用領域 . 同一時期,基于循環機制和雙流自注意力 的 TransformerXL[16]和 XLNet[17]等預訓練模型在生成 長文本的同時,通過生成質量控制保持了上下文語義 的流暢性;而融合了 BERT 編碼能力和 GPT-2 生成優 勢的 BART 模型[4] 能夠通過輸入不同的關鍵字來控制 生成文本的內容語義 . 為了生成更加連貫的長文本內 容,Tan 等人[18] 基于 BART 構建了多步驟生成模型 Pro? Gen,通過在多步生成過程中采用不同的觸發詞,有效 控制了長文本生成中內容語義的連貫性,并在基于 CNN新聞數據集的實驗結果表明,相對于BART模型的 BLEU 值 30.1%,ProGen模型提升到了 31.2%. 而 Hua等 人[19] 從語義連貫性與動態語義的演化特征出發,提出 了連貫性生成模型 PAIR,它將文本計劃作為生成模型 的輸入以控制輸出文本的整體脈絡,從而保證了輸出 內容具有更加平滑的語義變化和連貫性,在針對 Red? dit 數據集的測試中發現,相比 BART 模型的 BLEU 值 6.78%,PAIR 的 BLEU 值提升至 36.09%. Jang 等人[20] 為了增強對話任務中回復內容的角色一致性,提出 的模型將 BART 模型作為生成器的主體結構,采用 角色和知識的獨立編碼以增強回復文本中的屬性表 達,該模型在 FoCus 數據集上測試結果為 46.31%,比 BART 模型的 BLEU 值 13.18% 大幅提升 . 上述工作 表明,從不同的質量特征上來優化內容生成模型的 結構,均可獲得較 BART 模型更優的結果,因此,在 各種大語言模型不斷推新的場景下,從質量特征的 視角來進行模型優化,仍然具有的重要的研究價值 和意義. 圍繞著生成更準確[21,22] 、更真實[23,24] 、更細致[25~27] 、 更可靠[28,29] 的高質量文本內容,大量學者從不同的視 角對AIGC領域中的關鍵技術問題進行了綜述研究. 其 中,Iqbal 等人[30]在 CNN,RNN,LSTM 等經典模型的基 礎上,深入分析和對比了基于 VAE和 GAN等生成模型 的差異,發現傳統語言模型無法控制不同文本質量中 的細微差別 . Li 等人[31] 則從預訓練語言模型和微調機 制出發,從“相關性、忠實度、保序性”等質量維度來分 析不同類型的輸入數據如何自適應地生成滿足特定質 量要求的文本,但是這些工作缺少探索所選特性的可 泛化能力,導致一些質量特征僅限于特定的任務. 在生 成文本的可靠評價角度上,Celikyilmaz 等人[32] 從人工 評價方法、非訓練的自動評價算法和機器學習的評價 模型等方向出發,系統討論了生成文本的評價方法與 指標體系 . 而 Jin 等人[33] 關注文本風格遷移任務,特別 是圍繞著風格遷移強度、語義保存性和流暢度等特征 深入研究了自動評價和人工評價方法. 然而,現有的評 價方法依然偏向于特定的生成任務,缺乏一個以質量 特征為核心主線的內容評價框架. 綜上所述,在考慮到不同研究工作之間關注焦點 存在的差異性,本文在梳理和對比與已有研究綜述 在 AIGC 核心問題與工作挑戰的基礎上(表 1),從質 量約束與控制的視角出發,對 AIGC 中高質量文本內 容生成進行形式化定義,進而圍繞不同的質量特征 與任務分析相關技術、模型的研究進展,對未來的發 展趨勢進行分析和總結,為未來的研究奠定基礎和 指引.
近年來,基礎語言模型(LMs)在自然語言處理(NLP)和計算機視覺(CV)領域取得了顯著成就。與傳統神經網絡模型不同,基礎語言模型通過在大量無監督數據集上進行預訓練,獲得了豐富的常識知識,并且具有強大的遷移學習能力。然而,由于災難性遺忘,基礎語言模型仍然無法模擬人類的持續學習能力。因此,各種基于持續學習(CL)的方法被開發出來,以改進語言模型,使其能夠在適應新任務的同時不遺忘以前的知識。然而,現有方法的系統分類和性能比較仍然缺乏,這正是本綜述旨在填補的空白。我們深入綜述、總結并分類了現有文獻中應用于基礎語言模型的持續學習方法,如預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)。我們將這些研究分為離線持續學習和在線持續學習,其中包括傳統方法、基于參數高效的方法、基于提示調優的方法和持續預訓練方法。離線持續學習包括領域增量學習、任務增量學習和類別增量學習,而在線持續學習則細分為硬任務邊界和模糊任務邊界設置。此外,我們概述了持續學習研究中使用的典型數據集和指標,并詳細分析了基于語言模型的持續學習所面臨的挑戰和未來工作。
** 1 引言**
近年來,基礎語言模型(LMs)在自然語言處理(NLP)[136, 226, 232]和計算機視覺(CV)[188]領域設立了新的基準。基礎語言模型主要包括三大類:預訓練語言模型(PLMs)[136]、大語言模型(LLMs)[226]和視覺-語言模型(VLMs)[42]。PLMs如BERT [88]、RoBERTa [120]和BART [102]專注于文本任務,通過利用掩碼語言建模等任務進行預訓練,對于理解和生成語言至關重要。LLMs如GPT-4 [1]和LLaMA [173]通過擴大模型架構和訓練數據的規模,擴展了PLMs的能力,從而增強了它們在更廣泛任務中的普適性和適應性。VLMs如VisualBERT [106]、CLIP [154]、LLaVA [113]和DALL-E [156]集成了文本和圖像模態,使視覺和文本信息之間能夠進行復雜交互。這些模型的基本范式是通過在廣泛的、通常是無標簽的數據集上進行預訓練來捕獲豐富的語義信息,然后針對具體任務或領域進行微調。這種方法不僅提升了各類應用的性能,還顯著增強了模型的靈活性和任務適應性 。 然而,這些基礎模型在具有一系列任務的動態環境中往往表現出局限性,主要原因是訓練完成后參數固定。這些模型通常缺乏在不進行重新訓練的情況下整合新數據或概念的能力。一個重要挑戰是“災難性遺忘”[92],即模型在學習新信息時會喪失先前獲得的知識。這與人類的持續學習過程形成鮮明對比,人類學習過程本質上是連續且適應性的。盡管多任務學習(MTL)和遷移學習(TL)在某些應用中取得了成功,但它們在現實場景中有其局限性。MTL需要在開始時就提供所有任務及其數據,這在推出新服務時構成挑戰,因為模型必須重新訓練所有數據。此外,TL通常只涉及兩個任務,即源任務和目標任務,這對于擁有多個目標任務的現實在線平臺來說是不切實際的。為了解決這些挑戰,模型需要處理和學習不斷擴展和多樣化的數據集。這需要允許模型在適應新語言現象和趨勢的同時,不影響對歷史數據的準確性和敏感性的機制。
因此,持續學習(CL)[175, 186],也被稱為終身學習[145]或增量學習[230],是人工智能中的一個關鍵領域,旨在開發能夠持續更新自身并獲取新知識的系統,而不遺忘先前學到的信息,類似于人類學習[34]。這一范式在基礎語言模型(LMs)的背景下尤為重要,因為它們面臨災難性遺忘(CF)和跨任務知識轉移(KT)等特定問題。災難性遺忘是一個顯著挑戰,模型在學習新信息時傾向于喪失先前獲得的知識。為了解決這一問題,語言模型必須在適應新的語言趨勢的同時,保持對過去語言數據的穩固掌握。此外,跨任務知識轉移對于增強持續學習過程至關重要。有效的知識轉移不僅加速新任務的學習曲線(前向轉移),還通過新知識的反饋提高模型在先前任務上的性能(反向轉移)。
持續學習方法的最新進展大大提升了基礎語言模型(LMs)的適應性和知識保留能力。這些進展對于解決CL中先前觀察到的復雜挑戰至關重要。研究人員制定了創新策略來減輕這些挑戰,從而使LMs能夠在各種任務中保持高性能,同時持續整合新知識[30, 99, 134]。在不同的下游任務中記錄了顯著的成功,例如基于方面的情感分析,其中持續學習使動態適應不斷變化的方面和情感成為可能[84]。同樣,在對話生成中,新技術通過持續交互幫助模型改進和擴展其對話能力[164]。在文本分類中,持續學習促進了新類別的整合和對文本分布變化的調整,而無需完全重新訓練[158]。此外,在視覺問答領域,持續學習對于更新模型處理和響應新類型視覺內容和查詢的能力至關重要[148, 220]。上述工作強調了持續學習對提升基礎語言模型性能的潛力。
在持續學習領域,傳統方法向整合基礎語言模型的方法發生了顯著的范式轉變(見圖1)。首先,基礎語言模型由于在大規模數據集上的廣泛預訓練,展示了增強的泛化和遷移學習能力。模型具有快速適應下游任務的專門遷移能力,只需少量樣本。因此,在促進新技能獲取的同時,減輕零樣本遷移和歷史任務能力的退化至關重要。其次,由于基礎語言模型中大量的參數,采用參數高效技術[59]如提示調優[119]和適配器[140],無需全面重新訓練即可更新參數。第三,基礎語言模型具備通過指令學習[39, 144]進行動態和上下文感知交互的能力。
本綜述系統地將這些策略和技術分類為兩個核心領域:離線持續學習和在線持續學習(圖2)。我們首先給出離線和在線CL的詳細定義和場景,其中離線CL包括領域增量、任務增量和類別增量CL,而在線CL包括硬任務邊界和模糊任務邊界。這些學習策略進一步細分為基于預訓練語言模型(PLMs)、大語言模型(LLMs)和視覺-語言模型(VLMs)的方法。然后,我們總結了與傳統方法、持續預訓練方法、參數高效調優方法和基于指令方法相關的論文。最后,我們從多個角度統計了主要數據集,并回顧了評估模型遺忘和知識轉移的關鍵指標。
本綜述論文的主要貢獻如下:
提示 (Prompting) 已成為將大型語言模型(LLMs)適配到特定自然語言處理任務的主流范式。盡管這種方法為LLMs的上下文學習開啟了大門,但它帶來了模型推理的額外計算負擔和人力努力的手工設計提示,特別是在使用冗長和復雜的提示來指導和控制LLMs行為時。結果,LLM領域見證了高效提示方法的顯著增長。在本文中,我們提供了這些方法的全面綜述。從高層次來看,高效提示方法大致可以分為兩種途徑:具有高效計算的提示和具有高效設計的提示。前者涉及各種壓縮提示的方式,后者采用自動提示優化的技術。我們介紹了提示的基本概念,回顧了高效提示的進展,并突出了未來研究方向。
大型語言模型(LLMs)已顯著推進了各種自然語言處理(NLP)任務的最新進展,例如對話、機器翻譯和摘要生成(Brown et al., 2020; Touvron et al., 2023; Bubeck et al., 2023)。提示是人機交互的一個重要媒介,用于向LLMs明確傳達清晰的任務描述,然后通過類比學習生成用戶期望的響應。提示的內容在不同上下文中會有所變化,特別是包含指令、問題、帶有特定輸出格式的多重演示,以及額外要求,如復雜的推理過程和角色扮演命令。在本文中,“提示”一詞指的是用戶輸入給LLMs的內容。
然而,隨著LLMs的上下文學習(ICL)能力變得更強(Dong et al., 2022),為不同特定任務設計的提示傾向于多樣化和詳細化。超長的自然語言提示逐漸引發了兩個問題:1) 對LLM本身而言,上下文窗口是有限的,影響其處理過度冗長上下文的潛力;2) 對LLM用戶而言,它要求使用大量的計算資源來訓練開源模型,或者承擔調用閉源模型接口的高成本。從這個角度來看,LLM的使用成本在學術研究和商業部署場景中都相當巨大。顯然,性能出色的LLM不能被廣泛使用是一種遺憾。雖然模型結構有許多相關改進,如高效注意力機制(參見Xiao & Zhu, 2023; Wan et al., 2023的相關工作),可以有效減輕推理成本,在本文中,我們更側重于高效提示方法,以節省不必要的財務開銷。
考慮到財務和人力資源,效率可以從三個角度得到改善:1) 推理加速,2) 內存消耗下降,和3) 自動設計良好的提示。前兩個目標可以通過提示壓縮實現,而第三個目標可以基于提示工程而非手工設計,通過自動提示優化實現。據我們所知,文獻中關于高效提示方法的全面整合存在顯著差距。
在這篇綜述中,我們從第2節的提示背景介紹開始。隨后,我們從計算(第3節)和設計(第4節)的角度審查現有的高效提示方法。前者將提示壓縮組織為三個類別:知識蒸餾(第3.1節)、編碼(第3.2節)和過濾(第3.3節)。后者探討基于傳統梯度下降(第4.1節)和智能進化算法(第4.2節)的自動提示優化。特別地,我們將高效提示抽象為一個多目標優化問題,并從理論角度展望未來方向(第5節)。最后,我們在第6節總結了全文。此外,我們還包括了一個方便參考的開源項目列表A.2和高效提示方法的類型圖A.3。
總述
**提示范式 **
提示的出現與預訓練語言模型(PLMs)的演進和大型語言模型(LLMs)的進步密切相關。PLM演進 PLM范式的演化軌跡已從有效性轉向效率。自從Transformer(Vaswani et al., 2017)被提出以來,它已成為廣泛PLMs的基礎架構。Transformer內部的自監督學習機制已被證明在解決長序列問題上有效。為分別解決基本的自然語言理解(NLU)和自然語言生成(NLG)任務,主流PLMs逐漸演化成BERT(Devlin et al., 2019)和GPT(Radford et al., 2018)系列模型。有許多優化策略,如探索編碼方法(Su et al., 2021)、改進自監督學習機制(Roy et al., 2021)和精煉模型結構(Li et al., 2021),以實現PLMs在解決特定任務上的高效表現。NLP范式轉變 NLP訓練范式經歷了兩次關鍵轉變(Liu et al., 2023b),從“完全監督學習”演化為“預訓練與微調”,最終演化為“預訓練、提示和預測”(如圖1所示)。在這篇綜述中,我們將專注于目前最廣泛采用的提示范式,深入探討其最近的發展。值得注意的是,GPT-3(Brown et al., 2020)在引入硬提示方面發揮了開創性作用,使人類能夠使用自然語言與語言模型交互。這一突破得益于大規模參數,它使GPT-3具備了深入理解自然語言的能力,從而允許它利用復雜的硬提示進行少量樣本學習,無需微調。LLM進展 在GPT-3開創LLM時代之后,ChatGPT作為塑造當前主流范式“LLM + 提示”的重要里程碑而脫穎而出。其NLU和NLG能力的完美整合吸引了整個人工智能社區的關注。隨著規模法則(Wei et al., 2022a)展示了顯著的新興能力(例如,指令跟隨、上下文學習和復雜推理),研究人員持續探索提示的性能邊界,無論是開源還是閉源的LLMs。例如,像思維鏈(CoT)(Wei et al., 2022b)這樣的復雜提示通過大聲思考,增強了LLMs的潛在推理能力。隨著提示范式逐漸穩固其地位,LLM仍然面臨著由于其大規模參數而導致的計算和人力資源挑戰。因此,有效的提示方法以節約資源引起了廣泛興趣。
提示類型
本質上,提示的主要目標是實現有效的少量樣本學習,而不是不必要的全參數微調所消耗的資源。提示表達可以分為兩種主要類型,如圖2所示:離散的自然語言提示(稱為硬提示)和連續的可學習向量(稱為軟提示)。2.2.1 硬提示 硬提示特別適用于生成性語言模型,尤其是GPT系列模型的一個顯著例子。關注硬提示的原因有兩個方面。從積極的角度來看,由于大量的預訓練數據集成到LLMs中,人類可以通過母語輕松地與世界知識壓縮器(即LLM)交互,最終獲得有用的響應。從消極的角度來看,由于當前LLMs廣泛采用閉源性質,使得其參數權重不可訪問,用戶別無選擇,只能通過API調用與LLMs使用硬提示。盡管如此,LLM強大的指令跟隨能力為硬提示的發展奠定了堅實的基礎,而自然語言作為無縫人機交互的媒介指日可待。重要的是要強調硬提示之間的多樣性。最初,硬提示包括類似于Cloze任務設計的簡潔任務指令。然而,隨著LLMs的理解能力不斷提高,硬提示已演化為包含更廣泛元素的數組,最常見的包括演示和思維鏈,如圖3所示。當前NLP社區對硬提示的日益興趣,甚至是解鎖LLMs全部潛力的教程,表明了對人模型對齊導致人工通用智能(AGI)的渴望。2.2.2 軟提示 在提示相關研究的早期階段,軟提示以適配器(Houlsby et al., 2019)、前綴(Li & Liang, 2021)甚至是無法解釋的向量的形式出現。許多研究(Lester et al., 2021; Liu et al., 2022)探討了軟提示在通過探索不同嵌入位置來增強高效訓練的好處。標準方法涉及凍結原始模型參數,僅訓練軟提示以實現完整參數微調的效果。Ding et al.(2022)的工作中有更詳細的介紹。鑒于可學習向量可以與神經網絡參數一起更新,軟提示顯然更有利于LLMs有效理解提示。需要注意的是,本文討論的軟提示僅僅是LLMs的硬提示的向量表示,如圖2所示,而不是從零開始開發的抽象向量。一些努力涉及將較長的硬提示壓縮成顯著更短的軟提示(參見第3.1節和第3.2節以獲取詳細見解)。
挑戰
鑒于硬提示已被廣泛認可并應用于各種下游任務。設計的提示更加詳細以提高任務準確性,因此導致更長且更復雜的提示。在這篇綜述中,我們從效率的角度提出了硬提示面臨的兩個關鍵挑戰:長度問題 提示的長度通常取決于特定任務,演示越多,性能越好。例如,思維鏈(CoT)提示顯著增強了LLMs的邏輯推理能力,導致出現了各種基于CoT的方法。像Self-Ask(Press et al., 2022)和最少到最多提示(Zhou et al., 2022a)幫助LLMs將復雜問題分解為更簡單的子問題以進行逐步回答。Wang et al.(2022)采樣了多樣化的推理路徑,而Wang et al.(2023b)指導LLMs生成正確的PS(計劃和解決方案),然后選擇最終答案。然而,使用這種復雜提示的優勢伴隨著更高的財務負擔,以及LLMs的信息感知能力降低。難以設計的提示 由于自然語言的離散性質,早期可用的硬提示通常是手工設計的,然后通過反復試錯獲得。手工制作的提示模板嚴重依賴于經驗知識,并涉及明顯的人為主觀性。但是,人類解決問題的方法與神經網絡之間存在差異,換句話說,LLMs的可解釋性仍然是持續探索的話題,目前尚無公認的理論指導。因此,針對LLMs的提示設計面臨許多挑戰,包括LLMs對自然語言提示格式的高敏感性、語義相似提示的大性能差距、提示復雜性與任務難度之間的關聯,以及提示的模型和任務特定屬性。因此,面對不同模型和不同任務,手動設計高質量提示既耗時又費力。總之,提示有效地緩解了應用于下游任務時的參數冗余問題,從而節省了財務資源。然而,在LLMs時代,提示長度的增加帶來了更大的內存需求、更慢的推理速度和更高的勞動強度等挑戰,這偏離了提示的原始目的。因此,這篇綜述深入探討了當前在LLMs中使用的高效提示方法。
使用高效計算的提示
隨著大型語言模型(LLMs)規模的不斷擴大,“使用高效計算的提示”概念應運而生,旨在減輕長提示對開源和閉源LLMs帶來的經濟負擔。已觀察到,壓縮的提示可以被LLMs有效重構,并減少生成文本的長度(Jiang et al., 2023a)。在本節中,我們提供了與提示壓縮相關研究的見解,將其分類為文本到向量級別和文本到文本級別的方法。提示壓縮的主要目的是從原始提示中提取必要信息,以便LLMs能夠保持與原始提示相當的性能水平。
使用高效設計的提示
“使用高效設計的提示”概念是為了應對提示內容的日益復雜性而引入的。隨著耗時且勞力密集的手工設計提示方法逐漸退出歷史舞臺,以及梯度基礎的提示微調方法不再適用于閉源LLMs,基于提示工程(PE)的自動優化逐漸成為焦點。具體來說,本文提出的“離散”提示優化涉及在給定的搜索空間內找到最佳的“自然語言”提示,以最大化任務準確性。基于LLMs的強大通用能力,自動提示優化顯示出了有希望的進展,其工作流程大致如圖4所示。我們將從傳統數學優化和智能算法優化的視角深入探討這個問題,因此將本節分為基于梯度的方法和基于進化的方法。
結論
在這項工作中,我們總結了用于LLMs的高效提示方法,目的是提高LLM的效率和性能。我們回顧了具有高度認可的現有相關工作,揭示了各類別內部的固有聯系,并從理論角度深度抽象這些方法。最后,我們為LLM實踐者提供了一個開源項目清單A.2,以便在科學研究和商業部署中快速參考,以及一個類型學圖A.3,以概覽高效提示領域。
推薦系統(RS)已顯著推進了在線內容發現和個性化決策制定。然而,RS中出現的脆弱性促使人們轉向可信賴推薦系統(TRS)。盡管TRS取得了許多進展,但大多數研究側重于數據相關性,而忽視了推薦中的基本因果關系。這一缺陷阻礙了TRS在解決可信賴性問題時識別原因,導致公平性、魯棒性和可解釋性受限。為了彌補這一差距,因果學習作為一類有前途的方法出現,以增強TRS。這些方法基于可靠的因果關系,在減輕各種偏差和噪聲的同時,為TRS提供有洞察力的解釋。然而,這一充滿活力的領域缺乏及時的綜述。本文從因果學習的角度創建了TRS的概述。我們首先介紹面向因果性的TRS(CTRS)的優勢和常見程序。然后,我們識別每個階段的潛在可信賴性挑戰,并將它們與可行的因果解決方案聯系起來,隨后分類CTRS方法。最后,我們討論了推進這一領域的幾個未來方向。
將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。
多模態(視覺-語言)模型,如CLIP,正逐漸取代傳統的監督預訓練模型(例如,基于ImageNet的預訓練)成為新一代的視覺基礎模型。這些模型通過從數十億個互聯網圖像-文本對中學習,形成了強大且一致的語義表示,并可以在零樣本的情況下應用于各種下游任務。然而,在醫學成像和遙感等一些細粒度領域,多模態基礎模型的性能往往不盡人意。因此,許多研究者開始探索這些模型的少樣本適應方法,逐漸衍生出三種主要技術途徑:1)基于提示的方法;2)基于適配器的方法;3)基于外部知識的方法。盡管如此,這一迅速發展的領域產生了大量結果,但尚無全面的綜述來系統地整理研究進展**。因此,在這篇綜述中,我們介紹并分析了多模態模型少樣本適應方法的研究進展,總結了常用的數據集和實驗設置,并比較了不同方法的結果**。此外,由于現有方法缺乏可靠的理論支持,我們推導了多模態模型的少樣本適應泛化誤差界限。該定理揭示了多模態基礎模型的泛化誤差受三個因素的約束:域間差異、模型容量和樣本大小。基于此,我們從以下幾個方面提出了三種可能的解決方案:1)自適應領域泛化;2)自適應模型選擇;3)自適應知識利用。
人工智能正在越來越多地應用于廣泛的關鍵行業,包括語音識別、圖像識別、自動駕駛、智能制造、醫學診斷、金融風險控制等。在用人工智能技術賦能各個領域的過程中,經常會遇到與碎片化和多樣化需求相關的挑戰。過去,模型通常具有較小的參數規模和有限的泛化能力。一個模型只能應對單一場景,導致成本高昂和泛化性能差。近年來,越來越多的研究者開始關注具有更強泛化能力的預訓練基礎模型。
自2018年以來,如BERT [1]、盤古 [2]、PaLM [3]、GPT4 [4]等基礎模型的訓練數據和參數規模呈指數級增長,導致在各種自然語言理解任務中的性能顯著提高。與此同時,基礎模型的發展也逐漸從單一模態(如文本、語音、視覺等)演變為多模態融合。越來越多的研究機構開始關注多模態預訓練基礎模型,如ViLBERT [5]、CLIP [6]、DeCLIP [7]、FILIP [8]、PyramidCLIP [9]、OFA [10]、BEiT-3 [11]、ERNIE-ViL [12]和Data2vec [13]。
2021年初,OpenAI發布了CLIP,這是一個大規模的多模態模型,用于對齊圖像和文本,它使用數十億互聯網數據進行預訓練,通過對比學習獲得豐富的視覺語言知識。雖然預訓練的CLIP模型可以在推理階段通過使用文本特征作為分類權重來實現零樣本預測,但這種方法通常只在諸如ImageNet之類的通用領域中表現出色,在處理某些細粒度領域的數據時表現不佳。這是因為這些模型在預訓練階段主要使用通用領域的數據,而在面對特定的下游任務時,數據分布往往與預訓練數據不同。因此,有必要使用下游任務的特定數據對模型進行微調。為了通過微調提高模型的泛化性能,研究人員首先提出了基于提示的微調適應方法(例如,CoOp [14]),該方法將CLIP文本端的固定文本輸入視為可學習的向量,然后使用少量樣本進行微調,以適應下游任務。另一種常用于增強少樣本適應能力的方法是基于適配器的微調,如CLIP-Adapter [15]。這種方法涉及在預訓練模型中添加簡單的適配器結構,然后使用少量樣本數據微調適配器參數,使基礎模型適應下游任務。此外,引入基礎語言模型或外部知識(如知識圖譜,例如,CuPL [16])的方法可以幫助模型更好地處理未見樣本,增強其語義理解和魯棒性,從而提高其在少樣本適應任務中的性能。上述三種方法已廣泛用于各種下游適應任務,但缺乏一個全面的綜述來系統地整理這些方法。因此,我們詳細闡述并比較這些方法,并探索它們的未來發展方向,以進一步提高預訓練模型的性能和泛化能力。
本文的貢獻如下:
? 我們全面回顧和整理了多模態少樣本適應方法,并將現有方法分類為基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法以及其他方法。在基于提示的微調適應方法中,我們進一步將其細分為文本提示微調、視覺提示微調、多模態提示和多任務提示方法。關于基于適配器的微調適應方法,我們將其分類為單模態適配器微調和多模態適配器微調。在使用外部知識的方法中,我們區分了帶有外部知識的預訓練方法和利用外部知識的下游適應方法。
? 我們回顧了11個常用數據集,用于評估多模態基礎模型的下游泛化性能。我們提供了四種實驗設置的詳細描述,以驗證多模態基礎模型在少樣本條件下的適應性能。展示了四種不同設置的實驗結果,并對這些結果進行了比較分析。我們強調了不同類型方法能有效提高多模態基礎模型泛化性能的原因。
? 我們討論了現有多模態基礎模型的少樣本適應方法的共同缺點,并分析了域適應問題。從統計機器學習理論中跨域泛化的誤差界限出發,我們推導了多模態基礎模型的少樣本適應誤差界限,揭示了現有方法面臨的主要挑戰是上游和下游域分布的無效適應、模型選擇的適應性不足以及數據和知識利用不足。
II. 多模態基礎模型的預訓練
近年來,大規模預訓練模型已受到學術界和工業界的廣泛關注。最初,基礎模型預訓練的相關工作主要集中在自然語言處理領域,在這個領域,如BERT [1]和GPT [17]這樣的自監著學習語言模型展現出比傳統方法更好的自然語言理解和生成能力。在計算機視覺領域,范式也從監督預訓練轉變為自監督預訓練。自監督預訓練的視覺模型性能顯著提高,從最初基于數據增強的模型(如SimCLR [18]和MoCo [19])演變到最近基于隨機掩蔽方法的模型(如MAE [20]和BEiT [21])。然而,預訓練的語言模型無法接收視覺輸入,導致它們無法將語言理解的優勢擴展到多模態下游任務(如視覺問答VQA)。另一方面,用于視覺預訓練的監督信號通常僅限于數據增強和隨機掩蔽,這阻止了它們在開放世界中學習更豐富的語義表征。因此,我們最近見證了大規模預訓練多模態模型的迅速發展,這些模型結合了視覺和語言模態,如表I所示。
III. 多模態基礎模型的少樣本適應方法
為了有效提高模型在特定領域的泛化性能,有必要使用有限的樣本對多模態基礎模型進行微調,使其具有更廣泛的應用。這些方法可以定義為多模態基礎模型的少樣本適應方法。本章將分為四個部分,提供現有多模態基礎模型方法的詳細概述,即:基于提示的微調適應方法、基于適配器的微調適應方法、基于外部知識的適應方法,以及其他方法。
A. 基于提示的微調適應方法
文本提示基微調適應:在自然語言處理領域,基于提示的微調適應[34]–[38]是解決大型語言模型少樣本泛化問題的經典方法。它涉及將文本輸入的一部分作為可學習向量,并使用下游任務數據對其參數進行微調,使模型能夠適應特定的下游任務。這種方法的優勢在于它避免了文本提示的手動設計,有效地通過僅對模型輸入的特定部分進行微調來減輕過擬合風險。受此啟發,一些研究人員也開始為多模態基礎模型設計基于提示的微調適應方法。CoOp [14]首次將提示學習的思想納入多模態預訓練基礎模型的下游任務適應中。它使用可學習的詞嵌入來自動構建上下文提示,而不是為每個任務手動設計提示模板。如圖1所示,單個類別標簽{object}被轉換為綜合文本提示“[V]1, [V]2, ..., [V]m, {object}”。其中,[V]i代表可調整的詞向量。然后計算分類損失以使用下游任務數據微調這些詞向量,使模型能夠自主獲取適應下游任務的文本輸入。隨后,Zhou等人[39]引入了條件性上下文優化(CoCoOp),該方法構建了一個元網絡來學習圖像的特征。這些特征然后與提示向量結合以增強CoOp在新類別數據上的泛化性能。為了有效利用預訓練模型的零樣本能力,Huang等人[40]提出了無監督提示學習(UPL)。它選擇高置信度的零樣本預測結果作為偽標簽來監督提示向量的學習。類似地,Prompt-aligned Gradient(ProGrad)[41]使用零樣本預測結果來約束模型梯度更新的方向,從而避免少樣本模型與泛化知識之間的沖突,并減輕過擬合問題。然而,由于視覺信息的豐富多樣性,學習僅一個文本提示難以匹配復雜的視覺數據。為解決這一問題,Chen等人[42]提出了使用最優傳輸的提示學習(PLOT)。它用于學習多個不同的文本提示,其中不同的文本提示被視為圖像位置的描述,使用最優傳輸理論來匹配文本提示與局部圖像特征。Lu等人[43]引入了提示分布學習(ProDA),以學習提示分布并從這些分布中采樣不同的文本提示。此外,為了充分利用多任務數據之間的相關性,Ding等人[44]提出了用于提示調整的軟上下文共享(SoftCPT),該方法設計了一個任務共享元網絡,將預定義任務名稱和可學習的元提示作為輸入,以借助多任務數據微調提示。
視覺提示基微調適應:上述所有方法僅微調CLIP的文本部分,而CLIP作為多模態模型,視覺和文本兩方面同等重要。僅微調文本提示無法改善視覺編碼器提取特征的能力,提取的視覺特征可能與下游任務的目標特征不匹配。因此,受到文本提示微調適應的啟發,一系列視覺提示微調適應方法應運而生。現有的視覺提示微調適應方法主要包括令牌級微調適應和像素級微調適應。視覺提示調整(VPT)[45]引入了以令牌形式的可學習視覺提示。類感知視覺提示調整(CAVPT)[46]在此基礎上進一步包括一個交叉注意模塊,使視覺提示更加關注下游任務的目標。與基于令牌的方法相反,Bahng等人[47]建議直接在圖像周圍以填充格式添加像素級視覺提示,以增強視覺提示。Wu等人[48]進一步提出了增強視覺提示(EVP),通過縮放和填充而不是直接在原始圖像周圍填充。
多模態提示基微調適應:除了單獨學習文本和視覺提示外,還可以同時學習多模態提示,以更好地對齊文本和視覺特征。文本和視覺特征具有固有的差異,為了在學習多模態提示時加強它們之間的聯系,多模態提示學習(MAPLE)[49]使用copula函數將文本提示轉換為視覺提示。統一提示調整(UPT)[50]首先學習一個通用提示,然后將其分解為文本和視覺提示。另一方面,多任務視覺語言提示調整(MVLPT)[51]引入了多任務學習的概念,使用跨任務知識微調文本和視覺提示。
B. 基于適配器的微調適應方法
1. 單模態適配器基微調適應:在自然語言處理(NLP)領域,適配器的概念最初由谷歌團隊于2019年引入,用于微調大型語言模型[52]。在下游任務訓練中,該方法凍結原始語言模型的參數,僅更新作為適配器模塊添加的少量參數。由于其參數效率高、設計靈活性和高魯棒性等優點,這種方法近年來在NLP領域受到了廣泛的研究關注[53]。最近,基于適配器的方法也被應用于計算機視覺領域的視覺變換器(ViTs)中。Jie等人[54]通過引入卷積旁路(Convpass)解決了ViTs中適配器結構缺乏歸納偏置的問題。此外,他們提出了因子調整(FacT,引用為[55]),以進一步提高參數效率的遷移學習效率,以滿足實際應用中的存儲約束。
2. 多模態適配器基微調適應:上述基于適配器的方法都適用于自然語言處理或計算機視覺中的單模態基礎模型。近年來,基于適配器的方法也被擴展到多模態基礎模型中,以增強下游泛化能力。Gao等人[15]引入了CLIP-Adapter,該適配器在凍結骨干網絡后添加了一個全連接層適配器來學習額外知識。然后,它基于殘差連接將這些知識與零樣本預測結果合并,如圖2所示。基于這些發展,張等人引入了Tip-Adapter[56]。該方法基于下游少樣本訓練數據構建分類器,并以線性加權方式將其預測與原始零樣本分類器的結果結合,以增強模型的預測性能。SVL-Adapter[57]在適配器之前融合了一個預訓練的自監督視覺編碼器,以提取更魯棒的視覺特征。然而,上述方法僅使用跨模態對比損失,沒有考慮少樣本數據集的視覺特定對比損失。為解決這一問題,彭等人[58]提出了語義引導的視覺適應(SgVA-CLIP),通過隱式知識蒸餾引導視覺適配器的參數更新,以確保圖像-文本關系的一致性。為了增強適配器的跨模態交互能力,CALIP[59]利用注意力圖融合文本和圖像特征,并在融合前后插入兩個可微調的線性層。此外,跨模態適配器(CMA)[60]和多模態視頻適配器(MV-Adapter)[61]通過在兩種模態之間共享適配器權重實現跨模態交互。這些方法考慮了單模態和多模態場景,但沒有充分整合每種模態的優勢。為解決這一問題,陸等人[62]提出了UniAdapter,以統一單模態和多模態適配器。
C. 基于外部知識的適應方法
1. 基于外部知識的預訓練方法:預訓練基礎模型通過從互聯網上大量數據中挖掘相關信息,具有學習通用表征的能力。然而,在這些數據驅動的模型中,知識通常是隱性的,沒有明確鏈接到人類對世界的理解或常識性知識。近年來,數據和知識驅動的預訓練方法不斷涌現,研究人員開始探索將更全面的外部知識,如知識圖譜,融入基礎模型中。這種整合旨在使這些模型更加魯棒、可靠和可解釋。ERNIE[63]融合了一個知識編碼器,用于實體知識提取和異構信息融合。K-BERT[64]檢索與模型輸入相關的外部知識,并構建具有豐富上下文知識的句子樹作為模型輸入。近年來,一些工作也開始為多模態基礎模型的預訓練注入知識。例如,ERNIE-ViL[65]整合了來自場景圖的知識,KM-BART[66]通過創建額外的預訓練任務來模擬一般視覺知識,K-LITE[67]融合了包括WordNet和維基百科定義在內的各種外部知識源。
2. 基于外部知識的下游適應方法:上述方法在預訓練階段引入外部知識。然而,在數據樣本有限的下游少樣本適應場景中,也有必要增強外部知識以確保模型的性能。最常見的方法之一是通過查詢大型語言模型為每個類別生成更豐富的文本描述。圖3展示了這種方法的示例。通過語言模型定制提示(CuPL)[16]是第一個將外部知識融入多模態基礎模型下游泛化過程的方法。CuPL通過向GPT-3提問生成每個類別的多個描述性陳述,豐富類別的語義,從而提高零樣本分類性能。然而,CuPL使用GPT-3生成的句子可能存在描述性差和可靠性問題。為解決這些問題,Menon等人[68]進一步完善了基于GPT-3的知識增強過程。他們提示GPT-3以短語形式生成語義屬性描述,增強了模型的可解釋性。為了在可解釋性和性能之間取得平衡,語言引導瓶頸(LaBo)[69]使用GPT-3生成大量候選特征描述符空間,同時考慮特征相對于其他類別的區分性和當前類別的覆蓋率。它篩選出最佳子描述符空間以進行分類決策,從而揭示模型的決策邏輯。ELEVATER[70]還融合了來自GPT-3、WordNet和維基詞典等來源的定義。實驗結果表明,外部知識可以增強多模態基礎模型的下游泛化性能。然而,不同知識來源有不同的側重點和特性。例如,WordNet具有相對豐富和準確的知識,但覆蓋率較低,而GPT-3具有更廣泛的知識覆蓋范圍,但可能缺乏可靠性。此外,與上述使用外部知識增強文本語義的方法不同,SuS-X[71]專注于增強多模態模型的視覺樣本。
最先進的神經網絡架構設計的最新進展正在向Transformer模型發展。這些模型在計算機視覺、自然語言處理和語音識別的廣泛應用中取得了卓越的準確性。自從Transformer模型最初被引入以來,這種趨勢在過去幾年中一直是一致的。然而,最近Transformer模型推理所需的計算量和帶寬正在以顯著的速度增長,這使得它們在延遲敏感的應用程序中的部署具有挑戰性。因此,人們越來越關注提高Transformer模型的效率,方法從更改架構設計,一直到開發專用的特定領域加速器。**本文調研了高效Transformer推理的不同方法,包括:(i)分析和剖析現有Transformer架構中的瓶頸及其與之前卷積模型的異同;(ii) Transformer架構對硬件的影響,包括層歸一化、Softmax和GELU等非線性操作以及線性操作對硬件設計的影響;(iii)優化固定Transformer架構的方法;(iv)為Transformer模型找到正確的映射和操作調度的挑戰;(v)通過使用神經架構搜索調整架構來優化Transformer模型的方法。**最后,在開源的全棧深度神經網絡加速器生成器Gemmini上進行了案例研究,并與之前的基準測試結果相比,展示了這些方法是如何產生改進的。發現與上述方法相結合的全棧協同設計方法可以導致高達88.7倍的加速比。
1. 引言
深度學習模型在訓練和推理過程中已經擴展到數十億個參數和數十億個乘累加(MAC)操作。因此,人們對高效計算這些模型以及在資源受限的邊緣設備上部署這些計算和內存密集型工作負載的興趣越來越濃厚。這些邊緣設備有嚴格的能量和內存限制,相應的利用深度學習模型的應用程序通常也有實時延遲限制。CPU和GPU在通用性能計算平臺中都是常用的,它們的優勢是無處不在且能夠支持各種工作負載和操作。然而,這種靈活性是以降低效率為代價的。深度學習模型由少量不同的操作組成,這些操作會重復數百萬或數十億次,因此通常不需要很高的靈活性。此外,雖然現代CPU和GPU可以并行執行多個操作,但它們缺乏利用深度學習模型中的海量數據重用機會的能力。 對快速、高效計算的需求,使用少量不同的操作,以及數據重用的機會,這些結合在一起,導致了深度學習使用硬件加速器。這與學術界開發的許多研究加速器相似[34,37,39,40,59,69,70,81,169]。隨著硬件加速器的發展,用于部署各種深度學習算法的軟件框架[3,32,98,167]和編譯器[33,161,185]也得到了增強和成熟。這些工具使深度學習算法能夠在加速器上執行,并執行映射優化,以提高整個深度學習流水線的性能和效率。然而,快速發展的深度學習算法仍在不斷引入對軟硬件支持及其協同優化的新需求,以滿足各種部署約束。 **最近,transformer和大型語言模型[22,44,52,58,86,173-175,177,190,198]在解決各種自然語言處理(NLP)任務方面的流行,在加速器和框架的設計方面提出了一套全新的挑戰。**人們也越來越關注提高Transformer推理的效率,特別是由于它們的規模和運行時復雜性不斷增長。然而,與更知名的卷積神經網絡(CNN)架構相比,人們仍然缺乏對Transformer架構的工作負載特征的了解,從而缺乏有效運行這些模型所需的設計原則。例如,與傳統的以CNN為重點的設計相比,transformer主要由矩陣乘法(matmuls)和內存密集型的非線性操作組成。此外,Transformer模型的計算圖和數據流比CNN更復雜,具有更多類型的操作節點,以及更多的數據流拆分和連接。所有這些挑戰都要求我們對當前的硬件和軟件解決方案進行全面的分析,以及Transformer推理的各種設計權衡。進行這樣的分析將使我們能夠對高效運行transformer的需求建立全面和全面的理解。
本文工作有兩個方面的貢獻:(1)分析Transformer的運行時特性,并調查高效Transformer推理的不同方法;(2)在全棧深度神經網絡(DNN)加速器生成器Gemmini[70]上應用所調查的方法進行案例研究。本文工作的長期目標是描述硬件和軟件堆棧中的不同因素,以優化Transformer推理。關于我們的第一個貢獻,本文涵蓋了端到端深度學習推理的不同層次,特別關注transformer。這包括:Transformer架構的運行時特征和瓶頸的分析和profiling(第2節)。包括Transformer架構的非線性操作對其設計的影響(第3節)?優化策略,如修剪和量化,以進一步提高固定Transformer架構的性能(第4節)?Transformer架構中操作的映射和調度及其相關挑戰(第5節)?通過自動化神經架構搜索過程設計和適應Transformer架構,以提高硬件效率(秒。6)。
Transformer模型架構和性能瓶頸
在本節中,我們將從高層次地介紹Transformer架構的各個組成部分。首先討論了多頭注意力和前饋模塊、transformer中使用的非線性操作,以及編碼器/解碼器模型之間的差異,在2.1節中。在2.2節中,我們使用算法分析這些不同塊對硬件性能的影響,并對每個組件進行分析建模和直接profiling。
**硬件設計
**到目前為止,在第2節中,我們已經對Transformer架構的運行時特性和瓶頸進行了分析。現在將重點轉移到高效Transformer推理的全棧解決方案,從設計高效的硬件開始。第3.1節概述了為DNN使用特定領域加速器的基本原理,以及在大多數DNN加速器中使用的基本架構和數據流。第3.2節重點介紹了加速transformer的現有工作。第3.3節隨后提供了使用分析模型的分析,以評估transformer在典型加速器上的運行情況。最后,第3.4節提供了一個案例研究,說明了為transformer構建典型加速器的過程。總的來說,本節會給出相關的性能分析,并從全棧的角度為選定的硬件決策提供依據。請注意,我們這里只關心如何有效地推斷DNN。特別是,為高效的模型訓練設計硬件超出了本文的范圍。
** 模型優化**
給定一個已經設計和訓練好的DNN模型,一個重要的問題是,是否仍然有可能通過算法來提高模型在目標硬件平臺上的效率,通過將模型改編為更友好的硬件格式。在本節中,我們將分別在第4.1節和4.2節中討論流行的現成模型優化方法,量化和稀疏性(即剪枝)。然后,在第4.3節中,我們概述了特定于transformer的優化方法,以提高特定于transformer的特征(如注意和非線性操作)的性能。
將transformer映射到硬件
為了在目標硬件架構上執行Transformer塊,必須將其映射到執行所需的計算和通信的硬件指令中。在映射過程中所做的選擇對性能有很大影響。然而,可能映射空間的大小使找到最優映射變得困難,這需要使用仔細考慮的探索、啟發式或基于學習的方法。在本節中,我們將介紹5.1節中的映射問題。我們將在第5.2節討論高效執行transformer所需的關鍵映射決策。我們在第5.3節中概述了現有映射技術的分類,在第5.4節中概述了對不同映射的性能進行建模的技術。最后,在5.5節中,我們將介紹mapper在使用transformer時需要注意的問題。
在多源知識圖譜(KGs)中尋找等價實體是KGs集成的關鍵步驟,也稱為實體對齊(EA)。然而,現有的EA方法大多效率低下,伸縮性差。最近的總結指出,其中一些甚至需要幾天的時間來處理包含20萬個節點(DWY100K)的數據集。我們認為過于復雜的圖編碼器和低效的負采樣策略是造成這種現象的兩個主要原因。本文提出了一種新的KG編碼器-雙注意匹配網絡(Dual- AMN),該網絡不僅能對圖內和圖間信息進行智能建模,而且大大降低了計算復雜度。此外,我們提出了歸一化的硬樣本挖掘損失來平滑選擇硬負樣本,減少了損失偏移。在廣泛應用的公共數據集上的實驗結果表明,該方法具有較高的精度和效率。在DWY100K上,我們的方法的整個運行過程可以在1100秒內完成,比之前的工作至少快10倍。我們的方法在所有數據集上的性能也優于之前的工作,其中????????@1和??????從6%提高到13%。
//www.zhuanzhi.ai/paper/3d0a0bf7905b28afbdffaa48e0d640c3