指令調優(IT)領域中的研究工作,這是增強大型語言模型(LLM)能力和可控性的關鍵技術。來自浙江大學等學者最新的《大模型指令調優》綜述,總結了關于 LLM 中指令調優最新工作。
本論文綜述了在快速發展的指令調優(IT)領域中的研究工作,這是增強大型語言模型(LLM)能力和可控性的關鍵技術。指令調優是指以監督方式進一步訓練LLM,使用由(指令,輸出)成對組成的數據集,從而彌合LLM的下一個詞預測目標與用戶使LLM遵循人類指令目標之間的差距。
在這項工作中,我們對文獻進行了系統的回顧,包括IT的一般方法、IT數據集的構建、IT模型的訓練,以及在不同模態、領域和應用中的應用,還分析了影響IT結果的因素(例如,指令輸出的生成、指令數據集的大小等)。
我們還回顧了IT的潛在問題,以及對IT的批評,同時指出了現有策略的不足之處,并提出了一些有益研究的方向。
近年來,大型語言模型(LLMs)領域取得了顯著進展。諸如GPT-3(Brown et al., 2020b)、PaLM(Chowdhery et al., 2022)和LLaMA(Touvron et al., 2023a)等LLMs在各種自然語言任務中展現出令人印象深刻的能力(Zhao et al., 2021; Wang et al., 2022b, 2023a; Wan et al., 2023; Sun et al., 2023c; Wei et al., 2023; Li et al., 2023a; Gao et al., 2023a; Yao et al., 2023; Yang et al., 2022a; Qian et al., 2022; Lee et al., 2022; Yang et al., 2022b; Gao et al., 2023b; Ning et al., 2023; Liu et al., 2021b; Wiegreffe et al., 2021; Sun et al., 2023b,a; Adlakha et al., 2023; Chen et al., 2023)。
LLMs面臨的一個主要問題是訓練目標與用戶目標之間的不匹配:LLMs通常在大規模語料庫上以最小化上下文詞預測誤差為訓練目標,而用戶希望模型能"有益且安全地遵循他們的指令"(Radford et al., 2019; Brown et al., 2020a; Fedus et al., 2021; Rae et al., 2021; Thoppilan et al., 2022)。
為了解決這種不匹配,提出了指令調優(IT)作為一種有效的技術,用于增強大型語言模型的能力和可控性。它涉及進一步使用(指令,輸出)對來訓練LLMs,其中指令表示模型的人類指令,而輸出表示遵循指令的期望輸出。指令調優的好處有三個:(1)在指令數據集上微調LLMs彌合了LLMs的下一個詞預測目標與用戶遵循指令目標之間的差距;(2)與標準LLMs相比,指令調優可以實現更可控且更可預測的模型行為。指令有助于約束模型的輸出,使其與期望的響應特性或領域知識保持一致,為人類提供介入模型行為的途徑;以及(3)指令調優在計算上效率高,可以使LLMs在不需要大規模重新訓練或架構更改的情況下快速適應特定領域。
盡管指令調優具有一定的效果,但也存在挑戰:(1)制定高質量的指令,以適當覆蓋所需的目標行為并非易事:現有的指令數據集通常在數量、多樣性和創造性方面存在限制;(2)越來越多的擔憂表明指令調優僅在在指令調優訓練數據集中受到重點支持的任務上取得了改進(Gudibande等,2023);以及(3)有強烈批評認為指令調優僅捕捉了表面級別的模式和風格(例如,輸出格式),而未理解和學習任務本身(Kung和Peng,2023)。提高指令遵循性和處理意料之外的模型響應仍然是開放的研究問題。
這些挑戰強調了在該領域進一步進行調查、分析和總結的重要性,以優化微調過程并更好地理解經過指令微調的LLMs的行為。在文獻中,越來越多的研究關注于對LLMs進行分析和討論,包括預訓練方法(Zhao等,2023)、推理能力(Huang和Chang,2022)、下游應用(Yang等,2023;Sun等,2023b),但很少涉及LLM指令微調的主題。本調查試圖填補這一空白,整理關于這一快速發展領域的最新知識狀態。
方法
在本節中,我們描述了在指令調優中使用的一般流程。
1** 指令數據集構建** 指令數據集中的每個實例由三個元素組成:一個指令,這是一個自然語言文本序列,用于指定任務(例如,寫一封感謝信給XX,為XX寫一篇關于XX主題的博客等);一個可選的輸入,為上下文提供補充信息;以及基于指令和輸入的預期輸出。通常有兩種方法用于構建指令數據集: ? 從帶注釋的自然語言數據集中整合數據。在這種方法中,通過使用模板將文本標簽對轉換為(指令,輸出)對,從現有的帶注釋的自然語言數據集中收集(指令,輸出)對。例如Flan(Longpre等,2023)和P3(Sanh等,2021)數據集是基于數據整合策略構建的。 ? 使用LLMs生成輸出:一種快速收集給定指令所需輸出的替代方法是使用LLMs,如GPT-3.5-Turbo或GPT4,而不是手動收集輸出。指令可以來自兩個來源:(1)手動收集;或(2)基于使用LLMs擴展的小型手寫種子指令。接下來,收集到的指令被輸入到LLMs中以獲得輸出。如InstructWild(Xue等,2023)和Self-Instruct(Wang等,2022c)數據集是按照這種方法生成的。對于多輪會話的指令調優數據集,我們可以讓大型語言模型自我扮演不同角色(用戶和AI助手),以生成以會話形式的消息(Xu等,2023b)。
** 指令調優**
基于收集的指令調優數據集,可以采用完全監督的方式直接對預訓練模型進行微調,其中在給定指令和輸入的情況下,模型通過逐個預測輸出中的每個令牌來進行訓練。
** 指令微調LLM**
多模態指令微調LLM****
高效微調技術
高效微調技術旨在通過多種方式優化少量參數,以使語言模型(LLMs)適應下游任務,包括加法、規范和重新參數化。基于加法的方法引入了額外的可訓練參數或模塊,這些參數或模塊在原始模型中不存在。代表性的方法包括適配器微調(Houlsby等,2019)和基于提示的微調(Schick和Schütze,2021)。基于規范的方法在凍結其他參數的同時,指定了某些固有模型參數進行微調。例如,BitFit(Zaken等,2022)微調了預訓練模型的偏置項。重新參數化方法將模型權重轉換為更具參數效率的形式進行微調。關鍵假設是模型自適應是低秩的,因此可以將權重重新參數化為低秩因子或低維子空間(例如LoRA(Hu等,2021))。內在提示微調找到了在不同任務之間調整提示時共享的低維子空間。
結論
本文綜述了快速發展的指令調優領域的最新進展。對IT的一般方法論、IT數據集的構建、IT模型的訓練、IT在不同模態、領域和應用中的應用進行了系統的回顧。還回顧了對IT模型的分析,以發現它們的優點和潛在的缺陷。我們希望這項工作將作為一種刺激,激勵進一步努力解決當前IT模型的不足。
? 作者|劉子康 機構|中國人民大學研究方向|多模態
本文從相關論文出發,梳理當前用于指令微調的多模態指令集,從收集方法、復雜度與指令側重點三方面展開介紹。引言:近幾個月來,大型語言模型(LLM)在人工智能的各個領域帶來了革命性的進展。通過極大的參數量與預訓練數據量,LLM克服了以往語言模型存在的問題,真正成為了通用的,具備極強推理能力的語言模型,不僅在許多現有的benchmark上取得了極佳的成績,還展現出了以往模型從未出現過了涌現能力。 盡管LLM作為語言模型的能力無可挑剔,但它缺少感知其他模態信息的能力,而這對于實現AIGC至關重要。當前的多模態大模型往往通過給大模型添加一個視覺模塊,再通過多模態指令微調來進行兩個模型的對齊。這之中,多模態指令微調至關重要。本文將從相關論文出發,梳理當前用于指令微調的多模態指令集,從收集方法,復雜度與指令側重點來介紹它們。
一、多模態指令微調
多模態指令微調,即將純文本的指令微調拓展到多模態形式,并期望通過這些指令以及新增的視覺模塊賦予LLM視覺感知以及結合視覺信息進行正常推理的能力。在多模態指令出現之前,應用LLM解決一些復雜的視覺推理問題往往只能將圖像轉化為對應的caption,并將問題與caption一同作為純文本的輸入送入大型語言模型進行推理。這一類方法的代表為PiCa[1],它通過caption來讓gpt3感知圖像信息,再通過in-context-learning來引導gpt3完成對應任務。
除此之外,Visual-ChatGPT[2]也采用了類似的方式來完成相關任務。通過調用一系列的子模型,Visual-ChatGPT將其他模態的信息轉換成圖像信息,再利用ChatGPT作為大腦進行推理,最終生成最終結果。
盡管這些模型在一系列任務上有非凡的表現,它的缺點也同樣明顯。一方面,由于其他模態信息到文本的轉換需要利用到一系列的小模型,最終模型的表現在很大程度上會受到小模型性能的限制。同時,文本作為連接不同模態的橋梁是不足的,一段描述的文本很難完全的覆蓋到一張圖片的所有信息,因此會導致信息的失真,最終影響到模型的推理結果。因此,我們需要訓練一個端到端的模型。已有的很多工作已經可以將圖像輸入映射到文本空間中(如CLIP[3]),我們需要一個多模態指令集,既包含了原本的兩種模態的對齊數據,也包含了基于多模態信息的復雜推理與對話數據。本文將在后面介紹這一類指令。
二、多模態指令 * MULTIINSTRUCT: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning
本文是在LLaMA出現前的一篇工作,非常具有前瞻性。作者提出了一個指令數據集-MultiInstruct,包含了當下的34個多模態任務,并將其劃分成了若干個任務組。整體指令沿用了Flan[4]指令集的風格,由人工標注者們先根據任務本身的類型描述來標注每個任務的instruction,再經過多個步驟確認每個任務指令的準確性以及保證任務之間的指令不發生沖突。基于當前構造的指令數據集,作者還加入了純文本的NATURAL INSTRUCTIONS[5]指令集,并通過一系列實驗證明了純文本指令集的加入能夠有效提高模型的敏感度-即模型對于不同或輕微改變的指令下生成相同答案的一致性。
本文提出了一個多模態大模型-LLaVA,是LLaMA出現后的多模態微調工作。本文采用對話微調后的Vicuna模型作為基座,期望能夠增強模型基于多種模態的對話能力。LLaVA采用的多模態指令主要follow了Vicuna[6]指令集的形式,沒有包含比較復雜的任務描述。為了增強模型在通用場景下的多模態對話與推理能力,LLaVA使用了ChatGPT/GPT-4來輔助多模態的指令生成。具體而言,LLaVA首先將圖像轉換為由文本表示的Context,為了盡可能的降低圖像到文本轉換的失真程度,作者采用了兩種Context,一種是captions,包含了全局的描述信息。另一種是boxes,包含了細粒度的實體-位置信息。
基于這一類信息,作者向GPT-4輸入了一系列指令,這一系列指令包含了對話類型指令,包含了對圖像細粒度推理的指令與基于圖像的復雜推理指令。由于GPT-4自身非常強大的推理能力,它能夠提供有意義的回復數據作為后續訓練的多模態指令。最終自動化構造的指令集包含158K個多模態指令,基于這些指令訓練得到的LLaVA模型在通用的多模態問答對話上表現出了強大的能力。 * GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest
GPT4RoI是構建細粒度多模態指令的一個嘗試。此前的絕大多數多模態指令都著重關注全局的視覺理解與視覺推理,而忽略了局部的細粒度視覺特征。GPT4RoI希望能夠構建一個數據集,輔助多模態模型不僅能夠從全局層面來理解圖像,同樣能夠理解圖像的細粒度特征,從而可以完成一些更加復雜的圖像推理任務。本文構造了兩類用于不同階段訓練的多模態指令,第一階段指令用于訓練區域特征與實體的對齊,第二階段指令用于訓練包含區域特征的推理。大部分指令由原本的RefCOCO與Visual Genome等數據集中抽取而來,同時也利用了外部工具對原本的LLAVA-150K數據集構建了額外的細粒度標注。 通過細粒度的標注指令,GPT4RoI上訓練的模型能夠根據特別的區域輸入理解模型的細粒度特征,擁有了更加多樣化的推理能力。 * Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic
與GPT4RoI類似,Shikra同樣對多模態指令在細粒度層面進行了擴展。相較于GPT4RoI更加注重于在指令輸入端細粒度的增加,Shikra同時希望模型在輸出端能夠顯式的進行細粒度的推理,輸出更多樣化的結果。Shikra的主要靈感來源于人類對話中實體指代的存在,即在對話中會提及到一系列的實體,而這些實體應當對應到圖像的某一個具體區域。
為了構造這些指令,Shikra同樣借助到了GPT4的幫助。作者從高質量的細粒度標注數據集Flickr30K出發,Flickr30K中的每一個圖像包含了5個細粒度的實體標注以及對應的caption描述。這些實體描述和對應的具體坐標將會被送入GPT4中幫助它們理解實體在圖像中的問題。最后,基于這些實體,GPT4將會設計一系列的問答對,這些問題被保證是可以完全通過已有信息來回答的。
作為一個通用指令集,基于Shikra訓練的通用模型在一系列指代任務上取得了非常好的效果,同時由于生成文本指定了圖像的實體,也有效的降低了多模態幻象的產生。 * M3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning
M3IT同樣是一個大型的多任務多模態指令集。它包含了8個大類的任務集合,并采取了類似MultiInstruct的方式進行指令的人工標注。M3IT的創新點在于,它考慮到了原有的多模態數據集(如VQA)中會存在大量的信息量較少的“短答案”,即對于一個問題僅提供一個極短的精確答案,但沒有提供中間過程,而多模態大模型則希望能夠提供更加詳細,有效的回復。為了解決這個問題,M3IT對于這一類問題進行了答案的復寫,通過一些額外的圖像信息(例如OCR)來使得答案變得復雜化與多樣化。同時,為了支持多語言的多模態指令,M3IT對于一些重要的數據集的指令進行了翻譯,使其同時支持中英兩種語言。最終,經過人工和ChatGPT的雙重質量檢測過程,得到了一個包含了2,429,264個實例的多模態多語言指令集。基于M3IT指令集訓練的多模態模型在生成答案的ROUGE-L分數和多語場景下表現出了良好的性能。
VIGC: Visual Instruction Generation and Correction
VIGC是一種新式的多模態指令生成技術。此前的方法往往采用ChatGPT或GPT4進行對話生成,而圖像信息通過Caption或box等其他信息以文字的形式輸入到模型之中。這種方式會導致圖像信息的失真,從而導致生成對話的失真,即生成對話不一定是與圖像緊密相關的,或者有一些細節錯誤以及幻象的出現。VIGC借助了LLM中self-instruct的思想,通過多模態模型自身來生成指令。具體做法是基于已有或自動生成的指令,通過多模態模型生成回復。對于這些回復,通過ChatGPT來進行檢查修正,從而得到高質量的多模態指令集。VIGC既可以用于多模態指令集的生成,也可以用于已有任務指令集的增廣。通過這一類方式,基于VIGC的若干個模型在數個通用benchmark以及一些任務特定的benchmark都取得了提升,證明了該方法的有效性。
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data
StableLLaVA是一種基于Stable Diffusion來完全的自動化生成多模態指令集的方案。當前的多模態指令集往往采用現有的圖像,通過ChatGPT來生成后續的對話。這樣的方法盡管有效,但現有的圖像數據集會存在一定的領域偏差,同時,生成的多模態對話嚴重依賴于真實圖像,會影響到生成多模態對話的多樣性與質量。一種很自然的想法是,借助當前AIGC領域所取得的巨大成功,可以通過擴散模型自由的生成任意類型的圖像,再通過ChatGPT生成任意類型的對話,如下圖所示:
參考文獻:
[1]An empirical study of gpt-3 for few-shot knowledge-based vqa [2]Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models [3]Learning Transferable Visual Models From Natural Language Supervision [4]Finetuned Language Models are Zero-Shot Learners [5]Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks [6]Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7]MULTIINSTRUCT: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning [8]Visual Instruction Tuning [9]GPT4RoI: Instruction Tuning Large Language Model on Region-of-Interest [10]Shikra: Unleashing Multimodal LLM’s Referential Dialogue Magic [11]M3IT: A Large-Scale Dataset towards Multi-Modal Multilingual Instruction Tuning [12]VIGC: Visual Instruction Generation and Correction [13]StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data
摘要: 隨著人工智能的快速發展,從可行的算法中選擇滿足應用需求的算法已經成為各領域亟待解決的關鍵問題,即算法選擇問題。基于元學習的方法是解決算法選擇問題的重要途徑,被廣泛應用于算法選擇研究并取得了良好成果。方法通過構建問題特征到候選算法性能的映射模型來選擇合適的算法,主要包括提取元特征、計算候選算法性能、構建元數據集以及訓練元模型等步驟。首先,闡述基于元學習的算法選擇概念和框架,回顧簡述相關綜述工作;其次,從元特征、元算法和元模型性能指標三方面總結研究進展,對其中典型的方法進行介紹并比較不同類型方法的優缺點和適用范圍;然后,概述基于元學習的算法選擇在不同學習任務中的應用情況;繼而,使用140個分類數據集、9種候選分類算法和5種性能指標開展算法選擇實驗,對比不同算法選擇方法的性能;最后,分析目前存在的挑戰和問題,探討未來的發展方向。 //fcst.ceaj.org/CN/abstract/abstract3212.shtml
人工智能是數據處理與分析的重要技術,為人 們利用數據進行決策和研究提供了有力支撐。在人 工智能的不同領域中,研究人員提出了大量算法,然 而,不同算法在有限數量的問題上具備優越性能,不 存在一個適用于所有問題的可行算法,該現象被稱 為算法的性能互補性(performance complementarity) 現象[1] ,與“沒有免費午餐”(no free lunch)定理相印 證[2] 。算法的性能互補性現象普遍存在于不同領域, 如何為給定問題從大量可行算法中選擇滿足應用需 求的算法成為了各領域面臨的重要挑戰,即算法選 擇問題(algorithm selection problem)[3] 。算法選擇問 題通常采用人工選擇或自動選擇的方法解決。人工 選擇方法通過實驗試錯或依賴專家選擇合適的算 法,然而實驗試錯方法成本較高,專家選擇與專家的 經驗知識相關且靈活性較低[4] 。自動選擇方法通過 設計算法和模型,根據問題的特點自動選擇滿足應 用需求的算法,包括活躍測試(active test)方法、推薦 系統方法以及基于元學習(meta-learning)的方法[5-7] 。 其中基于元學習的方法研究基礎較為深厚,具備開 銷低和靈活度高等優點,成為了解決算法選擇問題 的主要方法[8-9] 。 本文對基于元學習的算法選擇進行綜述總結, 為研究人員了解相關領域的發展現狀提供參考。
摘要: 近年來,由于大規模數據集的出現,圖像語義分割技術得到快速發展。但在實際場景中,并不容易獲取到大規模、高質量的圖像,圖像的標注也需要消耗大量的人力和時間成本。為了擺脫對樣本數量的依賴,小樣本語義分割技術逐漸成為研究熱點。當前小樣本語義分割的方法主要利用了元學習的思想,按照不同的模型結構可劃分為基于孿生神經網絡、基于原型網絡和基于注意力機制三大類。基于近年來小樣本語義分割的發展現狀,介紹了小樣本語義分割各類方法的發展及優缺點,以及小樣本語義分割任務中常用的數據集及實驗設計。在此基礎上,總結了小樣本語義分割技術的應用場景及未來的發展方向。
預訓練模型主要從海量未標注、無結構化的數據中學習,但缺少外部知識指導,存在模型學習效率不高、模型效果不佳和知識推理能力 受限等不足。如何在預訓練模型中引入語言知識、世界知識等外部知識,提升模型效果以及知識記憶和推理能力是一個難題。本文對知識增強預訓練語言模型(KE-PLMs)進行了全面的綜述。
預訓練語言模型通過自監督學習方法在大型文本語料庫上進行訓練,在自然語言處理(NLP)的各種任務中取得了良好的性能。然而,盡管具有大參數的PLM可以有效地擁有從大量訓練文本中獲得的豐富知識,并在調優階段對下游任務有利,但由于缺乏外部知識,它們仍然存在推理能力差等局限性。研究人員致力于將知識整合到PLM中,以解決這些問題。在這篇論文中,我們對知識增強預訓練語言模型(KE-PLMs)進行了全面的綜述,以提供對這一蓬勃發展的領域的清晰洞察。我們分別介紹了自然語言理解(NLU)和自然語言生成(NLG)的適當分類法,以突出自然語言處理的這兩個主要任務。對于NLU,我們將知識類型分為四類:語言知識、文本知識、知識圖譜(KG)和規則知識。用于NLG的KE-PLMs分為基于KG的方法和基于檢索的方法。最后,我們指出了KE-PLMs未來的發展方向。
//www.zhuanzhi.ai/paper/d29c4e105f7150131e1347d799681e73
1.概述
近年來,隨著深度學習技術的不斷發展,在海量文本語料庫上以無監督目標訓練的預訓練語言模型(Pre-trained Language Model, PLM)被廣泛應用于自然語言處理(Natural Language Processing, NLP)領域,并在各種下游任務上取得了最先進的性能。與傳統的監督學習不同的是,基于自監督學習的plm通常先對通用的大規模無標記數據進行預訓練,然后針對特定任務對小規模標記數據進行微調。BERT[1]、GPT[2]、T5[3]等代表工作在眾多自然語言理解(NLU)和自然語言生成(NLG)任務中不斷刷新基準記錄,成功推動了自然語言處理(NLP)的發展。
隨著PLMs的規模越來越大,擁有數億個參數的PLMs已被廣泛認為能夠在某些探測中捕獲豐富的語言[4]、[5]、[6]和事實知識[7]、[8]。然而,由于缺乏原始數據中知識的顯式表示,PLM在下游任務上的性能受到限制。特別是,先前的研究發現,傳統的預訓練目標往往具有較弱的符號推理能力[9],因為PLM傾向于集中于詞共現信息。將知識整合到plm中可以增強他們的記憶力和推理能力。例如,在“the monument to the people 's Heroes莊嚴地坐在[MASK] square”的語言理解問題中,傳統PLM預測蒙面位置的輸出為“the”,而知識增強PLM預測的輸出為“天安門”,準確率更高。
對于語言生成,雖然現有PLMs能夠從文本語料庫中獲取豐富的語言信息并生成正確的句子,但由于忽略了外部世界知識[11],幾乎所有PLMs都無法生成面向捕捉人類常識的輸出。換句話說,PLMs生成的句子往往符合語法規范,但不符合邏輯。例如,給定一個概念集{hand, sink, wash, soap}來生成一個句子,傳統的PLM可能會生成“hands washing soap on the sink”,而具有額外知識的PLM生成“man is wash his hands with soap in a sink”,這更自然、更符合邏輯。
為了解決上述問題,將知識明確地融入PLMs已經成為最近NLP研究的一個新興趨勢。Wei等人[12]從三個方面回顧了知識增強的PLM:知識來源類型、知識粒度和應用。Yin等人總結了基于預訓練語言模型的知識增強模型(PLMKEs)的最新進展,根據PLMKEs的三個關鍵元素: 知識來源、知識密集型NLP任務和知識融合方法。在本研究中,考慮到在語言模型中注入知識可以促進NLU和NLG任務的完成,而這兩個領域的重點不同,我們旨在對這兩個領域的知識增強預訓練語言模型(知識增強預訓練語言模型,KEPLMs)進行綜合綜述,以提供知識增強預訓練語言模型在NLU和NLG中的各自見解。
本綜述的主要貢獻可歸納如下: (1) 在本次綜述中,我們將KE-PLMs 按照下游任務分為兩大類:NLU和NLG。本文分別提出了適當的分類法,以突出說明自然語言處理中這兩種不同任務的重點。
(2) 對于NLU,根據知識類型將KE-PLMs進一步劃分為語言知識、文本知識、知識圖(KG)和規則知識四個子類別。對于NLG,基于知識來源,將KE-PLMs 進一步分為基于檢索的方法和基于KG的方法。圖1顯示了我們為NLU和NLG提出的分類法。
(3) 討論了未來可能解決KE-PLMs存在的問題和挑戰的一些可能的方向。
本文的其余部分安排如下。在第二節中,我們介紹了自然語言處理中訓練范式發展下PLM的背景。在第三節中,我們介紹了NLU領域中KE-PLM的分類。在第4節中,我們介紹了在NLG領域的KE-PLM的分類。對于NLU和NLG領域,我們討論了分類法中每個葉類的代表性工作。在第五部分中,基于現有的局限性和挑戰,我們提出了未來KE-PLM可能的研究方向。最后,我們在第6節中進行總結。
2. 知識增強預訓練語言模型自然語言理解
NLU是NLP的一個組成部分,涉及使機器能夠理解和解釋文本數據內容的所有方法。它從非結構化文本中提取核心語義信息,并將這些信息應用于下游任務,因此在文本分類、關系提取、命名實體識別(NER)和對話系統等應用程序中發揮著重要作用。根據圖1所示的分類法,我們將為NLU任務設計的KE-PLM所包含的知識按照不同的類型分為以下四類: 語言知識、文本知識、知識圖譜和規則知識。對于每一類,我們討論了其代表性的方法。
語言知識
知識圖譜:
3. 知識增強預訓練語言模型自然語言生成****NLG的目標是使機器能夠生成人類能理解的語言文本,并遵循人類表達自己的方式。
在生成模型中加入各種形式的知識,而不是輸入序列,有助于提高文本生成任務的性能。參考知識增強文本生成[32]的綜述,我們進一步將NLG領域的KE-PLM根據其不同的知識來源分為兩類:一類是基于檢索的方法,另一類是基于kg的方法。
4. 未來發展方向
在本節中,我們提出了未來KE-PLMs可能的研究方向,以應對目前存在的問題和挑戰。 * 整合同質源和異構源的知識 * 探索多模態知識 * 提供可解釋性證據 * 持續學習知識 * 優化知識整合到大模型中的效率 * 增加生成結果的多樣性
南京大學最新《基于模型的強化學習》綜述論文,值得關注!
強化學習(RL)通過與環境交互的試錯過程來解決順序決策問題。雖然RL在允許大量試錯的復雜電子游戲中取得了杰出的成功,但在現實世界中犯錯總是不希望的。為了提高樣本效率從而減少誤差,基于模型的強化學習(MBRL)被認為是一個有前途的方向,它建立的環境模型中可以進行試錯,而不需要實際成本。本文對MBRL的研究現狀進行了綜述,并著重介紹了近年來研究的進展。對于非表格環境,學習到的環境模型與實際環境之間存在泛化誤差。因此,分析環境模型中策略訓練與實際環境中策略訓練的差異,對算法設計、模型使用和策略訓練具有重要的指導意義。此外,我們還討論了離線在線學習、目標條件在線學習、多智能體在線學習和元在線學習等基于模型的在線學習技術的最新進展。此外,我們還討論了MBRL在實際任務中的適用性和優勢。最后,我們討論了MBRL未來的發展前景。我們認為MBRL在實際應用中具有巨大的潛力和優勢,但這些優勢往往被忽視,希望本文的綜述能夠吸引更多關于MBRL的研究。
強化學習(Reinforcement learning, RL)研究了提高自主智能體序列決策性能的方法[Sutton and Barto, 2018]。由于深度RL在圍棋和電子游戲中的成功展示了超越人類的決策能力,因此將其應用范圍擴展到現實任務中是非常有意義的。通常,深度RL算法需要大量的訓練樣本,導致樣本復雜度很高。在一般的RL任務中,特定算法的樣本復雜度是指學習一個近似最優策略所需的樣本量。特別地,與監督學習范式從歷史標記數據中學習不同,典型的RL算法需要通過在環境中運行最新的策略來獲得交互數據。一旦策略更新,基礎數據分布(正式的入住率測量[Syed et al., 2008])就會發生變化,必須通過運行策略再次收集數據。因此,具有高樣本復雜度的RL算法很難直接應用于現實世界的任務中,因為在這些任務中,試錯代價很高。
因此,近年來深度強化學習(deep reinforcement learning, DRL)研究的一個主要重點是提高樣本效率[Yu, 2018]。在不同的研究分支中,基于模型的強化學習(MBRL)是最重要的方向之一,人們普遍認為它具有極大的潛力使RL算法顯著提高樣本效率[Wang et al., 2019]。這種信念直觀地來自于對人類智慧的類比。人類能夠在頭腦中擁有一個想象的世界,在這個世界中,隨著不同的行動,事情會如何發生可以被預測。通過這種方式,可以根據想象選擇適當的行動,這樣就可以降低反復試驗的成本。MBRL中的短語模型是期望扮演與想象相同角色的環境模型。
在MBRL中,環境模型(或簡稱為模型)指的是學習智能體與之交互的環境動態的抽象。RL中的動態環境通常被表述為一個馬爾可夫決策過程(MDP),用元組(S, A, M, R, γ)表示,其中S, A和γ分別表示狀態空間、行動空間和未來獎勵的折扣因子,M: S × A→S表示狀態轉移動力學,R: S × A→R表示獎勵函數。通常情況下,給定狀態和行為空間以及折扣因子,環境模型的關鍵組成部分是狀態轉移動力學和獎勵函數。因此,學習模型對應于恢復狀態轉移動力學M和獎勵函數r。在許多情況下,獎勵函數也被明確定義,因此模型學習的主要任務是學習狀態轉移動力學[Luo et al., 2018, Janner et al., 2019]。
有了環境模型,智能體就有了想象的能力。它可以與模型進行交互,以便對交互數據進行采樣,也稱為仿真數據。理想情況下,如果模型足夠準確,可以在模型中學習到一個好的策略。與無模型強化學習(model-free reinforcement learning, MFRL)方法相比,智能體只能使用從與真實環境的交互中采樣的數據,稱為經驗數據,MBRL方法使智能體能夠充分利用學習模型中的經驗數據。值得注意的是,除了MBRL,還有其他一些方法試圖更好地利用經驗數據,如off-policy算法(使用重放緩沖區記錄舊數據)和actor-critic算法(通過學習評論家來促進策略更新)。圖1描述了不同類型的RL結構。圖1(a)是最簡單的on-policy RL,其中智能體使用最新的數據來更新策略。在off-policy中,如圖1(b)所示,代理在重放緩沖區中收集歷史數據,在重放緩沖區中學習策略。在行動者-評論者RL中,如1(c)所示,智能體學習評論者,其是長期回報的價值函數,然后學習批評者輔助的策略(行動者)。如圖1(d)所示,MBRL顯式地學習一個模型。與策略外RL相比,MBRL重構了狀態轉移的動態過程,而策略外RL只是簡單地使用重放緩沖區來更穩健地估計值。雖然價值函數或批評的計算涉及到轉移動力學的信息,但MBRL中的學習模型與策略解耦,因此可以用于評估其他策略,而價值函數與抽樣策略綁定。此外,請注意,非策略、演員-評論者和基于模型是三個并行的結構,圖1(e)顯示了它們的可能組合。
RL算法的體系結構。圖中顯示了RL的訓練迭代,重點是如何利用交互數據。
通過足夠準確的模型,可以直觀地看到MBRL比MFRL產生更高的樣本效率,這一點在最近的理論研究[Sun el.,2019年]和經驗研究[Janner et al.,2019年,Wang et al.,2019年]的視角都表明了這一點。然而,在大量具有相對復雜環境的DRL任務中,要學習一個理想的模型并非易事。因此,我們需要仔細考慮模型學習和模型使用的方法。
在這一綜述中,我們對基于模型的強化學習方法進行了全面的綜述。首先,我們關注模型是如何在基本設置中學習和使用的,如第3節的模型學習和第4節的模型使用。對于模型學習,我們從經典的表格表示模型開始,然后使用神經網絡等近似模型,我們回顧了在面對復雜環境時的理論和關鍵挑戰,以及減少模型誤差的進展。對于模型的使用,我們將文獻分為兩部分,即用于軌跡采樣的黑箱模型rollout和用于梯度傳播的白箱模型。將模型使用作為模型學習的后續任務,我們還討論了在模型學習和模型使用之間建立橋梁的嘗試,即價值感知模型學習和策略感知模型學習。此外,我們簡要回顧了基于模型的方法在其他形式的強化學習中的組合,包括離線強化學習、目標條件強化學習、多智能體強化學習和元強化學習。我們還討論了MBRL在現實任務中的適用性和優勢。最后,我們對MBRL的研究前景和未來發展趨勢進行了展望。
摘要 預訓練技術當前在自然語言處理領域占有舉足輕重的位置。尤其近兩年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等預訓練模型的成功,進一步將預訓練技術推向了研究高潮。該文從語言模型、特征抽取器、上下文表征、詞表征四個方面對現存的主要預訓練技術進行了分析和分類,并分析了當前自然語言處理中的預訓練技術面臨的主要問題和發展趨勢。
摘要:隨著自然語言處理(NLP)領域中預訓練技術的快速發展,將外部知識引入到預訓練語言模型的知識驅動方法在NLP任務中表現優異,知識表示學習和預訓練技術為知識融合的預訓練方法提供了理論依據。概述目前經典預訓練方法的相關研究成果,分析在新興預訓練技術支持下具有代表性的知識感知的預訓練語言模型,分別介紹引入不同外部知識的預訓練語言模型,并結合相關實驗數據評估知識感知的預訓練語言模型在NLP各個下游任務中的性能表現。在此基礎上,分析當前預訓練語言模型發展過程中所面臨的問題和挑戰,并對領域發展前景進行展望。
摘要: 手語識別涉及計算機視覺、模式識別、人機交互等領域,具有重要的研究意義與應用價值。深度學習技術的蓬勃發展為更加精準、實時的手語識別帶來了新的機遇。該文綜述了近年來基于深度學習的手語識別技術,從孤立詞與連續語句兩個分支展開詳細的算法闡述與分析。孤立詞識別技術劃分為基于卷積神經網絡(CNN)、3維卷積神經網絡(3D-CNN)和循環神經網絡(RNN) 3種架構的方法;連續語句識別所用模型復雜度更高,通常需要輔助某種長時時序建模算法,按其主體結構分為雙向長短時記憶網絡模型、3維卷積網絡模型和混合模型。歸納總結了目前國內外常用手語數據集,探討了手語識別技術的研究挑戰與發展趨勢,高精度前提下的魯棒性和實用化仍有待于推進。