針對預訓練模型仍面臨處理復雜任務所需的知識信息質量不高和數量龐雜的 挑戰,而融合知識圖譜的預訓練模型可增強其性能。進一步研究并深入探討如何有效地融合知識 圖譜到預訓練模型中,以豐富目前綜述所包含的知識增強類型。【方法】分析并總結了近年來融合 知識圖譜的預訓練模型的相關文獻,首先簡要介紹了預訓練模型引入知識圖譜的原因、優勢以及難 點;其次詳細討論了隱性結合、顯性結合兩類方法,并對代表模型的特點與優缺點進行了對比總結; 最后對融合知識圖譜的預訓練模型將面臨的挑戰以及未來研究發展趨勢進行了討論。【結論】融 合知識圖譜的預訓練模型核心問題是解決如何將知識庫中的信息有效地融合到預訓練模型中,未 來可以探索更加有效和高效的知識融合方法,以提高模型的性能和泛化能力。
近年來,深度學習在自然語言處理領域取得了 顯著進展。其中,預訓練模型在關系抽取[1]、文本分 類[2]等下游任務中都有優秀的表現。預訓練模型是 一種通過自監督學習從大規模無標注數據中生成一 個基礎網絡的技術,并將學習到的特征重新進行微 調或遷移至另一個目標網絡,所生成的網絡結構即 為“預訓練模型”[3]。預訓練模型更加注重上下文理 解,將訓練階段得到的網絡模型應用于后續特定下 游任務,避免了繁瑣的再訓練過程,其優點在于訓練 成本小,配合下游任務有更快的收斂速度,同時也能 有效提高模型性能。 自BERT [4]、ELMO [5]等模型被提出以來,各種 預訓練模型不斷涌現。2023年 OpenAI公司正式 發 布 最 新 的 ChatGPT [6] (Chat Generative PretrainedTransformer)人機對話模型,標志著大規模 語言模型(largelanguagemodel,LLM)的成熟,谷 歌公司也發布 了 他 們 的 對 標 產 品 PaLM2 [7]模 型。 另一方面,經過微調或蒸餾的小型化大規模語言模 型,如 LLAMA [8]、GUANACOetal [9]也成為當下 的研究熱點,并在多項測評中有出色的表現。此外, 如 QUANTIZATION [10]與SPECLNFER [11]等優化 技術使得以更低的資源需求部署大規模語言模型也 成為了可能。但一些研究表明[12],這些小型化的大 規模語言模型以及面向低資源場景的系統優化技術 往往都會 帶 來 模 型 質 量 的 下 降,影 響 最 終 應 用 的 效果。 因此,面對深層次的專業化自然語言處理任務, 將特定種類的知識圖譜作為外部知識融合到特定用 途的自然語言處理任務中[13]是一種有效途徑。首 先,知識圖譜中的實體和關系信息可以被視為先驗 知識,在預訓練模型訓練數據不足時容易出現過擬 合或欠擬合的情況,而知識圖譜中的實體和關系信 息可以作為額外的訓練數據,有助于緩解數據稀疏 性問題。其次,知識圖譜中的實體和關系之間有明 確的邏輯關系,可以幫助模型進行推理和推斷。最 后,知識圖譜中的實體和關系信息來自不同的領域, 可以支持模型在多個領域之間遷移學習,從而提高 模型的泛化能力。如圖1所示,結合知識圖譜的預 訓練模型與傳統預訓練模型的學習方法對比。在預 測過程中,傳統預訓練模型只能通過短距離固定記 憶對掩碼的字進行預測,難以學習到“北京、共和國” 等實體的完整語義。而結合知識圖譜的預訓練模型 通過學習實體關系可以正確預測到“中華人民”所對 應的“北京、共和國”等命名實體的關系。 雖然融合知識圖譜到預訓練模型會提升模型的 效率與準確率,但如何融合也伴隨著極大的困難,難 點主要包括結構化知識編碼、異構信息融合和信息 遺忘等問題。其中,如何將實體信息有效表達和編 碼是一個關鍵問題;同時,不同領域的知識圖譜的信 息來源不同,如何將它們融合起來也是一個難點;此 外,預訓練模型融合外部知識后容易遺失之前訓練 得到的知識,這也是一個需要解決的問題。這些難 點需要通過有效的方法和技術來克服,以實現預訓 練模型和知識圖譜的融合,進一步提高自然語言處 理的應用效果。在現有的將外部知識整合到預訓練模型的綜述 中,大多數研究側重于不同形式知識的注入方法。 例如,HUetal [14]根據自然語言理解(NLU)和自然 語言生成(NLG)兩個任務引出分類對知識增強型 預訓練模型進行了歸納。ZHENetal [15]根據不同 的知識類型以及格式對外部知識如何注入預訓練模 型進行了總結。然而,這些綜述未對融合知識圖譜 到預訓練模型的方法進行詳盡介紹和突出。因此, 需要進一步研究并深入探討如何有效地融合知識圖 譜到預訓練模型中,以豐富目前綜述所包含的知識 增強類型。 本文對近年來發表的融合知識圖譜到預訓練模 型的文獻進行歸納總結,與現有綜述文獻的角度不 同,本文從預訓練模型內部到外部以隱式與顯式兩 類方法對融合知識圖譜到預訓練模型的方法進行介紹,如圖2所示,并對代表模型的特點進行了詳細闡 述與說明。本文的主要貢獻有: 1)相比于其他的知識增強型預訓練模型綜述, 本文主要對融合知識圖譜的方法進行了分析總結, 針對性較強。 2)以結合知識圖譜的預訓練模型為切入點,幫 助研究人員了解該方向的研究趨勢。 3)最后對融合知識圖譜的預訓練模型目前存 在的問題進行了總結,并提出了相應的解決思路。
近年來,提示學習方法由于可以充分激發預訓練語言模型的潛能而得到了研究者越來越多的關注,特別是在知識抽取任務中取得了較好進展。為了提升提示學習性能,研究者也開展了基于知識的提示學習模板工程、答案工程優化等多項研究。該文對提示學習與知識相結合的相關研究進行了系統綜述,包括知識抽取中的提示學習方法以及基于知識約束的提示學習相關進展。在此基礎上,該文還探討了目前方法存在的局限性,展望了提示學習與知識相結合的發展趨勢。
知識抽取是通過識別、理解、篩選和格式化,將文本中的各個知識點抽取出來,并以一定形式存入知識庫中的過程[1]。它是構建知識圖譜的關鍵一環,在自然語言處理領域備受矚目,其方法也隨著自然語言處理方法的發展而發展。早期的自然語言處理方法大多是完全監督學習方法,這類方法嚴重依賴特征工程[2-3]。 隨著神經網絡的出現,自然語言處理出現了新范式——基于神經網絡的深度學習[4-5]。雖然這種方法不需要手動設置特征,但仍需精心設計最適配下游任務的網絡架構。近幾年,隨著預訓練語言模型(Pre-trained Language Model, PLM)如GPT[6]、BERT[7]、BART[8]等的出現,“預訓練”+“微調”成為了分激發預訓練語言模型的潛力,提升了任務的性能。表1展示了不同任務的示例。對于不同任務,通過設計特定的模板,無論是分類任務、序列標注任務還是生成任務,均可以被重構為掩碼語言模型任務。這使得下游任務與預訓練語言模型無需借助“微調”的方式來適配。提示學習拓展了預訓練語言模型的適用性,并且打破了不同任務之間統一建模的困難。
目前,提示學習相關工作尚處于初期探索階段,還面臨巨大挑戰。Liu等人[10]已指出,提示模板設計是影響提示學習效果的一個重要問題,并指出與知識相結合可能是解決該問題的一條路徑。近兩年間,提示學習與知識抽取相結合的方向已經逐步成為新的研究熱點。基于提示學習的知識抽取在各具體任務中取得了領先水平,同時在提示學習中引入知識的相關研究也嶄露頭角。 提示學習的動機是幫助預訓練語言模型回憶“知識”,而對于知識抽取任務而言,其目的是抽取知識。與此同時,利用抽取的知識也能提升提示學習的效果,二者相輔相成。因此,開展提示學習與知識相結合的研究將成為一個重要趨勢。對該領域進行全面總結和系統梳理將有助于研究者了解相關研究前沿和主要挑戰。區別于Liu等人[10]對整個提示學習從基本概念到各種任務應用的系統綜述,本文主要關注基于提示學習的知識抽取任務和基于知識的提示學習相關文獻。因此,本文在歸納整理了表2所列文獻的基礎上,嘗試歸納總結拓展該方向的概念與方法,旨在為感興趣的研究人員提供參考。
1. 提示學習基本概念
本節對提示學習中涉及的概念進行闡述,以Liu等人[10]的規范為主要參考。提示學習的核心是重構下游任務,例如情感分類任務。原有任務的輸入為“今天的天氣真好”,輸出則是“正面情緒”類別。如果運用提示學習,輸入通過提示函數被改寫為“今天的天氣真好,我的心情是[MASK]的。”,輸出則是“開心”。然后通過標簽詞映射,將“開心”識別為“正面情緒”標簽。 具體而言,在提示學習中,需要以下三個步驟: ① 模板構建:用提示函數fprompt(x)將輸入的文本x修改為提示x'=fprompt(x); ② 答案搜索:將x'傳給預訓練模型,得到“最高分”的輸出; ③ 標簽詞映射:在第二步中得到的輸出是滿足預訓練任務形式的輸出,可能會與下游任務的輸出形式存在差別,需要一個函數映射來進行轉換。 模板構建步驟通常被稱為提示工程,而標簽詞映射通常被稱為答案工程。
1.1 提示工程
提示工程(也可稱為模板工程)是創建提示函數fprompt(x)的過程,這會影響下游任務的表現。對于提示工程而言,首先要考慮提示的模式,然后再考慮采用人工或者自動化的方式創建所需模式的提示。提示的模式主要分為完型填空式提示和前綴提示兩種。完型填空式提示就是表1中的模板給出的示例,用于填充文本字符串中的空白部分。而前綴提示則是在輸入文本前添加一組可訓練的向量作為提示[31],訓練時固定預訓練語言模型中的其余參數,并對這些向量進行優化。在最新研究中,前綴提示的概念也在不斷擴充,例如,在特定字符串周圍使用一些特殊的標記來進行標注作為提示,這種方法也納入到了前綴提示的范疇,例如"@ Bill@ was born in# Seattle#.",其中Bill實體和Seattle實體周圍都有特殊標記。 傳統的提示工程主要依靠人工構建模板[11-12,18],過于依賴專家知識。同時,研究者還探索了自動構建提示模板的方法,主要包括離散提示[32]和連續提示[21]兩種。離散提示是指讓計算機自行搜索添加文本字符串。考慮到構建提示的目的是找到讓語言模型能夠有效執行任務的方式,而不是供人類閱讀或使用,因此衍生出了由連續向量構成的連續提示,避免了語言模型參數對模板的限制。此外,還有人工設計和自動生成相結合的混合提示,采取在人工設計的提示中插入一些可訓練的向量[33]。在上述自動構建提示的探索中,研究者們已經發現在提示中引入知識,對構建過程進行約束能夠取得更好的效果[28]。
1.2 答案工程
答案工程旨在設計合適的映射,即從預訓練語言模型輸出到答案空間中所對應標簽詞的過程,這同樣需要考慮模式和設計方法。答案的模式有標記[34](Token)、跨度[35](Span)、句子[31](Sentence)這三種。在實踐中,答案模式的選擇取決于執行的任務,例如,標記、跨度模式可以用于實體抽取和關系抽取任務,跨度、句子模式可以用于文本生成任務。答案模式設計方法分為手動設計、離散答案搜索、連續答案搜索這三種。手動設計即人為定義映射函數[35]。離散答案搜索常用的方法有:①擴充原答案空間,使用回譯的方法,將答案翻譯成另一種語言,然后返回生成多個釋義答案的列表[36];②先剪枝再進行搜索,先利用模型生成可能的答案,組成初 始答案空間,即對所有答案的搜索空間進行剪枝,然后再使用一個具體的算法在這個剪枝后的空間內進一步搜索以選擇最終答案[37];③標簽分解[14],將標 簽分解為組成的詞,并將這些詞作為答案。目前,連續答案搜索在具體工作中運用較少,使用梯度下降的方式能夠優化可變長答案標記[21]。
1.3 多提示學習
多提示學習是指在模板構建的過程中使用多個提示,這能進一步增強提示學習的效果。常用的多提示學習方式包括提示融合[25]、提示增強[15]、提示合成[26]和提示分解[12]。
提示融合:在預測時使用多個未回答的提示作為輸入,最終使用均值、加權平均、投票等多種方案得到輸出。這種提示融合的方式可以很好利用不同提示之間的互補優勢,降低搜索出表現最好提示的成本,避免不同提示的差異對模型表現產生的影響,穩定下游任務的性能。
提示增強:又可以稱作演示學習,通過為語言模型提供帶有答案的示例作為提示,相當于一種數據增強,在一定程度上能解決小樣本問題[38]。例如,給模型輸入“湖南的省會是[Z]”作為提示時,在提示前面加上“江蘇的省會是南京”等示例。這種方式利用了預訓練模型學習重復模式的能力,可以很好處理小樣本問題,但存在示例選擇和示例排序[39]問題,后文中會探討示例選擇的解決方案[15]。
提示合成:指在處理一些可以分解成更基礎的子任務時,使用多個子提示,每個子提示對應一個子任務,然后將這些子提示組合為一個完整的提示。這種方法常用于關系抽取任務中,利用子提示處理實體識別和關系分類,然后根據標簽映射完成關系抽取任務。
提示分解:是將完整的提示分解為不同的子提示,然后分別對每個子提示進行預測。這種方法往往用于序列標注任務,例如命名實體識別任務。在輸入中可能存在多個實體,同時預測出所有實體的類型極其困難,因此需要為可能是實體的跨度創建子提示,分別對每個跨度進行預測。
1.4 提示學習的應用
提示學習在自然語言處理的各類任務中應用廣泛。例如,Wang等人[40]利用提示學習重新建模了對話和推薦任務,用一個預訓練語言模型就可以實現兩個任務的統一;Rajagopal等人[41]利用提示學習,引入特定域的概念,實現了序列到序列模型的跨域推理;Zhao等人[42]利用提示學習在一定程度上解決了對話摘要任務中的領域遷移問題,減少了對大量標注數據的依賴。此外,提示學習還運用于機器翻譯[43]、語義解析[44]等任務。
2 基于提示學習的知識抽取
知識抽取的主要任務有實體抽取、關系抽取和 事件抽取,這些任務在具體場景中會受到不同目標、 異構結構和特定需求的影響,存在遷移性弱、域適應 受限、重新訓練代價高的問題。通過提示學習,可以 進一步挖掘大規模預訓練語言模型的能力。實際 上,因為知識抽取任務的形式與完型填空任務較為 接近,提示學習的方法可以有效指導模型自適應地 完成抽取任務,減輕人工標注大量數據的負擔,提升 模型在小樣本與領域遷移場景下的表現.
**2.1 基于提示學習的實體抽取 **
傳統的實體抽取采用序列標注的方式[45],而基 于提示學習的方法則將其通過掩碼很自然地表述為 完型填空問題,能更充分地利用預訓練語言模型蘊 含的知識,在實驗中取得不錯的效果。 基于提示學習方法進行實體抽取的基本模型框 架如圖1所示,將輸入文本和提示輸入預訓練語言 模型,再通過標簽詞映射將[MASK]預測為城市實 體。通過完型填空式提示的方式實現對實體的預 測,并將實體發現、實體分類兩個子任務分解為兩個 子提示,但提示分解方法跨度檢測時會受錯誤傳播 影響,且候選跨度過多增加了構造提示的代價。研 究者們嘗試采用前綴提示或提示增強的方式來解決 問題。
2.2 基于提示學習的關系抽取 對于關系抽取任務,提示學習通過引入前綴標 記提示,讓模型更多地關注句子中的實體信息,充分 激發模型的性能。
2.3 基于提示學習的事件抽取
從自然語言文本中抽取事件實例是一個關鍵又 十分具有挑戰性的工作。目前對事件抽取的任務研 究大多數都遵守 ACE2005評測會議[49]中的規范 進行抽取。 目前主流的事件抽取方法分為基于序列標注的 方法[50-51]、基于問答的方法[52-54]和基于生成的方法 (TANL [55],Text2Event [56]),這些方法依賴大量的 訓練數據或精心設計的高質量問題,無法適應事件 抽取的實際需要,研究者們希望通過引入提示學習, 減輕數據處理的負擔,完成在小樣本情況下的事件 抽取任務。 當前,基于提示學習的事件抽取主要有以下研 究方向:面向要素抽取的提示學習、面向流水線模 式事件抽取的提示學習、基于提示融合的事件抽取。 這些方法都是建立在編碼器-解碼器模型的基礎上 的,基本模型架構如圖4所示。 (1)將文本和提示輸入編碼器(Encoder); (2)解碼層(Decoder)負責輸出文本; (3)對輸出文本進行處理得到結構化數據。
3. 基于知識的提示學習
基于提示學習的方法已經在知識抽取等任務上取得較好效果,但如何針對具體任務構造出最合適的提示模板和標簽映射,從而進一步提高任務性能成為研究者面臨的一個重大挑戰。從GPT-3[38]、AutoPrompt[32]到P-tuning[33],模板構造經歷了從人工構造到自動生成離散或連續模板三個階段。然而在其快速發展的背后,提示學習仍然面臨構造提示的成本高、無法應對專業領域場景、缺乏常識性知識等問題。 針對上述問題,研究者嘗試引入外部知識來輔助模板生成,通過知識約束提升模型對任務和領域的感知。
3.1 知識約束方法
知識約束方法是指在構建提示和標簽映射的過 程中 注 入 外 部 知 識,壓 縮 搜 索 空 間。主 要 介 紹 PTR [26]、KPT [27]、KnowPrompt [28]等;其中,PTR是利 用邏輯規則構建提示;KPT 是通過知識庫來擴展標 簽映射;KnowPrompt在模板構建和標簽映射過程中 均注入了知識,上述方法的示意圖見圖6和圖7。
3.2 選擇性知識植入方法
由于知識噪聲和異構性問題,并不是所有的外 部知識都能有助于提示學習模型性能提升。針對這 一問題,OntoPrompt [30]基于知識線性轉化和注意 力掩碼矩陣實現了本體知識的選擇性注入.
3.3 小結 目前,基于知識的提示學習方法在文本分類、關 系抽取、事件抽取等任務中驗證了模型的性能,并在 小樣本場景下取得了很好的效果,證明了知識注入、 知識選擇可以對模板構建、標簽映射進行指導,減輕 人工設計的負擔,提升小樣本環境下的遷移能力。 追本溯源,提示學習主要從預訓練語言模型里 面獲取和任務相關的知識,這對預訓練模型的規模、 預訓練數據的來源等都提出了要求[60]。而提示工 程、答案工程都是為了能更好的指導如何從預訓練 模型中獲取任務相關知識,人工設計模板的方法主 要也是利用了專家知識;因此,基于知識約束及輔助 的提示工程、答案工程必然會在提示學習研究中發 揮越來越重要的作用。
4. 當前挑戰與未來研究趨勢
4.1 當前挑戰
提示學習的方法不僅在知識抽取任務上取得了較好表現,對小樣本場景下的運用也進行了探索,同時在自然語言處理的各個方向上有了一定的突破。然而,從構建、原理和選擇三個具體角度來看,仍然面臨著提示學習的模板設計問題以及預訓練模型的選擇問題。這些問題制約了提示學習的深入研究和廣泛應用,亟待后續研究加以解決。
4.1.1 提示學習的模板設計問題
目前應用提示學習的工作大多集中于分類工作和生成工作,而其他工作相對較少。此外,需要解決“模板”和“標簽詞”的分割問題。模型的效果同時依賴于應用“模板”和“標簽詞”的映射,自動生成最優的連續模板或者搜索出最優的答案空間都是非常復雜的工作,同時讓二者達到最優也是具有挑戰性的。此外,提示學習的模板設計效果存在可解釋性差的問題,部分意義相近的模板可能對模型性能產生巨大影響。例如,Liu等人對LAMA-TRExP17案例進行分析,對哥倫比亞陽光海岸的所屬國家進行提問,模板中的“In”使準確率存在20%的波動,見表3。結合知識開展提示工程和答案工程的一體化設計,并通過知識約束使提示學習的模型更穩定、效果更可解釋,這可能是解決提示學習設計問題的可行之道。
4.1.2 提示學習的預訓練模型選擇問題
提示學習的效果會受到預訓練模型選擇的影響。目前各種自動生成提示和自動搜索答案的方法層出不窮,然而,研究者們忽略了對預訓練語言模型的選擇,也沒有探究不同的自動生成方法和自動搜索方法在不同預訓練模型下的表現。此外,面向大規模知識圖譜的圖預訓練模型中蘊含了更為密集的知識,而當前提示學習方法忽略了圖預訓練模型中知識的利用;對于知識密集型任務,提示學習也沒有進行針對性的預訓練模型優化。結合基于大規模知識圖譜的圖表示和圖預訓練模型,開展提示學習以及結合提示學習進行知識抽取,可能會取得更好的效果。
4.2 未來研究趨勢
4.2.1 聯合知識抽取的探索
在基于提示學習的知識抽取方面,對于關系抽取和事件抽取,目前基于提示學習的方法都是流水線模式的,這種模式存在固有的錯誤傳播問題,會影響模型的性能。近期,百度與中科院的UIE基于提示學習,統一了抽取任務,并在13個數據集的全監督、低資源、少樣本設置下均達到目前最佳模型的性能,證明了基于提示學習的聯合抽取方法是極具價值的研究方向。
4.2.2 更復雜的知識注入
在結合知識的提示學習方面,目前注入的知識以三元組中的實體關系為主,注入的方法僅為簡單的謂詞邏輯或前綴提示;但知識圖譜蘊含的知識結構信息和推理信息尚未得到充分利用。因此,如何設計更好的知識約束方法,將這些復雜的知識通過提示學習的方式引入模型中,是基于知識的提示學習方法未來發展的重點方向。
5. 總結
本文對提示學習方法在知識抽取任務上的運用進行了綜述,對具體方法中的提示工程、答案工程和多提示學習進行了分類和對比分析。已有的研究表明提示學習適用于知識抽取任務。針對提示學習中模板和標簽映射的構造問題,闡述了基于知識約束的解決方案與知識選擇注入方法,并分析了與知識相結合的提示學習研究面臨的問題和未來發展趨勢。從目前形勢看,在基于提示學習的知識抽取方面,聯合抽取方法是極具價值的研究方向;在基于知識的提示學習方面,更復雜的知識注入與針對圖模型的提示學習可能是未來的重點發展方向。相信隨著更深入的研究,與知識相結合的提示學習方法將會成為自然語言處理的一個新范式。
作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方 式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作 空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標 任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜 述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結 歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。
1. 引言
強化學習(Reinforcement Learning,RL) 作為機器 學習分支之一,在人工智能領域具有重要地位[1] :智能 體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整 自身的動作策略,從而生成總獎勵值最大的動作策略 模型[2]。傳統強化學習方法在有限狀態空間和動作空間的 任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態 任務往往具有很大的狀態空間和連續的動作空間,尤 其當輸入數據為圖像和聲音時,傳統強化學習很難處 理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個 方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強 化學習中的值函數和策略函數[6] 。
深度 強 化 學 習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力 相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名 專家 Hinton、Bengio、Lecun 在《Nature》 上發表的深度 學習綜述一文將深度強化學習作為深度學習的重要發 展方向[13] 。
盡管在過去三十年間取得很大進步,但由于標準 強化學習智能體的初始設定都是隨機策略,在簡單環 境中通過隨機探索和試錯,能夠達成較好的訓練效 果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵 信號的稀疏性,強化學習從環境中獲取樣本的成本不 斷提高,學習時間過長,從而影響了智能體的有效 探索[15]。
解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊 在國際頂級機器學習會議 ICML 上首次提出課程學習 的概念[17] ,引起機器學習領域的巨大轟動。課程學習 借鑒人類從簡單到復雜的學習思想,首先在任務集中 篩選出部分簡單任務進行學習以產生訓練課程,而后 在剩余的復雜任務中利用訓練課程進行學習,最后在 整個訓練集中進行訓練。將課程學習和深度強化學習 相結合,可以有以下兩個方面的作用[18] :(1)可以加快 訓練模型的收斂速度,避免訓練初期對于復雜任務投 入過多訓練時間;(2)提高模型的泛化能力,增強對復 雜任務的學習能力。
該文首先對課程學習進行簡要描述,從四個角度 對深度強化學習中的課程學習進行了分類整理,之后 對近三年的基于課程學習的深度強化學習新算法進行 了總結分析,最后討論了基于課程學習的深度強化學 習的發展前景和挑戰。
1 基于課程學習的深度強化學習
課程學習的目標是自動設計和選擇完整序列的任 務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提 高對目標任務的學習速度或性能[19] ,課程學習流程如 圖 1 所示。 課程 馬 爾 可 夫 決 策 過 程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀 態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達 狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。
常見的課程創建方法有以下兩種[21] :(1)在線創 建課程,根據智能體對給定頂點樣本的學習進度動態 添加邊;(2)離線創建課程,在訓練前生成圖,并根據 與不同頂點相關聯的樣本的屬性選擇邊。 課程設計流 程如圖 2 所示。
課程學習方法可認為包括三部分[22] :任務生成、 排序和遷移學習。 任務生成是創建一組好的中間任務 的過程,從中獲取經驗樣本。 排序研究了如何在一組 經驗樣本上創建部分排序 D ,也就是說,如何生成課 程圖的邊。 遷移學習主要研究如何將知識從一個或多 個源任務直接轉移到目標任務。 為了評價源任務遷移 到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。 即智能體在遷移知識的前提下能 夠以多快的速度學習到最優策略,從而在目標任務上 實現預期的性能值 GO 逸 啄 ,其中 啄 是總任務期望的性 能閾值。 (2) 初始性能提升。 通過從源任務進行遷 移,觀察智能體在學習過程中對目標任務的初始性能 提升來衡量遷移效果。 (3)漸近性能提升。 通過比較 智能體在使用遷移與不使用遷移時目標任務收斂后的 最終性能來衡量遷移效果。
2 深度強化學習中的課程學習研究進展
對于強化學習智能體來說,自主學習一項復雜任 務需要很長的時間。 在深度強化學習中應用課程學 習,可以通過利用一個或多個源任務的知識來加速或 改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃 分為簡單任務;(2)在盡量小的專家經驗支持下,根據 面向對象的任務描述自動生成課程;(3) 使用生成的 課程來跨任務重用知識。 實驗表明在人工指定和生成子任務方面都取得了更好的性能。 為了提高多智能體的學習性能,Jayesh 等人應用 前饋神經網絡( Feedforward Neural Network,FNN) 完 成協 同 控 制 任 務[27] , 包 括 離 散 和 連 續 動 作 任 務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不 同任務的訓練。 為了解決從稀疏和延遲獎勵中學習的 局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的 課 程 學 習 方 法[29] ,帶參數的模塊被附加上預先確定的參數,該策 略比單組參數的效果更好。
3 算法分析與總結
強化學習是處理序列決策任務的流行范式[46] ,盡 管在過去的三十年中取得了許多進步,但在許多領域 的學習仍然需要與環境進行大量的交互,導致模型的 訓練時間過長,收斂速度過慢。 為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經 驗可以在開始學習下一個更難的任務時加以利用。 然 而,盡管課程學習理論、算法和應用研究在國內外已普 遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但 仍然有許多問題還亟待解決。
3. 1 強化學習中的課程學習算法理論分析與對比
在算法和理論方面,傳統課程學習對于小規模的 多智能體強化學習性能提升明顯,但在大規模多智能 體環境中,由于環境和智能體之間的復雜動態以及狀 態-行動空間的爆炸,因此在實際問題的解決上進展 不大[49] 。 得益于深度神經網絡的數據處理能力,使用 深度神經網絡表示回報函數,避免了特征提取工作,當 前基于課程學習的深度強化學習算法在實驗場景中應 用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。 隨著課程學 習技術的發展,算法在智能決策[54] 、困難編隊下的合 作導航[55] 、在 SUMO 交通模 擬 器 中 協 商 多 車 輛 變 道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也 取得了一定的成功。 該綜述分四個角度對目前強化學習中的課程學習 方法進行分類并介紹,希望能夠為相關研究人員提供 一點幫助。 為方便了解和對比,該文分析、對比了這幾 類方法的優缺點,并歸納在表 1 中。
(1)基于網絡優化的課程學習。 解決大規模問題 的方法是從小型多智能體場景開始學習,逐步增加智 能體的數量,最終學習目標任務。 使用多種傳輸機制 以加速課程學習過程,課程設計是影響課程遷移成績 的關鍵因素。 如何選擇合適的課程(包括如何決定每 個任務的訓練步長,如何選擇合適的學習模型重新加 載等)是至關重要的。 如何自動生成多智能體課程可 能是目前尚存在的主要局限性,這將在今后的工作中 進一步研究[58] 。
(2)基于多智能體合作的課程學習。 是根據全局 目標和個體目標之間的關系進行學習探索,使用信度 分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函 數增強方案來連接價值和策略函數的階段,在具有高 維狀態空間的多目標多智能體環境中執行高挑戰性任 務性能較好,缺點是沖突較為頻繁、更高的方差和無法 維持合作解決方案[59] ,目前難以推廣到非齊次系統或 沒有已知目標分配的設置的工作。
(3)基于能力評估的課程學習。 通過限制其最初 行動空間來設置內部課程,使用非策略強化學習同時 估計多個行動空間的最優值函數,建立技能、表述和有 意義的經驗數據集,從而避免從頭開始學習,加快學習 效率。 缺點是集群對每個狀態都會改變[60] ,這可能會 干擾泛化,因為沒有一致的語義。
(4)基于功能函數的課程學習。 通過設定級數函 數和映射函數來為智能體量身定制在線課程,通過高 斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。 使用神經網絡作為函數逼近器來估計 動作-價值函數,并提出一個獎勵函數來幫助單位平 衡它們的移動和攻擊。 缺點是只提供最初的啟發式解 決方案[61] ,而且質量不能得到保證。
3. 2 基于課程學習的深度強化學習研究方向
通過對最新課程學習算法理論的研究分析,本節 對當前基于課程學習的深度強化學習存在的開放性問 題和可能的研究方向進行討論。 (1)自動創建任務課程。 任務創建是課程學習方法的重要組成部分,任務 質量會影響課程的生成質量,任務數量會影響課程排 序算法的搜索空間和效率。 現有課程學習中的任務大 多由人工創建,減少任務創建過程中的人工輸入量是 未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。 課程任務之間,知識必須從一個任務遷移到另一 個任務。 目前大部分研究中,知識遷移的類型是固定 的。 例 如, Narvekar 等 人 在 任 務 之 間 遷 移 價 值 函 數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。 這種知識遷 移類型的局限性在于,不同的任務對于知識類型的需 求可能是不同的,因此可以從不同任務中分別提取知 識進行組合。 例如,從一個任務中提取一個選項,從另 一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。 當前課程學習方法的另一個局限性是,生成課程 的時間可能比直接學習目標任務的時間更長。 原因在 于,課程通常是為每個智能體和目標任務獨立學習的。 因此,分攤成本的一種方法是學習一門課程來訓練多 個不同的智能體[65] ,或解決多個不同的目標任務。
4 結束語
該文對基于課程學習的深度強化學習進行了回 顧,由淺入深地對課程學習進行了分析,介紹了課程學 習的概念理論、經典算法、研究進展和發展展望等,從 基于網絡優化的課程學習、基于多智能體合作的課程 學習、基于能力評估的課程學習、基于功能函數的課程 學習四個角度對強化學習中的課程學習進行了分類梳 理、對比分析,最后對基于課程學習的深度強化學習的 未來展望進行簡要分析。 根據當前深度強化學習中存在的狀態空間復雜、 維數災難、學習時間長等問題,課程學習會是未來的一 個發展方向。 課程學習算法可以將目標任務分解成多 個子任務,結合大多數的強化學習算法,使用多種傳輸 機制以加速強化學習進程,大大提高了學習探索效率 和通用性。 最后,目前課程算法在大規模多智能體場 景的研究進展緩慢,其主要原因在于多智能體場景的 復雜性。 然而大規模多智能體場景更加貼近現實,優 質的課程學習算法能夠在很大程度上提高學習探索的 效率。 因此,相信課程學習算法會成為深度強化學習 的熱門方向,加快深度強化學習的發展速度。
預訓練模型主要從海量未標注、無結構化的數據中學習,但缺少外部知識指導,存在模型學習效率不高、模型效果不佳和知識推理能力 受限等不足。如何在預訓練模型中引入語言知識、世界知識等外部知識,提升模型效果以及知識記憶和推理能力是一個難題。本文對知識增強預訓練語言模型(KE-PLMs)進行了全面的綜述。
預訓練語言模型通過自監督學習方法在大型文本語料庫上進行訓練,在自然語言處理(NLP)的各種任務中取得了良好的性能。然而,盡管具有大參數的PLM可以有效地擁有從大量訓練文本中獲得的豐富知識,并在調優階段對下游任務有利,但由于缺乏外部知識,它們仍然存在推理能力差等局限性。研究人員致力于將知識整合到PLM中,以解決這些問題。在這篇論文中,我們對知識增強預訓練語言模型(KE-PLMs)進行了全面的綜述,以提供對這一蓬勃發展的領域的清晰洞察。我們分別介紹了自然語言理解(NLU)和自然語言生成(NLG)的適當分類法,以突出自然語言處理的這兩個主要任務。對于NLU,我們將知識類型分為四類:語言知識、文本知識、知識圖譜(KG)和規則知識。用于NLG的KE-PLMs分為基于KG的方法和基于檢索的方法。最后,我們指出了KE-PLMs未來的發展方向。
//www.zhuanzhi.ai/paper/d29c4e105f7150131e1347d799681e73
1.概述
近年來,隨著深度學習技術的不斷發展,在海量文本語料庫上以無監督目標訓練的預訓練語言模型(Pre-trained Language Model, PLM)被廣泛應用于自然語言處理(Natural Language Processing, NLP)領域,并在各種下游任務上取得了最先進的性能。與傳統的監督學習不同的是,基于自監督學習的plm通常先對通用的大規模無標記數據進行預訓練,然后針對特定任務對小規模標記數據進行微調。BERT[1]、GPT[2]、T5[3]等代表工作在眾多自然語言理解(NLU)和自然語言生成(NLG)任務中不斷刷新基準記錄,成功推動了自然語言處理(NLP)的發展。
隨著PLMs的規模越來越大,擁有數億個參數的PLMs已被廣泛認為能夠在某些探測中捕獲豐富的語言[4]、[5]、[6]和事實知識[7]、[8]。然而,由于缺乏原始數據中知識的顯式表示,PLM在下游任務上的性能受到限制。特別是,先前的研究發現,傳統的預訓練目標往往具有較弱的符號推理能力[9],因為PLM傾向于集中于詞共現信息。將知識整合到plm中可以增強他們的記憶力和推理能力。例如,在“the monument to the people 's Heroes莊嚴地坐在[MASK] square”的語言理解問題中,傳統PLM預測蒙面位置的輸出為“the”,而知識增強PLM預測的輸出為“天安門”,準確率更高。
對于語言生成,雖然現有PLMs能夠從文本語料庫中獲取豐富的語言信息并生成正確的句子,但由于忽略了外部世界知識[11],幾乎所有PLMs都無法生成面向捕捉人類常識的輸出。換句話說,PLMs生成的句子往往符合語法規范,但不符合邏輯。例如,給定一個概念集{hand, sink, wash, soap}來生成一個句子,傳統的PLM可能會生成“hands washing soap on the sink”,而具有額外知識的PLM生成“man is wash his hands with soap in a sink”,這更自然、更符合邏輯。
為了解決上述問題,將知識明確地融入PLMs已經成為最近NLP研究的一個新興趨勢。Wei等人[12]從三個方面回顧了知識增強的PLM:知識來源類型、知識粒度和應用。Yin等人總結了基于預訓練語言模型的知識增強模型(PLMKEs)的最新進展,根據PLMKEs的三個關鍵元素: 知識來源、知識密集型NLP任務和知識融合方法。在本研究中,考慮到在語言模型中注入知識可以促進NLU和NLG任務的完成,而這兩個領域的重點不同,我們旨在對這兩個領域的知識增強預訓練語言模型(知識增強預訓練語言模型,KEPLMs)進行綜合綜述,以提供知識增強預訓練語言模型在NLU和NLG中的各自見解。
本綜述的主要貢獻可歸納如下: (1) 在本次綜述中,我們將KE-PLMs 按照下游任務分為兩大類:NLU和NLG。本文分別提出了適當的分類法,以突出說明自然語言處理中這兩種不同任務的重點。
(2) 對于NLU,根據知識類型將KE-PLMs進一步劃分為語言知識、文本知識、知識圖(KG)和規則知識四個子類別。對于NLG,基于知識來源,將KE-PLMs 進一步分為基于檢索的方法和基于KG的方法。圖1顯示了我們為NLU和NLG提出的分類法。
(3) 討論了未來可能解決KE-PLMs存在的問題和挑戰的一些可能的方向。
本文的其余部分安排如下。在第二節中,我們介紹了自然語言處理中訓練范式發展下PLM的背景。在第三節中,我們介紹了NLU領域中KE-PLM的分類。在第4節中,我們介紹了在NLG領域的KE-PLM的分類。對于NLU和NLG領域,我們討論了分類法中每個葉類的代表性工作。在第五部分中,基于現有的局限性和挑戰,我們提出了未來KE-PLM可能的研究方向。最后,我們在第6節中進行總結。
2. 知識增強預訓練語言模型自然語言理解
NLU是NLP的一個組成部分,涉及使機器能夠理解和解釋文本數據內容的所有方法。它從非結構化文本中提取核心語義信息,并將這些信息應用于下游任務,因此在文本分類、關系提取、命名實體識別(NER)和對話系統等應用程序中發揮著重要作用。根據圖1所示的分類法,我們將為NLU任務設計的KE-PLM所包含的知識按照不同的類型分為以下四類: 語言知識、文本知識、知識圖譜和規則知識。對于每一類,我們討論了其代表性的方法。
語言知識
知識圖譜:
3. 知識增強預訓練語言模型自然語言生成****NLG的目標是使機器能夠生成人類能理解的語言文本,并遵循人類表達自己的方式。
在生成模型中加入各種形式的知識,而不是輸入序列,有助于提高文本生成任務的性能。參考知識增強文本生成[32]的綜述,我們進一步將NLG領域的KE-PLM根據其不同的知識來源分為兩類:一類是基于檢索的方法,另一類是基于kg的方法。
4. 未來發展方向
在本節中,我們提出了未來KE-PLMs可能的研究方向,以應對目前存在的問題和挑戰。 * 整合同質源和異構源的知識 * 探索多模態知識 * 提供可解釋性證據 * 持續學習知識 * 優化知識整合到大模型中的效率 * 增加生成結果的多樣性
隨著教育信息化程度的不斷加深,以預測學生知識狀態為目標的知識追蹤正成為個性化教育中一項重要且富有挑戰性的任務。知識追蹤作為一項教育數據挖掘的時間序列任務,與深度學習模型強大的特征提取和建模能力相結合,在處理順序任務時具有得天獨厚的優勢。為此,簡要分析傳統知識追蹤模型的特點及局限性,以深度知識追蹤發展歷程為主線,總結基于循環神經網絡、記憶增強神經網絡、圖神經網絡的知識追蹤模型及其改進模型,并對該領域的已有模型按照方法策略歸類整理。同時梳理了可供研究者使用的公開數據集和模型評估指標,比較和分析不同建模方法的特點。對基于深度學習的知識追蹤的未來發展方向進行探討和展望,奠定進一步深入基于深度知識追蹤研究的基礎。
摘要 預訓練技術當前在自然語言處理領域占有舉足輕重的位置。尤其近兩年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等預訓練模型的成功,進一步將預訓練技術推向了研究高潮。該文從語言模型、特征抽取器、上下文表征、詞表征四個方面對現存的主要預訓練技術進行了分析和分類,并分析了當前自然語言處理中的預訓練技術面臨的主要問題和發展趨勢。
摘要:隨著自然語言處理(NLP)領域中預訓練技術的快速發展,將外部知識引入到預訓練語言模型的知識驅動方法在NLP任務中表現優異,知識表示學習和預訓練技術為知識融合的預訓練方法提供了理論依據。概述目前經典預訓練方法的相關研究成果,分析在新興預訓練技術支持下具有代表性的知識感知的預訓練語言模型,分別介紹引入不同外部知識的預訓練語言模型,并結合相關實驗數據評估知識感知的預訓練語言模型在NLP各個下游任務中的性能表現。在此基礎上,分析當前預訓練語言模型發展過程中所面臨的問題和挑戰,并對領域發展前景進行展望。
隨著卷積神經網絡(Convolutional Neural Network,CNN)的不斷發展,目標檢測作為計算機視覺中最基本的技術,已取得了令人矚目的進展。介紹了強監督目標檢測算法對數據集標注精度要求高的現狀。對基于弱監督學習的目標檢測算法進行研究,按照不同的特征處理方法將該算法歸為四類,并分析比較了各類算法的優缺點。通過實驗比
較了各類基于弱監督學習的目標檢測算法的檢測精度,并將其與主流的強監督目標檢測算法進行了比較。展望了基于弱監督學習的目標檢測算法未來的研究熱點。
摘要: 群體智能系統擁有廣泛的應用前景. 當前的群體智能決策方法主要包括知識驅動、數據驅動兩大類, 但各自存在優缺點. 本文指出, 知識與數據協同驅動將為群體智能決策提供新解法. 文章系統梳理了知識與數據協同驅動可能存在的不同方法路徑, 從知識與數據的架構級協同、算法級協同兩個層面對典型方法進行了分類, 同時將算法級協同方法進一步劃分為算法的層次化協同和組件化協同, 前者包含神經網絡樹、遺傳模糊樹、分層強化學習等層次化方法, 后者進一步總結為知識增強的數據驅動、數據調優的知識驅動、知識與數據的互補結合等方法. 最后, 從理論發展與實際應用的需求出發, 指出了知識與數據協同驅動的群體智能決策中未來幾個重要的研究方向.
摘要: 形式化方法是在安全關鍵軟件系統中被廣泛采用而有效的基于數學的驗證方法,而智能合約屬于安全關鍵代碼,采用形式化方法驗證智能合約已經成為熱點研究領域.本文對自2015年以來的47篇典型相關論文進行了研究分析,對技術進行了詳細的分類研究和對比分析;對形式化驗證智能合約的過程中使用的形式化方法、語言、工具和框架進行綜述.研究表明,其中定理證明技術和符號執行技術適用范圍最廣,可驗證性質最多,很多底層框架均有所涉及,而運行時驗證技術屬于輕量級的新驗證技術,仍處于探索階段.由此我們列出了一些關鍵問題如智能合約的自動化驗證問題,轉換一致性問題,形式化工具的信任問題和形式化驗證的評判標準問題.本文還展望了未來形式化方法與智能合約結合的研究方向,對領域研究有一定的推動作用.
近年來,深度強化學習的取得了飛速發展,為了提高深度強化學習處理高維狀態空間或動態復雜環境的能力,研究者將記憶增強型神經網絡引入到深度強化學習,并提出了不同的記憶增強型深度強化學習算法,記憶增強型深度強化學習已成為當前的研究熱點.本文根據記憶增強型神經網絡類型,將記憶增強型深度強化學習分為了4類:基于經驗回放的深度強化學習、基于記憶網絡的深度強化學習算法、基于情景記憶的深度強化學習算法、基于可微分計算機的深度強化學習.同時,系統性地總結和分析了記憶增強型深度強化學習的一系列研究成果存在的優勢和不足.另外,給出了深度強化學習常用的訓練環境.最后,對記憶增強型深度強化學習進行了展望,指出了未來研究方向.