對比學習作為一種自監督式的深度學習范式,在計算機視覺、自然語言處理等領域取得了矚目的成績。受 這些成功的對比學習模型的啟發,近年來大量研究者嘗試將其拓展到圖數據上,這為推動圖對比學習的發展提供 了堅實的基礎。該領域現有的綜述主要關注于傳統的圖自監督學習任務,而缺少對圖對比學習方法的梳理和歸 納。為了更好地幫助相關領域的研究者,該文梳理了近些年來的圖對比學習模型,通過將現有工作歸納到一個統 一的框架下,突出其發展脈絡。最后該文總結了圖對比學習常用的數據集和評價指標,并展望了該領域未來的發 展方向。
1 引言
圖數據是一種描述物體和物體之間關聯關系的 抽象數據類型,它廣泛存在于各個領域。例如,在社 交網絡中,用戶和用戶之間的關注關系構成了社交 關系圖;在化學領域,原子和它們之間的化學鍵構成 了化合物分子圖;在物流領域,城市和它們之間的道 路構成了交通路網圖[1-2]。作為實際場景中最常見 的信息載體,圖數據蘊含著豐富信息,因此對圖數據 的分析研究具有重要的價值。能否很好地感知與理 解圖數據,從中挖掘有用的信息,是解決很多實際問 題的關鍵。例如,鏈接預測、節點分類、社區發現、推 薦 系 統、新 藥 發 現 等 都 是 與 圖 數 據 相 關 的 實 際問題[1-2]。 傳統的圖數據分析通常采用監督學習的框架,即 通過人為特征提取或端到端圖深度學習模型將圖數 據作為輸入,經過訓練后,挖掘圖數據中的有效信息, 輸出預測結果[3-4]。雖然這類圖監督學習方法在很多 任務上取得了顯著成功,但仍面臨著以下問題:①依 賴大量的人工標注數據;②由于過擬合導致泛化能 力差以及面向標簽相關的攻擊時模型魯棒性差[5]。 為了解決上述問題,不依賴于人工標注的自監 督學習正在成為圖深度學習的趨勢[1-2,6-7]。其中,對 比學習是一類重要的自監督學習方法,隨著其在計 算機視覺、自然語言處理等領域取得成功[8],如何將 對比學習應用在圖數據上,開始受到研究者的關注。 圖數據比語音、文本、圖像更加復雜,如何設計有效 的圖對比學習模型仍面臨著諸多挑戰。
為了更好地幫助該領域的發展,已有研究者梳 理了近些年來關于圖自監督學習的相關工作,并且 形成綜述[5,7,9-10]。但這些綜述主要關注傳統的圖上 自監督任務,并沒有針對圖對比學習的方法進行詳 細的梳理和分類。本文主要關注圖對比學習模型, 收集整理了近些年圖對比學習的工作。同時本文在 統一的框架下對比現有的方法,突出現有工作的異 同點及其發展脈絡,從而幫助研究者更好地梳理現 有工作,期望能激發對圖對比學習方法新的思考。 本文組織結構如下:第1節介紹圖對比學習問 題及其涉及的相關背景知識,并給出形式化定義; 第2節梳理了節點級的圖對比學習方法;第3節整 理了邊級別的圖對比學習;第4節整理了圖級別的 圖對比學習方法;第5節整理介紹了將圖對比學習 應用在更復雜場景下的拓展;第6節總結了常用的 評價數據集和評價指標;第7節分析整理了圖對比 學習現存的問題和未來可能的發展方向;最后一節 對全文進行了總結。
1 問題定義和相關背景
對比學習是一種判別式的學習方法,其目的是 讓相似的樣本學到相近的表示,同時讓不相似樣本 的表示互相遠離。對比學習在文本[19]、語音[20]、圖 像[21-25]等領域取得了顯著的效果提升,受到了廣泛 關注。對比學習在這些領域取得成功,為研究者設 計圖對比學習的框架打下了堅實的基礎。 圖對比學習期望學到一個編碼模型,使得相似 的節點(圖)經過編碼模型后得到相似的表示,不相 似的節點(圖)得到差異較大的表示。現有的方法可 以總結成一個統一的框架,如圖1所示,首先定義正 負例并利用正例生成器和負例生成器分別得到正負 樣本。接著將這些樣本輸入到編碼模型后得到對應 的表示。最后設計一個將正負樣本表示區分開的損 失函數,進行參數優化。 目前的圖對比學習方法在設計時主要關注:① 正負例的定義與產生方式;②編碼模型的架構;③損 失函數的形式。我們在圖1中用虛線框出了這三 部分。應用圖對比學習的典型范式如圖2所示,包括 無監督表示學習、無監督預訓練、輔助學習三種方 式[6]。其中,無監督表示學習和無監督預訓練是兩 階段的訓練范式,輔助學習是一階段聯合優化的訓 練范式。無監督表示學習利用對比學習為每個節點 (或圖)學習向量表示。接著固定這些表示作為輸入 去訓練模型解決下游任務。無監督預訓練范式,同 樣先用對比學習無監督地學習一個編碼器。但在解 決下游任務時,不僅利用標簽信息更新預測層的參 數,同時也微調編碼器的參數。輔助學習范式是指 在主任務損失函數的基礎上添加對比學習損失作為 正則項,聯合優化這兩項損失函數進行參數更新。
2 節點級圖對比學習方法
正負例 的 定 義 是 現 有 的 圖 對 比 學 習 方 法 關 鍵,不同的定 義 方 式 需 要 不 同 的 編 碼 模 型 和 損 失 函數。根據對比類型可以將現有方法分成實例對 比和跨級別對比兩類。實例對比是指同一個樣本 的不同增強 樣 本 之 間 的 對 比,跨 級 別 對 比 是 指 不 同 級 別 對 象 之 間 的 對 比,例 如,節 點 級 對 象 和 子 圖級對 象 的 對 比。 同 時,對 于 每 一 個 模 型,將 從 正負例的 定 義 與 產 生 方 式 以 及 損 失 函 數 的 形 式 兩個方 面 進 行 介 紹。 表 1 總 結 了 本 節 介 紹 的 圖 對比學習框架,并且 對 比 了 不 同 模 型 使 用 的 增 強 方式。
3 邊級別圖對比學習
在現實的圖中,節點往往表現出同質性,即在圖中 相近的節點往往具有相似的性質[1]。例如,存在引用 關系的論文往往屬于同一個領域;在社交網絡中兩個 用戶共同好友越多,他們是好友關系的可能性就越高。
4 圖級別圖對比學習
圖級別的對比學習框架在近些年來也受到了廣 泛的關注,其在生物、化學、醫藥領域發揮了關鍵的 作用。但該領域處于剛起步的節點,因此相比于節 點級的對比學習,圖級別對比學習的研究工作相對 較少。 You等人[53]提出的 GraphCL是將基于實例的 節點級圖對比學習框架應用到圖級別對比學習上的 典型模型,其框架如圖13所示。
5 圖對比學習的拓展
前文介紹 了 同 質 網 絡 上 的 圖 對 比 學 習 框 架, 而現實中的 圖 數 據 往 往 具 有 復 雜 的 結 構,無 法 直 接應用上述的圖對比學習模型。因此一些研究者 開始將 圖 對 比 學 習 拓 展 到 不 同 類 型 的 圖 上。 此 外,在實際場景中往往會伴隨著監督信息,如何將 圖對比學習框架和監督信息結合也是一個重要的 拓展方向。
6 圖對比學習方法的評價
不同的圖對比學習方法的優劣,往往通過其在 下游任務上的表現來評判。常見的下游任務在1.4 節中已經進行了說明,本節主要介紹常用的節點級 任務的數據集和圖級任務的數據集以及評價指標。
7 挑戰與未來展望
圖對比學習框架在節點級任務、邊級任務和圖 級任務上都取得了成功,但目前仍有如下一些問題 待解決。
7.1 圖增強操作
圖數據的增強是圖對比學習框架中非常重要的 組成部分,其為節點/圖提供了更加豐富的上下文信 息,從而幫助節點/圖學到更優質的表示。在圖像領 域,可以比較容易地確定增強后的圖片仍然與原圖 片反映同一類別的物體。由于圖數據本身就是一種 抽象的數據結構,應用現有的增強操作(如增邊刪 邊,隱藏部分特征維度)后,難以直觀判斷原來的節 點/圖是否保持類別不變。因此設計增強后類別保 持不變的圖增強操作是未來重要的發展方向。此外 如何判斷哪種數據增強的方式是對于對比學習有效 的,也是一個重要方向。已有工作試圖尋找在圖像 領域哪種增強是有效的[68],但在圖領域仍然等待被 探索。
7.2 基于圖對比學習的預訓練模型
預訓練旨在通過自監督學習從大量數據中學到 通用的語義信息,并將學到的知識遷移到下游的任 務中。目前預訓練模型在很多領域都取得了最佳的 效果,具有巨大的發展潛力。圖對比學習方法為圖 上的大規模預訓練奠定了很好的框架基礎。 然而,現有的圖對比學習主要關注于在同一圖 上模型遷移到下游任務上的效果[34,35,39-42,52]。這些 模型未考慮模型跨數據集遷移的能力。雖然近年來 有研究提出了具有一定跨數據遷移能力的圖對比學 習模型[45],但該方法只適用于沒有屬性的同質信息 網絡,局限性較大。因此如何設計具有跨數據集遷 移能力的圖對比學習模型是未來大規模圖預訓練應 用中亟待解決的重要問題。
7.3 對比學習的理論分析
雖然對比學習的框架在很多領域都取得了顯著的提升,但是該框架為何能提升表示的質量,以及其 和下游任務之間有什么關聯、什么樣的對比任務更 有效等仍然值得探索。雖然在圖像領域有工作開始 分析對比學習有效的原因[69-70],但在圖數據領域的 理論分析仍然是空白的。
7.4 實際場景的應用
如何將圖對比學習應用在實際場景中提升實際 任務的效果,也是一個潛力巨大的方向。目前有研 究者嘗試在推薦系統[71-73]、藥物分類[74-75]領域利用 圖對比學習解決某些關鍵問題。因此,如何利用圖 對比學習解決更多實際的圖分析問題是具有重大研 究意義的方向。
7.5 大規模圖上對比學習
現有的圖對比學習往往需要大量的負樣本,才 能學好節點/圖表示。但在實際的場景中,圖的規模 往往非常的巨大。因此大量的負樣本需要巨大的內 存和計算代價。在圖像領域已經有一些工作去探索 如何利用更少的負樣本[76],或者不使用負樣本的方 式來減少計算代價[46,77]。因此如何設計適用于大 規模網絡的圖對比學習也是未來發展方向之一。
7.6 更公平的方法對比
本文從方法上對比了不同圖對比學習框架的異 同。但由于不同模型適用的數據集不同,實驗設定 上也有差異,從而導致難以從實驗結果上判定哪個 框架更有效。但是從實驗上對比不同模型的優劣對 于圖對比學習的發展有著至關重要的作用。因此設 計一個基準實驗框架,更公平地對比不同方法也是 一個重要的方向。
8 結束語
基于深度學習的圖分析方法在很多任務上取得 顯著的效果,而做好節點/圖表示是其中的關鍵。近 年來基于對比學習的表示學習框架在圖像等領域取 得了成功,這為圖對比學習框架提供了堅實的基礎。 本文對近年來出現的圖對比學習框架進行了分析總 結,將圖對比學習框架總結成三個重要的部分,分別 是正負例的定義方式、編碼器模型的設計以及損失 函數的設計三個部分。 本文圍繞圖對比學習展開,梳理總結了近些年 來重要的圖對比學習工作,同時提出了一些仍未被 很好解決的問題,以及未來可能的研究方向,嘗試為研究人員建立一個較完整的研究視圖,希望能為進 一步推進該領域的研究提供一定的幫助。
現代深度神經網絡,特別是近期的大型語言模型,都具有巨大的模型規模,需要大量的計算和存儲資源。為了使現代模型能夠在資源受限的環境中部署并加速推斷時間,研究人員越來越多地探索剪枝技術作為神經網絡壓縮的熱門研究方向。從2020年到2022年,每年都有超過一千篇關于剪枝的論文被發表。然而,缺乏對剪枝的最新綜述。
為了解決這個問題,在這篇綜述中,我們對深度神經網絡剪枝的現有研究進行了全面審查,按以下幾類進行分類:1) 通用/特定加速,2) 何時剪枝,3) 如何剪枝,以及4) 剪枝與其他壓縮技術的融合。我們接著對剪枝的七對對比設置(例如,無結構/有結構,一次性/迭代,無數據/數據驅動,初始化/預訓練權重等)進行了深入的比較分析,并探索了一些新興話題,如后訓練剪枝、剪枝的不同級別監督等,以揭示現有方法的共同點和差異,并為進一步的方法開發奠定基礎。
最后,我們為選擇剪枝方法提供了有價值的建議,并展望了神經網絡剪枝的一些有前景的研究方向。為了方便未來關于深度神經網絡剪枝的研究,我們總結了廣泛的剪枝應用(如對抗性魯棒性、自然語言理解等),并構建了一個包含數據集、網絡和不同應用評估的精選集合。我們在//github.com/hrcheng1066/awesome-pruning上維護了一個資源庫,作為神經網絡剪枝論文和相應開源代碼的綜合資源。我們會持續更新這個資源庫,以包括該領域的最新進展。
深度神經網絡剪枝
過去的幾年中,深度神經網絡(DNNs)在各種領域和應用中都取得了顯著的進展,例如計算機視覺(CV)[1, 2, 3]、自然語言處理(NLP)[4]和音頻信號處理(ASP)[5]等。盡管DNNs在各個領域都取得了卓越的成功,但它們的性能在很大程度上依賴于模型參數和計算成本。例如,廣泛使用的ResNet-50 [6] 需要超過95MB的存儲空間,包含超過2300萬的可訓練參數,并需要4 GFLOPs(吉浮點運算)的計算[7]。在ImageNet [1]上訓練的VGG-16 [2]的大小超過了500 MB [8]。Transformer網絡GPT-3模型包含了高達1750億的參數[9],而GPT-4模型則更多。預計放大神經網絡大小的當前趨勢將持續。
然而,DNNs的參數越多,通常在處理輸入時所需的時間和內存空間也就越多[10]。這些模型的高訓練和推斷成本給其在受到計算資源(如CPU、GPU和內存)、能量和帶寬限制的設備上的部署帶來了重大挑戰[11, 12, 13]。例如,現實生活中的應用,如自動駕駛、野外救援和防止灌木叢火災,都需要高準確度和高效的資源使用,包括快速的實時響應和緊湊的內存占用。深度神經網絡的計算復雜性和內存占用可能使它們不適合在邊緣設備上部署[14]。隨著近年來大型語言模型的流行,人們對于為具有靈活硬件需求的計算機壓縮神經網絡的興趣也在增長[15]。此外,包含冗余特征的深度神經網絡可能會削弱其魯棒性,增加遭受對抗攻擊的風險[16]。例如,這些網絡創建的高維特征空間可以為對抗攻擊提供更多的入口點,從而削弱網絡超出其原始訓練數據的泛化能力。
為了緩解這一問題,研究人員提出了各種神經網絡壓縮技術來設計輕量級模型,包括神經網絡剪枝([17])、權重矩陣的低秩分解([18, 19])、量化([11, 20])、知識蒸餾([21])、神經架構搜索([22, 23])以及其他壓縮技術([24, 25])。其中,人們對神經網絡剪枝持續關注,已經被證明是一種理想且有效的方法,在推斷時節省內存空間和計算時間,同時保持與原始DNNs相當甚至更好的性能。如圖1所示,從2015年到2022年,關于剪枝的論文數量已經顯著增加。它占了神經網絡壓縮論文的一半以上。
關于剪枝的研究可以追溯到1988年的文獻[26]。然而,直到[11]的出現,研究界才意識到剪枝在去除深度神經網絡中的大量冗余方面的潛力,剪枝開始受到廣泛關注。如表1所示,有一些文獻對深度神經網絡剪枝的先前工作進行了回顧。盡管這些工作對剪枝的幾個方面進行了概述,并為研究人員提供了有益的指導,但其中許多文獻([8, 27, 28, 29])關注于多種壓縮技術,如剪枝、量化和知識蒸餾,并只簡要檢查每種技術。例如,Mishra等人[27]總結了包括剪枝、量化、低秩分解和知識蒸餾在內的壓縮技術,其中剪枝主要是從通道/濾波器剪枝中引入的,而許多基本的剪枝技術(如彩票假設)并未包括。一些回顧性工作(如[30])重點回顧卷積神經網絡的剪枝,并缺乏對其他深度神經網絡的剪枝描述,如循環神經網絡(RNNs)。[31]中的工作提供了對深度學習中的稀疏性的全面回顧,但對于新興的剪枝方法的研究很少,例如對比學習中的剪枝[32]和自監督剪枝[33]等。王等人[34]僅為初始化時的剪枝提供了概述,并未包括在訓練期間、訓練后等的剪枝研究。[35]是關于剪枝的最新綜述,但只關注于結構化剪枝。
本綜述旨在為各種讀者提供關于深度神經網絡剪枝的全面概述。我們回顧了代表性的剪枝方法,提出了一個新的分類方法,對不同的剪枝方式在實踐中的表現進行了全面分析,并為希望利用剪枝的實踐者提供了關于如何選擇適合不同要求的剪枝方法的建議。我們的貢獻如下:
(1)** 全面回顧。據我們所知,這篇綜述是關于現代深度神經網絡剪枝技術的最全面的概述**。它從超過300篇相關的學術論文中提煉出思想,并建立了一個新的分類法,如圖2所示。此外,我們為每一類剪枝方法的代表性方法提供了詳細的描述。
(2) 比較實驗和分析。我們對剪枝的七對對照設置以及新興進展進行了比較分析,包括剪枝的不同監督層次。與現有的剪枝綜述不同,本文進行了實驗和相關討論。
(3)** 收集豐富的資源**。我們總結了各種剪枝應用,并為不同應用提供了基準數據集、網絡和評估。我們在附錄B中收集的資源可以指導研究人員和實踐者了解、利用和為不同的需求開發不同的網絡剪枝方法。代表性剪枝工作的持續更新可在 上查看。
(4) 建議和未來方向。這篇綜述為選擇適合不同應用需求的適當剪枝方法提供了有價值的建議,并突出了有前途的未來研究方向。
本綜述的其余部分組織如下。首先,在第2節,我們解釋常用的術語并建立一個清晰的剪枝分類法。第3-6節提供了關于加速、何時剪枝、如何剪枝的概述,接著在第7節對不同類型的剪枝方法進行了全面的比較分析。第8節討論了與其他壓縮方法的剪枝整合。第9節提供了選擇剪枝方法的一些建議和未來的方向。我們在第10節結束這篇文章。
近年來深度學習在計算機視覺 (CV) 和自然語言處理 (NLP) 等單模態領域都取得了十分優異的性能. 隨著 技術的發展, 多模態學習的重要性和必要性已經慢慢展現. 視覺語言學習作為多模態學習的重要部分, 得到國內外 研究人員的廣泛關注. 得益于 Transformer 框架的發展, 越來越多的預訓練模型被運用到視覺語言多模態學習上, 相關任務在性能上得到了質的飛躍. 系統地梳理了當前視覺語言預訓練模型相關的工作, 首先介紹了預訓練模型 的相關知識, 其次從兩種不同的角度分析比較預訓練模型結構, 討論了常用的視覺語言預訓練技術, 詳細介紹了 5 類下游預訓練任務, 最后介紹了常用的圖像和視頻預訓練任務的數據集, 并比較和分析了常用預訓練模型在不同 任務下不同數據集上的性能.
//www.jos.org.cn/jos/article/abstract/6774
機器學習的目標是讓機器像人一樣感受世界和理解世界. 正如人的感官能去感知一樣, 多模態機器學習旨在 處理和理解不同模態 (諸如視覺、語言、聽覺等) 交織融合的信息. 從過去到現在, 研究者們已經做出了很多單模 態學習的工作, 諸如人臉識別、目標檢測等, 并從科學研究擴展到產業落地, 最后服務于生活. 但是隨著深度學習 技術的發展, 多模態學習慢慢展現出其重要性和必要性[1] . 作為人類生活中最重要的文化載體, 視覺和語言在多模 態學習領域承載著十分重要的一部分, 在近幾年里, 視覺語言多模態學習也得到了廣泛地關注和飛速地發展. 通 常, 參數較大的模型往往需要大量的標注數據來進行訓練, 但由于多模態標注技術、標注成本等一系列因素的制 約, 高質量的標簽數據始終比較缺乏, 這也給模型的性能提升帶來了瓶頸. 2017 年美國谷歌公司研究人員提出 Transformer[2]的基礎框架, 用于解決這個問題. Transformer 模型首先通過 自監督學習進行預訓練, 通過一系列的任務來從大規模的無標注數據中挖掘監督信息以訓練模型, 從而來學習數 據的一般化表征. 然后對于不同的下游任務只需要采用少量的人工標注的數據進行微調就能達到優異的效果, 預 訓練流程見圖 1 所示. 在自然語言處理 (NLP) 領域中, BERT[3]的出現后, 各種預訓練任務便如雨后春筍般涌現出 來, 諸如 GPT[4]系列, MASS[5]等. 不僅僅局限在 NLP 領域, 計算機視覺 (CV) 領域中也出現了許多杰出的預訓練方 法, 比如 ViT[6]等. 與此同時, 模型預訓練技術也在多模態領域得到了研究人員越來越多的關注, 特別是在視覺-語 言聯合表征學習方面, 預訓練模型在各種下游任務上都取得了優異的性能.
如后文圖 2 所示, 本文將圍繞視覺語言預訓練模型展開介紹, 并通過以下 6 個重要方面詳細介紹和討論視覺 語言預訓練模型的最新進展: 首先介紹視覺語言預訓練模型的相關知識, 包括 Transformer 框架、模型預訓練范式 和視覺語言預訓練模型常見網絡結構; 其次介紹 3 類模型預訓練任務, 通過這些任務, 網絡模型可以在無標注的情 況下進行跨模態的語義對齊; 然后我們將從圖像-文本預訓練和視頻-文本預訓練兩個方面分別來介紹最新的工作 進展; 同時我們也將對預訓練模型的下游任務進行分類和介紹; 接著將介紹廣泛使用的圖像文本和視頻文本的多 模態數據集, 并比較和分析了常用預訓練模型在不同任務下不同數據集上的性能; 最后對視覺語言預訓練進行總 結和展望.
** 1 介 紹 **
在本節中, 我們將介紹與視覺、語言預訓練相關的背景基礎知識. 第 1.1 節將介紹 Transformer 的關鍵機制和 結構; 第 1.2 節將介紹當前比較流行的預訓練范式, 包括預訓練-微調學習和預訓練-提示語學習; 第 1.3 節從兩個 不同的角度介紹了當前視覺語言預訓練的模型結構.
**1.1 Transformer **
Transformer[2]最早在自然語言處理 (NLP) 領域提出, 并在各種任務上表現出很好的性能. 在此之后, 它也被成 功應用于其他領域, 從語言再到視覺領域. 如圖 3 所示, 一個標準的 Transformer 由幾個編碼器塊和解碼器塊組成. 每個編碼器塊包含一個自注意 (self-attention[2] ) 層和一個前饋 (feed forward) 層. 不同于編碼器塊, 每個解碼器塊除 了自注意力層和前饋層外, 還包含一個編解碼注意力層。
**1.2 預訓練范式 **
**1.2.1 預訓練-微調 (pretrain fine-tuning) **
預訓練-微調已經成了經典的預訓練范式. 其做法是: 首先以監督或無監督的方式在大型數據集上預訓練模型, 然后通過微調將預訓練的模型在較小的數據集上適應特定的下游任務. 這種模式可以避免為不同的任務或數據集從頭開始訓練新模型. 越來越多的實驗證明, 在較大的數據集上進行預訓練有助于學習通用表征, 從而提高下游任 務的性能. GPT[4]在對有 7 000 本未出版書籍的 BooksCorpus 數據集[10]進行預訓練后, 在 9 個下游基準數據集 (如 CoLA[11]、MRPC[12]上獲得平均 10% 的性能大提升. 視覺模型 ViT-L/32[6]在對擁有 3 億張圖像的 JFT-300M[13]進行 預訓練后, 在 ImageNet[14]的測試集上獲得了 13% 的準確率提升. 目前, 預訓練微調范式在 NLP 和 CV 領域都在如火如荼展開工作, 多模態領域也不例外, 大量優秀的工作在 此誕生, 包括圖像-文本和視頻-文本領域.
1.2.2 預訓練-提示 (pretrain prompt)
提示學習起源于 NLP 領域, 隨著預訓練語言模型體量的不斷增大, 對其進行微調的硬件要求、數據需求和實 際代價也在不斷上漲. 除此之外, 豐富多樣的下游任務也使得預訓練-微調階段的設計變得繁瑣復雜, 提示學習就 此誕生. 在預訓練-提示范式中通常使用一個模板來給預訓練模型提供一些線索和提示, 從而能夠更好地利用預訓 練語言模型中已有的知識, 以此完成下游任務. 在 GPT-3[15]中, 所有任務都可以被統一建模, 任務描述與任務輸入視為語言模型的歷史上下文, 而輸出則為語 言模型需要預測的未來信息, 通過給予模型一些提示語, 讓模型根據提示語來生成所需要的輸出, 這種方式也被稱 為是情景學習 (in-context learning). Prefix-Tuning[16]摒棄了人工設計模板或自動化搜索模板的方式, 提出了任務特 定的可訓練前綴. P-tuning V1[17]首次提出了用連續空間搜索的嵌入來做提示語. P-tuning V2[18]引入深度提示編碼 (deep prompt encoding) 和多任務學習 (multi-task learning) 等策略進行優化, 解決 V1 版本在一些復雜的自然語言 理解任務上任務不通用和規模不通用的問題. 提示學習相對于微調的優勢在于: 1) 計算代價非常低. 由于整個模型的參數都是固定的, 并不需要對模型中所 有的參數進行微調. 2) 非常節省空間. 在使用預訓練模型進行微調時, 每個不同的下游任務的參數都會相應改變, 因此每個任務都需要進行存儲, 而提示學習則不需要. 基于這些優勢, 提示學習已經稱為了 NLP 領域的又一大研 究熱點, 預訓練-提示也作為繼預訓練-微調的又一大范式, 處處嶄露頭角. 在多模態領域也慢慢燃起了提示學習之 火, 諸如 CLIP[19] , CPT[20]等出色的工作應運而生.
**1.3 模型結構 **
在本節中, 我們從兩個不同的角度介紹視覺語言預訓練模型的體系結構: (1) 從多模態融合的角度對比單流結 構與雙流結構. (2) 從整體架構設計的角度對比僅編碼結構和編碼-解碼結構.
**2 預訓練任務 **
本節將介紹如何使用不同的預訓練任務對視覺語言預訓練模型進行預訓練, 這對于模型學習視覺語言的一般 化表征至關重要. 我們將預訓練任務歸納為 3 類: 補全型、匹配型、其他型. 補全型任務通過利用未被掩碼的剩余信息來理解模態, 從而重建補全被掩碼的元素. 匹配型任務是將視覺和語言統一到一個共同的潛在空間中來生成一個一般化的視覺-語言表達. 其他型任務的內容中包含了其他預訓練任務.
**3 視覺語言多模態模型介紹 **
視覺和語言是人類感知世界的兩個重要方面, 因此訓練神經網絡模型處理多模態信息對于人工智能的發展有 著重要的意義. 近年來, 許多研究工作通過對其視覺和語言的語義信息實現了各種跨模態任務. 其中圖像文本預訓 練和視頻文本預訓練得到了最廣泛的研究. 本節我們將介紹圖像-文本預訓練和視頻-文本預訓練兩個方面近年來 的最新進展.
**4 下游任務 **
多樣化的任務需要視覺和語言的融合知識. 在本節中, 我們將介紹此類任務的基本細節和目標, 并將其分為 4 類: 分類、檢索、生成和其他任務. 常見視覺語言預訓練模型 對應分類型下游任務如表 3 所示, 包括視覺問答 (VQA), 自然語言視覺推理 (NLVR), 視覺常識推理 (VCR) 和視覺 推理和組合式問答 (GQA), 由于視覺語言預訓練任務所包含的下游任務繁多, 表 3 中僅節選出最為常見的下游任 務進行性能的統計與比較.
視覺-語言檢索 (vision-language retrieval, VLR). VLR 涉及對視覺 (圖像或視頻) 和語言的理解, 以及適當的匹 配策略. 它包括兩個子任務: 從視覺到文本和從文本到視覺的檢索, 其中視覺到文本檢索是根據視覺從更大的描述庫中獲取最重要的相關文本描述, 反之亦然. 常見視覺語言預訓練模型對應檢索型下游任務如表 4 所示, 包括視覺語言檢索和零樣本 (zero-shot) 的視覺-語言檢索。
視覺描述 (visual captioning, VC). VC 旨在為給定的視覺 (圖像或視頻) 輸入生成語義和句法上合適的文本描 述. 大規模新物體描述 (novel object captioning at scale, NoCaps): NoCaps[74]擴展了 VC 任務, 以測試模型描述來自 Open Images 數據集的新物體的能力, 這些物體都未曾在訓練語料庫中出現過. 視覺對話 (visual dialogue, VD): 常見視覺語言預訓練模型對應生成型下游任務如表 5 所示, 包括視覺描述和大規模新物體描述. 其中, CIDEr、BLEU-4、METEOR、SPICE 為 4 個評價生成語句的指標.
**5. 總結和展望 **
在本文中, 首先我們介紹了視覺語言預訓練模型的相關知識, 包括 Transformer 框架、預訓練范式和視覺語言 預訓練模型常見網絡結構; 其次我們介紹了 3 類模型預訓練任務, 通過這些任務, 網絡模型可以在無標注的情況下 進行跨模態的語義對齊; 然后我們從圖像-文本預訓練和視頻-文本預訓練兩個方面分別介紹了最新的工作進展, 并介紹了預訓練模型的下游任務; 最后我們介紹了廣泛使用的圖像文本和視頻文本的多模態數據集, 并比較和分 析了常用預訓練模型在不同任務下不同數據集上的性能. 視覺語言預訓練在飛速發展的同時也取得了許多非常不 錯的成果, 未來視覺語言預訓練模型的發展方向可以借鑒如下. (1) 計算資源. 目前視覺語言預訓練工作仍然需要極大的算力資源做支撐. 2019 年以來, 視覺語言預訓練工作 大部分都是產自于工業界, 需要使用數十上百張顯卡進行訓練, 導致部分研究人員沒有足夠的計算資源對其展開 研究, 而且難以對這些大規模工作進行驗證. 如何在資源受限的情況下進行視覺語言預訓練研究, 是一個很有研究 價值的問題. (2) Prompt. 預訓練-提示范式在 NLP 領域引起了一波研究熱潮, 我們在第 1.2.2 節已經對其進行了介紹. 提示 相對于微調的優勢在于: 1) 計算代價低. 2) 節省空間. 目前已有少數工作對其進行展開了研究, 諸如 CLIP, CPT 等, 并且取得了不錯的效果. 預訓練-提示范式目前還在探索階段, 未來將會有更多更有意義的工作出現. (3) 多模態融合. 之前大多數的多模態預訓練工作都是強調視覺和語言這兩個模態進行建模, 但是忽略了其他 模態 (比如音頻等) 信息. 其他模態信息往往也對跨模態學習有著重要的意義, 因此研究更多模態信息建模的工作 是具有研究價值和挑戰性的.
基于深度學習的表情動作單元識別是計算機視覺與情感計算領域的熱點課題.每個動作單元描述了一種人臉局部表情動作,其組合可定量地表示任意表情.當前動作單元識別主要面臨標簽稀缺、特征難捕捉和標簽不均衡3個挑戰因素. 基于此,本文將已有的研究分為基于遷移學習、基于區域學習和基于關聯學習的方法,對各類代表性方法進行評述和總結. 最后,本文對不同方法進行了比較和分析,并在此基礎上探討了未來動作單元識別的研究方向.
//www.ejournal.org.cn/article/2022/0372-2112/0372-2112-2022-50-8-2003.shtml
近年來,“以人為本,服務于人”得到人工智能研究越來越廣泛的關注,面部表情是人類情感最自然和直接的表現方式,對其的分析和識別[1~3]是計算機視覺與情感計算領域的熱門研究方向,在醫療健康[4]、公共安全[5]等領域具有廣泛的應用前景.由于人們在日常生活中較少表現大幅度的面部動作,更多是通過局部細微表情來表達情感,如悲傷時眉毛下垂、驚訝時張開嘴,因此許多工作關注對局部表情動作而不僅僅是整體表情的識別.
人臉動作編碼系統(Facial Action Coding System,FACS)[6,7]定義了幾十個表情動作單元(Action Unit,AU),是目前描述人臉局部細微表情最全面和客觀的系統之一.如圖1所示,快樂、悲傷、驚訝等整體表情被定量地解析為多個AU的組合,每個AU是一個基本面部動作,與一或多個人臉局部肌肉動作有關.在一個人臉表情中,可能只出現一個AU,也可能同時出現多個AU.雖然FACS只定義了幾十個AU,但是每個AU具有從低到高的多個強度級別,因而AU的組合可表示7 000種以上真實存在的表情[8],滿足了精細刻畫表情的需要.
圖1 整體表情與AU的關系示例
深度學習在計算機視覺的各個領域都獲得了巨大成功,近些年越來越多的人臉表情識別工作采用深度神經網絡,基于其強大的特征提取能力,顯著提升了表情識別的精度.然而早期的人臉表情識別綜述[9~11]主要介紹傳統的非深度學習方法,由于這類方法采用人工設計的特征,限制了表情識別的性能.近年來,Corneanu等人[12]總結了基于RGB圖像、3D、熱成像或多模態數據的人臉表情識別工作,Li等人[13]將討論范圍限定在基于深度學習的方法.然而,上述綜述僅關注識別整體表情的工作,忽視了表情AU識別.另外,賁晛燁等人[14]和徐峰等人[15]對微表情識別進行了綜述,但也沒有關注AU識別.Martinez等人[16]和Zhi等人[17]雖然詳細回顧了AU識別工作,但其中大部分仍是基于傳統的非深度學習方法. 鑒于此,本文主要討論基于深度學習的表情AU識別工作,對這一領域的代表性方法進行分類、評述和總結,彌補現有人臉表情識別綜述的不足.本文接下來首先介紹AU識別的問題定義、挑戰和評測數據集,然后從遷移學習、區域學習和關聯學習3個角度對已有工作進行概述,之后將一些主流AU識別方法的性能進行了比較,最后探討了AU識別未來的研究趨勢.
人臉表情出現時,一些局部區域會發生肌肉動作.人臉動作編碼系統(FACS)[6,7]基于人臉解剖學所劃分的局部肌肉,定義了一個基本面部動作即動作單元(AU)的集合.每個AU涉及一個或多個局部肌肉,具有0,1,2,3,4,5這6個強度級別,其中0表示不出現而5則表示出現的強度最大,因而可以客觀且定量地描述人臉精細表情.圖2展示了常見的27個AU的示例圖片及定義,其中9個AU出現在上半臉,18個AU出現在下半臉.可以發現,每個AU都是一種局部的面部動作,刻畫了細微表情.形式化地,任一人臉表情可以由這些AU出現的強度所構成的向量
來表示,其中未出現的AU的強度即為0.
圖2 常見的27個AU的示例圖片及定義[6,18]
表1列出了每類整體表情中可能出現的AU[16],這些AU同時出現或部分同時出現于整體表情,例如快樂表情可以由AU 6,AU 12和AU 25的組合來表示,悲傷表情可以由AU 1,AU 4,AU 6和AU 17的組合來表示.值得注意的是,人們在意識到自身表露出一種可能不合適的表情時經常會試圖抑制它來隱藏真實的情緒,而只要試圖掩蓋原來的表情其面部便會自發地出現微表情(Micro-Expression)[19].微表情的持續時間很短,一般的界定標準為持續時間不超過500 ms[20],這是其區別于宏表情(Macro-Expression)的主要特征[21].微表情也可以用AU的組合進行描述,表2具體定義了每類微表情對應的AU組合[22],其中I,II,III,IV,V和VI類分別與快樂、驚訝、憤怒、厭惡、悲傷和恐懼相關,VII類與蔑視等其他微表情相關.例如,微表情I類可以由AU 6,AU 7和AU 12的組合或單個AU 6來表示.因此,研究AU識別對微表情識別同樣具有重要意義.
經過觀察,AU 的組合可以形成 7 000 多種真實存 在的表情[8] . 在某一人臉表情中,可能單獨出現一個 AU,也可能同時出現多個 AU. 當多個 AU同時出現時, 若它們是可加性的(Additive),則 AU 的組合出現并不 改 變 各 AU 的 外 觀 ;若 它 們 是 不 可 加 性 的(NonAdditive),即它們的肌肉動作存在交疊區域,會融合成 新的肌肉動作,則各 AU 的外觀會被改變 . 此外,一些 AU 組合如 AU 1 和 AU 4 在悲傷和恐懼表情中都會出 現,比其他組合出現的頻率更高. 另外,某些AU之間是 相互排斥的,如 AU 1 和 AU 7,兩者不會同時出現在任 一表情中,若一個AU出現則另一個AU不會出現。
2. 2 基于深度學習的AU識別的定義
基于深度學習的 AU 識別主要包含 3 個環節,即人 臉檢測、人臉對齊和 AU 識別,如圖 3 所示 . 人臉檢測 指在輸入圖像上檢測人臉的位置;人臉對齊指基于人 臉配準所定位的面部特征點對人臉進行變換,使得變 換后人臉與參照人臉(一般為平均臉)的對應特征點位 置相同或相近;AU 識別是基于深度神經網絡實現,無 須額外提取人工設計的特征,其從每張對齊后的人臉 圖像所提取的特征都對應于相同的面部語義位置,這有利于提升網絡的特征學習以及進一步的分類或回歸 能力 .
AU作為出現在面部局部區域的細微表情動作,較難被準確捕捉,且人工地對其標注也較困難,因此基于深度學習的AU識別主要面臨如下3個挑戰因素.
(1)標簽稀缺性:AU需要由經過培訓的專家來標注,且標注過程較耗時,因而人工標注的成本很高[6],使得目前大多數被標注的數據集規模較小、樣本多樣性較低.由于深度學習方法通常需要大量的訓練數據,因此標簽稀缺性是限制模型精度的重要因素.
(2)特征難捕捉性:AU是非剛性的,其外觀隨人和表情的變化而變化,且每個AU的形狀不規則、不同AU的大小一般不相同.而且,人臉表情中時常會同時出現2個以上具有交疊區域的AU,存在不可加性,例如AU 1和AU 4在圖1的悲傷表情中同時出現,它們會改變各自原來的外觀,融合成新的面部肌肉動作.這些都導致各AU所關聯的局部表情細節難以被準確地捕捉.
**(3)**標簽不均衡性:在人們經常表現的表情中,某些AU出現的頻率比其他AU更高,且每一AU出現的頻率時常低于不出現的頻率,即AU的標簽具有不均衡性,而當前AU數據集規模小、多樣性低的情況加劇了這種不均衡性.這些導致了AU識別模型對多個AU同時預測時容易偏向于提升出現頻率較高AU的精度,而其他AU的精度則受到抑制,且容易偏向于將AU預測為不出現. 盡管深度學習顯著提升了AU識別的性能,上述挑戰仍是導致AU識別精度較低、不同AU精度差異較大的主要因素,如何克服這樣的挑戰是當前AU識別研究的熱門方向.
自FACS[6,7]被提出以來,學術界克服AU數據采集、標注的困難,發布了多個AU數據集,促進了AU識別技術的發展.早期的數據集,如CK[25]和MMI[18],是在受控環境下采集的具有良好光照和簡單背景的正面或近似正面的人臉圖片,受試者被要求人為地顯露出指定的面部表情.最近十年,研究人員更多地關注受試者被誘發而自發產生的表情,代表性數據集包括受控環境下采集的BP4D[26]和DISFA[27]等.近年來,學術界發布了幾個非受控場景下采集的數據集,如EmotioNet[28]和Aff-Wild2 (AU Set)[29],其包含的圖片來自互聯網等野外(Wild)場景,在光照、遮擋、姿態等方面變化多樣. 本文接下來對一些流行的AU數據集進行介紹,由于數據集的采集環境(受控、非受控)、表情激發方式(人為、自發)、樣本多樣性(人臉身份數、圖片或視頻數)、數據形式(2D,3D)都會影響模型的訓練效果,表3對數據集的這些屬性進行了總結.此外,圖4展示了這些數據集的示例圖片.
針對標簽稀缺性,可以利用遷移學習將有用的知識遷移到當前任務;針對特征難捕捉性,可以從準確捕捉AU的關聯區域從而提取AU特征來切入;針對標簽不均衡性,可以考慮利用AU間的關聯對不均衡的AU進行平衡.本文接下來分別予以介紹.
遷移學習的目標是彌補有人工標簽的訓練樣本的不足,將相關聯的樣本、標簽、模型或先驗知識等遷移過來,提升當前任務的模型性能.
最常見的遷移學習方法是在當前數據集上微調其他圖像數據集上預訓練的模型,由于不同類型的圖像時常具有相似的顏色分布和背景環境等屬性,預訓練模型所攜帶的知識也有利于當前模型的訓練.Zhou等人[40]基于一個在ImageNet[41]上預訓練的VGG16[42]網絡,實現AU強度估計和頭部姿態估計.Ji等人[43]在整體表情識別和人臉識別這2個與AU相關聯任務的數據集上分別預訓練ResNet-34網絡[44],接著在AU數據集上分別微調2個網絡,并將2個網絡預測的AU出現概率取平均作為最終的預測值.預訓練的數據集與當前數據集之間存在域(Domain)差異,且微調過程可能會丟失一些有用信息,因而限制了微調預訓練模型的有效性.
另一個基于已有模型的思路是生成偽標簽,即利用訓練好的AU識別模型對圖片自動地標注,這實質上是利用了AU識別模型中存儲的訓練數據的知識.Benitez-Quiroz等人[28]發布了一個從互聯網上抓取的非受控場景人臉圖片數據集EmotioNet,其中優化集具有準確的人工標簽,而訓練集只有受控場景圖片上訓練的模型所標注的偽標簽.考慮到自動標注模型的訓練數據與被標注圖片之間存在域差異,自動標注的偽標簽并不準確.為改進EmotioNet的偽標簽,Werner等人[45]采用一個自訓練方法,以多任務的形式同時在優化集和訓練集上訓練深度卷積神經網絡(Deep Convolutional Neural Network,DCNN),其中優化集對應的分類器分支作為最終分類器,然后利用訓練好的模型對訓練集圖片重新標注偽標簽,再重新訓練網絡,重復這一過程直至性能已收斂或已滿足精度要求.然而,這一自訓練方法依賴優化集的人工標簽.
由于人工標注AU的成本高昂,很多情況下數據集中只有部分樣本擁有完整的AU標簽,而其余樣本沒有AU標簽或只有一部分AU的標簽.這里極端的情況是所有樣本都沒有AU標簽,而只有粗略的標簽如整體表情標簽是可用的,由于其對表情的描述沒有AU精細,因而標注成本很低. 由表1不難看出,AU與整體表情之間存在條件依賴關系.Peng等人[46]從多個AU數據集中統計出給定整體表情下某一AU出現的條件概率,并結合先驗的AU間關系,從表情標簽生成AU的偽標簽.進一步地,Peng等人[47]基于全部樣本的表情標簽和部分樣本的AU標簽,提出一個對偶半監督的生成對抗網絡(Generative Adversarial Network,GAN)[48],聯合地學習AU分類器和人臉圖片生成器.由于任務的對偶性,AU分類器的輸入輸出聯合分布和人臉生成器應該是一致的,該方法通過對抗學習迫使輸入輸出聯合分布收斂到AU-表情標注數據的真實分布.Zhang等人[49]將表情獨立的和表情依賴的AU概率作為約束融入目標函數,促進AU分類器的訓練.然而,將固定的先驗知識應用于所有樣本忽視了不同樣本間AU動態變化的特性.
另一些方法在具有AU標簽的樣本基礎上,引入大量無標簽的樣本.Wu等人[50]基于深度神經網絡學習人臉特征,并利用受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)從部分樣本的完整AU標簽中學習標簽分布,然后通過最大化AU映射函數相對于所有無標簽數據的標簽分布的似然對數,同時最小化有標簽數據的AU預測值和真實值之間的誤差,來訓練AU分類器.然而,從有限樣本學習的標簽分布可能并不適用于其他樣本.Zhang等人[51]利用4種先驗的AU約束來額外地監督訓練過程:越臨近幀的特征越相似、一段AU動作中強度隨幀非遞減、面部對稱性、相對于中性表情外觀的差異性.該方法在訓練時要求圖像序列中某一AU在一段動作過程中峰值和谷值所在幀具有該AU的標簽,降低了適用性.
此外,相關聯任務的已有標簽也可以被利用來促進AU識別.Shao等人[52]采取多任務學習,基于CNN聯合地實現人臉AU識別和人臉配準,利用任務間的關聯性使得彼此相互促進,且配準分支學習的特征被傳入AU識別任務,有利于提升AU識別精度.Jyoti等人[53]將整體表情識別網絡所提取的特征傳入AU識別網絡,促進AU識別.Tu等人[54]采用底部層共享的人臉識別網絡和AU識別網絡,其中人臉識別網絡學習身份特征,然后AU識別網絡所提取的特征在減去身份特征后進一步回歸AU預測值.這類方法的效果很大程度上依賴任務間的關聯性強弱以及所設計多任務結構的有效性.
域映射指從一個域映射到另一個域,其中域包括圖像、特征、標簽等.近年來,一些工作通過域適應(Domain Adaptation)來提取源域知識,使其適應目標域,從而促進目標域任務的學習.一個常見做法是將目標圖片的表情編輯為源圖片的表情,從而將源圖片的AU標簽遷移到新生成的目標圖片上,實現數據擴增.Liu等人[55]以源AU標簽為條件,基于條件GAN[56]生成源表情參數,再與目標圖片的其他人臉屬性參數組合,利用3D可變模型(3D Morphable Model,3DMM)[57]生成具有源表情和目標圖片紋理的新圖片.Wang等人[58]在不依賴3DMM的情況下同時訓練GAN和AU分類器,合成具有源圖片AU屬性且保留目標紋理的新圖片.然而這2個工作針對的源圖片和目標圖片都僅來自受控場景.
除了域適應外,域映射的另一個應用是自監督學習,其從數據本身的結構推斷出監督信號而不需要AU標簽.Wiles等人[59]提出一個人臉屬性網絡,輸入為來自同一視頻的目標幀和源幀,首先編碼器學習目標幀和源幀的人臉屬性特征,兩者被串聯起來輸入到解碼器中生成具有源幀表情和目標幀姿態的新圖像,其中解碼器對生成圖像上每一像素與源幀像素的位置對應關系進行預測,同時約束生成圖像與目標幀相似,這里人臉屬性特征包含了表情信息,因而可以用于AU識別.考慮到AU是面部肌肉動作,Li等人[60]將視頻中2張不同幀之間的人臉變化視為動作,并以此為自監督信號來學習特征,具體采用一個雙循環自編碼器,將AU相關的動作和頭部姿態相關的動作解耦出來,從而得到AU相關的特征.然而這些方法要求訓練時輸入的一對圖像來自同一視頻且具有相同的人臉身份,限制了其適用性.
AU為人臉局部肌肉動作,因而提取其特征需要準確定位關聯區域,每個AU的關聯區域包括其所在部位以及存在一定關聯的其他部位.
FACS基于客觀的人臉解剖學來定義AU,每個AU的中心與人臉特征點之間有先驗的位置關系,圖5展示了一些常見AU的位置定義規則[61,52],因此可以通過特征點來準確確定AU的中心位置,從而提取與AU關聯的局部特征.Jaiswal等人[62]利用特征點為每個AU預定義方形的感興趣區域(Region of Interest,ROI)以及對應的二進制掩膜(Mask),其中掩膜上特征點形成的多邊形區域內點的值為1而其他點的值為0,然后基于CNN從裁剪的ROI和掩膜提取每個AU的特征.Ali等人[63]先利用一個卷積層提取低層特征,然后根據特征點位置在這一特征圖(Feature Map)上裁剪與AU的ROI對應的方塊,并分別利用一個CNN從每個方塊進一步提取特征.Ma等人[64]利用特征點為AU定義邊界框(Bounding Box),將通用的物體檢測問題融入AU識別,預測AU在哪個邊界框出現,若某一AU不出現于當前人臉,則對于所有邊界框都應被預測為不出現.這些方法將ROI內所有位置視為相等的重要性,沒有考慮到離AU中心越近的位置應該與AU越相關.
圖5 常見AU的中心位置及可視化注:其中每2個相同顏色的點表示某一AU的2個對稱的中心.“尺度”指2個內眼角之間的距離. 白色的點表示49個人臉特征點,其中一些點被AU的中心覆蓋 Li等人[61,65]為每個AU的ROI定義注意力(Attention)分布,ROI內離中心越近的位置其注意力權重越大,然后在AU識別網絡中利用注意力圖對特征圖中的AU特征進行增強,并在網絡的末端從特征圖上裁剪每個AU的ROI方塊.Sanchez等人[66]依據AU的標簽將其注意力分布定義為高斯分布,特征點決定分布的中心位置而AU強度決定分布的振幅和大小,然后利用CNN從輸入圖像回歸每個AU的注意力圖來實現AU強度估計.考慮到AU會隨人和表情變化而非剛性變化且不可加性導致AU的外觀改變,Shao等人[52]在CNN中利用配準分支所預測的特征點定義初始注意力圖,然后利用AU識別的監督信號自適應地優化每個AU的注意力圖,從而更準確地捕捉AU關聯區域.然而,上述方法均被特征點先驗知識所約束,每個AU的注意力高亮區域集中在預定義ROI的附近,難以準確捕捉遠離預定義ROI的關聯區域.
當利用AU標簽來有監督地訓練深度神經網絡時,網絡在特征學習過程中會隱式地自適應捕捉AU的關聯區域.Liu等人[67]迭代地在CNN學習的特征圖上選擇與目標表情標簽相關性最高的特征,這些特征所在區域被期望為與AU關聯的感受野,然后將這些感受野內的特征輸入到RBM來實現表情分類.考慮到不同人臉區域的AU具有不同的結構和紋理屬性,對不同區域應該采用獨立而不是共享的濾波器,Zhao等人[68]引入分塊卷積層,將特征圖劃分為相同大小的多個小塊,在每一小塊內部采用獨立的卷積濾波器來提取特征,該特征圖能夠隱式地捕捉AU的關聯區域.為了適應不同大小的AU,Han等人[69]提出自適應大小的卷積濾波器,在訓練CNN時學習卷積層的濾波器大小和權重參數.然而,這些方法沒有以顯式的方式來自適應學習關聯區域,因此只能粗略地確定AU的區域位置.
近年來,一些工作在網絡中加入注意力學習模塊,顯式地捕捉AU關聯區域.Shao等人[24]不依賴特征點的先驗約束,直接通過AU識別的監督信號自適應地學習通道級注意力和空間注意力,同時利用全連接條件隨機場(Conditional Random Field,CRF)捕捉像素級關系來優化空間注意力,從而選擇和提取每個AU的關聯特征.Ertugrul等人[70,71]分別采用一個CNN從裁剪的人臉塊提取特征,接著利用注意力機制對各個塊所提取的特征進行加權,實現AU識別.雖然上述工作能夠較好地捕捉AU特征,但仍包含了一些不相關的信息,影響AU識別的精度.
人臉表情涉及多個局部位置的肌肉動作,因而像素位置間的關系可以被利用起來.表情中會時常出現多個AU,但不會所有AU都出現,因而除部分AU相互獨立(不相關)外,多數AU之間并不獨立,可能同時出現(正相關),也可能相互排斥(負相關).而且,在視頻中AU是動態變化的,挖掘時域關聯可以促進AU識別.
Shao等人[24]利用全連接CRF捕捉像素級關聯關系,對每個AU的空間注意力進行優化,從而捕捉更準確的AU特征.Niu等人[72]首先利用CNN提取人臉特征,這一特征的空間上每一點沿通道的特征向量被作為一個局部特征,接下來利用長短期記憶(Long Short-Term Memory,LSTM)網絡學習局部特征間的關系,由于不同AU涉及不同位置的肌肉動作,該方法對每個AU分別采用一個LSTM來學習不同局部特征的貢獻.鑒于密集的人臉特征點可以描述人臉幾何結構,Fan等人[73]利用圖卷積網絡(Graph Convolutional Network,GCN)從特征點空間位置形成的幾何圖結構中學習一個隱向量,該隱向量包含人臉形狀模式以及特征點間的相互依賴關系,在特征學習過程中被用來增強表征能力.在這些工作中像素與AU的對應并不明確,使得像素級關系對AU識別的促進作用較有限.
考慮到AU的強度級別從0到5是有序的(Ordinal),Tran等人[74]引入變分有序高斯過程自編碼器(Variational Ordinal Gaussian Process Auto-Encoder,VO-GPAE),在學習隱特征時施加AU強度有序關系的約束.Benitez-Quiroz等人[75]提出一個全局-局部損失,其中局部損失分別促進每個AU的預測,而全局損失對2個或2個以上AU真實值均為出現即正相關的情況進行約束,促進對正相關AU的預測.Walecki等人[76]將CNN和CRF組合在一個端到端的框架中,其中CRF的一元能量項捕捉AU強度的有序結構,二元能量項捕捉AU間的依賴關系.Corneanu等人[77]將CNN和循環神經網絡(Recurrent Neural Network,RNN)組合成一個深度結構推理網絡(Deep Structure Inference Network,DSIN),其中RNN由許多結構推理單元構成,采用門控策略控制每2個AU結點間的信息傳遞,從而推理AU之間的結構關系.Jacob等人[78]采用一個注意力網絡來回歸每個AU由特征點所預定義的注意力圖,然后將注意力增強后的AU特征輸入到一個變換器(Transformer)中,捕捉AU間的關系.
近年來,圖神經網絡(Graph Neural Network,GNN)開始被應用于AU關聯學習.Li等人[79]從多個AU數據集統計出AU對的3種依賴關系,基于此構建有向的AU關系圖,每個AU是一個結點,結點間的有向邊類型包括正相關和負相關2種,AU間不相關則沒有邊相連,然后利用門控GNN[80]對AU關系建模.Liu等人[81]和Niu等人[82]首先基于數據集統計的依賴關系構建AU關系圖,然后利用GCN建模AU間的關系.由于AU間依賴可能隨人和表情的變化而變化,另一些工作采用動態的關系圖結構.Fan等人[83]提出一個語義對應卷積(Semantic Correspondence Convolution,SCC)模塊,將前一層的每個特征圖通道作為一個結點,構建K-近鄰圖,動態地計算通道間的語義對應,由于每個通道編碼了AU的一個特定模式,這樣可以學習AU間的關系.Song等人[84]提出不確定圖卷積(Uncertain Graph Convolution),自適應地學習基于概率的掩膜來捕捉個體樣本的AU間依賴以及不確定性.Song等人[85]提出一個混合信息傳遞神經網絡,利用性能驅動的蒙特卡羅馬爾可夫鏈采樣方法來學習AU關系圖,然后在信息傳遞過程中動態地組合不同類型信息使它們相互補充.
此外,為了抑制標簽不均衡導致的預測偏置,許多工作通過調整采樣率和權重來進行平衡.Li等人[61]在深度神經網絡的訓練過程中對訓練集中出現頻率較低的AU采用更大的隨機采樣率,使得每個小批量(Mini-Batch)中不同AU出現的頻率較均衡.另一些工作[24,52,77]在計算AU識別損失時,給每一AU所賦的權重與該AU出現的頻率成反比,從而加強了出現頻率較低的AU.此外,為了平衡每個AU的出現頻率和不出現頻率,Li等人[79]對交叉熵損失中出現頻率的熵項乘以訓練集中該AU的不出現頻率,而對不出現頻率的熵項乘以該AU的出現頻率,這樣,若某一AU的不出現頻率大于出現頻率,其對應于出現的損失項被加強.Song等人[84]提出自適應加權損失函數,通過自適應地學習認知不確定性(Epistemic Uncertainty)來計算小批量中每個樣本的權重,不確定性越高的樣本被賦以越大的權重,從而抵消數據不均衡.
上述方法所學習的AU關聯依賴訓練數據集的AU標簽分布,使得訓練的AU識別模型難以適應跨數據集測試,泛化能力較低.
當前采用時域關聯學習的方法一般先提取視頻中每幀人臉圖像的空間特征,然后利用LSTM等時間序列模型對時域上幀間關聯進行建模.Chu等人[86]采用CNN提取各幀空間特征,并用LSTM 對幀間的時域信息進行建模,最后在CNN和LSTM的末端將時空特征進行融合.Bishay等人[87]設計一個三層級的框架:在第一層級利用CNN學習人臉外觀特征,并利用多層感知機從人臉特征點學習幾何特征;在第二層級利用RNN從連續幀學習時域上的關聯;在第三層級將各網絡的預測結果進行融合.He等人[88]將雙向LSTM與RNN結合起來學習時域特征.Song等人[89]利用多個LSTM同時挖掘時域和空間域上的關聯信息.Yang等人[90]采用2D的CNN對每幀圖像提取特征,同時采用3D的CNN捕捉圖像序列的時空信息,從而實現AU識別.Yang等人[91]利用單張圖像及一張錨定圖像來無監督地學習光流,從而捕捉時域信息,再將光流輸入到AU識別網絡進行AU預測,這里光流網絡和AU識別網絡被聯合地訓練,使得AU標簽可以提供語義信息從而促進光流的學習.Zhang等人[92]利用注意力機制實現特征融合和標簽融合,其中前者用于捕捉人臉局部塊間的空間關系,而后者用于捕捉時域動態關系.
這些工作主要是將已有的時間序列模型應用于AU識別任務,并未明確地對AU在時域上動態非剛性變化的過程進行分析和處理,限制了時域關聯學習的有效性.
表 4、表 5 分別對代表性的基于深度學習的 AU 檢 測和AU強度估計方法進行了總結和對比,從中可以觀 察到如下幾方面的現象.
(1)目前研究AU檢測的工作多于AU強度估計,這是因為強度估計不僅需要判斷每個AU是否出現,還需識別AU的強度,更具挑戰性.
(2)大多數AU識別工作將遷移學習、區域學習和關聯學習中多種策略進行結合,而不是僅基于一種學習策略,這是因為實現高精度的AU識別需要同時解決標簽稀缺性、特征難捕捉性和標簽不均衡性的挑戰.
(3)采用關聯學習的工作如R-T1[65],D-PAttNet[71]和DPG[89]取得相比于其他工作更高的精度,表明AU間關聯以及時域關聯對AU識別具有重要意義.
(4)當前基于遷移學習的工作如MLCR[82]和TAE[60]并未取得相比于其他工作明顯的性能優勢,說明這類方法仍有較大的挖掘空間,需要進一步從AU的特性出發,提出有效的模型來充分利用已有的樣本、標簽、模型以及先驗知識.
(5)與J?A-Net[52]和G2RL[73]相比,R-T1[65],AU R-CNN[64],KBSS[51]和SCC[83]等工作無法在BP4D和DISFA上同時取得較高的精度,說明AU識別模型的可靠性和泛化能力也是需要著重研究的地方.
目前,表情AU識別技術已取得較大的發展,但其精度仍有很大的提升空間,無法很好地滿足實際應用需求.未來可從以下幾方面進一步進行探索.
**(1)已有基于遷移學習的工作尚無法有效地解決標簽稀缺性挑戰. **未來可以采取融合多種策略的方式:①將具有AU標簽的樣本作為源樣本,利用GAN將無標簽目標樣本的表情編輯為源表情,則其具有源樣本的AU標簽,這些新生成的目標樣本提高了訓練數據的多樣性;②利用最新的人臉配準開源庫對樣本標注特征點,同時結合具有整體表情標簽的數據集,挖掘特征點、整體表情與AU間關聯性,促進AU識別;③將自監督學習、有監督學習、域適應多種方法綜合起來,利用自監督學習從無標簽樣本中學習AU本質屬性的特征表示,利用有監督學習從具有AU標簽的樣本中學習AU識別模型,利用域適應使得其他域訓練的模型可以被應用于當前域.
(2)當前的AU識別模型在對多個AU同時預測時仍易于偏向提升出現頻率較高AU的精度,以及偏向將AU預測為不出現,標簽不均衡性依然嚴重限制著AU識別的精度.可選的解決方案為:①利用GAN進行數據擴增,盡量使所生成的數據集在每個AU的出現與不出現頻率、不同AU間的出現頻率方面保持均衡;②借鑒已有的處理長尾分布等不均衡數據的方法,對不均衡的AU標簽分布進行建模,充分挖掘不同AU間的關聯關系.
(3)現有的工作主要關注受控環境,更接近實際應用場景的非受控AU識別的相關研究仍較少.未來可從以下角度切入非受控環境的研究:①研究受控域到非受控域的AU遷移方法,利用具有AU標簽的受控域數據集生成新的非受控域樣本,擴增非受控域訓練數據;②提高方法對不同頭部姿態的魯棒性,可以定位3D的人臉特征點、構造UV 映射、計算3D人臉表面的測地距離,這些輔助信息都可以加到深度神經網絡中,在輸入、中間的特征提取或者后置處理環節提升AU識別的精度;③利用特征解耦方法將光照、姿態、遮擋等信息從AU特征中分離,實現光照無關、姿態無關、遮擋無關的AU識別.
(4)當前的AU數據集具有樣本規模小且多樣性低、標簽稀缺且不均衡、缺乏非受控樣本等不足.未來可以構建一個規模大、樣本多樣性豐富、AU標注全面的非受控環境數據集.由于對AU進行人工標注的成本很高,在標注的過程中,可以基于主動學習(Active Learning)[94~96],從一個具有人工標注的小訓練集開始,訓練模型并對未標注樣本進行預測,然后基于預測結果選擇信息最豐富、存在出現頻率較低AU的未標注樣本進行人工標注,再將新標注的樣本加入訓練集并更新模型,重復上述步驟直至被訓練的模型在測試集上的性能已收斂或已滿足精度要求,這樣可以保證有限的標注成本用在最需要的樣本上.
深度分層強化學習是深度強化學習領域的一個重要研究方向,它重點關注經典深度強化學習難以解決的 稀疏獎勵、順序決策和弱遷移能力等問題.其核心思想在于,根據分層思想構建具有多層結構的強化學習策略,運用 時序抽象表達方法組合時間細粒度的下層動作,學習時間粗粒度的、有語義的上層動作,將復雜問題分解為數個簡 單問題進行求解.近年來,隨著研究的深入,深度分層強化學習方法已經取得了實質性的突破,且被應用于視覺導航、 自然語言處理、推薦系統和視頻描述生成等生活領域.該文首先介紹了分層強化學習的理論基礎;然后描述了深度 分層強化學習的核心技術,包括分層抽象技術和常用實驗環境;詳細分析了基于技能的深度分層強化學習框架和基 于子目標的深度分層強化學習框架,對比了各類算法的研究現狀和發展趨勢;接下來介紹了深度分層強化學習在多 個現實生活領域中的應用;最后,對深度分層強化學習進行展望和總結.
強化學習(reinforcement learning,簡稱 RL)是機器學習領域的一個重要分支,它以馬爾可夫決策過程 (markov decision process,簡稱 MDP)為理論基礎,是一種交互式學習方法[1] .深度強化學習(deep reinforcementlearning,簡稱 DRL)作為深度學習(deep learning,簡稱 DL)[2]和 RL 的結合算法,同時具備了 DL的感知能力和 RL的決策能力,初步形成從輸入原始數據到輸出動作控制的完整智能系統.近些年,劉全等人[3]對 DRL進行了全面 的分析和解讀,總結了深度??網絡(deep q-learning network,簡稱 DQN)[4]、深度確定性策略梯度(deep deterministicpolicy gradient,簡稱 DDPG)[5]和異步行動者-評論家(asynchronous advantage actor-critic,簡稱 A3C)[6]等經典算 法,并介紹了多種前沿研究方向.
分層強化學習(hierarchical reinforcement learning,簡稱 HRL)[7]作為 RL的重要分支,與經典 RL方法的最大 區別在于,它以半馬爾可夫決策過程(semi-markov decision process,簡稱 SMDP)[8]為理論基礎,基于分層抽象技 術,從結構上對 RL 進行改進,重點關注 RL 難以解決的稀疏獎勵、順序決策和弱遷移能力等問題,實現了更強的 探索能力和遷移能力.但是,HRL 仍然存在計算能力不足,無法對狀態特征進行高效表達的問題,通常只能處理 離散狀態-動作空間任務.在 DRL 的成功應用后,深度分層強化學習(deep hierarchical reinforcement learning,簡 稱 DHRL)[9]同樣將 DL 方法引入 HRL 框架,不僅從理論層面對 HRL 進行了拓展,還利用深度網絡實現了更強的 特征提取能力和策略學習能力,構建了更有效、更靈活的分層結構,可以有效解決更復雜的任務[10].隨著 DHRL理論的發展和完善,逐步形成了,以下層策略學習基礎任務實現能力,上層策略學習下游任務解決方案的問題求 解路線.目前,DHRL 已經被廣泛應用于視覺導航[11]、自然語言處理[12]、推薦系統[13]和視頻描述生成[14]等真實 世界應用領域.
為了對 DHRL 進行系統的分析和總結,我們首先在中國計算機學會推薦國際學術會議和期刊,以及 CNKI論文數據庫中,以“hierarchical reinforcement learning”,“option reinforcement learning”和“subgoal reinforcementlearning”等關鍵詞進行檢索,并在谷歌學術中,將被引次數超過 500 的核心論文[1, 15-17]作為基準,檢索引用了這些 論文的HRL和 DHRL論文;然后通過人工審查方式,對已檢索的論文進行篩選,排除與研究問題無關和已被收錄 的網絡論文.我們用圖 1 和圖 2 對所篩選論文進行展示.圖 1 反映了從 1998 年(HRL理論基礎被提出的年份[8])至 2021 年(截止到 2021 年 6 月),在各類會議、期刊和網絡上,較有影響力的 HRL和 DHRL相關論文的數量及 刊載情況,它們中的絕大多數都被收錄于 CCF A 類會議(112 篇)、CCF B類會議(25篇)、SCI 一區期刊(7篇)和 SCI 二區期刊(22 篇).圖 2 反映了從 1998 年至 2021 年(截止到 2021 年 6 月),HRL和 DHRL相關論文的被引次 數.從圖 1 和圖 2 可以看出,一方面,HRL 與 DHRL 的研究熱度逐年增加,尤其是在 2016之后,隨著 DL的發展和 DRL 的出現,國內外學者對 DHRL 的關注程度與日俱增.另一方面,相關論文的被引次數在 1999年和 2017年出 現高峰,這與 RL 奠基工作的開展和 DRL 的飛躍式發展有著密切關系.
本文以 HRL 基礎理論為研究脈絡,重點關注 DHRL 的研究現狀和發展趨勢. 第1章對 HRL的基礎理論進 行介紹;第 2 章描述了 DHRL 的核心技術,包括可以解決的問題、常用實驗環境和 DHRL主流框架的劃分依據;第 3、4 章分析了兩種 DHRL 框架下的核心算法,詳細說明了各類算法的發展歷程、研究重心和優缺點;第 5章 對 DHRL 在現實生活領域中的應用進行介紹;第 6、7 章對 DHRL 進行展望和總結.
深度分層強化學習技術
SMDP 和時序抽象法作為 DHRL 方法的核心技術,是構造分層結構的基礎,我們將這兩種核心技術統稱為 分層抽象技術.當一個序列動作包含多個序列動作或多個基礎動作時,可以認為前者是比后者層次更高、語義 更強的動作[8] .將這些動作以一定規則進行組合,便形成了 DHRL 的多層結構.與經典 DRL相比,DHRL算法有更 強的問題解決能力,具體來說,DHRL 常用來解決以下 3 種問題:
(1) 稀疏獎勵
DRL 的本質是利用獎勵函數強化行為的過程,好的獎勵函數可以反映任務的特性,引導狀態和動作的價值 被正確估計,進一步優化策略.但經典 DRL 把狀態空間看成一個巨大的、平坦的搜索空間[21] ,這意味著,智能體 從初始狀態到終止狀態的路徑非常長,過長的路徑會產生獎勵信號變弱、延遲增高等問題.一旦環境只能提供 稀疏獎勵信號,問題會變得更為棘手.此外, ? -貪婪策略和動作噪音作為 DRL常用的探索方案[22, 23],只能輔助智 能體探索臨近的、有限的狀態空間,尤其在稀疏獎勵環境下,無法為智能體提供探索更廣闊狀態空間的動力.反 過來,探索能力又會影響算法在稀疏獎勵環境中的性能.而 DHRL 利用分層抽象技術,可以組合多個時序擴展動 作,幫助智能體實現更大范圍的狀態空間快速覆蓋,強化探索能力;同時,也可以快速捕獲外部獎勵,或收集內部 獎勵,以此克服稀疏獎勵問題.
(2) 順序決策
許多任務的實現需要遵循一定的順序決策過程,例如在蒙特祖瑪的復仇中,需要先拿到鑰匙才可以打開門.該問題有時也被看成部分可觀測馬爾可夫決策過程(partially observable MDP,簡稱 POMDP)[24, 25],因為從本質 上來說,如果不給予先驗知識,鑰匙的獲取對智能體來說是不可觀測的.經典 DRL往往無法記錄中間過程,或找 不到決策規律.DHRL 的多層結構可以關注不同水平的知識結構[26] ,智能體在得到一些關鍵信息后,切換上層策 略,以實現對順序決策信息的隱性表達.
(3) 弱遷移能力
經典 DRL 通常存在策略可遷移能力不足的問題,即每一個任務都需要學習專屬的網絡[4] ,且一種算法往往 只可以在單一或少數幾個任務上取得較優結果.DHRL 能夠學到具有高遷移能力的 option,在面對相似任務時,智能體可以快速獲得學習能力[27] .同時,DHRL 充分利用狀態抽象法,將不同狀態轉化為相似的抽象特征,建立有 效的狀態特征表達機制[28] ,輔助 option 在相似狀態區域上的重用. DHRL 具有較強的學習能力,可以說,DHRL 對復雜問題的求解能力正是源于分層抽象技術的應用.但分層 抽象技術同樣也會引入一些額外問題,包括分層結構參數過多,訓練時間過長,option學習過程與組合過程的矛 盾,異策略分層同步訓練不穩定,以及子目標太遠難以到達等問題.對于一些更具體的情況,我們將在后續章節 于每一個核心算法的論述中進行說明,并介紹更為優秀的算法如何在前文基礎上進行改進,以解決這些額外問 題.
基于分層抽象技術,學者們提出了豐富多樣的 DHRL 方法,根據求解思路的差異,我們將它們分為: (1)基于技能的深度分層強化學習框架(option-based DHRL,簡稱 O-DHRL)(option 在 O-DHRL中常被稱為技能(skill),為保證符號的統一,下文依然用符號 o 來表示).下層網絡學習一組技能,然后由上層網絡調用這些技能,使用不 同的組合技能來解決下游任務;** (2) 基于子目標的深度分層強化學習框架**(subgoal-based DHRL,簡稱 G-DHRL).利用神經網絡提取狀態特征,然后將狀態特征作為子目標空間.上層網絡學習產生子目標,下層網絡根據內部驅 動來實現子目標.除此之外,早些年學者還提出了基于子任務的分層強化學習框架(subtask-based HRL,簡稱 S-HRL)[60] ,但該框架引入了嚴重的先驗知識問題,需要人工經驗進行任務分解,如果原問題復雜難分,則難以使 用該方法.因此,在追求端到端解決問題的 DRL 領域中,極少有論文[61-63]以 S-HRL為基礎進行拓展,不足以構成 完整的 DHRL 研究方向,故本文不討論該支線.
基于技能的深度分層強化學習
O-DHRL 與 SMDP 密不可分,而求解 SMDP 問題的關鍵在于如何定義和尋找 option.從內容上看,option既 可以由先驗知識定義,也可以由算法學習產生.從形式上看,option 既可以是單步的基礎動作,也可以是一組動作 序列,或是另一組 option. O-DHRL 的每個 option 可以由一個 3 元組 , 來表示[80] ,該 3 元組的含義分別是:(1)I表示 option初始狀態集,當且僅當狀態
時,option 才會被執行.初始條件 I 也可以被看成 option策略
,智能體通過 option 策略
選擇當前的 option;(2)
表示 option o 的內部策略,用于產生序列動作或序列 option;(3)
表示 option o 的中斷函數,當某一狀態滿足
條件時,該 option 結束.通常,智能體在某一初始狀態選擇某一 option后,執行該 option 內部策略,在到達某一狀態或滿足中斷函數時,停止該 option,并以此刻狀態為初始狀態,繼續執行 下一 option.盡管 O-DHRL 增加了 MDP 的復雜性,但它具有易實現和分層易拓展的優點. 根據近幾年 O-DHRL 的技術發展路線,以上下層策略是否同步訓練,將 O-DHRL框架分為同步式技能 (synchronous option,簡稱 SO)和異步式技能(asynchronous option,簡稱 AO):(1)在 SO-DHRL中,技能和上層策略 的訓練過程是同步的,根據對任務處理能力和技能遷移能力的側重差異,SO-DHRL又分為獨立型技能和共享型 技能.SO-DHRL 可以針對特定任務,直接得到與任務高度相關的技能組合,具有明顯的性能優勢,但單次訓練的 成本較高;(2)在 AO-DHRL 中,技能和上層策略的訓練過程是分離的,根據求解步驟,AO-DHRL又分為技能學習 和技能組合.下層網絡(技能網絡)在訓練好數個技能后,由上層策略在下游任務中調用這些技能.它通常要求技 能在任務無關的環境下進行訓練,使學到的技能具有較好的狀態覆蓋能力和可遷移能力.但技能的多樣性難以 被量化,組合技能也不一定總是優于非分層算法.
基于子目標的深度分層強化學習
深度分層強化學習應用
目前,DHRL 方法已經被廣泛應用于視覺導航、自然語言處理、推薦系統和視頻描述生成等真實世界應 用領域,以解決現實生活中的稀疏獎勵和順序決策等問題,并展現出巨大的商業價值.圖 7描述了從 2016年至 2021 年(截止到 2021 年 6 月),DHRL 在不同真實世界應用領域的論文數量占比情況(共 78篇).
視覺導航領域
視覺導航領域包括自動駕駛模擬和目標導向機器人兩種任務,它們不僅要求智能體具備對圖像數據的表 達能力,還要求控制器能夠以不同頻率更新路況信息和動作策略.考慮到這些特性,將分層抽象技術應用在視覺 導航領域,可以發揮重要作用.
大量研究表明,許多動物在自我定位和路徑規劃方面形成空間表達的能力,都依賴于大腦對原始感知信號 的特征編碼.在自動駕駛模擬任務中,慢性特征分析算法(slow feature analysis,簡稱 SFA)[123]從視覺圖像中學得 拓撲地圖,利用 DHRL 從拓撲地圖中學得豐富的環境層級表達,為車輛在不同空間尺度上實現自我定位和方向 檢測.在紅綠燈通行問題中,Chen 等人[11]提出了一種分層策略梯度方法,學習數個簡單且有差異的技能,然后組 合技能來獲得對復雜問題的求解能力,使車輛在交通燈變黃時做出正確選擇.這些算法的實驗結果均表明,相比 于經典 DRL,DHRL 有更好的學習能力,可以幫助車輛實現模擬駕駛,包括并道和等待紅綠燈等操作. 在目標導向機器人應用中,出于穩定和安全的考慮,位置估計器需要以較低頻率更新,而動作控制器必須在 幾毫秒內計算出電機指令.Jain 等人[124]針對 4 足機器人路徑跟蹤任務,充分利用 DHRL的分層結構特性和時序 解耦方案,為上下層控制器使用不同的狀態表達,強調位置估計和動作控制的不同關注點,確保下層策略的可重 用能力;并在可變的時間尺度上更新上下層策略,減輕硬件對上層狀態信息的處理需求.Li 等人[125]在 18自由度 機器人的多目標導向任務中,對技能進行預訓練,得到可以實現簡單目標的技能(如轉彎和直線行走),然后對技 能進行規劃學習.這種分層學習方式不僅可以利用預訓練技能提高對多目標任務的求解能力,還可以減少構建 上層模型所需的硬件數據.
自然語言處理領域
DHRL 在自然語言處理領域常用于任務導向型對話生成(task-oriented)和開放域對話生成(open-domain)方 向,與經典環境 Atari 相比,這些任務的動作維度要高出多個數量級. 在任務導向型對話生成任務中,Budzianowski 等人[126]利用 DHRL 的強遷移能力來學習跨領域對話系統.考 慮到不同領域中存在著相似的子域,如訂購房間和購買書本主域都有付款子域,該算法在不同主域的相似子域 中學習可共享的信息,以訓練通用的下層策略.Saha 等人[127, 128]利用 DHRL框架來學習多意圖對話策略.考慮到 大多數對話系統只使用了用戶語義,而忽略了用戶行為和情感在對話中的作用,該算法將基于情感的即時獎勵 引入到對話系統基礎獎勵中,使問答機器人具有自適應能力,意圖獲得最大用戶滿意度.實驗結果表明,用戶情 感和行為等信息在創造復合性的問答機器人和最大化用戶滿意度方面,均發揮了重要作用. 在開放域對話生成領域,經典 DRL 方法[129, 130]往往只能在單詞層面上構建獎勵模型,這種低水平的控制將 不利于信用分配,導致獎勵模型難以跟蹤長期對話目標.為克服這一挑戰,Saleh 等人[131]提出變分對話模型分層 強化學習算法(variational sequence model HRL,簡稱 VHRL),該算法不再單純考慮單詞級別的信息,而是在話語 層次上建立獎勵模型,提高模型的全局視野和靈活性,以學習長期的對話回報.VHRL避免了在電影這類長對話 數據中,可能產生的不適當、有偏見或攻擊性的文本,在人類評估和自動指標性能方面,均超過了最先進的對話 模型[132] .
** 推薦系統領域**
推薦系統具有巨大的商業價值,序列推薦(sequential recommendations)作為推薦系統中與 DRL技術緊密相關的研究方向[133, 134] ,意圖通過交互獲得的項目序列(item sequence)來刻畫用戶偏好. 對于同質項目(homogeneous items)(如不同類型的文章),注意力機制方法[132]已經可以區分不同歷史項目 對推薦目標項目的貢獻程度,但當用戶記錄存在過多噪音時,注意力機制的效果會變差.為了消除用戶記錄的噪 音,Zhang 等人[135]將推薦問題形式化為順序決策過程,在由數據集和基礎推薦模型構成的環境反饋下,上層控制 器判斷用戶記錄是否需要修改,下層控制器對需要修改的項目進行判定和刪除.該算法在慕課(open onlinecourses,簡稱 MOOCs)數據集中進行了驗證,結果顯示,可以有效消除用戶噪音的影響.此外,為了克服項目數據 過大和用戶記錄稀疏的問題,Wang 等人[136]提出基于聚類的分層強化學習算法(clustering-based reinforcementlearning,簡稱 CHRL).該算法先對基礎推薦系統進行預訓練,然后設計分層結構來過濾可能誤導推薦系統的交 互,同時加入聚類策略,以減少項目數據的稀疏問題. 相比于同質項目推薦系統,綜合推薦系統[137]需要在一個頁面中同時推薦異質項目(heterogeneous item)(如 文章和視頻).Xie 等人[138]提出綜合推薦分層強化學習框架(HRL framework for integrated recommendation,簡稱 HRL-Rec),在該框架中,上層控制器作為頻道選擇器,負責在列表推薦器中生成頻道序列;下層控制器作為項目 推薦器,負責在頻道列表中選擇項目,以此捕獲用戶不同粒度的偏好.目前,該方案已應用于微信看一看線上系 統,實現了 DHRL 在推薦系統領域的商業價值.
視頻描述生成領域
視頻描述(video captioning,簡稱 VC)作為集視覺和文本兩個維度的多模態任務,具有更高的復雜度.當前基 于 DL 的視頻描述方法通常利用自動編碼器(auto-encoder),來學習從視頻序列到文本序列的轉移過程[139],但這 些方法往往只能提取到粗粒度的視頻特征,無法在噪音背景下捕獲明確的對象,損失了對重要內容的理解能力.為消除視頻噪音,提取細粒度的視頻描述特征,Wang 等人[14]在 VC領域中引入 DHRL,將文本和視頻語境視 為強化學習環境,定義任務為一個順序決策過程.在該算法中,上層控制器為新文本片段產生子目標,下層控制 器按序列產生的單詞來生成文本片段,采用二元判定機制評估當前子目標是否被實現.為了克服更具挑戰的多 語句生成問題,Huang 等人[140]提出了一種 DHRL框架,上層控制器為每個圖像序列生成語義連貫的主題,下層控 制器根據主題,使用語義合成網絡生成句子描述,將句子生成建立在主題的基礎上.該算法在視覺故事(visualstorytelling,簡稱 VIST)數據集上的評測結果表明,其性能明顯優于其他 DL模型[141] .此外,Chen等人[142]首次將 DHRL 應用于視頻摘要生成領域,將整個任務分解成若干子任務,通過定義子目標和內部獎勵來解決稀疏獎勵 問題.該算法在視頻摘要數據集上的表現不僅超越了最先進的無監督方法[143] ,甚至超越了它的有監督擴展方法 [144] .
個性化學習推薦是智能學習的一個研究領域,其目標是在學習平臺上給特定學習者提供有效學習資源,從而提升學習積極性與學習效果。雖然現有的推薦方法已被廣泛用于教學場景,但教學活動自身的科學規律,使個性化學習推薦在個性化參數設置、推薦目標設定、評價標準設計等方面具有一定的特殊性。針對上述問題,在調研大量文獻的基礎上對近年來個性化學習推薦的研究進行了綜述。從學習推薦通用框架、學習者建模、學習推薦對象建模、學習推薦算法、學習推薦評價五方面對個性化學習推薦的相關研究進行了系統的梳理和解讀。首先提出了學習推薦系統的通用框架,其次介紹了學習者建模的思路和方法,接著討論了學習推薦對象建模的思路和方法,然后歸納了學習推薦的算法與模型,接下來總結了學習推薦評價的設計與方法。并對這五方面現有研究的主要思想、實施方案、優勢及不足進行了分析。最后還展望了個性化學習推薦未來的發展方向,為智能學習的進一步深入研究奠定了基礎。