強化學習作為人工智能領域的重要分支,以其在多智能體系統決策中的卓越表現,成為當前主流方法. 然而,傳統的 多智能體強化學習算法在面對維度爆炸、訓練樣本稀缺和難以遷移等方面仍然存在困難. 為了克服這些挑戰并提升算法性 能,本文從學習機制的角度入手,深入研究學習機制與強化學習的深度融合,以推動多智能體強化學習算法的發展. 首先,介 紹了多智能體強化學習算法的基本原理、發展歷程以及算法所面臨的難點. 隨后,引入了基于學習機制的多智能體強化學習 方法這一種新興方向. 這些學習機制,如元學習和遷移學習,被證明可以有效提升多智能體的學習速度,并緩解維度爆炸等問 題. 按照課程學習、演化博弈、元學習、分層學習、遷移學習等學習機制在多智能體強化學習中的應用進行了綜述,通過羅列 這些方法的研究成果,論述了各種方法的局限性,并提出了未來改進的方向. 總結了這類融合算法在實際應用中取得的提升 成果和實際應用,具體列舉了基于學習機制的多智能體強化學習算法在交通控制、游戲領域的實際應用案例. 同時,對這類 融合算法未來在理論、算法和應用方面的發展方向進行了深入分析. 這涵蓋了對新穎理論的探索、算法性能的進一步優化, 以及在更廣泛領域中的推廣應用. 通過這樣的綜述和分析,為未來多智能體強化學習算法的研究方向和實際應用提供了有益 的參考.
隨著大數據的普及和算力的提升,深度學習已成為一個熱門研究領域,但其強大的性能過分依賴網絡結構 和參數設置。 因此,如何在提高模型性能的同時降低模型的復雜度,關鍵在于模型優化。為了更加精簡地描述優 化問題,本文以有監督深度學習作為切入點,對其提升擬合能力和泛化能力的優化方法進行歸納分析。給出優化的 基本公式并闡述其核心;其次,從擬合能力的角度將優化問題分解為3個優化方向,即收斂性、收斂速度和全局質量 問題,并總結分析這3個優化方向中的具體方法與研究成果;從提升模型泛化能力的角度出發,分為數據預處理和 模型參數限制兩類對正則化方法的研究現狀進行梳理;結合上述理論基礎,以生成對抗網絡(generative adversarial network,GAN)變體模型的發展歷程為主線,回顧各種優化方法在該領域的應用,并基于實驗結果對優化效果進行比 較和分析,進一步給出幾種在GAN領域效果較好的優化策略。現階段,各種優化方法已普遍應用于深度學習模型, 能夠較好地提升模型的擬合能力,同時通過正則化緩解模型過擬合問題來提高模型的魯棒性。盡管深度學習的優 化領域已得到廣泛研究,但仍缺少成熟的系統性理論來指導優化方法的使用,且存在幾個優化問題有待進一步研 究,包括無法保證全局梯度的Lipschitz限制、在GAN中找尋穩定的全局最優解,以及優化方法的可解釋性缺乏嚴格 的理論證明。
隨著智能技術的發展,深度學習備受青睞,廣泛 應 用 于 計 算 機 視 覺(Agbo-Ajala 和 Viriri,2021; Abdolahnejad和Liu,2020)、圖異常檢測(陳波馮 等, 2021)、推薦系統的數據分析(Khan等,2021)和自然 語言處理(Torfi 等,2020)等領域。研究人員主要致 力于如何更好地提高深度學習模型的性能。Hinton 和 Salakhutdinov(2006)最早初步解決了“梯度消失” 問題。首先通過無監督的學習方法逐層訓練模型, 每訓練一層隱藏節點就作為下一層隱藏節點的輸入(該過程稱為預訓練),再使用有監督的反向傳播 (Rumelhart 等,1986)進行調優,以逐層預訓練的方 式提取數據的高維特征,初步解決梯度消失的問題。 Glorot和 Bengio(2010)提出 Xavier初始化,使狀態方 差和梯度方差保持不變,進而提升模型分類性能。 2011 年,ReLU(rectified linear unit)激活函數被證明 可以針對性控制梯度消失的情況(Glorot等,2011), 此時深度學習仍處于理論研究階段。直至2012年, Hinton 團 隊 在 ILSVRC(ImageNet large scale visual recognition challenge)大賽上通過結合 ReLU 激活函 數構建AlexNet(Krizhevsky等,2012),以碾壓性的分 類性能奪冠,進一步推動深度學習成為研究熱點。 此后,深度學習在其他領域也得以蓬勃發展。Gir? shick(2015)提出 R-CNN(region convolutional neural network)將深度學習引入目標檢測領域。
作為一種機器學習方法,深度學習可與其他機 器學習方法相結合,如圖 1 所示。為了更加精簡地 描述優化問題,僅以有監督深度學習的優化作為切 入點進行分析。監督學習的目標是通過得到的樣本 找到一個近似底層函數的函數,主要由“表示”(repre? sentation)、“優化”(optimization)和“泛化”(generaliza? tion)3個步驟組成(Sun,2020)。“表示”即找到一個豐 富的函數族用以表示目標函數;“優化”即通過最小化 損失函數以確定函數參數;“泛化”指用得到的目標函 數進行預測,產生的誤差稱為測試誤差,包括表示誤 差、優化誤差和泛化誤差。一般默認已經找到適合 的目標函數再進行優化,因此不考慮表示誤差。 神經網絡本質上是一種對網絡參數優化變量的 方法。因此,在確定適合的目標函數后,深度學習的 核心問題可歸結為一個優化問題,其強大性能高度 依賴經驗,研究人員需要經過訓練大量模型才能得 到適合的參數。此外,在訓練模型的過程中,現有的 理論無法嚴謹地分析所用方法的有效性。因此,深 度學習的優化問題可概括為:設計有效的優化方法 來提升模型的擬合能力,降低訓練誤差;同時,還要 考慮通過正則化方法提升模型的泛化能力,還能降 低模型的復雜度,更加高效地訓練神經網絡。 首先,介紹深度學習優化的理論基礎,從擬合能 力的角度將深度學習優化問題劃分為3個具體研究 方向,即收斂性、收斂速度和全局質量問題,并對每 個方向進行總結分析。其次,針對集成多種優化方 法可能存在過擬合進而降低模型泛化能力的問題,以提升模型泛化能力的正則化方法作為切入點,詳 細闡述分析不同正則化方法的作用。接著,討論上 述優化方法在生成對抗網絡(generative adversarial network, GAN)中的使用。最后,在現有深度學習優 化理論的基礎上,分析目前深度學習領域仍存在的 問題并分析未來研究方向。
近年來,深度強化學習在游戲人工智能、機器人等領域取得了諸多重要成就. 然而,在具有稀疏獎 勵、隨機噪聲等特性的現實應用場景中,該類方法面臨著狀態動作空間探索困難的問題. 基于內在動機的 深度強化學習探索方法是解決上述問題的一種重要思想. 首先解釋了深度強化學習探索困難的問題內涵, 介紹了 3 種經典探索方法,并討論了它們在高維或連續場景下的局限性;接著描述了內在動機引入深度 強化學習的背景和算法模型的常用測試環境;在此基礎上詳細梳理各類探索方法的基本原理、優勢和缺 陷,包括基于計數、基于知識和基于能力 3 類方法;然后介紹了基于內在動機的深度強化學習技術在不同 領域的應用情況;最后總結亟需解決的難以構建有效狀態表示等關鍵問題以及結合表示學習、知識積累 等領域方向的研究展望.
0 引言
強化學習(reinforcement learning, RL)是監督學習、 無監督學習之外的另一機器學習范式, 通過設置反 映目標任務的獎勵函數, 驅動智能體在與環境的交 互與試錯中學習能使累計收益最大化的策略[1]。深度強化學習(deep reinforcement learning, DRL) 是在強化學習提供的最優決策能力的基礎上, 結合 深度學習(deep learning, DL)強大的高維數據表征能 力來擬合價值函數或策略, 進而基于交互樣本訓練 得到最優價值函數或最優策略, 被認為是結合感知 智能和認知智能的有效方法. 深度強化學習在游戲人工智能、機器人、自然 語言處理、金融等諸多領域取得了超越人類的性能 表現[2-3] , 但在具備稀疏獎勵、隨機噪聲等特性的環境 中, 難以通過隨機探索方法獲得包含有效獎勵信息 的狀態動作樣本, 導致訓練過程效率低下甚至無法 學習到有效策略[4] . 具體來說, 一方面現實應用中往往存在大量獎勵信號十分稀疏甚至沒有獎勵的場景. 智能體在這類場景探索時需要執行一系列特定的動 作, 以到達少數特定的狀態來獲得獎勵信號, 這使得 在初始時缺乏所處環境知識的智能體很難收集到有 意義的獎勵信號來進行學習. 例如, 多自由度機械臂 在執行移動物體任務中, 需要通過系列復雜的位姿 控制將物體抓取并放置到指定位置, 才能獲得獎勵. 另一方面, 現實環境往往具有高度隨機性, 存在意料 之外的無關環境要素(如白噪聲等), 大大降低了智 能體的探索效率, 使其難以構建準確的環境模型來 學習有效策略. 例如, 部署應用在商場的服務機器人 在執行視覺導航任務時, 既要受到商場中大量的動 態廣告圖片或視頻的傳感干擾, 還可能面臨動作執 行器與環境交互時的結果不確定性, 同時長距離的 導航任務也使其難以獲得有效正獎勵信號. 因此深 度強化學習領域亟需解決探索困難問題, 這對提高 DRL 的策略性能和訓練效率都十分重要.針對獎勵稀疏、隨機噪聲等引起的探索困難問 題, 研究者們提出了基于目標、不確定性度量、模仿 學習等探索方法, 但對任務指標的提升效果有限, 并 增加了額外的數據獲取的代價. 近年來, 源自心理學 的內在動機(intrinsic motivation)概念因對人類發育 過程的合理解釋, 逐漸被廣泛應用在 DRL 的獎勵設 計中以解決探索問題, 成為了 ICML, ICLR, NeurIPS, ICRA 等頂級學術會議上的熱點方向, 受到來自清華、 斯坦福、牛津、谷歌等頂級高校與研究機構的關注. 雖然已有文獻[5-8] 介紹內在動機在深度強化學習領域 的研究現狀, 但據我們所知, 尚沒有文獻全面深入研 究各類基于內在動機的 DRL 探索方法, 并逐步深入 討論其應用于貼近真實世界的復雜動態場景中所面 臨的關鍵問題以及未來的發展方向. 我們從出發點、 研究角度分析了相關綜述文獻與本文的主要區別, 如表 1 所示. 基于上文梳理的深度強化學習面臨的探索困難 問題, 本文首先介紹 3 種經典探索方法以及它們在高 維或連續場景下的局限性, 接著全面梳理 3 類不同的 基于內在動機的 DRL 探索方法的基本原理、優勢和 缺陷, 隨后介紹上述基于內在動機的方法在不同領 域的應用情況, 最后總結亟需解決的關鍵問題以及 發展方向.
1 經典探索方法
為提高智能體在未知環境中的探索效率, 研究 者們提出了簡單的隨機擾動方法, 例如 -貪婪方法. 除此之外,研究者們在小規模狀態動作空間下提出了 許多具有理論保證的經典探索方法, 并推導出對應 的累計后悔值或樣本復雜度的理論上界. 根據統計 學中認識世界不確定性的觀點, 本文將它們分為頻 率派方法與貝葉斯派方法.
1.1 隨機擾動方法
隨機擾動方法可按照加入噪聲的位置差異分為 2 類: 一是在動作選擇的過程中增加隨機性或噪聲, 如在ε -貪婪算法中, 以1?ε 的概率選擇當前估值最高 的動作, 以 ε的概率在所有動作中隨機選擇. 在此基 礎上, Boltzmann 策略在學習初期設置較大的 值以促 進探索, 使 值隨學習過程逐漸減小, 當策略收斂后 完全利用當前模型以持續獲得最大獎勵. 類似地, 深 度確定性策略梯度算法[9] 對策略網絡輸出的動作加 入隨機噪聲過程進行擾動, 以此增加探索. 二是在擬 合策略的網絡參數上加入噪聲, 比如參數空間噪聲 模型[10] 和 NoisyNet 模型[11] 等.
1.2 頻率派方法
頻率派基于實際數據樣本的估計來衡量狀態的 不確定性, 在數據量有限的情況下一般采用帶有置 信水平的區間估計方法.
1.3 貝葉斯派方法
貝葉斯學派觀點認為, 面對未知環境人們維護 著對于所有可能模型的概率分布以表達其不確定性, 隨著觀測證據的增多, 后驗分布一般比先驗分布更 能反映不同備選模型與真實模型的接近程度. 由于 在選擇動作時不僅依據觀測狀態, 也必須考慮對信 念狀態的更新, 貝葉斯強化學習方法被認為有助于 提高探索效率, 防止陷入局部最優, 且同時考慮利用 現有策略最大化累積收益[18]
**1.4 小 結 **
隨機擾動方法缺少對具體狀態和動作探索作用 的評估, 難以依據對狀態的某種度量引導探索過程, 因此無法形成有啟發性的探索過程, 也被稱為無指 導探索[22] . 頻率派或貝葉斯派的方法, 大多僅是在小 規模場景中推導出了樣本復雜度或期望后悔值的上 界, 具有一定理論保證, 但很難直接應用到更加復雜 的環境如具有動態性和不確定性的實際場景. 例如 MEIB-EB[14] 和 BEB[18] 算法都需對狀態動作對有準確 的計數, 在小規模的狀態和動作空間條件下是可行 的, 但無法應用于動態、高維或連續場景中, 亟需啟 發性更強、計算效率更高的探索方法.
2 基于內在動機的深度強化學習探索方法
為解決大規模狀態動作空間中由稀疏獎勵、隨 機噪聲干擾等產生的探索困難問題, 研究者們提出 了基于目標、不確定性度量和內在動機等深度強化 學習探索方法[7-8] . 基于目標探索的方法通過對興趣 狀態進行分析來生成探索性子目標, 同時對如何到 達子目標的過程進行控制, 以提高智能體在復雜環 境中的探索效率. 這類方法偏規劃, 重點在于存儲狀 態和軌跡信息, 并根據存儲的信息規劃生成子目標 點, 然后學習如何到達子目標點. 基于不確定性度量 的方法通常采用價值函數的貝葉斯后驗來顯示建模 認知不確定性, 或者采用分布式價值函數來額外評 估環境內在不確定性, 以鼓勵智能體探索具有高度 認知不確定性的狀態動作對, 并盡量避免訪問具有 高度內在不確定性的區域. 該方法更多偏向于挖掘 價值函數中的不確定性, 體現的是計算思維. 與前 2 類方法相比, 本文所關注的基于內在動機 的方法從行為學和心理學中內在動機驅動高等生物 自主探索未知環境的機理出發, 將“新穎性”等多種 源自內在動機的啟發式概念形式化為內在獎勵信號, 以驅動智能體自主高效探索環境, 體現的是一種更 抽象和擬人的思維. 具體來說, 內在動機源于高等生 物在追求提高自主性和能力或掌控力的過程中獲得 的愉悅感, 是驅動無外界刺激條件下探索未知環境 的動力. 內在動機在 DRL 中, 可以被映射為內在獎勵 信號[23] , 與基于值函數或策略梯度的深度強化學習方 法相結合, 形成具備強啟發性的探索策略, 以提高智 能體探索復雜未知環境的效率。 如何在內在獎勵信號中形式化“新穎性”“好奇 心”“學習提升”“多樣性”“控制力”等源自內在動機的啟發式概念, 是設計基于內在動機的 DRL 探索方 法的關鍵內容. 根據內在獎勵信號的不同啟發式來 源并參考文獻 [24] 中設想的各類基于內在動機的計 算框架, 本文將基于內在動機的深度強化學習探索 方法主要分為 3 類(見圖 1): 基于計數的方法、基于 知識的方法和基于能力的方法.
2.1 基于計數的方法
在高維連續環境中, 難以采用表格化的方式來 表示狀態, 并且幾乎沒有任何 2 個觀測狀態完全相 同, 絕大多數狀態的真實訪問次數都不會超過 1 次, 直接采用經典探索理論方法中基于頻率派或貝葉斯 派的方法, 得到的計數值無法有效衡量狀態新穎性. 針對上述問題, 基于計數的方法一方面借鑒了 UCB 算法的思路, 繼承了“面對不確定性的樂觀”思想, 即 向訪問次數較少的狀態或狀態動作對賦予更高的獎 勵, 以鼓勵智能體盡快探索狀態空間的未知部分, 另 一方面采用基于相似性的狀態泛化的解決思路. 該 類方法的實現途徑包括偽計數方法[39] 和狀態抽象方 法 [40] , 其中偽計數方法可細分為基于密度模型的偽計 數和間接偽計數方法。
2.4. 基于預測模型的方法 現有大量方法為智能體建立和維護一個對動作 結果和狀態轉移進行預測的模型, 以模型精度表達 外部環境的不確定性. 以此預測模型為基礎, 智能體 根據某些新穎性或可預測性的衡量指標學習價值函 數或策略. 依據產生內在獎勵指標的不同, 可以分為 基于預測誤差、預測結果不一致性和預測精度提升 的方法.
2.5 基于信息論的方法 信息論中以熵(entropy)為基礎的一系列概念, 天 然地為衡量現實世界中的不確定性而生, 因此信息 度量也成為形式化啟發式概念, 生成內在獎勵的重 要工具[83] , 用于促進智能體高效探索未知區域.
3 應用研究
基于內在動機的 DRL 探索方法起初應用于游戲 領域的智能體策略生成, 隨著 DRL 算法在現實場景基于內在動機的 DRL 探索方法通過構建強啟發 性的探索策略, 可有效應對機器人運動、機械臂操控、 空間探索與導航等領域面臨的探索困難問題. 此外, 在量化投資、自然語言處理等領域, 基于內在動機的 DRL 探索方法也發揮著重要作用. 例如, 針對股票市 場的自動金融交易策略學習問題, Hirchoua 等人[116] 將 PPO 算法與基于好奇心驅動的風險學習的內在獎 勵相結合進行交易策略學習, 并在 8 個真實股票交易 上對其訓練得到的策略的適用性和有效性進行了驗 證; 針對面向目標的對話策略學習問題, Wesselmann 等人[117] 采用基于好奇心的內在獎勵來克服稀疏獎勵 問題, 以改進狀態動作空間的探索效率, 從而獲取更 多有關用戶目標的知識來訓練對話策略。 **4 總結 **
本文首先描述了 DRL 方法對高效率探索方法的 需求、經典方法的原理和局限性, 接著引入了內在動 機的概念和功能, 在此基礎上重點梳理了內在動機 與 DRL 結合的不同形式. 它們主要包括: 1) 受新穎 性動機驅動的基于計數的內在獎勵形式化; 2) 受好 奇心驅動的預測誤差的獎勵設計; 3) 受學習提升期 望驅動的精度提升和信息增益近似方法; 4) 以狀態 多樣性為啟發式的最大熵方法; 5) 追求自主性和控 制力的互信息量化方法. 然后介紹了基于內在動機 的 DRL 探索技術在機器人運動、機械臂操作、空間 探索與導航等領域的應用情況. 最后深入分析了基 于內在動機的 DRL 探索方法在應用于貼近真實的復 雜場景時, 仍面臨著難以構建有效的狀態表示、環境 認知效率低、復雜目標/任務空間探索效果差等關鍵 問題, 并對基于內在動機的探索方法結合表示學習、 知識積累、獎勵設計、目標空間探索、課程學習、多 智能體強化學習等領域方向開展研究進行了展望.
行為識別是當前計算機視覺方向中視頻理解領域的重要研究課題。從視頻中準確提取人體動作的特征并識別動作,能為醫療、安防等領域提供重要的信息,是一個十分具有前景的方向。本文從數據驅動的角度出發,全面介紹了行為識別技術的研究發展,對具有代表性的行為識別方法或模型進行了系統闡述。行為識別的數據分為RGB模態數據、深度模態數據、骨骼模態數據以及融合模態數據。首先介紹了行為識別的主要過程和人類行為識別領域不同數據模態的公開數據集;然后根據數據模態分類,回顧了RGB模態、深度模態和骨骼模態下基于傳統手工特征和深度學習的行為識別方法,以及多模態融合分類下RGB模態與深度模態融合的方法和其他模態融合的方法。傳統手工特征法包括基于時空體積和時空興趣點的方法(RGB模態)、基于運動變化和外觀的方法(深度模態)以及基于骨骼特征的方法(骨骼模態)等;深度學習方法主要涉及卷積網絡、圖卷積網絡和混合網絡,重點介紹了其改進點、特點以及模型的創新點。基于不同模態的數據集分類進行不同行為識別技術的對比分析。通過類別內部和類別之間兩個角度對比分析后,得出不同模態的優缺點與適用場景、手工特征法與深度學習法的區別和融合多模態的優勢。最后,總結了行為識別技術當前面臨的問題和挑戰,并基于數據模態的角度提出了未來可行的研究方向和研究重點。 //www.cjig.cn/jig/ch/reader/view_abstract.aspx?file_no=20221101&flag=1
顯著性目標檢測旨在對圖像中最顯著的對象進行檢測和分割,是計算機視覺任務中重要的預處理步驟之一,且在信息檢索、公共安全等領域均有廣泛的應用.本文對近期基于深度學習的顯著性目標檢測模型進行了系統綜述,從檢測粒度的角度出發,綜述了將深度學習引入顯著性目標檢測領域之后的研究成果.首先,從三個方面對顯著性目標檢測方法進行了論述:稀疏檢測方法,密集檢測方法以及弱監督學習下的顯著性目標檢測方法.然后,簡要介紹了用于顯著性目標檢測研究的主流數據集和常用性能評價指標,并對各類主流模型在三個使用最廣泛的數據集上進行了性能比較分析.最后,本文分析了顯著性目標檢測領域目前存在的問題,并對今后可能的研究趨勢進行了展望.
作為機器人技能學習中的一個重要分支, 模仿學習近年來在機器人系統中得到了廣泛的應用. 模仿學習能夠將人類的技能以一種相對直接的方式遷移到機器人系統中, 其思路是先從少量示教樣本中提取相應的運動特征, 然后將該特征泛化到新的情形. 本文針對機器人運動軌跡的模仿學習進行綜述. 首先 詳細解釋模仿學習中的技能泛化、收斂性和外插等基本問題; 其次從原理上對動態運動基元、概率運動基元和核化運動基元等主要的模仿學習算法進行介紹; 然后深入地討論模仿學習中姿態和剛度矩陣的學習問題、協同和不確定性預測的問題以及人機交互中的模仿學習等若干關鍵問題; 最后本文探討了結合因果推理的模仿學習等幾個未來的發展方向.
深度學習模型被證明存在脆弱性并容易遭到對抗樣本的攻擊,但目前對于對抗樣本的研究主要集中在計算機視覺領 域而忽略了自然語言處理模型的安全問題.針對自然語言處理領域同樣面臨對抗樣本的風險,在闡明對抗樣本相關概念的基 礎上,文中首先對基于深度學習的自然語言處理模型的復雜結構、難以探知的訓練過程和樸素的基本原理等脆弱性成因進行分析,進一步闡述了文本對抗樣本的特點、分類和評價指標,并對該領域對抗技術涉及到的典型任務和數據集進行了闡述;然后按 照擾動級別對主流的字、詞、句和多級擾動組合的文本對抗樣本生成技術進行了梳理,并對相關防御方法進行了歸納總結;最后 對目前自然語言處理對抗樣本領域攻防雙方存在的痛點問題進行了進一步的討論和展望.
小目標檢測一直是目標檢測領域中的熱點和難點,其主要挑戰是小目標像素少,難以提取有效的特征信息.近年來,隨著深度學習理論和技術的快速發展,基于深度學習的小目標檢測取得了較大進展,研究者從網絡結構、訓練策略、數據處理等方面入手,提出了一系列用于提高小目標檢測性能的方法.該文對基于深度學習的小目標檢測方法進行詳細綜述,按照方法原理將現有的小目標檢測方法分為基于多尺度預測、基于數據增強技術、基于提高特征分辨率、基于上下文信息,以及基于新的主干網絡和訓練策略等5類方法,全面分析總結基于深度學習的小目標檢測方法的研究現狀和最新進展,對比分析這些方法的特點和性能,并介紹常用的小目標檢測數據集.在總體梳理小目標檢測方法的研究進展的基礎上,對未來的研究方向進行展望.
近年來,深度強化學習的取得了飛速發展,為了提高深度強化學習處理高維狀態空間或動態復雜環境的能力,研究者將記憶增強型神經網絡引入到深度強化學習,并提出了不同的記憶增強型深度強化學習算法,記憶增強型深度強化學習已成為當前的研究熱點.本文根據記憶增強型神經網絡類型,將記憶增強型深度強化學習分為了4類:基于經驗回放的深度強化學習、基于記憶網絡的深度強化學習算法、基于情景記憶的深度強化學習算法、基于可微分計算機的深度強化學習.同時,系統性地總結和分析了記憶增強型深度強化學習的一系列研究成果存在的優勢和不足.另外,給出了深度強化學習常用的訓練環境.最后,對記憶增強型深度強化學習進行了展望,指出了未來研究方向.
零樣本學習旨在通過運用已學到的已知類知識去認知未知類.近年來,“數據+知識驅動”已經成為當下的新潮流,而在計算機視覺領域內的零樣本任務中,“知識”本身卻缺乏統一明確的定義.本文針對這種情況,嘗試從知識的角度出發,梳理了本領域內“知識”這一概念所覆蓋的范疇,共劃分為初級知識、抽象知識以及外部知識.基于前面對知識的定義和劃分梳理了當前的零樣本學習(主要是圖像分類任務的模型)工作,分為基于初級知識的零樣本模型、基于抽象知識的零樣本模型以及引入外部知識的零樣本模型.本文還對領域內存在的域偏移和樞紐點問題進行了闡述,并基于問題對現有工作進行了總結歸納.最后總結了目前常用的圖像分類任務的數據集和知識庫,圖像分類實驗評估標準以及代表性的模型實驗結果;并對未來工作進行了展望.
//www.jos.org.cn/jos/ch/reader/view_abstract.aspx?file_no=6146&flag=1
最近深度神經網絡已經在監督識別任務上取得了令人振奮的突破,但是深度神經網絡要求每個類都有足夠 多的且完全標注的訓練數據。如何從少數訓練樣本中學習并識別新的類別,對于深度神經網絡來說是一個具有挑戰性的問題。針對如何解決少樣本學習的問題,全面總結了現有的基于深度神經網絡的少樣本學習方法,涵蓋了方法 所用模型、數據集及評估結果等各個方面。具體地,針對基于深度神經網絡的少樣本學習方法,提出將其分為四種 類別,即數據增強方法、遷移學習方法、度量學習方法和元學習的方法;對于每個類別,進一步將其分為幾個子類 別,并且在每個類別與方法之間進行一系列比較,以顯示各種方法的優劣和各自的特點。最后,強調了現有方法的局限性,并指出了少樣本學習研究領域的未來研究方向。