深度分層強化學習是深度強化學習領域的一個重要研究方向,它重點關注經典深度強化學習難以解決的 稀疏獎勵、順序決策和弱遷移能力等問題.其核心思想在于,根據分層思想構建具有多層結構的強化學習策略,運用 時序抽象表達方法組合時間細粒度的下層動作,學習時間粗粒度的、有語義的上層動作,將復雜問題分解為數個簡 單問題進行求解.近年來,隨著研究的深入,深度分層強化學習方法已經取得了實質性的突破,且被應用于視覺導航、 自然語言處理、推薦系統和視頻描述生成等生活領域.該文首先介紹了分層強化學習的理論基礎;然后描述了深度 分層強化學習的核心技術,包括分層抽象技術和常用實驗環境;詳細分析了基于技能的深度分層強化學習框架和基 于子目標的深度分層強化學習框架,對比了各類算法的研究現狀和發展趨勢;接下來介紹了深度分層強化學習在多 個現實生活領域中的應用;最后,對深度分層強化學習進行展望和總結.
強化學習(reinforcement learning,簡稱 RL)是機器學習領域的一個重要分支,它以馬爾可夫決策過程 (markov decision process,簡稱 MDP)為理論基礎,是一種交互式學習方法[1] .深度強化學習(deep reinforcementlearning,簡稱 DRL)作為深度學習(deep learning,簡稱 DL)[2]和 RL 的結合算法,同時具備了 DL的感知能力和 RL的決策能力,初步形成從輸入原始數據到輸出動作控制的完整智能系統.近些年,劉全等人[3]對 DRL進行了全面 的分析和解讀,總結了深度??網絡(deep q-learning network,簡稱 DQN)[4]、深度確定性策略梯度(deep deterministicpolicy gradient,簡稱 DDPG)[5]和異步行動者-評論家(asynchronous advantage actor-critic,簡稱 A3C)[6]等經典算 法,并介紹了多種前沿研究方向.
分層強化學習(hierarchical reinforcement learning,簡稱 HRL)[7]作為 RL的重要分支,與經典 RL方法的最大 區別在于,它以半馬爾可夫決策過程(semi-markov decision process,簡稱 SMDP)[8]為理論基礎,基于分層抽象技 術,從結構上對 RL 進行改進,重點關注 RL 難以解決的稀疏獎勵、順序決策和弱遷移能力等問題,實現了更強的 探索能力和遷移能力.但是,HRL 仍然存在計算能力不足,無法對狀態特征進行高效表達的問題,通常只能處理 離散狀態-動作空間任務.在 DRL 的成功應用后,深度分層強化學習(deep hierarchical reinforcement learning,簡 稱 DHRL)[9]同樣將 DL 方法引入 HRL 框架,不僅從理論層面對 HRL 進行了拓展,還利用深度網絡實現了更強的 特征提取能力和策略學習能力,構建了更有效、更靈活的分層結構,可以有效解決更復雜的任務[10].隨著 DHRL理論的發展和完善,逐步形成了,以下層策略學習基礎任務實現能力,上層策略學習下游任務解決方案的問題求 解路線.目前,DHRL 已經被廣泛應用于視覺導航[11]、自然語言處理[12]、推薦系統[13]和視頻描述生成[14]等真實 世界應用領域.
為了對 DHRL 進行系統的分析和總結,我們首先在中國計算機學會推薦國際學術會議和期刊,以及 CNKI論文數據庫中,以“hierarchical reinforcement learning”,“option reinforcement learning”和“subgoal reinforcementlearning”等關鍵詞進行檢索,并在谷歌學術中,將被引次數超過 500 的核心論文[1, 15-17]作為基準,檢索引用了這些 論文的HRL和 DHRL論文;然后通過人工審查方式,對已檢索的論文進行篩選,排除與研究問題無關和已被收錄 的網絡論文.我們用圖 1 和圖 2 對所篩選論文進行展示.圖 1 反映了從 1998 年(HRL理論基礎被提出的年份[8])至 2021 年(截止到 2021 年 6 月),在各類會議、期刊和網絡上,較有影響力的 HRL和 DHRL相關論文的數量及 刊載情況,它們中的絕大多數都被收錄于 CCF A 類會議(112 篇)、CCF B類會議(25篇)、SCI 一區期刊(7篇)和 SCI 二區期刊(22 篇).圖 2 反映了從 1998 年至 2021 年(截止到 2021 年 6 月),HRL和 DHRL相關論文的被引次 數.從圖 1 和圖 2 可以看出,一方面,HRL 與 DHRL 的研究熱度逐年增加,尤其是在 2016之后,隨著 DL的發展和 DRL 的出現,國內外學者對 DHRL 的關注程度與日俱增.另一方面,相關論文的被引次數在 1999年和 2017年出 現高峰,這與 RL 奠基工作的開展和 DRL 的飛躍式發展有著密切關系.
本文以 HRL 基礎理論為研究脈絡,重點關注 DHRL 的研究現狀和發展趨勢. 第1章對 HRL的基礎理論進 行介紹;第 2 章描述了 DHRL 的核心技術,包括可以解決的問題、常用實驗環境和 DHRL主流框架的劃分依據;第 3、4 章分析了兩種 DHRL 框架下的核心算法,詳細說明了各類算法的發展歷程、研究重心和優缺點;第 5章 對 DHRL 在現實生活領域中的應用進行介紹;第 6、7 章對 DHRL 進行展望和總結.
深度分層強化學習技術
SMDP 和時序抽象法作為 DHRL 方法的核心技術,是構造分層結構的基礎,我們將這兩種核心技術統稱為 分層抽象技術.當一個序列動作包含多個序列動作或多個基礎動作時,可以認為前者是比后者層次更高、語義 更強的動作[8] .將這些動作以一定規則進行組合,便形成了 DHRL 的多層結構.與經典 DRL相比,DHRL算法有更 強的問題解決能力,具體來說,DHRL 常用來解決以下 3 種問題:
(1) 稀疏獎勵
DRL 的本質是利用獎勵函數強化行為的過程,好的獎勵函數可以反映任務的特性,引導狀態和動作的價值 被正確估計,進一步優化策略.但經典 DRL 把狀態空間看成一個巨大的、平坦的搜索空間[21] ,這意味著,智能體 從初始狀態到終止狀態的路徑非常長,過長的路徑會產生獎勵信號變弱、延遲增高等問題.一旦環境只能提供 稀疏獎勵信號,問題會變得更為棘手.此外, ? -貪婪策略和動作噪音作為 DRL常用的探索方案[22, 23],只能輔助智 能體探索臨近的、有限的狀態空間,尤其在稀疏獎勵環境下,無法為智能體提供探索更廣闊狀態空間的動力.反 過來,探索能力又會影響算法在稀疏獎勵環境中的性能.而 DHRL 利用分層抽象技術,可以組合多個時序擴展動 作,幫助智能體實現更大范圍的狀態空間快速覆蓋,強化探索能力;同時,也可以快速捕獲外部獎勵,或收集內部 獎勵,以此克服稀疏獎勵問題.
(2) 順序決策
許多任務的實現需要遵循一定的順序決策過程,例如在蒙特祖瑪的復仇中,需要先拿到鑰匙才可以打開門.該問題有時也被看成部分可觀測馬爾可夫決策過程(partially observable MDP,簡稱 POMDP)[24, 25],因為從本質 上來說,如果不給予先驗知識,鑰匙的獲取對智能體來說是不可觀測的.經典 DRL往往無法記錄中間過程,或找 不到決策規律.DHRL 的多層結構可以關注不同水平的知識結構[26] ,智能體在得到一些關鍵信息后,切換上層策 略,以實現對順序決策信息的隱性表達.
(3) 弱遷移能力
經典 DRL 通常存在策略可遷移能力不足的問題,即每一個任務都需要學習專屬的網絡[4] ,且一種算法往往 只可以在單一或少數幾個任務上取得較優結果.DHRL 能夠學到具有高遷移能力的 option,在面對相似任務時,智能體可以快速獲得學習能力[27] .同時,DHRL 充分利用狀態抽象法,將不同狀態轉化為相似的抽象特征,建立有 效的狀態特征表達機制[28] ,輔助 option 在相似狀態區域上的重用. DHRL 具有較強的學習能力,可以說,DHRL 對復雜問題的求解能力正是源于分層抽象技術的應用.但分層 抽象技術同樣也會引入一些額外問題,包括分層結構參數過多,訓練時間過長,option學習過程與組合過程的矛 盾,異策略分層同步訓練不穩定,以及子目標太遠難以到達等問題.對于一些更具體的情況,我們將在后續章節 于每一個核心算法的論述中進行說明,并介紹更為優秀的算法如何在前文基礎上進行改進,以解決這些額外問 題.
基于分層抽象技術,學者們提出了豐富多樣的 DHRL 方法,根據求解思路的差異,我們將它們分為: (1)基于技能的深度分層強化學習框架(option-based DHRL,簡稱 O-DHRL)(option 在 O-DHRL中常被稱為技能(skill),為保證符號的統一,下文依然用符號 o 來表示).下層網絡學習一組技能,然后由上層網絡調用這些技能,使用不 同的組合技能來解決下游任務;** (2) 基于子目標的深度分層強化學習框架**(subgoal-based DHRL,簡稱 G-DHRL).利用神經網絡提取狀態特征,然后將狀態特征作為子目標空間.上層網絡學習產生子目標,下層網絡根據內部驅 動來實現子目標.除此之外,早些年學者還提出了基于子任務的分層強化學習框架(subtask-based HRL,簡稱 S-HRL)[60] ,但該框架引入了嚴重的先驗知識問題,需要人工經驗進行任務分解,如果原問題復雜難分,則難以使 用該方法.因此,在追求端到端解決問題的 DRL 領域中,極少有論文[61-63]以 S-HRL為基礎進行拓展,不足以構成 完整的 DHRL 研究方向,故本文不討論該支線.
基于技能的深度分層強化學習
O-DHRL 與 SMDP 密不可分,而求解 SMDP 問題的關鍵在于如何定義和尋找 option.從內容上看,option既 可以由先驗知識定義,也可以由算法學習產生.從形式上看,option 既可以是單步的基礎動作,也可以是一組動作 序列,或是另一組 option. O-DHRL 的每個 option 可以由一個 3 元組 , 來表示[80] ,該 3 元組的含義分別是:(1)I表示 option初始狀態集,當且僅當狀態
時,option 才會被執行.初始條件 I 也可以被看成 option策略
,智能體通過 option 策略
選擇當前的 option;(2)
表示 option o 的內部策略,用于產生序列動作或序列 option;(3)
表示 option o 的中斷函數,當某一狀態滿足
條件時,該 option 結束.通常,智能體在某一初始狀態選擇某一 option后,執行該 option 內部策略,在到達某一狀態或滿足中斷函數時,停止該 option,并以此刻狀態為初始狀態,繼續執行 下一 option.盡管 O-DHRL 增加了 MDP 的復雜性,但它具有易實現和分層易拓展的優點. 根據近幾年 O-DHRL 的技術發展路線,以上下層策略是否同步訓練,將 O-DHRL框架分為同步式技能 (synchronous option,簡稱 SO)和異步式技能(asynchronous option,簡稱 AO):(1)在 SO-DHRL中,技能和上層策略 的訓練過程是同步的,根據對任務處理能力和技能遷移能力的側重差異,SO-DHRL又分為獨立型技能和共享型 技能.SO-DHRL 可以針對特定任務,直接得到與任務高度相關的技能組合,具有明顯的性能優勢,但單次訓練的 成本較高;(2)在 AO-DHRL 中,技能和上層策略的訓練過程是分離的,根據求解步驟,AO-DHRL又分為技能學習 和技能組合.下層網絡(技能網絡)在訓練好數個技能后,由上層策略在下游任務中調用這些技能.它通常要求技 能在任務無關的環境下進行訓練,使學到的技能具有較好的狀態覆蓋能力和可遷移能力.但技能的多樣性難以 被量化,組合技能也不一定總是優于非分層算法.
基于子目標的深度分層強化學習
深度分層強化學習應用
目前,DHRL 方法已經被廣泛應用于視覺導航、自然語言處理、推薦系統和視頻描述生成等真實世界應 用領域,以解決現實生活中的稀疏獎勵和順序決策等問題,并展現出巨大的商業價值.圖 7描述了從 2016年至 2021 年(截止到 2021 年 6 月),DHRL 在不同真實世界應用領域的論文數量占比情況(共 78篇).
視覺導航領域
視覺導航領域包括自動駕駛模擬和目標導向機器人兩種任務,它們不僅要求智能體具備對圖像數據的表 達能力,還要求控制器能夠以不同頻率更新路況信息和動作策略.考慮到這些特性,將分層抽象技術應用在視覺 導航領域,可以發揮重要作用.
大量研究表明,許多動物在自我定位和路徑規劃方面形成空間表達的能力,都依賴于大腦對原始感知信號 的特征編碼.在自動駕駛模擬任務中,慢性特征分析算法(slow feature analysis,簡稱 SFA)[123]從視覺圖像中學得 拓撲地圖,利用 DHRL 從拓撲地圖中學得豐富的環境層級表達,為車輛在不同空間尺度上實現自我定位和方向 檢測.在紅綠燈通行問題中,Chen 等人[11]提出了一種分層策略梯度方法,學習數個簡單且有差異的技能,然后組 合技能來獲得對復雜問題的求解能力,使車輛在交通燈變黃時做出正確選擇.這些算法的實驗結果均表明,相比 于經典 DRL,DHRL 有更好的學習能力,可以幫助車輛實現模擬駕駛,包括并道和等待紅綠燈等操作. 在目標導向機器人應用中,出于穩定和安全的考慮,位置估計器需要以較低頻率更新,而動作控制器必須在 幾毫秒內計算出電機指令.Jain 等人[124]針對 4 足機器人路徑跟蹤任務,充分利用 DHRL的分層結構特性和時序 解耦方案,為上下層控制器使用不同的狀態表達,強調位置估計和動作控制的不同關注點,確保下層策略的可重 用能力;并在可變的時間尺度上更新上下層策略,減輕硬件對上層狀態信息的處理需求.Li 等人[125]在 18自由度 機器人的多目標導向任務中,對技能進行預訓練,得到可以實現簡單目標的技能(如轉彎和直線行走),然后對技 能進行規劃學習.這種分層學習方式不僅可以利用預訓練技能提高對多目標任務的求解能力,還可以減少構建 上層模型所需的硬件數據.
自然語言處理領域
DHRL 在自然語言處理領域常用于任務導向型對話生成(task-oriented)和開放域對話生成(open-domain)方 向,與經典環境 Atari 相比,這些任務的動作維度要高出多個數量級. 在任務導向型對話生成任務中,Budzianowski 等人[126]利用 DHRL 的強遷移能力來學習跨領域對話系統.考 慮到不同領域中存在著相似的子域,如訂購房間和購買書本主域都有付款子域,該算法在不同主域的相似子域 中學習可共享的信息,以訓練通用的下層策略.Saha 等人[127, 128]利用 DHRL框架來學習多意圖對話策略.考慮到 大多數對話系統只使用了用戶語義,而忽略了用戶行為和情感在對話中的作用,該算法將基于情感的即時獎勵 引入到對話系統基礎獎勵中,使問答機器人具有自適應能力,意圖獲得最大用戶滿意度.實驗結果表明,用戶情 感和行為等信息在創造復合性的問答機器人和最大化用戶滿意度方面,均發揮了重要作用. 在開放域對話生成領域,經典 DRL 方法[129, 130]往往只能在單詞層面上構建獎勵模型,這種低水平的控制將 不利于信用分配,導致獎勵模型難以跟蹤長期對話目標.為克服這一挑戰,Saleh 等人[131]提出變分對話模型分層 強化學習算法(variational sequence model HRL,簡稱 VHRL),該算法不再單純考慮單詞級別的信息,而是在話語 層次上建立獎勵模型,提高模型的全局視野和靈活性,以學習長期的對話回報.VHRL避免了在電影這類長對話 數據中,可能產生的不適當、有偏見或攻擊性的文本,在人類評估和自動指標性能方面,均超過了最先進的對話 模型[132] .
** 推薦系統領域**
推薦系統具有巨大的商業價值,序列推薦(sequential recommendations)作為推薦系統中與 DRL技術緊密相關的研究方向[133, 134] ,意圖通過交互獲得的項目序列(item sequence)來刻畫用戶偏好. 對于同質項目(homogeneous items)(如不同類型的文章),注意力機制方法[132]已經可以區分不同歷史項目 對推薦目標項目的貢獻程度,但當用戶記錄存在過多噪音時,注意力機制的效果會變差.為了消除用戶記錄的噪 音,Zhang 等人[135]將推薦問題形式化為順序決策過程,在由數據集和基礎推薦模型構成的環境反饋下,上層控制 器判斷用戶記錄是否需要修改,下層控制器對需要修改的項目進行判定和刪除.該算法在慕課(open onlinecourses,簡稱 MOOCs)數據集中進行了驗證,結果顯示,可以有效消除用戶噪音的影響.此外,為了克服項目數據 過大和用戶記錄稀疏的問題,Wang 等人[136]提出基于聚類的分層強化學習算法(clustering-based reinforcementlearning,簡稱 CHRL).該算法先對基礎推薦系統進行預訓練,然后設計分層結構來過濾可能誤導推薦系統的交 互,同時加入聚類策略,以減少項目數據的稀疏問題. 相比于同質項目推薦系統,綜合推薦系統[137]需要在一個頁面中同時推薦異質項目(heterogeneous item)(如 文章和視頻).Xie 等人[138]提出綜合推薦分層強化學習框架(HRL framework for integrated recommendation,簡稱 HRL-Rec),在該框架中,上層控制器作為頻道選擇器,負責在列表推薦器中生成頻道序列;下層控制器作為項目 推薦器,負責在頻道列表中選擇項目,以此捕獲用戶不同粒度的偏好.目前,該方案已應用于微信看一看線上系 統,實現了 DHRL 在推薦系統領域的商業價值.
視頻描述生成領域
視頻描述(video captioning,簡稱 VC)作為集視覺和文本兩個維度的多模態任務,具有更高的復雜度.當前基 于 DL 的視頻描述方法通常利用自動編碼器(auto-encoder),來學習從視頻序列到文本序列的轉移過程[139],但這 些方法往往只能提取到粗粒度的視頻特征,無法在噪音背景下捕獲明確的對象,損失了對重要內容的理解能力.為消除視頻噪音,提取細粒度的視頻描述特征,Wang 等人[14]在 VC領域中引入 DHRL,將文本和視頻語境視 為強化學習環境,定義任務為一個順序決策過程.在該算法中,上層控制器為新文本片段產生子目標,下層控制 器按序列產生的單詞來生成文本片段,采用二元判定機制評估當前子目標是否被實現.為了克服更具挑戰的多 語句生成問題,Huang 等人[140]提出了一種 DHRL框架,上層控制器為每個圖像序列生成語義連貫的主題,下層控 制器根據主題,使用語義合成網絡生成句子描述,將句子生成建立在主題的基礎上.該算法在視覺故事(visualstorytelling,簡稱 VIST)數據集上的評測結果表明,其性能明顯優于其他 DL模型[141] .此外,Chen等人[142]首次將 DHRL 應用于視頻摘要生成領域,將整個任務分解成若干子任務,通過定義子目標和內部獎勵來解決稀疏獎勵 問題.該算法在視頻摘要數據集上的表現不僅超越了最先進的無監督方法[143] ,甚至超越了它的有監督擴展方法 [144] .
近年來, 深度神經網絡(DNNs)在許多人工智能任務中取得卓越表現, 例如計算機視覺(CV)、自然語言處理(NLP). 然而, 網絡設計嚴重依賴專家知識, 這是一個耗時且易出錯的工作. 于是, 作為自動化機器學習(AutoML)的重要子領域之一, 神經結構搜索(NAS)受到越來越多的關注, 旨在以自動化的方式設計表現優異的深度神經網絡模型. 全面細致地回顧神經結構搜索的發展過程, 進行了系統總結. 首先, 給出了神經結構搜索的研究框架, 并分析每個研究內容的作用; 接著, 根據其發展階段, 將現有工作劃分為4個方面, 介紹各階段發展的特點; 然后, 介紹現階段驗證結構搜索效果經常使用的數據庫, 創新性地總結該領域的規范化評估標準, 保證實驗對比的公平性, 促進該領域的長久發展; 最后, 對神經結構搜索研究面臨的挑戰進行了展望與分析.
深度學習 (deep learning)[1]已成為現階段人工智能領域發展的重要推動力. 不同于傳統手工設計特征, 深度神 經網絡以一種端到端的方式, 自動提取數據深層表征, 已在多個人工智能學科領域內取得卓越表現, 例如計算機視覺 (computer vision)、自然語言處理 (natural language processing)、語音識別 (speech recognition)、智能機器人 (intelligent robot) 等. 盡管深度學習在上述領域內取得成功, 研究人員還是面臨著神經網絡設計困難的挑戰. 尤其 是當前手工設計的神經網絡結構越來越復雜, 不利于更多研究人員和從業人員使用深度學習. 于是, 研究者開始尋 求一種自動化方式, 實現自主設計神經網絡的目標, 即神經結構搜索 (neural architecture search, NAS).
自動化機器學習 (automated machine learning, AutoML) 是一種自動化的數據驅動方法, 并做出一系列決策. 僅需要使用者提供數據, 自動化機器學習技術能夠自動獲取最佳訓練方案, 極大地降低機器學習技術的應用難度. 作 為自動化機器學習的重要子領域之一, 神經結構搜索旨在以一種自動化的方式, 解決高難度的復雜神經網絡設計 問題. 具體上, 根據專家預先定義的搜索空間 (search space), 神經結構搜索算法在一個龐大的神經網絡集合中評估 結構性能并尋找到表現最佳的網絡結構. 自動化結構搜索的結果往往是專家手工設計過程中未考慮的, 能夠取得 更加優異的性能表現, 尤其在一些硬件資源受限的應用場景中, NAS 往往能取得驚人的效果. 神經結構搜索在超 參數選擇的過程中扮演著關鍵角色, 而且具有重要的理論意義和應用價值. 面向一種特殊的神經網絡結構超參數, 神經結構搜索聯合優化理論和機器學習理論, 有效地解決神經網絡模型的調參問題, 降低神經網絡的使用成本與 實現成本, 促使模型設計的智能化與神經網絡應用的大眾化.
近年來, 神經結構搜索成為人工智能領域中的熱點方向之一. 根據 automl.org 列舉的文獻情況, NAS 文章發表 時間與數量分布如圖 1 所示. 自 2015 年起, 關于 NAS 的文章數量呈現指數增長的趨勢. 回顧神經結構搜索技術的 發展, 本文對神經結構搜索的已有重點研究工作進行全面綜述. 在 NAS 算法發展的初期, NAS 算法通常采用采樣 重新訓練的策略, 即從預先定義好的搜索空間中采樣數量龐大的網絡結構, 分別對每個采樣結構重新訓練并評估 性能, 以獲取表現最佳的神經網絡. 這是廣大研究者公認的真正意義上的一種神經結構搜索方法, 實驗結果的優越 性也表明其有效性. 然而, 對于 Cifar-10 數據集, 這類方法需要應用 800 個圖形處理單元, 持續近一個月才能完成 對最佳結構的搜索. 因此, 這種采樣重新訓練策略對計算資源的需求過大, 不利于 NAS 領域的發展與落地應用. 于 是, 為了降低搜索階段的資源消耗, 神經結構搜索領域內應用最廣的一種加速方式: 權重共享策略 (weight-sharing strategy), 即盡可能地利用已經訓練好的模型, 避免重新訓練. 目前這種權重共享的搜索策略已經成為神經網絡結 構搜索的主流方向. 簡而言之, 首先將預先設定的搜索空間表示為已經訓練好的超級網絡 (super-network), 然后在 保留原始權重的同時, 直接對采樣的子結構 (sub-architectures) 進行性能評估, 不需要重新進行模型訓練.
自 2018 年起, 已經有多篇神經結構搜索的研究綜述[2?5]對該任務進行了介紹. Elsken 等人[2]給出了較全面的 神經結構搜索領域的研究內容, 并從搜索空間、搜索策略和性能評估 3 個維度對 NAS 方法進行分類介紹. Xie 等 人[4]深入分析基于權重共享的神經結構搜索方法, 并給出現階段存在的優化缺陷與解決方案, 是目前 NAS 領域最 全面的研究型綜述. 然而, 回顧并反思現階段的 NAS 發展, 最嚴重的問題就是實驗評估中的不公平比較, 以及評估 數據的局限性進一步限制神經結構搜索算法的通用性能, 這兩個角度目前尚未在上述綜述論文中得到分析, 我們 將詳細分析并給出相應的解決方案.
為了給讀者提供清晰直觀的 NAS 發展經歷, 本文創新性地根據其發展階段, 將現有工作劃分為 4 個階段, 即 早期、快速發展期、應用期和反思期. 我們認為這種劃分方式能夠對今后研究 NAS 的工作人員提供很好的研究基礎, 更好地了解本領域的技術發展. 本文重點分析現階段 NAS 算法在實驗評估環節的缺陷, 建設性地提出規范 化評估手段, 公正客觀地對比不同方法, 推動該領域的良好發展與落地. 最后, 我們根據自身的研究基礎, 概括 NAS 領域的現有問題與挑戰, 提出若干點未來可能的研究方向, 幫助新的從業人員快速著手神經結構搜索研究.
摘要: 推薦系統致力于從海量數據中為用戶尋找并自動推薦有價值的信息和服務,可有效解決信息過載問題,成為大數據時代一種重要的信息技術。但推薦系統的數據稀疏性、冷啟動和可解釋性等問題,仍是制約推薦系統廣泛應用的關鍵技術難點。強化學習是一種交互學習技術,該方法通過與用戶交互并獲得反饋來實時捕捉其興趣漂移,從而動態地建模用戶偏好,可以較好地解決傳統推薦系統面臨的經典關鍵問題。強化學習已成為近年來推薦系統領域的研究熱點。文中從綜述的角度,首先在簡要回顧推薦系統和強化學習的基礎上,分析了強化學習對推薦系統的提升思路,對近年來基于強化學習的推薦研究進行了梳理與總結,并分別對傳統強化學習推薦和深度強化學習推薦的研究情況進行總結;在此基礎上,重點總結了近年來強化學習推薦研究的若干前沿,以及其應用研究情況。最后,對強化學習在推薦系統中應用的未來發展趨勢進行分析與展望。
強化學習(ReinforcementLearning,RL)作為機器學習領域中與監督學習、無監督學習并列的第三種學習范式,通過與 環境進行交互來學習,最終將累積收益最大化.常用的強化學習算法分為模型化強化學習(ModelGbasedReinforcementLearG ning)和無模型強化學習(ModelGfreeReinforcementLearning).模型化強化學習需要根據真實環境的狀態轉移數據來預定義 環境動態模型,隨后在通過環境動態模型進行策略學習的過程中無須再與環境進行交互.在無模型強化學習中,智能體通過與 環境進行實時交互來學習最優策略,該方法在實際任務中具有更好的通用性,因此應用范圍更廣.文中對無模型強化學習的最 新研究進展與發展動態進行了綜述.首先介紹了強化學習、模型化強化學習和無模型強化學習的基礎理論;然后基于價值函數 和策略函數歸納總結了無模型強化學習的經典算法及各自的優缺點;最后概述了無模型強化學習在游戲 AI、化學材料設計、自 然語言處理和機器人控制領域的最新研究現狀,并對無模型強化學習的未來發展趨勢進行了展望.
深度強化學習主要被用來處理感知-決策問題,已經成為人工智能領域重要的研究分支。概述了基于值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,并綜述了深度強化學習在視頻游戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最后,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。