未來智能化戰爭無人集群作戰中,計算力的云邊端供給成為重要模式,其邊緣計算技術作為關鍵使能技術,能解決作戰邊緣任務執行實時性差、帶寬受限、數據安全等問題。闡明無人集群背景下邊緣計算的概念和技術內涵,給出一個面向戰術邊緣的云-邊-端分布式系統框架,以實現無人集群作戰的信息互聯互通、戰場局部和全局態勢感知、群智能決策和協同控制;對該框架涉及的關鍵技術,包括邊緣計算框架、邊云協同、計算卸載、邊緣指揮控制等關鍵技術展開綜述;展望和總結了無人集群作戰下的邊緣計算技術,為未來智能化戰爭邊緣戰術提供了參考。
無人集群作戰是指通過多無人平臺的傳感設備獲取戰場實時數據,并通過可靠通信網絡實現信息交換,充分發揮自身作戰能力,以最大化作戰效益的一種作戰模式。該模式具有分布式決策、體系魯棒性高、效費交換比高等優勢,目前已成為未來無人作戰發展的主要趨勢之一。現代作戰中高效信息流通是保障作戰效率的關鍵因素。由于作戰環境充滿電磁輻射干擾,向云服務中心的請求通常會受限于較高的傳輸成本和時延。另外,對于傳統的中心式作戰決策模式,由于由局部態勢信息向中心的共享存在滯后和不一致問題,無法將決策中心、戰地指揮所與信息流末端的作戰平臺形成統一的調度和管理。通常高層決策中心決策時所依賴的信息已經過逐級處理,這勢必會把部分對態勢評估有價值的信息忽略掉。同時隨著越來越多的智能化作戰平臺投入戰場,終端會產生大量的數據而得不到及時的利用,龐大的信息整合與處理對指揮決策而言是一大挑戰。根據《解放軍報》2021年11月30日的作戰專論“智能化戰爭:強者勝的三個維度”,未來智能化戰爭中,連接力、計算力、認知力等新的戰斗力因子成為左右戰爭勝負的新變量,其中計算力強者勝理念推動了算力的云邊端供給模式。特別是近年來,美軍大力發展類似F-22戰機充當“戰斗云”(云+邊+端計算模式),提高無人系統的人工智能技術含量,以推動自主作戰平臺的自協同能力提升等。基于當前無人集群作戰的背景下,戰場決策與控制權逐漸從云上向戰術邊緣下沉,從平臺的角度來看,旨在充分開發邊緣平臺數據獲取、自主決策的能力。從作戰任務環境來看,決策與控制的下沉彌補了單平臺資源緊缺、信息受限、能力不足等缺點,能夠針對日益復雜的任務和動態變化的作戰邊界做出及時響應。云邊端模式下的邊緣計算具備低延遲、高安全性、低流量等優勢,能夠提供作戰平臺高可靠和隱私保護的本地計算服務,在軍事領域具有廣泛的應用需求和前景[1]。為此本文擬面向未來智能化戰爭的無人集群作戰技術,研究“云+邊+端”計算模式下邊緣計算的發展現狀和未來趨勢。本文對無人集群、邊緣計算的發展簡史以及整體過程進行縱向簡述,提出面向戰術邊緣的云-邊-端分布式系統框架,引出目前無人集群作戰背景下邊緣計算的關鍵技術;綜述了該框架涉及的邊緣計算框架、邊云協同、計算卸載、邊緣指揮控制等關鍵技術;闡明了無人集群邊緣計算發展趨勢并對全文進行了總結。
通過文獻梳理、專家訪談和試驗場景構建等方法,分析了道路指定斷面和區域路網宏觀交 通流預測的國內外研究現狀和發展趨勢,歸納了局部斷面交通流預測方法,包括傳統機器學習、遞 歸神經網絡和混合模型,分析了卷積神經網絡、圖神經網絡和融合多因素網絡的特點,闡述了方法 的原理、優勢、局限性和應用場景,總結了現有場景交通數據集類別,從采樣周期與采集方式角度歸 納了國內外主流交通數據集.分析結果表明:遞歸神經網絡可以有效獲取交通數據的歷史規律,但 存在梯度爆炸、計算復雜度高、長時預測準確度不佳等問題;圖神經網絡針對路網拓撲連接關系引 入了圖結構,在考慮路網和交通流數據的時空相關性上具有明顯優勢;融合多因素網絡充分考慮天 氣、道路、事故等內外部因素的影響,有效提升了交通流預測的實時性和魯棒性;由于交通數據采集 困難、外部因素影響難以量化、機器學習方法可解釋性差等原因,交通流預測方法的改進受到了限 制;未來應從交通信息有效挖掘和圖卷積方法完善兩方面入手,拓寬圖結構在交通領域的應用和考 慮非常態交通場景,進一步揭示交通數據的內在規律,開發更準確、高效的交通流預測方法,推動交 通流預測在工業界的落地應用.
隨著城市化進程的加快以及人均車輛保有率的不斷提升,交通堵塞和交通事故已成為全球性問題,無論是發達國家還是發展中國家,現有交通系統都不可避免地存在著交通擁堵頻繁、交通事故嚴重、交通環境污染等問題。為了應對這些挑戰,許多城市致力于研究更高效的交通管理策略、更合理的交通資源分配和更優質的交通服務,特別是更精細的交通控制與誘導系統是智能交通系統(Intelligent Transportation System, ITS)研究的關鍵環節。其中,實時準確的交通狀態感知和預測是實現智能交通系統的重要環節,提前預測未來交通狀態可以為交通系統管理和規劃提供科學依據[1],交通管理部門以此制定更加靈活的交通控制策略,提前部署交通資源和引導交通流量,從而減少大規模交通擁堵現象[2];交通規劃部門可以有科學根據地進行道路改造與匝道設計,合理地部署紅綠燈、交通監控、交通標志標牌等交通設施[3];出行者基于準確的交通狀態預測信息可進行最優出行路徑和出行方案的制定。
快速發展的機器學習技術在智能交通系統中的出色表現受到了研究人員的廣泛關注[4]。在交通流預測中,傳統方法主要基于數理統計分析交通狀況演化的周期性來處理交通流預測問題。然而,由于數據時間序列分布的隨機干擾波動,限制了非線性交通流的高度可表達性,無法直接建模時間序列中交通數據的各種依賴關系。基于機器學習的交通流預測方法可以有效處理流量數據的復雜非線性問題,并且綜合考慮交通流量數據的歷史規律性和路網的空間相關性,具有較好的預測性能。目前,基于機器學習的交通流預測已經成為該領域的研究熱點。
本文綜述了機器學習在交通流預測領域的研究進展與未來發展方向。以預測空間范圍為依據對目前的交通流預測方法進行分類,重點分析了單一道路斷面和區域路網交通流預測的國內外研究現狀,從原理、優勢、局限性、應用場景和后續應用多個角度進行了闡述;從采樣周期與采集方式角度歸納了國內外主流交通數據集,對自建數據集,按照異常數據處理、缺失數據處理、數據標準化順序對數據處理的主流方法進行了概括;針對當前相關論文同質化現象進行了解釋,討論了交通數據應用領域存在的困難和挑戰,展望了未來交通流預測的主流發展方向。
無人集群系統是近年來國內外軍事領域的研究重點, 正在推動無人作戰樣式由 “單平臺遙控作戰” 向海陸空協作的 “智能群體作戰” 轉變. 綜述了近年來國內外在無人集群系統方面的最新研究進展, 包括軍事、國防和學術領域在無人系統自主 協同技術方面的探索和實踐, 闡述了無人集群系統相關的關鍵技術, 包括多 Agent 系統自主協同、多 Agent 系統態勢共識、未 知系統動力學、群體智能理論與技術、機器學習方法、行為決策方法以及實驗場景模擬等, 分析了不同關鍵技術的技術特征、 面臨挑戰和發展趨勢.
2018 年美國國防部頒布《國防部人工智能戰略 摘要》, 強調人工智能技術在軍事領域的應用, 并于 同年發布了無人集群系統并行作戰場景[1]. 2017 年 至今美國戰略和預算評估中心連續發布針對中俄兩 國的馬賽克式集群作戰等顛覆性作戰模式, 打造全 球范圍內的武器系統協同作戰[2] . 我國國務院在 2017 年提出《新一代人工智能發 展規劃》, 倡導人工智能領域的軍民融合, 以加快國 防技術的成果轉化, 并為指揮決策、軍事論證和國防 科研提供有力支撐[3] . 其中, 以群體智能為核心技術 的無人集群系統自主協同作戰是未來戰爭重要樣式, 美軍已經啟動高度自主智能化集群武器裝備的研究. 我軍也在積極探索利用人工智能算法提高無人系統 的智能化水平, 以取得戰爭主動權. 進一步看, 現代 戰爭中戰場環境瞬息萬變, 僅僅通過單系統的協作 不可能完全掌握戰場環境和態勢, 海、陸、空多類智 能系統的協同感知、聯合攻擊必將成為未來戰爭的 作戰模式. 2020 年 1 月, 中國科學院發布的《2019 年 人工智能發展白皮書》中, 將” 群體智能技術” 列為 了 8 大人工智能關鍵技術之一[4] . 同時, 無人裝備具 有低成本、小型化、功能單一、組網靈活等特性, 使 得無人裝備集群作戰通過數量優勢來打擊敵人. 在 網絡環境下, 這類由異質、異智系統 (智能體) 通過 彼此之間的信息交互構成的多維異構無人集群系統, 看作是異構智能群體系統, 即多智能體 (Agent) 系統. 其中, Agent 是對外界的刺激作出適當反應的實體, 不是被動的接受消息和控制. 展望未來, 誰懂得如何最好地使用無人集群智 能系統, 誰就有望在戰爭中取得巨大優勢.
具有沉浸顯示、智能輔助、自然化人機交互等先進控制能力的新型無人機地面站已成為當前無人機控制領域的研究熱點。為分析其中的技術脈絡,系統性地梳理國內外一系列無人機先進地面站的功能要點及設計理念,在此基礎上從無人機地面站指揮控制的觀察—判斷—決策—行動回路出發,歸納提煉了其技術體系構成,分析指出了其中的任務環境構建、戰場態勢沉浸式顯示、智能化輔助決策和自然化人機交互等關鍵技術,并對各項技術的主要研究方法進行了深入剖析,還對無人機先進地面站目前存在的挑戰和未來發展趨勢進行了研判。該研究對新型地面站的研制具有指導和借鑒意義。
目前,各個國家和地區均已將大數據視為重要的戰略資源.然而,大數據時代普遍存在數據流通困難、數據 監管不足等問題,致使數據孤島現象嚴重,數據質量低下,數據要素潛能難以釋放.這驅使研究人員探索數據集成技 術,以打破數據壁壘、實現信息共享、提升數據質量,進而激活數據要素潛能.關系型數據和知識圖譜作為兩種至關 重要的數據組織與存儲形式,在現實生活中應用廣泛.為此,本文聚焦關系型數據和知識圖譜,歸納總結并分析實體 解析、數據融合、數據清洗三方面的數據集成關鍵技術,最后展望未來研究方向與趨勢.
0.引言
隨著物聯網、社交媒體、電子醫療等技術的高速發展,全球數據呈現爆炸式增長的態勢.根據國際數據公 司(International Data Corporation,簡稱 IDC)統計,到 2025 年全球數據量預計將達 175ZB,表明人類社會已進入大 數據時代[1].近年來,各個國家和地區已陸續將大數據上升至戰略層面.例如,2015 年我國在十八屆五中全會上首 次提出“國家大數據戰略”,同年國務院印發《促進大數據發展行動綱要》,以推進我國大數據發展進程,加速數 據強國建設.此外,美國實施的《大數據研究和發展計劃》、英國發布的《英國數據能力發展戰略規劃》以及歐 盟力推的《數據價值鏈戰略計劃》等均已顯示出布局大數據戰略的迫切性.可以說,大數據正在改變全球社會的發展動力與發展方式,重塑世界格局[2]. 然而,大數據時代普遍存在數據流通困難、數據監管不足等問題,數據孤島現象嚴重、數據質量低下,進而 導致數據要素潛能難以釋放.2020 年《中共中央國務院關于構建更加完善的要素市場化配置體制機制的意見》 指出 1 :要加快培育數據要素市場,推進政府數據開放共享,加強數據資源整合,提高數據質量和規范性.因此,各 行業各領域對于數據集成的需求日益迫切.數據集成的最終目標是為駐留在不同數據源中的異構數據提供統 一訪問渠道,它是打破數據壁壘,實現信息共享,提升數據質量的重要手段.同時,也為下游的各類數據驅動應用 提供可靠的數據基礎.
**數據集成的概念廣泛,包括實體解析、數據融合數據清洗、關系解析、語義消歧等技術.**專家學者們對于 實體解析、數據融合以及數據清洗技術的關注度日益增加,實體解析、數據融合以及數據清洗已成為數據集成 領域的關鍵研究方向.實體解析是實現數據集成的先決條件,旨在關聯不同來源中指向同一實體的數據實例.在 執行完實體解析后,需要將已關聯的不同來源的數據集成至統一的數據庫中,使得數據內容更豐富,從而發現新 的價值信息.然而,由于不同數據集的異構性、信息不完整、數據錯誤或數據過時等問題,可能在數據集成過程 中發生沖突.因此,需要通過數據融合以解決來自不同數據源的同一實體在集成過程中產生的沖突問題,從而保 證數據的正確性與一致性,提升數據價值.此外,不同來源的數據本身以及數據集成過程中很可能產生數據質量 問題.所以,數據清洗是貫穿整個數據集成過程的關鍵技術,旨在檢測并修復臟數據,以確保數據集成的有效性.
盡管目前已有若干關于數據集成的綜述性文獻,但現有的綜述性文獻側重于(1)描述數據集成的框架概念 [3-4]、發展脈絡[5];或是(2)對數據集成中的某一關鍵技術(譬如實體解析[6-8]、數據融合[9]、數據清洗[10,11]等)進行 綜述,尚缺乏對數據集成中各項關鍵技術研究現狀的全面探討與分析.此外,隨著 5G 和物聯網等技術的飛速發 展,網絡數據內容呈現爆炸式增長的態勢.由于互聯網內容的大規模、異質多元、組織結構松散等特點,為人們 有效地獲取信息和知識提出了巨大挑戰.不同于傳統的關系型數據,知識圖譜[12](Knowledge Graph,簡稱 KG)以 其強大的語義處理能力和開放組織能力,已成為一種流行的數據組織形式.近年來,工業界和學術界都致力于 構建大規模知識圖譜.然而,盡管這些知識圖譜的規模較大(存儲了真實世界中的數百萬條事實),但仍然是高度 不完整的.例如,開源知識庫 Freebase 中 71%的人沒有對應的出生地,75%的人沒有對應的國籍信息.此外,對于一 些不常見的事實描述可能更不完整.因此,數據集成所關注的數據類型已不僅局限于傳統的關系型數據,知識 圖譜亦是數據集成所需應對的關鍵數據類型.此外,亦有一些研究工作涉及面向半結構化數據(Json、XML 等)、 非結構化數據(多媒體數據)的數據集成問題[13,14],然而此類工作仍處于起步階段,尚未形成完整的體系. 鑒于此,本文從關系型數據和知識圖譜兩種關鍵數據類型出發,歸納總結并分析實體解析、數據融合、數 據清洗三方面的數據集成關鍵技術(如圖 1 所示),最后展望未來研究方向與趨勢.
1 實體解析
實體解析是數據庫、信息檢索、機器學習、自然語言處理等領域的研究重點.近年來,專家學者對于實體 解析的關注度日益提升,已提出了許多面向不同數據類型(包括知識圖譜[7]、關系型數據[15,16]、文本數據[17]、 圖像數據[18]等)的實體解析技術.本節聚焦面向關系型數據與知識圖譜的實體解析技術,下面分別對這兩部分工 作予以闡述和分析.
1.1 面向關系型數據的實體解析
概念與定義. 在現實生活中,大量的數據被存儲為關系型數據.然而,這些數據通常分散在彼此孤立的數據 庫中,從而導致數據孤島,阻礙數據的關聯與共享[19].關系型數據實體解析長期以來是學術界和工業界所共同關 注的研究熱點[20,21],其旨在識別來自兩個不同來源的元組是否指向真實世界中的同一對象(或稱兩者為正確匹 配項),以打破數據孤島,實現跨源數據之間的關聯互通,從而為數據集成奠定基礎.
1.2 面向知識圖譜的實體解析
概念與定義. 知識圖譜由一系列三元組(或稱事實)所構成,其中每個三元組包含兩個實體以及連接它們的 關系.知識圖譜作為一種被廣泛使用的知識表現形式,能夠以一種便于機器存儲、識別和理解的方式對數據進 行有效地組織與管理.在現實生活中,不同來源的知識圖譜具有異構性和不完整性的特點,因而需要關聯共享來 自不同來源或不同語言的異構知識,以擴大知識規模、豐富知識內容,從而實現知識集成.面向知識圖譜的實體 解析是知識集成的先決條件,旨在關聯不同來源知識圖譜中指向真實世界同一對象的等價/匹配實體.長期以 來,專家學者一直致力于探索各類知識圖譜實體解析技術.
2 數據融合
由于數據不完整、數據錯誤和數據過時等問題,不同數據源可能產生相互矛盾的數據,對后續查詢分析的 結果產生誤導作用.例如,人們撥打無效的電話號碼可能無法聯系上對方,或是導航到錯誤的診所導致錯過最佳 就診時間,從而導致嚴重后果.因此,解決不同來源數據之間的沖突問題并識別相關數據的真實/正確性顯得至 關重要.近年來,隨著互聯網的迅速發展以及網絡監管的局限性,互聯網成為了虛假信息泛濫的重災區,數據沖 突問題變得尤為突出.數據沖突可以被歸納為兩種問題,即不確定性和矛盾性.不確定性由信息的不完整引起, 指非空值的數據與一個或多個空值數據之間的數據沖突.矛盾性是指兩個或多個不同的非空值之間的沖突,這 些非空值亦是對同一實體中相同屬性的描述.數據融合的目標是通過鑒別不同來源數據的真實性,解決來自不 同數據源的數據沖突問題,進而確保數據集成過程中的數據一致性.
3 數據清洗
在現實生活中,臟數據無處不在,各組織或機構的研究調查報告了驚人的臟數據比例:在全球頂尖的企業 中,超過 25%的關鍵數據都存在一定的數據缺陷[162].臟數據的存在,不僅會導致錯誤的決定和不可靠的分析,還 可能對企業經濟造成巨額損失.例如,IBM 的報告指出:臟數據造成美國每年損失近 3 萬億美元[163].近幾十年來, 數據清洗已成為學術界和工業界的研究重點,其旨在檢測與修復臟數據(包括屬性值域錯誤、錯別字、缺失值、 數據冗余等),從而提升數據質量[164].本節圍繞關系型數據和知識圖譜的數據清洗技術展開研究,下面將分別對 這兩部分的相關工作進行闡述和分析.
4 研究展望與趨勢
面向關系型數據與知識圖譜的數據集成技術是一個充滿挑戰性的研究課題,目前仍有大量的研究工作亟 待進一步深入探討.本節先依次對本文所聚焦的三類數據集成關鍵技術(即實體解析、數據融合以及數據清洗) 的未來研究方向進行展望.而后,從數據類型角度出發,探討未來數據集成技術在不同類型數據上的研究方向. 最后,進一步探究數據集成與數據治理之間的依存關系,指出未來研究趨勢.
1) 放松知識圖譜實體解析技術研究的前提假設. 隨著知識互聯時代的日漸趨近,基于知識圖譜的相關 研究工作越來越受到專家學者的廣泛重視.目前現有的知識圖譜實體解析方法主要建立在以下兩大前提假設 上:(1)不同來源實體之間存在一一匹配關系;(2)已知一部分既定的實體解析標簽.然而,現實生活中不同來源的 知識圖譜通常具有不同規模且高度不完整,因而無法為每個實體找到其對應的匹配項.為此,探討非一一匹配約 束下的知識圖譜實體解析技術更具現實意義.另外,在現實生活中,由于實體解析在各行各業的需求日益增大, 故在少標簽甚至無標簽情況下探索有效的知識圖譜實體解析技術,以降低成本、提高普適性,這對于實際應用 而言至關重要.盡管本文已提出了若干基于實體名稱信息的匹配標簽生成策略,為降低知識圖譜實體解析的成 本提供了行之有效的方法.然而,現實生活中存在一類情況——由于隱私保護或數據編碼等問題,導致實體名稱 差異過大,因而難以利用名稱信息實現有效的標簽自動生成策略.鑒于此,如何利用實體本身所蘊含的內在特征 探索更為通用的標簽生成策略或探討有效的無監督方法,亦是值得進一步研究的關鍵問題.
2) 支持大規模的關系型數據實體解析技術. 現有的關系型數據實體解析技術主要為單機算法,由于單 機系統在存儲容量、計算資源等方面的限制,其難以有效地處理大規模數據.此外,深度學習已在關系型數據實 體解析任務上展現出強大的能力,但其復雜且龐大的模型架構與模型參數對大規模的關系型數據實體解析任 務提出了進一步的挑戰.因此,在大數據環境下,還需解決分布式存儲、分布式模型訓練等問題,以確保大規模關 系型數據實體解析技術的可擴展性.另外,計算效率也是大規模關系型數據實體解析任務所亟待解決的關鍵問 題,需深入地探索面向大規模關系型數據實體解析任務的數據分塊、索引、剪枝等優化策略,以進一步提高計 算效率.
**3) 支持來源廣泛、類型異構的復雜數據融合技術. **大數據時代,數據來源復雜、類型異構、規模龐大, 如何高效地融合多源異構數據,確保數據的正確性與一致性至關重要.然而,現有的方法大多關注于單一的數據 類型,難以有效地衡量具有異構特征但對應于同一實體的不同數據實例之間的正誤性.另外,現有的數據融合方 法耗時長且擴展性不高,難以支持大規模的數據融合,因而如何提升大數據環境下復雜數據融合效率仍有待進 一步深入的研究.
4) 低時延、高質量、易交互的數據清洗新模式. 隨著大數據的蓬勃發展,數據規模不斷增大.大多數現有 的數據清洗方法側重于全局數據清洗,其在應對大規模數據時易導致效率與可擴展性問題,難以滿足現實生活 中各種具有高時效性要求的數據查詢與分析需求.為此,在線數據清洗技術應運而生.此類技術以用戶查詢或分 析需求為主導,僅需清洗用戶所需的數據集合,因而大大縮小了數據清洗的范圍,能夠在一定程度上提高清洗效 率.然而,如何在包含臟數據的數據集中精準定位用戶所需的數據范圍,并以低時延、高質量、易交互的方式將 清洗后的干凈數據及時返回給用戶,仍是需要深入探索的關鍵問題.
5) 跨類型的數據集成新技術. 目前現有的數據集成技術大多關注于單一的數據類型,而較少關注于不同類型數據之間的交互.然而,大數據類型多樣,半結構化數據(Json、XML 等)、非結構化數據(多媒體數據) 等層出不窮,且隨著萬物互聯時代的日益趨近,對于跨類型的數據集成需求日益迫切.盡管目前已有一些專家學 者進行了初步嘗試(譬如,Fan 等人[13]提出了支持關系型數據與圖結構數據互通的異構實體解析技術),但現有 方法在數據種類數量、數據規模、效率等方面離滿足實際的跨模態數據集成需求存在較大差距.
6) 深入探索復雜數據治理技術.
實體解析、數據融合以及數據清洗不僅是數據集成的核心技術,更是 數據治理中的關鍵步驟,但僅憑這些技術不足以解決當前復雜而多樣的數據共享、共融、共用問題.所以,還需 進一步深入地探索復雜數據融合、元數據管理、數據風險監測與預警等技術,從而為數據治理提供更豐富且有 效的技術支撐.
**5 總 結 **
大數據時代普遍存在數據流通困難、監管不足等問題,導致數據共享薄弱、質量低下.這驅使研究人員探 索數據治理技術,以實現數據共享、提升數據質量,從而激活數據要素潛能.數據集成作為數據治理的關鍵技術, 長期以來受到專家學者的重點關注.數據集成旨在通過實體解析、數據融合和數據清洗等技術,打破數據壁壘、 實現信息共享、提升數據質量,進而激活數據要素潛能.本文聚焦關系型數據和知識圖譜,歸納總結并分析了實 體解析、數據融合、數據清洗三方面的現有數據集成關鍵技術,并展望了未來的研究方向與趨勢,以供相關的 研究工作人員參考.
作為解決序貫決策的機器學習方法,強化學習采用交互試錯的方法學習最優策略,能夠契合人類的智能決策方 式。基于課程學習的深度強化學習是強化學習領域的一個研究熱點,它針對強化學習智能體在面臨高維狀態空間和動作 空間時學習效率低、難以收斂的問題,通過抽取一個或多個簡單源任務訓練優化過程中的共性知識,加速或改善復雜目標 任務的學習。論文首先介紹了課程學習的基礎知識,從四個角度對深度強化學習中的課程學習最新研究進展進行了綜 述,包括基于網絡優化的課程學習、基于多智能體合作的課程學習、基于能力評估的課程學習、基于功能函數的課程學習。然后對課程強化學習最新發展情況進行了分析,并對深度強化學習中的課程學習的當前存在問題和解決思路進行了總結 歸納。最后,基于當前課程學習在深度強化學習中的應用,對課程強化學習的發展和研究方向進行了總結。
1. 引言
強化學習(Reinforcement Learning,RL) 作為機器 學習分支之一,在人工智能領域具有重要地位[1] :智能 體在環境中通過“交互-試錯冶獲取正/ 負獎勵值,調整 自身的動作策略,從而生成總獎勵值最大的動作策略 模型[2]。傳統強化學習方法在有限狀態空間和動作空間的 任務中能夠取得較好的收斂效果[3] ,但復雜空間狀態 任務往往具有很大的狀態空間和連續的動作空間,尤 其當輸入數據為圖像和聲音時,傳統強化學習很難處 理,會出現維度爆炸問題[4 -5 ] 。解決上述問題的一個 方法,就是將強化學習和深度神經網絡(Deep Neural Network,DNN)結合,用多層神經網絡來顯式表示強 化學習中的值函數和策略函數[6] 。
深度 強 化 學 習 ( Deep Reinforcement Learning, DRL)將深度學習的感知能力和強化學習的決策能力 相結合[7],近年來在人工智能領域迅猛發展,例如 Atari 游戲[8 -9 ] 、復雜機器人動作控制[10 -11 ] ,以及圍棋 AlphaGo 智能的應用[12]等,2015 年機器學習領域著名 專家 Hinton、Bengio、Lecun 在《Nature》 上發表的深度 學習綜述一文將深度強化學習作為深度學習的重要發 展方向[13] 。
盡管在過去三十年間取得很大進步,但由于標準 強化學習智能體的初始設定都是隨機策略,在簡單環 境中通過隨機探索和試錯,能夠達成較好的訓練效 果[14] 。但在復雜環境中由于狀態空間的復雜性、獎勵 信號的稀疏性,強化學習從環境中獲取樣本的成本不 斷提高,學習時間過長,從而影響了智能體的有效 探索[15]。
解決上述問題的一個有效途徑,就是將課程學習 (Curriculum Learning,CL)和深度強化學習相結合[16]。2009 年,以機器學習領軍人物 Bengio 為首的科研團隊 在國際頂級機器學習會議 ICML 上首次提出課程學習 的概念[17] ,引起機器學習領域的巨大轟動。課程學習 借鑒人類從簡單到復雜的學習思想,首先在任務集中 篩選出部分簡單任務進行學習以產生訓練課程,而后 在剩余的復雜任務中利用訓練課程進行學習,最后在 整個訓練集中進行訓練。將課程學習和深度強化學習 相結合,可以有以下兩個方面的作用[18] :(1)可以加快 訓練模型的收斂速度,避免訓練初期對于復雜任務投 入過多訓練時間;(2)提高模型的泛化能力,增強對復 雜任務的學習能力。
該文首先對課程學習進行簡要描述,從四個角度 對深度強化學習中的課程學習進行了分類整理,之后 對近三年的基于課程學習的深度強化學習新算法進行 了總結分析,最后討論了基于課程學習的深度強化學 習的發展前景和挑戰。
1 基于課程學習的深度強化學習
課程學習的目標是自動設計和選擇完整序列的任 務(即課程) M1 ,M2 ,…,Mt 對智能體進行訓練,從而提 高對目標任務的學習速度或性能[19] ,課程學習流程如 圖 1 所示。 課程 馬 爾 可 夫 決 策 過 程 ( Curriculum Markov Decision Process,CMDP) [20] 是一個 6 元組 (S,A,p,r, 駐s0 ,Sf) ,其中 S 是狀態空間集, A 是動作空間集, p(s ' | s,a) 代表智能體在狀態 s 時采取動作 a 后轉移到狀 態 s ' 的概率, r(s,a,s ' ) 代表在狀態 s 采取動作 a 到達 狀態 s ' 所獲得的即時獎勵, 駐s0 代表初始狀態分布, Sf 代表最終狀態集。
常見的課程創建方法有以下兩種[21] :(1)在線創 建課程,根據智能體對給定頂點樣本的學習進度動態 添加邊;(2)離線創建課程,在訓練前生成圖,并根據 與不同頂點相關聯的樣本的屬性選擇邊。 課程設計流 程如圖 2 所示。
課程學習方法可認為包括三部分[22] :任務生成、 排序和遷移學習。 任務生成是創建一組好的中間任務 的過程,從中獲取經驗樣本。 排序研究了如何在一組 經驗樣本上創建部分排序 D ,也就是說,如何生成課 程圖的邊。 遷移學習主要研究如何將知識從一個或多 個源任務直接轉移到目標任務。 為了評價源任務遷移 到目標任務的性能優劣[23 -24 ] ,有以下指標可以量化。 (1)學習速度提升。 即智能體在遷移知識的前提下能 夠以多快的速度學習到最優策略,從而在目標任務上 實現預期的性能值 GO 逸 啄 ,其中 啄 是總任務期望的性 能閾值。 (2) 初始性能提升。 通過從源任務進行遷 移,觀察智能體在學習過程中對目標任務的初始性能 提升來衡量遷移效果。 (3)漸近性能提升。 通過比較 智能體在使用遷移與不使用遷移時目標任務收斂后的 最終性能來衡量遷移效果。
2 深度強化學習中的課程學習研究進展
對于強化學習智能體來說,自主學習一項復雜任 務需要很長的時間。 在深度強化學習中應用課程學 習,可以通過利用一個或多個源任務的知識來加速或 改善復雜目標任務的學習[25] 。 Felipe 等人提出了新方法[26] :(1) 將目標任務劃 分為簡單任務;(2)在盡量小的專家經驗支持下,根據 面向對象的任務描述自動生成課程;(3) 使用生成的 課程來跨任務重用知識。 實驗表明在人工指定和生成子任務方面都取得了更好的性能。 為了提高多智能體的學習性能,Jayesh 等人應用 前饋神經網絡( Feedforward Neural Network,FNN) 完 成協 同 控 制 任 務[27] , 包 括 離 散 和 連 續 動 作 任 務, Daphna 等人提出了推斷課程( Inference Curriculum, IC)的方法[28] ,從另一個網絡遷移學習的方式,接受不 同任務的訓練。 為了解決從稀疏和延遲獎勵中學習的 局限性問題,Atsushi 提出了一種基于漸進式神經網絡 (Progressive Neural Network, PNN ) 的 課 程 學 習 方 法[29] ,帶參數的模塊被附加上預先確定的參數,該策 略比單組參數的效果更好。
3 算法分析與總結
強化學習是處理序列決策任務的流行范式[46] ,盡 管在過去的三十年中取得了許多進步,但在許多領域 的學習仍然需要與環境進行大量的交互,導致模型的 訓練時間過長,收斂速度過慢。 為了解決這個問題,課程學習被用于強化學習,這樣在一個任務中獲得的經 驗可以在開始學習下一個更難的任務時加以利用。 然 而,盡管課程學習理論、算法和應用研究在國內外已普 遍開展,并且也已經取得了較多的研究成果[47 -48 ] ,但 仍然有許多問題還亟待解決。
3. 1 強化學習中的課程學習算法理論分析與對比
在算法和理論方面,傳統課程學習對于小規模的 多智能體強化學習性能提升明顯,但在大規模多智能 體環境中,由于環境和智能體之間的復雜動態以及狀 態-行動空間的爆炸,因此在實際問題的解決上進展 不大[49] 。 得益于深度神經網絡的數據處理能力,使用 深度神經網絡表示回報函數,避免了特征提取工作,當 前基于課程學習的深度強化學習算法在實驗場景中應 用于 StarCraft [50] 、 grid - world [51] 、 hide - and - seek [52] 、 Sokoban [53]等經典強化學習問題的解決。 隨著課程學 習技術的發展,算法在智能決策[54] 、困難編隊下的合 作導航[55] 、在 SUMO 交通模 擬 器 中 協 商 多 車 輛 變 道[56]以及在 Checkers 環境下的戰略合作[57] 等領域也 取得了一定的成功。 該綜述分四個角度對目前強化學習中的課程學習 方法進行分類并介紹,希望能夠為相關研究人員提供 一點幫助。 為方便了解和對比,該文分析、對比了這幾 類方法的優缺點,并歸納在表 1 中。
(1)基于網絡優化的課程學習。 解決大規模問題 的方法是從小型多智能體場景開始學習,逐步增加智 能體的數量,最終學習目標任務。 使用多種傳輸機制 以加速課程學習過程,課程設計是影響課程遷移成績 的關鍵因素。 如何選擇合適的課程(包括如何決定每 個任務的訓練步長,如何選擇合適的學習模型重新加 載等)是至關重要的。 如何自動生成多智能體課程可 能是目前尚存在的主要局限性,這將在今后的工作中 進一步研究[58] 。
(2)基于多智能體合作的課程學習。 是根據全局 目標和個體目標之間的關系進行學習探索,使用信度 分配[33] 、種群進化課程[34] 、任務排序框架[36] ,通過函 數增強方案來連接價值和策略函數的階段,在具有高 維狀態空間的多目標多智能體環境中執行高挑戰性任 務性能較好,缺點是沖突較為頻繁、更高的方差和無法 維持合作解決方案[59] ,目前難以推廣到非齊次系統或 沒有已知目標分配的設置的工作。
(3)基于能力評估的課程學習。 通過限制其最初 行動空間來設置內部課程,使用非策略強化學習同時 估計多個行動空間的最優值函數,建立技能、表述和有 意義的經驗數據集,從而避免從頭開始學習,加快學習 效率。 缺點是集群對每個狀態都會改變[60] ,這可能會 干擾泛化,因為沒有一致的語義。
(4)基于功能函數的課程學習。 通過設定級數函 數和映射函數來為智能體量身定制在線課程,通過高 斯過程定義智能體函數,學習策略在單位之間共享,以鼓勵合作行為。 使用神經網絡作為函數逼近器來估計 動作-價值函數,并提出一個獎勵函數來幫助單位平 衡它們的移動和攻擊。 缺點是只提供最初的啟發式解 決方案[61] ,而且質量不能得到保證。
3. 2 基于課程學習的深度強化學習研究方向
通過對最新課程學習算法理論的研究分析,本節 對當前基于課程學習的深度強化學習存在的開放性問 題和可能的研究方向進行討論。 (1)自動創建任務課程。 任務創建是課程學習方法的重要組成部分,任務 質量會影響課程的生成質量,任務數量會影響課程排 序算法的搜索空間和效率。 現有課程學習中的任務大 多由人工創建,減少任務創建過程中的人工輸入量是 未來工作的重要發展方向[62] 。 (2)遷移不同類型知識。 課程任務之間,知識必須從一個任務遷移到另一 個任務。 目前大部分研究中,知識遷移的類型是固定 的。 例 如, Narvekar 等 人 在 任 務 之 間 遷 移 價 值 函 數[63] ,而 Svetlik 等人遷移成型獎勵[64] 。 這種知識遷 移類型的局限性在于,不同的任務對于知識類型的需 求可能是不同的,因此可以從不同任務中分別提取知 識進行組合。 例如,從一個任務中提取一個選項,從另 一個任務中提取模型,從而達成更好的學習效果。 (3)課程重用的成本分攤。 當前課程學習方法的另一個局限性是,生成課程 的時間可能比直接學習目標任務的時間更長。 原因在 于,課程通常是為每個智能體和目標任務獨立學習的。 因此,分攤成本的一種方法是學習一門課程來訓練多 個不同的智能體[65] ,或解決多個不同的目標任務。
4 結束語
該文對基于課程學習的深度強化學習進行了回 顧,由淺入深地對課程學習進行了分析,介紹了課程學 習的概念理論、經典算法、研究進展和發展展望等,從 基于網絡優化的課程學習、基于多智能體合作的課程 學習、基于能力評估的課程學習、基于功能函數的課程 學習四個角度對強化學習中的課程學習進行了分類梳 理、對比分析,最后對基于課程學習的深度強化學習的 未來展望進行簡要分析。 根據當前深度強化學習中存在的狀態空間復雜、 維數災難、學習時間長等問題,課程學習會是未來的一 個發展方向。 課程學習算法可以將目標任務分解成多 個子任務,結合大多數的強化學習算法,使用多種傳輸 機制以加速強化學習進程,大大提高了學習探索效率 和通用性。 最后,目前課程算法在大規模多智能體場 景的研究進展緩慢,其主要原因在于多智能體場景的 復雜性。 然而大規模多智能體場景更加貼近現實,優 質的課程學習算法能夠在很大程度上提高學習探索的 效率。 因此,相信課程學習算法會成為深度強化學習 的熱門方向,加快深度強化學習的發展速度。
雖然深度學習技術在雷達圖像處理任務中獲得了部分應用, 但缺乏對黑盒模型的可解釋性分 析和全面的性能評估, 限制了該技術在雷達圖像領域中的應用性能、可信度和廣泛性. 本文從可解釋 性入手, 提出了雷達圖像深度學習黑盒模型分析思路, 在開源 MSTAR 雷達圖像數據集上進行實驗驗 證. 從深度學習模型的遷移機制和認知機理兩個方面進行分析, 得到了關于遷移學習、歸因方法應用 和模型魯棒性評估方面的相關結論, 填補了現有研究的空白.
近些年來, 深度學習技術正逐步從光學圖像領域應用到雷達圖像領域, 在雷達目標識別、場景分 類和目標檢測等雷達圖像處理任務中取得了部分研究成果 [1, 2] . 目前深度學習模型在以上任務中表現 出了優良性能, 但仍存在一些尚待研究的問題. 一是需要根據雷達與光學圖像的顯著差異性, 進一步解釋深度學習模型在雷達圖像領域中的遷移 機制, 指導雷達圖像深度學習模型的優化設計. 由于雷達與光學成像機理不同, 所得到的圖像為目標 散射點分布. 如圖 1 所示, 在 MSTAR 數據集 [3] 中表現為呈離散分布、強度不同的散射點, 與所對應 的光學圖像之間存在明顯差異. 將在光學圖像領域中取得成功應用的深度學習模型遷移到雷達圖像領 域時, 應當充分考慮這種差異性. 文獻 [2] 梳理了小樣本條件下基于遷移學習的雷達圖像目標識別方 法, 部分研究針對兩者的差異性設計了相應方法提高目標識別率, 但缺乏對其遷移機制影響的深入分 析, 可解釋性研究有望為深度學習模型在雷達圖像領域中的設計與優化提供全新的視角和知識. 二是由于雷達圖像目標之間、目標與背景之間具有較強相似性, 需要對深度學習模型認知機理的 分析評估, 保證其在實際任務中的應用性能和可信度. 如圖 1 所示, 這種相似性給人的認知和理解帶來了極大的困難, 需要分析模型是否正確表征了目標信息. 目前對于模型的分析評估大多依賴于識別 率, 對實際任務而言, 識別率是對問題的不充分描述, 這可能會使得模型出現錯誤, 例如模型利用背景 信息的相關性提高識別率. 文獻 [4] 提到華盛頓大學 (University of Washington) 的一項實驗, 旨在創建 哈士奇與狼的識別器, 但模型實際上是根據背景是否存在積雪來進行識別的, 學習到的是背景干擾與 識別結果的強相關性, 而不是目標特征與識別結果之間的因果性. 文獻 [5] 同樣指出, 在測試集上的高 識別率并不能保證模型學習到正確的特征表征. 僅靠識別率等性能指標不能保證模型在實際任務中正 常工作, 也不能滿足在某些關鍵任務 (如醫療、交通和軍事等) 中人們的認知和決策需要. 因此, 只有 對深度學習模型認知機理的分析說明和識別結果的可信解釋, 才能提高人們對于其黑盒模型的信任, 保證人們依靠其作出相應決策.
針對以上兩個問題, 本文將使用可解釋性方法 [6, 7] 作為分析工具從兩方面展開研究. 一是通過可 解釋性方法對比分析雷達和光學圖像對深度學習模型的影響, 獲取其黑盒模型內部知識, 解釋深度學 習模型遷移機制, 從而進一步理解應用深度學習技術. 二是通過主觀分析和客觀指標評估可解釋性方 法和深度學習模型, 從而在準確性和魯棒性方面得到可信結論, 以此對其黑盒模型的認知機理作出分 析評估, 為實際決策提供幫助. 目前可解釋性方法可分為事后解釋 (post-hoc) 方法和事前設計 (ante-hoc) 方法. 事后解釋方法 針對已經訓練好、不具備可解釋性的黑盒模型進行研究, 通過可視化展示模型內部結構、基于歸因 方法 (attribution algorithms) 分析模型識別重點、使用特定輸入研究模型、比較不同模型結構性能 等方式, 挖掘模型內部知識和解釋模型認知機理. Zeiler 等 [8] 提出反卷積 (deconvnet) 的分析方法. Simonyan 等 [9] 提出兩種基于梯度的分析方法. Szegedy 等 [10] 通過單元分析方法探索神經元的語義 信息, 并發現了對抗樣本. Frankle 等 [11] 提出樂透假設 (lottery ticket hypothesis) 發現訓練成功的大 型網絡中包含一個相同性能的稀疏子網絡. 事前設計方法構建具有明確語義或物理信息的模型, 可將在數學物理上具有明確意義的方法與深 度學習模型相結合, 提高模型的可解釋性. 如通過知識蒸餾結合神經網絡和結構化的邏輯規則 [12] ; 利 用注意力機制同時生成圖像和文本解釋 [13] ; 貝葉斯 (Bayes) 深度學習將深度學習模型的感知能力和 貝葉斯模型的因果邏輯推理能力相結合 [14] ; Gu 等 [15] 基于最優傳輸理論得到了半透明的生成對抗網絡. 事前設計方法也可設計本身在語義、物理等層面上具有可解釋性的模型. Sabour 等 [16] 提出膠囊 網絡 (capsule network) 模型, 膠囊單元不同維度表征了手寫數字的語義信息; Zhang 等 [17] 設計了一 種帶有可解釋性的卷積核. 當前, 有關雷達圖像領域的深度學習可解釋性方面研究較少. 郭煒煒 [18] 討論了關于合成孔徑雷 達 (synthetic aperture radar, SAR) 圖像目標識別的可解釋問題, 從模型理解、模型診斷和模型改進等 方面進行了初步探討, 但暫無對雷達圖像深度學習黑盒模型可解釋性的具體實驗研究. 本文結合目前深度學習可解釋性方面的研究進展, 以雷達目標識別任務為例, 在 MSTAR 的 SAR 圖像數據集上進行事后解釋方法的實驗分析, 實驗結果有效揭示了深度學習模型在雷達圖像領域中的 遷移機制和認知機理, 并且詳細地提供了相應的分析思路和結論, 填補了當前對雷達圖像深度學習黑 盒模型可解釋性的研究空白. 主要貢獻如下: (1) 基于事后分析方法提出了雷達圖像深度學習黑盒模型分析思路, 為可解釋性方法在雷達圖像 領域中的應用奠定基礎; (2) 通過實驗比較分析了雷達和光學圖像對于模型內部的影響, 得到了關于深度學習在雷達圖像 領域中遷移機制的分析結論; (3) 通過歸因方法分析了深度學習黑盒模型的認知機理, 從可解釋性角度提出了 SAR 目標識別模 型魯棒性評估的新方法.
本文后續結構組織如下: 第 2 節介紹相關工作, 第 3 節面向雷達圖像領域提出深度學習黑盒模型 分析思路, 第 4 節依據所提思路進行實驗驗證, 第 5 節對全文總結并提出下一步研究方向.
開放型對話是對話系統的一個重要分支,有著極強的應用前景。它不同于任務型對話,具有較強的隨機性和不確定性。該文從回復方式驅動對話技術發展這個角度切入,進行開放型對話技術發展過程的梳理,緊扣序列到序列及其改良模型在對話生成場景中應用的這條主要線索,對開放型對話的關鍵技術進行了探討和研究。上述研究勾畫出了從單輪對話到多輪對話發展的主要研究主線。為進一步探索對話技術發展的內在規律和發展趨勢,通過研究發現,基于序列到序列的生成模型在面向多輪對話生成的任務場景時,顯現出模型實現特點和應用場景不完全匹配的問題。因此,在該文的最后,從引入外部知識、改寫機制及代理機制三個角度切入,初步探索了相關技術針對多輪對話生成的可能改進方向。
近年來, 隨著深度學習技術的廣泛應用, 人機對話研究取得了突破性進展. 但是, 目前的人機對話系統大多是在人機雙方參與的假設下進行設計的, 而更具挑戰性的人機多方對話的研究和應用尚不成熟. 本文將立足于自然語言處理領域, 對近幾年基于深度學習的多方對話研究進展進行綜述. 首先從人機對話角度出發, 整理多方對話系統的關鍵問題和已有解決方案; 然后, 梳理基于多方對話的其他自然語言處理任務; 之后, 總結已有多方對話研究的數據集, 并分析現有數據集的局限性和改進方案; 最后, 展望多方對話研究的未來發展趨勢.
摘要: 機器學習以強大的自適應性、自學習能力, 成為網絡空間防御的研究熱點和重要方向. 然而, 機器學習模型在網絡空間環境下存在受到對抗攻擊的潛在風險, 可能成為防御體系中最為薄弱的環節, 從而危害整個系統的安全. 為此, 科學分析安全問題場景, 從運行機理上探索算法可行性、安全性, 對運用機器學習模型構建網絡空間防御系統大有裨益. 本文全面綜述對抗機器學習這一跨學科研究領域在網絡空間防御中取得的成果及以后的發展方向. 首先介紹了網絡空間防御、對抗機器學習等背景知識. 其次, 針對機器學習在網絡空間防御中可能遭受的攻擊, 引入機器學習敵手模型概念, 目的是科學評估其在特定威脅場景下的安全屬性. 而后, 針對網絡空間防御的機器學習算法, 分別論述了在測試階段發動規避攻擊、在訓練階段發動投毒攻擊、在機器學習全階段發動隱私竊取的方法, 進而研究如何在網絡空間對抗環境下, 強化機器學習模型的防御方法. 最后, 展望了網絡空間防御中對抗機器學習研究的未來方向和有關挑戰.
目標跟蹤一直都是計算視覺領域研究的熱點課題之一,作為計算視覺的基礎學科,其應用已經滲透到各個領域,包括智能監控、智能人機交互、無人駕駛以及軍事等方面。目標跟蹤從跟蹤對象的數量角度可分為單目標跟蹤和多目標跟蹤,其中單目標跟蹤相對簡單,除了需要解決與多目標跟蹤共性的問題(如遮擋、形變等)外,單目標跟蹤不需要考慮目標的數據關聯問題。然而,在多目標跟蹤系統中,場景更為復雜,跟蹤目標的數量和類別往往是不確定的,因此數據關聯在整個跟蹤系統中就顯得尤為重要。數據關聯是多目標跟蹤過程中的一個重要階段,國內外很多學者甚至將多目標跟蹤問題看成數據關聯問題,試圖從數據關聯過程中尋求多目標跟蹤研究方法。文中重點對多目標跟蹤過程中的數據關聯技術進行了綜述,系統地介紹了多目標跟蹤中的數據關聯技術。首先,對目標跟蹤,尤其是多目標跟蹤進行了概述,并對數據關聯的研究現狀做了描述;其次,詳細介紹了數據關聯的概念及其需要解決的問題;然后,對各種數據關聯技術進行了分析總結,包括傳統的NNDA算法、JPDA算法、基于Tracking-By-Detecting 的多目標跟蹤框架的數據關聯技術以及多目標多相機跟蹤(Multi-Target Multi-Camera Tracking,MTMCT)的數據關聯;最后,對未來多目標跟蹤的數據關聯技術的研究方向進行了展望。