亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

為提升無人機在復雜空戰場景中的存活率, 基于公開無人機空戰博弈仿真平臺, 使用強化學習方法生成機動策略, 以深度雙Q網絡(double deep Q-network, DDQN)和深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法為基礎, 提出單元狀態序列(unit state sequence, USS), 并采用門控循環單元(gated recurrent unit, GRU)融合USS中的態勢特征, 增加復雜空戰場景下的狀態特征識別能力和算法收斂能力。實驗結果表明, 智能體在面對采用標準比例導引算法的導彈攻擊時, 取得了98%的規避導彈存活率, 使無人機在多發導彈同時攻擊的復雜場景中, 也能夠取得88%的存活率, 對比傳統的簡單機動模式, 無人機的存活率大幅提高。

現代空戰環境錯綜復雜, 空空導彈和機載雷達性能不斷提升, 超視距空戰已經在現代空戰中占據主導地位[1], 空空導彈也早已成為打擊空中單位的主要武器。無人機作為空中戰場的理想作戰目標之一, 被普遍運用到軍事領域當中[2]。利用無人機可持續大機動的飛行特點, 采取高效的機動策略以提高無人機對導彈的規避、逃逸成功率, 對提升無人機的空戰生存能力而言至關重要[3]。

無人機規避空空導彈問題一直都是空戰的研究熱點。王懷威等[4]采用蒙特卡羅方法驗證了無人機實施常規盤旋機動規避導彈的效果。Imado等[5]利用微分對策法研究導彈與無人機差速博弈的問題。另外, 還有諸多針對導彈的規避方式[6-10]、規避效能評估[11-13]以及無人機最優或次優規避策略解析解[14-16]等方面的研究。以上方法依賴于完備的空戰對戰模型以求解在單枚導彈打擊情況下的最優機動策略, 當導彈數量變化時, 模型很難理解, 而且建立空戰對戰模型本身就是一個非常復雜的過程, 需要使用大量微分函數結合積分函數,才能表征無人機與導彈狀態屬性的轉移規律。

深度強化學習(deep reinforcement learning, DRL)算法在馬爾可夫決策過程(Markov decision process, MDP)基礎上, 采用端到端學習方式, 以態勢信息為輸入, 直接利用神經網絡獲取輸出, 控制智能體作出決策, 被廣泛應用于自動化控制當中[17-22]。范鑫磊等[23]將深度確定性策略梯度(deep deterministic policy gradient, DDPG)算法[24]應用于無人機規避導彈訓練, 在簡易模型下對固定態勢攻擊的空空導彈進行仿真驗證。宋宏川等[25]針對導彈制導規則設計成型獎勵, 用DDPG算法訓練無人機規避正面來襲的導彈, 對比典型規避策略, 訓練出了僅次于置尾下降機動的逃逸策略。

上述研究表明, 無人機能夠通過特定的機動方式來規避空空導彈的打擊, 而深度強化學習算法可以訓練出自動規避空空導彈的智能體。總體而言, 以往研究大多基于單枚導彈打擊場景。但是在超視距空戰中, 多枚導彈從不同方向鎖定無人機并發動協同攻擊的情況屢見不鮮。在這種情形下, DRL算法會存在狀態空間維度大, 狀態信息維度不斷變化, 神經網絡輸入維度難以固定, 算法收斂性能差等問題。

針對以上問題, 本文提出一種基于單元狀態序列(unit state sequence, USS)的強化學習算法(reinforcement learning method based on USS, SSRL)。在該算法中,首先,將導彈和無人機進行一對一的特征編碼,形成特征單元; 其次,根據距離優先級對所有編碼后的特征單元進行排序, 組合成一個USS; 然后,使用門控循環單元(gated recurrent unit, GRU)對USS中的特征單元進行特征融合, 提取其中的隱藏特征信息; 最后,將隱藏特征信息看作該時刻的狀態信息,并將信息傳入強化學習算法的神經網絡。將該算法分別應用于深度雙Q網絡(double deep Q-network, DDQN)[26]和DDPG算法上, 在公開無人機空戰博弈仿真平臺上進行訓練。仿真結果表明, 由SSRL算法訓練的智能體能夠學到連續規避機動策略, 控制無人機進行規避導彈機動, 增加導彈脫靶量, 提升無人機連續規避導彈的成功率。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

無人作戰飛機(unmanned combat aerial vehicle,UCAV)在進行空戰自主機動決策時,面臨大規模計算,易受敵方不確定性操縱的影響。針對這一問題,提出了一種基于深度強化學習算法的無人作戰飛機空戰自主機動決策模型。利用該算法,無人作戰飛機可以在空戰中自主地進行機動決策以獲得優勢地位。首先,基于飛機控制系統,利用MATLAB/Simulink仿真平臺搭建了六自由度無人作戰飛機模型,選取適當的空戰動作作為機動輸出。在此基礎上,設計了無人作戰飛機空戰自主機動的決策模型,通過敵我雙方的相對運動構建作戰評估模型,分析了導彈攻擊區的范圍,將相應的優勢函數作為深度強化學習的評判依據。之后,對無人作戰飛機進行了由易到難的分階段訓練,并通過對深度Q網絡的研究分析了最優機動控制指令。從而無人作戰飛機可以在不同的態勢情況下選擇相應的機動動作,獨立評估戰場態勢,做出戰術決策,以達到提高作戰效能的目的。仿真結果表明,該方法能使無人作戰飛機在空戰中自主的選擇戰術動作,快速達到優勢地位,極大地提高了無人作戰飛機的作戰效率。 目前無人作戰飛機(unmanned combat aerial vehicle, UCAV)被廣泛應用于軍事領域[1],UCAV在過去主要從事戰場監視、吸引火力和通信中繼等任務,隨著武器裝備的傳感器、計算機及通信等技術的發展,性能不斷提升,未來的UCAV將逐步升級成為可以執行空中對抗、對地火力壓制和參與制空權的奪取等作戰任務的主要作戰裝備之一。盡管UCAV的性能提升很大,但大多數的任務都離不開人工干預,控制人員通過基站在地面對UCAV進行控制,這種控制方法有延遲且易受到電磁干擾。因此研究UCAV的自主作戰能力已經成為空軍發展的必然趨勢,裝備了無人作戰決策系統的UCAV將逐步取代飛行員的位置,以達到減少成本,提高戰斗力的作用。在近距離格斗的階段,UCAV應根據當前的空戰態勢及時選取合適的飛行控制指令,搶占有利的位置,尋找擊落敵機的機會并保護自己[2]。

在空戰條件下,飛機模型本身為非線性同時目標的飛行軌跡是不確定的,這些都將給UCAV的機動決策帶來許多不便,因此良好的機動決策是UCAV自主空戰的一個重要環節,自動機動決策要求UCAV能在不同的空戰環境下自動生成飛行控制指令。常規的機動決策控制方法包括最優化方法、博弈論法、矩陣對策法、影響圖法、遺傳算法、專家系統、神經網絡方法以及強化學習方法等。文獻[3]將空戰視為一個馬爾可夫過程,通過貝葉斯推理理論計算空戰情況,并自適應調整機動決策因素的權重,使目標函數更加合理,保證了無人戰斗機的優越性。文獻[4]設計了一個基于遺傳學習系統的飛機機動決策模型,通過對機動的過程加以優化來解決空戰環境未知情況下的空戰決策問題,可以在不同的空戰環境中產生相應的戰術動作,但該方法的參數設計存在主觀性,不能靈活應用。文獻[5]利用統計學原理研究UCAV的空戰機動決策問題,具有一定的魯棒性,但該算法實時性能較差無法應用于在線決策。文獻[6]將可微態勢函數應用于UCAV微分對策中,可以快速反應空戰環境,但由于實時計算的局限性很難解決復雜的模型。文獻[7]采用博弈論對UCAV空戰決策進行建模,對不同的空戰環境具有通用性。雖然這些決策算法可以在一定程度上提高決策的效率、魯棒性和尋優率,但由于這些決策模型存在推理過程較為頻繁,會浪費大量時間尋優等問題,導致UCAV的響應變慢,并不適用于當今的戰場環境。

基于人工智能的方法包括神經網絡法、專家系統法以及強化學習算法。文獻[8]采用了專家系統法,通過預測雙方的態勢和運動狀態生成相應的機動指令控制UCAV飛行,但不足之處在于規則庫的構建較為復雜,通用性差。文獻[9]采用了自適應神經網絡技術設計PID控制器,對高機動目標具有較強的跟蹤精度,但神經網絡方法需要大量的空戰樣本,存在學習樣本不足的問題。與以上兩種方法相比,強化學習算法是一種智能體與環境之間不斷試錯交互從而進行學習的行為,智能體根據環境得到的反饋優化自己的策略,再根據策略行動,最終達到最優策略。由于強化學習的過程通常不考慮訓練樣本,僅通過環境反饋得到的獎勵對動作進行優化,可以提高了學習的效率,是一種可行的方法[10]。文獻[11]將空戰時的狀態空間模糊化、歸一化作為強化學習算法的輸入,并將基本的空戰動作作為強化學習的輸出,使得UCAV不斷與環境交互從而實現空戰的優勢地位。在此基礎上,文獻[12-13]將神經網絡與強化學習相結合,提高了算法的運算效率,但這些文章都沒有考慮飛機的姿態變化。

本文提出了一種深度強化學習(deep reinforcement learning, DRL)算法來解決UCAV自主機動決策作戰的問題,并在MATLAB/Simulink環境中搭建了某種六自由度UCAV模型,充分考慮了其非線性。同時選取適當的空戰動作作為UCAV的機動輸出,建立空戰優勢函數并設計UCAV空戰機動決策模型。通過強化學習方法可以減少人為操縱的復雜性,保證計算結果的優越性,提高UCAV的作戰能力,而神經網絡可以提升實時決策能力。最后通過仿真將該方法應用于UCAV機動作戰決策中,證明了其有效性和可行性。

付費5元查看完整內容

為了應對在未來復雜的戰場環境下, 由于通信受限等原因導致的集中式決策模式難以實施的情況, 提出了一個基于多智 能體深度強化學習的分布式作戰體系任務分配算法, 該算法為各作戰單元均設計一個獨立的策略網絡, 并采用集中式訓練、分布 式執行的方法對智能體的策略網絡進行訓練, 結果顯示, 經過學習訓練后的各作戰單元具備一定的自主協同能力, 即使在沒有中 心指揮控制節點協調的情況下, 依然能夠獨立地實現作戰任務的高效分配.

馬賽克戰[1]、聯合全域指揮控制[2]等新型作戰概 念所構想的未來作戰場景中, 傳統的多任務平臺被 分解為了眾多的小型作戰單元, 這些小型作戰單元 通常具備更高的靈活性, 能夠根據戰場環境的變化 快速對自身所承擔的任務進行調整, 以實現更好的 整體作戰效果. 在未來的新型作戰場景中, 傳統的集 中式指揮控制模式存在著指揮鏈路過長、決策復雜 度過高等問題, 從而導致決策時效性和決策質量難 以滿足要求[3] . 近年來, 邊緣指揮控制等新型指揮控制 模式應運而生, 邊緣節點也即各作戰實體將具備一 定程度的自主決策能力[4] . 由于戰場環境的復雜多變 特性, 以及作戰實體的小型化、智能化發展趨勢, 分 布式決策的模式將在未來的戰場決策中發揮越來越 重要的作用. 作戰體系是為了完成特定的作戰任務由一系列 具備各項能力的作戰單元動態構建而成, 在以往的 集中式決策模式下, 體系設計人員會根據作戰任務 的能力需求以及作戰單元所具備的各項能力, 以最 大化作戰效能或最小化作戰單元的使用成本等為目 標, 來統一地對各作戰任務和作戰單元進行匹配. 作 戰體系的“作戰任務—作戰單元”匹配問題可以建模 為一個優化問題, 當問題規模較小時, 可以采用集中 式決策的模式運用整數線性規劃等運籌學方法快速 得到全局最優解[5] , 而當問題規模較大時可以采用遺 傳算法等啟發式算法[6]或者強化學習算法[7] , 得到問 題的近似最優解. 采用集中式決策的一個重要前提 條件是中心決策節點和作戰單元葉節點之間的通信 暢通, 因為葉節點需要將自身的狀態信息和觀測信 息發送給中心決策節點, 而中心節點需要將決策命 令發送給葉節點. 然而在未來的作戰場景中, 由于敵 方的通信干擾等原因, 中心節點和葉節點之間的通 信鏈接很難保證連續暢通, 同時頻繁的信息交互會 造成一定的通信負載和通信延遲, 因此, 在未來很多 的任務場景中, 需要作戰單元根據自身的狀態信息 和觀測到的信息獨立地進行決策.

強化學習是一種利用智能體與環境的交互信息 不斷地對智能體的決策策略進行改進的方法, 隨著深度強化學習技術的快速發展, 強化學習算法在無 人機路徑規劃[8]、無線傳感器方案調度[9]等領域都取 得了非常成功的應用, 同時近年來多智能體強化學 習算法在 StarCraft域[10]等環境中也取得了很好的效 果. 在作戰體系任務分配場景中, 可以將各作戰單元 視為多個決策智能體, 那么“作戰任務—作戰單元” 的匹配任務可以視為一個多智能體強化學習任務. 而當前尚未有將多智能體強化學習方法應用到類似 作戰體系的任務分配環境中的先例. 本文的主要工 作如下: 1)建立一個通信受限情況下的作戰體系“作 戰任務—作戰單元”匹配的任務場景;2)提出了一 個基于多智能體強化學習技術的作戰體系任務分配 算法;3)通過實驗驗證了采用上述算法訓練的各智 能體, 可以在通信受限的場景下, 實現一定程度的自 主協同, 在沒有中心決策節點的情況下依然能夠實 現作戰體系任務的有效分配

付費5元查看完整內容

無人機集群協同作戰的自主化、智能化是未來軍事指揮控制技術發展的重要趨勢, 為滿足日趨重視的集群應用需求, 提出了面向協同作戰任務的無人機集群自主決策技術概念與體系, 建立了無人機集群多任務的通信-決策-規劃-控制(communication, decision, planning, control;CDPC)自主決策框架. 根據通信拓撲結構建立了集中式、完全分布式和混合式的決策樣式, 在此基礎上, 分別建立了感性任務推理決策模型和理性任務推理決策模型, 探討了模型的求解框架以及關鍵技術解決途徑, 表示無人機集群任務決策對協同作戰的規劃和實施具有較好的指導意義.

2020 年 1 月, 中國科學院發布的 《2019 年人工 智能發展白皮書》中將“群體智能技術”列為八大人工 智能關鍵技術之一[1] , 隨著智能系統與復雜體系、感 知與判斷、分布式協同、人工智能和算法戰等理論 與技術的不斷發展與突破, 智能系統已呈現出無人 化、集群化和自主化等特征[2] . 無人機集群作為未來集 群智能系統的主要形式, 能夠實現單平臺行為決策、 多平臺任務協同, 具有集群涌現特性, 表現出了巨大 的應用前景. 無人機集群任務環境彈性大、態勢變化 快、傳感器信息不完全、通信結構不穩定, 是以決策 為主的對抗. 因此, 協同自主決策作為“感知-判斷決策-行動 (observation-orientation-decision-action, OODA)”環路循環中的關鍵技術引起了國內外廣泛 關注[3-5] . 無人機集群在復雜動態變化的環境下, 如何 根據不確定的態勢信息, 實施可解釋的自主決策推 理, 確定高效可靠的任務協同執行方式對保障集群 安全, 提升作戰效能至關重要.

按照系統科學的觀點[6] , 無人機集群系統多平臺 異構、任務需求眾多、輸入態勢變化、戰術目的復 雜、約束條件耦合, 為解決以上問題, 需要面向無人 機集群多任務設計自主決策規劃框架, 降低系統研 究的復雜性. 文獻[7]基于不確定攻防博弈態勢信息 搭建了無人機集群對抗博弈模型, 并設計博弈成本 函數計算最優策略;文獻[8]提出了一種多無人機分 布式智能自組織算法, 將集群偵察-打擊任務優化問 題分解為多個局部優化問題, 并通過集群與環境和 集群之間的信息交流實現全局優化決策;文獻[9]針 對區域偵察等典型集群任務, 采用深度學習方法構 建任務決策模型, 然后基于遺傳算法對決策模型進 行優化, 為集群實現離線學習和在線決策提供了有 效支撐, 然而現有成果從多任務角度出發, 對集群自 主決策問題進行研究相對較少.

對于集群系統協同作戰任務方面的研究, 主要 以任務規劃問題為主[10] , 此類問題大都是事先擬定好 了任務輸入類型和約束, 是一種有目標信息的多約 束優化問題. 然而對于集群如何獲得準確的任務目 標信息, 并根據態勢進行動態任務調整并沒有考慮, 此問題正是集群協同任務決策的研究重點. 現階段 無人機決策問題研究大都聚焦于空戰過程中的機動 動作決策[11-12] , 或者某個明確任務場景中的決策, 如集 群打擊任務等[13-14] , 沒有從集群協同作戰過程中戰術 戰略及任務的多樣性和復雜性方面開展自主決策研 究. 因此, 本文針對這個問題, 分析了集群任務自主 決策概念、任務定義與分類, 設計了自主決策的流 程;應用分層研究思想提出一種自主決策框架, 并根 據通信結構定義不同的決策模式;結合多種技術途徑 對無人機集群自主決策建模的體系結構和求解框架 進行了分析和探討.

付費5元查看完整內容

邊緣計算通過將計算、通信和存儲資源分布在移動和物聯網(IoT)設備的地理鄰近范圍內,促進了網絡邊緣的低延遲服務。無人機(UAV)技術最近的進步為軍事行動、災難響應或傳統地面網絡有限或不可用的偏遠地區的邊緣計算提供了新的機會。在這種環境下,無人機可以作為空中邊緣服務器或中繼部署,以促進邊緣計算服務。這種形式的計算也被稱為無人機支持的邊緣計算(UEC),它提供了一些獨特的優點,如移動性、視線、靈活性、計算能力和成本效率。然而,在UEC環境下,無人機、邊緣服務器和物聯網設備上的資源通常非常有限。因此,有效的資源管理是UEC的一個關鍵研究挑戰。在本文中,我們從資源管理的角度對現有的UEC研究進行了綜述。我們確定了UEC資源管理的概念架構、不同類型的協作、無線通信模型、研究方向、關鍵技術和性能指標。我們還提出了UEC資源管理的分類。最后,我們確定并討論了一些開放的研究挑戰,這些挑戰可以激發UEC資源管理的未來研究方向。

最近物聯網(IoT)和無線通信技術的發展引入了許多需要高計算能力和低延遲的新應用[86]。這類服務的例子包括可穿戴認知輔助、增強現實(AR)、智能醫療、面部識別、交互式在線游戲以及實時交通和道路安全監測[163]。然而,物聯網設備通常具有有限的計算資源、存儲、網絡覆蓋和能源。因此,資源密集型物聯網應用在維持預期的服務質量(QoS)方面常常面臨重大挑戰[59,83]。物聯網應用通常利用云計算技術來維持預期的QoS[63]。云計算通過虛擬機(vm)、虛擬存儲(VS)、VPN(virtual private network)等多種形式在Internet上交付計算資源[8]。然而,云計算目前被認為不足以滿足資源密集型和延遲敏感的物聯網應用的低延遲需求[86]。原因有兩方面。首先,物聯網設備的數量每天都在增加,預計到2030年將達到約1250億。這些設備產生了大量的網絡流量,使回程網絡負擔沉重,并因網絡擁塞而嚴重影響其性能[135]。其次,云服務器通常被放置在遠離物聯網設備的地方。因此,云計算在服務發放中引入了相當大的延遲,這降低了延遲敏感的物聯網應用的整體QoS[71]。

邊緣計算是一種相對較新的范式,為延遲敏感和資源密集型的物聯網應用提供了另一種計算解決方案。邊緣計算將云計算技術擴展到網絡邊緣,更接近用戶和物聯網設備[63]。它允許資源受限的物聯網設備(又稱邊緣設備)完全或部分地將其數據或計算任務卸載到附近強大的邊緣服務器或其他邊緣設備[1]。它大大提高了物聯網應用的延遲和能源效率。這也將減少核心網的流量阻塞。邊緣服務器還可以作為數據緩存來存儲物聯網設備頻繁訪問的數據,以提高應用程序的QoS[163]。物聯網設備通常使用無線網絡連接到邊緣基礎設施[86]。然而,在一些最偏遠的地區(例如農村或山區),可能并不總是有良好的無線網絡基礎設施[50]。此外,無線網絡基礎設施很容易受到地震、洪水或風暴等自然災害的影響。在某些情況下,例如軍事行動或緊急救援任務,通常很難擁有可靠的無線網絡基礎設施[56]。最近無人機(UAV)技術的進步開辟了一個新的機會,在軍事行動、災害響應或農村地區使用無人機提供邊緣計算服務。這也被稱為無人機使能邊緣計算(UEC)[88]。無人機提供了廣泛的適應性,如機動性、靈活性和成本效率,這使得UEC成為一個有前途的解決方案。無人機通常在UEC環境[60]中作為空中邊緣服務器或中繼。物聯網設備將全部或部分計算任務卸載給附近的無人機。UAV要么在本地處理任務,要么將任務發送到附近的邊緣/云服務器進行遠程執行。

該文對UEC中資源管理的研究現狀進行了全面的綜述。本工作的主要貢獻如下:

  • 我們在第2節中介紹了一個三層的UEC體系結構,代表了UEC中管理資源的概念體系結構。該體系結構包含“事物”層、“邊緣”層和“云”層。然后,我們研究在提議的體系結構中發生的六種類型的協作。考慮的合作是a)物-無人機,b)無人機-邊緣,c)物-邊緣,d)物-無人機-云,e)無人機-邊緣-云,f)物-無人機-邊緣-云。我們還討論了UEC中使用的無線通信模型。

  • 我們發現了UEC背景下資源管理的關鍵研究問題。在第3節中,我們將研究問題分為以下三類:a)計算任務和數據卸載,b)資源分配,c)資源供應。

  • 第4節確定并全面回顧了UEC中用于資源管理的關鍵技術和性能指標。關鍵技術分為兩類:a)集中方法和b)分散方法。我們研究如何在現有的工作中評估這些方法。此外,討論了現有文獻中的關鍵性能指標,如能耗、延遲、吞吐量、成本、效用和資源利用率。

  • 我們在第5部分中確定了這項工作的主要發現,指出了UEC資源管理的主要研究挑戰和未來的研究方向。圖2展示了本次綜述的組織結構,為讀者提供了本文的簡要概述。

付費5元查看完整內容

基于視頻數據的深度預測學習(以下簡稱“深度預測學習”)屬于深度學習、計算機視覺和強化學習的交叉融合研究方向,是氣象預報、自動駕駛、機器人視覺控制等場景下智能預測與決策系統的關鍵組成部分,在近年來成為機器學習的熱點研究領域.深度預測學習遵從自監督學習范式,從無標簽的視頻數據中挖掘自身的監督信息,學習其潛在的時空模式表達.本文對基于深度學習的視頻預測現有研究成果進行了詳細綜述.首先,歸納了深度預測學習的研究范疇和交叉應用領域.其次,總結了視頻預測研究中常用的數據集和評價指標.而后,從基于觀測空間的視頻預測、基于狀態空間的視頻預測、有模型的視覺決策三個角度,分類對比了當前主流的深度預測學習模型.最后,本文分析了深度預測學習領域的熱點問題,并對研究趨勢進行了展望.

近年來,隨著移動互聯網、智能安防監控、時空數據采集與傳感器網絡等技術的迅猛發展,各行業中的視頻數據體量呈指數級增長.運用深度學習方法對海量視頻數據進行建模,在無須額外人工標注的情況下理解其時空結構特性,對氣象預報、自動駕駛、機器人視覺控制等若干場景下智能預測與決策系統具有重要意義,這使得基于無標簽視頻數據的深度預測學習(以下簡稱“深度預測學習”)成了近年來一個備受關注的研究領域.預測學習的交叉應用場景眾多,本文依照近年來國際學術界的主流研究成果,重點討論其在計算機視覺和視覺決策場景下的具體內涵.

首先,在計算機視覺的應用范疇下,預測學習的核心任務是指,基于一段連續的視頻歷史觀測,預測其在未來一段時間范圍內的變化.給定一個幀視頻序列

,預測隨后一段幀視頻序列

.利用深度學習模型,刻畫觀測空間中歷史數據與未來數據之間確定性的映射關系,從而實現對未來時空變化趨勢的高質量、精細化預測,已被成功應用于多種時空大數據平臺中,其中包含短時臨近強對流天氣預報[1]、城市交通狀況預測[2~4]等典型交叉應用場景.例如在氣象短臨預報中,需要根據前一時段內的雷達回波影像序列預測出未來0~2 h內每間隔6 min的雷達回波影像.在圖1所展示的例子中,由清華大學團隊主導研發的“新一代災害性天氣短時臨近預報業務平臺”首次將深度預測學習方法應用于中央氣象臺天氣預報業務系統,表現出了超越傳統數值模型與光流外插模型的預報水平,大幅提升了我國短臨災害性天氣精細化預報能力,證明了深度預測學習具有廣闊的交叉領域應用前景與重要的科學研究價值. 圖1 圖1 深度預測學習在氣象預報領域的應用示例,圖中所示為從過去一小時雷達回波歷史觀測中預測到的未來一小時雷達回波.

此外,在許多基于時空觀測信號的智慧決策系統中,視頻預測模型也有著廣闊的應用前景和商用價值.此類深度預測學習方法主要應用于機器人視覺決策任務[5~8],其具體問題定義為給定幀視頻序列

,以及機器人未來可能選取的動作序列

,以視頻幀

的形式,預測在相應未來時刻執行對應動作所可能產生的后果.此類預測模型的一種典型的應用場景是部分可見的馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP).在該問題中,場景的狀態信息是不完全可知的,即視覺觀測數據無法準確反應全部的物理機理,一些近期研究工作利用深度預測學習方法,在隱狀態空間中融合機器人的動作信息與隱狀態時空深度表征,刻畫動作、狀態、環境三者之間的動態關系.顯然,提升預測模型的精度,可以有效改善下游視覺控制與決策任務的執行效果. 從交叉應用場景看預測學習的本質,視頻數據作為一種典型的具有網格化空間結構的高維時間序列,其最大特點是在時間上具有長時非平穩趨勢與非確定性趨勢,同時在單一時刻又具有高維空間相關性(例如圖1中的雷達回波影像).傳統的機器學習方法大多將時空數據當作多組單變量時間序列進行獨立建模,其最大問題是特征學習能力不足,難以捕獲空間相關性與非線性時空動態,故而難以形成長時、精細化的預測.深度預測學習遵循自監督學習的訓練范式,不需要額外的標注信息,利用上述時空數據特性實現自監督訓練,在無標簽情況下建模數據中緊耦合的時間與空間相關性,從復雜、海量、高維、非線性的時空數據中挖掘重要的空間結構,并刻畫其隨時間的動態變化.預測學習模型與面向視頻數據的生成模型不同.后者更關注生成數據的分布與真實數據分布的統計差異,而不需要嚴格保證生成結果相對觀測數據的合理性;而前者相當于集成了因果推斷模型和條件生成模型,不僅需要關注于觀測空間中的生成質量,而且要盡可能地從歷史觀測中推斷時空狀態信息,因此需要更強的特征提取能力.在本文的后續討論中,我們據此將主流的視頻預測網絡按照在觀測空間或狀態空間中的建模時空動態進行歸納對比.具體分類方式如圖2所示. 圖2 圖2 深度預測學習主流方法的譜系圖。

本文第2節將歸納觀測空間中的視頻預測模型,主要包含基于卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Networks,RNN)的若干神經網絡架構.第3節將總結基于語義狀態空間或隱狀態空間的深度預測網絡,探究低維狀態空間中的時空特征表達與解耦方法,以及基于此的長時預測方法和不確定性預測方法.第4節將歸納基于深度預測模型的視覺決策前沿方法,討論如何結合預測學習提高交互環境中控制和決策水平.第5節將介紹該研究領域內的典型數據集和模型評價指標.最后,第6節將討論深度預測學習的開放問題與未來發展趨勢.

付費5元查看完整內容
北京阿比特科技有限公司