亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

1 引言

與基于模型的控制和優化方法相比,強化學習(RL)提供了一個數據驅動的、基于學習的框架來制定和解決連續的決策問題。由于航空業的數據可用性和計算能力的大幅提高,RL框架變得很有前途。許多基于航空的應用可以被制定或處理為順序決策問題。其中一些是離線規劃問題,而另一些則需要以在線方式解決,并且是安全關鍵問題。在這篇調查報告中,我們首先描述了標準的RL公式和解決方案。然后,我們調查了現有的基于RL的航空應用的情況。最后,我們對本文進行了總結,確定了技術上的差距,并提出了航空領域RL研究的未來方向。

在本節的其余部分,我們將全面介紹RL方法。首先,我們簡要地描述了RL問題的表述和一些關鍵概念。之后,將介紹兩類經典的無模型RL算法:基于價值和基于政策的傾斜。然后,我們將介紹更先進的技術以及現代行為者評論方法和多智能體強化學習(MARL)。RL方法的整體結構如圖1所示。

圖1:RL方法結構。

2 強化學習在航空中的應用

由于航空數據的可得性和計算能力的大幅提高,現在航空領域的許多挑戰性問題都可以用數據驅動和基于機器學習的方法來解決。這些問題不限于以下例子:空中交通管理[32]、飛機排序[33]、空中交通流提取[34]、滑行時間預測[35]、航班延誤預測[36][37]、航跡預測[38]和飛機性能參數預測[39]。

RL方法作為機器學習的一個領域,已經成為研究航空問題的方法。圖3說明了航空領域RL的分類。在下面的章節中,我們將嘗試總結RL在不同應用中的用法。據作者所知,本調查報告是第一份調查航空領域RL方法的研究報告。

圖3 航空RL分類布局。

A 防撞和間距保證

空中交通管制(ATC)在空中交通管理(ATM)系統中起著至關重要的作用,因為它負責維護飛行安全和效率。避免碰撞是防止空中碰撞的最后一層防御。一方面,空中交通管制員必須在任何時候都保持任何兩架飛機之間的安全分離距離。這個功能被稱為沖突解決或間距保證。另一方面,早期改編的空中防撞系統是交通警報和防撞系統(TCAS)[51]和最近的下一代機載防撞系統(ACAS-X)[52], [53]。后者建立在TCAS的基礎上,引入了部分可觀察的馬爾可夫決策過程(POMDP)來表述問題。它通過評估最接近的時間向飛行員提供語音和視覺警告,以確定是否有可能發生碰撞。最近在基于RL的防撞和間距保證方面進行了許多研究,表I列出了其中的一部分。

表I:從有關避免碰撞的RL的文獻中選出。狀態/行動空間(S/A空間)可以是連續的(C),離散的(D),或混合的(M)。

[50]中介紹了自由飛行空域中的MDP防撞方法。在有合作(飛機主動試圖避開其他飛機)和非合作(那些不關心避免碰撞)的三維環境中,自由飛行的MDP公式能夠避免飛機之間的碰撞。在[49]中,DRL方法被實施為對避撞問題的優化。

在許多具有挑戰性的問題上表現出超越人類水平的性能,無人駕駛飛行器(UAV)的防撞問題已經通過實施DQN算法得到了解決[40]。在[41]中,實施了來自演示的深度Q-Learning(DQfD)和獎勵分解來提供可解釋的飛機防撞解決方案。DQN技術也被應用于無人機的防撞[40],在NASA的33區改變路線和速度[55],在現有防撞方法的基礎上計算修正[51],[53],以及在密集空域的無人自由飛行交通[49]。[56]中提出了一個使用RL和GPS航點來避免碰撞的框架。在[57]中,應用了一個雙深Q網絡(DDQN)來引導飛機通過終端區域而不發生碰撞。該方法解決了傳統防撞方法失敗的情況,即在密集的空域中,那些預計被無人機占據的空域,并證明了提供合理修正的能力,以保持飛機系統之間的足夠安全。

PPO方法被廣泛用于飛機防撞中,并顯示出有希望的成功。使用PPO網絡[42]解決結構化空域中的防撞問題,使用長短時記憶(LSTM)網絡[43],以及注意力網絡[44]來處理可變數量的飛機。雖然這些算法在訓練環境中表現出很高的性能,但評估環境的輕微變化會降低這些PPO模型的性能。有人提出了一個基于MonteCarlo Dropout[58]和執行時間數據增強的安全模塊,以解決環境中的防撞問題,這些環境與訓練環境不同[45]。為無人駕駛飛機提出了一個PPO網絡,以提供安全有效的計算指導操作[59],并在連續狀態和行動空間中指導無人駕駛飛機避免與障礙物相撞[46]。一個消息傳遞網絡[60]被引入以支持避免碰撞。

注入了飛機的先驗物理信息,以建立一個物理學上的DRL算法來避免飛機碰撞[61]。在[62]中提出了一種獎勵工程方法,以支持PPO網絡解決二維空域中的防撞問題。

一些研究將DDPG[21]應用于飛機防撞問題。在[47]中,基于DPG的DRL方法被應用于解決存在不確定性的連續行動空間的兩架飛機之間的沖突。另外,一個智能交互式沖突解決器被用來獲取ATC的偏好,并由RL智能體提出捕捉這些偏好的沖突解決方案[63]。后來,DDPG算法處理了交通量增加的航空部門[64]。在飛機到達航區邊界之前,DDPG算法獲得了一個適當的航向角,以避免碰撞[65]。DDPG方法也被提出來用于減輕高密度情況下的碰撞和不確定因素[66]。有人提出了一種混合方法,它結合了傳統的幾何解決方法和DDPG模型,以避免沖突[67]。多智能體深度確定性策略梯度(MADDPG)被應用于成對地解決兩架飛機之間的碰撞[68]。另一種基于MADDPG的沖突解決方法減少了空管和飛行員在運行中的工作量[69]。

在這種應用中,演員批判算法也很受歡迎。在[48]中提出了K-控制行為批評算法來檢測沖突和解決二維連續行動空間。一個策略函數返回一個基于給定狀態的智能體可以采取的行動的概率分布。[70]為三維非結構化空域中的空管建立了一個基于圖的網絡,通過避免潛在的碰撞和沖突來管理空域。有人提出了一個多層RL模型來引導多維目標問題中的飛機[71]。另外,一個LSTM網絡和一個行為評論模型被用來避免固定翼無人機的碰撞[72]。

除了這些流行的模型,其他RL方法也被用于避免碰撞。在[73]中提出了一種基于消息傳遞的分散計算引導算法,該算法使用了多智能體蒙特卡洛樹搜索(MCTS)[74]公式。該算法還能夠防止無人機在城市空中移動(UAM)環境下的間距損失(LOS)。在[50]中建立了一個高效的基于MDP的分散算法,以防止自由飛行空域中合作和非合作無人機的沖突。在[76]中提出了MuZero算法[75],以緩解碰撞的發生。在[77]中應用了差異獎勵工具,圖卷積強化學習算法解決了多無人機沖突解決問題[78]。

將DRL模型與NN訓練同時進行,可以減少學習時間,并由于消除了離散化問題而執行更精確的模型[79]。盡管DRL在飛機間距保證方面已經顯示出巨大的成功,但仍有許多未解決的問題。這些問題對在現實世界中這一安全關鍵應用中建立DRL模型造成了關鍵障礙。一個主要問題是驗證。用于飛機間距的DRL模型有很深的結構和復雜的輸入狀態。復雜的結構使得使用傳統的形式化方法來驗證DRL模型的屬性變得困難。目前使用形式化方法的工作只能用淺層DRL模型驗證非常簡單的屬性。驗證的缺乏限制了這些DRL模型的可信度以及它們在現實世界中的應用。

另一個重要問題是模擬和現實之間的差距。用于飛機間距保證的DRL是用模擬器訓練的,因為考慮到潛在的損失,現實世界的訓練太昂貴了。然而,不可能讓模擬完全模仿現實。模擬和現實之間的分布變化可能會制約DRL模型的學習性能。

除了這兩個問題,用于飛機間距保證的DRL也面臨著一般DRL模型的問題。例如,目前用于間距保障的DRL的采樣效率很低,這就高度限制了訓練速度。另外,用于間距保證的DRL模型作為一個黑箱工作。它不能在這個過程中提供可解釋的決策。

B 空中交通流量管理

交通管理是一個涵蓋了任何直接影響或用于決定空中交通運動的系統的術語。這些系統的首要目標是減少延誤,同時保持空域的運行安全。一般來說,空中交通流量和容量管理是共同空中交通服務(ATS)的一部分,并直接或通過ATC與飛行員對接。最后,所有這些設計的系統可以通過兩個分類來考慮;為無人交通管理(UTM)和無人機系統操作設計的系統,以及為更多的常規操作設計的系統。

表II: RL在航空交通流管理中的文獻選取

空中交通流量和管理(ATFM)是交通管理的一個子集,重點是確保可用的空域容量得到有效利用。容量不僅受航段大小、形狀或高度的影響,而且還受風、天氣和緊急情況等隨機變量或機場容量和吞吐量等更多恒定變量的影響。需求能力平衡(DCB)是一種預測方法,以確保空域或地面業務的有效運行。協作方法被引入到DCB中,利用:分配延誤,允許替代軌跡,使用固定的空域劃分,或調整空域劃分來有效管理空域[54]。與其他解決方案不同的是,同步協作-需求容量平衡(SC-DCB)尋求放松空域配置的約束,其結果表明,減少有效扇區,從而更好地利用有效扇區。在最近的工作中[80],RL技術被用來檢查其在UAM流量管理中的效率,使用的狀態空間包括從飛機、天氣、空域容量和交通密度監測中檢索的數據,以及通過Post-Hoc系統構建的訓練數據。流量管理中的多智能體法也出現了[81]-[83],證明了MARL方法可以在交通密集區(熱點)通過采取滯留、離開或合作行動成功解決這些熱點問題。該方法也導致了整體延遲的減少。

地面延誤方案(GDP)處理到達機場的過多的航班,作為另一種空中交通流管理機制。機場處理到達航班的能力可能受到天氣狀況的不利影響。發布航站樓交通管理倡議(TMI)是一種在短期內減少進入機場的飛機數量的技術。這種技術的一種類型是地面延誤計劃。有人提出了一種基于多臂匪徒框架的數據驅動方法來建議TMI行動[84]。這將有利于人類決策者評估建議的解決方案是否合理。這些建議是基于預測和觀察到的需求和容量的歷史數據、選擇的TMI行動和觀察到的性能。結果表明,幾乎所有建議的算法都略微超過了歷史行動。[85]提出了四種在不確定天氣條件下推薦戰略性TMI參數的方法。前兩種方法是基于隨機探索的,而其他方法則是使用-貪婪方法和Softmax算法。快速模擬結果表明,相對于其他方法,后兩種方法的性能很強,而且它們有可能幫助處理天氣的不確定性。[86]對行為克隆(BC)和反強化學習(IRL)在預測每小時專家GDP執行行動方面進行了比較。歷史數據被用來預測舊金山和紐瓦克國際機場的GDP決策。IRL方法被提出來,通過只探索數據中的狀態來降低復雜性。實驗結果表明,BC比IRL的GDP實施模型具有更強的預測性能。實驗還表明,無論是BC還是IRL模型都不能很好地預測相對不頻繁的GDP初始化或取消事件,這與Q-learning不同,后者往往能提供準確的預測時間[87]。更好地預測滑行時間將改善滑行管理,這可以通過使用GDP減少擁堵而有利于軌跡規劃。

隨著空域因更高的交通量和新興的UAS/UTM技術的引入而變得更加密集,交通管理解決方案將需要證明其適應能力,不僅要適應更高的航空交通量和密度,還要適應這種新的航空交通分類所帶來的任何新要求。此外,這些系統的安全和能力將需要正式的驗證和標準化的確認,將ATM中的RL領域從實驗室中移出,準備被官方機構接受。最后,關于UTM/UAS空域如何構建仍有許多未知數,這為解決方案的設計增加了一層復雜性;新系統應接受這一概念,并在空域仍在定義時提供靈活性。

C 航空公司收益管理

在1970年代,對機票定價和網絡調度的控制是有限的。如果一家航空公司想提高票價,需要得到聯邦機構--民用航空委員會(CAB)的許可。當時的定價監管總是導致票價上漲。1979年解除了對航空公司的管制,允許公司自由安排航班和定價。因此,航空公司收入管理(ARM)作為一種商業慣例出現了,在有易損庫存的情況下制定價格。ARM是航空公司通過優化票價和產品供應來實現收入最大化的策略。經典的ARM問題可以分為兩種類型,基于數量的收入管理和基于價格的收入管理(RM)[94]。

基于數量的收入管理是在一個預先定義的n級票價結構上進行的,并決定每個票價等級有多少張票被保護。同時,它側重于單程和網絡航班段的容量控制。作為基于數量的RM的代表,預期邊際座位收入(EMSR)模型[95]在現代航空業被廣泛使用。基于價格的RM更注重于動態定價情況。

表III:RL在航空公司收益管理中的文獻選取

傳統的和廣泛使用的ARM系統的方法是基于模型和數據驅動的,這在很大程度上取決于預測數據的準確性,如乘客到達分布、支付意愿(WTP)和取消率。最近,研究人員一直在考慮在ARM上應用無模型的學習方法,如最優控制理論或RL。在ARM中使用RL的研究方向始于2002年[88],其中λ-smart算法被設計為在平均獎勵優化準則下,將單腿ARM問題作為無限時間范圍的半馬爾科夫決策問題(SMDP)。后來,在同一問題上應用了有界行為人批評法[89]。這兩項研究都聲稱,該模型的性能優于EMSR模型。已經引入了ARM上的DRL模型,將領域知識與在圖形處理單元(GPU)上訓練的DNN結合起來[90]。一個DRL模型也被應用于庫存控制問題,使用DQN并考慮其環境中的取消和超額預訂[91]。近年來還出現了一些其他對DRL模型的改進。例如,通過結合基于數量的RM和基于價格的RM研究了一個ARM問題[92],而DRL被應用于單腿和網絡腿問題[93]。

以前的基于學習的方法考慮了乘客和航空公司之間的博弈。然而,關于不同航空公司之間的競爭性定價過程的工作有限。我們相信隨著多智能體強化學習的發展,這將是一個令人興奮的話題。

D 飛機飛行與姿態控制

由于系統的非線性、不確定性和環境中固有的作用于系統的噪聲,飛機的姿態控制可能是一個挑戰。最近,研究人員旨在開發基于RL算法的先進控制器。表四列出了姿態控制應用中的一些RL方法。

表IV:態度控制中RL的文獻選擇。

這些提議的控制器已被用于目標跟蹤[96],[97],單/多智能體避障[97],[98],基于視覺的著陸[99],穩定[100]-[103],視覺伺服[104],和平旋恢復[105]。

在[103]中,表明直接通過RL訓練控制器,基于非線性或未知模型,是可行的。在[106]中還比較了基于不同RL算法的控制器的性能。結果顯示,DQN比策略梯度或DDPG更適合于離散任務,而DDPG在更復雜的任務中表現更好。另外,DQN方法被用來設計飛機的姿態控制系統[103], [106]. 此外,基于DDPG的控制器在[97]、[106]、[107]、[110]、[111]中建立。一個改進的DDPG方法與轉移學習相結合,開發了一個控制系統來進行自主機動目標跟蹤[97]。還研究了一個基于DDPG的控制器,引導無人機從任何位置和姿態到水平面的固定位置[110]。

其他研究也采用了PPO方法[98], [101], [108]。開發了一種改進的MARL算法,命名為多智能體聯合近似策略優化(MAJPPO),以進行編隊和避障。該控制器采用了移動平均法,使每個智能體獲得一個集中的狀態值函數[98]。通過進行實驗比較,表明MAJPPO算法可以更好地處理部分可觀測環境。一個基于PPO的控制器被設計用來穩定一個固定翼無人機[101]。訓練后的策略在收斂所需的迭代次數方面優于PID控制器。研究還表明,RL控制器可以適應嚴重的環境干擾。

由于RL在姿態控制方面取得了重大進展,它被認為是設計最佳和穩健控制器的一種有前途的方法。然而,仍有一些挑戰需要解決。實驗證明了模擬和自然環境之間的差距[109],這需要一種新的訓練方法。一個控制器學會了適應訓練模型和真實環境之間的差異。探索和利用的平衡是RL的另一個難題。在訓練過程的開始,使用了探索環境的正態分布噪聲[107]。它還提議在未來的工作中使用Uhlenbeck-Ornstein隨機噪聲。

E 容錯控制器

故障是指一個系統的屬性或參數發生變化,導致系統的行為與設計不同。換句話說,故障是一種使系統無法運行的狀況。容錯控制器(FTC)是一種控制策略,其目的是改善因故障而運行在性能下降的系統的性能[116]。根據用于開發控制器的方法,FTC被描述為基于模型或數據驅動的。基于模型的技術需要了解系統的模型和參數來設計一個容錯控制器。相反,數據驅動的方法直接從系統數據中學習FTC。基于模型的FTC方法的基本問題是,它的有效性取決于系統模型的正確性,而當系統參數因故障而變化時,這種正確性很難建立。此外,復雜的系統需要復雜的控制器,這反過來影響了控制器的穩健性。另一方面,數據驅動技術利用數據來設計FTC,而不知道系統的動態。因此,數據驅動的方法,特別是基于RL的技術,最近得到了很多關注。

表V:容錯控制器RL的文獻選擇。

文獻中提出了幾種方法來解決使用RL的FTC控制器。不同的RL算法,包括DDPG、TRPO和PPO,已經被用于開發四旋翼姿態控制的FTC技術[112]。結果表明,在所開發的基于RL的容錯控制器中,經過訓練的基于PPO的姿態控制器在上升時間、達到的峰值速度和訓練后的控制器組中的總誤差方面優于完全調整的PID控制器。采用基于DPG的技術和積分補償器來開發四旋翼飛機的位置跟蹤控制器[113]。該方法采用了一個兩階段的學習方案,利用簡化模型進行離線學習,并在飛行過程中完善學習的策略。結果表明,學習的FTC對模型錯誤和外部干擾有足夠的魯棒性。[114]中提出了一個基于DDPG的四旋翼飛機位置跟蹤的容錯策略。該框架的運行方式是與基于模型的控制器同時運行,只有當系統的行為與正常運行狀態發生變化時才會激活。

無模型的基于RL的FTC方法的一個重要缺點是不能保證收斂性。為了克服這個問題,有人提出了一個基于模型的八旋翼飛機位置跟蹤框架[115]。提出了四種RL算法,即PPO、DDPG、Twin-Delayed DDPG(TD3)和soft actor-critic(SAC)。結果表明,PPO更適用于容錯任務。

F 飛行規劃

飛行和軌跡規劃是一個眾所周知的航空問題,也是至關重要的。雖然空域用戶希望得到最優化的軌跡,使成本函數最小化,但許多約束條件,如地面障礙物、容量限制或環境威脅,使這個問題難以解決。提出了幾種技術,包括改道或地面延遲,以緩解大多數情況下的交通擁堵。ATM領域基本上是基于時間性的操作,用容量供求模型來管理空中交通流。這種操作會導致容量不平衡,當容量(定義為某一時期內某一航段接受的飛機數量)被超過時,會在航段中產生熱點。飛機軌跡或飛行的規劃可以在ATM領域定義的幾個階段完成;戰略階段包括一年和D-7之間執行的飛行規劃,預戰術階段發生在D-7和D-1之間,最后,戰術階段發生在D日。RL規劃器顯示是解決危險環境下飛行前規劃問題的一個有前途的工具[124]。

表VI:飛行規劃中RL的文獻選擇。

無人機在執行從地形測繪到監視和軍事任務方面的多功能性使得這個問題成為飛機運行的基本組成部分。無人機的許多既定任務之一是飛越地面目標。提出了用于軍事用途的POMDP理論,并使用名義信念狀態優化(NBO)來尋找考慮威脅、風效應或其他智能體的最佳軌跡[117]。此外,還提出了一種RL方法,利用無人機環境的幾何信息,在實時規劃中產生更平滑、更可行的軌跡[118]。在[119]中比較了決斗雙深Q網絡(D3QN)、DDQN和DQN方法,以解決智能體在面臨環境威脅的動態環境中的路徑規劃問題。

一種RL方法被用來解決這些有交通速度調節的熱點問題[125]。代表一個固定點(扇區中的一個二維點)的智能體可以調節流量。通過提高計算能力,航班已被視為智能體,并提出了MARL方法[120]來解決這些容量問題。還研究了各種算法:獨立學習者、邊緣MARL和基于智能體的MARL,基于Q-learning技術。使用GDP來解決熱點問題,在GDP中,航班出發時間被推遲,以轉移整個軌跡[121]。結果表明,協作方法產生了更好的結果。為了減少搜索空間,提出了一個分層的MARL方案,用GDP解決需求-容量平衡(DCB)問題[82],從而允許對時間和狀態動作進行抽象。受監督學習的啟發,有人提出了建立在PPO上的多個監督-MARL框架[81],其中代表航班的智能體有三種行動:保持出發、起飛或協作。這項研究表明,增加監督者可以幫助提高搜索和概括能力。DQN和分布式訓練與分布式執行(DTDE)結合重放經驗[122]也被用來解決DCB問題。此外,還構建了一個多智能體異步優勢行為者-評論者(MAA3C)框架,在適當的地面延遲內解決空域熱點問題[126]。

所有這些工作的目的是通過延遲航班來減少熱點,同時最大限度地減少平均延遲并確保良好的分布。但是,他們仍然沒有研究其他軌跡規劃技術。有人提出了一種RL方法來選擇低水平的啟發式方法,以減輕空中交通的復雜性[127]。飛行等級分配、錯開出發時間和在途路徑偏離減少了擁堵。在UAM概念中,出發前的空域預訂問題被表述為一個MDP[123]。先入先出(FIFO)原則和快速MDP算法在戰略階段提供了一個無沖突的軌跡。調度器允許集中和分散的飛行計劃,利用GPU的計算能力和并行化來處理大量的航班。有人提出了一種學習調度算法,以最大限度地提高颶風災害等緊急情況下的航空容量[128]。

G 維護

維護調度是計劃何時以及何種類型的維修檢查應該在飛機上進行的過程。航空公司的維修任務通常被分為四個字母的檢查(A、B、C和D)。這些組的維護檢查的詳細程度是不同的。例如,A-和B-檢查被認為是輕度維護,C-和D-檢查為重度維護和更詳細的檢查。通常情況下,天氣狀況和飛行中斷會導致計劃的偏離。這些不確定因素使飛機維修調度成為一項具有挑戰性的任務。

為飛機維修檢查開發了一種前瞻近似的動態編程方法[129]。它的計劃最大限度地減少了維修檢查之間的浪費的利用間隔,同時減少了對額外維修時段的需求。該方法通過對A320系列機隊的維修數據的兩個案例研究進行了測試。所開發的方法顯示了計劃維修時間的顯著變化;它在四年內減少了1.9%的A檢查次數,9.8%的C檢查次數,以及78.3%的額外機位數量。

[130]中提出了一種基于RL的方法來解決飛機的長期維護優化問題。所提出的方法使用有關飛機未來任務、維修成本、預知和健康管理等信息,以提供實時、連續的維修決策。在幾個模擬的維修場景中,RL驅動的方法在根據不同的數據調整其決策原則方面優于現有的三種常用策略。[131]提出了在維護計劃中整合人機協作的RL模型以及基于狀態的維護指標的可視化。同時還提出了在突發事件發生時的最佳維護決策。

H 強化學習的安全性和認證

在航空系統等安全關鍵應用中,安全是最重要的。最近在RL方面取得的可喜成果鼓勵研究人員將此類技術應用于許多現實世界的應用。然而,基于學習的方法的認證,包括安全關鍵應用中的RL,仍然是一個開放的研究問題[132], [133]。最近的調查對安全關鍵應用中的安全RL的努力進行了全面的概述[134]。雖然人們對安全RL有很多研究興趣,特別是在自動駕駛領域[135]-[137],但在航空研究領域,安全RL問題仍然沒有得到充分的探討。安全RL在航空系統中的應用已經從不同角度進行了研究。例如,最近,有人提出了一種用于自主機載防撞系統的安全RL方法[62]。從沖突解決的角度來看,在分層空域的垂直機動過程中,使用了軟行為者-批評模型[138]。在一個類似的研究思路中,一個安全的深度MARL框架可以識別和解決高密度下飛機之間的沖突[42]。

從運行時保證的角度來看,一種運行時安全保證的方法將該問題作為一個MDP框架,并使用RL來解決它[139]。同樣,路徑規劃問題也被框定為MDP,并利用MCTS進行安全和保證路徑規劃[140]。為了保證實時自主飛行操作的安全,有人提出了一種MCTS算法,同時還提出了高斯過程回歸和貝葉斯優化來離散連續行動空間[141]。此外,一個強化學習框架預測并緩解了擁擠空域中潛在的分離事件損失[142]。最近,為航空系統中基于學習的組件的設計時和運行時保證提出了一個安全驗證框架[133]。

結論

本文在回顧了最常見的RL技術及其總體方法和原理后,提出了RL在航空領域的應用調查。從航空公司的收入管理到飛機的姿態控制,RL方法的使用在過去十年中在文獻中表現出極大的興趣。事實上,隨著計算能力的提高和對大量數據源的訪問,這種數據驅動的方法已被廣泛研究。無論是避撞、交通管理,還是其他與航空有關的問題,這些基于學習的框架都顯示出了很好的效果,各種算法和技術經常被研究用于特定問題。最先進的技術,如DRL或DPG,被用來處理關鍵系統,如避免碰撞或處理交通管理和飛行計劃中不斷增長的航空交通。然而,模擬環境和現實世界的應用之間的差異或其黑箱方案仍然可以成為在航空業實施的障礙,受到眾多安全措施的限制。因此,這種方法的認證是這些創新和顛覆性的航空應用的關鍵點,應該成為該領域的研究重點之一。

付費5元查看完整內容

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習范式之一。 強化學習與監督學習的不同之處在于,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在于,后者不假設MDP的確切數學模型,并且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

序列決策,通常形式化為馬爾可夫決策過程(MDP)優化,是人工智能的一個重要挑戰。解決這個問題的兩種關鍵方法是強化學習(RL)和規劃。這項綜述是這兩個領域的集成,更廣為人知的是基于模型的強化學習。基于模型的RL有兩個主要步驟。首先,我們系統地介紹了動力學模型學習的方法,包括處理隨機性、不確定性、部分可觀察性和時間抽象等挑戰。其次,我們提出了規劃-學習集成的系統分類,包括:從哪里開始規劃,為規劃和實際數據收集分配哪些預算,如何規劃,以及如何在學習和行動循環中集成規劃。在這兩個部分之后,我們還討論了隱式基于模型的RL作為模型學習和規劃的端到端替代方案,并討論了基于模型的RL的潛在好處。在此過程中,調研還與幾個相關的RL領域建立了聯系,如分層RL和傳輸。

付費5元查看完整內容

本文對常用于軍事目的的十種算法進行簡短綜述,然后分析它們對數據流和GaAs的潛在適用性,GaAs是芯片上超級計算機的特定架構和技術。每當一種算法或設備被用于軍事場合時,自然會假設與速度、可靠性、規模、能量、尺寸和精確度有關的嚴格要求。上述兩種范式在滿足這些要求中的大部分方面是有希望的。

1 引言

這是對優化和學習的十種具體算法的一個小型綜述,結合對它們在未來芯片上的超級計算機中的數據流實現的適用性的分析,如[1]所述,以及它們對GaAs技術的適用性,這也是未來芯片上的超級計算機的一個選擇。顯然,這些算法的計算量需要在一個小的物理空間內有大量的計算能力。

在第2節中,每個算法都用適當的數學和邏輯概念進行了說明,并使用[2]中的準則進行介紹,即以下幾點:

1.要解決的問題是什么。

2.在引入所提出的算法之前,現有的最佳算法是什么。

3.為什么新提出的算法會更好?

4.在哪些條件下,它的優勢有多大?

上述每個問題都盡可能簡明扼要地介紹,以便有效地深入了解其本質。

在第3節中,每一種算法都從適合數據流技術的角度進行了描述,數據流技術對高速、高精度、低功耗和低尺寸的航空航天和國防應用很有前途。

在第4節中,從適合GaAs技術的角度描述了每種算法,GaAs技術對航空航天和國防領域典型的高輻射環境下的超高速處理比較有用。

第5節介紹了與本綜述所關注的各種情況下的性價比有關的結論。

2 算法

人工智能(AI)算法已經進入國防領域,它們的廣泛使用正在改變戰爭和一般國防的經典理論。算法被用于檢測、規劃、現場作戰和輔助支持,這些都是國防部門的主要任務。算法和智能傳感器被用來在邊境口岸、海關檢查站和其他旅行口岸檢測潛在的危險人物和物體。作為這些算法的輸出,所獲得的洞察力被用來部署積極的警務工作,并對危機情況提供更全面的了解。在計劃中,可用的數據和算法被用來更好地預測資源需求和任務及培訓演習的相關費用。在實地行動中,這些可以提供實時信息和快速評估,以改善任務結果,保護人員、資產和信息。一些系統和武器配備了各種輔助決策系統,而無人駕駛車輛和機器人則以較高的精度和較少的資源執行涉及安全風險的任務。

在本文中,我們介紹了十種算法,這些算法被用于核心、戰術和支持作戰的軍事應用中。基礎問題的實例,即算法的輸入,通常規模很大。因此,有大量的數據需要快速處理,最好是實時的、準確的和可靠的,同時保證信息的保密性和控制,即使在惡劣的條件下操作。

在DARPA贊助的項目中,最常發現的算法與我們下面介紹的問題和算法有關。算法和問題的選擇似乎略微偏向于計算機視覺,因為它似乎是發展自動駕駛汽車的基本技術,取代了駕駛員的眼睛,從而使汽車能夠在危險的地點檢測到感興趣的物體。

A 大規模隨機規劃問題

軍隊中每天都有大量的優化問題,這些問題具有一定的不確定性,通常呈現在各種場景中。應用范圍從每月或每天的空運或海運貨物的調度[4],到網絡勞動力規劃[5]或醫療設施部署規劃[6]。這些都需要快速、準確和可靠的大規模隨機規劃問題的求解器。

Benders分解法是一種數學規劃技術,用于解決具有特定塊結構的超大型線性規劃問題[7]。

假設一個問題分兩個或多個階段發生,后面階段的決策取決于前面階段的結果。第一次嘗試對第一階段的問題進行決策時,事先不知道關于后面階段決策的最優性。第一階段的決策是主問題,而后續階段被視為獨立的子問題,其信息被傳遞回主問題。如果檢測到任何違反子問題約束的情況,該約束將被添加到主問題中,然后被解決。主問題代表了一個初始的凸集,它被從子問題中收集到的信息進一步約束,因此隨著信息的增加,可行空間會縮小。如果矩陣A和B代表約束條件,Y代的可行集,我們要解決的問題被表示為最小化問題,如下所示:

在圖1中,我們說明了Bender分解算法。一旦得到初始主問題和子問題,在得出初始MP和子問題后,算法從主問題開始,然后在它們之間交替進行,直到找到一個最優解。較小的問題基本上是多項式時間可計算的問題,而它們的獨立性允許有效利用并行性。

一般來說,線性規劃是一個NP完全的問題,而Benders分解是一種能緩慢收斂到所需解決方案的方法。

B 圖像配準

機械臂和自主裝甲車的絕對精度是可能的,這要歸功于計算機視覺應用于從多個攝像機收集的高分辨率輸入,這些輸入最終需要轉化為相同的坐標系,以便為后續算法創建一致的數據。這是用所謂的圖像配準算法完成的。

圖像配準包括對源圖像進行空間轉換,以便與目標圖像對齊,如圖2所示。對齊是通過一個特定的映射來進行的,這個映射被稱為 "同構",定義如下。

有大量的算法可以準確地進行圖像配準。當圖像被暴露在噪聲中,導致一個場景在圖像中顯得雜亂無章時,現有的最佳解決方案具有多項式時間復雜性(見[8])。

最近,高分辨率圖像的實時配準(詳見[9]),正在由高速硬件來解決,這些硬件利用并行性和自適應采樣技術來滿足高速便攜式多媒體設備的要求(見[10])。

C 視頻拼接

圖像和視頻拼接是通過拼接幾個有多處重疊的圖像/視頻來獲得全面的圖像/視頻視野,從而消除圖像或視頻中的視野限制。視頻拼接本質上是對多圖像拼接的概括,具有一系列新的限制和挑戰。

首先,圖像需要使用之前解釋過的圖像配準將其轉換為相同的坐標系。然后,根據使用情況,選擇一個適當的算法來尋找拼接縫隙。

較早開發的算法通常根據一個估計的單一變換對多個重疊的圖像進行全局變形和對齊。最近開發的算法將該問題轉化為更高級的優化問題,考慮到攝像機的移動,這需要穩定視頻。因此,視頻拼接可以被設定為優化一個由穩定項和拼接項組成的目標函數,在此基礎上進行迭代優化算法。顯然,即使是拼接低分辨率的視頻也需要大量的計算(見[11])。把這個問題帶到國防應用的現實場景中,需要對位置不固定的攝像機獲得的高分辨率視頻進行拼接。

D 模式識別算法

模式識別涉及自動識別數據中的規律性,并將數據分為不同類別。

分類是指識別一個(或多個)觀測值屬于一組類別(子群體)中的哪一個的問題。這方面的例子是將視頻流中的識別對象標記為敵人,或者根據觀察到的設備特征(類型、某些特征的存在等)來分配網絡診斷中的一個設備。對于分類問題,我們將考慮邏輯回歸、kNN、感知機和SVM。

聚類是一種分類和預測分類標簽的方法,對于這個類別,我們將介紹kmeans算法。

最后,我們還將考慮集成學習,其本質是將多種學習算法結合在一起的有監督的元算法。

  • 1)邏輯回歸

邏輯模型在統計學中被用來評估某個事件或現有的一組事件的概率,如通過/失敗、贏/輸、生/死或敵/友。它也可以擴展到對幾類事件進行建模,如確定圖像中的人是否有火箭筒,圖像中是否包含特定物體等。在圖像中檢測到的每個物體都被賦予0到1的概率,其總和為1。

  • 2)online kNN

kNN是一種監督學習算法,它將標記好的訓練好的樣本存儲為一對(X1, Y1), (X2, Y2), ...... ,(Xn, Yn),在Rd×{1, 2}中取值。訓練階段只包括存儲這些樣本。為了進行預測,kNN算法找到查詢點的k個最近的鄰居,并根據最近的k個最相似的點計算出類標簽。

  • 3)感知機

感知機是一種學習閾值函數的算法:一個將其輸入x(實值向量)映射到輸出值f(x)(單一二進制值)的函數。單層感知機的自然擴展是多層感知機,它基本上包含了許多組織成層的感知機,從而獲得在合理時間內解決更復雜問題的能力。

  • 4)用于實時目標檢測的神經網絡

一個可靠的、高度準確的實時目標檢測算法在防御中是最重要的。在給定的視頻中實時檢測某類語義物體的實例(如人類、動物、道路或車輛)。輸入是以連續視頻流的形式給出的,而輸出則是分配給每個檢測到的目標的注釋描述符,該描述符在其出現的幀中以適當的方框為界。

YOLO算法被認為是最先進的算法。YOLO的處理管道包括一個單一的神經網絡,它首先預測圖像中的界線框,之后問題被簡化為對空間分離的界線框的回歸。

YOLO首先將圖像分割成單元,通常是19x19的網格。然后每個單元負責預測K個邊界盒。YOLO根據單元格包含某個類別的概率,為盒子和類別確定一個置信度分數。詳細來說,一個類別的置信度分數是界線框置信度分數和類別概率的乘積。然后對所有單元格重復這一過程。然后,需要用所謂的非最大抑制法過濾掉不必要的界線框,通過這種方法,選擇一個具有最高類別概率的界線框。這樣做直到我們剩下所有不同的目標類別的界線框。

預測結果與地面實況之間的誤差之和被用來計算損失。損失函數包括:分類損失、定位損失(預測的邊界框和地面實況之間的誤差)和置信度損失(框的客觀性)。

這種方法在軍事上的應用有兩個額外的限制:(1)在準確性和速度之間不做權衡;(2)出于安全考慮,不使用在安全范圍外預訓練的網絡

這些限制和問題的性質要求在數據流上有巨大的連續處理能力,以使這種算法能夠成功使用。

  • 5)支持向量機(SVM)

為了檢測網絡中的入侵行為(IDS),需要對其流量進行特殊的簽名分析。正常的網絡流量往往表現出與攻擊相似的特征,而黑客經常應用混淆的方式進行網絡入侵。

機器學習為準確識別IDS提供了廣泛的有效工具,其限制條件是訓練數據集不應與惡意數據有關。支持向量機(SVM)是這項任務的一個有希望的候選者[14]。

這種算法的目的是在N維空間中找到一個超平面,在保持最大余量的同時將數據點分開,也就是各個類的點之間的最大距離。

盡管SVM的空間和時間復雜度是多項式的(分別是對輸入大小的二次和三次),但網絡中的數據量要求有特殊的結構,以使這種算法能有效地用于上述目的。

  • 6)k-means

k-means聚類是一種矢量量化的方法,其目的是將n個觀測值劃分為k個聚類,每個觀測值都屬于平均值最近的聚類,作為聚類的原型。這導致數據空間被劃分為Voronoi單元。

  • 7) 集成模型--Boosting

集成模型使用多個不同的建模算法或不同的訓練數據集來預測一個結果。然后,集成模型將每個使用過的模型的預測結果匯總,得出其對未見過的數據的最終預測結果。特別是,Boosting是一種集成模型,已被廣泛用于軍事應用中(見[15])。

在實踐中,AdaBoost算法是通過級聯上述SVM弱分類器的數量來實現的。

3 數據流

數據流范式[16], [17], [18]已經被引入,與傳統的控制流范式[19]形成對比。在控制流中,編寫程序的目的是為了對通過硬件的數據流進行微觀控制。在數據流中,編寫程序的目的是為了配置硬件,因此,在理想情況下,電壓差可以通過硬件移動數據。

與控制流范式相比,數據流范式可以實現10倍、100倍、甚至1000倍的速度提升。同時,功率的降低可以達到10倍左右。精度可以在整個算法中變化,這就節省了芯片面積。設備的尺寸也得到了減少,系數高達10倍。

從這種模式中受益最多的算法是那些以耗時的循環和每個特定循環迭代中的大量數據可用性為特征的算法。在本文綜述的算法中,最適合數據流實現的算法是:邏輯回歸、K-means和集成模型。

這些算法的數據流實現的例子,以及其他類似的算法,可以在appgallery.maxeler.com 或[16]中找到。關于更多信息,感興趣的讀者可以參考文獻[19]、[17]、[18]。

4 GaAS

GaAs技術也可用于處理器的設計和算法的實現。它提供了明顯更高的處理器速度和精度或輻射硬度,這使得它適合在航空航天和國防環境中使用。另一方面,可以放置在單個芯片上的晶體管數量較少,而柵極延遲在很大程度上取決于柵極扇出。

這些特點決定了處理器設計和算法實現的具體要求。一方面,沒有多少邏輯可以放置在單個芯片上,另一方面,片外和片內延遲的比例相對較高。這就要求利用高度流水線架構,其中流水線元件的復雜性相對較小。

在DARPA的贊助下,實現各種類型的處理器工作在[20]和[21]中描述。重要的概念在[22]和[23]中被描述。這些概念也與本文描述的算法的實現有關

基于上述事實,可以預期最有效的實現是那些可以使用許多小元素,以流水線方式連接的算法,如圖像/視頻配準和拼接。其他例子包括感知器、SVM、kmeans和集成建模。這些說法通過本文共同作者任教的大學中的一些學生項目得到了驗證。

5 結論

所綜述的算法是根據在選定的軍事應用中的使用頻率選擇的。我們從基于數據流范式和GaAs技術的實施角度來研究這些算法。

研究發現,有些算法比其他算法更適合于數據流。也就是說,最適合的算法是那些以循環對整個運行時間的高貢獻為特征的算法,以及那些在每個循環迭代中具有高水平數據重用性的算法。

就利用GaAs技術帶來的潛在好處而言,那些可以在大量小模塊上實現的、以流水線或系統方式連接的算法有望獲得最佳性能提升。此外,對片外和片內延遲的大比率不太敏感的算法更適合這種技術,因為這種技術可以提供高速度,但不允許使用大芯片。

最后,這項調查開辟了與三角中的協同作用有關的新研究途徑:算法-架構-技術。為了從眾多的選擇中適當地選擇一種特定的算法,有必要進行本文所介紹分析。

付費5元查看完整內容

【導讀】首篇深度強化學習推薦系統綜述論文,值的關注!

摘要

鑒于深度強化學習(DRL)在推薦系統研究中的出現,以及近年來取得的豐碩成果,本研究旨在對深度強化學習在推薦系統中的最新發展趨勢提供一個及時而全面的概述。我們從在推薦系統中應用DRL的動機開始。然后,我們給出了當前基于DRL的推薦系統的分類,并對現有的方法進行了總結。我們討論新出現的話題和未決的問題,并提供我們推進該領域的觀點。本綜述為來自學術界和工業界的讀者提供了入門材料,并確定了進一步研究的顯著機會。

引言

近年來,推薦技術有了長足的發展,從傳統的協同過濾、基于內容的推薦、矩陣分解等推薦技術[62],到基于深度學習的推薦技術。特別是深度學習在解決復雜任務和處理復雜數據方面具有很強的優勢,因為深度學習能夠捕捉非線性的用戶-項目關系,能夠處理圖像、文本等各種類型的數據源。因此,它在推薦系統中得到了越來越多的應用。由于分布的變化,基于深度學習的推薦系統在捕獲興趣動態方面存在局限性[17,115],即訓練階段基于現有的數據集,這可能不能反映真實的用戶喜好,而用戶的喜好變化很快。而深度強化學習(deep reinforcement learning, DRL)的目標是將深度學習和強化學習的力量結合起來,訓練出一種能夠從環境提供的交互軌跡中學習的agent。由于DRL中的agent可以主動從用戶的實時反饋中學習,從而推斷出用戶的動態偏好,因此DRL特別適合于從交互中學習,如人-機器人協作; 它還推動了一系列互動應用的顯著進步,從視頻游戲、Alpha Go到自動駕駛[3]。鑒于DRL對推薦系統的重要性和最近的進展,我們旨在在本次綜述中及時總結和評論基于DRL的推薦系統。

最近的一項基于強化學習的推薦系統[2]綜述了推薦系統中的強化學習,但沒有對日益增長的深度強化學習領域進行復雜的研究。我們綜述重點在于系統全面地概述了基于DRL的推薦系統中的現有方法,并討論了新出現的主題、未決問題和未來的方向。這項綜述介紹了研究人員,實踐者和教育工作者到這個主題,并促進了對該領域的關鍵技術的理解。

這項綜述的主要貢獻包括:

  • 我們提供關于推薦系統中深度強化學習的最新綜合綜述,具有最先進的技術和指向核心參考文獻的指針。據我們所知,這是基于深度強化學習的推薦系統的第一個全面綜述。

  • 我們給出了推薦系統中深度強化學習的文獻分類。在概述分類和文獻綜述的同時,我們討論了其優缺點,并對未來的研究方向提出了建議。

  • 我們闡明了基于DRL的推薦系統的新興主題和開放問題。我們還指出了未來發展方向,這對推進基于DRL的推薦系統至關重要。

本綜述的其余部分組織如下: 第2節概述了推薦系統、DRL及其集成。第3節提供了一個分類和分類機制的文獻綜述。第4節回顧了出現的話題,第5節指出了未解決的問題。最后,第6節為這一領域的進一步發展提供了一些有前景的未來方向。

付費5元查看完整內容

【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey

【作者團隊】Sven Gronauer, Klaus Diepold

【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。

付費5元查看完整內容

【導讀】2020注定是寫入到歷史的一年,新冠變成主題詞。在2019年機器學習領域繼續快速發展,深度學習理論、對比學習、自監督學習、元學習、持續學習、小樣本學習等取得很多進展。在此,專知小編整理這一年這些研究熱點主題的綜述進展,共十篇,了解當下,方能向前。

1、Recent advances in deep learning theory(深度學習理論)

陶大程院士等最新《深度學習理論進展》綜述論文,41頁pdf255篇文獻闡述六大方面進展

作者:Fengxiang He,Dacheng Tao

摘要:深度學習通常被描述為一個實驗驅動的領域,并不斷受到缺乏理論基礎的批評。這個問題已經部分地被大量的文獻解決了,這些文獻至今沒有被很好地組織起來。本文對深度學習理論的最新進展進行了綜述和整理。文獻可分為六類: (1)基于模型復雜度和容量的深度學習泛化; (2)用于建模隨機梯度下降及其變量的隨機微分方程及其動力學系統,其特征是深度學習的優化和泛化,部分受到貝葉斯推理啟發; (3)驅動動力系統軌跡的損失的幾何結構; (4)深度神經網絡的過參數化從積極和消極兩個方面的作用; (5)網絡架構中幾種特殊結構的理論基礎; (6)對倫理和安全及其與泛化性的關系的日益關注。

網址: //www.zhuanzhi.ai/paper/b5ac0f259b59817b890b6c253123ee84

2、Learning from Very Few Samples: A Survey(少樣本學習)

清華大學張長水等最新《少樣本學習FSL》2020綜述論文,30頁pdf414篇參考文獻

作者:Jiang Lu,Pinghua Gong,Jieping Ye,Changshui Zhang

摘要:少樣本學習(FSL)在機器學習領域具有重要意義和挑戰性。成功地從很少的樣本中學習和歸納的能力是區分人工智能和人類智能的一個明顯的界限,因為人類可以很容易地從一個或幾個例子中建立他們對新穎性的認知,而機器學習算法通常需要數百或數千個監督樣本來保證泛化能力。盡管FSL的悠久歷史可以追溯到21世紀初,近年來隨著深度學習技術的蓬勃發展也引起了廣泛關注,但迄今為止,有關FSL的調研或評論還很少。在此背景下,我們廣泛回顧了2000年至2019年FSL的200多篇論文,為FSL提供了及時而全面的調研。在本綜述中,我們回顧了FSL的發展歷史和目前的進展,原則上將FSL方法分為基于生成模型和基于判別模型的兩大類,并特別強調了基于元學習的FSL方法。我們還總結了FSL中最近出現的幾個擴展主題,并回顧了這些主題的最新進展。此外,我們重點介紹了FSL在計算機視覺、自然語言處理、音頻和語音、強化學習和機器人、數據分析等領域的重要應用。最后,我們對調查進行了總結,并對未來的發展趨勢進行了討論,希望對后續研究提供指導和見解。

網址:

3、A Survey on Knowledge Graphs: Representation, Acquisition and Applications(知識圖譜研究綜述論文)

最新!知識圖譜研究綜述論文: 表示學習、知識獲取與應用,25頁pdf詳述Knowledge Graphs技術趨勢

作者:Shaoxiong Ji, Shirui Pan, Erik Cambria, Pekka Marttinen, Philip S. Yu

摘要:人類知識提供了對世界的認知理解。表征實體間結構關系的知識圖譜已經成為認知和人類智能研究的一個日益流行的方向。在本次綜述論文中,我們對知識圖譜進行了全面的綜述,涵蓋了知識圖譜表示學習、知識獲取與補全、時序知識圖譜、知識感知應用等方面的研究課題,并總結了最近的突破和未來的研究方向。我們提出對這些主題進行全視角分類和新的分類法。知識圖譜嵌入從表示空間、得分函數、編碼模型和輔助信息四個方面進行組織。對知識獲取,特別是知識圖譜的補全、嵌入方法、路徑推理和邏輯規則推理進行了綜述。我們進一步探討了幾個新興的主題,包括元關系學習、常識推理和時序知識圖譜。為了方便未來對知識圖的研究,我們還提供了不同任務的數據集和開源庫的集合。最后,我們對幾個有前景的研究方向進行了深入的展望。

網址:

4、A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications(生成式對抗網絡綜述論文)

密歇根大學28頁最新《GANs生成式對抗網絡綜述:算法、理論與應用》最新論文,帶你全面了解GAN技術趨勢

作者:Jie Gui,Zhenan Sun,Yonggang Wen,Dacheng Tao,Jieping Ye

摘要:生成對抗網絡(GANs)是最近的熱門研究主題。自2014年以來,人們對GAN進行了廣泛的研究,并且提出了許多算法。但是,很少有全面的研究來解釋不同GANs變體之間的聯系以及它們是如何演變的。在本文中,我們嘗試從算法,理論和應用的角度對各種GANs方法進行敘述。首先,詳細介紹了大多數GANs算法的動機,數學表示形式和結構。此外,GANs已與其他機器學習算法結合用于特定應用,例如半監督學習,遷移學習和強化學習。本文比較了這些GANs方法的共性和差異。其次,研究了與GANs相關的理論問題。第三,說明了GANs在圖像處理和計算機視覺,自然語言處理,音樂,語音和音頻,醫學領域以及數據科學中的典型應用。最后,指出了GANs未來的開放性研究問題。

網址:

5、A Survey on Causal Inference(因果推斷綜述論文)

最新「因果推斷Causal Inference」綜述論文38頁pdf,阿里巴巴、Buffalo、Georgia、Virginia

作者:Liuyi Yao,Zhixuan Chu,Sheng Li,Yaliang Li,Jing Gao,Aidong Zhang

摘要:數十年來,因果推理是一個跨統計、計算機科學、教育、公共政策和經濟學等多個領域的重要研究課題。目前,與隨機對照試驗相比,利用觀測數據進行因果關系估計已經成為一個有吸引力的研究方向,因為有大量的可用數據和較低的預算要求。隨著機器學習領域的迅速發展,各種針對觀測數據的因果關系估計方法層出不窮。在這項綜述中,我們提供了一個全面的綜述因果推理方法下的潛在結果框架,一個眾所周知的因果推理框架。這些方法根據是否需要潛在結果框架的所有三個假設分為兩類。對于每一類,分別對傳統的統計方法和最近的機器學習增強方法進行了討論和比較。并介紹了這些方法的合理應用,包括在廣告、推薦、醫藥等方面的應用。此外,還總結了常用的基準數據集和開放源代碼,便于研究者和實踐者探索、評價和應用因果推理方法。

網址:

6、Pre-trained Models for Natural Language Processing: A Survey(預訓練語言模型)

【復旦大學】最新《預訓練語言模型》2020綜述論文大全,50+PTMs分類體系,25頁pdf205篇參考文獻

作者:Xipeng Qiu,Tianxiang Sun,Yige Xu,Yunfan Shao,Ning Dai,Xuanjing Huang

摘要:近年來,預訓練模型(PTMs)的出現將自然語言處理(NLP)帶入了一個新的時代。在這項綜述中,我們提供了一個全面的PTMs調研。首先簡要介紹了語言表示學習及其研究進展。然后,我們根據四種觀點對現有的PTMs進行了系統的分類。接下來,我們將描述如何將PTMs的知識應用于下游任務。最后,我們概述了未來PTMs研究的一些潛在方向。本調查旨在為理解、使用和開發各種NLP任務的PTMs提供實際指導。

網址:

7、A Survey on Heterogeneous Graph Embedding: Methods, Techniques, Applications and Sources(異質圖網絡嵌入)

異質圖嵌入綜述: 方法、技術、應用和資源, 23頁pdf

作者:Xiao Wang, Deyu Bo, Chuan Shi, Shaohua Fan, Yanfang Ye, Philip S. Yu

摘要:

異質圖(Heterogeneous Graph, HG)也稱為異質信息網絡(Heterogeneous Information Network, HIN),在現實世界中已經無處不在。異質圖嵌入(Heterogeneous Graph Embedding, HGE),旨在在低維的空間中學習節點表示,同時保留異質結構和語義用于下游任務(例如,節點/圖分類,節點聚類,鏈接預測),在近年來受到了廣泛的關注。在綜述中,我們對異質圖嵌入的方法和技術的最新進展進行了全面回顧,探索了異質圖嵌入的問題和挑戰,并預測了該領域的未來研究方向。

該論文的主要貢獻如下:

討論了與同質圖相比,異質圖的異質性帶來的獨特挑戰 。該論文對現有的異質圖嵌入方法進行了全面的調研,并基于它們在學習過程中使用的信息進行分類,以解決異質性帶來的特定的挑戰。 對于每類代表性的異質圖嵌入方法和技術,提供詳細的介紹并進一步分析了其優缺點。此外,該論文首次探索了異質圖嵌入方法在現實工業環境中的可轉換性和適用性。 總結了開源代碼和基準數據集,并對現有的圖學習平臺進行了詳細介紹,以促進該領域的未來研究和應用。 探討異質圖嵌入的其他問題和挑戰,并預測該領域的未來研究方向。

網址:

8、Graph Neural Networks: Taxonomy, Advances and Trends(圖神經網絡)

太原理工最新《圖神經網絡:分類,進展,趨勢》綜述論文,50頁pdf400篇文獻

作者:Yu Zhou,Haixia Zheng,Xin Huang

摘要:圖神經網絡為根據特定任務將真實世界的圖嵌入低維空間提供了一個強大的工具包。到目前為止,已經有一些關于這個主題的綜述。然而,它們往往側重于不同的角度,使讀者看不到圖神經網絡的全貌。本論文旨在克服這一局限性,并對圖神經網絡進行了全面的綜述。首先,我們提出了一種新的圖神經網絡分類方法,然后參考了近400篇相關文獻,全面展示了圖神經網絡的全貌。它們都被分類到相應的類別中。為了推動圖神經網絡進入一個新的階段,我們總結了未來的四個研究方向,以克服所面臨的挑戰。希望有越來越多的學者能夠理解和開發圖神經網絡,并將其應用到自己的研究領域。

網址:

9、Efficient Transformers: A Survey(高效Transformer)

【Google】最新《高效Transformers》綜述大全,Efficient Transformers: A Survey

作者:Yi Tay, Mostafa Dehghani, Dara Bahri, Donald Metzler

摘要:Transformer模型架構最近引起了極大的興趣,因為它們在語言、視覺和強化學習等領域的有效性。例如,在自然語言處理領域,Transformer已經成為現代深度學習堆棧中不可缺少的主要部分。最近,提出的令人眼花繚亂的X-former模型如Linformer, Performer, Longformer等這些都改進了原始Transformer架構的X-former模型,其中許多改進了計算和內存效率。為了幫助熱心的研究人員在這一混亂中給予指導,本文描述了大量經過深思熟慮的最新高效X-former模型的選擇,提供了一個跨多個領域的現有工作和模型的有組織和全面的概述。

圖片

網址:

10、Self-supervised Learning: Generative or Contrastive(自監督學習)

作者:Xiao Liu, Fanjin Zhang, Zhenyu Hou, Zhaoyu Wang, Li Mian, Jing Zhang, Jie Tang

摘要:深度監督學習在過去的十年中取得了巨大的成功。然而,它依賴于手工標簽的缺陷和易受攻擊的弱點促使人們探索更好的解決方案。作為另一種學習方式,自監督學習以其在表征學習領域的飛速發展吸引了眾多研究者的關注。自監督表示學習利用輸入數據本身作為監督,并使得幾乎所有類型的下游任務從中受益。在這項綜述中,我們著眼于新的自監督學習方法,用于計算機視覺、自然語言處理和圖學習。我們全面回顧了現有的實證方法,并根據它們的目的將它們歸納為三大類:生成型、對比型和生成-對比型(對抗型)。我們進一步研究了相關的理論分析工作,以提供對自監督學習如何工作的更深層次的思考。最后,我們簡要討論了自監督學習有待解決的問題和未來的發展方向。

網址:

付費5元查看完整內容

深度強化學習(deep reinforcement learning, DRL)方法在經濟學中的普及度呈指數級增長。DRL通過從增強學習(RL)到深度學習(DL)的廣泛功能,為處理復雜的動態業務環境提供了巨大的機會。DRL的特點是可擴展性,有可能應用于高維問題,并結合經濟數據的噪聲和非線性模式。本文首先對DL、RL和深度RL方法在經濟學中不同應用的簡要回顧,提供了對現有技術的深入了解。此外,為了突出DRL的復雜性、魯棒性、準確性、性能、計算任務、風險約束和盈利能力,還研究了DRL在經濟應用中的體系結構。調查結果表明,與傳統算法相比,DRL在面臨風險參數和不確定性不斷增加的現實經濟問題時,可以提供更好的性能和更高的精度。

付費5元查看完整內容

【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。

論文鏈接: //arxiv.org/abs/2002.00444

介紹:

自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。

章節目錄:

section2: 介紹一個典型的自動駕駛系統及其各個組件。

section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。

section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。

section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。

section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。

section7: 總結

付費5元查看完整內容
北京阿比特科技有限公司