亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在電動汽車充電、智能配電網和自主倉庫等領域,多個智能體共享相同的資源。在規劃這些資源的使用時,智能體需要處理這些領域的不確定性。盡管文獻中提出了幾種模型和算法,用于解決不確定條件下的這種受限多智能體規劃問題,但仍不清楚何時可以應用哪種算法。在這項調查中,我們將這些領域概念化,并建立了一個基于馬爾科夫決策過程的通用問題類別。我們確定并比較了該類問題的規劃文獻中的算法可以應用的條件:約束是軟的還是硬的,智能體是否連續連接,領域是否完全可觀察,約束是瞬間的(瞬時的)還是預算的,以及約束是對單一資源還是對多種資源。此外,我們還討論了這些算法的優點和缺點。最后,我們確定了與概念化領域直接相關的開放問題,以及相鄰研究領域的問題。

最近,人工智能(AI)作為一個家喻戶曉的術語出現,一些列重要成果影響著人們的生活,如數字個人助理(Hoy,2018)、媒體推薦系統(M?ller等人,2018)以及能夠超越人類專家的游戲AI(Silver等人,2018)等知名例子。然而,這些例子的共同點是它們與用戶一對一地互動。預計,人工智能系統將很快導致更多的多智能體系統,其中多個智能體在做決策時進行互動。在這樣的系統中,由于共享資源的存在,智能體可能會遇到限制,限制了其潛在決策。

帶有資源約束的多智能體系統在當今社會的很多領域出現。例如,在自主倉庫中,有多個機器人收集物品進行運送,這些機器人受到諸如時間限制、地點和他們使用的設施的制約(Claes等人,2017)。另一個例子可以在配電網中找到,其中聚合器控制多個自主電動車的充電,這些電動車不允許違反配電網約束(De Weerdt等人,2018)。帶有約束條件的多智能體決策也發生在在線廣告中,為了使轉換率最大化,應將有限的廣告預算分配給在線用戶(Boutilier & Lu, 2016)。最后,機場的監控任務需要在考慮多個自主對手的情況下,用有限的安保人員來完成(Pita等人,2008)。除了存在i)或多或少獨立的智能體和ii)資源限制,iii)不確定性的來源,在做決策時需要考慮這些決定可能會相互影響的順序,以及iv)有機會提前協調。這四個特性確定了本文所討論的問題類型。

馬爾科夫決策過程(MDPs)為具有不確定性的決策問題提供了一個經過充分研究的框架(Puterman, 1994; Boutilier, 1996)。多年來,人們提出了許多擴展方案,通過對最優策略的額外約束來增強該框架。Altman(1999)全面概述了受限馬爾科夫決策過程的特性。在本文中,我們調查了建立在這些模型基礎上的工作,這些工作從多智能體的角度出發,強調了智能體之間關于資源的協調方面。此外,我們還定義了在任何情況下必須絕對成立的約束條件。這些不同約束條件的定義大多被孤立地研究,這使得我們不清楚文獻中提出的算法如何相互比較,以及在什么情況下它們可以用于解決規劃問題。

在這項調查中,我們旨在建立對可被建模為受限多智能體馬爾科夫決策過程的問題以及文獻中提出的相關算法的一般理解。第一個目的是進一步了解哪種(類型的)算法對哪種類型的領域最有效。此外,該綜述使我們能夠確定該領域未開發的領域以及在未來研究中可以追求的有前途的研究方向。

本文貢獻

首先,提出了一個基于馬爾科夫決策過程受限多智能體規劃問題的一般概念化。這一概念化描述了在具有共享約束的環境中進行規劃時需要考慮的資源和規劃領域的所有方面。這應用了分類法,文獻中開發的所有相關技術都可以放在其中。

其次,我們對規劃文獻中出現的解決方案算法進行了廣泛的概述,并確定和比較了這些算法可以應用的條件。我們進一步討論了這些算法的優點和缺點。

第三,我們確定了開放的研究方向,可以在未來推進該研究領域的發展。這一討論確定了目前存在的開放問題,以及與之密切相關的研究領域。這些領域與本調查所涉及的研究領域有很強的聯系,而且這兩個領域在未來可能會相互加強。

從更普遍的角度來看,我們的調查還旨在為該領域的新研究人員提供一個全面的概述,這樣他們就能迅速掌握文獻中的主要概念和解決方案。這使他們能夠了解受限規劃領域目前的情況,并確保他們能夠迅速確定開放的問題和研究方向,以便開展工作。

提綱

本調查的結構如下。在第2節中,我們從涉及多個智能體、不確定性和約束的激勵性應用領域開始,分析了這些領域的屬性,并介紹了一般的潛在解決方法,使智能體能夠根據資源的可用性非正式地協調其行動。在第3節中,我們介紹了捕捉所確定的領域屬性的正式模型。潛在的解決方法為第4節提供了起點,在這一節中,我們描述了幾種算法,可以用來計算或實現有資源約束的多智能體系統的解決方案。在第5節中,我們描述了相關的問題和算法,這些問題和算法不在本調查的重點范圍內。在第6節中,我們描述了開放的研究方向和關于受限規劃的一般領域的重要觀察。最后,我們在第7節中對調查進行了總結和歸納。

付費5元查看完整內容

相關內容

雖然深度強化學習(RL)在機器學習領域取得了多項引人注目的成功,但由于其通常較差的數據效率和所產生的策略的有限通用性,它未能得到更廣泛的采用。緩解這些限制的一個有希望的方法是,在稱為元強化學習的過程中,將更好的強化學習算法的開發本身視為一個機器學習問題。元強化學習最常在問題環境中進行研究,在給定任務分布的情況下,目標是學習一種策略,該策略能夠從盡可能少的數據的任務分布中適應任何新任務。**本文詳細描述了元強化學習問題的設置及其主要變化。**本文討論了如何在高層次上基于任務分布的存在和每個單獨任務的可用學習預算對元強化學習研究進行聚類。使用這些聚類,綜述了元強化學習算法和應用。最后,提出了使元強化學習成為深度強化學習從業者標準工具箱一部分的道路上的開放問題。

//www.zhuanzhi.ai/paper/bbd26798bcb89638b3308c8dfc2a8e20

**1. 引言****元強化學習(Meta-reinforcement learning, meta-RL)是一種學習強化學習的機器學習(machine learning, ML)方法。**也就是說,元強化學習使用樣本效率低的機器學習來學習樣本效率高的強化學習算法或其組件。因此,元強化學習是元學習[225,91,94]的特殊情況,其學習算法是強化學習算法。元強化學習作為一個機器學習問題已經被研究了很長一段時間[197,199,224,198]。有趣的是,研究也顯示大腦中存在meta-RL的類似物[238]。Meta-RL有潛力克服現有人類設計的RL算法的一些限制。雖然在過去幾年中,深度強化學習取得了重大進展,例如掌握圍棋游戲[209]、平流層氣球導航[21]或機器人在挑戰性地形中的運動[148]等成功故事。RL的采樣效率仍然很低,這限制了它的實際應用。元強化學習可以產生比現有強化學習方法更有效的強化學習算法(組件),甚至可以為以前難以解決的問題提供解決方案。與此同時,提高樣本效率的承諾伴隨著兩個成本。首先,元學習需要比標準學習多得多的數據,因為它訓練整個學習算法(通常跨多個任務)。其次,元學習使學習算法適應元訓練數據,這可能會降低其對其他數據的泛化能力。因此,元學習提供的權衡是提高測試時的樣本效率,代價是訓練時的樣本效率和測試時的通用性。示例應用程序考慮使用機器人廚師進行自動化烹飪的任務。當這樣的機器人部署在某人的廚房時,它必須學習一個特定于廚房的策略,因為每個廚房都有不同的布局和設備。由于在訓練早期的隨機行為,直接在一個新的廚房中從頭開始訓練機器人太耗時,并且有潛在的危險。一種選擇是在單個訓練廚房中對機器人進行預訓練,然后在新的廚房中對其進行微調。然而,這種方法沒有考慮到后續的微調過程。相比之下,元強化學習將在訓練廚房的分布上訓練機器人,以便它可以適應該分布中的任何新廚房。這可能需要學習一些參數以實現更好的微調,或者學習將部署在新廚房中的整個強化學習算法。通過這種方式訓練的機器人既可以更好地利用收集的數據,也可以收集更好的數據,例如,通過關注新廚房的不尋常或具有挑戰性的特征。這種元學習過程需要比簡單的微調方法更多的樣本,但它只需要發生一次,當部署在新的測試廚房時,由此產生的適應過程可以顯著提高樣本效率。這個例子說明,通常情況下,當需要頻繁地進行有效的自適應時,元強化學習可能特別有用,因此元訓練的成本相對較小。這包括但不限于安全關鍵的強化學習領域,在這些領域中,有效的數據收集是必要的,探索新行為的成本過高或危險。在許多情況下,大量的樣本投資低效的前期學習(在監督下,在實驗室中,或在模擬中)是值得的,以實現后續改進的適應行為。

本綜述的目的是提供一個元強化學習的入口,以及對該領域和開放研究領域的現狀的反思。在第2節中,我們定義了元強化學習和它可以應用的不同問題設置,以及兩個示例算法。在第3節中,我們考慮了元強化學習中最普遍的問題設置:少樣本元強化學習。本文的目標是學習能夠快速自適應的RL算法,即在少量的情節中學習任務。這些算法通常是在給定的任務分布上進行訓練的,并且元學習如何有效地適應該分布中的任何任務。圖1展示了一個簡單的例子來說明這個設置。在這里,智能體經過元訓練,以學習如何導航到2D平面上不同的(最初未知的)目標位置。在元測試時,該智能體能夠有效地適應目標位置未知的新任務。在第4節中,我們考慮多樣本的設置。這里的目標是學習通用的RL算法,而不是特定于狹窄的任務分布,類似于目前在實踐中使用的算法。有兩種方式:如上所述的對任務分布進行訓練,或者對單個任務進行訓練,但同時進行元學習和標準強化學習訓練。接下來,第5節介紹了元強化學習的一些應用,如機器人。最后,我們在第6節討論開放問題。這些包括對少樣本元強化學習的更廣泛任務分布的泛化,多樣本元強化學習中的優化挑戰,以及元訓練成本的減少。

付費5元查看完整內容

序列決策,通常形式化為馬爾可夫決策過程(MDP)優化,是人工智能的一個重要挑戰。解決這個問題的兩種關鍵方法是強化學習(RL)和規劃。這項綜述是這兩個領域的集成,更廣為人知的是基于模型的強化學習。基于模型的RL有兩個主要步驟。首先,我們系統地介紹了動力學模型學習的方法,包括處理隨機性、不確定性、部分可觀察性和時間抽象等挑戰。其次,我們提出了規劃-學習集成的系統分類,包括:從哪里開始規劃,為規劃和實際數據收集分配哪些預算,如何規劃,以及如何在學習和行動循環中集成規劃。在這兩個部分之后,我們還討論了隱式基于模型的RL作為模型學習和規劃的端到端替代方案,并討論了基于模型的RL的潛在好處。在此過程中,調研還與幾個相關的RL領域建立了聯系,如分層RL和傳輸。

付費5元查看完整內容

本文對常用于軍事目的的十種算法進行簡短綜述,然后分析它們對數據流和GaAs的潛在適用性,GaAs是芯片上超級計算機的特定架構和技術。每當一種算法或設備被用于軍事場合時,自然會假設與速度、可靠性、規模、能量、尺寸和精確度有關的嚴格要求。上述兩種范式在滿足這些要求中的大部分方面是有希望的。

1 引言

這是對優化和學習的十種具體算法的一個小型綜述,結合對它們在未來芯片上的超級計算機中的數據流實現的適用性的分析,如[1]所述,以及它們對GaAs技術的適用性,這也是未來芯片上的超級計算機的一個選擇。顯然,這些算法的計算量需要在一個小的物理空間內有大量的計算能力。

在第2節中,每個算法都用適當的數學和邏輯概念進行了說明,并使用[2]中的準則進行介紹,即以下幾點:

1.要解決的問題是什么。

2.在引入所提出的算法之前,現有的最佳算法是什么。

3.為什么新提出的算法會更好?

4.在哪些條件下,它的優勢有多大?

上述每個問題都盡可能簡明扼要地介紹,以便有效地深入了解其本質。

在第3節中,每一種算法都從適合數據流技術的角度進行了描述,數據流技術對高速、高精度、低功耗和低尺寸的航空航天和國防應用很有前途。

在第4節中,從適合GaAs技術的角度描述了每種算法,GaAs技術對航空航天和國防領域典型的高輻射環境下的超高速處理比較有用。

第5節介紹了與本綜述所關注的各種情況下的性價比有關的結論。

2 算法

人工智能(AI)算法已經進入國防領域,它們的廣泛使用正在改變戰爭和一般國防的經典理論。算法被用于檢測、規劃、現場作戰和輔助支持,這些都是國防部門的主要任務。算法和智能傳感器被用來在邊境口岸、海關檢查站和其他旅行口岸檢測潛在的危險人物和物體。作為這些算法的輸出,所獲得的洞察力被用來部署積極的警務工作,并對危機情況提供更全面的了解。在計劃中,可用的數據和算法被用來更好地預測資源需求和任務及培訓演習的相關費用。在實地行動中,這些可以提供實時信息和快速評估,以改善任務結果,保護人員、資產和信息。一些系統和武器配備了各種輔助決策系統,而無人駕駛車輛和機器人則以較高的精度和較少的資源執行涉及安全風險的任務。

在本文中,我們介紹了十種算法,這些算法被用于核心、戰術和支持作戰的軍事應用中。基礎問題的實例,即算法的輸入,通常規模很大。因此,有大量的數據需要快速處理,最好是實時的、準確的和可靠的,同時保證信息的保密性和控制,即使在惡劣的條件下操作。

在DARPA贊助的項目中,最常發現的算法與我們下面介紹的問題和算法有關。算法和問題的選擇似乎略微偏向于計算機視覺,因為它似乎是發展自動駕駛汽車的基本技術,取代了駕駛員的眼睛,從而使汽車能夠在危險的地點檢測到感興趣的物體。

A 大規模隨機規劃問題

軍隊中每天都有大量的優化問題,這些問題具有一定的不確定性,通常呈現在各種場景中。應用范圍從每月或每天的空運或海運貨物的調度[4],到網絡勞動力規劃[5]或醫療設施部署規劃[6]。這些都需要快速、準確和可靠的大規模隨機規劃問題的求解器。

Benders分解法是一種數學規劃技術,用于解決具有特定塊結構的超大型線性規劃問題[7]。

假設一個問題分兩個或多個階段發生,后面階段的決策取決于前面階段的結果。第一次嘗試對第一階段的問題進行決策時,事先不知道關于后面階段決策的最優性。第一階段的決策是主問題,而后續階段被視為獨立的子問題,其信息被傳遞回主問題。如果檢測到任何違反子問題約束的情況,該約束將被添加到主問題中,然后被解決。主問題代表了一個初始的凸集,它被從子問題中收集到的信息進一步約束,因此隨著信息的增加,可行空間會縮小。如果矩陣A和B代表約束條件,Y代的可行集,我們要解決的問題被表示為最小化問題,如下所示:

在圖1中,我們說明了Bender分解算法。一旦得到初始主問題和子問題,在得出初始MP和子問題后,算法從主問題開始,然后在它們之間交替進行,直到找到一個最優解。較小的問題基本上是多項式時間可計算的問題,而它們的獨立性允許有效利用并行性。

一般來說,線性規劃是一個NP完全的問題,而Benders分解是一種能緩慢收斂到所需解決方案的方法。

B 圖像配準

機械臂和自主裝甲車的絕對精度是可能的,這要歸功于計算機視覺應用于從多個攝像機收集的高分辨率輸入,這些輸入最終需要轉化為相同的坐標系,以便為后續算法創建一致的數據。這是用所謂的圖像配準算法完成的。

圖像配準包括對源圖像進行空間轉換,以便與目標圖像對齊,如圖2所示。對齊是通過一個特定的映射來進行的,這個映射被稱為 "同構",定義如下。

有大量的算法可以準確地進行圖像配準。當圖像被暴露在噪聲中,導致一個場景在圖像中顯得雜亂無章時,現有的最佳解決方案具有多項式時間復雜性(見[8])。

最近,高分辨率圖像的實時配準(詳見[9]),正在由高速硬件來解決,這些硬件利用并行性和自適應采樣技術來滿足高速便攜式多媒體設備的要求(見[10])。

C 視頻拼接

圖像和視頻拼接是通過拼接幾個有多處重疊的圖像/視頻來獲得全面的圖像/視頻視野,從而消除圖像或視頻中的視野限制。視頻拼接本質上是對多圖像拼接的概括,具有一系列新的限制和挑戰。

首先,圖像需要使用之前解釋過的圖像配準將其轉換為相同的坐標系。然后,根據使用情況,選擇一個適當的算法來尋找拼接縫隙。

較早開發的算法通常根據一個估計的單一變換對多個重疊的圖像進行全局變形和對齊。最近開發的算法將該問題轉化為更高級的優化問題,考慮到攝像機的移動,這需要穩定視頻。因此,視頻拼接可以被設定為優化一個由穩定項和拼接項組成的目標函數,在此基礎上進行迭代優化算法。顯然,即使是拼接低分辨率的視頻也需要大量的計算(見[11])。把這個問題帶到國防應用的現實場景中,需要對位置不固定的攝像機獲得的高分辨率視頻進行拼接。

D 模式識別算法

模式識別涉及自動識別數據中的規律性,并將數據分為不同類別。

分類是指識別一個(或多個)觀測值屬于一組類別(子群體)中的哪一個的問題。這方面的例子是將視頻流中的識別對象標記為敵人,或者根據觀察到的設備特征(類型、某些特征的存在等)來分配網絡診斷中的一個設備。對于分類問題,我們將考慮邏輯回歸、kNN、感知機和SVM。

聚類是一種分類和預測分類標簽的方法,對于這個類別,我們將介紹kmeans算法。

最后,我們還將考慮集成學習,其本質是將多種學習算法結合在一起的有監督的元算法。

  • 1)邏輯回歸

邏輯模型在統計學中被用來評估某個事件或現有的一組事件的概率,如通過/失敗、贏/輸、生/死或敵/友。它也可以擴展到對幾類事件進行建模,如確定圖像中的人是否有火箭筒,圖像中是否包含特定物體等。在圖像中檢測到的每個物體都被賦予0到1的概率,其總和為1。

  • 2)online kNN

kNN是一種監督學習算法,它將標記好的訓練好的樣本存儲為一對(X1, Y1), (X2, Y2), ...... ,(Xn, Yn),在Rd×{1, 2}中取值。訓練階段只包括存儲這些樣本。為了進行預測,kNN算法找到查詢點的k個最近的鄰居,并根據最近的k個最相似的點計算出類標簽。

  • 3)感知機

感知機是一種學習閾值函數的算法:一個將其輸入x(實值向量)映射到輸出值f(x)(單一二進制值)的函數。單層感知機的自然擴展是多層感知機,它基本上包含了許多組織成層的感知機,從而獲得在合理時間內解決更復雜問題的能力。

  • 4)用于實時目標檢測的神經網絡

一個可靠的、高度準確的實時目標檢測算法在防御中是最重要的。在給定的視頻中實時檢測某類語義物體的實例(如人類、動物、道路或車輛)。輸入是以連續視頻流的形式給出的,而輸出則是分配給每個檢測到的目標的注釋描述符,該描述符在其出現的幀中以適當的方框為界。

YOLO算法被認為是最先進的算法。YOLO的處理管道包括一個單一的神經網絡,它首先預測圖像中的界線框,之后問題被簡化為對空間分離的界線框的回歸。

YOLO首先將圖像分割成單元,通常是19x19的網格。然后每個單元負責預測K個邊界盒。YOLO根據單元格包含某個類別的概率,為盒子和類別確定一個置信度分數。詳細來說,一個類別的置信度分數是界線框置信度分數和類別概率的乘積。然后對所有單元格重復這一過程。然后,需要用所謂的非最大抑制法過濾掉不必要的界線框,通過這種方法,選擇一個具有最高類別概率的界線框。這樣做直到我們剩下所有不同的目標類別的界線框。

預測結果與地面實況之間的誤差之和被用來計算損失。損失函數包括:分類損失、定位損失(預測的邊界框和地面實況之間的誤差)和置信度損失(框的客觀性)。

這種方法在軍事上的應用有兩個額外的限制:(1)在準確性和速度之間不做權衡;(2)出于安全考慮,不使用在安全范圍外預訓練的網絡

這些限制和問題的性質要求在數據流上有巨大的連續處理能力,以使這種算法能夠成功使用。

  • 5)支持向量機(SVM)

為了檢測網絡中的入侵行為(IDS),需要對其流量進行特殊的簽名分析。正常的網絡流量往往表現出與攻擊相似的特征,而黑客經常應用混淆的方式進行網絡入侵。

機器學習為準確識別IDS提供了廣泛的有效工具,其限制條件是訓練數據集不應與惡意數據有關。支持向量機(SVM)是這項任務的一個有希望的候選者[14]。

這種算法的目的是在N維空間中找到一個超平面,在保持最大余量的同時將數據點分開,也就是各個類的點之間的最大距離。

盡管SVM的空間和時間復雜度是多項式的(分別是對輸入大小的二次和三次),但網絡中的數據量要求有特殊的結構,以使這種算法能有效地用于上述目的。

  • 6)k-means

k-means聚類是一種矢量量化的方法,其目的是將n個觀測值劃分為k個聚類,每個觀測值都屬于平均值最近的聚類,作為聚類的原型。這導致數據空間被劃分為Voronoi單元。

  • 7) 集成模型--Boosting

集成模型使用多個不同的建模算法或不同的訓練數據集來預測一個結果。然后,集成模型將每個使用過的模型的預測結果匯總,得出其對未見過的數據的最終預測結果。特別是,Boosting是一種集成模型,已被廣泛用于軍事應用中(見[15])。

在實踐中,AdaBoost算法是通過級聯上述SVM弱分類器的數量來實現的。

3 數據流

數據流范式[16], [17], [18]已經被引入,與傳統的控制流范式[19]形成對比。在控制流中,編寫程序的目的是為了對通過硬件的數據流進行微觀控制。在數據流中,編寫程序的目的是為了配置硬件,因此,在理想情況下,電壓差可以通過硬件移動數據。

與控制流范式相比,數據流范式可以實現10倍、100倍、甚至1000倍的速度提升。同時,功率的降低可以達到10倍左右。精度可以在整個算法中變化,這就節省了芯片面積。設備的尺寸也得到了減少,系數高達10倍。

從這種模式中受益最多的算法是那些以耗時的循環和每個特定循環迭代中的大量數據可用性為特征的算法。在本文綜述的算法中,最適合數據流實現的算法是:邏輯回歸、K-means和集成模型。

這些算法的數據流實現的例子,以及其他類似的算法,可以在appgallery.maxeler.com 或[16]中找到。關于更多信息,感興趣的讀者可以參考文獻[19]、[17]、[18]。

4 GaAS

GaAs技術也可用于處理器的設計和算法的實現。它提供了明顯更高的處理器速度和精度或輻射硬度,這使得它適合在航空航天和國防環境中使用。另一方面,可以放置在單個芯片上的晶體管數量較少,而柵極延遲在很大程度上取決于柵極扇出。

這些特點決定了處理器設計和算法實現的具體要求。一方面,沒有多少邏輯可以放置在單個芯片上,另一方面,片外和片內延遲的比例相對較高。這就要求利用高度流水線架構,其中流水線元件的復雜性相對較小。

在DARPA的贊助下,實現各種類型的處理器工作在[20]和[21]中描述。重要的概念在[22]和[23]中被描述。這些概念也與本文描述的算法的實現有關

基于上述事實,可以預期最有效的實現是那些可以使用許多小元素,以流水線方式連接的算法,如圖像/視頻配準和拼接。其他例子包括感知器、SVM、kmeans和集成建模。這些說法通過本文共同作者任教的大學中的一些學生項目得到了驗證。

5 結論

所綜述的算法是根據在選定的軍事應用中的使用頻率選擇的。我們從基于數據流范式和GaAs技術的實施角度來研究這些算法。

研究發現,有些算法比其他算法更適合于數據流。也就是說,最適合的算法是那些以循環對整個運行時間的高貢獻為特征的算法,以及那些在每個循環迭代中具有高水平數據重用性的算法。

就利用GaAs技術帶來的潛在好處而言,那些可以在大量小模塊上實現的、以流水線或系統方式連接的算法有望獲得最佳性能提升。此外,對片外和片內延遲的大比率不太敏感的算法更適合這種技術,因為這種技術可以提供高速度,但不允許使用大芯片。

最后,這項調查開辟了與三角中的協同作用有關的新研究途徑:算法-架構-技術。為了從眾多的選擇中適當地選擇一種特定的算法,有必要進行本文所介紹分析。

付費5元查看完整內容

【論文標題】多智能體深度強化學習:綜述Multi-agent deep reinforcement learning: a survey

【作者團隊】Sven Gronauer, Klaus Diepold

【論文鏈接】//link.springer.com/content/pdf/10.1007/s10462-021-09996-w.pdf

【推薦理由】強化學習的進步已記錄了各個領域的卓越成就。盡管在此過程中,多智能體領域已被其單智能體領域所遮蓋,但多智能體強化學習獲得了快速發展的動力,最新成果解決了現實世界中的復雜性問題。本文概述了多智能體深度強化學習領域的最新發展。主要關注近年來的文獻,這些文獻結合了深度強化學習方法和多智能體方案。主要內容分為三個部分。首先,分析了用于訓練多個特工的訓練方案的結構。第二,考慮了合作,競爭和混合場景中代理行為的新興模式。第三,系統地枚舉了多代理領域中唯一出現的挑戰,并回顧了用于應對這些挑戰的方法。本文討論了研究進展,確定趨勢并概述了該研究領域未來工作的可能方向。

付費5元查看完整內容

我們并不是生活在真空中!我們與環境中的其他主體互動以做出理性的決定。例如,選擇從你的公寓到校園的最快或最簡單的路線,在eBay拍賣中選擇最合適的出價,決定是否在雙人撲克游戲中認輸,或在石頭剪刀布游戲中選擇獲勝的一步棋。在所有這些例子中,我們在做決策時必須與其他代理交互。特別是,我們的最佳策略取決于環境中其他代理的行為(例如,選擇的路線取決于使用這些路線的其他人的數量,如果我的對手選擇剪刀,我就選擇石頭)。在給定的環境中,面對其他戰略主體時,我們如何做出理性的決策?最好的策略是什么?博弈論幫助我們回答這些問題。

博弈論是一種數學工具,它允許我們對特定環境下的利己主義和理性行為者的戰略互動進行推理。該結構提供了一組框架,描述了在這樣一個戰略代理人的環境下的理性結果。雖然博弈論領域起源于經濟文獻,但計算機科學家在過去幾十年里從建模和計算的角度對這一領域做出了重大貢獻(這導致了計算博弈論)。此外,許多博弈論應用在現實世界中(例如,分配警力到洛杉磯國際機場的檢查站,分配巡邏人員來保護非洲的野生動物,預測美國參議員的投票行為)。

觀眾將會學習到: (1) 引入基本的博弈論決策工具,建模和理解自利和戰略代理的戰略互動; (2) 了解建模工具的解決方案概念,以及如何使用它們來預測agent的決策行為; (3) 介紹了計算方面的計算這些解的概念; (4 )接觸了博弈論在安全和社會科學領域的一些主要應用。 此外,如果時間允許,講座將涵蓋更高級的主題,包括解決復雜策略空間的博弈,博弈中的學習,完全信息的動態博弈,不完全信息的靜態博弈,不完全信息的動態博弈。

付費5元查看完整內容

深度強化學習主要被用來處理感知-決策問題,已經成為人工智能領域重要的研究分支。概述了基于值函數和策略梯度的兩類深度強化學習算法,詳細闡述了深度Q網絡、深度策略梯度及相關改進算法的原理,并綜述了深度強化學習在視頻游戲、導航、多智能體協作以及推薦系統等領域的應用研究進展。最后,對深度強化學習的算法和應用進行展望,針對一些未來的研究方向和研究熱點給出了建議。

付費5元查看完整內容

摘要: 強化學習作為一種用于解決無模型序列決策問題的方法已經有數十年的歷史, 但強化學習方法在處理高維變量問題時常常會面臨巨大挑戰. 近年來, 深度學習迅猛發展, 使得強化學習方法為復雜高維的多智能體系統提供優化的決策策略、在充滿挑戰的環境中高效執行目標任務成為可能. 本文綜述了強化學習和深度強化學習方法的原理, 提出學習系統的閉環控制框架, 分析了多智能體深度強化學習中存在的若干重要問題和解決方法, 包括多智能體強化學習的算法結構、環境非靜態和部分可觀性等問題, 對所調查方法的優缺點和相關應用進行分析和討論. 最后提供多智能體深度強化學習未來的研究方向, 為開發更強大、更易應用的多智能體強化學習控制系統提供一些思路.

付費5元查看完整內容

【簡介】隨著深度表示學習的發展,強化學習(RL)已經成為了一個強大的學習框架,其可以在高維度空間中學習復雜的規則。這篇綜述總結了深度強化學習(DRL)算法,提供了采用強化學習的自動駕駛任務的分類方法,重點介紹了算法上的關鍵挑戰和在現實世界中將強化學習部署在自動駕駛方面的作用,以及最終評估,測試和加強強化學習和模仿學習健壯性的現有解決方案。

論文鏈接: //arxiv.org/abs/2002.00444

介紹:

自動駕駛(AD)系統由多個感知級任務組成,由于采用了深度學習架構,這些任務現在已經達到了很高的精度。除了感知任務之外,自主駕駛系統還包含多個其他任務,傳統的監督學習方法已經不再適用。首先,當對agent行為的預測發生變化時,從自動駕駛agent所處的環境中接收到的未來傳感器觀察到的結果,例如獲取市區最佳駕駛速度的任務。其次,監督信號(如碰撞時間(TTC),相對于agent最佳軌跡的側向誤差)表示agent的動態變化以及環境中的不確定性。這些問題都需要定義隨機損失函數來使其最大化。最后,agent需要學習當前環境新的配置參數,預測其所處的環境中每一時刻的最優決策。這表明在觀察agent和其所處環境的情況下,一個高維度的空間能夠給出大量唯一的配置參數。在這些場景中,我們的目標是解決一個連續決策的問題。在這篇綜述中,我們將介紹強化學習的概念,強化學習是一種很有前景的解決方案和任務分類方法,特別是在驅動策略、預測感知、路徑規劃以及低層控制器設計等領域。我們還重點回顧了強化學習在自動駕駛領域當中各種現實的應用。最后,我們通過闡述應用當前諸如模仿學習和Q學習等強化學習算法時所面臨的算力挑戰和風險來激勵使用者對強化學習作出改進。

章節目錄:

section2: 介紹一個典型的自動駕駛系統及其各個組件。

section3: 對深度強化學習進行介紹,并簡要討論關鍵概念。

section4: 探討在強化學習基本框架上對其進行更深層次,更加復雜的擴展。

section5: 對強化學習用于自動駕駛領域的所面臨的問題提供一個概述。

section6: 介紹將強化學習部署到真實世界自動駕駛系統中所面臨的挑戰。

section7: 總結

付費5元查看完整內容

題目: A Survey and Critique of Multiagent Deep Reinforcement Learning

簡介: 近年來,深度強化學習(RL)取得了出色的成績。這使得應用程序和方法的數量急劇增加。最近的工作探索了單智能體深度強化之外的學習,并考慮了多智能體深度強化學習的場景。初步結果顯示在復雜的多智能體領域中的成功,盡管有許多挑戰需要解決。本文的主要目的是提供有關當前多智能體深度強化學習(MDRL)文獻的概述。此外,我們通過更廣泛的分析對概述進行補充:(i)我們回顧了以前RL中介紹的基礎內容,并強調了它們如何適應多智能深度強化學習設置。 (ii)我們為該領域的新開業者提供一般指導:描述從MDRL工作中汲取的經驗教訓,指出最新的基準并概述研究途徑。 (iii)我們提出了MDRL的實際挑戰(例如,實施和計算需求)。

作者介紹: Pablo Hernandez-Leal,Borealis AI的研究員,在此之前,曾與Michael Kaisers一起參與過阿姆斯特丹CWI的智能和自治系統。研究方向:單智能體環境開發的算法以及多智能體。計劃開發一種算法,該算法使用博弈論,貝葉斯推理和強化學習中的模型和概念在戰略交互中得到使用。

付費5元查看完整內容
北京阿比特科技有限公司