亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在DARPA終身學習機器(L2M)計劃下,Teledyne著手研究、實施和展示算法方法,以解決兩個關鍵問題。首先,使智能體能夠自我監督,以便在沒有外部干預的情況下適應和學習復雜環境。為了解決這個問題,Teledyne開發并驗證了不確定性跟蹤和調制的作用,使智能體能夠監測自己的性能,并在適當的條件下自信地進行調整。這是一個重大的突破,因為它展示了具身智能體的自我監督學習和任務表現。第二個問題是實現強大的知識表示,盡管不斷地學習和適應,但仍能保持準確,并能適應學習多種任務的復雜性,對知識的粒度和組成可能有不同的要求。Teledyne開發并實施了一個分層學習系統,能夠將任務信息分解到多個層次,以最大限度地提高魯棒性和重復使用。這是一個重大突破,因為它使一類新的學習系統能夠保持一致的知識庫,并對其進行更新以適應多個任務,而不要求它們共享一個統一的表述。由此產生的算法被證明在最先進的機器學習系統中具有提升性能的作用,因此可以被納入許多現今的人工智能解決方案中,使其具備終身的能力。一個關鍵的建議是尋找機會將這些能力過渡到現有的人工智能系統中,從而促進它們向下一波人工智能過渡。另一個建議是將這些成就視為闡明終身學習機制的第一步,并參與持續研究,以更充分地了解如何在高度復雜的環境和條件下實現學習。 這些可能會迫使我們更仔細地研究建立、維護和利用分層知識表示的更完整的解決方案。

圖 1. 分層機器學習系統中選擇可塑性架構

報告總結

1.1 項目計劃概述

在DARPA終身學習機(L2M)計劃下,Teledyne進行了兩個階段的努力,開發能夠選擇性可塑性的機器學習系統。我們的努力解決了終身學習系統所面臨的兩個關鍵挑戰:(1)對其參數進行持續而穩定的學習,以及(2)如何實現最佳能力分配,以便在任務和條件發生變化時獲得有效的學習和性能。我們的核心前提是,大腦通過神經調節來解決這兩個問題:持續調節神經活動和可塑性的化學信號。具體來說,我們研究了神經調節劑乙酰膽堿(ACh)調節長期突觸可塑性和短期突觸活動的機制,特別是在進行物體識別和鑒定的視覺通路(腹側)。我們的目標是ACh作為編碼信號處理和推理中不確定性水平的反饋信號的作用;我們探討了這一信號如何調節低層次感覺特征的計算和選擇,同時也推動了高層次推理的學習。

這些調節原則構成了我們新穎的、可塑結點網絡(PNN)架構的核心。我們的PNN有一個層次結構,反映了大腦腹側通路的兩階段組織,這也是其他感覺通路所共有的,如聽覺和視覺定位(背側)通路。圖1提供了分層機器學習系統中選擇性可塑性的架構的高層次概述,其中異質層被引入以實現連續的動態,以支持早期層的最佳特征提取和容量分配,同時在后期層實現穩定和連續的學習。以下括號中的數字是指圖1中的橙色數字。調控是由不確定性的措施驅動的(1)。通過分析信號(自下而上)和任務要求/獎勵(自上而下)得出的不確定性被用來(2)影響早期層的特征提取/選擇和后期層的推理。早期各層調制的結果是快速招募網絡能力的特定部分(3),而在后期各層,學習被更強烈地調制,以確保穩定性,同時為新的或更新的任務保持適當的可塑性(4):網絡的早期各層進行特征提取(反映枕葉皮層),而后期各層計算推斷(匹配前額葉和顳葉皮層過程)。一個類似ACH的信號(測量不確定性)動態地調節著網絡的計算和學習。我們的網絡是異質的:不同層次和類型的節點對調制信號的反應不同。

1.2 普遍方法

終身學習需要不斷地適應;無論多少訓練都不能使一個網絡,無論是生物還是人工的,為它在其一生中可能收到的所有輸入做好準備。特別是,持續的學習需要有能力改變網絡的參數而不忘記先前的信息(即穩定的學習,也被稱為穩定性-可塑性困境[1])。此外,終身學習系統還面臨著第二個困境:持續編碼新信息的能力需要大量的計算資源,但由于自由參數的數量巨大,非常大的網絡是難以優化的。圖2說明了深度學習架構情況下的擴展限制。正在進行的研究[2]表明,無論用多少數據來訓練深度學習網絡,都無法擴展到任意大小。特別是,我們在DARPA的TRACE項目下進行的內部實驗表明,一旦一個深度網絡超過了最佳規模(圖2中的[a]),其學習能力就會隨著規模的擴大而急劇下降(圖2中的[b])。這意味著,僅僅建立更大的深度網絡并向其提供更多的數據,并不足以實現人類水平的學習。相比之下,我們的調制網絡只招募其節點的一小部分來優化容量(a),同時攜帶大的整體容量(b),使其能夠克服這個擴展限制。相比之下,終身學習系統必須以更智能的方式管理其計算資源,以實現最佳的容量分配和緩解性能下降。

圖 2. 深度學習擴展限制

1.2.1 理論工作

我們的基本前提是,大腦通過神經調節來實現這兩種能力:利用化學信號不斷調節突觸活動和可塑性。在神經系統中的許多神經調節劑中,乙酰膽堿是哺乳動物大腦中研究最廣泛的一種;它被認為與調節幾種高水平的認知功能有關,包括注意力、學習和記憶。更重要的是,ACh調節長期突觸可塑性和短期神經活動水平,特別是在腹側視覺通路(進行物體識別和鑒定)[2]。乙酰膽堿已被證明可以編碼不確定性,特別是預期的不確定性[3](以及相關的意外獎勵信號[4]),這是觸發和調節學習的一個關鍵反饋信號。特別是在腹腔通路中,乙酰膽堿調節著低層次感覺特征的計算,并驅動著更高層次推理的學習。

作為我們努力的一部分,我們開發了一個分層的、異質的、可塑性結點網絡(PNN)算法,稱為不確定性調節學習(UML),其中基于神經調節的計算特性使網絡的能力得到優化,以允許適應性和穩定性學習(圖3)。UML是根據大腦皮層的分層感覺信號分解和推理機制、反饋注意以及對不匹配的期望進行的神經調控來建模的。在UML中,一個類似ACh的信號(由測量的不確定性觸發)動態地調節著計算和學習。UML在機器學習方面實現了幾個突破性的能力,具體而言:

  • 穩定的學習,允許最大限度的更新,而不干擾現有的學習行為(即解決穩定-可塑性的困境)。

    • 與自上而下的反饋相結合,使輸入和任務的連續和少量的學習與以前學到的信息完全不同
  • 最佳的能力分配,只選擇和加強那些最大限度地提高信息含量和與當前任務相關的特征。

    • 當網絡被配置為分層學習時,導致多種計算動機的共存(即UML可以在不同的任務或行為之間復用)。

    • 以及每次有選擇地招募網絡的不同子集,允許它擴展到任意數量的節點(即幾乎沒有學習新信息的能力)。

UML代表了本地異質結構、反饋信號和神經調節作用的一個引人注目的新計算模型。

圖 3. Teledyne 在 L2M 階段 1 期間開發的 UML 算法

1.2.2 實驗和示范工作

我們的工作展示了算法和一個具有學習機制的集成系統,能夠在復雜的學習任務中進行終身學習。此外,我們證明了我們的UML算法能夠賦予其他機器學習算法以適應能力,在沒有災難性遺忘的情況下進行學習,并在非正常情況下恢復性能。這些結果的總結將在第1.3節介紹。

在該計劃的第二階段,Teledyne領導了一個系統組(SG),目標是整合一整套終身學習能力。為實現這一目標,Teledyne定義了一套最低限度的相關能力,并與我們的不確定性調制的持續學習范式保持一致(圖4,也見第2.2.1節)。該計劃第一階段的兩名L2M執行者被邀請加入我們的SG,他們是加州大學歐文分校,與加州大學圣地亞哥分校(UCI/UCSD)和密蘇里科技大學(S&T)的研究人員合作。在整個第一階段,Teledyne開發并演示了感官信號處理算法,該算法采用自下而上的信號分解架構來推斷與目標和決策有關的假設(圖4中的橙色和藍色塊)。此外,Teledyne開始展示使用注意力機制來調節學習和適應。S&T被招募來利用他們在這個算法系列中的經驗,共同實現一個受大腦自上而下注意力機制啟發的系統組件(圖4中綠色/黃色塊)。在與UCI/UCSD的合作中,我們著手研究睡眠啟發算法在任務執行后優化記憶和跨任務鞏固記憶(即知識)的作用(圖4中分別為洋紅色和青色塊)。

圖 4. 基于 SG 成員開發的類腦機制集成的關鍵 L2M 功能

1.3 成果概述

我們提出的方法的關鍵前提是,智能生物體測量和識別其環境、輸入、約束或目標的關鍵變化,以使它們能夠適應和學習而不需要外部指導(如教師、監督等)。正是通過這種自我監督的監測和評估,一個終身學習的智能體可以在復雜和變化的條件下具備可靠的功能。

通過我們的研究和實驗工作,我們確定了在生物智能系統中,測量和跟蹤不確定性是觸發適應和學習的關鍵機制。我們的L2M智能體被證明可以適應他們所學的技能或將新的技能納入他們的劇目,而不會出現災難性的遺忘。我們還證明了智能體有能力利用以前的技能來提高學習效率(前向和后向轉移),在存在干擾任務或條件變化的情況下快速恢復性能,利用樣本來適應或獲得技能,其效率與單一任務專家相同或更好(見4.1-4.4節)。

最后,Teledyne通過在整個項目第二階段進行的一系列里程碑式的實驗,證明了其綜合系統的有效性。這些結果將在第4.5節中介紹,并強調了在計劃定義的場景中L2M指標的性能。這些實驗有助于在所有L2M SG團隊之間建立穩定的節奏和協調的結果,并記錄性能方面的進展。此外,我們還利用這些實驗來確定我們的系統和/或算法的成功和缺點。對后者的分析被用來優化我們的工作,并適當地關注系統和算法的發展。結果是我們的系統在四個里程碑事件的過程中不斷改進,從第一次事件中只達到一個指標,到第四次事件中達到所有五個指標。這些結果也在第5.0節中進行了總結。

1.4 主要結論與建議

我們在整個項目中的工作完成了其主要目標:

  • 從神經調節的生物機制中得到啟發,得出一個有效的算法

  • 實現一種對現有機器學習系統具有廣泛適用性的算法

  • 使得智能體能夠自我監督,不斷適應和學習

  • 整合一個表現出注意力、基于不確定性的調節、分層學習和睡眠啟發的記憶優化機制的系統,以展示終身學習能力

我們工作的一個重要成就是開發了UML,一個新穎的終身學習算法,能夠自我監督以適應新的條件,從少數樣本中學習,并得出穩健的分層知識表示。最近一個令人振奮的認識是,我們著手研究并在最初提案中提出的關鍵能力(見表1)不僅完全實現,而且在整個計劃的所有實驗和演示中得到了徹底的證明。

表 1. Teledyne 方法的特點和優勢

特點 優勢
不確定性調控學習:我們認為,神經調控可以上調對解決兩個或多個類別之間的區別至關重要的神經元的學習。 證明新任務的學習表示不會覆蓋以前學習的任務。
不確定性調控容量分配:我們建議研究神經調控在上調網絡部分的激活和學習中的作用,這些部分可以最佳地解決特定任務并抑制那些無助于減少不確定性的部分。 構建具有非常大容量的網絡來支持終身學習,同時不會因為只激活網絡中最能支持任務性能的部分而導致準確性下降。
不確定性觸發新學習:通過跟蹤預期,新算法可以隨著時間的推移調整和改進其性能,尤其是在引入新任務或條件時。 展示了當響應確定性低于所需閾值時如何觸發學習,從而導致系統能夠自主檢測需要學習的新任務或條件。
不確定性調控特征提取:跨特征層的信號不確定性測量驅動早期層(特征提取器)中傳遞函數的調控。 實施的算法能夠適應特征提取處理以補償任務、條件或信號屬性的變化。

在第18個月(M18)的評估中,Teledyne SG顯示的結果表明,我們的終身學習者在五個項目指標中達到或超過了終身學習的門檻,在五個指標中的兩個指標超過了目標。這在第4.5.1節表11中顯示,淺綠色表示某項指標超過了終身學習門檻,深綠色表示某項指標超過了DARPA計劃目標。

我們從努力中得到的一個重要啟示是,不確定性已經被證明是一個有效的措施,它支持在線學習和創建強大的知識表征,而不需要監督或強化信號。我們還確定,我們開發的L2組件可以有效地集成到現有的ML系統中,以支持提高性能(例如,魯棒性、適應性等)。因此,存在大量的過渡機會(例子在第2.4節中討論)。Teledyne將繼續通過政府資助的工作、商業努力和內部資助的研究活動來尋求此類機會。Teledyne 也歡迎任何政府機構或個人要求進行討論,以促進對過渡機會的深入了解或識別。

我們的UML算法被證明是一個有效的組件(第2.3節),不僅適用于一個綜合的L2系統,而且可以作為現有機器學習系統的插件。其中包括為決策支持而設計的端到端系統,UML可以監測超出常規的條件或標記需要額外樣本或學習的條件。UML還被證明可以支持像基于強化學習的智能體那樣復雜的系統在新條件下的性能恢復。由于其輕量級的處理要求,UML可以在一個商品處理器(CPU)上以2000Hz的速度執行,因此適合在許多平臺上部署。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

研究目標

諸如困難目標、嵌入復雜雜波和相互競爭的背景目標設置以及日益嚴重的有意和無意 RF 干擾等幾個因素,繼續增加現代高性能雷達的復雜性和挑戰。認知型全自適應雷達(CoFAR)的推出是為了應對日益復雜的工作環境的挑戰。CoFAR的特點是通過感知-學習-適應(SLA)方法學習和理解完整的多維雷達信道(目標、雜波、干擾等),實現完全自適應發射、接收和控制器/調度器功能。該系統能夠通過估計由雜波和其他干擾信號組成的雷達信道,共同優化自適應發射和接收功能。

隨后的脈沖或相干脈沖間隔(CPI)的雷達波形和CoFAR的接收濾波器基本上是利用對雷達信道的了解來計算的,其中包括雜波和其他干擾信號。在實踐中,信道信息是未知的,應該從探測信號中估計。因此,這些CoFAR系統的有效性高度依賴于雷達信道的靜止性以及信道估計算法的準確性。我們開發了新的信道估計算法,利用了相鄰脈沖的信道脈沖響應之間的關系。所提出的算法優于傳統的無約束的最小二乘法解決方案。

我們還解決了下一步的問題,該框架涉及一個由 "我們 "和 "對手 "組成的對抗性信號處理問題。"我們 "指的是一種資產,如無人機/UAV或探測 "對手 "認知雷達的電磁信號。認知型傳感器將我們在噪聲中的運動狀態作為觀察對象。然后,它使用貝葉斯跟蹤器來更新我們狀態的后驗分布,并根據這個后驗選擇一個行動。我們在噪聲中觀察傳感器的行動。鑒于對 "我們的 "狀態序列和對手的傳感器所采取的觀察到的行動的了解,我們將重點放在以下相互關聯的方面。我們認為敵方雷達通過實施維納濾波器來選擇其發射波形以跟蹤目標,從而使其信號-雜波-噪聲比(SCNR)最大化。通過觀察雷達選擇的最佳波形,我們將制定一個智能策略來估計對手的認知雷達信道,然后通過信號相關的干擾產生機制來迷惑對手的雷達。

研究總結

2020財年的研究報告分為兩大重點:

1 約束信道估計算法

我們的主要目的是開發一種新的信道估計算法,以改善無約束的最小二乘法解決方案,特別是在低信噪比的情況下,因為沒有任何約束的最小二乘法解決方案受到低信噪比值的影響。我們提出了在余弦相似性約束和前一個脈沖的信道脈沖響應與當前脈沖之間的內積約束下的約束最小二乘法問題,該信道脈沖響應正在被估計。

我們首先研究了RFView數據集中相鄰脈沖的信道脈沖響應之間的余弦相似度測量和內積值,觀察到較近的脈沖之間的信道脈沖響應顯示出較高的余弦相似度和內積值。我們還觀察到,無約束的最小二乘法解決方案顯示出更低的余弦相似度值,尤其是在低信噪比環境下。

然后,我們提出了一個新的帶有余弦相似性約束的約束最小平方問題,以改善最小平方解。由于最小二乘法的解決方案不符合余弦相似性約束的理想值,我們強制要求估計的信道脈沖響應有一個理想的余弦相似性測量。由此產生的優化問題是一個非凸問題,然而,我們將其轉換為一個非凸的二次約束二次程序,對其而言,強對偶性是成立的。此外,我們觀察到,無論信噪比水平如何,相鄰信道脈沖響應之間的內積值都不會變化。我們將內積約束添加到帶有余弦相似性約束的非凸式QCQP中,然后得出一個凸式優化問題。

我們使用RFView的真實數據集,提供了所提方法與傳統的無約束租賃平方解決方案的數值結果。我們表明,所提出的兩種方法都優于最小二乘法的解決方案。這也表明,具有余弦相似性約束和內積約束的凸問題顯示出最好的性能,盡管計算復雜度比具有余弦相似性約束的非凸QCQP低得多。我們還提供了使用RFView挑戰數據集的仿真結果,帶有內積約束的凸問題在挑戰數據集中表現良好。

2 通過逆濾波進行信道/參數估計和智能干擾設計

我們考慮了涉及認知雷達的相互關聯的對抗性推理問題,并解決了如何在物理層層面設計干擾來迷惑雷達,從而迫使它改變發射波形。對手雷達通過實施維納濾波器來選擇目標跟蹤的發射波形,以使其信號-雜波-噪聲比(SCNR)最大化。通過觀察雷達選擇的最佳波形,我們開發了一種智能策略來估計對手的認知雷達信道,然后通過信號相關的干擾生成機制來迷惑對手的雷達。

我們的目標是使我們產生的干擾的信號功率最小化,同時確保對手雷達的SCNR不超過預先定義的閾值。其設置示意圖見圖1。

圖1. 涉及對抗性認知雷達和我們的發射信道、雜波信道和干擾信道的示意圖。我們在噪聲中觀察雷達的波形W。我們的目的是設計干擾信道P來迷惑認知雷達。

我們首先描述了認知型雷達如何根據其感知的干擾來優化選擇其波形的特點。該雷達的目標是選擇使其SCNR最大化的最佳波形。然后,我們設計最佳干擾信號,通過解決一個概率約束的優化問題來迷惑對手的認知雷達。最佳干擾信號使其功率最小,從而使雷達的SCNR以規定的概率低于閾值。為了解決由此產生的非凸優化問題,我們首先從觀測中估計發射和雜波信道脈沖響應,并使用信道脈沖響應的估計值來產生干擾信號。

認知型雷達在其目標脈沖響應和傳遞函數的方向上使其能量最大化。只要我們從脈沖中準確估計出目標信道的傳遞函數,我們就可以立即產生與信號相關的干擾,使目標回波無效。即使在我們自適應地進行估計后,雜波信道脈沖響應發生變化,因為目標信道在較長時間內是靜止的。因此,在我們結束估計后,信號依賴干擾將在幾個脈沖中成功工作。這種方法的主要收獲是,我們正在利用認知雷達通過優化與環境有關的波形來提供其信道信息的事實。

付費5元查看完整內容

在DARPA終身學習機器(L2M)項目下,我們探索了一種自主系統終身學習的綜合方法,解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括:感知和行動的持續學習,不同任務之間的遷移,可擴展的終身知識維護,自主發現的自我導向學習,以及任務的非平穩分布建模。我們分別探索了這些方面,為分類和強化學習設置開發了各種終身學習算法。然后,這些開發的算法通過模塊化框架整合在一起,產生了一個同時支持分類和強化學習任務的L2M系統。

我們使用約翰霍普金斯應用物理實驗室的MiniGrid終身學習基準評估了這個L2M系統的終身學習性能。與單任務專家相比,對于該基準的Condensed和Dispersed場景,我們的結果顯示我們的系統有能力大大加快學習速度,平均前向遷移率為4.18和3.55,平均樣本效率為1.32和1.15。除了效率之外,我們的系統還顯示出比單任務專家更有效的性能,相對性能比為1.04和1.03,正向遷移比為1.12和1.04。

我們還通過使用Matterport 3D的機器人尋寶游戲,將這個L2M系統應用于綜合感知和行動,展示了我們的L2M系統在非結構化環境中快速學習不同任務并快速適應變化的能力。我們的結果顯示,與單任務專家相比,我們的系統學習分類任務的速度和準確性大約是他們的兩倍,顯示出平均相對性能為2.21,平均樣本效率為1.71,同時完全緩解了災難性遺忘。對于該領域的強化學習設置,我們的系統獲得了4.37的平均性能維持率和1.11的平均后向遷移率,這表明我們的終身學習智能體能夠學習新的任務,同時減輕災難性遺忘。我們的系統在利用過去的知識來啟動強化學習任務的學習方面也顯示出強大的潛力,其平均前向遷移率為3.11。然而,經過調整的單一任務專家能夠在單個強化學習任務上勝過我們的系統,我們的系統的平均相對性能比只達到0.88。我們還進行了各種消融實驗和對單個終身學習組件的評估。總體而言,我們的項目產生了110多篇科學出版物,展示了我們的工作和成果,從根本上推進了我們對終身機器學習的理解和能力。作為其中的兩個例子,我們的項目開發了最先進的使用占位預測的視覺導航,贏得了2020年人居署PointNav挑戰賽,并在2022年ICRA會議期間,在觀眾面前展示了服務機器人的實時終身學習的現場演示。

引言

2.1 本報告的目的

本報告記錄了我們在 DARPA 終身學習機器 (L2M) 計劃下的項目,涵蓋了我們在該計劃第 1 階段和第 2 階段的工作。

2.2 研究方法概述

我們的項目探索了自主系統終身學習的綜合方法,解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體的變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括:感知和行動的持續學習,不同任務之間的遷移,可擴展的終身知識維護,自主發現的自我導向學習,以及任務的非平穩分布建模。

在第一階段,我們分別探索了這些方面,為分類和強化學習設置開發了各種終身學習算法。這些開發的算法在個別實驗中得到了評估。

在第二階段,我們開發了一個綜合的、模塊化的框架,將上述這些方面結合到一個支持分類和強化學習任務的L2M系統中。在第一階段的算法中,每個方面最有前途的算法被選為該系統中的模塊。然后,我們將這個L2M系統(1)應用于約翰霍普金斯應用物理實驗室(APL)的MiniGrid終身學習基準;(2)通過使用Matterport 3D的機器人尋寶游戲來整合感知和行動,展示了我們的L2M系統在非結構化環境中快速學習不同任務并迅速適應變化的能力。在第二階段,我們還繼續開發了第一階段的個別算法,并探索了其他終身學習的個別方法。當這些基本算法在我們的L2M評估中顯示出前景時,我們就把它們過渡到L2M系統的模塊中。

2.3 本報告組織結構

由于這個項目包含了大量的算法(詳見附錄A),本報告將在第3.1節中首先關注綜合的L2M系統,展示我們如何構建我們的終身學習系統以及它如何支持各個終身學習算法的高層觀點。然后,我們將在第3.3-3.4節中介紹我們在第一和第二階段中開發的主要的單個終身學習算法。我們對結果的介紹也是類似的,首先探討綜合L2M系統在APL MiniGrid(第4.2節)和我們對具身智能體的Scavenger Hunt(第4.3節)的應用中的評價,然后探討本項目下開發的單個算法的評價(第4.4-4.5節)。

2.4 主要貢獻

我們的工作產生了一些主要的貢獻,在本節中有所描述。為方便起見,我們將這些貢獻按照那些已被納入綜合L2M系統的方法和其他未被納入的方法進行分組。正如第3.1節所詳述的,我們選擇算法作為L2M系統的組成部分是基于它們在第一階段結束時和第二階段早期的成熟度,以及它們對我們應用的必要性。

2.4.1 集成系統和部件

一個綜合的終身學習框架。 我們開發了一個模塊化的終身學習系統,在現實的服務機器人環境中支持分類和強化學習(RL)任務。該系統的核心是將因子化的終身學習方法與移動機器人的感知動作循環相結合,我們將其分為獨立的分類和RL管道。該系統包括額外的可選模塊,可以與核心分類和RL管道相結合,包括支持元學習、內在動機、探索、主動視覺映射和課程學習。這些組件可以根據問題領域來啟用或禁用,我們討論了為一個視覺尋寶游戲應用開發和評估的配置實例。

用于終身深度學習的去卷積因子化CNN(DF-CNN)。在非深度多任務和終身學習方面的現有工作表明,使用模型參數空間的因子化表示進行轉移是成功的,允許更靈活地構建任務模型。受此啟發,我們介紹了一種在卷積神經網絡(CNN)中共享潛伏因子化表征的新架構。所提出的方法被稱為去卷積因子化CNN[4, 5],使用去卷積因子化和張量收縮的組合來進行任務間的靈活轉移。在兩個計算機視覺數據集上的實驗表明,DFCNN在具有挑戰性的終身學習環境中取得了卓越的性能,抵抗災難性的遺忘,并表現出反向轉移,從隨后的經驗中改善先前學到的任務,而無需重新訓練。與單任務學習者相比,DF-CNN在CIFAR-100和Office-Home任務上分別取得了19.2%和7.9%的改進,擊敗了其他多任務和終身學習基線。

終身策略梯度:無遺忘的快速訓練(LPG-FTW)。 策略梯度(PG)方法在學習高維動態系統的控制策略方面已經顯示出成功。它們最大的缺點是在產生高性能的策略之前需要大量的探索。在終身學習的環境中,智能體在其一生中會面臨多個連續的任務,重用以前看到的任務的信息可以大大加快新任務的學習。我們提供了一種新的終身策略梯度學習方法,通過策略梯度直接訓練終身函數近似器,使智能體在整個訓練過程中受益于積累的知識。我們的經驗表明,我們的算法比單任務和終身學習基線學習得更快,收斂得更好,并完全避免了在各種挑戰性領域的災難性遺忘。在Meta-World任務中,LPG-FTW比在每個任務中單獨訓練的智能體取得了17.5%的改進,比最接近的終身學習方法改進了533%。

快速適應的元優化器(KFO)。 我們開發了一種算法,META-KFO,它能夠在不增加模型的建模能力的情況下轉換較小模型的梯度,但仍能帶來更好的元可學習性。我們在討論和分析我們提出的META-KFO算法的同時,還簡要介紹了各種學習優化的方法。我們推測為什么足夠大的深層模型可以進行元學習:上層具有轉化底層梯度的同等效果,就好像上層是一個外部元優化器,在一個僅由底層組成的較小的網絡上運行。

高效探索和導航的占位預測(OCCANT)。最先進的導航方法利用空間記憶來概括新的環境,但它們的占位圖只限于捕捉智能體直接觀察到的幾何結構。我們開發了占位預測,智能體使用其以自我為中心的RGB-D觀察來推斷可見區域以外的占位狀態。這樣一來,智能體就能更迅速地建立起自己的空間意識,這有利于在三維環境中進行有效的探索和導航。通過利用以自我為中心的視圖和自上而下的地圖中的上下文,我們的模型成功地預測了一個更廣泛的環境地圖,其性能明顯優于強大的基線。我們的主要貢獻是 (1)一個新的占有率預測框架,利用來自自我中心RGB(D)視圖的語義和幾何背景;(2)一個新的探索策略方法,結合占有率預測,以較少的探索獲得更完整的地圖;(3)成功的導航結果,在蘋果對蘋果的比較中,包括在歸納到一個不相交的數據集中的環境時,比目前的技術水平有所改善。我們的方法是2020年人居環境點導航挑戰賽的獲勝作品。

**學習內在獎勵的策略梯度方法(LIRPG)**最佳獎勵問題[6]旨在學習內在獎勵的參數,使所得獎勵達到RL智能體的學習動態,使從某些分布中抽取的任務的壽命(外在)回報最大化。我們提出了一種元梯度方法[7, 8]來解決最佳獎勵問題。在高層次上,我們在每個生命周期的迭代中抽取一個新的任務和一個新的隨機策略參數,并使用具有策略梯度的內在獎勵函數模擬智能體的生命周期。同時,我們通過考慮內在獎勵對策略參數的影響來計算元梯度,用壽命值函數更新內在獎勵函數。通過對內在獎勵的分析,我們展示了我們的方法如何鼓勵在不確定的情況下進行探索,利用對象之間的因果關系,并考慮到非平穩的獎勵。

強化學習的課程策略(CMDP)。 強化學習中的課程學習是一種訓練方法,旨在通過首先在一系列較簡單的任務上進行訓練,并將獲得的知識轉移到目標任務上,從而加快對困難目標任務的學習。自動選擇這樣的任務序列(即課程)是一個開放的問題,也是該領域最近許多工作的主題。在這個項目中,我們以最近的一種課程設計方法為基礎,將課程排序問題表述為馬爾科夫決策過程(MDP)。我們對這一模型進行了擴展,以處理多種遷移學習算法,并首次表明可以從經驗中學習這一MDP的課程策略[9]。我們探討了使之成為可能的各種表示方法,并通過在兩個不同領域為多個智能體學習課程策略來評估我們的方法。結果表明,我們的方法產生的課程可以訓練智能體在目標任務上的執行速度,甚至比現有的方法更快。此外,我們最近的進展表明,這種為一組任務學習的課程策略可以被推廣到未見過的新任務集上[10]。

目標關系和分布模型(OBJMAP)。 為了幫助定位智能體更有效地解決視覺搜索任務,我們提出在多個環境中對目標-目標的空間關系進行建模。在探索一個環境的時候,一個智能體最好能利用已經看過的目標知識來幫助更快地找到目標物體。我們通過學習不同類別的目標之間的共同發生率統計來解決這個問題,建立一個包含所有看過的目標位置的環境地圖,然后結合這些信息來計算目標物體出現在地圖上每個位置的概率。

2.4.2 研究方法

組合式終身分類(COMPCLF)和強化學習(COMPRL)。人類智能的一個特點是能夠構建自成一體的知識塊,并以新穎的組合方式充分重用它們來解決不同但結構相關的問題。由于基礎搜索問題的組合性質,學習這種組合結構對人工系統來說是一個重大挑戰。到目前為止,對組合式學習的研究在很大程度上與終身學習或持續學習的工作分開進行。我們整合了這兩方面的工作,提出了一個通用的框架,用于終身學習可用于解決一系列相關任務的組合結構。我們的框架將學習過程分為兩個廣泛的階段:學習如何最好地結合現有的組件以吸收一個新的問題,以及學習如何調整現有的組件集以適應新的問題。這種分離明確地處理了記憶如何解決早期任務所需的穩定性和解決新任務所需的靈活性之間的權衡,正如我們在分類環境的廣泛評估中所顯示的那樣。然后,我們探索了一種基于神經模塊的RL的特殊形式的組合,并提出了一組直觀地承認組合解決方案的RL問題。從經驗上看,我們證明了神經組合確實捕捉到了這個問題空間的基本結構。我們進一步提出了一種組合式終身RL方法,該方法利用積累的神經組件來加速對未來任務的學習,同時通過重放經驗的離線RL來保持對以前任務的表現。在持續學習中使用可組合的表征,當任務大規模多樣化時,比非模數方法提供了82.5%的相對準確性的性能增益。

用于改進目標檢測的視頻中的無監督硬例挖掘(DETFLICK)。 最近,通過使用專注于硬負面例子的訓練目標,即目前被檢測器評為正面或模糊的負面例子,在目標檢測中獲得了重要的收益。當網絡被訓練來糾正這些例子時,這些例子會強烈影響參數。不幸的是,它們在訓練數據中往往是稀疏的,而且獲取成本很高。在這項工作中,我們展示了如何通過分析視頻序列上經過訓練的檢測器的輸出來自動獲得大量的硬性否定。特別是,在時間上孤立的檢測,即沒有相關的之前或之后的檢測,很可能是硬否定句。我們描述了從無標簽的視頻數據中挖掘大量此類硬陰性(以及硬陽性)的簡單程序[11]。我們的實驗表明,在這些自動獲得的例子上重新訓練檢測器,往往能顯著提高性能。我們介紹了在多個架構和多個數據集上的實驗,包括人臉檢測、行人檢測和其他目標類別。

使用自我訓練使目標檢測器自動適應新領域(STSL)。這項工作解決了現有的目標檢測器在無監督的情況下適應新的目標領域的問題。我們假設這個領域中大量的無標簽的視頻是現成的。我們通過使用現有檢測器的高置信度檢測來自動獲得目標數據的標簽,再加上通過使用跟蹤器的時間線索獲得的硬(錯誤分類的)例子。這些自動獲得的標簽然后被用于重新訓練原始模型。我們提出了一個修改過的知識提煉損失,并研究了為目標領域的訓練例子分配軟標簽的幾種方法。我們的方法[12]在具有挑戰性的人臉和行人檢測任務上進行了實證評估:在WIDER-Face上訓練的人臉檢測器,由從網上抓取的高質量圖像組成,適用于大規模的監控數據集;在BDD-100K駕駛數據集的清晰、白天圖像上訓練的行人檢測器,適用于所有其他場景,如雨天、霧天、夜間。我們的結果證明了結合從跟蹤中獲得的硬例子的有用性,通過蒸餾損失使用軟標簽相對于硬標簽的優勢,并顯示了作為無監督領域適應目標檢測器的簡單方法的可喜性能,對超參數的依賴性最小。

一半和一半。研究視覺常識的新任務和基準(HNH)對物體、人、行動和場景類型的一般識別一直是計算機視覺研究的核心重點。然而,現在我們在這些問題上已經取得了一定程度的成功,現在是時候定義新的問題,以刺激我們達到視覺智能的下一個水平。視覺常識的發展對于開發能在動態、新穎環境中發揮作用的智能智能體至關重要。但究竟什么是視覺常識?我們認為,在不直接可見的情況下,對事物可能存在的位置進行智能評估的能力,是人類和其他智能生物共享的關鍵和普遍的能力,是視覺常識的一個基本組成部分。人類經常表現出在沒有明確視覺線索的情況下做出決定的能力。這種 "智能搜索 "是視覺常識的一個突出的例子,我們相信它代表了一種技能,在開發智能體中是必不可少的。與我們的工作密切相關的是早期關于將上下文信息納入視覺預測的努力[13, 14, 15, 16]。我們相信,以最基本的形式對這種能力進行正式的基準測試可以是一個有價值的補充。在這項工作中,我們將推斷圖像中我們無法看到的東西的存在這一問題正式化。為了做到這一點,我們依賴于這樣一個事實,即一幅圖像的不同視圖描繪的是同一個場景。因此,個別部分可以作為其他部分的背景線索。由于這個原因,我們把這些任務稱為 "一半和一半 "任務[17]。

高效的終身逆向強化學習(ELIRL)。從演示中學習(LfD)的方法在通過模仿用戶獲得行為策略方面已經顯示出成功。然而,即使是單一的任務,LfD也可能需要大量的示范。對于必須通過示范來學習許多任務的多功能智能體,如果每個任務都單獨學習,這個過程會給用戶帶來很大的負擔。為了解決這一挑戰,我們引入了從演示中終身學習的新問題,這使得智能體能夠不斷地建立在從以前演示的任務中學到的知識上,以加速新任務的學習,減少所需的演示量。作為這個問題的解決方案之一,我們提出了第一個反向強化學習的終身學習方法,它通過演示來學習連續的任務,不斷地在任務之間轉移知識以提高性能。在演示的任務之間分享信息導致恢復的獎勵函數減少約65%。

使用高級共享特征集(SHELS)的任務無關的終身學習。深度神經網絡(DNNs)通常不能在動態開放世界環境中對未見過的類別進行概括,在這種環境中,概念的數量是無限制的。相比之下,人類和動物的學習者有能力通過識別和適應新的觀察而逐步更新他們的知識。特別是,人類通過獨有的(唯一的)基本特征集來描述概念,這些特征用于識別已知類別和識別新奇事物。受自然學習者的啟發,我們開發了一個稀疏的高層-排他性、低層-共享特征表示法(SHELS),它同時鼓勵學習排他性的高層特征集和基本的、共享的低層特征。高層特征的排他性使DNN能夠自動檢測出分布外(OOD)的數據,而通過稀疏的低層特征有效地利用容量,可以容納新的知識。由此產生的方法使用OOD檢測,在沒有已知類別邊界的情況下進行類別遞增的終身學習。我們表明,在各種基準數據集上,使用SHELS進行新穎性檢測,在統計上比最先進的OOD檢測方法有明顯的改進。此外,我們證明了SHELS模型在類增量學習環境中減輕了災難性的遺忘,使一個結合了新奇性檢測和適應性的框架能夠支持開放世界環境中的學習。

復合強化學習的基準(CompoSuite)。我們創建了CompoSuite,一個開源的模擬機器人操作基準,用于復合多任務和持續的RL。每個CompoSuite任務要求一個特定的機器人手臂操縱一個單獨的物體,以實現任務目標,同時避開一個障礙物。任務的這種組合式定義使CompoSuite具有兩個顯著的特性。首先,改變機器人/物體/目標/障礙物的元素會導致數以百計的RL任務,其中每個任務都需要有意義的不同行為。其次,RL方法可以專門評估其學習任務組成結構的能力。后者對問題進行功能分解的能力將使智能體識別并利用學習任務之間的共性來處理大量高度多樣化的問題。我們對現有的單任務、多任務和組合式學習算法在不同的訓練環境中進行評估,并評估它們對未見過的任務進行組合概括的能力。我們的評估暴露了現有RL方法在組合性方面的缺陷,并開辟了新的研究途徑。平均而言,單任務和多任務智能體能夠解決大約40%的任務,而具有明確組成結構的智能體則在此基礎上有所提高,解決了全部基準任務的92%。

用于多智能體強化學習的多智能體-注意力批判(MAAC)。終身學習智能體可能需要在其生命周期內與其他學習智能體合作和/或競爭。傳統的強化學習算法無法考慮到其他智能體,并受到其他智能體學習所引起的環境非平穩性問題的影響。最近的多行為體強化學習方法[18, 19]試圖通過利用行為體批判范式中的集中批判來解決這些問題;然而,隨著存在的行為體數量增加,這些方法不能很好地擴展。我們的方法,即多行為體-注意力批評[20],將注意力機制納入集中式批評者,以緩解這一問題。在多智能體領域的實驗表明,相對于最先進的基線而言,性能和可擴展性都有所提高。

用于多智能體強化學習的隨機實體明智因式分解(REFIL)。在智能體的一生中,它可能需要與具有不同能力/技能的智能體團隊合作;然而,在這些智能體的子組中經常出現共同的行為模式。我們提出的方法,即想象學習的隨機實體因式分解(REFIL)[21],試圖利用這些共同模式,通過將價值函數隨機分解為由不相干的實體子組組成的條款,來提高類似團隊的概括性。通過以這種方式構建價值函數預測,我們能夠更好地預測熟悉的子組狀態的新組合中的預期收益。在復雜的多任務多智能體設置上的實驗表明,與最先進的基線相比,樣本效率和概括性都有所提高。

解決清道夫服務機器人的隨機旅行購買者問題(STPP)。創造能夠在人類居住的環境中執行通用服務任務的機器人,一直是人工智能和機器人研究的一個長期的大挑戰。與各種任務相關的一個特別有價值的技能是根據要求定位和檢索物體的能力。在這項工作中,我們將這種技能建模為 "尋寶游戲"(Scavenger Hunt,SH),該游戲被表述為NP-hard隨機旅行購買者問題的一個變種。在這個問題中,目標是盡可能快地找到一組物體,給定它們可能被找到的概率分布。我們在模擬和真實的移動機器人上研究了SH問題的幾種解決算法的性能。我們使用強化學習(RL)來訓練一個智能體來計劃一個最小成本的路徑,并表明RL智能體可以勝過一系列啟發式算法,實現接近最佳的性能。為了促進對這一問題的研究,我們介紹了一個公開可用的軟件棧和相關網站,使用戶能夠上傳尋寶游戲,機器人可以下載、執行并從中學習,以不斷提高他們在未來游戲中的表現。

基于模型的貝葉斯探索的終身強化學習(VBLRL)。我們提出了一種終身的RL算法,該算法提取了以前遇到的任務中存在的共同結構,以便智能體能夠快速學習新任務的特定動態。我們考慮的終身RL問題可以被建模為隱藏參數MDP或HiP-MDP[22, 23],其中真實任務動態的變化可以由一組隱藏參數描述。我們的算法比以前的終身學習和HiP-MDPs的工作更進一步:1)在任務集合的不同抽象層次上單獨建模認識性和非認識性的不確定性:由描述任務概率分布的世界模型分布捕獲的不確定性,以及由單個任務內(隨機的)動態的特定任務模型捕獲的不確定性。為了實現更準確的順序知識轉移,我們將這兩個量的學習過程分開,并保持一個近似于它們的分層貝葉斯后驗。2)執行層次化后驗所啟用的貝葉斯探索。該方法讓智能體根據從后驗中采樣的模型進行優化操作,從而提高采樣效率。

關于這些算法的細節將在下一節提供。

付費5元查看完整內容

根據合同FA8750-19-C-0092制定本報告:利用符號表示進行安全和可靠的學習。這項研究工作的目標是開發新的工具、算法和方法,以提高自主的、可學習的網絡物理系統(LE-CPSs)的安全性。這些系統由于更高的自主性以及網絡組件和物理環境之間的相互作用而表現出一系列豐富的行為。這項工作總結了在符號系統測試、模型提取、異常檢測、學習未知動力學和形式化方法方面的進展,以驗證這些系統。這些工作被整合到控制系統分析框架中,并應用于高保真F16模型。

報告總結

可靠自主性(AA)計劃是由美國國防部高級研究計劃局(DARPA)委托進行的,目的是推動持續可靠技術的發展,以跟上安全關鍵系統日益復雜和自主的步伐。該計劃的目標是學習型(LE)網絡物理系統(CPS)(LECPSs);由于更高水平的自主性,以及網絡組件和物理環境之間的互動,這些系統表現出豐富的行為集合。由于這些系統經常被部署在安全關鍵環境中,其故障可能導致金錢和人命的損失,因此其持續的保證是最重要的。

為了加速LE-CPS的采用,保證學習團隊采用了一種多方面的方法,為保證幾個層次的自主性提供解決方案,包括規范、設計、培訓、設計時間測試和運行時間保證。圖1所示的海報中總結了保證學習團隊的方法。

圖1 可靠學習小組

1.1 可靠學習挑戰問題

該團隊將F-16飛行控制系統[75]確定為美國防部(DoD)可靠自主性計劃的相關基準。這支持了該計劃第二階段挑戰問題2.5 "避免地面碰撞 "和第三階段挑戰問題3.2 "避免空中碰撞"。我們開發了控制系統分析框架(CSAF),這是一個集成的工具鏈,以證明團隊開發的技術和工具的有效性。我們使用DevOps風格的自動化來推動LE-CPS的持續集成和目標定向測試。最后,我們展示了運行時可靠(RTA)的可行性,以保護系統免受LECPS故障的影響。

1.2 控制系統分析框架

Galois開發了控制系統分析框架,這是一個用于建模、測試和正式驗證LE-CPS的綜合工具鏈。CSAF將最先進的分析工具引入數字工程框架,由DevOps風格的持續集成支持,以加速安全關鍵系統的數字設計。CSAF通過對學習型組件進行嚴格的自動測試來實現持續驗證。圖2說明了CSAF如何與現有的和新興的工具相結合,在持續集成/持續部署(CI/CD)環境中提供自動化、目標定向測試、運行時間可靠驗證。

圖2 控制系統分析框架概述

2 引言

在過去的十年中,將機器學習技術應用于網絡物理系統方面取得了巨大的進步,導致了支持學習的自主網絡物理系統的發展;這些系統已經在空中、地面和深海環境中得到了初步的部署。機器學習使圖像處理、決策和控制的強大和適應性方法成為可能。然而,由于這些系統的操作行為缺乏強有力的保證,以及許多訓練方法需要大量的數據,這些系統的廣泛采用和更廣泛的接受受到了阻礙。

2.1 符號系統測試

這一工作的第一階段探討了如何將為傳統軟件系統開發的形式化驗證和原則性測試技術重新用于驗證、安全和改善學習型系統的訓練時間。具體來說,我們將這些技術用于現實世界中復雜的異質系統(F-16模型),該系統由傳統算法、自適應控制和學習型組件混合組成。我們的技術將相關領域的知識作為模型生成的一部分,在第二階段我們進行了高覆蓋率的系統級測試。這種方法為部署的機器學習模型的安全性提供了高度的保證,即使是在面對意外的環境干擾時。第一階段的初步結果成功地證明了使用正式模型來有效地指導學習,改善訓練時間,提高性能,并使數據得到更有效的利用。因此,我們預計這將大大擴展深度學習方法可以應用的系統組件的范圍。

我們將上述對學習型系統的正式驗證和測試與運行時保護方法的工作相結合,以確保學習型控制器(LEC)算法的正確性。我們利用先進的機器學習(ML)異常檢測方法來評估LEC輸出的質量。我們提供了替代的、確定性的程序,這些程序既可以用來引導LEC的不良行為,也可以提供適合形式化驗證的LEC行為的替代抽象。最后,我們提供了利用我們的測試結果來提高我們重新訓練的LEC的效率和穩健性的方法。

雖然通過學習來適應控制法則對實現更靈活的車輛系統很重要,但對動態變化的適應也同樣重要,例如,由于部件的退化或平臺的損壞。第一階段推進了先前的工作,開發了新的系統動力學學習方法,利用基礎系統物理學知識,提供更可靠和有效的結果。

2.2 可靠學習挑戰問題

Galois在Aditya Zutshi博士的領導下,開始收集基準挑戰問題,包括波音公司的TAXINET/X-Plane模擬器、汽車學習行動(CARLA),以及控制理論研究中使用的學術基準。F-16 AeroBench基準[76]的選擇是為了使我們的工作與空域挑戰問題集和正在進行的波音公司TAXINET/X-plane的感知工作相一致,使用基于感知的學習技術。第一階段的高潮是將我們的工具和技術早期整合到一個模塊化的學習型控制器測試線束中,使用F-16模型來演示F-16地面防撞系統(GCAS)機動的保證學習。作為第一階段挑戰問題2.5的一部分,我們成功演示了GCAS機動。

在第二階段,團隊繼續開發控制系統分析框架和其他工具,重點是F-16空中防撞(ACA)挑戰問題。在第二階段,我們演示了單人和多人的F-16空中防撞,作為該計劃挑戰問題3.2的一部分。

2.3 CPS系統的訓練、魯棒性和形式驗證的方法

普渡大學團隊在Suresh Jagannathan博士和Ananth Grama博士的領導下,致力于保證學習型控制器的六個核心部分:

(i) 下一代高效的學習模型的訓練程序。

(ii) 在強化學習(RL)控制器中使用新的訓練程序。

(iii) 保證控制器性能和物理設備安全的正式方法。

(iv) 應用于CPS系統的穩健性技術。

(v) 控制器的可擴展驗證;以及。

(vi) 新的規范形式和編譯技術,用于高保證的多智能體自主系統。

2.4 OSU的異常檢測調查

俄勒岡州立大學(OSU)團隊在Tom Dietterich和Alan Fern博士的領導下,對跨越許多應用領域的兩類數據的異常檢測(AD)進行了調查。研究異常檢測的動機是,保證機器學習系統的自主性必須能夠檢測到與訓練系統相比,系統何時處于新的 "運行狀態"。

第一個AD調查研究了深度圖像分類的開放類別檢測問題。這個問題涉及到開發一些方法,以確定一個經過訓練的深度圖像分類器在部署后遇到的輸入圖像,相對于訓練數據中的類別而言,是否屬于一個新類別。我們的工作重點是使用 "神諭技術 "來分析這個問題的深度表征和異常檢測方法的互動。結果表明,改進的表征與基于這些表征的改進的異常檢測信號相比,有相對的改進空間。

第二個AD調查研究了分布外動態(OODD)檢測的問題。這個問題涉及到確定何時一個時間過程,例如一個部署的學習控制系統,正在經歷與它被訓練的動態不同的動態。這是一個在深度強化學習(DRL)文獻中很少受到關注的問題,盡管它具有實際的重要性。我們的第一個貢獻是設計和開發了第一套基于常用DRL領域的ODD基準和度量。我們的第二個貢獻是設計、開發和評估了一個強大的基線OODD方法,它提供了非微不足道的性能,但也為基準留下了改進空間。這為OODD檢測的未來進展奠定了基礎。

2.5 實時學習系統動力學(物理感知學習)

由Ufuk Topcu博士領導的德克薩斯大學(UT)奧斯汀團隊的工作重點是開發數據驅動的算法,用于在非常嚴重的數據限制下對未知動態系統進行可達性分析和控制。這項工作是由系統動態發生重大和意想不到的變化的情景所激發的。在保證學習計劃中,這些工作被應用于F16模型被置于需要快速傾斜系統動力學的場景中,因為在操作條件、故障和極端的地面防撞場景中,傳統方法無法提供保證。

2.6 學習程序性政策的強化學習方法

由Swarat Chaudhuri博士領導的UT Austin團隊(最初在萊斯大學)開發了模仿-預測程序化強化學習(PROPEL),這是一種強化學習方法,用于學習可以用預定義符號語言表達的程序化策略(關于這項工作的論文《模仿-預測程序化強化學習》發表在2019年NeurIPS大會上)[48]。符號化策略是一個決策程序,例如 "如果(道路暢通)加速,否則減速",可以想象它是由人類工程師編寫。相對于傳統的深度強化學習,其中學習的策略是不透明的神經網絡,程序化的策略是可審計的,并簡化了正式的正確性驗證。這個政策學習問題是用鏡像下降法解決的,該方法保持了一個神經和程序化政策的加法組合,使用歸納程序合成和基于梯度的優化的混合方法迭代更新這兩個部分(更多內容見第3.5節)。該方法在一個模擬駕駛任務以及一系列經典控制任務上進行了評估。實證結果表明,該方法發現了人類可理解的策略,而沒有明顯影響性能。

該團隊還開發了一種強化學習的方法,在探索過程中構建的每一個中間策略都得到了正式的驗證,并在2020年的NeurIPS上展示了 "具有正式驗證的探索的神經符號強化學習"(REVEL)。在算法上,REVEL學習神經策略,這些策略由確保每一個行動都是安全的盾牌來保護。該學習算法使用一種鏡像下降的形式來迭代更新策略的防護罩和神經組件,同時保持安全,而不需要直接的神經網絡驗證。該方法在控制和機器人學的幾個基準上進行了評估,這些基準類似于簡化的自動駕駛應用。結果表明,REVEL可以在學習過程中保證最壞情況下的安全,而其他最先進的強化學習方法在學習過程中經常違反安全約束。

在項目的最后階段,該團隊探索了學習符號策略的機制,這些策略在被視為像素的場景中運作。在這里,一個神經網絡被用來識別一個場景中有趣的實體。然后,這些實體被視為命名的變量,一個以這些變量為程序的程序被自動發現。

付費5元查看完整內容

近年來,在獨立和相同分布(i.i.d.)數據的假設下,主要針對單一任務進行訓練的深度學習已經取得了巨大的進展。然而,當天真地在多個任務上連續訓練,而不重溫以前的任務時,已知神經網絡會遭受災難性的遺忘(McCloskey和Cohen,1989;Ratcliff,1990),即在學習新任務時,執行舊任務的能力往往會喪失。與此相反,生物生命能夠在一生中從明顯的非即得經驗中學習許多任務,獲得新的技能并重復使用舊的技能來學習新的能力,同時保留以前的重要知識。當我們努力使人工系統越來越智能時,自然生命不斷學習的能力是一種重要的模仿能力。持續學習(Parisi等人,2019)最近在機器學習研究中引起了相當大的關注,并出現了一些期望值。模型應該能夠依次學習多個任務,最終任務的數量和復雜程度未知。重要的是,在學習新的任務時,應該不會對以前的任務產生災難性的遺忘,最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移:以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率,這在數據稀缺的情況下尤為重要。一些方法通過擴展來解決持續學習的問題,也就是說,模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上,這些方法通過設計減輕了災難性的遺忘,因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整,但這樣做需要人為估計需要多少擴展,這不是一個簡單的過程。相反,通常對每個新任務采用預設的、恒定的擴展。另外,我們可以考慮動態的、數據驅動的模型擴展,或者采用模塊化的模型增長方法,從而開發出一個框架,為持續學習建立緊湊的模型,其中模型的大小隨著任務數量的增加(最好是不斷增加)而有效擴展,同時減輕災難性的遺忘現象。此外,我們試圖開發一個框架,使其可以通用于不同的持續學習任務,例如分類、圖像的生成過程和自然語言處理序列標簽,即命名實體識別。在一個持續學習的環境中,我們會遇到一連串具有預定目的的任務,但每個任務都由一個不同的數據集組成。主要目標是建立模型,使其在不同的任務中表現盡可能一致,同時i)重復使用以前任務的信息,以及ii)防止模型不受控制地增長(大小)。然而,我們的方法包括為每個任務建立一個模型,這樣,模型的大部分組件是跨任務共享的(全局的),剩下的幾個是特定任務的(局部的),從而允許信息共享和控制增長。因此,我們試圖開發具有全局和特定任務參數的特定任務(深度學習)模型,以實現有效和高效的持續學習。

引言

1.1 背景

近年來,在獨立和相同分布(i.i.d.)數據的假設下,主要針對單一任務進行訓練的深度學習取得了巨大的進展。然而,當天真地在多個任務上連續訓練,而不重溫以前的任務時,已知神經網絡會遭受災難性的遺忘(McCloskey和Cohen,1989;Ratcliff,1990),即在學習新任務時,執行舊任務的能力往往會喪失。與此相反,生物生命能夠在一生中從明顯的非即得經驗中學習許多任務,獲得新的技能并重復使用舊的技能來學習新的能力,同時保留以前的重要知識。當我們努力使人工系統越來越智能時,自然生命不斷學習的能力是一種重要的模仿能力。

持續學習(Parisi等人,2019)最近在機器學習研究中引起了相當大的關注,并出現了一些期望值。模型應該能夠依次學習多個任務,最終任務的數量和復雜程度未知。重要的是,在學習新的任務時,應該不會對以前的任務產生災難性的遺忘,最好是不用保留以前任務的任何數據來重新訓練。模型還應該能夠進行正向轉移:以前學過的任務應該有助于新任務的學習。任務之間的知識轉移可以最大限度地提高樣本效率,這在數據稀缺的情況下尤為重要。

一些方法通過擴展來解決持續學習的問題,也就是說,模型隨著每一個額外的任務而增長。通過將學習轉移到每個任務的新網絡組件上,這些方法通過設計減輕了災難性的遺忘,因為以前學習的參數沒有受到干擾。這些策略的一個關鍵挑戰是決定何時以及以何種程度來擴展網絡。雖然通常聲稱這可以根據即將到來的任務進行調整,但這樣做需要人為估計需要多少擴展,這不是一個簡單的過程。相反,通常對每個新任務采用預設的、恒定的擴展。另外,我們可以考慮動態的、數據驅動的模型擴展,或者采用模塊化的模型增長方法,從而開發出一個框架,為持續學習建立緊湊的模型,其中模型的大小隨著任務數量的增加(最好是不斷增加)而有效擴展,同時減輕災難性的遺忘現象。此外,我們試圖開發一個框架,使其能夠通用于不同的持續學習任務,例如分類、圖像的生成過程和自然語言處理序列標簽,即命名實體識別。

在一個持續學習的環境中,我們會遇到一連串具有預定目的的任務,但每個任務都由一個不同的數據集組成。主要目標是建立模型,使其在不同的任務中表現盡可能一致,同時i)重復使用以前任務的信息,以及ii)防止模型不受控制地增長(大小)。然而,我們的方法包括為每個任務建立一個模型,這樣,模型的大部分組件是跨任務共享的(全局的),剩下的幾個是特定任務的(局部的),從而允許信息共享和控制增長。因此,我們試圖開發具有全局和特定任務參數的特定任務(深度學習)模型,以實現有效和高效的持續學習。

1.2 貢獻

我們的工作對DARPA終身學習機器(L2M)計劃和持續學習社區的貢獻列舉如下:

  • 開發了生成式對抗網絡的持續適應模型(Cong等人,2020)。

    • 影響。所提出的框架優于最先進的方法,其參數和計算成本大大降低。
  • 開發了使用貝葉斯非參數字典權重因子的持續學習(Mehta等人,2021)。

    • 影響。第一個用于持續學習中自適應(數據驅動)模型擴展的無啟發式方法。
  • 為人類和機器的結構化任務分布開發了一個元學習框架(Kumar等人,2020)。

    • 影響。我們發現了一種雙重分離,即人類在結構化(成分)任務中表現更好,而代理(機器)在統計(非成分)任務中表現更好,盡管其復雜性相當。
  • 為鑒別性和生成性持續學習開發了高效的特征轉換(EFTs)(Verma等人,2021年)。

    • 影響。EFTS最大限度地減少了新任務的參數數(比基礎模型少5%),同時允許在類增量設置中進行任務預測。
  • 通過設計和利用參數有效的特征圖轉換,為生成式對抗網絡(GANs)開發了一種持續學習方法。

    • 影響。所提出的方法提供了一種內存效率高的方法來執行有效的持續數據生成,我們表明,特征圖轉換方法優于最先進的持續學習GANs的方法,參數大大減少(Varshney等人,2021)。
  • 開發了第一個用于NER的少許類增量學習的工作(Wang等人,2022a)。

    • 影響。所提出的框架可以用最少的標記數據學習識別新的實體類。
  • 開發了結構化稀疏卷積(SSC),利用圖像的固有結構來減少卷積濾波器的參數(Verma等人,2022)。

    • 影響。與現有的方法不同,SSC過濾器不需要在訓練期間或之后進行額外的修剪。
  • 開發了一個新的任務持續學習框架,該框架不假設任務序列是不同或唯一的,因此需要一個任務相似性識別模塊(Wang等人,2022b)。

    • 影響。我們在不需要訓練新模型的情況下,通過利用任務相似性指標來識別相似的任務,在實踐中取得了很高的任務相似性識別精度。
  • 在機器學習領域產生了9項學術科學貢獻,其中7項已經發表,2項目前正在審查。

    • 影響。我們的論文出現在頂級的機器學習領域,如NeurIPS、ICLR、ICML、AISTATS和ACL。此外,我們所有發表的方法論都有公開的源代碼。詳見表1。
  • 用我們的EFT框架為M21評估分類基準做出了貢獻(Verma等人,2021)。

    • 影響。在不同的指標中表現出有競爭力的性能,即96.6±0.23的Top-1準確率,0.86±0.23的樣本效率,相對于單一任務專家的0.93±0.01的性能,1.21±前向轉移率,以及0.99±0.00的后向轉移率。

下面,我們為每個貢獻提供一個簡短的總結,然后是我們項目產生的公開可用的軟件包的清單,以及一個完整的參考文獻清單,我們向讀者介紹完整的方法學細節、實驗設置和經驗結果。

付費5元查看完整內容

這項工作的目的是開發能夠成功處理復雜動態環境中順序決策的深度終身學習方法,重點是多Agent情報、監視和偵察(ISR)場景。我們為深度卷積神經網絡開發了一個新的架構,支持通過去卷積因子化的終身學習(DF-CNN),探索了通過Distral和Sobolev訓練的策略提煉的組合,并開發了一個混合控制器,將深度學習應用于ISR智能體。我們的方法在標準基準深度學習數據集、DOOM環境和ATE3模擬環境中的ISR場景中進行了評估。

我們的主要貢獻是反卷積因子卷積神經網絡(DFCNN)。DF-CNN框架調整了標準卷積神經網絡(CNN)框架,以實現任務之間的轉移。它在每個CNN層維護一個共享知識庫,并通過這個共享知識促進不同任務的CNN之間的轉移。每個具體任務的CNN模型的各個過濾層都是由這個共享知識庫重建的,隨著網絡在多個任務中的訓練,這個知識庫會隨著時間的推移而調整。DF-CNN代表了ELLA終身學習框架對深度網絡的概括。

實驗表明,DF-CNN在終身中的基準識別任務上的表現優于其他方法(包括單任務學習、低層的硬參數共享和漸進式神經網絡)。此外,該框架能夠抵抗災難性遺忘,同時仍然允許從未來的學習中反向轉移到以前學習的模型。

對于深度強化學習,我們研究了將Sobolev訓練整合到Distral多任務框架中,以努力改善轉移和訓練,探索了DF-CNN在深度RL中的應用,并開發了一個混合控制器,將本地學習的深度RL策略結合在一起,在ATE3仿真環境中完成ISR場景。

付費5元查看完整內容

在未來的軍事行動中,通過協調多智能體系統(MAS)來實施戰略機動以獲得對對手的優勢,是一個很重要的途徑。最近探索MAS協作的工作主要集中在識別、分類、驗證、實施,以及通過多智能體強化學習(RL)來研究新興的協作方式。強化學習方法可以通過探索和利用選定行動來響應特定環境中的突發行為,這有可能抑制對抗性協作,反過來又可以為各種情報、監視、目標獲取和偵察任務提供機會窗口。本報告簡要介紹了RL領域的突出工作及其在自主戰略機動協作式MAS中的潛在應用。

1 引言

美國陸軍現代化激增是由對手在多個領域(如陸地、海洋、空中、網絡、電磁和空間)對美國構成的威脅所推動的,這對美國利益的威脅超出了常規戰爭。預計未來的戰斗將在這些復雜的多領域環境中進行,人工智能(AI)將指導與人類士兵一起協同工作的機器人Agent的戰術、技術和過程(TTPs)。這些機器人將聚集在一起,形成智能多Agent團隊,與人類士兵有效協作,完成任務。

美國陸軍作戰能力發展司令部(DEVCOM)陸軍研究實驗室(ARL)的基本研究計劃(ERPs)構建了開發和實施智能多Agent系統(MAS)的具體計劃路徑。此類陸軍計劃為美國國防行動提供了關鍵研究問題的答案,這些問題匯聚在一起,指明陸軍未來司令部的現代化努力方向。人工智能用于自主機動性(AIMM)和新興超限技術(EOT)是ERP的例子,明確側重于使下一代戰車具有自主感知、學習、推理、規劃和機動能力。這些未來的自主系統將與人類智能體合作進行預測和規劃,并通過戰場上的自主機動(AIMM)和保護(EOT)向士兵提供支持。本報告重點關注需要進行的自主協作,以使多智能體系統(即人類、智能體或人類和智能體混合)在未來的軍事行動中取得成功。

集成和協調的MAS將需要技術的進步,重點是超越我們目前的能力,以有效地對付同等裝備的對手(同行或接近同行)的協作戰略機動性。一個直接的挑戰是開發能夠以良好協調方式自主和智能地工作的智能體團隊。這種能力要求智能體在執行關鍵任務時與士兵一起觀察、定位、決定和行動(OODA-Loop)。雖然新的努力促進了對多智能體范式中情報的一般理解,但目前對情報的解釋并不明確。最近的文獻表明,基于強化學習(RL)的方法可能為實現這種技術進步提供了一條可行的途徑,本文介紹的一系列工作就是證明。

在本報告中,介紹了RL領域的貢獻,以及它們在軍事環境中的潛在應用--特別是通過戰略編隊機動來抑制對手的協作,以實現戰場上的超越。最小化、限制或完全抑制對抗性多Agent行為中的協作是探索和執行在模擬情況下通過RL實驗得出戰略機動的一種手段。此外,協作的戰略機動可以通過各種RL方法學習,以告知防御部隊創造機會或優勢窗口的潛在途徑。

為了在模擬環境中通過戰略機動的RL方法實現MAS協作,我們首先介紹了近年來一些最突出的RL研究。最近在RL領域的進展(如alphago)促進了更復雜的多智能體強化學習(MARL)算法在現實世界應用。此外,近年來也有一些框架來實現多智能體協作。這些努力加在一起,可以為開發和實施多機器人協作提供一條道路,以便在為未來戰場設計的多機器人系統中實現戰略機動。

在下面的章節中,對近年來突出的RL方法進行了分類和概述,并表明這些方法與DEVCOM陸軍研究實驗室目前的研究和開發項目相一致。具體來說,本報告的重點是確定戰略機動的特定算法的優勢和劣勢。此外,對選定的RL方法類別進行了分類,以深入了解戰略機動的潛在實施,并考慮到情報、監視、目標獲取和偵察(ISTAR)任務。

2. 多域作戰中多智能體系統的戰略機動

簡單地說,戰略機動可以解釋為一組智能體協調他們的行動,通過戰勝對手來實現一個共同的目標。破壞,是戰略機動的一個特例,可以表示為對對手協作戰略機動的抑制。因此,戰略機動一詞的使用意味著至少存在兩個對立的或敵對的雙方,他們處于動態的斗爭中,通過限制、抑制或以其他方式破壞對手的協調或戰術,并強加自己的協作戰術來獲得對對方的優勢。

在本節中,提供了一個對抗性的交戰場景,其核心是使用選定的遠程資產,這些資產本質上破壞了友好部隊的交戰。圖1顯示了一個圖例,描述了與所述多域作戰(MDO)情景相關的選定資產和部隊的軍事符號學。根據MDO理論,在武裝沖突中,對手的遠程反介入和區域拒止(A2AD)火力系統可以被用來拒絕友軍在戰區的機動自由(見圖1)。這是通過將情報、監視和偵察(ISR)資產與致命性和非致命性火力相結合來實現的,以攻擊戰略和行動支持區的友軍指揮結構、維持能力和部隊編隊。這些地區是近距離地區作戰資產(如部隊和裝備)的傳統集結地(見圖2)。對手有能力在友軍后方深處識別和攻擊目標,導致這些實體在地理上與戰術支持區和近距離區分離,這有效地提高了友軍的損耗率,即所謂的對峙。鑒于前線部隊與戰略和作戰機動支援相分離,敵對勢力可以利用這種友軍孤立無援的情況,將其消滅。

圖1 友軍(BLUEFOR,左)和敵軍(OPFOR,右)部隊的資產和資源。在所描述的MDO情景中,假設BLUEFOR和OPFOR的所有資產都是自主化的編隊。

圖2 敵軍(OPFOR)使用遠程導彈和火箭炮干擾或破壞友軍(BLUEFOR)戰略支援區的維持行動,這使得友軍無法以有利的條件與近距離地區的敵軍機動部隊交戰。為了應對這一戰略,BLUEFOR執行反擊任務,以摧毀位于深火區的OPFOR遠程火力系統(藍色箭頭)。從深層機動區的BLUEFOR SOF發出的三叉箭頭代表了一種 "破壞 "戰術,它打破了對手的隊形和節奏。

圖3 壓制(S)或解除(N)敵方遠程火力系統和ISR資產,使友軍能夠穿透敵方的A2AD保護傘。這使友軍能夠在近距離地區擊敗敵人,并使機動指揮官有能力利用他們的成功,迅速將部隊轉移到深度機動區,摧毀(D)脆弱的敵方資產并追擊撤退的敵軍。F表示 "固定",可有效減緩敵軍的行動。粗箭頭代表部隊移動的方向。

MDO理論規定了擊敗對手A2AD能力的計劃(即對峙),以便戰略和作戰機動能夠使前沿部署的友軍以有利的條件與對手交戰(即穿透和瓦解A2AD系統以利用機動自由)。在這里,我們只關注友軍(BLUEFOR)野戰軍和軍團與敵方A2AD系統交戰時的滲透和瓦解部分,這可能需要在未來的戰斗中使用自主MAS。此外,據推測,圖1中友軍(BLUEFOR)和敵軍(OPFOR)的所有符號都將包含自主化的編隊(例如,機器人戰車、自動瞄準系統、地面和空中的機器人ISR資產)。圖2和圖3分別顯示了利用這種符號學與自主化編隊進行戰略機動的情景圖。

如圖2所示,敵對的A2AD火力系統通過攻擊戰略和作戰支持區來創造對峙局面。友軍火力和防空部隊從太空和高空監視(未顯示)接收有針對性的情報,在狹窄的時間窗口內打擊高價值目標(即多管火箭系統[MLRS]),以減少對手的位置調整。除了監視之外,還可以采用戰略刺激--打擊來穿透和瓦解對手的遠程火力系統。

在ISTAR任務中,MARL可以通過利用敵軍理論和敵軍行動中的局部觀察,戰略性地照亮和跟蹤敵軍目標的位置。此外,經過MARL訓練的具有自主能力的編隊,結合高度機動和分散的空中和地面火力,可以開始壓倒對手的遠程防空。友軍可以利用經過訓練的MARL方法來利用對手的TTP,進行防空和地面火力的戰略機動。這些具有自主能力的編隊根據從戰略空基刺激收集的監視數據選擇地理位置。隨著對手的遠程火力系統被消滅,戰略和作戰支援部隊能夠向前方的作戰部隊推進(機動)(見圖2)。

敵軍利用ISR資產識別作戰支援區的友軍資產,并從作戰縱深火力區用遠程火力系統(即多管火箭炮)攻擊友軍。這些敵方火力擾亂了友軍在該地區進行傳統支援行動的能力,這反過來又導致這些活動在離部隊前線更遠的地方進行。這通過擴大戰場和緊張的補給線而造成地理上的對峙。此外,這還允許敵方機動部隊以有利于敵方既成事實的條件與近距離地區的友軍作戰。根據MDO的理論,為了消除對峙,友軍的炮兵系統必須在敵軍的火力和ISR資產部署之前識別、交戰并摧毀它們。友軍SOF通過破壞補給和指揮與控制(C2)節點以及為聯合火力提供目標數據來協助這項工作。這在敵人的A2AD保護中創造了缺口,可以被機動指揮官所利用。在這種覆蓋下,友軍機動部隊穿透并利用近距離和深層機動區域的缺口。

在作戰區,近距離和縱深地區的聯合部隊的戰略編隊可能是自主啟用的編隊(即MAS),利用MARL訓練的策略來利用對手的TTP(來自理論)、本地觀察和ISR收集的信息。如圖2所示,聯合部隊將協調其ISR和遠程精確火力的能力,為前沿部署的BLUEFOR部隊提供支持。在戰略和作戰單位的支持下,擁有自主能力的前線部隊可以在近距離和縱深地區進行協調,以分離和擊敗敵方資產。這將促進消滅敵對的前沿機動部隊(OPFOR),使遠程火力系統容易受到地面攻擊(瓦解),如圖2所示。

聯合火力(即友軍或BLUEFOR)壓制或消滅對手的遠程火力系統,使友軍機動部隊能夠進入并擊敗近距離區域的作戰部隊(見圖3)。然后,友軍機動部隊利用這一優勢,在深度機動區(見圖3中的D區)摧毀敵方的助推器。這將導致剩余的敵對機動編隊從近距離區域撤出,并在深層機動區域建立一個新的戰線。這個過程不斷重復,直到達到戰略目標或打敗OPFOR。這些協調活動在理論上可以通過人類士兵和自主多智能體系統之間的合作來實現。此外,鑒于目前正在積極研究開發和部署這種自主系統,預計未來的戰場將需要考慮像這樣的場景來規劃戰略機動。

本節提供了一個可以應用MARL方法訓練自主化編隊的場景;然而,在這種復雜的MDO環境中執行的具體RL方法還沒有經過測試,或者可能還不存在。下一節闡明了與利用RL方法為未來的MDO交戰訓練MAS有關的一些挑戰。

3 挑戰

在這項工作中,我們將重點聚焦到可以指導MAS克服與軍事防御MDO中戰略機動相關挑戰的RL方法。從技術上講,RL是機器學習(ML)的一個分支,它超越了從數據中建立精確的預測,通過在環境中產生行動來展示學習。這種學習的展示可以被認為是一種決策形式,但更準確的描述是通過狀態空間探索進行戰略行動選擇。

RL智能體在獎勵函數的基礎上進行學習(或訓練),最終確定在當前情況下(即該智能體在環境中的狀態),哪一個是智能體要選擇的最佳行動。例如,RL智能體可以與環境互動,產生與獎勵掛鉤的經驗,這將形成學習的策略(即一系列的狀態-行動對)。然而,在后面的章節中強調,目前的RL方法可能還不夠成熟,無法克服與人類類似的適應性相關的挑戰,以便在新情況或環境中進行智能決策。盡管RL算法有其缺點,但它們似乎是在軍事防御MDO中實現協調的MAS執行戰略機動的最有希望的途徑之一。

在多智能體任務中,協作通常是定義不清的,而且經常被用來表示一組智能體在某些合作任務領域中成功地執行了任務。在以前的工作中,開發并采用了各種新方法來測量執行合作任務時智能體行動之間的相互依賴性,以確認這些智能體事實上已經學會了協作。對協作的確認是確定MAS有能力與其伙伴合作的先決條件,而不是簡單地采取導致某種程度的優化行動。雖然在某些情況下,最佳行為可能是可取的,但如果任務以某種不可預見的方式發生了變化,一個簡單的最佳行為的智能體可能會在戰場上導致災難性的損失。因此,未來防御行動的MAS必須具有明確協作的能力。

在本節的其余部分,描述了與開發戰略機動MAS有關的一些挑戰,其中時間尺度、能力和局部目標可能有很大的不同(例如,MDO),但需要某種程度的協作。此外,假設更大程度的靈活協作可以促進任務執行的改進(例如,更快、更少的損失、非直觀的策略、有效處理不斷變化的能力/團隊組成)。

隨著環境在動態戰場上的變化,敵對雙方(至少)可能需要重復規劃和預測,以便1)跟上,或2)領先于對手的規劃和預測。經過RL訓練的MAS能夠學習這種動態的規劃和預測循環。另外,如果學習智能體建立了一個關于對手協作行動的適當模型,然后采取行動破壞這種協作,也可以實現這一目標。

在一個理想的情況下,一個被選來指導MAS行為的算法將學會處理環境、對手戰術和能力、自身能力(獲得新的能力或失去以前的能力)、團隊組成(例如,改變合作者)和局部目標的變化。然而,大多數最先進的(sota)方法受到經驗的限制(正如許多RL方法的情況一樣)。此外,在大多數模擬中,團隊的能力和組成通常是固定的,不能為算法提供足夠的數據來操作和處理任何上述的特征變化。因此,在選擇一種算法來指導旨在產生戰略機動的MAS的行為時,必須考慮新的或動態的事件、行為、資產和實體。

總之,目前的算法方法在復雜的軍事防御MDO環境中沒有達到所需的能力。目前的缺點可以分為三類。1)數據要求,由于情況的新穎性,數據是有限的,數據集不足以產生準確的預測,或者數據以某種方式被污染(例如,嘈雜、臟亂或對手的改變),2)有限的計算資源,以及3)算法不能泛化到訓練期間遇到的情況之外(例如,不同的目標、改變的能力或修改的團隊組成),導致狹隘或脆弱的MAS解決方案。

在下一節中,我們將更詳細地討論RL的缺點,以闡明如何克服這些問題,為軍事防御MDO環境提供解決方案。為此,我們介紹了現有的RL算法的分類法。這一努力應提供對有前途的RL技術更好的洞察力,這可能有助于確定最終應用于美國國防MDO的可行途徑。

4. RL技術和方法

學習算法的可擴展性是MDO中軍事任務的主要關注點之一,特別是因為這種任務可能需要大量的智能體來完成一個目標。此外,軍事任務可能涉及多個子任務,每個子任務都有自己的子目標,從而進一步復雜化了場景。在MDO中,預計一個子目標由無數復雜的戰略演習組成,這需要MAS的快速計算,以及使用最小計算資源(如在戰術邊緣計算)的最佳(或至少足夠)戰略。因此,一個可擴展的RL算法必須考慮到:1)環境和任務的復雜性;2)智能體(伙伴和對手)的數量,以便每個智能體能夠在通過RL學習過程中收集經驗時正確選擇行動。

環境復雜性(即智能體的狀態和行動空間的大小)可以指環境的狀態空間中可用的狀態數量,以及該環境中智能體可用的行動方案數量。RL算法的可擴展性是指在足夠復雜的狀態和行動空間中,在合理的時間和計算能力內計算最優策略的能力。環境的復雜性還包括納入額外的智能體(例如,擴展到MAS),其中狀態空間被放大以考慮到額外的智能體,而行動空間的大小被乘以該之智能體的數量。

通過使用狀態-動作對的表格來解決RL的可擴展性問題是不實際的,因為連續的領域會使表格無法維持,而且在合理的時間內同時更新所有智能體的表格條目是不可行的。即使有足夠大的計算資源(如過多的計算機內存)來包含所有的狀態,在每個狀態-動作對之間的學習也會太慢。與利用表格跟蹤狀態-動作對相反,一個解決方案是使用非參數函數近似器(例如,權重為參數的深度神經網絡)來近似整個狀態空間的值。然而,函數近似器必須是可微分的,這樣就可以計算出一個梯度,以提供參數調整的方向。

有兩種方法來訓練值函數近似器:1)增量方法和2)批量方法。增量方法使用隨機梯度,在梯度方向上調整近似器的參數,使估計值和目標值之間的誤差最小。然而,增量方法的樣本效率不高,因此不具備可擴展性。相比之下,批量處理方法從一組經驗中保存數據,并使用它們來計算函數近似值估計和目標值之間的誤差。批量方法與傳統的監督學習有共同之處,即結果是已知的(例如,數據被標記),計算近似值的估計值和實際結果值之間的誤差。這種類型的批量學習通常被稱為經驗重放。重復這個過程將導致最小平方誤差的解決方案。最近一個成功的經驗重放的例子是用深度Q網絡(DQN)玩雅達利游戲演示的。盡管函數近似法在復雜的環境中顯示出了成功,但如果不考慮額外智能體的加入(即非平穩性或部分可觀察性),單靠這種方法不太可能足以訓練出MDO場景的MAS。

與價值函數近似法相比,策略學習方法依靠策略梯度(PG)的計算來明確優化策略,而不是間接依靠價值函數。與函數近似方法相比,PG具有更好的收斂特性。PG方法比價值近似方法更受歡迎的主要原因是它們能夠在高維和連續的行動空間中有效(即在復雜環境中可擴展)。在蒙特卡洛(MC)策略梯度(例如REINFORCE算法)中,實際回報(選擇行動)與一個分數函數相乘,以計算梯度。該梯度被用于策略調整(通過改變參數值)以找到最大的回報行動。MC策略梯度具有高方差,收斂速度慢,因為它使用智能體的狀態-行動對在不同時間的整個軌跡來獲得一個返回值。另一種可能超越傳統函數近似方法缺點的解決方案是利用 "演員評論"方法。

在演員-評論家方法中,PG方程被修改為使用價值函數的近似值,而不是使用真實的行動-價值函數乘以分數(如REINFORCE算法)。這表明行為者按照評論者所指向的方向調整策略,以便使總的累積獎勵能夠達到最大。評論者的這一策略評估步驟可以通過使用組合值近似方法(即MC、時差-TD(0)和TD(λ))來完成。為了減少策略梯度的差異,可以使用一個優勢函數。優勢函數告訴我們,與一般的狀態值函數相比,一個行動比另一個行動(Q值)好多少。這意味著評論者必須估計Q值。一個有效的方法是使用TD-error,它是優勢函數的無偏樣本,評論者對一組參數進行近似。TD(λ)資格跟蹤也可用于評論者估計不同時間步長的值。有趣的是,MC(高方差)和TD方法可以與行為人一起使用,隨著時間的推移(即收集的經驗)修改策略。

由于MDO涉及軍事任務,RL算法必須有能力與許多其他智能體協調,以實現最佳的戰略機動,因此MAS的算法必須能夠與大量的智能體和異質資產一起擴展。算法的另一個重要能力是處理復雜狀態空間(即許多智能體)和多領域環境的大量觀察能力。在接下來的章節中,我們將討論在MDO中使用不同種類的RL算法對戰略機動的影響。

無模型算法可分為非策略性和策略性算法,其中狀態行動空間可以是連續的或離散的。在這一節中,討論了無模型算法的優勢和劣勢,以及它們如何與戰略機動相一致,從而實現MDO的目標。這一分析的目的是為尋找在MDO環境中實現戰略機動性的潛在算法方法提供方向。

4.1 深度Q網絡(DQN)

深度Q網絡(DQN)是一種單一的RL智能體算法,它被訓練用來玩行動空間離散、狀態空間連續的Atari 2600游戲。DQN使用一個用Q-learning訓練的卷積神經網絡,從高維輸入(連續圖像)中學習。

DQN算法是一種有效的樣本方法,因為它利用所有收集到的經驗來提取盡可能多的信息。DQN足夠強大,可以使用相同的超參數進行訓練,玩六種不同的Atari游戲,其中智能體在其中三個游戲中的表現比人類專家更好。

然而,DQN的一個缺點是,在理論上不能保證訓練好的神經網絡實現穩定的Q值預測(即在不同的獨立模型中,訓練好的策略可能會有很大的差異)。

鑒于DQN本質上是一個單一的RL智能體模型,它應該不足以在MDO中進行戰略機動。在MDO中,多智能體RL算法可能更適合,因為智能體在執行時間內典型的分散化,允許智能體彼此獨立運作。此外,DQN的原始實現只利用了四個觀察序列來學習Q值,這對于MDO中的戰略機動來說是不夠的。多個資產的戰略機動通常不能在如此短的時間間隔內被捕獲。事實上,這是DQN在評估的三個Atari游戲(即Q*bert、Seaquest和Space Invaders)中與人類相比表現不好的主要原因。然而,存在一些DQN的變體來解決這個問題和其他弱點。

Bootstrap DQN就是這樣一個變體,它學習了一個Q網絡的集合,以提高采樣效率,并克服了傳統DQN的不足之處。行動消除是另一種與DQN一起使用的方法,以解決大的行動空間。帶有記憶類型的DQN(即循環神經網絡)也可以用來處理部分可觀察性。如果一個智能體需要為完成任務而導航環境,這種方法就特別有用。另外,分布式DQN返回一個分布信息,可用于評估策略風險和減少最佳解決方案周圍的方差或噪音。

盡管DQN及其修改后的變體在處理比簡單的Atari游戲更復雜的任務方面很有前途,但DQN方法本質上缺乏一個多智能體預測機制來進行協作戰術,而這是MDO中戰略機動的需要。此外,DQN在大多數情況下計算量太大,無法用于軍事相關環境。最后,DQN算法方法對未見過的例子(例如,伙伴的新行為或環境中出現的實體/障礙)缺乏足夠的適應性。

4.2 深度確定性策略梯度(DDPG)

在現實世界中,大多數常規任務涉及連續狀態和行動空間。然而,DQN只考慮離散的狀態空間和低維的行動空間。處理連續狀態和行動空間的DQN的另一種方法是深度確定型策略梯度(DDPG)方法。DDPG通過結合價值函數近似和確定性策略梯度(DPG),推進了DQN方法的進展。DDPG利用行為批判的方法,可以克服連續空間的復雜性。這種無模式、非策略預測和控制算法可以執行物理控制任務(如車桿、靈巧的操縱、腿部運動或汽車駕駛)。

另一種使用深度神經網絡的方法是信任區域策略優化(TRPO)。這種方法直接構建一個隨機策略,而不需要演員-評論者模型(不要與環境模型混淆,這將使其成為一種基于模型的方法)。與TRPO類似,引導式策略搜索(GPS)不需要角色評論模型,而是使用軌跡引導的監督式策略學習以及一些額外的技術(例如,減少視覺特征的維度,在網絡的第一層增加機器人配置動態的信息)。因此,GPS的數據效率很高,如果需要的話,可以改編成DDPG。另一方面,PILCO首先學習一個概率模型,然后找到一個最佳策略。PILCO在某些問題領域具有很高的數據效率;然而,它的計算量很大。此外,D4PG對DDPG算法提出了一些改進:分布式評論者更新、分布式并行演員、N步返回和經驗重放的優先級,以實現對不同類別任務的更穩定和更好的解決方案。

從戰略機動的角度來看,DDPG算法的主要缺點是它被設計成一個完全分散的單一智能體算法(即獨立學習者)。因此,DDPG算法不便于在多智能體場景中進行協作。因此,使用DDPG所產生的戰略機動將不會產生協作的團隊行為。此外,DDPG不具備處理基于角色的多目標任務的能力,而這是軍事行動中戰略機動的要求。

4.3 多智能體深度確定性策略梯度(MADDPG)

RL智能體互動對于戰略機動的人工智能系統至關重要,不同的智能體可能需要組成團隊來抑制對手的戰略合作或抑制對手的協調。Q-Learning和PG方法分別受到非平穩性和高方差的影響。為了克服這些問題,多智能體深度確定性策略梯度(MADDPG)算法擴展了一個演員評論家方法,這使得它可以通過集中智能體訓練而對多智能體系統發揮作用。MADDPG框架采用集中式評論家家進行訓練,并在測試期間部署分散的演員。一個評論者(每個智能體都有一個)接收每個智能體的策略,這允許開發具有潛在不同獎勵功能的依賴性策略(例如,MADDPG允許訓練具有相反獎勵功能的對抗性團隊)。相反,演員(即策略網絡)在訓練和測試期間只擁有本地知識。演員(通過訓練)在與評論者評價一致的方向上反復改進策略。

MADDPG的一個主要弱點是,對Q函數的輸入隨著環境中智能體數量的增加而增加(不可擴展)。這給MDO中的戰略機動性帶來了問題。如果智能體需要被替換、添加、修改或移除,可能需要進行再訓練。在戰略機動中,智能體可能需要定期轉換角色或改變能力,這對MADDPG適應軍事領域構成了重大挑戰。此外,頻繁的再訓練將使快速戰略機動變得不可能。縮短訓練時間將減少邊緣的計算負荷,使快速戰略機動成為可能。MADDPG不能適應這種極端情況。對于軍事應用,希望有一個強大的對手或智能體模型,以便使作戰時間最大化(即有足夠的時間來執行戰略機動)。

為解決其可擴展性問題,對MADDPG的一個潛在修改是形成智能體集群,為集群而不是每個智能體單獨學習一個策略。在發生新事件的情況下,可以推遲重新訓練的需要,因為從理論上講,一個智能體集群將有一套處理動態情況的可變能力。此外,這將避免隨著智能體的修改或新智能體的引入而增加Q函數的輸入空間。然而,問題來了。我們怎樣才能將一個任務分解成部分獨立的子任務,并使最優分組策略的退化程度最小?

雖然MADDPG可以形成一組異質的多智能體策略,能夠完成不同的任務,但這種方法不能很好地擴展到十幾個智能體。隨著智能體數量的增加,策略梯度的方差會呈指數級增長。因此,這種方法不太適合MDO中的戰略機動,在這種情況下,必須考慮到40多個異質智能體的對抗情況。克服這一可擴展性問題的方法是均值場多智能體RL算法,該算法計算鄰近智能體Q值的均值估計,當智能體之間的鄰近互動變得復雜時,可能導致高誤差率。此外,進化種群課程算法的設計是為了通過將遺傳算法方法與RL相結合,使MADDPG具有可擴展性。隨著MADDPG的進步和該方法所顯示的成功,可以想象這些算法的進步會導致在模擬實驗中對MDO內的戰略機動性進行強有力的演示。

與MADDPG不同的是,反事實多智能體(COMA)方法對所有智能體使用一個集中的評論家,但被設計用于離散的行動空間。COMA比MADDPG更具可擴展性,但它可能導致一套同質的策略,在智能體能力充分不同、局部目標不同或獎勵函數不同的情況下可能失敗。與MADDPG類似,Minmax多智能體DDPG(M3DDPG)比MADDPG的原始版本增加了一項改進,允許智能體制定更穩健的策略來對抗對手(即具有對立獎勵結構的競爭游戲)。然而,M3DDPG仍然無法處理異質智能體被引入系統的情況。

在具有連續狀態和行動空間的環境中實施算法,有時需要利用常見的技術來操作輸入或輸出,如離散化狀態和行動空間或將離散的策略輸出轉換為連續輸出。轉換策略輸出的一個例子是OpenAI多智能體粒子環境中MADDPG的實現。在這個例子中,離散的策略組件被用來計算連續的行動。從另一個角度來看,多智能體轉化器軟雙Q學習算法將連續行動空間離散為一組速度和角速度控制,然后可以在運動模型中使用。盡管這些技術允許在連續環境中使用這種算法,但這些算法方法沒有用連續信息進行訓練,這可能會限制它們在物理環境中進行戰略機動的功效。

4.4 價值為本

最近的一個基于價值的MARL算法系列在非常復雜的《星際爭霸2》模擬環境中被證明是相當成功的,其中根據智能體的本地Qa值學習了一個集中的聯合行動值Qtot。然后通過線性argmax算子從Qa中提取一個分散的策略。這種非常簡單而有效的分解方法避免了學習聯合行動值,而聯合行動值的規模并不大。如果增加新的智能體或用新的能力替換智能體,仍需進行再訓練。然而,與MADDPG相比,它更具有可擴展性,因為單個Q值僅從局部觀察中學習,避免了通過學習因子化的Qtot來學習聯合行動值。但是,當有超過40個智能體時,這個系列的算法的可擴展性可能會受到挑戰。為了使其更具可擴展性,已經提出了基于角色的算法RODE,其中智能體的角色是根據他們對環境的影響對他們的行動進行聚類來確定。該算法對于大量的智能體顯示了非常有希望的結果。

對于戰略機動,RODE算法是非常有前途的,因為各組智能體可以被分配到不同的角色,其中角色可以基于他們的行動和對環境的影響或任何其他固定的行為(對于盟友或甚至敵人)。然后,該算法可用于不同群體的戰略角色轉換。由于不同角色的行動空間受到限制,該算法收斂得非常快。這種算法也適合于基于角色的技術的戰略使用,這可能會在未來的工作中進行研究。即使RODE是非常可擴展的,我們也不清楚當新的智能體將被添加到環境中時如何調整它;需要學習一個集中的策略以實現最佳協作。

與RODE算法相比,一種可擴展的多智能體強化學習方法部署了一種熵-規則化的非策略方法來學習隨機價值函數策略,實驗表明它能夠擴展到1000多個智能體。如前所述,可擴展的RL算法關注環境的復雜性--系統或團隊中的智能體越多,狀態空間越大。RODE是有限的,因為它使用一個集中的策略,當更多的智能體被引入到環境中時必須重新訓練。多智能體轉化器軟雙Q學習算法是一種集中訓練的非策略學習算法(即共享一個中央經驗重放緩沖器),其執行是分布式的(即每個智能體根據其本地觀察做出自己的控制決定),而不是來自中央控制器。由于這種分布式的方案,當智能體被添加或從系統中移除時,團隊不受影響,繼續執行他們的策略。

在可擴展性方面,訓練大型MAS(即許多智能體)是很困難的,而且已經表明,即使是最先進的算法也不能為復雜的MARL任務學習到高性能的策略。多智能體變換器軟雙Q學習通過在訓練期間利用啟發式方法緩解了這一可擴展性問題,該方法允許在較小的智能體集合上訓練策略(例如,在目標追蹤場景中,四個智能體追蹤四個目標),并且該策略已被證明可以在執行中與更多的智能體一起工作而不需要任何調整(即用1000個智能體測試和評估)。訓練和執行過程中使用的啟發式方法使算法能夠解決智能體數量的巨大分布變化:它基本上將測試時的大型復雜觀察空間縮減為接近智能體策略最初訓練的內容。從軍事角度看,這種提法是戰略機動的理想選擇,因為現場的智能體可能會在原地丟失或獲得,可能要考慮額外的戰略信息。一個靈活和可擴展的算法提供了MDO中所需要的能力。

5. 洞察力和結論

由于一些因素,包括科技進步,美國的對手正在變得更加先進。在未來的MAS自主戰爭中,協作的戰略機動可以為國防軍帶來某些優勢。在這篇文章中,我們討論了一些最突出的RL算法,以發現訓練MAS的可行候選策略,這些MAS可以有效地進行戰略機動,從而在未來潛在的軍事行動中打開機會之窗。本文描述了RL方法的分類法,并對最突出的RL算法進行了概述。研究發現,由于訓練和測試因素的不同,大多數RL算法缺乏處理與未來潛在沖突相關的復雜性的能力。

DEVCOM ARL ERPs為開發和實施智能MAS提供了一個規劃性的路徑。鑒于陸軍研究項目為美國國防行動提供了關鍵研究問題的答案,AIMM和EOT ERPs特別促成了研究,可以為協作的自主MAS提供一個路徑,可以克服與1)環境,2)對手戰術和能力,3)自身能力(即,獲得新的能力,失去以前的能力,或能力被改變),4)團隊組成(例如,增加、刪除或交換隊友),5)戰略團隊定位、進入、導航(機動)以支持部隊并壓倒對手,以及6)任務目標。最近,AIMM和EOT ERP在這一領域的工作闡明了衡量MAS協調性的方法,并允許開發一個框架來訓練和測試執行各種任務的MAS的協調性,此外還評估了利用一系列集中訓練技術的新算法方法。

此外,還需要進行更多的調查,以闡明有利于在ISTAR任務和其他交戰場景中利用MAS的軍事戰略。在淺顯的情況下,將完全自主的MAS送入高風險情況(即預期因果率高的情況)是可取的;然而,由于目前的技術限制,僅僅期望MAS能夠在沒有人類監督或干預的情況下完成任務是不夠的。因此,在未來的工作中,將進行研究以確定一套強有力的交戰方案。最后,這項工作將導致自主MAS的最終整合,以便在未來的軍事行動中盡可能地協調戰略機動。

付費5元查看完整內容

概述

2019 年的項目提案征集產生了 10 個項目,共包含 15 個研究工作流。這些項目涉及 140 多名教職員工、研究人員和學生,他們隸屬于麻省理工學院校園和麻省理工學院林肯實驗室的 20 多個不同的組織單位。所有項目團隊都涉及空軍人員,他們嵌入研究團隊并充當項目與國防部利益相關者之間的聯絡人。這些項目于 2020 年 1 月開始,推進了廣泛領域的人工智能研究,包括天氣建模和可視化、培訓計劃優化以及增強自主性以增強和放大人類決策。人工智能加速器的研究活動已成功擴展,包括與海軍研究生院和美國太空部隊合作的種子研究項目,以及于 2021 年 1 月啟動的人工智能教育研究項目。總共11個項目 。

1 安全決策的監護人自主性

Guardian Autonomy for Safe Decision Making

Air Guardian 旨在通過開發用于增強和放大人類決策的算法和工具來推進人工智能和自主性。AI Guardian 通過使用過去的數據建議行動并融合來自傳感器和信息源的輸入來幫助人類。AI Guardian 系統的支持在出現意外和復雜情況時特別有用。Guardian 的端到端機器學習算法向專家學習如何在高度動態和令人驚訝的情況下以常識推理做出反應。我們的目標是使代理能夠感知其環境,識別短期風險,對其操作員以及其他合作和對抗代理的意圖和行為進行推理,以確定最佳行動方案。

2 通過虛擬現實和增強現實轉移多機器人學習以實現快速災難響應

該項目旨在開發一種新的框架和算法類別,使無人機系統能夠在模擬器環境中學習復雜的多智能體行為,然后將其知識從模擬無縫轉移到現實世界的現場環境中。該團隊設想了一個急救系統,在該系統中,一群自動駕駛飛機接受了虛擬訓練,了解如何在新的災區模擬中導航和合作。然后,系統將在模擬中獲得的學習轉移到真正的自主飛機群中。一架飛機部署了一個大型“母艦”地面站,該地面站釋放這些訓練有素的自主飛機,以自動執行時間緊迫、勞動密集型的任務,例如勘測災區以及定位和識別幸存者。

3 合成孔徑雷達的多模態視覺

合成孔徑雷達 (SAR) 是一種能夠產生高分辨率景觀圖像的雷達成像技術。由于能夠在所有天氣和光照條件下生成圖像,與光學系統相比,SAR 成像在人道主義援助和救災 (HADR) 任務中具有優勢。該項目旨在通過利用來自相關模式(例如,EO/IR、LiDAR、MODIS)、模擬數據和基于物理的模型的補充信息,提高 SAR 圖像的人類可解釋性、SAR 目標檢測和自動目標識別 (ATR) 的性能. 項目結果和產生的技術將在整個政府企業中共享,以便在 HADR 問題空間中受益,跨服務的多個合作伙伴可能能夠利用已開發的技術。

4 人工智能輔助優化訓練計劃

為了改善人工調度飛機航班的極其復雜和耗時的過程,該項目旨在實現飛機航班調度的自動化,以提高調度效率和在存在不確定性的情況下的魯棒性。這將優化培訓飛行計劃,同時提供可解釋性并消除決策中的孤島。該技術使調度人員能夠在快速變化的環境中快速有效地重新構建調度,從而大大加快計劃和決策周期。雖然最初專注于飛機航班調度,但該技術適用于許多部門的所有復雜資源分配任務。

5 快速人工智能:數據中心和邊緣計算

5.1 快速人工智能:快速開發便攜式高性能人工智能應用

大量標記數據、新算法和計算機性能的可用性使人工智能革命成為可能。但漫長的計算機在環開發周期阻礙了人類發明和部署創造性的人工智能解決方案。此外,摩爾的終結削弱了半導體技術提供性能的歷史能力。AI 性能越來越依賴于硬件架構、軟件和算法。Fast AI 項目專注于為快速構建 AI 解決方案奠定基礎,在現代和傳統硬件平臺上實現性能和可移植性。我們在編程語言、編譯器技術、綜合儀器、分析生產力工具和并行算法等領域進行創新。

5.2 ML 增強的數據收集、集成和異常值檢測

人工智能技術成功的核心要求是高質量的數據。讓系統做好“AI 就緒”的準備工作包括收集和解析原始數據以供后續攝取、掃描、查詢和分析。該項目將開發 ML 增強數據庫技術,以降低存儲和處理成本,同時實現各種數據庫孤島之間的數據共享。此外,我們將開發一個異常值檢測引擎來識別來自多個來源的復雜事件流中的時間異常。

6 非結構化信息訪問和語言學習的會話交互

6.1 非結構化信息訪問的對話交互

AI Accelerator 自然語言處理項目旨在推進平面/文本圖像數據和空軍任務中的會話代理、知識表示和預測算法。隨著人工智能領域的進步,隨著我們在數據中記錄更多的工作,并在我們的家中找到更多的設備,人們能夠以有意義的方式與技術交互至關重要——就像人類一樣,語言很重要——尤其是在發現關于數字系統的信息。目標是通過對話交互和知識提取來推進人工智能社區,以進行開放域對話和非結構化信息。

6.2 人工智能個性化外語教育

AI加速器自然語言處理外語項目專注于構建個性化的外語教育框架,其中包括要獲得的語言知識模型。這項工作利用當前的外語,根據學習者在課程作業各個階段的預期知識水平量身定制,并制定標準化的能力測試措施。該模型將有助于個性化學習體驗,并闡明學習結果何時和/或何處對學生不利。

7 地球情報引擎

7.1 地球情報引擎

用于天氣和氣候的地球情報 (EI) 引擎包括一個新穎的 AI 測試平臺,以支持美國空軍的快速、有效決策和長期戰略規劃和運營。人工智能的進步有助于縮小人工智能研究人員與可用地球系統數據之間的差距,通過一個連接數據和模型的平臺、新穎的算法和圖像填補任務,將低質量的天氣和氣候數據集與高質量的天氣和氣候數據集聯系起來。EI引擎將為美國空軍提供改進的異常檢測算法;對集中式地球情報數據的關鍵遠程訪問;用于任務支持的地球智能的直觀超級計算機可視化;改進任務行動的臨近預報天氣預報;以及受氣候變化影響的戰略位置識別,以加強資源配置。

7.2 可解釋的機器學習

盡管機器學習模型的性能令人難以置信,但它們仍然難以理解——我們不明白它們是如何或為什么得出結論的。因此,我們不可能對模型的決策充滿信心,并在它們出現故障時對其進行調試。這種“黑盒”性質限制了我們部署和節約維護機器學習系統的能力,尤其是在高風險的環境中。該項目以全新的思維方式處理機器學習的可解釋性:將機器學習和人機交互方法相結合,使實際用戶的可操作性成為主要目標。目標是確定可解釋機器學習的標準,從而能夠開發具有與人類和任務一致的數據表示和決策界面的模型。

7.3 持續和少量學習

人工智能技術已被證明在許多關鍵應用中非常成功,例如對象識別、語音識別等。然而,這些成功依賴于收集大量數據集和仔細的手動注釋。這個過程成本高、耗時長,而且在很多情況下,沒有足夠的數據可用。遷移學習通過利用機器看到的過去數據僅使用少數帶注釋的示例來解決未來問題,從而為這些問題提供了解決方案。這項研究側重于遷移學習中的挑戰,旨在開發可以從根本上從多個異構任務中學習的算法,超越低級任務相似性,以實現跨不同任務的更廣泛遷移。此類算法將在包括計算機視覺和自然語言處理在內的多個領域具有普遍適用性,并將大大減少對大量注釋數據的依賴,從而降低部署和維護人工智能系統的成本和時間。

7.4 強大的人工智能開發環境

人工智能和機器學習 (ML) 方法已為美國空軍展示了巨大的前景。然而,當數據輸入或任務目標與算法訓練期間遇到的目標發生變化時,許多現有的 ML 算法通常會發生災難性的失敗。這種缺乏可靠性以及現代 ML 技術的不透明性使得無法在關鍵任務環境中自信地部署機器學習系統。此外,模型無法適應不斷變化的環境,這意味著每當環境發生變化時都需要(通常是昂貴且困難的)模型重新調整。本研究將側重于以魯棒性為中心的方法來開發 ML 算法。強大的 AI 開發環境 (RAIDEN) 優先考慮 ML 的可靠性、多功能性和適應性。我們努力提供的模型、框架和算法將簡化真正可靠和高效的機器學習系統的部署。

8 使用生理和認知指標進行客觀性能預測和優化

該項目匯集了生物醫學儀器、信號處理、神經生理學、心理物理學、計算機視覺、人工智能 (AI) 和機器學習 (ML) 方面的專家以及空軍飛行員,以開發和測試基于人工智能的多模式用于客觀性能預測和優化的生理傳感器融合方法。該項目將利用身臨其境的虛擬環境來訓練飛行員并不引人注目地測量性能預測指標。從該計劃開發的一系列挑戰數據集將用于參與社區。該團隊與多個政府研究工作以及空中教育和培訓司令部的無數飛行員培訓單位合作,尋求通過明顯加快飛行員培訓時間表來提供概念驗證,從而更快地培養“更好的飛行員”。

9 用于導航及其他領域的魯棒神經微分模型

國防部和民用部門正在研究幾種不同的 GPS 替代方案,以解決 GPS 替代方案;但是,每種替代方案都會帶來額外的成本和用例。磁導航提出了一種替代 GPS 系統,該系統依賴于地球的磁共振——一個眾所周知且不變的系統——進行導航。磁導航當前的一些問題涉及 1) 減少系統上的多余噪聲,例如飛機本身的磁輸出,2) 以與軍事系統一致的實時速度或速度確定位置,以及 3) 與其他系統相結合系統來展示一個完全替代的 GPS 系統。目前的項目著眼于使用魯棒的神經微分模型來解決磁導航的缺點并提供 GPS 的可行替代方案。

10 人工智能增強的光譜感知和干擾抑制

該項目旨在應用人??工智能來增強美國空軍檢測、識別和地理定位未知射頻 (RF) 信號的能力,同時提供自適應干擾緩解和智能頻譜分析工具。這些能力增強了空軍情報監視和偵察 (ISR) 任務、通信、信號情報 (SIGINT) 和電子戰。結果將提高帶寬利用效率和頻譜共享,提高空軍在高干擾環境中的通信性能,產生更高質量的射頻信號情報,并提高系統對對抗性攻擊和干擾的魯棒性。

11 AI 教育研究:Know-Apply-Lead (KAL)

KAL 是一個探索性研究項目,旨在推進教育研究活動,為具有不同角色和教育背景的學習者(從空軍和國防部 (DoD) 人員到公眾)大規模促進最大的學習成果。項目團隊將研究和評估與在各種現有課程中培訓空軍人員人工智能主題相關的各種教學實踐和學習效益,繪制教育需求和能力的格局,并試點實驗學習經驗,目標是盡早概述用于創新技術支持的培訓和學習的原型。

付費5元查看完整內容
北京阿比特科技有限公司