在本報告中,我們記錄了機器學習(ML)回歸在周期性、高度振蕩和??∞函數上的可擴展性和靈敏度。這項工作的動機是需要在潮汐傳播等周期性問題上使用 ML 回歸。在這項工作中,TensorFlow 被用來研究周期函數從一維到三維的機器可擴展性。針對一系列層、神經元和學習率,計算了每個維度的掛鐘時間,以進一步研究 ML 回歸對這些參數的敏感性。最后,比較了隨機梯度下降和 Adam 優化器的掛鐘時間和敏感性。
本論文旨在利用深度學習技術提高從二維目標圖像中估計目標姿態的能力。為此,我們采用了一種名為高分辨率網絡(High-Resolution Net)的尖端卷積神經網絡來訓練關鍵點檢測模型并評估其性能。實驗使用了兩個不同的數據集,包括 600,000 張合成圖像和 77,077 張高能激光束控制研究試驗臺(HBCRT)圖像。這些圖像來自六種不同的無人駕駛飛行器,用于訓練和評估目的,高分辨率網在 80% 的圖像上進行訓練,在其余 20% 的圖像上進行測試。運行高分辨率網絡時使用了 MMPose 框架,這是一個 Python 庫,其中包含多種卷積神經網絡選項。研究結果表明,High-Resolution Net 在姿勢估計方面表現良好,但由于目標形狀的對稱性,在左右反轉方面仍存在明顯差距。這項研究為今后利用高分辨率網絡進行目標姿態估計研究奠定了基礎。進一步的研究將集中式提高圖書館中左右分辨的準確性,以增強這些成果。
本論文分為五章。第一章是引言,介紹了本課題的概況及其相關性,以及如何進行實驗。第二章是文獻綜述,通過相關的學術和行業資料更詳細地介紹了這一研究領域。第三章是問題的提出和方法,介紹了將要解決的問題和解決問題的方法。第四章是模擬結果和深度學習性能評估,對結果進行評估,看是否取得了有意義的進展。第五章是結論,從更廣闊的視角看待結果,并討論未來工作的可能性。
本報告描述了Draper團隊作為DARPA能力感知機器學習(CAML)項目的一部分,根據HR0011-20-C-0032號合同所開展的研究。Draper與分包商UT Austin、ASU和CU Boulder合作,開發了ALPACA(能力感知的概率和抽象自主學習),這是一個能力感知自主智能體的一般框架,特別是那些基于強化學習(RL)的智能體。ALPACA提供了對RL智能體能力的洞察力,并使用戶能夠檢查和約束智能體行為,促進與人類隊友建立信任,并極大地提高現實世界應用的安全性。
一個支持ALPACA的自主智能體可以:
ALPACA通過兩種方式進行能力交流:
1.一般能力聲明描述了以前觀察到的智能體的策略、性能和行為狀況。
2.具體的能力評估預測智能體在特定場景下的策略和表現,包括任務前和在線的情況。這些評估對用戶的興趣有反應,可以解決新的場景,并且可以在線更新。
為了實現DARPA CAML計劃的目標,Draper ALPACA團隊開發了以下關鍵技術進展:
Draper ALPACA團隊在兩個基于模擬的RL應用系統上研究、演示和評估了這些進展:推土機機器人操縱任務和多變天氣下的無人機飛行任務。內部和第三方的核查和驗證表明,該團隊能夠實現DARPA為CAML項目制定的所有目標指標。
盡管人們對聯邦學習和貝葉斯神經網絡進行了研究,但對貝葉斯網絡的聯邦學習的實現卻很少。在本論文中,使用公共代碼庫Flower開發了一個貝葉斯神經網絡的聯邦學習訓練環境。隨之而來的是對最先進的架構、殘差網絡和貝葉斯版本的探索。然后用獨立同分布(IID)數據集和從Dirichlet分布得到的非IID數據集測試這些架構。結果顯示,貝葉斯神經網絡的MC Dropout版本可以通過聯邦學習對CIFAR10數據集的IID分區取得最先進的結果--91%的準確性。當分區為非IID時,通過概率權重的反方差聚合的聯邦學習與它的確定性對應物一樣好,大約有83%的準確性。這表明貝葉斯神經網絡也可以進行聯邦學習并取得最先進的結果。
使用FL是一個在邊緣采用人工智能的機會,并減少收集大量數據集的需要。這將極大地幫助海軍在艦隊中部署和訓練AI模型的工作。例如,通過傳統的人工智能管道,為海軍創建一個人工智能模型將需要每個指揮部合作創建一個全球數據集,無論是被動聲納還是網絡流量分析、維護或人力資源。這是一項非常昂貴和耗時的任務,隨著新數據的出現,在完成時可能已經過時了。然而,FL提供了一種方法,讓每個指揮部在他們本地的、當前的數據上訓練和部署一個模型,并將他們的模型與另一個指揮部的人工智能模型匯總。由于只傳遞模型的權重而不是整個數據集,所以通信成本也是最小的。雖然FL提出了一種在邊緣部署和訓練人工智能模型的方法,但貝葉斯網絡是一種不僅能提供預測,而且能對其評估的不確定性進行估計的模型。士兵在不確定的環境中工作,知道部署的人工智能模型何時對其預測不確定,可以防止人工智能和戰士的過度自信。這一特點可以極大地幫助人工智能-士兵團隊以更高的效率水平運作。將FL的分布式和持續學習特性以及貝葉斯NN的不確定性這兩個方面結合起來,將是海軍在各種應用中的巨大優勢,如網絡流量分析、合成孔徑雷達或無人機圖像分析,或無源聲納分析。
為了證明這一點,開發了一個FL框架來比較貝葉斯NN和它們的確定性對應物,并在本論文中分析了它們的結果。本論文的主要貢獻是在一個已知的數據集CIFAR10[2]上對這個框架進行了基準測試,以比較結果。該數據集在FL研究中被充分研究[3]-[6]。使用的人工智能模型架構是殘差網絡(ResNet)[7]。它是一個最先進的神經網絡架構,為CIFAR10數據集設定了一個基線。這使得貝葉斯ResNets可以在集中式和FL設置中與原始的最先進結果進行比較。本論文打算回答的主要問題有以下幾個:
本項目的目標是提高具有智能體間通信基礎設施的多智能體分布式任務協調的效率。在這個項目的第一階段,我們探索了基于共識的捆綁算法(CBBA)在預算約束下的分布式任務分配的改進。CBBA技術的局限性在于,環境必須被所有的智能體預先知道,任務必須被明確定義,并有已知的成本和獎勵。這種技術顯然不適合在未知環境中的合作任務,在這種環境中,智能體必須一起探索和即興行動。在這個項目的第二階段,我們研究了在未知環境中執行任務的合作技術,其中智能體只有部分觀察。該研究使用多智能體捕食者和獵物游戲作為平臺。目標是讓智能體聯合定位并捕獲獵物。智能體對環境和獵物的逃逸算法沒有事先了解。他們相互交流,以獲得超出他們自己本地觀察范圍的環境信息。基于他們對環境的局部理解,智能體選擇自己的行動,包括在哪里移動以及是否與其他智能體溝通,以使團隊獎勵最大化。強化學習被應用于優化智能體的政策,以便用最少的步驟完成游戲。
第二階段研究的主要貢獻是信仰圖譜輔助的多智能體系統(BAMS)。信念圖代表了智能體在融合了傳入的信息后所保持的環境的隱藏狀態。通過將信仰圖譜與強化學習框架相結合,并向信仰圖譜提供反饋,我們加速了訓練并提高了系統可以獲得的獎勵。在不同復雜程度的環境中,使用合作的捕食者和獵物游戲對BAMS的性能進行了評估。與現有的具有信息傳遞能力的多智能體模型相比,BAMS具有以下優點。
1)訓練收斂速度快68%,使用BAMS模型訓練的智能體完成游戲的步驟少27.5%。
2)它具有強大的性能。在應用模式中,智能體的數量不必與訓練環境相同。
3)智能體之間的信息是加密的。BAMS中的信息是智能體對環境信念的學習表示的向量。它們不僅包含關于智能體和環境的當前狀態的信息,而且還包含未來的狀態。每個數字都與智能體或環境的任何物理屬性沒有對應關系。除非有經過訓練的BAMS模型,否則不可能解碼這些信息。
4)智能體在訓練中達成默契。從實驗結果來看,使用BAMS訓練的智能體似乎不需要明確的交流就能理解對方的意圖。
最近在無監督表示學習方面的進展導致了許多廣泛使用的人工智能工具,如ChatGPT和穩定擴散。這些工具是將相對簡單的訓練算法應用于大規模GPU集群上的大規模模型,甚至是大量未標記的訓練數據,以及在大量標記的評估任務上調整算法的結果。在這篇論文中,我們提出了一些方法來解決在訓練模型進行表示學習時去除這些組件的問題,即有限的計算量、有限的訓練數據和有限的評估數據。本文主要分為四章,重點研究數據和標簽高效的表示學習。
數據高效表示學習的重點是用較少的數據(有標記或無標記)學習有用的表示,這在本文中討論過,對于數據可用性有限的應用特別重要。標記高效表示學習專注于在訓練數據很少或沒有人工標注的情況下學習有用的表示。正如將要討論的,這對于通常很難或不可能獲得準確標記數據的應用程序很重要,例如在隱私敏感領域或具有高度模糊的標簽定義的應用程序。
(1)自增強:用于自監督學習的自動增強策略,探索了如何在很少/沒有標記訓練數據和少量無標記數據的情況下為無監督學習管道開發增強策略。(2)數據高效的自監督表示學習,探索了如何利用一種形式的分層預訓練進行數據高效80倍的預訓練。(3)區域相似性表示學習,通過在區域(基于塊的)水平上進行對比學習,探索了學習區域級表示的首批方法之一,并在標記數據很少的情況下,對目標檢測/分割等下游任務進行了實質性的改進。(4) scale - mae:一種面向多尺度地理空間表示學習的尺度感知掩碼自編碼器,探索了利用已知尺度信息進行地理空間表示學習的方法。
這項研究的主要目標是創建并嚴格評估一個純粹的神經計算機器人系統,該系統使用因果推斷來學習從人類演示中執行檢查和維護任務。我們的重點是制作一個能夠從單一示范中學習執行和概括任務的系統,就像人一樣。我們的目標系統是一個類似于CERIL的神經網絡實現,CERIL是一個因果推理系統,在機器人學習過程中為演示者的行為構建合理的解釋假設,我們以前使用傳統的符號人工智能軟件來實現。為了實現這一具有挑戰性的目標,我們的三個研究目標是:
1.創建一個神經虛擬機(NVM),一個純粹的神經計算平臺,用于實現認知層面的算法。
2.使用并加強NVM來實現一個目標導向的神經系統,用于基于因果關系知識和推理的機器人模仿學習。
3.比較人類受試者在學習與我們的機器人系統相同的程序時的表現,以獲得對模仿學習的更深理解。
本報告是在 FA9453-19-1-0078 資助下編寫的。首先,提出了兩種數值方法來解決通信和導航中產生的非線性優化問題。其次,開發了兩個關于機器學習模型的解決方案質量和安全性的結果。
該研究項目的目標是開發高效的大規模非線性優化算法,以解決通信和導航方面的數據分析問題。這些問題被公認為在數學上具有挑戰性,并與空軍的利益直接相關。
在資助期間,我們成功研究了兩個研究方向。首先,我們設計了大規模非線性優化問題的最佳一階方法。在這個方向上,我們提出了兩個一階方法,可以對決策變量進行近似梯度更新。這兩種方法都可以解決分散通信的多Agent優化所產生的非線性優化問題。通過將多代理優化重新表述為約束性問題,我們開發的方法可以以最佳梯度/操作者評估復雜度來解決問題。我們開發的方法也可用于解決圖像重建問題。
第二,我們分析了機器學習模型中的解決方案質量和安全問題。在這個方向上,我們完成了兩個研究結果。我們的第一個成果是關于在多集群環境下,從二元結果的條件邏輯回歸模型中計算出來的估計值的屬性。我們表明,當每個單獨的數據點被無限次復制時,來自該模型的條件最大似然估計值漸進地接近最大似然估計值。我們的第二個結果是關于安全的矩陣乘法問題,我們設計了一種準確和安全地進行分布式矩陣乘法的方法。我們的安全協議可以確保在進行這種矩陣乘法的通信過程中沒有任何信息被泄露。
這本書提出和調研歸一化技術與深度分析訓練深度神經網絡。此外,作者還提供了針對特定任務設計新的規范化方法和網絡體系結構的技術細節。歸一化方法可以提高深度神經網絡(DNNs)的訓練穩定性、優化效率和泛化能力,已成為大多數先進DNN體系結構的基本組成部分。作者為闡述、理解和應用規范化方法提供了指導方針。這本書是理想的讀者致力于發展新的深度學習算法和/或其應用程序,以解決計算機視覺和機器學習任務中的實際問題。這本書也作為資源的研究人員,工程師,和學生誰是新的領域和需要了解和訓練DNN。
//link.springer.com/book/10.1007/978-3-031-14595-7
在DARPA終身學習機器(L2M)項目下,我們探索了一種自主系統終身學習的綜合方法,解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括:感知和行動的持續學習,不同任務之間的遷移,可擴展的終身知識維護,自主發現的自我導向學習,以及任務的非平穩分布建模。我們分別探索了這些方面,為分類和強化學習設置開發了各種終身學習算法。然后,這些開發的算法通過模塊化框架整合在一起,產生了一個同時支持分類和強化學習任務的L2M系統。
我們使用約翰霍普金斯應用物理實驗室的MiniGrid終身學習基準評估了這個L2M系統的終身學習性能。與單任務專家相比,對于該基準的Condensed和Dispersed場景,我們的結果顯示我們的系統有能力大大加快學習速度,平均前向遷移率為4.18和3.55,平均樣本效率為1.32和1.15。除了效率之外,我們的系統還顯示出比單任務專家更有效的性能,相對性能比為1.04和1.03,正向遷移比為1.12和1.04。
我們還通過使用Matterport 3D的機器人尋寶游戲,將這個L2M系統應用于綜合感知和行動,展示了我們的L2M系統在非結構化環境中快速學習不同任務并快速適應變化的能力。我們的結果顯示,與單任務專家相比,我們的系統學習分類任務的速度和準確性大約是他們的兩倍,顯示出平均相對性能為2.21,平均樣本效率為1.71,同時完全緩解了災難性遺忘。對于該領域的強化學習設置,我們的系統獲得了4.37的平均性能維持率和1.11的平均后向遷移率,這表明我們的終身學習智能體能夠學習新的任務,同時減輕災難性遺忘。我們的系統在利用過去的知識來啟動強化學習任務的學習方面也顯示出強大的潛力,其平均前向遷移率為3.11。然而,經過調整的單一任務專家能夠在單個強化學習任務上勝過我們的系統,我們的系統的平均相對性能比只達到0.88。我們還進行了各種消融實驗和對單個終身學習組件的評估。總體而言,我們的項目產生了110多篇科學出版物,展示了我們的工作和成果,從根本上推進了我們對終身機器學習的理解和能力。作為其中的兩個例子,我們的項目開發了最先進的使用占位預測的視覺導航,贏得了2020年人居署PointNav挑戰賽,并在2022年ICRA會議期間,在觀眾面前展示了服務機器人的實時終身學習的現場演示。
本報告記錄了我們在 DARPA 終身學習機器 (L2M) 計劃下的項目,涵蓋了我們在該計劃第 1 階段和第 2 階段的工作。
我們的項目探索了自主系統終身學習的綜合方法,解決了不同任務間的持續學習和遷移、可擴展的知識維護、自我導向的學習以及對具身智能體的變化環境的適應等基本問題。我們的L2M方法的關鍵方面包括:感知和行動的持續學習,不同任務之間的遷移,可擴展的終身知識維護,自主發現的自我導向學習,以及任務的非平穩分布建模。
在第一階段,我們分別探索了這些方面,為分類和強化學習設置開發了各種終身學習算法。這些開發的算法在個別實驗中得到了評估。
在第二階段,我們開發了一個綜合的、模塊化的框架,將上述這些方面結合到一個支持分類和強化學習任務的L2M系統中。在第一階段的算法中,每個方面最有前途的算法被選為該系統中的模塊。然后,我們將這個L2M系統(1)應用于約翰霍普金斯應用物理實驗室(APL)的MiniGrid終身學習基準;(2)通過使用Matterport 3D的機器人尋寶游戲來整合感知和行動,展示了我們的L2M系統在非結構化環境中快速學習不同任務并迅速適應變化的能力。在第二階段,我們還繼續開發了第一階段的個別算法,并探索了其他終身學習的個別方法。當這些基本算法在我們的L2M評估中顯示出前景時,我們就把它們過渡到L2M系統的模塊中。
由于這個項目包含了大量的算法(詳見附錄A),本報告將在第3.1節中首先關注綜合的L2M系統,展示我們如何構建我們的終身學習系統以及它如何支持各個終身學習算法的高層觀點。然后,我們將在第3.3-3.4節中介紹我們在第一和第二階段中開發的主要的單個終身學習算法。我們對結果的介紹也是類似的,首先探討綜合L2M系統在APL MiniGrid(第4.2節)和我們對具身智能體的Scavenger Hunt(第4.3節)的應用中的評價,然后探討本項目下開發的單個算法的評價(第4.4-4.5節)。
我們的工作產生了一些主要的貢獻,在本節中有所描述。為方便起見,我們將這些貢獻按照那些已被納入綜合L2M系統的方法和其他未被納入的方法進行分組。正如第3.1節所詳述的,我們選擇算法作為L2M系統的組成部分是基于它們在第一階段結束時和第二階段早期的成熟度,以及它們對我們應用的必要性。
一個綜合的終身學習框架。 我們開發了一個模塊化的終身學習系統,在現實的服務機器人環境中支持分類和強化學習(RL)任務。該系統的核心是將因子化的終身學習方法與移動機器人的感知動作循環相結合,我們將其分為獨立的分類和RL管道。該系統包括額外的可選模塊,可以與核心分類和RL管道相結合,包括支持元學習、內在動機、探索、主動視覺映射和課程學習。這些組件可以根據問題領域來啟用或禁用,我們討論了為一個視覺尋寶游戲應用開發和評估的配置實例。
用于終身深度學習的去卷積因子化CNN(DF-CNN)。在非深度多任務和終身學習方面的現有工作表明,使用模型參數空間的因子化表示進行轉移是成功的,允許更靈活地構建任務模型。受此啟發,我們介紹了一種在卷積神經網絡(CNN)中共享潛伏因子化表征的新架構。所提出的方法被稱為去卷積因子化CNN[4, 5],使用去卷積因子化和張量收縮的組合來進行任務間的靈活轉移。在兩個計算機視覺數據集上的實驗表明,DFCNN在具有挑戰性的終身學習環境中取得了卓越的性能,抵抗災難性的遺忘,并表現出反向轉移,從隨后的經驗中改善先前學到的任務,而無需重新訓練。與單任務學習者相比,DF-CNN在CIFAR-100和Office-Home任務上分別取得了19.2%和7.9%的改進,擊敗了其他多任務和終身學習基線。
終身策略梯度:無遺忘的快速訓練(LPG-FTW)。 策略梯度(PG)方法在學習高維動態系統的控制策略方面已經顯示出成功。它們最大的缺點是在產生高性能的策略之前需要大量的探索。在終身學習的環境中,智能體在其一生中會面臨多個連續的任務,重用以前看到的任務的信息可以大大加快新任務的學習。我們提供了一種新的終身策略梯度學習方法,通過策略梯度直接訓練終身函數近似器,使智能體在整個訓練過程中受益于積累的知識。我們的經驗表明,我們的算法比單任務和終身學習基線學習得更快,收斂得更好,并完全避免了在各種挑戰性領域的災難性遺忘。在Meta-World任務中,LPG-FTW比在每個任務中單獨訓練的智能體取得了17.5%的改進,比最接近的終身學習方法改進了533%。
快速適應的元優化器(KFO)。 我們開發了一種算法,META-KFO,它能夠在不增加模型的建模能力的情況下轉換較小模型的梯度,但仍能帶來更好的元可學習性。我們在討論和分析我們提出的META-KFO算法的同時,還簡要介紹了各種學習優化的方法。我們推測為什么足夠大的深層模型可以進行元學習:上層具有轉化底層梯度的同等效果,就好像上層是一個外部元優化器,在一個僅由底層組成的較小的網絡上運行。
高效探索和導航的占位預測(OCCANT)。最先進的導航方法利用空間記憶來概括新的環境,但它們的占位圖只限于捕捉智能體直接觀察到的幾何結構。我們開發了占位預測,智能體使用其以自我為中心的RGB-D觀察來推斷可見區域以外的占位狀態。這樣一來,智能體就能更迅速地建立起自己的空間意識,這有利于在三維環境中進行有效的探索和導航。通過利用以自我為中心的視圖和自上而下的地圖中的上下文,我們的模型成功地預測了一個更廣泛的環境地圖,其性能明顯優于強大的基線。我們的主要貢獻是 (1)一個新的占有率預測框架,利用來自自我中心RGB(D)視圖的語義和幾何背景;(2)一個新的探索策略方法,結合占有率預測,以較少的探索獲得更完整的地圖;(3)成功的導航結果,在蘋果對蘋果的比較中,包括在歸納到一個不相交的數據集中的環境時,比目前的技術水平有所改善。我們的方法是2020年人居環境點導航挑戰賽的獲勝作品。
**學習內在獎勵的策略梯度方法(LIRPG)**最佳獎勵問題[6]旨在學習內在獎勵的參數,使所得獎勵達到RL智能體的學習動態,使從某些分布中抽取的任務的壽命(外在)回報最大化。我們提出了一種元梯度方法[7, 8]來解決最佳獎勵問題。在高層次上,我們在每個生命周期的迭代中抽取一個新的任務和一個新的隨機策略參數,并使用具有策略梯度的內在獎勵函數模擬智能體的生命周期。同時,我們通過考慮內在獎勵對策略參數的影響來計算元梯度,用壽命值函數更新內在獎勵函數。通過對內在獎勵的分析,我們展示了我們的方法如何鼓勵在不確定的情況下進行探索,利用對象之間的因果關系,并考慮到非平穩的獎勵。
強化學習的課程策略(CMDP)。 強化學習中的課程學習是一種訓練方法,旨在通過首先在一系列較簡單的任務上進行訓練,并將獲得的知識轉移到目標任務上,從而加快對困難目標任務的學習。自動選擇這樣的任務序列(即課程)是一個開放的問題,也是該領域最近許多工作的主題。在這個項目中,我們以最近的一種課程設計方法為基礎,將課程排序問題表述為馬爾科夫決策過程(MDP)。我們對這一模型進行了擴展,以處理多種遷移學習算法,并首次表明可以從經驗中學習這一MDP的課程策略[9]。我們探討了使之成為可能的各種表示方法,并通過在兩個不同領域為多個智能體學習課程策略來評估我們的方法。結果表明,我們的方法產生的課程可以訓練智能體在目標任務上的執行速度,甚至比現有的方法更快。此外,我們最近的進展表明,這種為一組任務學習的課程策略可以被推廣到未見過的新任務集上[10]。
目標關系和分布模型(OBJMAP)。 為了幫助定位智能體更有效地解決視覺搜索任務,我們提出在多個環境中對目標-目標的空間關系進行建模。在探索一個環境的時候,一個智能體最好能利用已經看過的目標知識來幫助更快地找到目標物體。我們通過學習不同類別的目標之間的共同發生率統計來解決這個問題,建立一個包含所有看過的目標位置的環境地圖,然后結合這些信息來計算目標物體出現在地圖上每個位置的概率。
組合式終身分類(COMPCLF)和強化學習(COMPRL)。人類智能的一個特點是能夠構建自成一體的知識塊,并以新穎的組合方式充分重用它們來解決不同但結構相關的問題。由于基礎搜索問題的組合性質,學習這種組合結構對人工系統來說是一個重大挑戰。到目前為止,對組合式學習的研究在很大程度上與終身學習或持續學習的工作分開進行。我們整合了這兩方面的工作,提出了一個通用的框架,用于終身學習可用于解決一系列相關任務的組合結構。我們的框架將學習過程分為兩個廣泛的階段:學習如何最好地結合現有的組件以吸收一個新的問題,以及學習如何調整現有的組件集以適應新的問題。這種分離明確地處理了記憶如何解決早期任務所需的穩定性和解決新任務所需的靈活性之間的權衡,正如我們在分類環境的廣泛評估中所顯示的那樣。然后,我們探索了一種基于神經模塊的RL的特殊形式的組合,并提出了一組直觀地承認組合解決方案的RL問題。從經驗上看,我們證明了神經組合確實捕捉到了這個問題空間的基本結構。我們進一步提出了一種組合式終身RL方法,該方法利用積累的神經組件來加速對未來任務的學習,同時通過重放經驗的離線RL來保持對以前任務的表現。在持續學習中使用可組合的表征,當任務大規模多樣化時,比非模數方法提供了82.5%的相對準確性的性能增益。
用于改進目標檢測的視頻中的無監督硬例挖掘(DETFLICK)。 最近,通過使用專注于硬負面例子的訓練目標,即目前被檢測器評為正面或模糊的負面例子,在目標檢測中獲得了重要的收益。當網絡被訓練來糾正這些例子時,這些例子會強烈影響參數。不幸的是,它們在訓練數據中往往是稀疏的,而且獲取成本很高。在這項工作中,我們展示了如何通過分析視頻序列上經過訓練的檢測器的輸出來自動獲得大量的硬性否定。特別是,在時間上孤立的檢測,即沒有相關的之前或之后的檢測,很可能是硬否定句。我們描述了從無標簽的視頻數據中挖掘大量此類硬陰性(以及硬陽性)的簡單程序[11]。我們的實驗表明,在這些自動獲得的例子上重新訓練檢測器,往往能顯著提高性能。我們介紹了在多個架構和多個數據集上的實驗,包括人臉檢測、行人檢測和其他目標類別。
使用自我訓練使目標檢測器自動適應新領域(STSL)。這項工作解決了現有的目標檢測器在無監督的情況下適應新的目標領域的問題。我們假設這個領域中大量的無標簽的視頻是現成的。我們通過使用現有檢測器的高置信度檢測來自動獲得目標數據的標簽,再加上通過使用跟蹤器的時間線索獲得的硬(錯誤分類的)例子。這些自動獲得的標簽然后被用于重新訓練原始模型。我們提出了一個修改過的知識提煉損失,并研究了為目標領域的訓練例子分配軟標簽的幾種方法。我們的方法[12]在具有挑戰性的人臉和行人檢測任務上進行了實證評估:在WIDER-Face上訓練的人臉檢測器,由從網上抓取的高質量圖像組成,適用于大規模的監控數據集;在BDD-100K駕駛數據集的清晰、白天圖像上訓練的行人檢測器,適用于所有其他場景,如雨天、霧天、夜間。我們的結果證明了結合從跟蹤中獲得的硬例子的有用性,通過蒸餾損失使用軟標簽相對于硬標簽的優勢,并顯示了作為無監督領域適應目標檢測器的簡單方法的可喜性能,對超參數的依賴性最小。
一半和一半。研究視覺常識的新任務和基準(HNH)對物體、人、行動和場景類型的一般識別一直是計算機視覺研究的核心重點。然而,現在我們在這些問題上已經取得了一定程度的成功,現在是時候定義新的問題,以刺激我們達到視覺智能的下一個水平。視覺常識的發展對于開發能在動態、新穎環境中發揮作用的智能智能體至關重要。但究竟什么是視覺常識?我們認為,在不直接可見的情況下,對事物可能存在的位置進行智能評估的能力,是人類和其他智能生物共享的關鍵和普遍的能力,是視覺常識的一個基本組成部分。人類經常表現出在沒有明確視覺線索的情況下做出決定的能力。這種 "智能搜索 "是視覺常識的一個突出的例子,我們相信它代表了一種技能,在開發智能體中是必不可少的。與我們的工作密切相關的是早期關于將上下文信息納入視覺預測的努力[13, 14, 15, 16]。我們相信,以最基本的形式對這種能力進行正式的基準測試可以是一個有價值的補充。在這項工作中,我們將推斷圖像中我們無法看到的東西的存在這一問題正式化。為了做到這一點,我們依賴于這樣一個事實,即一幅圖像的不同視圖描繪的是同一個場景。因此,個別部分可以作為其他部分的背景線索。由于這個原因,我們把這些任務稱為 "一半和一半 "任務[17]。
高效的終身逆向強化學習(ELIRL)。從演示中學習(LfD)的方法在通過模仿用戶獲得行為策略方面已經顯示出成功。然而,即使是單一的任務,LfD也可能需要大量的示范。對于必須通過示范來學習許多任務的多功能智能體,如果每個任務都單獨學習,這個過程會給用戶帶來很大的負擔。為了解決這一挑戰,我們引入了從演示中終身學習的新問題,這使得智能體能夠不斷地建立在從以前演示的任務中學到的知識上,以加速新任務的學習,減少所需的演示量。作為這個問題的解決方案之一,我們提出了第一個反向強化學習的終身學習方法,它通過演示來學習連續的任務,不斷地在任務之間轉移知識以提高性能。在演示的任務之間分享信息導致恢復的獎勵函數減少約65%。
使用高級共享特征集(SHELS)的任務無關的終身學習。深度神經網絡(DNNs)通常不能在動態開放世界環境中對未見過的類別進行概括,在這種環境中,概念的數量是無限制的。相比之下,人類和動物的學習者有能力通過識別和適應新的觀察而逐步更新他們的知識。特別是,人類通過獨有的(唯一的)基本特征集來描述概念,這些特征用于識別已知類別和識別新奇事物。受自然學習者的啟發,我們開發了一個稀疏的高層-排他性、低層-共享特征表示法(SHELS),它同時鼓勵學習排他性的高層特征集和基本的、共享的低層特征。高層特征的排他性使DNN能夠自動檢測出分布外(OOD)的數據,而通過稀疏的低層特征有效地利用容量,可以容納新的知識。由此產生的方法使用OOD檢測,在沒有已知類別邊界的情況下進行類別遞增的終身學習。我們表明,在各種基準數據集上,使用SHELS進行新穎性檢測,在統計上比最先進的OOD檢測方法有明顯的改進。此外,我們證明了SHELS模型在類增量學習環境中減輕了災難性的遺忘,使一個結合了新奇性檢測和適應性的框架能夠支持開放世界環境中的學習。
復合強化學習的基準(CompoSuite)。我們創建了CompoSuite,一個開源的模擬機器人操作基準,用于復合多任務和持續的RL。每個CompoSuite任務要求一個特定的機器人手臂操縱一個單獨的物體,以實現任務目標,同時避開一個障礙物。任務的這種組合式定義使CompoSuite具有兩個顯著的特性。首先,改變機器人/物體/目標/障礙物的元素會導致數以百計的RL任務,其中每個任務都需要有意義的不同行為。其次,RL方法可以專門評估其學習任務組成結構的能力。后者對問題進行功能分解的能力將使智能體識別并利用學習任務之間的共性來處理大量高度多樣化的問題。我們對現有的單任務、多任務和組合式學習算法在不同的訓練環境中進行評估,并評估它們對未見過的任務進行組合概括的能力。我們的評估暴露了現有RL方法在組合性方面的缺陷,并開辟了新的研究途徑。平均而言,單任務和多任務智能體能夠解決大約40%的任務,而具有明確組成結構的智能體則在此基礎上有所提高,解決了全部基準任務的92%。
用于多智能體強化學習的多智能體-注意力批判(MAAC)。終身學習智能體可能需要在其生命周期內與其他學習智能體合作和/或競爭。傳統的強化學習算法無法考慮到其他智能體,并受到其他智能體學習所引起的環境非平穩性問題的影響。最近的多行為體強化學習方法[18, 19]試圖通過利用行為體批判范式中的集中批判來解決這些問題;然而,隨著存在的行為體數量增加,這些方法不能很好地擴展。我們的方法,即多行為體-注意力批評[20],將注意力機制納入集中式批評者,以緩解這一問題。在多智能體領域的實驗表明,相對于最先進的基線而言,性能和可擴展性都有所提高。
用于多智能體強化學習的隨機實體明智因式分解(REFIL)。在智能體的一生中,它可能需要與具有不同能力/技能的智能體團隊合作;然而,在這些智能體的子組中經常出現共同的行為模式。我們提出的方法,即想象學習的隨機實體因式分解(REFIL)[21],試圖利用這些共同模式,通過將價值函數隨機分解為由不相干的實體子組組成的條款,來提高類似團隊的概括性。通過以這種方式構建價值函數預測,我們能夠更好地預測熟悉的子組狀態的新組合中的預期收益。在復雜的多任務多智能體設置上的實驗表明,與最先進的基線相比,樣本效率和概括性都有所提高。
解決清道夫服務機器人的隨機旅行購買者問題(STPP)。創造能夠在人類居住的環境中執行通用服務任務的機器人,一直是人工智能和機器人研究的一個長期的大挑戰。與各種任務相關的一個特別有價值的技能是根據要求定位和檢索物體的能力。在這項工作中,我們將這種技能建模為 "尋寶游戲"(Scavenger Hunt,SH),該游戲被表述為NP-hard隨機旅行購買者問題的一個變種。在這個問題中,目標是盡可能快地找到一組物體,給定它們可能被找到的概率分布。我們在模擬和真實的移動機器人上研究了SH問題的幾種解決算法的性能。我們使用強化學習(RL)來訓練一個智能體來計劃一個最小成本的路徑,并表明RL智能體可以勝過一系列啟發式算法,實現接近最佳的性能。為了促進對這一問題的研究,我們介紹了一個公開可用的軟件棧和相關網站,使用戶能夠上傳尋寶游戲,機器人可以下載、執行并從中學習,以不斷提高他們在未來游戲中的表現。
基于模型的貝葉斯探索的終身強化學習(VBLRL)。我們提出了一種終身的RL算法,該算法提取了以前遇到的任務中存在的共同結構,以便智能體能夠快速學習新任務的特定動態。我們考慮的終身RL問題可以被建模為隱藏參數MDP或HiP-MDP[22, 23],其中真實任務動態的變化可以由一組隱藏參數描述。我們的算法比以前的終身學習和HiP-MDPs的工作更進一步:1)在任務集合的不同抽象層次上單獨建模認識性和非認識性的不確定性:由描述任務概率分布的世界模型分布捕獲的不確定性,以及由單個任務內(隨機的)動態的特定任務模型捕獲的不確定性。為了實現更準確的順序知識轉移,我們將這兩個量的學習過程分開,并保持一個近似于它們的分層貝葉斯后驗。2)執行層次化后驗所啟用的貝葉斯探索。該方法讓智能體根據從后驗中采樣的模型進行優化操作,從而提高采樣效率。
關于這些算法的細節將在下一節提供。
圖像壓縮算法是圖像處理領域中媒體傳輸和壓縮的基礎。在其誕生的幾十年后,諸如JPEG圖像編解碼器等算法仍然是行業標準。在壓縮領域,一個值得注意的研究課題是深度學習(DL)。本文探討了理想圖像壓縮和物體檢測(OD)應用的DL模型的優化。
要優化的DL模型是基于一個現有的壓縮框架,即CONNECT模型。這個框架將傳統的JPEG圖像編解碼器包裹在兩個卷積神經網絡(CNNs)中。第一個網絡,ComCNN,專注于將輸入的圖像壓縮成一個緊湊的表示,以輸入到圖像編解碼器。第二個網絡,RecCNN,著重于從編解碼器中重建輸出圖像,使之與原始圖像盡可能相似。為了提高CONNECT模型的性能,一個名為Optuna的優化軟件包裹了該框架。從每個CNN中選擇超參數,由Optuna進行評估和優化。一旦CONNECT模型產生了理想的結果,輸出的圖像就被應用于YOLOv5 OD網絡。
本文探討了DL超參數對圖像質量和壓縮指標的影響。此外,檢測網絡將為圖像壓縮對計算機視覺應用的影響提供背景。