組合優化是計算機視覺的常用方法。例如,在諸如語義分割、人體姿態估計和動作識別等應用中,為解決條件隨機域(CRFs)中的推理問題而編寫的程序可以生成與圖像視覺特征一致的結構化輸出。然而,在CRFs中求解推理通常是棘手的,而近似方法在計算上要求很高,并且僅限于一元的、成對的和手工制作的高階勢形式。在這篇論文中,我們證明了我們可以學習程序啟發式。策略,用于解決高階CRFs中推理任務的語義分割,采用強化學習。我們的方法有效地解決了推理任務,而沒有對勢的形式施加任何約束。我們在Pascal VOC和MOTS數據集上展示了引人注目的結果。
導航是移動機器人所需要的最基本的功能之一,允許它們從一個源穿越到一個目的地。傳統的辦法嚴重依賴于預先確定的地圖的存在,這種地圖的取得時間和勞力都很昂貴。另外,地圖在獲取時是準確的,而且由于環境的變化會隨著時間的推移而退化。我們認為,獲取高質量地圖的嚴格要求從根本上限制了機器人系統在動態世界中的可實現性。本論文以無地圖導航的范例為動力,以深度強化學習(DRL)的最新發展為靈感,探討如何開發實用的機器人導航。
DRL的主要問題之一是需要具有數百萬次重復試驗的不同實驗設置。這顯然是不可行的,從一個真實的機器人通過試驗和錯誤,所以我們反而從一個模擬的環境學習。這就引出了第一個基本問題,即彌合從模擬環境到真實環境的現實差距,該問題將在第3章討論。我們把重點放在單眼視覺避障的特殊挑戰上,把它作為一個低級的導航原語。我們開發了一種DRL方法,它在模擬世界中訓練,但可以很好地推廣到現實世界。
在現實世界中限制移動機器人采用DRL技術的另一個問題是訓練策略的高度差異。這導致了較差的收斂性和較低的整體回報,由于復雜和高維搜索空間。在第4章中,我們利用簡單的經典控制器為DRL的局部導航任務提供指導,避免了純隨機的初始探索。我們證明,這種新的加速方法大大減少了樣本方差,并顯著增加了可實現的平均回報。
我們考慮的最后一個挑戰是無上限導航的稀疏視覺制導。在第五章,我們提出了一種創新的方法來導航基于幾個路點圖像,而不是傳統的基于視頻的教學和重復。我們證明,在模擬中學習的策略可以直接轉移到現實世界,并有能力很好地概括到不可見的場景與環境的最小描述。
我們開發和測試新的方法,以解決障礙規避、局部引導和全球導航等關鍵問題,實現我們的愿景,實現實際的機器人導航。我們將展示如何將DRL作為一種強大的無模型方法來處理這些問題
強化一詞來源于實驗心理學中對動物學習的研究,它指的是某一事件的發生,與某一反應之間有恰當的關系,而這一事件往往會增加該反應在相同情況下再次發生的可能性。雖然心理學家沒有使用“強化學習”這個術語,但它已經被人工智能和工程領域的理論家廣泛采用,用來指代基于這一強化原理的學習任務和算法。最簡單的強化學習方法使用的是一個常識,即如果一個行為之后出現了一個令人滿意的狀態,或者一個狀態的改善,那么產生該行為的傾向就會得到加強。強化學習的概念在工程領域已經存在了幾十年(如Mendel和McClaren 1970),在人工智能領域也已經存在了幾十年(Minsky 1954, 1961;撒母耳1959;圖靈1950)。然而,直到最近,強化學習方法的發展和應用才在這些領域占據了大量的研究人員。激發這種興趣的是兩個基本的挑戰:1) 設計能夠在復雜動態環境中在不確定性下運行的自主機器人代理,2) 為非常大規模的動態決策問題找到有用的近似解。
在需要平衡性能和參數效率的應用中,選擇深度神經網絡結構是一個基本問題。標準方法依賴于特定數據集上的特別工程或計算上昂貴的驗證。相反,我們試圖通過網絡的內在能力來量化網絡的獨特性和健壯性,從而在不需要任何數據的情況下進行有效的架構比較。基于深度學習和稀疏逼近之間的理論聯系,我們提出了深度框架潛力:一種與表征穩定性近似相關的相干性度量,但具有僅依賴于網絡結構的最小值。這為聯合量化架構超參數(如深度、寬度和跳過連接)的貢獻提供了一個框架。我們驗證了它作為模型選擇標準的作用,并證明了它與各種通用殘差和密集連接的網絡架構上的泛化誤差之間的相關性。
當對一系列學習問題進行優化時,卷積神經網絡會經歷災難性的遺忘:當滿足當前訓練示例的目標時,它們在以前任務中的性能會急劇下降。在這項工作中,我們介紹了一個基于條件計算的新的框架來解決這個問題。
近年來,許多手工設計和搜索的網絡被應用于語義分割。然而,以前的工作打算在預定義的靜態架構中處理各種規模的輸入,如FCN、U-Net和DeepLab系列。本文研究了一種概念上的新方法來緩解語義表示中的尺度差異,即動態路由。該框架根據圖像的尺度分布,生成與數據相關的路徑。為此,提出了一種可微選通函數——軟條件門,用于動態選擇尺度變換路徑。此外,通過對門控函數進行預算約束,可以通過端到端方式進一步降低計算成本。我們進一步放寬了網絡級路由空間,以支持每個轉發中的多路徑傳播和跳轉連接,帶來了可觀的網絡容量。為了證明動態特性的優越性,我們比較了幾種靜態架構,它們可以作為路由空間中的特殊情況進行建模。為了證明動態框架的有效性,我們在Cityscapes和PASCAL VOC 2012上進行了大量的實驗。代碼在此//github.com/yanwei-li/DynamicRouting
Deep Reinforcement Learning via Policy Optimization