這項工作提出了一種模塊化和層次化的方法來學習探索3D環境的策略,稱為“主動神經SLAM”。我們的方法利用了經典方法和基于學習的方法的優勢,通過使用帶學習SLAM模塊的分析路徑規劃器,以及全球和本地策略。學習的使用提供了輸入模式方面的靈活性(在SLAM模塊中),利用了世界的結構規則(在全局策略中),并提供了對狀態估計錯誤的健壯性(在局部策略中)。在每個模塊中使用這種學習方法保留了它的優點,同時,分層分解和模塊化訓練允許我們避開與端到端訓練策略相關的高樣本復雜性。我們的實驗在視覺和物理仿真三維環境證明了我們的方法的有效性超過過去的學習和基于幾何的方法。該模型也可以很容易地轉移到點目標任務,并且是CVPR 2019 Habitat PointGoal Navigation挑戰的獲獎作品。
目標檢測和數據關聯是多目標跟蹤系統的關鍵組成部分。盡管這兩個組件高度依賴于彼此,但MOT中的一個流行趨勢是將檢測和數據關聯作為單獨的模塊執行,并按級聯順序處理。由于這種級聯過程,所生成的MOT系統只能執行前向推理,而不能將錯誤反向傳播到整個管道并進行糾正。這導致整個管道的性能低于最佳水平。為了解決這個問題,最近的工作聯合優化了檢測和數據關聯,并形成了一個綜合的MOT方法,已被證明提高了檢測和跟蹤的性能。為此,我們提出了一種基于圖神經網絡(GNNs)的聯合MOT方法。該方法的關鍵思想是,GNNs能夠在空間和時間域內顯式地建模多個目標之間的復雜交互,這對于學習識別特征進行檢測和數據關聯至關重要。我們還利用了運動特征與外觀特征一起使用時對MOT有用這一事實。因此,我們提出的聯合MOT方法也將外觀和運動特征納入我們的基于圖的特征學習框架,從而使MOT更好地學習特征。在MOT挑戰數據集上的大量實驗表明,我們提出的方法在目標檢測和MOT檢測上都取得了最先進的性能。
近年來,深度學習在更高層級的視覺任務中取得矚目的成績,如:物體識別,語義分割等。這些課題曾是傳統視覺無法或很難解決的任務。深度學習方法的這種能力拓展了我們對視覺任務的想象空間,越來越多的 SLAM 開始在他們的框架中通過融合學習的方法來改進位姿估計的準確程度和環境重建的效果。但是深度學習是一個非常寬廣的領域,和 SLAM 相關的課題只是它的一個分支,本書稿將會挑選、聚焦與 SLAM 相關的深度學習任務,希望能通過這本書稿來介紹SLAM 系統中使用的幾何和深度學習的方法,幫助讀者掌握最新的進展。
主題: Neural Topological SLAM for Visual Navigation
摘要: 本文研究了圖像目標導航的問題,該問題涉及在以前看不見的新型環境中導航到目標圖像指示的位置。 為了解決這個問題,我們設計了空間的拓撲表示,以有效利用語義并提供近似的幾何推理。 表示的核心是具有關聯語義特征的節點,這些節點使用粗略的幾何信息相互連接。我們描述了基于監督學習的算法,該算法可以在噪聲激勵下構建,維護和使用此類表示。 在視覺和物理逼真的模擬中的實驗研究表明,我們的方法建立了有效的表示形式,可以捕獲結構規律性并有效解決長視距導航問題。 與研究該任務的現有方法相比,我們觀察到相對改進了50%以上。
主題: Multi-View Learning for Vision-and-Language Navigation
摘要:
學習遵循自然語言指令在視覺環境中導航是一項具有挑戰性的任務,因為自然語言指令具有高度的可變性、模糊性和欠指定性。在本文中,我們提出了一種新的訓練模式,從每個人身上學習(LEO),它利用多條指令(作為不同的視圖)來解決同一軌跡下的語言歧義,提高泛化能力。通過在指令之間共享參數,我們的方法可以更有效地從有限的訓練數據中學習,并在不可見的環境中更好地推廣。在最近的Room-to-Room(R2R)基準數據集上,LEO在路徑長度加權的成功率(SPL)方面比貪婪的代理(25.3%-41.4%)提高了16%(絕對)。此外,LEO是對大多數現有視覺和語言導航模型的補充,允許與現有技術輕松集成,從而導致LEO+,這創造了新的技術水平,將R2R基準推高到62%(9%的絕對改善)。