主題: Neural Topological SLAM for Visual Navigation
摘要: 本文研究了圖像目標導航的問題,該問題涉及在以前看不見的新型環境中導航到目標圖像指示的位置。 為了解決這個問題,我們設計了空間的拓撲表示,以有效利用語義并提供近似的幾何推理。 表示的核心是具有關聯語義特征的節點,這些節點使用粗略的幾何信息相互連接。我們描述了基于監督學習的算法,該算法可以在噪聲激勵下構建,維護和使用此類表示。 在視覺和物理逼真的模擬中的實驗研究表明,我們的方法建立了有效的表示形式,可以捕獲結構規律性并有效解決長視距導航問題。 與研究該任務的現有方法相比,我們觀察到相對改進了50%以上。
這項工作提出了一種模塊化和層次化的方法來學習探索3D環境的策略,稱為“主動神經SLAM”。我們的方法利用了經典方法和基于學習的方法的優勢,通過使用帶學習SLAM模塊的分析路徑規劃器,以及全球和本地策略。學習的使用提供了輸入模式方面的靈活性(在SLAM模塊中),利用了世界的結構規則(在全局策略中),并提供了對狀態估計錯誤的健壯性(在局部策略中)。在每個模塊中使用這種學習方法保留了它的優點,同時,分層分解和模塊化訓練允許我們避開與端到端訓練策略相關的高樣本復雜性。我們的實驗在視覺和物理仿真三維環境證明了我們的方法的有效性超過過去的學習和基于幾何的方法。該模型也可以很容易地轉移到點目標任務,并且是CVPR 2019 Habitat PointGoal Navigation挑戰的獲獎作品。
場景流估計在三維環境感知中越來越受到重視。單目場景流估計是一個高度不適定的問題,目前缺乏實用的解決方案。單目場景流估計是從兩個時間上連續的圖像中獲取三維結構和三維運動。我們提出了一種新的單目場景流算法,該算法具有較強的精度和實時性。采用逆問題觀點,我們設計了一個單獨的卷積神經網絡(CNN),它可以成功地從一個經典的光流成本體積同時估計深度和三維運動。我們采用帶有三維損失函數和遮擋推理的自監督學習來利用未標記的數據。我們驗證了我們的設計選擇,包括代理丟失和增加設置。我們的模型在單目場景流的無監督/自監督學習方法中達到了最先進的精度,并在光流和單目深度估計子任務中獲得了具有競爭力的結果。半監督微調進一步提高了精度,并在實時產生有希望的結果。
題目: Composition-Based Multi-Relational Graph Convolutional Networks
摘要: 圖卷積網絡(GCNs)最近被證明在對圖結構數據建模方面是非常成功的。然而,主要的重點是處理簡單的無向圖。多關系圖是一種更為普遍和流行的圖,其中每條邊都有一個與之相關的標簽和方向。現有的大多數處理此類圖的方法都存在參數過多的問題,并且僅限于學習節點的表示形式。在本文中,我們提出了一種新的圖卷積框架COMP-GCN,它將節點和關系共同嵌入到一個關系圖中。COMP-GCN利用知識圖譜嵌入技術中的各種實體關系組合操作,并根據關系的數量進行擴展。它還概括了幾種現有的多關系GCN方法。我們評估了我們提出的方法在多個任務,如節點分類,鏈接預測,和圖分類,并取得了明顯的結果。
主題: Visual Grounding in Video for Unsupervised Word Translation
摘要:
地球上有成千上萬種活躍的語言,但只有一個單一的視覺世界。根植于這個視覺世界,有可能彌合所有這些語言之間的鴻溝。我們的目標是使用視覺基礎來改進語言之間的非監督詞映射。其核心思想是通過學習母語教學視頻中未配對的嵌入語,在兩種語言之間建立一種共同的視覺表達。考慮到這種共享嵌入,我們證明(i)我們可以在語言之間映射單詞,特別是“可視化”單詞;(ii)共享嵌入為現有的基于文本的無監督單詞翻譯技術提供了良好的初始化,為我們提出的混合可視文本映射算法MUVE奠定了基礎;(iii)我們的方法通過解決基于文本的方法的缺點來獲得更好的性能——它魯棒性更強,處理通用性更低的數據集,并且適用于低資源的語言。我們將這些方法應用于將英語單詞翻譯成法語、韓語和日語——所有這些都不需要任何平行語料庫,而只是通過觀看許多人邊做邊說的視頻。
主題: Multi-View Learning for Vision-and-Language Navigation
摘要:
學習遵循自然語言指令在視覺環境中導航是一項具有挑戰性的任務,因為自然語言指令具有高度的可變性、模糊性和欠指定性。在本文中,我們提出了一種新的訓練模式,從每個人身上學習(LEO),它利用多條指令(作為不同的視圖)來解決同一軌跡下的語言歧義,提高泛化能力。通過在指令之間共享參數,我們的方法可以更有效地從有限的訓練數據中學習,并在不可見的環境中更好地推廣。在最近的Room-to-Room(R2R)基準數據集上,LEO在路徑長度加權的成功率(SPL)方面比貪婪的代理(25.3%-41.4%)提高了16%(絕對)。此外,LEO是對大多數現有視覺和語言導航模型的補充,允許與現有技術輕松集成,從而導致LEO+,這創造了新的技術水平,將R2R基準推高到62%(9%的絕對改善)。
簡介:
馬爾可夫邏輯網絡(MLN)將邏輯規則和概率圖形模型完美地結合在一起,可用于解決許多知識圖問題。但是,MLN的推理需要大量的計算,這使得MLN的工業規模應用非常困難。 近年來,圖神經網絡(GNN)已經成為解決大規模圖問題的有效工具。 盡管如此,GNN并未將先前的邏輯規則明確納入模型,并且可能需要許多帶有標簽的示例來完成目標任務。 在本文中,我們探索了MLN和GNN的組合,并使用圖神經網絡進行MLN的變異推理。 我們提出了一個名為ExpressGNN的GNN變體,該變體在表示能力和模型的簡單性之間取得了很好的平衡。 我們在幾個基準數據集上進行的廣泛實驗表明,ExpressGNN可以帶來有效而高效的概率邏輯推理。