場景流估計在三維環境感知中越來越受到重視。單目場景流估計是一個高度不適定的問題,目前缺乏實用的解決方案。單目場景流估計是從兩個時間上連續的圖像中獲取三維結構和三維運動。我們提出了一種新的單目場景流算法,該算法具有較強的精度和實時性。采用逆問題觀點,我們設計了一個單獨的卷積神經網絡(CNN),它可以成功地從一個經典的光流成本體積同時估計深度和三維運動。我們采用帶有三維損失函數和遮擋推理的自監督學習來利用未標記的數據。我們驗證了我們的設計選擇,包括代理丟失和增加設置。我們的模型在單目場景流的無監督/自監督學習方法中達到了最先進的精度,并在光流和單目深度估計子任務中獲得了具有競爭力的結果。半監督微調進一步提高了精度,并在實時產生有希望的結果。
自監督式VO方法在視頻中聯合估計攝像機姿態和深度方面取得了很大的成功。然而,與大多數數據驅動的方法一樣,現有的VO網絡在面對與訓練數據不同的場景時,性能顯著下降,不適合實際應用。在本文中,我們提出了一種在線元學習算法,使VO網絡能夠以一種自監督的方式不斷適應新的環境。該方法利用卷積長短時記憶(convLSTM)來聚合過去的豐富時空信息。網絡能夠記憶和學習過去的經驗,以便更好地估計和快速適應當前幀。在開放環境中運行VO時,為了應對環境的變化,我們提出了一種在線的特征對齊方法,即在不同的時刻對特征分布進行對齊。我們的VO網絡能夠無縫地適應不同的環境。在看不見的戶外場景、虛擬到真實世界和戶外到室內環境的大量實驗表明,我們的方法始終比最先進的自監督的VO基線性能更好。