場景表示是將對環境的傳感觀察轉換為緊湊描述的過程。這種智能行為是人工智能的基石。長期以來,科學家們一直試圖重現人類理解物理環境的非凡能力。將對環境的視覺傳感觀察作為輸入,現代智能系統主要致力于學習對基本場景屬性(如幾何和語義)進行編碼的神經表示。這種表示可以用于支持其他下游任務,最終在復雜的3D世界中實現自主感知和交互。近年來,深度神經網絡在神經場景表示中的幾何和語義信息建模方面表現出色。然而,由于不受控制的現實場景的脆弱性,構建健壯的系統仍然具有很高的挑戰性。由于對場景變化的傳感觀察的差異,不同類型的視覺表示之間的領域差距,以及對多類別信息的高效感知的要求,這為場景表示學習帶來了巨大的復雜性。為克服這些挑戰,本文追求魯棒、統一和信息豐富的場景表示,從不同類型的視覺輸入中學習幾何和語義,為自主學習理解周圍世界的智能機器鋪平道路。在此背景下,本文在視覺定位、像素點匹配和語義曲面重建領域做出了三個核心貢獻。
在這篇論文中,我們從單幅圖像開始估計6自由度(DoF)相機姿態。為了學習對環境變化和傳感器操作具有魯棒性的場景表示,提出了一種結合自注意模塊的神經網絡來建模復雜的幾何關系,給定的圖像相對于參考環境進行拍攝。然后,基于極線幾何和立體視覺的內在約束,我們構建了一個更通用的框架,在二維圖像和三維點云之間尋找統一的表示形式。通過引入超寬接收機制和新的損失函數,提出了一種雙全卷積框架,將2D和3D輸入映射到共享的潛表示空間中,以同時描述和檢測關鍵點,彌合2D和3D表示之間的差距。最后,我們將我們的研究擴展到開發信息表示,這通常是智能系統在現實場景中同時用于多個目的的操作所需要的。在借鑒以往基于點的網絡研究成果的基礎上,我們引入了一種全新的端到端神經隱式函數,它可以聯合估計原始和大規模點云的精確三維曲面和語義。
總體而言,本文開發了一系列新穎的深度神經框架,以推動場景表示的機器學習領域向能夠完全感知現實世界3D環境的人工智能發展。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
與2D圖像數據相比,3D信息與人類的視覺感知更密切相關,有助于智能機器更好地了解世界。三維信息預測和理解,如結構預測和語義分析,在三維視覺感知中起著重要的作用。具體到3D結構,比如深度數據,雖然我們可以從各種3D傳感器中獲取它,但在機器學習框架中,仍然有大量的嘗試從單個圖像、視頻序列、立體聲數據或多模態數據中預測它。主要原因是3D傳感器通常價格昂貴,捕獲的3D數據通常稀疏且有噪聲。此外,網站中還有大量的圖片,我們希望從中獲取深度圖。最近的研究表明,深度神經網絡,如深度卷積神經網絡(DCNNs),在相關任務中具有優勢。盡管深度學習取得了巨大的成功,但仍有許多具有挑戰性的問題需要解決。例如,盡管有監督深度學習促使深度估計模型的性能有了很大的提高,但在許多場景下,對大量真實深度數據的需求很難滿足。因此,訓練三維結構估計模型需要采用無監督學習策略。在本文中,我們以一個眾所周知的具體任務,即單目深度估計為例,來研究這一問題。為了降低對真實深度的要求,研究了在合成數據上學習深度模型的域自適應技術,并探索真實數據中的幾何信息,使域自適應過程感知真實域的幾何結構。除了單幅或多幅圖像的預測外,我們還可以從多模態數據中估計深度,例如RGB圖像數據與3D激光掃描數據的耦合。為了實現這一目標,需要解決一些具有挑戰性的問題。例如,由于3D數據通常是稀疏且不規則分布的,我們需要從稀疏數據中建模上下文信息并融合多模態特征。在本文中,我們通過研究深度完成任務來考察這些問題。具體而言,我們提出采用圖傳播來捕獲觀測到的空間上下文,并引入對稱門控融合策略來有效地結合提取的多模態特征。
目前,各種經典的DCNNs被提出用于處理二維圖像數據進行各種分析,如語義理解。而三維點集作為一種重要的三維信息表示形式,由于其稀疏性和無序性,為了理解語義內容,需要新的操作來建模局部形狀,而不是傳統的卷積。在本文中,我們選擇點集作為三維數據的表示形式,即三維點云,然后設計了一個點云分析的基本操作。以往的工作主要考慮相鄰點對之間的關系進行特征聚合,而忽略了編碼局部形狀結構的邊之間的關系。為了提供補救,本文提出了一個新的自適應邊到邊交互學習模塊。此外,由于三維激光掃描儀配置的多樣性,捕獲的三維數據往往因數據集的對象大小、密度和視角而異。因此,三維數據分析中的域泛化問題也是一個關鍵問題。然而,據我們所知,這個問題仍然沒有得到充分的探索。為了對這一問題進行初步探索,本文還通過提出一個熵正則化項來研究3D形狀分類中的域泛化,該項衡量學習到的特征和類標簽之間的依賴性。
本文通過對4個具體任務的研究,圍繞模型設計、多模態融合、稀疏數據分析、無監督學習、域適應和域泛化等關鍵問題展開研究。
//ses.library.usyd.edu.au/handle/2123/27482
一個機器人要想在非結構化的室外環境中與人類高效合作,就必須將指令從操作者直觀的模態轉化為行動。機器人必須能夠像人類一樣感知世界,這樣機器人所采取的行動才能反映自然語言和人類感知的細微差別。傳統上,導航系統結合了個人感知、語言處理和規劃塊,這些塊通常是根據不同的性能規格單獨訓練的。它們使用限制性接口進行通信以簡化開發(即,具有離散屬性的點對象和有限的命令語言),但這也限制了一個模塊可以傳遞給另一個模塊的信息。
深度學習的巨大成功徹底改變了計算機視覺的傳統研究方向,如目標檢測和場景標記。視覺問答(VQA)將自然語言處理中的最先進技術與圖像理解聯系起來。符號基礎、多步驟推理和對空間關系的理解已經是這些系統的元素。這些元素統一在一個具有單一可微損失的架構中,消除了模塊之間定義良好接口的需要,并簡化了與之相伴的假設。我們介紹了一種將文本語言命令和靜態航空圖像轉換為適合規劃的成本圖的技術。我們建立在FiLM VQA架構的基礎上,對其進行調整以生成成本圖,并將其與修改后的可微分計劃損失(最大邊際計劃)結合起來使用Field D*計劃器。通過這種架構,我們向統一語言、感知和規劃到單一的端到端可訓練系統邁出了一步。
我們提出了一個源自CLEVR數據集的可擴展綜合基準測試,我們用它來研究算法在無偏倚環境中具有幾乎無限數據的理解能力。我們分析了該算法在這些數據上的表現,以了解其局限性,并提出未來的工作來解決其缺點。我們使用真實的航空圖像和合成命令提供混合數據集的結果。規劃算法通常具有高分支因子,并且不能很好地映射到近年來催化深度學習發展的GPU。我們精心選擇了Field D和Max Margin Planning,以在高度并行的架構上表現良好。我們引入了一個適用于多GPU數據并行訓練的Field D版本,它使用Bellman-Ford算法,與我們的cpu優化實現相比,性能幾乎提高了十倍。在團隊中工作的人之間的流暢互動取決于對任務、環境和語言微妙之處的共同理解。在這種情況下工作的機器人也必須這樣做。學習將命令和圖像轉換為具有可微分規劃損失的軌跡是捕捉和模仿人類行為的一種方法,也是實現機器人和人類無縫交互的一小步。
魯棒的、通用的機器人可以在半結構化環境中自主地操縱物體,可以為社會帶來物質利益。通過識別和利用半結構化環境中的模式,數據驅動的學習方法對于實現這種系統至關重要,使機器人能夠在最少的人類監督下適應新的場景。然而,盡管在機器人操作的學習方面有大量的工作,但在機器人能夠廣泛應用于現實世界之前,仍有很大的差距。為了實現這一目標,本文解決了三個特殊的挑戰:半結構化環境中的感知、適應新場景的操作以及對不同技能和任務的靈活規劃。在討論的方法中,一個共同的主題是通過將“結構”,或特定于機器人操作的先驗,合并到學習算法的設計和實現中,實現高效和一般化的學習。本文的工作遵循上述三個挑戰。
我們首先在基于視覺的感知難以實現的場景中利用基于接觸的感知。在一項工作中,我們利用接觸反饋來跟蹤靈巧操作過程中手持物體的姿態。另一方面,我們學習定位機器人手臂表面的接觸,以實現全臂感知。接下來,我們將探討針對基于模型和無模型技能的新對象和環境調整操作。我們展示了學習面向任務的交互式感知如何通過識別相關動態參數來提高下游基于模型的技能的性能。本文還展示了如何使用以對象為中心的行動空間,使無模型技能的深度強化學習更有效和可泛化。
探索了靈活的規劃方法,以利用低水平技能完成更復雜的操縱任務。我們開發了一個基于搜索的任務計劃,通過學習技能水平動態模型,放松了之前工作中關于技能和任務表示的假設。該計劃器隨后應用于后續工作中,使用混合力-速度控制器的已知前提條件來執行多步接觸豐富的操作任務。我們還探索了用自然語言描述的更靈活的任務的規劃,使用代碼作為結構化的動作空間。這是通過提示大型語言模型直接將自然語言任務指令映射到機器人策略代碼來實現的,策略代碼協調現有的機器人感知和技能庫來完成任務。
深度學習的出現為許多基本的計算機視覺任務帶來了巨大的進展,如分類、檢測和分割,這些任務描述了圖像和視頻中物體的類別和位置。在監督學習方面也做了很多工作--教機器使用人類注釋的標簽來解決這些任務。然而,機器只知道某些物體的名稱和位置是不夠的;許多任務需要對復雜的物理世界有更深入的了解--例如,物體與周圍環境的互動(通常通過創造陰影、反射、表面變形和其他視覺效果)。此外,在嚴重依賴人類監督的情況下,訓練模型來解決這些任務,成本很高,而且不切實際,難以推廣。因此,本論文探索了兩個方向:首先,我們的目標是超越分割,解決一個全新的任務:將物體與其相關的視覺效果(如陰影、反射或附著的物體)分組;其次,我們以自我監督的方式解決視頻物體分割的基本任務,而不依賴任何人類注釋。
//ora.ox.ac.uk/objects/uuid:6c722b16-1a13-4ae1-aebb-fb7026820a64
為了將物體與其相關的視覺效果自動分組,我們采用了一種分層的方法:我們的目標是將視頻分解成特定的物體層,其中包含所有與物體一起移動的元素。這些層的一個應用是,它們可以以新的方式重新組合,以產生一個高度真實的、經過改變的原始視頻版本(例如,刪除或復制物體,或改變其運動的時間)。這里的關鍵是利用卷積神經網絡的自然屬性來獲得輸入視頻的分層分解。我們設計了一個神經網絡,通過對視頻的過度擬合,為視頻輸出層。我們首先介紹了一種針對人類的方法,然后展示了如何將其適應于任意的物體類別,如動物或汽車。我們的第二個任務是視頻物體分割:為視頻中的物體產生像素級的標簽(段)。我們以前的工作是在單個視頻上進行優化,而在這里,我們采取了一種數據驅動的方法,以自我監督的方式對大量的視頻語料庫進行訓練。我們考慮了兩種不同的任務設置:(1)半監督物體分割,即為單一幀提供初始物體掩碼,該方法必須將該掩碼傳播到其余幀;(2)移動物體發現,即不提供掩碼,該方法必須分割突出的移動物體。我們探討了兩種不同的輸入流。RGB和光流,并討論它們與人類視覺系統的聯系。
深度學習推動了應用的爆炸式增長,然而訓練深度神經網絡通常需要昂貴的人工注釋。在這篇論文中,我們探索了在訓練深度神經網絡時避免大量依賴人工注釋示例的替代方案。具體來說,要么采用自監督方法來自動糾正自由獲得的數據標簽,要么完全放棄使用人工標簽,而是利用音頻和視覺信息的自然共生來學習視頻中的對象表示。越來越多的數字數據通常會提供噪聲標簽,這些標簽可以用來監督學習過程。傳統的數據預處理包括在訓練識別模型之前糾正/清理數據,但這可能需要大量的人工工作。我們考慮自動更正注釋噪聲,從而避免了昂貴的手動注釋的需要。我們構建和擴展了最近的突破,使用一致性損失(consistency loss)和空間記憶映射(space memory map)來提供靈活的實例級注冊,從而實現更大的泛化。進一步探索了多模態感覺流,利用模態冗余,即模態之間的重疊信息,為模型提供自監督。表示是通過利用不同的模式來學習的,而不使用任何人類注釋的標簽。我們將使用三個不同的應用程序演示此技術。
首先,我們自動管理一個大型音頻數據集VGG-Sound,使用視覺引導收集了超過200k的視頻,并在此基礎上進行訓練,生成最先進的音頻識別模型。其次,我們提出了一種改進和擴展最近聲源定位技術的方法,通過引入一種機制來挖掘硬樣本并自動將其添加到對比學習公式中。最后,與在一個特定領域執行的現有視聽同步任務不同,我們建議通過探索使用幾種基于transformer的體系結構來解決開放世界設置中的同步問題。通過這些模型,我們在具有挑戰性的語音數據集中獲得了最先進的結果,并在一般聲音數據集中顯示了出色的泛化效果。
本文探討了計算機如何使用自監督學習在沒有強監督的情況下學習視覺對象的結構。我們演示了我們可以使用一個以重構為關鍵學習信號的自動編碼框架來學習對象的結構表示。我們通過工程瓶頸將對象結構從其他變化因素中分離出來來做到這一點。此外,設計了以2D和3D物體地標或3D網格形式表示物體結構的瓶頸。具體來說,我們開發了一種自動發現2D對象地標的方法,無需任何注釋,該方法使用帶有2D關鍵點瓶頸的條件自動編碼器,將表示為2D關鍵點的姿勢和外觀分離開來。**盡管自監督學習方法能夠學習穩定的物體地標,但自動發現的地標與人類標注者標注的地標不一致。為解決這個問題,本文提出一種方法,通過引入一種新的地標自編碼,將未配對的經驗先驗注入到條件自編碼器中,可以利用對抗性學習中使用的強大圖像鑒別器。**這些條件自動編碼方法的一個副產品是,可以通過操縱瓶頸中的關鍵點來交互控制生成。我們利用這一特點在一個新的方法進行交互式3D形狀變形。該方法以自監督的方式訓練,使用自動發現的3D地標來對齊對3D形狀。在測試時間內,該方法允許用戶通過發現的三維物體標志進行物體形狀的交互變形。最后,我們提出了一種利用光幾何自編碼器恢復物體類別三維形狀的方法,而不需要任何三維注釋。它使用視頻進行訓練,并學會將輸入的圖像分解為剛性的姿勢、紋理和可變形的形狀模型。
計算上下文理解指的是agent融合不同信息源進行決策的能力,因此,通常被認為是人工智能(AI)等復雜機器推理能力的先決條件。數據驅動和知識驅動方法是追求這種機器意義生成能力的兩種經典技術。然而,雖然數據驅動的方法試圖通過在現實世界中的觀察來模擬事件的統計規律,但它們仍然難以解釋,而且缺乏自然地結合外部知識的機制。相反,知識驅動的方法結合了結構化的知識庫,使基于公理原則的符號推理成為可能,并產生更多可解釋的預測; 然而,它們往往缺乏估計推斷的統計顯著性或魯棒地適應輸入中的擾動的能力。為了解決這些問題,我們使用混合AI方法作為綜合兩種方法的優勢的一般框架。具體而言,我們繼承了神經符號的概念,將其作為一種使用領域知識來指導深度神經網絡學習進程的方法。領域知識以多種形式出現,包括:(i) 圖模型,它描述了實體之間的關系,如依賴、獨立、因果、相關和部分相關; (ii) 常識性知識,包括空間知識、物體的物理屬性、語義關系和功能知識; 專家智能體以演示或軟標簽的形式提供特權信息; (iv) 習得的行為原語和先驗,這些行為原語和先驗可能構成可推廣和可轉移的任務執行;以及(v)輔助任務、目標和約束條件——為約束優化精心選擇。
無論可用的領域知識類型是什么,相同的實際目標仍然是:學習有意義的神經表征,用于下游感興趣的任務。神經表征學習的潛在目標是在統計上識別agent輸入數據或觀察中變化的最佳解釋因素,通常需要對輸入中多種模式或觀點之間的互補性的直覺。雖然已經有很多關注于學習特定任務的有效神經表征,然后將學習到的表征轉移或適應其他任務,相對較少的重點放在有各種類型的領域知識的表征學習。這些知識可用于恢復潛在生成過程的信息,設計學習問題的有效建模策略,確保模型的可轉移性或泛化性,或理解視圖之間的互補性。本文研究了將上述類型的領域知識與神經表示相結合的方法,以提高以下問題領域的模型性能和通用性:神經常識推理、多模態機器人導航和自動駕駛。本文提供了一系列工具、方法、任務、國際AI挑戰和排行榜、數據集和知識圖;此外,這項工作還成功組織了兩場關于自動駕駛安全學習的國際研討會。
賦予機器以感知三維世界的能力,就像我們人類一樣,是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入,如二維/三維傳感器獲取的圖像或點云,一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而,他們很難推廣到新的對象和場景,并努力克服關鍵問題造成的視覺遮擋。相比之下,我們的目標是理解場景和其中的對象,通過學習一般和魯棒的表示使用深度神經網絡,訓練在大規模的真實世界3D數據。為了實現這些目標,本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。
在第3章中,我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形,提出一種強大的編碼器解碼器結構,并結合對抗式學習,從大型三維對象庫中學習可行的幾何先驗。在第4章中,我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法,我們的框架能夠集成可變數量的輸入視圖,預測穩健且一致的物體三維形狀。在第5章中,我們將我們的研究擴展到三維場景,這通常是一個復雜的個體對象的集合。現實世界的3D場景,例如點云,通常是雜亂的,無結構的,閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上,我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。
總的來說,本文開發了一系列新穎的數據驅動算法,讓機器感知我們真實的3D環境,可以說是在推動人工智能和機器理解的邊界。
//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28
使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。