給予機器精確感知并理解三維視覺世界的能力,是讓它們能夠在我們的物理世界中有效交互的基礎步驟。然而,由于3D形狀的復雜幾何結構和有限的高質量數據資源,大規模3D場景理解和感知的研究仍處于初級階段。在各種3D表示中,點云因其靈活性、緊湊性以及接近原始感知數據的特性而引起了越來越多的關注。盡管如此,由于其無序、非結構化和非均勻的特性,對大規模3D點云的語義理解仍然是一個挑戰。為此,本論文從高質量的城市規模數據集出發,做出了三個核心貢獻,然后完全監督語義理解,以便弱監督標簽有效學習大規模3D點云。本論文的主要貢獻有三個方面。在第三章中,我們首先構建了一個擁有近30億豐富注釋點的城市規模光學測量點云數據集。我們還識別出城市規模3D場景理解面臨的一些開放和獨特的挑戰,并進行全面的實驗分析來應對這些挑戰。這項工作指出了現有算法的局限性,并為理解城市環境中大規模3D點云提供了一些深思熟慮的結論。
在第四章中,我們利用高質量的大規模3D數據集,進一步研究大規模3D點云有效語義分割的研究問題。我們首先分析現有下采樣策略的優點和缺點,發現隨機抽樣是大規模點云有效學習的適合組成部分。此外,我們提出了一個本地特征聚合模塊,以分層方式增加感受野,并保留重要特征。然后,我們構建了一個高效的輕量級神經結構RandLA-Net,可以直接推斷出數百米范圍內包含數百萬點的大規模點云的每一點語義。在第五章中,我們更進一步研究大規模3D點云的標簽高效學習問題,即在有限注釋的情況下實現高質量的語義分割。我們首先檢查3D點云弱監督學習中的關鍵問題,包括不同的弱監督方案和弱注釋的關鍵點。通過一個初步研究,我們發現密集的3D注釋實際上是冗余和不必要的。受此啟發,我們提出了一個新的弱監督框架,通過利用鄰近點之間的語義同質性,隱式增加了可用監督信號的總量。這是通過一個點鄰域查詢實現的,允許稀疏的訓練信號被反向傳播到更廣泛的上下文。本論文中提出的所有算法和數據集都已經在GitHub上開源,以便于未來的研究。RandLA-Net算法被認為是CVPR 2020會議上最具影響力的論文之一,并已被整合到Open3D和TorchPoints3D等代碼庫中。SensatUrban數據集被用作兩次Urban3D挑戰的平臺,為城市規模點云的語義理解的進步做出了貢獻。總的來說,這篇論文呈現了一個高質量的數據集和兩個新穎的數據驅動算法,目標是實現大規模3D點云的有效、可擴展和有效的基于學習的語義理解,最終提高智能機器在實踐中的實時3D感知能力。
是一所英國研究型大學,也是羅素大學集團、英國“G5超級精英大學”,歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人,包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月,泰晤士高等教育發布了2016-2017年度世界大學排名,其中牛津大學排名第一。
對圖像的細粒度理解有兩個方面:視覺理解和語義理解。前者致力于理解圖像中對象的內在屬性,而后者旨在將不同的對象與一定的語義聯系起來。這些都是深入理解圖像的基礎。今天的深度卷積網絡默認架構已經在捕捉圖像的2D視覺外觀,并隨后將視覺內容映射到語義類方面表現出了驚人的能力。然而,關于細粒度圖像理解的研究,如推斷固有的3D信息和更結構化的語義,卻很少被探索。在本文中,我們通過提出“如何更好地利用幾何來更好地理解圖像?”
引言
多倫多大學于2012年取得了徹底改變現代計算機視覺的突破[83]。他們的深度學習架構AlexNet在模擬大規模ImageNet計算機視覺挑戰[134]中取得了巨大的成功,在該挑戰中,一個算法被要求將數百萬張圖像分類為1000個類別。這個圖像分類模型,被稱為深度卷積神經網絡(DCNN),是受到我們大腦中數十億相互連接的神經元的啟發。通常,深度卷積神經網絡建立在一堆卷積層之上,每一層包含數十萬個功能連接,即人工神經元。視覺表征被一層一層地處理和轉換,類似于大腦視覺皮層中神經元的功能。與傳統的手工特征相比,例如[144,14,104,22,39],DCNN可以通過梯度反向傳播以端到端的方式從頭開始訓練。這使我們在設計手工特征描述符時擺脫了對專業知識的依賴。如今,更深[143]、更廣[176]和擁有更多連接[66]是新出現的深度神經網絡架構的關鍵特征[70,33,147,41]。隨著深度神經網絡容量的不斷增加,計算機在圖像分類[58]上的準確率正達到人類水平,甚至超越人類。在目標檢測[47,132,59,130,101],動作識別[142,150,32,159,15,161,174],創建藝術或照片逼真的[181,73]圖像以及許多其他應用中也取得了類似的成功。
盡管最近在使用深度學習解決計算機視覺問題方面取得了進展,但對圖像進行細粒度的理解仍然具有挑戰性。通常,對圖像的理解是雙重的:視覺理解和語義理解。前者努力理解圖像中物體的內在屬性,例如2D視覺外觀、3D形狀、3D位置和3D姿態等,而后者旨在將不同的物體與特定的語義聯系起來,例如物體的類別名稱[47,132,59,130,101]、動作[142,150,32,159,15,161,174]或屬性[135,99,158,135]。所有這些構成了深入理解我們希望機器擁有的圖像的基礎。當今的深度卷積網絡默認架構已經在捕捉二維域圖像的視覺外觀,并將視覺內容映射到特定的語義類(如圖像分類、動作識別)方面表現出了驚人的能力。然而,關于細粒度圖像理解的研究,如推斷固有的3D信息和更結構化的語義,卻很少被探索。本文通過研究如何利用幾何來更好地理解圖像,在這兩方面做出了貢獻。激發我們的角度來看待圖像的視覺理解和語義理解問題。
現代生物醫學數據集——從基因表達的分子測量到病理圖像——為發現新的治療方法和探索有關細胞行為的基本問題提供了希望。對這些復雜的高維數據進行深思熟慮的統計建模,對于闡明可靠的科學發現至關重要。數據分析中一個常見的假設是數據樣本是獨立同分布的。然而,這個假設在實踐中幾乎總是被違背。在生物醫學數據的設置中尤其如此,生物醫學數據通常表現出一定的結構,例如患者的亞群、細胞或組織類型或樣本之間的其他相關結構。
在這項工作中,我提出了數據分析和實驗設計框架,以解釋幾種類型的高度結構化生物醫學數據。這些方法采用貝葉斯模型和相關推理算法的形式,是專門為具有組結構、多種數據模態和樣本空間組織的數據集量身定制的。在第一行工作中,我提出了一個對比降維模型,該模型分解了屬于案例和控制條件的樣本的變異源。其次,提出了一種計算框架,用于將空間分辨的基因組數據對齊到一個共同的坐標系中,該坐標系考慮了樣本之間的空間相關性,并對多種數據模態進行建模。最后,我提出了一系列方法,用于優化設計空間分辨基因組學實驗,這些方法是為這些研究的高度結構化數據收集過程量身定制的。通過開發直接利用這些數據中常見結構類型的模型,并展示這些建模方法在各種數據類型中的優勢,這些工作推進了生物醫學數據分析領域。 //dataspace.princeton.edu/handle/88435/dsp01bn9999982
以物體為中心的幾何感知旨在提取三維物體的幾何屬性。這些屬性包括目標物體的形狀、姿態和運動,能夠對圖形學、計算機視覺和機器人技術中的各種任務進行細粒度的對象級理解。隨著3D幾何數據和3D深度學習方法的增長,直接使用3D輸入數據實現此類任務的可能性越來越大。在不同的3D表示中,3D點云是一種簡單、常見且節省內存的表示,可以直接從多視圖圖像、深度掃描或LiDAR距離圖像中檢索。在實現以物體為中心的幾何感知方面存在不同的挑戰,如對具有多個剛性部件的常見鉸接物體實現細粒度的幾何理解,學習具有較少標簽的解纏形狀和姿態表示,或以端到端的方式處理動態和順序幾何輸入。本文通過設計有效和可泛化的3D表示、架構和管道,從3D深度學習的角度識別和解決這些挑戰。本文通過設計一種新的層次不變表示,首次對常見鉸接物體進行深度姿態估計。為了推動常見剛性物體的6D姿態估計的邊界,設計了一個簡單而有效的自監督框架來處理無標記的部分分割掃描。提出一種新的4D卷積神經網絡PointMotionNet來學習三維點云序列的時空特征。這些工作從一個獨特的3D深度學習視角推進了以物體為中心的幾何感知領域的研究。如今,3D傳感器廣泛安裝在各種移動設備上,如iPhone上的深度相機,或自動駕駛汽車上的激光雷達傳感器。這些3D傳感技術可以幫助我們準確地測量3D世界。對于機器智能領域,我們也希望構建智能系統和算法來學習有用的信息,更好地理解3D世界。我們人類具有不可思議的能力,通過我們的視覺或觸覺系統來感知和理解這個3D世界。例如,人類可以在沒有看到整個房間的情況下推斷出房間中家具的幾何結構和布置,我們能夠跟蹤一個3D對象,無論其外觀、形狀和比例如何變化,我們還可以根據順序觀察和復雜推理預測多個對象的未來運動。在這里,我的工作設計了各種框架,從大量3D點表示的幾何數據中學習這些3D信息,實現了對單個物體的細粒度幾何理解,可以幫助機器告訴目標物體的幾何、狀態和動態。本文的工作是為了更好地理解這個動態世界。
場景表示是將對環境的傳感觀察轉換為緊湊描述的過程。這種智能行為是人工智能的基石。長期以來,科學家們一直試圖重現人類理解物理環境的非凡能力。將對環境的視覺傳感觀察作為輸入,現代智能系統主要致力于學習對基本場景屬性(如幾何和語義)進行編碼的神經表示。這種表示可以用于支持其他下游任務,最終在復雜的3D世界中實現自主感知和交互。近年來,深度神經網絡在神經場景表示中的幾何和語義信息建模方面表現出色。然而,由于不受控制的現實場景的脆弱性,構建健壯的系統仍然具有很高的挑戰性。由于對場景變化的傳感觀察的差異,不同類型的視覺表示之間的領域差距,以及對多類別信息的高效感知的要求,這為場景表示學習帶來了巨大的復雜性。為克服這些挑戰,本文追求魯棒、統一和信息豐富的場景表示,從不同類型的視覺輸入中學習幾何和語義,為自主學習理解周圍世界的智能機器鋪平道路。在此背景下,本文在視覺定位、像素點匹配和語義曲面重建領域做出了三個核心貢獻。
在這篇論文中,我們從單幅圖像開始估計6自由度(DoF)相機姿態。為了學習對環境變化和傳感器操作具有魯棒性的場景表示,提出了一種結合自注意模塊的神經網絡來建模復雜的幾何關系,給定的圖像相對于參考環境進行拍攝。然后,基于極線幾何和立體視覺的內在約束,我們構建了一個更通用的框架,在二維圖像和三維點云之間尋找統一的表示形式。通過引入超寬接收機制和新的損失函數,提出了一種雙全卷積框架,將2D和3D輸入映射到共享的潛表示空間中,以同時描述和檢測關鍵點,彌合2D和3D表示之間的差距。最后,我們將我們的研究擴展到開發信息表示,這通常是智能系統在現實場景中同時用于多個目的的操作所需要的。在借鑒以往基于點的網絡研究成果的基礎上,我們引入了一種全新的端到端神經隱式函數,它可以聯合估計原始和大規模點云的精確三維曲面和語義。
總體而言,本文開發了一系列新穎的深度神經框架,以推動場景表示的機器學習領域向能夠完全感知現實世界3D環境的人工智能發展。
圖神經網絡(GNNs)成功地從大多數類型的網絡數據學習表示,但在大型圖的情況下受到限制。挑戰出現在學習架構的設計本身,因為大多數GNN是由圖的一些矩陣表示(例如,鄰接矩陣)參數化的,當網絡很大時,這可能很難獲得。此外,在許多GNN架構中,圖操作是通過譜域中的卷積操作來定義的。在這種情況下,另一個障礙是圖譜的獲得,這需要代價高昂的矩陣特征分解。
然而,從共享結構屬性的意義上來說,大型圖通常可以被識別為彼此相似。因此,我們可以預期,處理這些圖上支持的數據應該會產生類似的結果,這將減輕大尺寸的挑戰,因為我們可以為小圖設計GNN,并將它們轉移到更大的圖上。在這篇論文中,我將這種直覺形式化,并表明當這些圖屬于同一個“族”時,這種圖的可移植性是可能的,其中每個族由不同的圖元標識。
graphon是一個函數W(x,y),它描述了一類具有相似形狀的隨機圖。我們可以將參數(x,y)看作是一對節點的標簽,以及圖元值W(x,y)作為x和y之間一條邊的概率的標簽。這產生了一個從圖元采樣的圖的概念,或者,等價地,一個隨著采樣圖中節點數量增長的極限的概念。從一個graphon上采樣的圖形幾乎肯定在極限上具有相同的屬性,例如同態密度,這在實踐中意味著,graphon識別的網絡家族在某種意義上是相似的,某些“motifs”的密度是保持不變的。這激發了對圖上的信息處理的研究,作為在大型圖上進行信息處理的一種方法。
信號處理理論的核心部分是一個移位的概念,它引入了一類具有傅立葉變換(FT)特征的光譜表示的線性濾波器。本文表明,graphon誘導了一個線性算子,可用于定義移位,從而定義graphon濾波器和graphon FT。基于圖序列和相關圖信號的收斂性質,可以證明對于這些序列,圖FT收斂到graphon FT,圖濾波器的輸出收斂到具有相同系數的graphon濾波器的輸出。這些定理表明,對于屬于某些族的圖,圖傅里葉分析和圖濾波器設計具有明確的限制。反過來,這些事實使具有大量節點的圖上的圖信息處理成為可能,因為為極限圖設計的信息處理管道可以應用于有限圖。
我們通過組合具有點非線性的graphon濾波器組來進一步定義graphon神經網絡(WNNs)。WNNs是理想的極限,在實際中并不存在,但它們是理解GNNs基本性質的有用工具。特別是,graphon濾波器的采樣和收斂結果可以很容易地擴展到WNNs,從而表明當圖收斂到graphon時,GNN收斂到WNNs。如果兩個GNN可以任意接近同一個WNN,那么通過一個簡單的三角形不等式參數,它們也可以任意接近彼此。這個結果證實了我們的直覺,即GNN可以在相似的圖之間轉移。一個GNN可以在中等規模的圖上訓練,并在一個可轉移性誤差主要為最小圖的大小的倒數的大尺度圖上執行。有趣的是,這種誤差隨著卷積濾波器光譜響應的可變性而增加,揭示了從圖濾波器繼承來的可轉移性和光譜鑒別性之間的權衡。在實踐中,由于非線性,這種權衡在GNN中很少出現,它能夠將數據的光譜成分分散到特征值譜的不同部分,在那里它們可以被區分。這解釋了為什么GNN比圖過濾器更可轉移。
長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。
//www.repository.cam.ac.uk/handle/1810/304385
其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。
大量大維度數據是現代機器學習(ML)的默認設置。標準的ML算法,從支持向量機這樣的內核方法和基于圖的方法(如PageRank算法)開始,最初的設計是基于小維度的,在處理真實世界的大數據集時,即使不是完全崩潰的話,往往會表現失常。隨機矩陣理論最近提出了一系列廣泛的工具來幫助理解這種新的維數詛咒,幫助修復或完全重建次優算法,最重要的是提供了處理現代數據挖掘的新方向。本編著的主要目的是提供這些直覺,通過提供一個最近的理論和應用突破的隨機矩陣理論到機器學習摘要。針對廣泛的受眾,從對統計學習感興趣的本科生到人工智能工程師和研究人員,這本書的數學先決條件是最小的(概率論、線性代數和真實和復雜分析的基礎是足夠的):與隨機矩陣理論和大維度統計的數學文獻中的介紹性書籍不同,這里的理論重點僅限于機器學習應用的基本要求。這些應用范圍從檢測、統計推斷和估計,到基于圖和核的監督、半監督和非監督分類,以及神經網絡: 為此,本文提供了對算法性能的精確理論預測(在不采用隨機矩陣分析時往往難以實現)、大維度的洞察力、改進方法,以及對這些方法廣泛適用于真實數據的基本論證。該專著中提出的大多數方法、算法和圖形都是用MATLAB和Python編寫的,讀者可以查閱(//github.com/Zhenyu-LIAO/RMT4ML)。本專著也包含一系列練習兩種類型:短的練習與修正附加到書的最后讓讀者熟悉隨機矩陣的基本理論概念和工具分析,以及長期指導練習應用這些工具進一步具體的機器學習應用程序。
賦予機器以感知三維世界的能力,就像我們人類一樣,是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入,如二維/三維傳感器獲取的圖像或點云,一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而,他們很難推廣到新的對象和場景,并努力克服關鍵問題造成的視覺遮擋。相比之下,我們的目標是理解場景和其中的對象,通過學習一般和魯棒的表示使用深度神經網絡,訓練在大規模的真實世界3D數據。為了實現這些目標,本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。
在第3章中,我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形,提出一種強大的編碼器解碼器結構,并結合對抗式學習,從大型三維對象庫中學習可行的幾何先驗。在第4章中,我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法,我們的框架能夠集成可變數量的輸入視圖,預測穩健且一致的物體三維形狀。在第5章中,我們將我們的研究擴展到三維場景,這通常是一個復雜的個體對象的集合。現實世界的3D場景,例如點云,通常是雜亂的,無結構的,閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上,我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。
總的來說,本文開發了一系列新穎的數據驅動算法,讓機器感知我們真實的3D環境,可以說是在推動人工智能和機器理解的邊界。
//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28