亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

對圖像的細粒度理解有兩個方面:視覺理解和語義理解。前者致力于理解圖像中對象的內在屬性,而后者旨在將不同的對象與一定的語義聯系起來。這些都是深入理解圖像的基礎。今天的深度卷積網絡默認架構已經在捕捉圖像的2D視覺外觀,并隨后將視覺內容映射到語義類方面表現出了驚人的能力。然而,關于細粒度圖像理解的研究,如推斷固有的3D信息和更結構化的語義,卻很少被探索。在本文中,我們通過提出“如何更好地利用幾何來更好地理解圖像?”

  • 第一部分研究了基于三維幾何的視覺圖像理解。有可能用無紋理的3D形狀自動解釋圖像中的各種視覺內容。開發了一種深度學習框架,從2D圖像中可靠地恢復一組3D幾何屬性,如物體的姿態及其形狀的表面法線。
  • 在第二部分中,我們探索了用于圖像語義理解的標簽幾何。發現一組圖像分類問題具有幾何上相似的概率空間。因此,引入標記幾何,統一了one-vs rest分類、多標簽分類和分布外分類放在一個框架中。此外,學習的層次標簽幾何可以平衡圖像分類器的準確性和特異性。

引言

多倫多大學于2012年取得了徹底改變現代計算機視覺的突破[83]。他們的深度學習架構AlexNet在模擬大規模ImageNet計算機視覺挑戰[134]中取得了巨大的成功,在該挑戰中,一個算法被要求將數百萬張圖像分類為1000個類別。這個圖像分類模型,被稱為深度卷積神經網絡(DCNN),是受到我們大腦中數十億相互連接的神經元的啟發。通常,深度卷積神經網絡建立在一堆卷積層之上,每一層包含數十萬個功能連接,即人工神經元。視覺表征被一層一層地處理和轉換,類似于大腦視覺皮層中神經元的功能。與傳統的手工特征相比,例如[144,14,104,22,39],DCNN可以通過梯度反向傳播以端到端的方式從頭開始訓練。這使我們在設計手工特征描述符時擺脫了對專業知識的依賴。如今,更深[143]、更廣[176]和擁有更多連接[66]是新出現的深度神經網絡架構的關鍵特征[70,33,147,41]。隨著深度神經網絡容量的不斷增加,計算機在圖像分類[58]上的準確率正達到人類水平,甚至超越人類。在目標檢測[47,132,59,130,101],動作識別[142,150,32,159,15,161,174],創建藝術或照片逼真的[181,73]圖像以及許多其他應用中也取得了類似的成功。

盡管最近在使用深度學習解決計算機視覺問題方面取得了進展,但對圖像進行細粒度的理解仍然具有挑戰性。通常,對圖像的理解是雙重的:視覺理解和語義理解。前者努力理解圖像中物體的內在屬性,例如2D視覺外觀、3D形狀、3D位置和3D姿態等,而后者旨在將不同的物體與特定的語義聯系起來,例如物體的類別名稱[47,132,59,130,101]、動作[142,150,32,159,15,161,174]或屬性[135,99,158,135]。所有這些構成了深入理解我們希望機器擁有的圖像的基礎。當今的深度卷積網絡默認架構已經在捕捉二維域圖像的視覺外觀,并將視覺內容映射到特定的語義類(如圖像分類、動作識別)方面表現出了驚人的能力。然而,關于細粒度圖像理解的研究,如推斷固有的3D信息和更結構化的語義,卻很少被探索。本文通過研究如何利用幾何來更好地理解圖像,在這兩方面做出了貢獻。激發我們的角度來看待圖像的視覺理解和語義理解問題。

付費5元查看完整內容

相關內容

阿姆斯特丹大學(荷蘭文:Universiteit van Amsterdam,縮寫為 UvA),成立于1632年,坐落在荷蘭首都阿姆斯特丹市中心。阿姆斯特丹大學是歷史悠久的著名世界百強學府,也是歐洲最大的綜合性大學之一,擁有眾多國際學生交流項目和優良的國際聲譽。它同時是Universitas 21大學聯盟、歐洲大學協會、歐洲研究型大學聯盟與歐洲首都大學聯盟成員之一。[1] 阿姆斯特丹大學有高質量的研究生和世界前沿的研究培訓,同時本科教育也是世界最優秀的之一。它產生過6名諾貝爾獎得主,其中諾貝爾物理學家得主3名,和平、醫學和化學獎得主各一名。 如今,作為研究型大學的阿姆斯特丹大學有超過30000名學生,5000名員工和285個研究項目(學士和碩士項目),其中許多都是用英語授課的。阿姆斯特丹大學擁有超過6億歐元的預算,大學學院星羅棋布地分布在阿姆斯特丹城市的各個角落,目前該校設有七個學院:人文學院、社會與行為科學學院、商學院、法學院、理學院、醫學院和牙醫學院。 阿姆斯特丹大學的聲譽享譽全球,被譽為“歐洲的哈佛”。在2020年度USNEWS世界大學排名中,位列世界第四十位,歐盟區位列前三。

計算機視覺模型已經證明自己在識別和檢測多種真實世界的物體方面具有極高的能力:汽車、人、寵物等。然而,表現最佳的類別在當前的大規模數據集中有大量的示例,而對于模糊或小物體的識別仍然具有挑戰性。簡而言之,計算機視覺感知的能力仍然遠遠不及其黃金標準——人類的視覺感知。人類能夠快速學習新的類別,無論數據量多少,并且能夠對遠處、模糊或小物體進行分類。本論文的目標是通過兩個主要部分,縮小人類視覺和計算機視覺之間的差距。

在本論文的第一部分,我們專注于通過提高計算機視覺模型在具有真實世界數據分布的數據集上的性能,以縮小人類和計算機視覺之間的差距。由于真實世界的物體分布通常是不平衡的,其中一些類別經常出現,而另一些類別很少出現,模型在表現不足的類別上往往難以表現良好。相比之下,人類在學習新物體方面表現出色,即使這些物體很少出現。因此,我們的目標是改進標準視覺任務在長尾分布數據集上的表現,這些數據集類似于真實世界的分布。我們的第一種方法從視覺分類任務開始,我們的目標是提高在稀有類別上的性能。在這項工作中,我們通過利用為常見類別學習的表示和分類器,為稀有類別創建新的更強的分類器。我們的簡單方法可以應用在任何現有的分類器集合之上,因此展示了學習更好的分類器并不需要復雜或大規模的方法。我們的第二種方法涉及視覺檢測和分割,其中額外的定位任務使得訓練更好的稀有檢測器變得困難。我們對在長尾數據集中廣泛用于檢測的基本重采樣方法進行了深入研究。值得注意的是,我們展示了檢測中的基本重采樣策略不僅可以通過重采樣整個圖像來改進,還可以僅通過重采樣物體來改進。

成功的真實世界模型在很大程度上依賴于訓練和測試數據的質量。在本論文的第二部分,我們通過開發一個大規模的神經成像數據集,并識別和探索視覺數據集整理面臨的重大挑戰,以縮小人類和計算機視覺之間的差距。首先,我們構建了第一個大規模的視覺功能磁共振成像(fMRI)數據集,BOLD5000。為了縮小計算機視覺和人類視覺之間的差距,我們設計了一個數據集,其中包含從計算機視覺基準數據集中獲取的5000張圖像。通過這項工作,我們識別出數據集整理中一個關鍵且耗時的組成部分:為注釋員和參與者創建標簽說明。一個典型的視覺數據集的標簽說明將包括詳細的定義和提供給注釋員的視覺類別示例。這些標簽說明通過文本描述和視覺示例提供全面且高質量的類別定義。不幸的是,當前的數據集通常不發布他們的標簽說明(LIs)。我們引入了一個新的任務,標簽說明生成,以從現有數據集中反向工程LIs。我們的方法利用現有的大型視覺和語言模型(VLMs)來生成提供視覺有意義的示例的LIs,并在圖像檢索方面顯著超越所有基線。

付費5元查看完整內容

這篇論文提出了一些新穎的方法,用于解決深度神經網絡(DNNs)在3D理解和3D設置方面的魯棒性面臨的重要挑戰。我們的研究主要集中在兩個方面:3D數據和設置的對抗魯棒性以及DNNs在現實3D場景下的魯棒性。一個3D理解范式是將3D表示為一組3D點,并直接在這組點上學習函數。我們的第一個工作,AdvPC,解決了當前3D點云對抗攻擊的有限可遷移性和防御易用性問題。通過使用點云自動編碼器生成更具可遷移性的攻擊,AdvPC在3D點云攻擊可遷移性方面大幅領先于當前的最先進攻擊。此外,與ModelNet40數據集上的其他基準攻擊相比,AdvPC增加了破壞防御能力高達38%。另一個3D理解范式是對3D數據的多個圖像進行2D處理。第二項工作,MVTN,通過使用多視圖轉換網絡(MVTN)來學習最優視點,解決了選擇3D形狀識別視點的問題。它將MVTN與多視圖方法相結合,在標準基準ModelNet40、ShapeNet Core55和ScanObjectNN上取得了最先進的結果。MVTN還提高了對現實場景(如旋轉和遮擋)的魯棒性。

我們的第三項工作分析了二維深度神經網絡的語義魯棒性,通過將DNN全局行為可視化為語義映射并觀察一些DNNs的有趣行為,解決了DNNs對語義原語高度敏感的問題。此外,我們開發了一種自下而上的方法來檢測DNNs的魯棒區域,以實現可擴展的語義魯棒性分析和不同DNNs的基準測試。第四項工作SADA展示了DNNs在自主導航的安全關鍵應用方面缺乏魯棒性的問題,超出了簡單的分類設置。我們提出了一個通用框架(BBGAN),用于對受過訓練的代理進行黑盒對抗攻擊,涵蓋了對執行任務的代理環境的語義擾動。BBGAN經過訓練,可以生成在諸如物體檢測、自動駕駛和自主無人機競速等任務上始終欺騙受過訓練的代理的失敗案例。

//repository.kaust.edu.sa/handle/10754/691198

付費5元查看完整內容

以物體為中心的幾何感知旨在提取三維物體的幾何屬性。這些屬性包括目標物體的形狀、姿態和運動,能夠對圖形學、計算機視覺和機器人技術中的各種任務進行細粒度的對象級理解。隨著3D幾何數據和3D深度學習方法的增長,直接使用3D輸入數據實現此類任務的可能性越來越大。在不同的3D表示中,3D點云是一種簡單、常見且節省內存的表示,可以直接從多視圖圖像、深度掃描或LiDAR距離圖像中檢索。在實現以物體為中心的幾何感知方面存在不同的挑戰,如對具有多個剛性部件的常見鉸接物體實現細粒度的幾何理解,學習具有較少標簽的解纏形狀和姿態表示,或以端到端的方式處理動態和順序幾何輸入。本文通過設計有效和可泛化的3D表示、架構和管道,從3D深度學習的角度識別和解決這些挑戰。本文通過設計一種新的層次不變表示,首次對常見鉸接物體進行深度姿態估計。為了推動常見剛性物體的6D姿態估計的邊界,設計了一個簡單而有效的自監督框架來處理無標記的部分分割掃描。提出一種新的4D卷積神經網絡PointMotionNet來學習三維點云序列的時空特征。這些工作從一個獨特的3D深度學習視角推進了以物體為中心的幾何感知領域的研究。如今,3D傳感器廣泛安裝在各種移動設備上,如iPhone上的深度相機,或自動駕駛汽車上的激光雷達傳感器。這些3D傳感技術可以幫助我們準確地測量3D世界。對于機器智能領域,我們也希望構建智能系統和算法來學習有用的信息,更好地理解3D世界。我們人類具有不可思議的能力,通過我們的視覺或觸覺系統來感知和理解這個3D世界。例如,人類可以在沒有看到整個房間的情況下推斷出房間中家具的幾何結構和布置,我們能夠跟蹤一個3D對象,無論其外觀、形狀和比例如何變化,我們還可以根據順序觀察和復雜推理預測多個對象的未來運動。在這里,我的工作設計了各種框架,從大量3D點表示的幾何數據中學習這些3D信息,實現了對單個物體的細粒度幾何理解,可以幫助機器告訴目標物體的幾何、狀態和動態。本文的工作是為了更好地理解這個動態世界。

付費5元查看完整內容

與2D圖像數據相比,3D信息與人類的視覺感知更密切相關,有助于智能機器更好地了解世界。三維信息預測和理解,如結構預測和語義分析,在三維視覺感知中起著重要的作用。具體到3D結構,比如深度數據,雖然我們可以從各種3D傳感器中獲取它,但在機器學習框架中,仍然有大量的嘗試從單個圖像、視頻序列、立體聲數據或多模態數據中預測它。主要原因是3D傳感器通常價格昂貴,捕獲的3D數據通常稀疏且有噪聲。此外,網站中還有大量的圖片,我們希望從中獲取深度圖。最近的研究表明,深度神經網絡,如深度卷積神經網絡(DCNNs),在相關任務中具有優勢。盡管深度學習取得了巨大的成功,但仍有許多具有挑戰性的問題需要解決。例如,盡管有監督深度學習促使深度估計模型的性能有了很大的提高,但在許多場景下,對大量真實深度數據的需求很難滿足。因此,訓練三維結構估計模型需要采用無監督學習策略。在本文中,我們以一個眾所周知的具體任務,即單目深度估計為例,來研究這一問題。為了降低對真實深度的要求,研究了在合成數據上學習深度模型的域自適應技術,并探索真實數據中的幾何信息,使域自適應過程感知真實域的幾何結構。除了單幅或多幅圖像的預測外,我們還可以從多模態數據中估計深度,例如RGB圖像數據與3D激光掃描數據的耦合。為了實現這一目標,需要解決一些具有挑戰性的問題。例如,由于3D數據通常是稀疏且不規則分布的,我們需要從稀疏數據中建模上下文信息并融合多模態特征。在本文中,我們通過研究深度完成任務來考察這些問題。具體而言,我們提出采用圖傳播來捕獲觀測到的空間上下文,并引入對稱門控融合策略來有效地結合提取的多模態特征。

目前,各種經典的DCNNs被提出用于處理二維圖像數據進行各種分析,如語義理解。而三維點集作為一種重要的三維信息表示形式,由于其稀疏性和無序性,為了理解語義內容,需要新的操作來建模局部形狀,而不是傳統的卷積。在本文中,我們選擇點集作為三維數據的表示形式,即三維點云,然后設計了一個點云分析的基本操作。以往的工作主要考慮相鄰點對之間的關系進行特征聚合,而忽略了編碼局部形狀結構的邊之間的關系。為了提供補救,本文提出了一個新的自適應邊到邊交互學習模塊。此外,由于三維激光掃描儀配置的多樣性,捕獲的三維數據往往因數據集的對象大小、密度和視角而異。因此,三維數據分析中的域泛化問題也是一個關鍵問題。然而,據我們所知,這個問題仍然沒有得到充分的探索。為了對這一問題進行初步探索,本文還通過提出一個熵正則化項來研究3D形狀分類中的域泛化,該項衡量學習到的特征和類標簽之間的依賴性。

本文通過對4個具體任務的研究,圍繞模型設計、多模態融合、稀疏數據分析、無監督學習、域適應和域泛化等關鍵問題展開研究。

//ses.library.usyd.edu.au/handle/2123/27482

付費5元查看完整內容

基于深度學習的人工感知模型的出現徹底改變了計算機視覺領域。這些方法利用了機器不斷增長的計算能力和豐富的人工注釋數據,為廣泛的視覺任務構建有監督的學習者。然而,對人工標注的依賴也是這些方法可擴展性和通用性的瓶頸。我們認為,為了構建更通用的學習者(類似于嬰兒),開發在沒有人類監督的情況下學習的方法至關重要。在本文中,我們針對兩個關鍵問題:表征和識別,對最小化人類監督的作用進行了研究。最近的自監督表示學習(SSL)方法已經在許多下游任務上展示了令人印象深刻的泛化能力。在這篇論文中,我們研究了這些方法,并證明它們仍然嚴重依賴于干凈、策劃和結構化數據集的可用性。我們通過實驗證明,這些學習能力無法擴展到“野外”收集的數據,因此,在自監督學習中需要更好的基準。我們還提出了新的SSL方法,以最大限度地減少對托管數據的依賴。由于詳盡地收集所有視覺概念的注釋是不可行的,因此泛化超出現有監督范圍的方法對于構建可擴展的識別模型至關重要。我們提出了一種新穎的神經網絡架構,利用視覺概念的組成性質來構造未見概念的圖像分類器。對于收集密集注釋是不可行的領域,我們提出了一種“通過關聯理解”的范式,該范式將識別問題重新表述為對應的識別。我們將此應用于視頻,并表明我們可以通過識別與其他類似視頻的密集時空對應來密集地描述視頻。最后,為了探索人類超越語義范疇的泛化能力,我們引入了“功能對應問題”,并證明編碼對象功能屬性的表示可以用于更有效地識別新對象。

付費5元查看完整內容

場景表示是將對環境的傳感觀察轉換為緊湊描述的過程。這種智能行為是人工智能的基石。長期以來,科學家們一直試圖重現人類理解物理環境的非凡能力。將對環境的視覺傳感觀察作為輸入,現代智能系統主要致力于學習對基本場景屬性(如幾何和語義)進行編碼的神經表示。這種表示可以用于支持其他下游任務,最終在復雜的3D世界中實現自主感知和交互。近年來,深度神經網絡在神經場景表示中的幾何和語義信息建模方面表現出色。然而,由于不受控制的現實場景的脆弱性,構建健壯的系統仍然具有很高的挑戰性。由于對場景變化的傳感觀察的差異,不同類型的視覺表示之間的領域差距,以及對多類別信息的高效感知的要求,這為場景表示學習帶來了巨大的復雜性。為克服這些挑戰,本文追求魯棒、統一和信息豐富的場景表示,從不同類型的視覺輸入中學習幾何和語義,為自主學習理解周圍世界的智能機器鋪平道路。在此背景下,本文在視覺定位、像素點匹配和語義曲面重建領域做出了三個核心貢獻。

在這篇論文中,我們從單幅圖像開始估計6自由度(DoF)相機姿態。為了學習對環境變化和傳感器操作具有魯棒性的場景表示,提出了一種結合自注意模塊的神經網絡來建模復雜的幾何關系,給定的圖像相對于參考環境進行拍攝。然后,基于極線幾何和立體視覺的內在約束,我們構建了一個更通用的框架,在二維圖像和三維點云之間尋找統一的表示形式。通過引入超寬接收機制和新的損失函數,提出了一種雙全卷積框架,將2D和3D輸入映射到共享的潛表示空間中,以同時描述和檢測關鍵點,彌合2D和3D表示之間的差距。最后,我們將我們的研究擴展到開發信息表示,這通常是智能系統在現實場景中同時用于多個目的的操作所需要的。在借鑒以往基于點的網絡研究成果的基礎上,我們引入了一種全新的端到端神經隱式函數,它可以聯合估計原始和大規模點云的精確三維曲面和語義。

總體而言,本文開發了一系列新穎的深度神經框架,以推動場景表示的機器學習領域向能夠完全感知現實世界3D環境的人工智能發展。

付費5元查看完整內容

雖然深度學習已經成功地應用于計算機圖形學和視覺的許多任務,但標準的學習架構通常是基于密集和規則的形狀表示,如像素或體素網格。另一方面,幾十年的計算機圖形學和幾何處理研究已經產生了專門的算法和工具,這些算法和工具使用沒有這種規則結構的表示。在這篇論文中,我們回顧了幾何圖形中的傳統方法,提出了深度學習流程和歸納偏差,這些深度學習流程和歸納偏差可以直接兼容常見的幾何表示,而不依賴于簡單的統一結構。

在過去的十年中,硬件的發展、訓練數據的大規模可用性和算法的進步推動了深度學習在各種應用中的成功。神經網絡廣泛地能夠處理不完整、混亂和模糊的輸入,產生有用的和一致的輸出。計算機圖形學和視覺也不例外,深度學習的普及,數據驅動的方法現在已經成為許多任務的標準。在這些領域中,最富有成效的深度學習架構是卷積神經網絡(CNN)。如今,CNN在圖像分類、分割,目標檢測和圖像到圖像的轉換。然而,CNN對柵格表示(例如,圖1-1中的像素和體素網格)進行操作。網格結構是卷積的基本組成部分,是信息在網絡層之間和像素之間傳遞的一種機制。這種結構被用來優化GPU硬件性能,許多現成的數據集由像素或體素網格格式的示例組成。

由于各種原因,柵格表示很容易使用。它們與相機傳感器、屏幕等標準輸入輸出設備兼容,構成了表現不同結構和拓撲結構的多樣視覺內容的有效手段。因此,CNN利用合理的歸納偏差,以簡單的歐拉方式處理數據,將固定操作應用到密集的網格。另一方面,拉格朗日表示使用隨形狀移動的稀疏參數集,即控制點來表示幾何形狀。這種表示具有明顯的優勢。通過將形狀表示為基元的集合,我們可以輕松地應用轉換并以任意分辨率呈現,同時只存儲稀疏表示。此外,參數表示對于高級推理是有效的,例如發現公共底層結構和估計形狀之間的對應關系,促進檢索、探索和樣式/結構轉移的工具。它們可以用傳統軟件直觀地編輯,與分辨率無關,并且可以高效地存儲。

許多工具、算法和數學框架已經被開發出來,用于編寫、操作和分析此類拉格朗日內容。藝術家、工程師和動畫師使用標準的CAD和3D建模軟件。模擬依賴于使用網格的有限元分析。然而,通過將與我們的機器學習方法兼容的形狀模式限制在歐拉網格中,我們放棄了這些成熟工具的許多見解和技術。

在這篇論文中,我們提出設計深度學習算法。我們沒有將標準架構、損失函數和訓練算法視為理所當然,從而接受各自的輸入和輸出形狀模式,而是考慮了比像素更豐富、更適合應用的其他幾何原子單位。這種范式的轉變促使我們對傳統方法和應用進行現代化改造,這些方法和應用先于深度學習。特別是,我們借鑒了度量幾何、幾何測量理論、譜幾何和動畫等領域的思想,開發了自定義尾損失函數、架構和培訓管道,使深度學習成為處理視覺數據的從業者更有用的工具。

在這篇論文中,我們提出了深度學習架構、訓練程序和算法,使在可視化數據數據集上訓練神經網絡成為可能,這些數據的格式使用起來直觀,并兼容常見的下游任務和應用,如設計、建模、仿真和渲染。在第二章中,我們描述了一種基于三角形網格的編碼器,借鑒了譜幾何的思想。在第三章中,我們考慮了兩種方法,受度量幾何的啟發,來產生參數化定義的形狀,比如CAD模型。第四章介紹了一種混合形狀表示,它結合了顯式幾何的優點和隱式幾何的優點。最后,在第5章中,我們提出了一種自監督的方法來學習圖像集合的直觀分解,例如,動畫或視頻游戲的幀,這允許使用學習到的紋理塊作為幾何基元進行高級操作。我們在圖1-2中說明了我們的貢獻。

付費5元查看完整內容

引言

機器學習 (ML) 是人工智能 (AI) 的一個分支,它從數據中學習以識別模式、做出預測或做出決策,而人工干預最少。所有的機器學習技術都以數據為輸入,針對不同的任務,即分類、回歸、聚類、降維和排序等。

受益于海量數據和高計算資源,機器學習應用在我們的日常生活中變得無處不在。這些應用程序將人們從重復和復雜的工作中解放出來,并允許他們輕松獲取有用的信息。例如,人臉識別系統可以幫助人類進行識別和授權。搜索引擎通過索引、搜索和匹配來收集和組織與給定查詢相關的信息。導航應用程序為自動駕駛汽車推薦到達目的地的最佳路徑。

計算機視覺 (CV) 研究計算機如何獲取、處理、分析和理解數字圖像。 ML 的進步促進了 CV 的發展,尤其是圖像分類任務。深度學習(DL)是一種強大的機器學習技術。它允許設計可以自動識別圖像視覺內容的深度神經網絡(DNN)。從數千張動物、地點、人、植物等圖像中學習,DNN 能夠以高可信度檢測未知圖像包含的內容。

1.1 深度學習與深度神經網絡

在過去的幾十年中,DNN 在圖像分類領域迅速發展。卷積神經網絡 (CNN) [LBBH98] 獲得有用的語義視覺特征。典型的深度 CNN 具有許多層和復雜的架構,例如 AlexNet [KSH12]、Inception [SVI+16]、ResNet [HZRS16a]、DenseNet [HLVDMW17] 等。這些是少數著名的 DL 或 DNN 示例。這些網絡從圖像的高維表示空間計算梯度,以找到如何分離類別。最近的 DNN 模型以高置信度實現了分類、檢測和分割任務。 DNN 模型在 ImageNet [RDS+15](一個具有挑戰性和現實性的數據集)上的性能接近于人類。

DNN 的性能通常與其深度有關:網絡越深,性能越好。然而,由于大量層的深度堆疊以獲得語義視覺特征,DNN 的高復雜性導致訓練困難。這可能是由于反向傳播期間梯度消失,稱為梯度消失問題。存在許多 DNN 原始架構的變體,試圖規避此類問題。這包括來自 ResNet [HZRS16a] 和Transformer [VSP+17] 的剩余單元。在訓練過程中跳過層的剩余單元有效地簡化了網絡,加快了訓練過程并提供了探索更大的特征空間。然而,它也使 ResNet 更容易受到擾動。 Transformer [VSP+17] 使用自我注意的概念,幫助網絡專注于重要特征。總體而言,DNN 的所有這些進步都增強了分類等任務的性能。 DL 不僅成功地處理了大量圖像數據,而且還設法處理包含噪聲、遮擋或其他視覺偽影的圖像。

1.2 對抗樣本

2013 年,研究人員發現,對圖像進行輕微修改會導致分類器做出錯誤的預測 [SZS+13]。令人驚訝的是,這些修改幅度很小,人眼幾乎察覺不到。這一發現揭示了 DNN 的脆弱性

對抗性現象廣泛影響 ML。這會影響不同的媒體,例如圖像[SZS+13、GSS14、TPG+17]、音頻[CW18、YS18、YLCS18]和文本[RDHC19、ZSAL20、ASE+18]。此外,攻擊者不僅會生成保存為數字數據的對抗性樣本,例如圖像,在計算機中,但也可以在物理世界中創建對抗性樣本,例如對抗性補丁 [TVRG19]。這些是打印的圖片和 3D 對象 [KGB16, SBBR16],由相機等視覺傳感器捕獲,并影響使用它們的 ML 應用程序。

對抗性擾動是一種無形的擾動,它會誤導 DNN 將擾動的輸入分類為不正確的類別。例如,通過對抗性擾動,可以使分類器將貓分類為狗,如圖 1.1 所示。此外,對抗性現象在分類器之間轉移。利用 DNN 的某個漏洞的攻擊可能會欺騙其他 DNN,無論他們使用什么架構或訓練集。

圖 1.1 – 此圖片來自 Nicholas Carlini 的攻擊機器學習演講:關于神經網絡的安全性和隱私。它通過對抗性擾動顯示貓的圖像被歸類為狗。

將一個視覺內容修改為另一個是一個大問題 [EEF+18, TVRG19, TRC19a, YLDT18, GSS14]。攻擊者的目標是欺騙分類器做出不適當決策,可以方便地進行對抗性擾動。這是令人不安和危險的,尤其是當網絡決策危及生命時。例如,將特定形狀和顏色的小紙片放在一些路標上會阻止它們被識別 [BMR+17]。穿著具有特定紋理的徽章裝飾的布會使人對旨在檢測行人存在的算法不可見 [XZL+20]。考慮到所有這些潛在風險,了解對抗樣本的基本問題以確保算法公平、正確地處理內容至關重要。對抗性機器學習的典型研究任務包括攻擊和防御。研究人員研究這兩項任務是為了 i) 做出實際貢獻和 ii) 理解這一現象。

1.2.1 攻擊

攻擊旨在對目標 DNN 產生對抗性擾動。他們將不可見性和錯誤分類形式化為優化問題。攻擊的難度取決于攻擊者是否知道網絡的架構。基本情況是攻擊者可以訪問網絡的架構和參數,即白盒環境。他們受益于這些信息來制造對抗性擾動。

在不知道架構和參數的情況下攻擊網絡,即黑盒設置,是一個更復雜的情況。可遷移性意味著對抗樣本在不同的網絡和不同的機器學習模型[GSS14,TPG+17]中泛化得非常好。這表明為欺騙局部分類器而生成的對抗樣本也有一定的概率欺騙未知分類器。它提供了一種在黑盒環境中攻擊 DNN 的工具。

即使約束很嚴格,現有的攻擊也會成功地產生對抗性擾動。這些非同尋常的對抗性擾動表現出對抗性現象的不同特性和 DNN 的脆弱性。令人驚訝的是,例如,單像素攻擊 [SVS19] 通過僅修改輸入圖像的一個像素來改變網絡的預測。通用擾動 [MFFF17, HD18] 表明,一個特定的擾動足以導致給定數據集中的每張圖像都被錯誤分類。

1.2.2 防御

防御旨在提高 DNN 針對對抗性攻擊的魯棒性。他們要么添加一個額外的組件來幫助網絡抵御對抗性攻擊,要么提高網絡的內在魯棒性。

引入額外組件的防御保持網絡不變。對圖像應用預處理是該類別中的一種特殊防御方法。他們將對抗性擾動視為一種特殊類型的噪聲,并嘗試通過轉換 [MC17, GRCvdM17, STL+19] 將其去除。將對抗樣本視為惡意數據的人使用檢測器來識別對抗樣本并拒絕或糾正它們 [XEQ17, LLS+18]。這些防御很簡單的,很容易適應給定的網絡,但是,在白盒環境下通常很容易受到攻擊 [ACW18]。

提高內在魯棒性的防御嘗試改進訓練方法 [GSS14, MMS+17]、增強架構 [PMW+16] 或高級損失函數 [HXSS15, MMS+17, TKP+17]。對抗性訓練 [GSS14, MMS+17] 作為該類別的典型防御,通過將對抗性樣本作為訓練數據的一部分來改進訓練方法。這種防御背后的假設是,DNN 的脆弱性是由于訓練數據的不足造成的。這些防御措施在魯棒性和準確性方面都表現不錯,但是通常很復雜,因為它們需要從頭開始訓練網絡。

1.2 本論文貢獻

在本論文中,我們試圖理解對抗性現象。我們探討了如何生成對抗樣本以及如何保護它們。通過對對抗性 ML 的多個方面的分析,我們發現要研究的關鍵要素包括:

速度。速度對于對抗性攻擊和防御都很重要。盡管耗時的過程(例如優化創建對抗性擾動和訓練 DNN 模型)會產生高質量的結果,但如果需要很長時間來生成對抗性樣本、驗證輸入或構建魯棒的模型是不可行的。

不可見性。失真的大小被廣泛用于估計擾動的不可見性,但它并不等同于不可見性。不可見性表明從神經學和心理學的角度來看,人類無法察覺這種擾動。在計算機科學中衡量不可見性仍然是一個懸而未決的問題。

失真。作為衡量不可見性質量的替代計劃,許多攻擊估計了失真的程度。當幅度很小時,人類幾乎不會感知到擾動。失真的大小對防御也很重要。通常,對具有較大失真的對抗性擾動的防御對對抗性影響更為穩健。它是對抗性攻擊和防御的重要指標。

可轉移性。可轉移性描述了為欺騙目標網絡而生成的對抗性樣本成功欺騙其他網絡的可能性。可轉移性對于黑盒環境下的攻擊至關重要,即攻擊者只能獲取網絡的輸入輸出。

我們的工作受到速度、失真和不可見性的概念的啟發。我們測試了對抗性擾動的可轉移性。為了提高對抗性擾動的質量,我們在兩個方向上工作,即產生不可見的對抗性擾動和有效地創建低幅度的對抗性擾動。為了防御攻擊,我們提出了一種輕量級算法,該算法在魯棒性和準確性方面都取得了不錯的表現。我們強調速度和性能。

為了讓讀者更好地理解,我們首先在第 2 章中概述了 DL 中的對抗性上下文。這包括 1)理解我們的工作所需的 ML 和 DNN 的最低知識,2)對抗性問題的基本定義和3) 對現有相關工作的高級審查,包括產生對抗性擾動和增強對抗攻擊的魯棒性。

成功攻擊率和失真幅度是衡量對抗性擾動質量的兩個標準。在第 3 章中,我們介紹了對抗性擾動的標準評估,包括數據集、網絡和評估指標。此外,在第 3.3 節中,我們提出了我們的評估指標,允許在有針對性的失真攻擊和有針對性的成功攻擊之間進行公平比較。

我們研究了兩種執行攻擊的算法,以便了解不可見性(見第 4 章)和創造速度(見第 5 章)。

平滑的對抗性擾動。在第 4 章中,我們研究了不可見性的定義,并將其表述為一個約束函數,以便可以直接將其添加到現有攻擊中。我們推測,當擾動像素與其相鄰像素之間的相似性類似于其原始圖像的相似性圖時,對抗性擾動是不可見的。我們成功地產生了平滑的對抗性擾動,并且令人驚訝地產生了少量的失真。這些平滑的對抗性擾動是肉眼看不到的,即使對抗性樣本被人為放大。

快速、低失真的對抗樣本。為了在不降低對抗樣本質量的情況下加速攻擊,我們利用對抗擾動的具體知識改進了優化算法。在第 5 章中,我們提出了邊界投影(BP)攻擊,它根據當前的解決方案改變搜索方向。當當前解決方案不是對抗性的時,BP 攻擊會沿著梯度方向長搜索,以引導當前解決方案跨越網絡邊界。當當前解決方案是對抗性的時,BP 攻擊沿著邊界搜索以引導當前解決方案以減少失真的幅度。與最先進的攻擊相比,BP 攻擊避免了對僅跟隨梯度引起的振蕩計算的浪費。這為 BP 攻擊贏得了速度。實驗表明,BP攻擊成功地產生了幅度很小但攻擊成功率很高的對抗性擾動。

為了更全面地了解對抗性 ML 問題,我們研究了防御策略。第 6 章介紹了補丁替換防御。

補丁更換。與對抗性擾動相比,DNN 對隨機噪聲的魯棒性更強。為了理解它,我們研究了通過 DNN 的失真幅度(隨機噪聲/對抗性擾動)的轉變。受 DNN 內部隨機噪聲和對抗性擾動的不同行為啟發,我們在第 6 章提出了一種名為補丁更換的反應性防御。補丁替換試圖通過用合法訓練數據中最相似的鄰居替換可疑輸入(圖像/特征)的補丁,來消除推理中的對抗性影響。即使攻擊者知道補丁替換防御,訓練數據的使用也會增加攻擊的復雜性。由于我們不僅考慮圖像,還考慮網絡的中間特征,因此補丁替換比其他基于輸入轉換的防御更為穩健。一個缺點是在訓練時毒化數據集會給補丁替換策略帶來麻煩。這連接到對抗性后門。

最后,我們給出了結論,并在第 7 章提出了一些觀點。簡而言之,我們在理解對抗性 ML 問題方面的貢獻是 i)在另一個視圖中定義不可見性,并提出一種在我們的定義下產生平滑對抗性擾動的方法; ii) 提出一種算法,以高成功率和低失真快速生成對抗樣本; iii),我們成功地提出了一種不復雜的反應式防御,并在不嚴重降低網絡準確性的情況下提高了對攻擊的魯棒性。

圖 5.8 – ImageNet 上針對 InceptionV3 的原始(左)、對抗(頂行)和縮放擾動(下)圖像。這五幅圖像是需要最強失真的 BP 最差的 5 幅圖像,但這些圖像小于所有其他方法所需的失真(紅色表示偽造的圖像不是對抗性的)。擾動被反轉(低為白色;高為彩色,每個通道)并以相同的方式縮放以進行公平比較。

付費5元查看完整內容

賦予機器以感知三維世界的能力,就像我們人類一樣,是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入,如二維/三維傳感器獲取的圖像或點云,一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而,他們很難推廣到新的對象和場景,并努力克服關鍵問題造成的視覺遮擋。相比之下,我們的目標是理解場景和其中的對象,通過學習一般和魯棒的表示使用深度神經網絡,訓練在大規模的真實世界3D數據。為了實現這些目標,本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。

在第3章中,我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形,提出一種強大的編碼器解碼器結構,并結合對抗式學習,從大型三維對象庫中學習可行的幾何先驗。在第4章中,我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法,我們的框架能夠集成可變數量的輸入視圖,預測穩健且一致的物體三維形狀。在第5章中,我們將我們的研究擴展到三維場景,這通常是一個復雜的個體對象的集合。現實世界的3D場景,例如點云,通常是雜亂的,無結構的,閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上,我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。

總的來說,本文開發了一系列新穎的數據驅動算法,讓機器感知我們真實的3D環境,可以說是在推動人工智能和機器理解的邊界。

//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28

付費5元查看完整內容

使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。

付費5元查看完整內容
北京阿比特科技有限公司