一区二区三区四区五区无码,亚洲国产日韩欧美在线视频,999九九九久久久精品,欧美日韩一区二区三区四区

賦予機器以感知三維世界的能力，就像我們人類一樣，是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入，如二維/三維傳感器獲取的圖像或點云，一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而，他們很難推廣到新的對象和場景，并努力克服關鍵問題造成的視覺遮擋。相比之下，我們的目標是理解場景和其中的對象，通過學習一般和魯棒的表示使用深度神經網絡，訓練在大規模的真實世界3D數據。為了實現這些目標，本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。

在第3章中，我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形，提出一種強大的編碼器解碼器結構，并結合對抗式學習，從大型三維對象庫中學習可行的幾何先驗。在第4章中，我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法，我們的框架能夠集成可變數量的輸入視圖，預測穩健且一致的物體三維形狀。在第5章中，我們將我們的研究擴展到三維場景，這通常是一個復雜的個體對象的集合。現實世界的3D場景，例如點云，通常是雜亂的，無結構的，閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上，我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。

總的來說，本文開發了一系列新穎的數據驅動算法，讓機器感知我們真實的3D環境，可以說是在推動人工智能和機器理解的邊界。

//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28

付費5元查看完整內容

相關內容

牛津大學 (University of Oxford)

關注 31

是一所英國研究型大學，也是羅素大學集團、英國“G5超級精英大學”，歐洲頂尖大學科英布拉集團、歐洲研究型大學聯盟的核心成員。牛津大學培養了眾多社會名人，包括了27位英國首相、60位諾貝爾獎得主以及數十位世界各國的皇室成員和政治領袖。2016年9月，泰晤士高等教育發布了2016-2017年度世界大學排名，其中牛津大學排名第一。

加州大學伯克利分校 (UC Berkeley) · 結構化模型 · 視覺與語言推理 ·

2020 年 10 月 31 日

[付費5元查看完整內容]【伯克利胡戎航博士論文】視覺與語言推理的結構化模型，124頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Ronghang Hu (胡戎航)

胡戎航(Ronghang Hu)是Facebook人工智能研究(FAIR)的研究科學家。他的研究興趣包括視覺和語言推理和視覺感知。他于2020年在Trevor Darrell教授和Kate Saenko教授的指導下獲得UC Berkeley的計算機科學博士學位。2019年夏天和2017年夏天，他在FAIR做研究實習生，分別與Marcus Rohrbach博士和Ross Girshick博士一起工作。2015年獲得清華大學學士學位。2014年，他在中國科學院計算技術研究所進行研究實習，得到了山時光教授和王瑞平教授的指導。

//ronghanghu.com/

視覺與語言推理的結構化模型

視覺和語言任務(例如回答一個關于圖像的問題，為參考表達做基礎，或遵循自然語言指令在視覺環境中導航)需要對圖像和文本的兩種模式共同建模和推理。我們已經見證了視覺和語言推理的顯著進展，通常是通過在更大的數據集和更多計算資源的幫助下訓練的神經方法。然而，解決這些視覺和語言的任務就像用更多的參數建立模型，并在更多的數據上訓練它們一樣簡單嗎?如果不能，我們怎樣才能建立數據效率高、易于推廣的更好的推理模型呢?

這篇論文用視覺和語言推理的結構化模型為上述問題提供了答案——這些模型的架構考慮了人類語言、視覺場景和代理技能中的模式和規律。我們從表達式的基礎開始，我們在第二章中展示了通過考慮這些表達式中的組合結構，我們提出的組合模塊網絡(CMNs)可以實現更好的準確性和泛化。在第三章中，我們使用基于與問題推理步驟一致的動態組合模塊的端到端模塊網絡(N2NMNs)進一步解決了可視化的問題回答任務。在第四章中，我們擴展了模塊化推理的研究，提出了基于可解釋推理步驟的堆棧神經模塊網絡(SNMNs)。模塊化推理之外,我們也提出構建環境敏感的視覺表征與Language-Conditioned場景圖網絡(LCGNs)。第五章對于關系推理和解決問題的閱讀文本圖像的問答迭代pointer-augmented多通道變形金剛。在第六章，我們說明了嵌入任務也需要結構化模型，并在第7章中提出了說話者-跟隨者模型，其中說話者模型和跟隨者模型互為補充。在所有這些場景中，我們表明，通過考慮任務中的結構和輸入模式，我們的模型的執行和泛化明顯優于非結構化對應模型。

付費5元查看完整內容

機器閱讀理解 · 神經網絡 ·

2020 年 10 月 22 日

[付費5元查看完整內容]斯坦福陳丹琦博士論文中文版：神經網絡閱讀理解與超越【附156頁pdf】

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

教機器理解人類語言文檔是人工智能領域最難以捉摸和長期存在的挑戰之一。本文探討了閱讀理解的問題:如何構建計算機系統來閱讀一篇文章并回答理解問題。一方面，我們認為閱讀理解是評估計算機系統理解人類語言能力的一項重要任務。另一方面，如果我們能夠構建高性能的閱讀理解系統，它們將成為問答和對話系統等應用的關鍵技術。

本文主要研究了基于深度神經網絡的閱讀理解模型。與傳統的稀疏的、手工設計的基于特征的模型相比，這些端到端神經模型被證明在學習豐富的語言現象方面更有效，并在很大程度上提高了所有現代閱讀理解基準的性能。

本文由兩部分組成。第一部分，我們的目標是涵蓋神經閱讀理解的本質，并介紹我們在構建有效的神經閱讀壓縮模型方面所做的努力，更重要的是了解神經閱讀理解模型實際學習了什么，以及解決當前任務需要多大的語言理解深度。我們還總結了該領域的最新進展，并討論了該領域未來的發展方向和有待解決的問題。

在本文的第二部分，我們探討了如何基于最近神經閱讀理解的成功構建實際應用。特別是，我們開創了兩個新的研究方向:1)如何將信息檢索技術與神經閱讀理解相結合，解決大規模開放領域的問題回答;和2)如何從現有的單輪、基于斯潘語言的閱讀理解模型中構建會話問答系統。我們在DRQA和COQA項目中實現了這些想法，并證明了這些方法的有效性。我們相信它們對未來的語言技術有著巨大的前景。

//chendq-thesis-zh.readthedocs.io/en/latest/index.html

付費5元查看完整內容

深度神經網絡 · 解釋深度神經網絡 · 可解釋性 ·

2020 年 10 月 8 日

[付費5元查看完整內容]【牛津大學博士論文】解釋深度神經網絡，134頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】牛津大學的博士生Oana-Maria Camburu撰寫了畢業論文《解釋神經網絡（Explaining Deep Neural Networks）》，系統性介紹了深度神經網絡可解釋性方面的工作，值得關注。

作者介紹：

Oana-Maria Camburu，來自羅馬尼亞，目前是牛津大學的博士生，主修機器學習、人工智能等方向。

Explaining Deep Neural Networks

深度神經網絡在計算機視覺、自然語言處理和語音識別等不同領域取得了革命性的成功，因此越來越受歡迎。然而，這些模型的決策過程通常是無法向用戶解釋的。在各種領域，如醫療保健、金融或法律，了解人工智能系統所做決策背后的原因至關重要。因此，最近研究了幾個解釋神經模型的方向。

在這篇論文中，我研究了解釋深層神經網絡的兩個主要方向。第一個方向由基于特征的事后解釋方法組成，也就是說，這些方法旨在解釋一個已經訓練過的固定模型(事后解釋)，并提供輸入特征方面的解釋，例如文本標記和圖像的超級像素(基于特征的)。第二個方向由生成自然語言解釋的自解釋神經模型組成，也就是說，模型有一個內置模塊，為模型的預測生成解釋。在這些方面的貢獻如下：

首先，我揭示了僅使用輸入特征來解釋即使是微不足道的模型也存在一定的困難。我表明，盡管有明顯的隱含假設，即解釋方法應該尋找一種特定的基于真實值特征的解釋，但對于預測通常有不止一種這樣的解釋。我還展示了兩類流行的解釋方法，它們針對的是不同類型的事實基礎解釋，但沒有明確地提及它。此外，我還指出，有時這兩種解釋都不足以提供一個實例上決策過程的完整視圖。
其次，我還介紹了一個框架，用于自動驗證基于特征的事后解釋方法對模型的決策過程的準確性。這個框架依賴于一種特定類型的模型的使用，這種模型有望提供對其決策過程的洞察。我分析了這種方法的潛在局限性，并介紹了減輕這些局限性的方法。引入的驗證框架是通用的，可以在不同的任務和域上實例化，以提供現成的完整性測試，這些測試可用于測試基于特性的后特殊解釋方法。我在一個情緒分析任務上實例化了這個框架，并提供了完備性測試s1，在此基礎上我展示了三種流行的解釋方法的性能。
第三，為了探索為預測生成自然語言解釋的自解釋神經模型的發展方向，我在有影響力的斯坦福自然語言推斷(SNLI)數據集之上收集了一個巨大的數據集，數據集約為570K人類編寫的自然語言解釋。我把這個解釋擴充數據集稱為e-SNLI。我做了一系列的實驗來研究神經模型在測試時產生正確的自然語言解釋的能力，以及在訓練時提供自然語言解釋的好處。
第四，我指出，目前那些為自己的預測生成自然語言解釋的自解釋模型，可能會產生不一致的解釋，比如“圖像中有一只狗。”以及“同一幅圖片中沒有狗”。不一致的解釋要么表明解釋沒有忠實地描述模型的決策過程，要么表明模型學習了一個有缺陷的決策過程。我將介紹一個簡單而有效的對抗性框架，用于在生成不一致的自然語言解釋時檢查模型的完整性。此外，作為框架的一部分，我解決了使用精確目標序列的對抗性攻擊的問題，這是一個以前在序列到序列攻擊中沒有解決的場景，它對于自然語言處理中的其他任務很有用。我將這個框架應用到e-SNLI上的一個最新的神經模型上，并表明這個模型會產生大量的不一致性。

這項工作為獲得更穩健的神經模型以及對預測的可靠解釋鋪平了道路。

地址： //arxiv.org/abs/2010.01496

付費5元查看完整內容

深度生成模型 · 穩定性 · 表達力 ·

2020 年 9 月 9 日

[付費5元查看完整內容]【德國杜賓根大學博士論文】深度生成模型的穩定性與表達力，279頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，深度學習徹底改變了機器學習和計算機視覺。許多經典的計算機視覺任務(例如目標檢測和語義分割)，傳統上非常具有挑戰性，現在可以使用監督深度學習技術來解決。雖然監督學習是一個強大的工具，當標簽數據是可用的，并考慮的任務有明確的輸出，這些條件并不總是滿足。在這種情況下，生成建模給出了一個很有前途的方法。與純粹的判別型模型相比，生成型模型可以處理不確定性，甚至在沒有標簽訓練數據的情況下也可以學習強大的模型。然而, 雖然目前的方法生成建模取得可喜的成果, 他們遭受兩個方面,限制他們的表現力: (i) 為圖像數據建模的一些最成功的方法不再使用優化算法來訓練，而是使用其動力學尚未被很好理解的算法，(ii) 生成模型往往受到輸出表示的內存需求的限制。我們在本文中解決了這兩個問題:在第一部分中，我們介紹了一個理論，它使我們能夠更好地理解生成式對抗網絡(GANs)的訓練動力學，這是生成式建模最有前途的方法之一。我們通過引入可解析理解的GAN訓練的最小示例問題來解決這個問題。隨后，我們逐漸增加了這些示例的復雜性。通過這樣做，我們對GANs的訓練動力學有了新的認識，并推出了新的正則化器，也適用于一般的GANs。新的正則化器使我們能夠——第一次——以百萬像素的分辨率訓練GAN，而不必逐漸增加訓練分布的分辨率。在本論文的第二部分，我們考慮生成模型的三維輸出表示和三維重建技術。通過將隱式表示法引入深度學習，我們能夠在不犧牲表現力的情況下將許多2D領域的技術擴展到3D領域。

//publikationen.uni-tuebingen.de/xmlui/handle/10900/106074

付費5元查看完整內容

自監督學習 · 表示學習 ·

2020 年 6 月 19 日

[付費5元查看完整內容]【斯坦福大學博士論文】自監督場景表示學習， 97頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務，從機器人技術到計算機圖形再到醫學成像。然而，現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中，我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀，只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布，我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明，在這個過程中學習到的特征使整個類對象的三維語義分割成為可能，只訓練了30個帶標記的例子，證明了三維形狀、外觀和語義分割之間的緊密聯系。最后，我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用，并討論了未來工作的前景。

付費5元查看完整內容

統計模型 · 斯坦福大學 (Stanford University) ·

2020 年 6 月 18 日

[付費5元查看完整內容]【斯坦福大學博士論文】統計模型的代數與機器表示，224頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著開放科學和開放資源的雙重運動將越來越多的科學過程帶入數字領域，科學本身的元科學研究(包括數據科學和統計)出現了新的機會。未來的科學很可能看到機器在處理、組織甚至創造科學知識方面發揮積極作用。為了使這成為可能，必須進行大量的工程努力來將科學工件轉化為有用的計算資源，并且必須在科學理論、模型、實驗和數據的組織方面取得概念上的進展。本論文的目標是將數據科學的兩大主要產物——統計模型和數據分析——數字化和系統化。使用來自代數的工具，特別是分類邏輯，在統計和邏輯的模型之間進行了精確的類比，使統計模型在邏輯意義上被視為理論的模型。統計理論，作為代數結構，服從機器表示，并配備了形式化不同統計方法之間的關系的形態。從數學轉向工程，設計和實現了一個軟件系統，用于以Python或R程序的形式創建數據分析的機器表示。表示的目的是捕獲數據分析的語義，獨立于實現它們的編程語言和庫。

//arxiv.org/abs/2006.08945

付費5元查看完整內容

強化學習 · 博士論文 ·

2020 年 5 月 18 日

[付費5元查看完整內容]【牛津大學博士論文】基于強化學習的無地圖機器人導航，Reinforcement Learning Based MRN

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

導航是移動機器人所需要的最基本的功能之一，允許它們從一個源穿越到一個目的地。傳統的辦法嚴重依賴于預先確定的地圖的存在，這種地圖的取得時間和勞力都很昂貴。另外，地圖在獲取時是準確的，而且由于環境的變化會隨著時間的推移而退化。我們認為，獲取高質量地圖的嚴格要求從根本上限制了機器人系統在動態世界中的可實現性。本論文以無地圖導航的范例為動力，以深度強化學習(DRL)的最新發展為靈感，探討如何開發實用的機器人導航。

DRL的主要問題之一是需要具有數百萬次重復試驗的不同實驗設置。這顯然是不可行的，從一個真實的機器人通過試驗和錯誤，所以我們反而從一個模擬的環境學習。這就引出了第一個基本問題，即彌合從模擬環境到真實環境的現實差距，該問題將在第3章討論。我們把重點放在單眼視覺避障的特殊挑戰上，把它作為一個低級的導航原語。我們開發了一種DRL方法，它在模擬世界中訓練，但可以很好地推廣到現實世界。

在現實世界中限制移動機器人采用DRL技術的另一個問題是訓練策略的高度差異。這導致了較差的收斂性和較低的整體回報，由于復雜和高維搜索空間。在第4章中，我們利用簡單的經典控制器為DRL的局部導航任務提供指導，避免了純隨機的初始探索。我們證明，這種新的加速方法大大減少了樣本方差，并顯著增加了可實現的平均回報。

我們考慮的最后一個挑戰是無上限導航的稀疏視覺制導。在第五章，我們提出了一種創新的方法來導航基于幾個路點圖像，而不是傳統的基于視頻的教學和重復。我們證明，在模擬中學習的策略可以直接轉移到現實世界，并有能力很好地概括到不可見的場景與環境的最小描述。

我們開發和測試新的方法，以解決障礙規避、局部引導和全球導航等關鍵問題，實現我們的愿景，實現實際的機器人導航。我們將展示如何將DRL作為一種強大的無模型方法來處理這些問題

付費5元查看完整內容

機器學習 · 速查手冊 ·

2020 年 3 月 15 日

[付費5元查看完整內容]機器學習速查手冊，135頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本備忘單是機器學習手冊的濃縮版，包含了許多關于機器學習的經典方程和圖表，旨在幫助您快速回憶起機器學習中的知識和思想。

這個備忘單有兩個顯著的優點:

清晰的符號。數學公式使用了許多令人困惑的符號。例如，X可以是一個集合，一個隨機變量，或者一個矩陣。這是非常混亂的，使讀者很難理解數學公式的意義。本備忘單試圖規范符號的使用，所有符號都有明確的預先定義，請參見小節。
更少的思維跳躍。在許多機器學習的書籍中，作者省略了數學證明過程中的一些中間步驟，這可能會節省一些空間，但是會給讀者理解這個公式帶來困難，讀者會在中間迷失。

付費5元查看完整內容

陳丹琦 · 斯坦福大學 (Stanford University) · 自然語言處理 · 博士論文 · 機器閱讀理解 ·

2019 年 10 月 27 日

[付費5元查看完整內容]斯坦福陳丹琦博士論文：神經網絡閱讀理解與更多【附156頁pdf】

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

論文摘要：

教機器理解人類語言文檔是人工智能中最難以捉摸和長期存在的挑戰之一。本文探討了閱讀理解的問題:如何構建計算機系統來閱讀文章和回答理解問題。一方面，我們認為閱讀理解是評價計算機系統對人類語言理解程度的一項重要任務。另一方面，如果我們能夠構建高性能的閱讀理解系統，那么它將成為問答和對話系統等應用的關鍵技術。本文以神經閱讀理解為研究對象:一種基于深度神經網絡的閱讀理解模型。與傳統的稀疏的、手工設計的基于特征的模型相比，這些端到端神經模型在學習豐富的語言現象方面更加有效，并且在所有現代閱讀理解基準上的表現都有很大的提高。本文由兩部分組成。第一部分是對神經閱讀理解的本質進行概括，介紹我們在構建有效的神經閱讀理解模型方面所做的努力，更重要的是了解神經閱讀理解模型實際學到了什么，以及解決當前任務需要什么樣的語言理解深度。我們還總結了該領域的最新進展，討論了該領域的未來發展方向和有待解決的問題。在本文的第二部分，我們探討了如何在最近神經閱讀理解成功的基礎上建立實際應用。特別是，我們開創了兩個新的研究方向:1)如何將信息檢索技術與神經閱讀理解相結合，解決大規模開放領域的問題;(2)如何從當前的單圈、跨步閱讀理解模式中構建會話問答系統。我們在DrQA和CoQA項目中實現了這些想法，并證明了這些方法的有效性。我們相信他們對推動未來的語言技術有很大幫助。

付費5元查看完整內容

視覺問答 · 李飛飛 · 計算機視覺 · Justin Johnson · 斯坦福大學 (Stanford University) ·

2019 年 10 月 27 日

[付費5元查看完整內容]斯坦福李飛飛高徒Johnson博士論文: 組成式計算機視覺智能,195頁PDF

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

論文題目：

Compositional visual intelligence

作者：

Johnson Justin

貢獻者：

Li, Fei Fei, 1976- degree supervisor.

Goodman, Noah, degree committee member.

Ré, Christopher, degree committee member.

Stanford University. Computer Science Departmen

網址：

//searchworks.stanford.edu/view/12746402

論文摘要：

計算機視覺領域在過去幾年取得了巨大的進步，這主要歸功于卷積神經網絡。盡管在傳統的計算機視覺任務上取得了成功，但我們的機器系統離人類的一般視覺智能還有很長的路要走。視覺智能的一個重要方面是組合——對整體的理解源于對部分的理解。為了實現組成視覺智能的目標，我們必須探索新的計算機視覺任務，創建新的數據集，開發利用組成性的新模型。在這篇論文中，我將討論我的工作在三個不同的計算機視覺任務涉及語言，其中包含的合規性幫助我們建立具有更豐富的視覺智能的系統。我將首先討論圖像標題描述:傳統系統生成描述圖像的簡短句子，但是通過將圖像分解為區域和描述分解為短語，我們可以生成兩種更豐富的描述:密集的標題和段落。其次，我將討論視覺問答:現有的數據集主要由簡短的問題組成;為了研究更復雜的需要復合位置推理的問題，我們引入了一個新的benchark數據集。在此基礎上，提出了一種可視化問題交互的顯式組成模型，該模型將問題轉換為功能程序，并通過組合神經模塊來執行這些程序。第三，我將討論文本到圖像生成:現有的系統可以根據文本描述檢索或生成單個對象的簡單圖像，但難以處理更復雜的描述。用對象和關系的構成場景圖代替自由形式的自然語言，可以檢索和生成包含多個對象的復雜圖像。

付費5元查看完整內容