亚洲欧洲日产国-日韩一区二区综合精品

深度卷積網絡的出現推動了視覺識別領域的新一波進步。這些學習到的表示大大優于手工設計的特征，在視覺任務上獲得更高的性能，同時在數據集上有更好的泛化性。盡管這些模型看起來很普遍，但當它們所訓練的數據與所要求操作的數據之間存在不匹配時，它們仍然會受到影響。領域適應提供了一種潛在的解決方案，允許我們將網絡從源領域訓練到新的目標領域。在這些領域中，標記數據是稀疏的或完全缺失的。然而，在端到端可學習表示出現之前，視覺域適應技術很大程度上局限于在固定的、手工設計的視覺特征上訓練的分類器。在這篇論文中，我們展示了如何將視覺域適應與深度學習相結合，以直接學習能夠適應域移動的表示，從而使模型能夠泛化到源域之外。

在第2章中，我們將演示如何設計損失，以衡量兩個領域的不同程度。我們表明，通過優化表示來最小化這些損失，我們可以學習從源到目標更好地泛化的表示。在第3章和第4章中，我們展示了我們可以訓練模型來嘗試測量域差異，而不是手工設計這些域損失。由于這些模型本身是端到端可學習的，我們可以通過它們反向傳播來學習表示，從而最小化學習的差異。這在概念上與生成式對抗網絡類似，我們還探索了兩者之間的關系，以及我們如何在對抗環境中使用為GANs開發的技術。最后，在第5章和第6章中，我們證明了適應性不需要局限于深度網絡的中間特征。對抗適應技術也可以用于訓練模型，直接改變圖像的像素，將它們轉換成跨域的類似物。然后，這些轉換后的圖像可以用作標記的偽目標數據集，以學習更適合目標領域的監督模型。我們表明，這種技術是基于特征的適應性的補充，當兩者結合時產生更好的性能。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-69.html

付費5元查看完整內容

相關內容

域自適應

關注 7

圖像處理 · 深度學習 · 博士論文 · 圖像平滑 · 反光去除 ·

2020 年 12 月 6 日

[付費5元查看完整內容]【博士論文】基于深度學習的圖像處理算法研究

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

基于深度學習的圖像處理算法研究

隨著智能手機和微單相機的普及,拍照已經變成人們日常生活中不可缺少的一部分,圖像也已成為人類社會的重要信息媒介。然而受到拍照環境、設備和技術的影響,圖像中難免會出現退化現象,如何從圖像處理的角度提升拍攝照片的質量具有重要的研究意義與應用價值。近年來,深度學習技術得到了巨大的發展,并廣泛應用于圖像處理領域。相對于許多傳統算法,深度學習技術從海量的訓練數據中學習到的先驗知識具有更強的泛化能力和更復雜的參數化表達,且無需調節算法參數以適應不同的應用場景。得益于上述優勢,深度學習技術已經廣泛應用于圖像處理領域,如何利用深度學習算法提升圖像處理的效果也變成了一個重要的研究方向。

盡管深度學習技術顯著促進了圖像處理領域的發展,但是受限于其對訓練數據的敏感性,在面對無標簽、僅有弱標簽或者合成偽標簽的數據時,深度學習技術的優勢難以充分體現。本學位論文針對以上挑戰,重點研究了缺失完整數據標簽的經典圖像處理問題,包括圖像平滑、反光去除和本征圖像分解等。本文通過將上述問題抽象為對圖像結構敏感的圖像分解問題,將顯著的目標邊緣信息通過優化或者濾波的方式編碼進深度學習的算法設計中。根據圖像處理問題中數據標簽的類型和數量不同,本文依次提出了基于無監督學習、弱監督學習和多標簽聯合訓練的深度學習解決方案。本文的最后提出了解耦學習框架,通過對10種不同圖像處理問題的聯合訓練,提煉出了圖像處理問題的核心解空間。該算法對于理解深度學習技術在圖像處理領域的應用有重要的研究價值和意義。本文的創新點和貢獻包括以下幾個方面:

(1) 一種基于無監督學習的空間自適應圖像平滑算法

該算法通過使用卷積神經網絡,以無監督的方式從無標簽數據中學習圖像平滑的優化過程,并實現可靈活調節的圖像平滑效果。該算法提出了一個由邊緣保持項和空間自適應平滑項構成的能量函數,前者用于保持重要但易破壞的圖像結構,后者用于將多種形式的正則器(Lp范數)施加至圖像的不同區域。由于缺乏平滑圖像的真值數據,本文采用一個無監督學習的能量優化框架,用來實現多種基于圖像平滑的視覺應用,譬如圖像抽象化、鉛筆素描、細節增強、紋理去除和基于內容的圖像處理等。實驗結果表明,該基于無監督學習的空間自適應圖像平滑算法獲得了更好的視覺結果。

(2) 一種基于弱監督學習的圖像反光去除算法

該算法提出了一個多階段卷積神經網絡,用以解決圖像分解領域中經典的反光去除問題。本算法框架由兩個結構相似的卷積神經網絡串聯而成,前者預測目標圖像的邊緣結構,后者依據預測邊緣信息的引導重建目標圖像;整個過程既不需要任何人工設計,也不依賴于其他圖像處理應用。通過從真實反光圖像觀察得到的圖像亮度和結構先驗,該算法設計了一種針對模糊強反光的反光圖像合成算法;通過將合成數據以弱監督信號的形式融入到多階段神經網絡訓練中,該算法獲得了在真實反光圖像上的良好泛化性能。實驗結果表明,該基于弱監督學習的圖像反光去除算法在不同程度的反光場景中均獲得更優的視覺效果。

(3) 一種基于多標簽聯合訓練的本征圖像分解算法

本征圖像分解往往存在數據集冗雜、數據標簽不一致等問題。為解決該問題,本文提出了一個通用的核心神經網絡,用以在不同類型的數據標簽中共享本征圖像形成過程的稀疏先驗。該神經網絡由三個不同的基礎模塊組成:直接本征圖像估計網絡、導向網絡和域濾波器;其中,直接本征圖像估計網絡通過對本征圖像的直接監督獲得初始的預測結果,導向網絡負責生成稀疏的反射結構先驗,并引導域濾波器獲得干凈的反射估計。該算法設計了一個靈活的能量損失層以實現多標簽數據聯合訓練的目的。實驗結果表明,該本征圖像分解算法在所有的主流基準數據集上都獲得了更高的精確度。

(4) 一種基于解耦學習的實時參數化圖像處理框架

傳統的深度學習算法在面對不同的圖像處理應用時,需要重復地訓練神經網絡。為了解決這個問題,該算法提出了由基礎網絡和權重學習網絡組成的解耦學習框架,其中前者用來實現具體的圖像處理應用,后者用來學習基礎網絡的權重。該算法通過對基礎網絡的結構和權重進行解耦,達到根據圖像處理應用的變化實時動態調整基礎網絡權重的效果,并因此實現了利用單一神經網絡融合多種圖像處理應用的目的。實驗結果表明,該解耦學習框架成功應用在10種不同的參數化圖像算子中,并減少了網絡參數的存儲空間。

付費5元查看完整內容

牛津大學 (University of Oxford) · 重建和分割三維物體 ·

2020 年 11 月 9 日

[付費5元查看完整內容]【牛津大學BoYang博士論文】學習重建和分割三維物體，143頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

賦予機器以感知三維世界的能力，就像我們人類一樣，是人工智能領域一個基本且長期存在的主題。給定不同類型的視覺輸入，如二維/三維傳感器獲取的圖像或點云，一個重要的目標是理解三維環境的幾何結構和語義。傳統的方法通常利用手工特征來估計物體或場景的形狀和語義。然而，他們很難推廣到新的對象和場景，并努力克服關鍵問題造成的視覺遮擋。相比之下，我們的目標是理解場景和其中的對象，通過學習一般和魯棒的表示使用深度神經網絡，訓練在大規模的真實世界3D數據。為了實現這些目標，本文從單視圖或多視圖的物體級三維形狀估計到場景級語義理解三個方面做出了核心貢獻。

在第3章中，我們從一張圖像開始估計一個物體的完整三維形狀。利用幾何細節恢復密集的三維圖形，提出一種強大的編碼器解碼器結構，并結合對抗式學習，從大型三維對象庫中學習可行的幾何先驗。在第4章中，我們建立了一個更通用的框架來從任意數量的圖像中精確地估計物體的三維形狀。通過引入一種新的基于注意力的聚合模塊和兩階段的訓練算法，我們的框架能夠集成可變數量的輸入視圖，預測穩健且一致的物體三維形狀。在第5章中，我們將我們的研究擴展到三維場景，這通常是一個復雜的個體對象的集合。現實世界的3D場景，例如點云，通常是雜亂的，無結構的，閉塞的和不完整的。在借鑒以往基于點的網絡工作的基礎上，我們引入了一種全新的端到端管道來同時識別、檢測和分割三維點云中的所有對象。

總的來說，本文開發了一系列新穎的數據驅動算法，讓機器感知我們真實的3D環境，可以說是在推動人工智能和機器理解的邊界。

//ora.ox.ac.uk/objects/uuid:5f9cd30d-0ee7-412d-ba49-44f5fd76bf28

付費5元查看完整內容

卡內基梅隆大學 (Carnegie Mellon University) · 信息檢索 · 神經匹配 · 重要性學習 ·

2020 年 7 月 20 日

[付費5元查看完整內容]【CMU博士論文】信息檢索中的神經匹配和重要性學習，163頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本篇推薦來自CMU-LTI的小姐姐Zhuyun Dai博士論文《Neural Matching and Importance Learning in Information Retrieval》，是信息檢索領域值得關注的最新工作。

作者介紹：

Zhuyun Dai

卡內基梅隆大學語言技術學院(LTI)的博士生。研究方向是提升當今信息檢索系統的語言理解能力，構建下一代信息助理系統，幫助人們無縫地獲取世界上的知識。

//www.cs.cmu.edu/~zhuyund/index.html

信息檢索中的神經匹配與重要性學習

地址：

在50-60年的時間里，信息檢索(IR)系統依賴于詞匯袋方法。盡管詞包檢索有一些長期存在的限制，但解決這些問題的嘗試大多是不成功的。最近，神經網絡為自然語言建模提供了一種新的范式。這篇論文的目的是結合IR的觀點和神經網絡的關鍵優勢，以帶來更深入的語言理解IR。

本論文的第一部分主要研究如何匹配查詢和文檔。 最先進的排序器以前依賴于精確的詞匯匹配，這導致了眾所周知的詞匯不匹配問題。本文開發了將軟匹配引入相關性排序的神經模型。利用分布式文本表示，我們的模型可以對每個查詢詞和每個文檔詞進行軟匹配。由于軟匹配信號有噪聲，本文提出了一種新的核池技術，該技術根據軟匹配對相關性的貢獻對軟匹配進行分組。本文還研究了預訓練好的模型參數是否可以改善低資源域，以及模型架構在非文本檢索任務中是否可重用。我們的方法比以前最先進的排名系統有很大的優勢。

本論文的第二部分主要研究如何表示查詢和文檔。一個典型的搜索引擎使用頻率統計來確定單詞的權重，但是頻繁的單詞對文本的意義不一定是必要的。本論文開發的神經網絡，以估計詞的重要性，基于如何相互作用的語言語境。開發了一種弱監督方法，允許在沒有任何人工注釋的情況下訓練我們的模型。我們的模型可以離線運行，在不影響效率的前提下顯著提高了第一階段的檢索。

總之，本文提出了一種新的神經檢索范式，克服了傳統檢索模型在匹配和重要性加權方面的局限性。在神經相關性排序、深度檢索模型和深度文檔理解等方面提出了一些有前景的方法。

付費5元查看完整內容

自監督學習 · 表示學習 ·

2020 年 6 月 19 日

[付費5元查看完整內容]【斯坦福大學博士論文】自監督場景表示學習， 97頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務，從機器人技術到計算機圖形再到醫學成像。然而，現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中，我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀，只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布，我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明，在這個過程中學習到的特征使整個類對象的三維語義分割成為可能，只訓練了30個帶標記的例子，證明了三維形狀、外觀和語義分割之間的緊密聯系。最后，我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用，并討論了未來工作的前景。

付費5元查看完整內容

圖機器學習 ·

2020 年 5 月 11 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，人們對學習圖結構數據表示的興趣大增。基于標記數據的可用性，圖表示學習方法一般分為三大類。第一種是網絡嵌入(如淺層圖嵌入或圖自動編碼器)，它側重于學習關系結構的無監督表示。第二種是圖正則化神經網絡，它利用圖來增加半監督學習的正則化目標的神經網絡損失。第三種是圖神經網絡，目的是學習具有任意結構的離散拓撲上的可微函數。然而，盡管這些領域很受歡迎，但在統一這三種范式方面的工作卻少得驚人。在這里，我們的目標是彌合圖神經網絡、網絡嵌入和圖正則化模型之間的差距。我們提出了圖結構數據表示學習方法的一個綜合分類，旨在統一幾個不同的工作主體。具體來說，我們提出了一個圖編碼解碼器模型(GRAPHEDM)，它將目前流行的圖半監督學習算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和圖表示的非監督學習(如DeepWalk、node2vec等)歸納為一個統一的方法。為了說明這種方法的一般性，我們將30多個現有方法放入這個框架中。我們相信，這種統一的觀點既為理解這些方法背后的直覺提供了堅實的基礎，也使該領域的未來研究成為可能。

概述

學習復雜結構化數據的表示是一項具有挑戰性的任務。在過去的十年中，針對特定類型的結構化數據開發了許多成功的模型，包括定義在離散歐幾里德域上的數據。例如，序列數據，如文本或視頻，可以通過遞歸神經網絡建模，它可以捕捉序列信息，產生高效的表示，如機器翻譯和語音識別任務。還有卷積神經網絡(convolutional neural networks, CNNs)，它根據移位不變性等結構先驗參數化神經網絡，在圖像分類或語音識別等模式識別任務中取得了前所未有的表現。這些主要的成功僅限于具有簡單關系結構的特定類型的數據(例如，順序數據或遵循規則模式的數據)。

在許多設置中，數據幾乎不是規則的: 通常會出現復雜的關系結構，從該結構中提取信息是理解對象之間如何交互的關鍵。圖是一種通用的數據結構，它可以表示復雜的關系數據(由節點和邊組成)，并出現在多個領域，如社交網絡、計算化學[41]、生物學[105]、推薦系統[64]、半監督學習[39]等。對于圖結構的數據來說，將CNNs泛化為圖并非易事，定義具有強結構先驗的網絡是一項挑戰，因為結構可以是任意的，并且可以在不同的圖甚至同一圖中的不同節點之間發生顯著變化。特別是，像卷積這樣的操作不能直接應用于不規則的圖域。例如，在圖像中，每個像素具有相同的鄰域結構，允許在圖像中的多個位置應用相同的過濾器權重。然而，在圖中，我們不能定義節點的順序，因為每個節點可能具有不同的鄰域結構(圖1)。此外，歐幾里德卷積強烈依賴于幾何先驗(如移位不變性)，這些先驗不能推廣到非歐幾里德域(如平移可能甚至不能在非歐幾里德域上定義)。

這些挑戰導致了幾何深度學習(GDL)研究的發展，旨在將深度學習技術應用于非歐幾里德數據。特別是，考慮到圖在現實世界應用中的廣泛流行，人們對將機器學習方法應用于圖結構數據的興趣激增。其中，圖表示學習(GRL)方法旨在學習圖結構數據的低維連續向量表示，也稱為嵌入。

廣義上講，GRL可以分為兩類學習問題，非監督GRL和監督(或半監督)GRL。第一個系列的目標是學習保持輸入圖結構的低維歐幾里德表示。第二系列也學習低維歐幾里德表示，但為一個特定的下游預測任務，如節點或圖分類。與非監督設置不同，在非監督設置中輸入通常是圖結構，監督設置中的輸入通常由圖上定義的不同信號組成，通常稱為節點特征。此外，底層的離散圖域可以是固定的，這是直推學習設置(例如，預測一個大型社交網絡中的用戶屬性)，但也可以在歸納性學習設置中發生變化(例如，預測分子屬性，其中每個分子都是一個圖)。最后，請注意，雖然大多數有監督和無監督的方法學習歐幾里德向量空間中的表示，最近有興趣的非歐幾里德表示學習，其目的是學習非歐幾里德嵌入空間，如雙曲空間或球面空間。這項工作的主要動機是使用一個連續的嵌入空間，它類似于它試圖嵌入的輸入數據的底層離散結構(例如，雙曲空間是樹的連續版本[99])。

鑒于圖表示學習領域的發展速度令人印象深刻，我們認為在一個統一的、可理解的框架中總結和描述所有方法是很重要的。本次綜述的目的是為圖結構數據的表示學習方法提供一個統一的視圖，以便更好地理解在深度學習模型中利用圖結構的不同方法。

目前已有大量的圖表示學習綜述。首先，有一些研究覆蓋了淺層網絡嵌入和自動編碼技術，我們參考[18,24,46,51,122]這些方法的詳細概述。其次，Bronstein等人的[15]也給出了非歐幾里德數據(如圖或流形)的深度學習模型的廣泛概述。第三，最近的一些研究[8,116,124,126]涵蓋了將深度學習應用到圖數據的方法，包括圖數據神經網絡。這些調查大多集中在圖形表示學習的一個特定子領域，而沒有在每個子領域之間建立聯系。

在這項工作中，我們擴展了Hamilton等人提出的編碼-解碼器框架，并介紹了一個通用的框架，圖編碼解碼器模型(GRAPHEDM)，它允許我們將現有的工作分為四大類: (i)淺嵌入方法，(ii)自動編碼方法，(iii) 圖正則化方法，和(iv) 圖神經網絡(GNNs)。此外，我們還介紹了一個圖卷積框架(GCF)，專門用于描述基于卷積的GNN，該框架在廣泛的應用中實現了最先進的性能。這使我們能夠分析和比較各種GNN，從在Graph Fourier域中操作的方法到將self-attention作為鄰域聚合函數的方法[111]。我們希望這種近期工作的統一形式將幫助讀者深入了解圖的各種學習方法，從而推斷出相似性、差異性，并指出潛在的擴展和限制。盡管如此，我們對前幾次綜述的貢獻有三個方面

我們介紹了一個通用的框架，即GRAPHEDM，來描述一系列廣泛的有監督和無監督的方法，這些方法對圖形結構數據進行操作，即淺層嵌入方法、圖形正則化方法、圖形自動編碼方法和圖形神經網絡。
我們的綜述是第一次嘗試從同一角度統一和查看這些不同的工作線，我們提供了一個通用分類(圖3)來理解這些方法之間的差異和相似之處。特別是，這種分類封裝了30多個現有的GRL方法。在一個全面的分類中描述這些方法，可以讓我們了解這些方法究竟有何不同。
我們為GRL發布了一個開源庫，其中包括最先進的GRL方法和重要的圖形應用程序，包括節點分類和鏈接預測。我們的實現可以在//github.com/google/gcnn-survey-paper上找到。

付費5元查看完整內容

CVPR 2020 · 領域自適應 ·

2020 年 3 月 24 日

[付費5元查看完整內容]近期必讀的6篇CVPR 2020【域自適應（Domain Adaptation）】相關論文和代碼

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿，接收1470篇，其接受率在逐年下降，今年接受率僅為22%。近期，一些Paper放出來，Domain Adaptation（域自適應）相關研究非常火熱，特別是基于Domain Adaptation的視覺應用在今年的CVPR中有不少，專知小編整理了CVPR 2020 域自適應（DA）相關的比較有意思的值得閱讀的六篇論文，供大家參考—行為分割、語義分割、目標檢測、行為識別、域自適應檢索。

Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

作者：Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib, Zsolt Kira

摘要：盡管最近在全監督行為分割（action segmentation）技術方面取得了一些進展，但性能仍然不盡如人意。一個主要挑戰是時空變化問題(例如，不同的人可能以不同的方式進行相同的活動)。因此，我們利用無標簽視頻將行為分割任務重新表述為一個具有時空變化引起的域差異的跨域問題來解決上述時空變化問題。為了減少這種域差異，我們提出了自監督時域自適應(SSTDA)，它包含兩個自監督輔助任務(二進制和序列域預測)來聯合對齊嵌入局部和全局時間動態的跨域特征空間，取得了比其他域自適應(DA)方法更好的性能。在三個具有挑戰性的基準數據集(GTEA、50Salads和Breakfast)上，SSTDA的表現遠遠超過當前最先進的方法(在Breakfas上F1@25得分從59.6 %到69.1%，在50Salads上F1@25得分從73.4 %到81.5%，在GTEA上F1@25得分從83.6%到89.1%)，并且只需要65%的標記訓練數據來就實現了該性能，這表明了SSTDA在各種變化中適應未標記目標視頻的有效性。

網址：

代碼鏈接：

Differential Treatment for Stuff and Things:A Simple Unsupervised Domain Adaptation Method for Semantic Segmentation

作者：Zhonghao Wang, Mo Yu, Yunchao Wei, Rogerior Feris, Jinjun Xiong, Wen-mei Hwu, Thomas S. Huang, Honghui Shi

摘要：本文通過緩解源域(合成數據)和目標域(真實數據)之間的域轉換（domain shift），研究語義分割中的無監督域自適應問題。之前的方法證明，執行語義級對齊有助于解決域轉換問題。我們觀察到事物類別通常在不同域的圖像之間具有相似的外觀，而事物（即目標實例）具有更大的差異，我們提出使用針對填充（stuff）區域和事物的不同策略來改進語義級別的對齊方式：1）對于填充類別，我們為每一類生成特征表示，并進行從目標域到源域的對齊操作；2）對于事物（thing）類別，我們為每個單獨的實例生成特征表示，并鼓勵目標域中的實例與源域中最相似的實例對齊。以這種方式，事物類別內的個體差異也將被考慮，以減輕過度校準。除了我們提出的方法之外，我們還進一步揭示了當前對抗損失在最小化分布差異方面經常不穩定的原因，并表明我們的方法可以通過最小化源域和目標域之間最相似的內容和實例特征來幫助緩解這個問題。

網址：

Exploring Categorical Regularization for Domain Adaptive Object Detection

作者：Chang-Dong Xu, Xing-Ran Zhao, Xin Jin, Xiu-Shen Wei

摘要：在本文中，我們解決了域自適應目標檢測問題，其中的主要挑戰在于源域和目標域之間存在明顯的域差距。以前的工作試圖明確地對齊圖像級和實例級的移位，以最小化域差異。然而，它們仍然忽略了去匹配關鍵圖像區域和重要的跨域實例，這將嚴重影響域偏移緩解。在這項工作中，我們提出了一個簡單有效的分類正則化框架來緩解這個問題。它可以作為一個即插即用（plug-and-play）組件應用于一系列域自適應Faster R-CNN方法，這些方法在處理域自適應檢測方面表現突出。具體地說，由于分類方式的定位能力較弱，通過在檢測主干上集成圖像級多標簽分類器，可以獲得與分類信息相對應的稀疏但關鍵的圖像區域。同時，在實例級，我們利用圖像級預測(分類器)和實例級預測(檢測頭)之間的分類一致性作為正則化因子，自動尋找目標域的硬對齊實例。各種域轉移場景的大量實驗表明，與原有的域自適應Faster R-CNN檢測器相比，我們的方法獲得了顯著的性能提升。此外，定性的可視化和分析可以證明我們的方法能夠關注針對領域適配的關鍵區域/實例。

網址：

代碼鏈接：

Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

作者：Jonathan Munro, Dima Damen

摘要：細粒度行為識別數據集存在出環境偏差，多個視頻序列是從有限數量的環境中捕獲的。在一個環境中訓練模型并在另一個環境中部署會由于不可避免的域轉換而導致性能下降。無監督域適應(UDA)方法經常利用源域和目標域之間進行對抗性訓練。然而，這些方法并沒有探索視頻在每個域中的多模式特性。在這項工作中，除了對抗性校準之外，我們還利用模態之間的對應關系作為UDA的一種自監督校準方法。

我們在大規模數據集EPIC-Kitchens中的三個kitchens上使用行為識別的兩種模式：RGB和光學流（Optical Flow）測試了我們的方法。結果顯示，僅多模態自監督比僅進行源訓練的性能平均提高了2.4％。然后，我們將對抗訓練與多模態自監督相結合，表明我們的方法比其他UDA方法要好3％。

網址：

Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation

作者：Myeongjin Kim, Hyeran Byun

摘要：由于用于語義分割的像素級標簽標注很費力，因此利用合成數據是一種更好的解決方案。然而，由于合成域和實域之間存在領域鴻溝，用合成數據訓練的模型很難推廣到真實數據。本文將這兩個領域之間的根本差異作為紋理，提出了一種自適應目標域紋理的方法。首先，我們使用樣式轉移算法使合成圖像的紋理多樣化。合成圖像的各種紋理防止分割模型過擬合到一個特定(合成)紋理。然后，通過自訓練對模型進行微調，得到對目標紋理的直接監督。我們的結果達到了最先進的性能，并通過大量的實驗分析了在多樣化數據集上訓練的模型的性質。

網址：

Probability Weighted Compact Feature for Domain Adaptive Retrieval

作者：Fuxiang Huang, Lei Zhang, Yang Yang, Xichuan Zhou

摘要：域自適應圖像檢索包括單域檢索和跨域檢索。現有的圖像檢索方法大多只關注單個域的檢索，假設檢索數據庫和查詢的分布是相似的。然而，在實際應用中，通常在理想光照/姿態/背景/攝像機條件下獲取的檢索數據庫與在非受控條件下獲得的查詢之間的差異很大。本文從實際應用的角度出發，重點研究跨域檢索的挑戰性問題。針對這一問題，我們提出了一種有效的概率加權緊湊特征學習(PWCF)方法，它提供域間相關性指導以提高跨域檢索的精度，并學習一系列緊湊二進制碼（compact binary codes）來提高檢索速度。首先，我們通過最大后驗估計(MAP)推導出我們的損失函數：貝葉斯(BP)誘發的focal-triplet損失、BP誘發的quantization損失和BP誘發的分類損失。其次，我們提出了一個通用的域間復合結構來探索域間的潛在相關性。考慮到原始特征表示因域間差異而存在偏差，復合結構難以構造。因此，我們從樣本統計的角度提出了一種新的特征—鄰域直方圖特征(HFON)。在不同的基準數據庫上進行了大量的實驗，驗證了我們的方法在領域自適應圖像檢索中的性能優于許多最先進的圖像檢索方法。

網址：

代碼鏈接：

付費5元查看完整內容

信息提取 · 博士論文 · 自然語言處理 · 神經網絡 ·

2020 年 1 月 13 日

[付費5元查看完整內容]慕尼黑大學LMU博士論文：自然語言文本神經網絡信息提取，240頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文是慕尼黑大學數學、信息學及統計學院的博士生Pankaj Gupta的博士學位論文，主要研究兩個NLP任務：關系提取和主題建模。本文將神經網絡和主題模型兩種互補的學習范式結合在一個神經復合模型中，使我們能夠通過主題模型在文檔集合中共同學習主題結構，并通過語言模型在句子中共同學習單詞關系。

慕尼黑大學自19世紀以來便是德國和歐洲最具聲望大學之一，也是德國精英大學、U15大學聯盟和歐洲研究型大學聯盟成員，其社會科學、人文科學、物理，化學，生命科學，醫學，數學等領域均在國際上享有盛名。本文是慕尼黑大學數學、信息學及統計學院的博士生Pankaj Gupta的博士學位論文。

自然語言處理（Natural language processing，NLP）涉及構建計算技術，允許計算機自動分析和有意義地表示人類語言。隨著數字時代數據的指數增長，基于NLP的系統的出現使我們能夠通過廣泛的應用程序，如網絡搜索引擎、語音助理等，輕松地訪問相關信息。為了實現這一目標，幾十年來的一項長期研究一直集中在NLP和機器學習交叉的技術上。

近年來，深度學習技術利用了人工神經網絡（ANNs）的表現力，在廣泛的NLP任務中取得了最先進的性能。深度神經網絡（DNNs）可以從輸入數據中自動提取復雜的特征，從而為手工特征工程提供了一種替代方法。除了ANN之外，概率圖形模型（PGMs）、圖論和概率方法的耦合還具有描述系統隨機變量之間因果結構的能力，并捕捉到不確定性的原則概念。考慮到DNNs和PGMs的特點，它們被有利地結合起來建立強大的神經模型，以了解數據的潛在復雜性。

傳統的基于機器學習的NLP系統采用了淺層計算方法（如SVM或Logistic回歸），并依賴于手工特征，這類方法耗時、復雜且往往是不夠完整的。基于深度學習和神經網絡的方法最近在機器翻譯、文本分類、命名識別、關系提取、文本相似性等NLP任務上取得了較好的效果。這些神經模型可以從訓練數據中自動提取有效的特征表示。

本文主要研究兩個NLP任務：關系提取和主題建模。前者的目的是識別句子或文檔中實體或名詞之間的語義關系。成功地提取語義關系有助于構建結構化知識庫，在網絡搜索、問答、推薦引擎等下游NLP應用領域很有用。另一方面，主題建模的任務旨在理解文檔集合中的主題結構。主題建模是一種流行的文本挖掘工具，它可以自動分析大量的文檔集合，并在不實際閱讀的情況下理解主題語義。主題建模分別生成用于文檔理解和信息檢索的Word集群（即主題）和文檔表示。

本質上，關系提取和主題建模主要基于從文本中學習到的表示的質量。在本文中，我們提出了特定于任務的學習表示神經模型，并分別在監督和非監督機器學習范式領域進行關系提取和主題建模任務。更具體地說，我們在開發NLP任務的神經模型方面做出了以下貢獻：

神經關系提取：首先，我們提出了一種新的基于遞歸神經網絡的table-filling體系結構，以便在句子中聯合執行實體和關系提取。然后，我們進一步擴展了跨句子邊界實體之間關系的提取范圍，并提出了一種新的基于依賴關系的神經網絡體系結構。這兩個貢獻在于機器學習的監督范式。此外，我們還在構建一個受缺乏標記數據約束的魯棒關系提取器方面做出了貢獻，其中我們提出了一種新的弱監督引導技術。考慮到這些貢獻，我們進一步探索了遞歸神經網絡的可解釋性，以解釋它們對關系提取的預測。

神經主題建模：除了有監督神經體系結構外，我們還開發了無監督神經模型，以學習主題建模框架中有意義的文檔表示。首先，我們提出了一種新的動態主題模型，它捕獲了隨著時間的推移的主題。接下來，我們在不考慮時間依賴性的情況下建立了靜態主題模型，其中我們提出了神經主題建模體系結構，這些體系結構也利用外部知識，即Word嵌入來解決數據稀疏性。此外，我們還開發了神經主題模型，其中包含了使用單詞嵌入和來自許多來源的潛在主題的知識遷移。最后，我們通過引入語言結構（如語序、局部句法和語義信息等）來改進神經主題建模。它處理傳統主題模型中的詞袋問題。本節中提出的神經NLP模型是基于PGMs、深度學習和ANN交叉技術。

在這里，神經關系提取的任務使用神經網絡來學習通常在句子級別上的表示，而不訪問更廣泛的文檔上下文。然而，主題模型可以訪問跨文檔的統計信息。因此，我們將兩種互補的學習范式結合在一個神經復合模型中是有利的，它由一個神經主題和一個神經語言模型組成，使我們能夠通過主題模型在文檔集合中共同學習主題結構，并通過語言模型在句子中共同學習單詞關系。

總的來說，我們在本論文中的研究貢獻擴展了基于NLP的系統，用于關系提取和主題建模任務，同時具有最先進的性能。

付費5元查看完整內容

有監督學習 · 識別技術 · 跨領域 · Boxiao Pan · Zhangjie Cao ·

2019 年 12 月 26 日

[付費5元查看完整內容]【斯坦福大學】具有共同注意力的對抗性跨域動作識別（Adversarial Cross-Domain Action Recognition with Co-Attention）

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

題目： Adversarial Cross-Domain Action Recognition with Co-Attention

摘要： 動作識別是一個被廣泛研究的課題，其研究重點是有監督的學習，包括足夠多的視頻。然而，跨域動作識別的問題，即訓練和測試視頻是從不同的底層分布中提取出來的，在很大程度上仍然沒有得到充分的研究。以往的方法直接采用跨域圖像識別技術，容易出現嚴重的時間錯位問題。提出了一種時間協同注意網絡（TCoN），該網絡利用一種新的跨域協同注意機制，對源域和目標域之間的時間對準動作特征分布進行了匹配。在三個跨域動作識別數據集上的實驗結果表明，在跨域設置下，TCoN顯著地改進了以往的單域和跨域方法。

作者簡介： Boxiao Pan，斯坦福大學視覺與學習實驗室的碩士。他對構建能夠解釋和理解以人為中心的行為、場景和事件的智能系統非常著迷，尤其是通過視頻輸入。//cs.stanford.edu/~bxpan/

Zhangjie Cao，斯坦福大學計算機科學系的博士。

付費5元查看完整內容

深度強化學習 · 人工智能 · 加州大學伯克利分校 (UC Berkeley) · 博士論文 · Robot ·

2019 年 10 月 27 日

[付費5元查看完整內容]【伯克利博士論文】如何讓機器人多技能？通過最大熵強化學習(107頁pdf)

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

論文題目：Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning

作者：Tuomas Haarnoja

導師：Pieter Abbeel and Sergey Levine

網址：
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html

論文摘要：

在本文中，我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法，以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先，最優策略是隨機的，改進了搜索，防止了收斂到局部最優，特別是當目標是多模態的時候。其次，熵項提供了正則化，與確定性方法相比，具有更強的一致性和魯棒性。第三，最大熵策略是可組合的，即可以組合兩個或兩個以上的策略，并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四，最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中，我們將討論由最大熵策略固有的隨機特性所支持的擴展，包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。

付費5元查看完整內容

圖像分類 · 問答系統 · 自然語言處理 · 博士論文 · Jacob Andreas ·

2019 年 10 月 26 日

[付費5元查看完整內容]【伯克利博士論文】從自然語言中學習（附106頁pdf全文下載）

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

作者Jacob Andreas是自然語言處理的研究者，研究興趣為用語言作為更有效學習的支架和理解模型行為的探針，以及結合深度表示和離散組合性優點的結構化神經方法。近期公開發布了他的博士論文。

博士論文介紹：

本文探討了語言結構在結構和參數化中用于語言處理和其他應用的機器學習模型的方法。作者將該模型應用于問答系統，指令跟蹤，圖像分類等多種任務。

作者首先介紹一類稱為神經模塊網絡（NMN）的模型，并介紹它們在自然語言問答中的應用。NMN旨在實現同時利用深層網絡的表征能力和構成問題的語言結構。我們的方法將問題分解為語言子結構，并使用這些子結構動態地從可重復使用的模塊庫構建網絡。由此產生的復合網絡是共同訓練的。作者并在含有圖像和結構化知識庫的問答數據集上的方法評估模型。隨后，作者將這種思想轉移到策略學習中，研究在面對不同但相似的問題時，怎么組合策略。

付費5元查看完整內容