本文提出一種語義分組網絡通過建立詞組與相關語義視頻幀的映射來減少信息冗余。 本文提出了一個語義分組網絡(SGN)的視頻描述生成網絡,該網絡嘗試(1)使用具有部分已解碼描述的可區分詞組對視頻幀進行分組,然后(2)在預測下一個單詞時使用這些語義對齊的視頻幀組進行解碼。 本文發現連續的幀可能提供了相同的信息,然而現有方法集中于僅基于輸入視頻來丟棄或合并重復信息。語義分組網絡學習了一種算法來捕獲部分已解碼描述中最具區分性的詞組以及將每個詞組與相關視頻幀的映射,通過建立此映射可以將語義上相關的幀聚類,從而減少冗余。與現有方法相反,來自已解碼描述詞的連續反饋使語義分組網絡能夠動態更新適應部分解碼描述的視頻表示。此外,本文提出了一種對比注意損失,以促進單詞短語和視頻幀之間的準確對齊而無需人工注釋。
//www.zhuanzhi.ai/paper/ca2f9fa733ff339f5ca3e10526823d47
我們研究了無監督的視頻表示學習,該學習旨在僅從未標記的視頻中學習運動和外觀特征,可以將其重用于下游任務,例如動作識別。然而,由于以下原因,這項任務極具挑戰性:1)視頻中的高度時空信息;2)缺少用于訓練的標記數據。與靜態圖像的表示學習不同,難以構造合適的自我監督任務來很好地對運動和外觀特征進行建模。最近,已經進行了幾種嘗試以通過視頻回放速度預測來學習視頻表示。但是,為視頻獲取精確的速度標簽并非易事。更關鍵的是,學習的模型可能傾向于集中于運動模式,因此可能無法很好地學習外觀特征。在本文中,我們觀察到相對回放速度與運動模式更加一致,從而為表示學習提供了更加有效和穩定的監督。因此,我們提出了一種感知播放速度并利用兩個視頻片段之間的相對速度作為標簽的新方法。這樣,我們就能很好地感知速度并學習更好的運動功能。此外,為了確保學習外觀特征,我們進一步提出了以外觀為中心的任務,其中我們強制執行模型以感知兩個視頻剪輯之間的外觀差異。我們表明,優化兩個任務可以共同持續改善兩個下游任務(即動作識別和視頻檢索)的性能。值得注意的是,對于UCF101數據集上的動作識別,在不使用標記數據進行預訓練的情況下,我們達到了93.7%的準確性,這優于ImageNet監督的預訓練模型。
在自然語言處理和知識圖構造的信息提取中,三次提取是必不可少的任務。在本文中,我們將重新審視用于序列生成的端到端三重提取任務。由于生成三元組提取可能難以捕獲長期依賴關系并生成不忠實的三元組,因此我們引入了一種新穎的模型,即使用生成Transformer的對比三元組提取。具體來說,我們介紹了一個共享的Transformer模塊,用于基于編碼器-解碼器的生成。為了產生忠實的結果,我們提出了一種新穎的三重態對比訓練對象。此外,我們引入了兩種機制來進一步提高模型性能(即,批量動態注意遮罩和三級校準)。在三個數據集(即NYT,WebNLG和MIE)上的實驗結果表明,我們的方法比基線具有更好的性能。
//www.zhuanzhi.ai/paper/b8ed53721b7162af43614d558adb9c58
視頻識別作為視頻理解的基礎技術,是近幾年非常熱門的計算機視覺研究方向。現有的基于3D卷積網絡的方法識別精度優異但計算量偏大,基于2D網絡的方法雖然相對輕量但精度不及3D卷積網絡。本文提出一種輕量的多視角融合模塊(MVF Module)用于高效率且高性能的視頻識別,該模塊是一個即插即用的模塊,能夠直接插入到現有的2D卷積網絡中構成一個簡單有效的模型,稱為MVFNet。此外,MVFNet可以視為一種通用的視頻建模框架,通過設置模塊內的參數,MVFNet可轉化為經典的C2D, SlowOnly和TSM網絡。實驗結果顯示,在五個視頻benchmark(Kinetics-400, Something-Something V1 & V2, UCF101, HMDB51)上,MVFNet僅僅使用2D卷積網絡的計算量就能夠取得與當前最先進的3D卷積網絡媲美甚至更高的性能。
在對話系統中,對話行為識別和情感分類是捕獲對話者意圖的兩個相關任務,其中對話行為可以捕獲顯式的意圖,情感可以表達隱性的意圖。其中上下文信息(contextual information)和相互交互信息(mutual interaction information)是這兩個相關任務的關鍵因素。但是,現有方法都無法同時考慮這兩個重要的信息。為了解決這個問題,在本文中,我們提出了一個協同交互圖注意力網絡(Co-GAT)來聯合建模這兩個任務。核心模塊是我們提出的協同交互圖交互層,可以在統一的圖網絡中構建跨歷史連接(cross-utterances connection)和跨任務連接(cross-tasks connection)。我們的模型在兩個公開的數據集達到了SOTA性能。此外,我們發現上下文和相互交互信息的貢獻與預訓練模型并不完全重疊,在多種預訓練模型上(BERT,RoBERTa,XLNet)均取得了性能提升。
基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。
編碼器-解碼器模型是功能強大的工具,已在許多NLP任務中獲得成功,但是現有方法仍然存在兩個關鍵問題。首先,由于遞歸神經網絡(RNN)的固有缺陷,它們無法捕獲長期依賴關系,從而導致重要信息的丟失,否則將在句子中反映出來,從而導致模型無法應用更長的文本。第二,缺乏工作致力于生成忠實的三元組,序列到序列的體系結構會產生不忠實的序列,從而產生意義上的矛盾。例如,給定句子“美國總統特朗普在紐約市皇后區長大,并居住在那里直到13歲”,該模型可以生成事實“(特朗普出生于皇后區)”。盡管從邏輯上講是正確的,但我們無法從給定的句子中找到直接的證據來支持它。
為了解決這些問題,我們引入了帶有生成變換器(CGT)的對比學習三元組提取框架,該框架是一個共享的Transformer模塊,支持編碼器-解碼器的生成式三元組對比學習多任務學習。首先,我們使用分隔符和部分因果掩碼機制將輸入序列與目標序列連接起來,以區分編碼器-解碼器表示形式。除了預先訓練的模型之外,我們的模型不需要任何其他參數。然后,我們介紹了一種新穎的三元組對比學習對象,該對象利用真實的三元組作為正實例,并利用隨機令牌采樣將損壞的三元組構造為負實例。為了共同優化三元組生成對象和對比學習對象,我們引入了分批動態注意掩碼機制,該機制允許我們動態選擇不同的對象并共同優化任務。最后,我們介紹了一種新穎的三元組校準算法,以在推理階段濾除虛假三元組。
該工作旨在解決多標簽圖像分類任務,文章另辟蹊徑,首次將多標簽圖像分類問題視為字典學習任務,基于此設計了一個新型的端到端深度語義字典學習模型(Deep Semantic Dictionary Learning,圖1),該模型能夠更好地從標簽與語義空間中挖掘益于樣本多標簽分類的判別信息。此外,受傳統字典學習的迭代式優化的啟發,文章中提出了一種適用于深度字典學習模型的交替式優化策略(Alternately Parameters Update Strategy,圖2)。實驗結果驗證了該文章中提出的算法在多標簽圖像分類任務上取得了振奮人心的結果。
多元序列學習的本質是如何提取數據中的相關性。這些數據集,如重癥監護病房的每小時醫療記錄和多頻語音時間序列,通常不僅在個別成分中表現出強烈的序列依賴性(“邊緣”記憶),而且在橫剖面依賴性中也表現出不可忽略的記憶(“聯合”記憶)。由于聯合分布演化的多元復雜性是數據生成過程的基礎,我們采用數據驅動的方法,構建了一種新的循環網絡結構,稱為記憶門控循環網絡(mGRN),門顯式地調節兩種不同類型的記憶:邊緣記憶和聯合記憶。通過對一系列公共數據集的綜合模擬研究和經驗實驗的結合,我們表明我們提出的mGRN架構始終優于針對多元時間序列的最先進架構。
//www.zhuanzhi.ai/paper/4236df35ff33a6911c4913ac13bb78e0
從異步視頻面試(AVI)中的自動語音識別(ASR)轉錄中,我們解決了基于文本特征自動為候選人的能力評分的任務。問題的關鍵在于如何構建問題與答案之間的依賴關系,并對每個問答(QA)對進行語義級交互。然而,目前AVI的研究大多集中在如何更好地表示問題和答案上,而忽視了它們之間的依賴信息和相互作用,而這是QA評估的關鍵。在這項工作中,我們提出了一種層次推理圖神經網絡(HRGNN)用于問答對的自動評估。具體來說,我們構建了一個句子級關系圖神經網絡來捕獲問題和答案之間的句子依賴信息。基于這些圖,我們采用語義級推理圖注意網絡對當前QA會話的交互狀態進行建模。最后,我們提出了一種門控遞歸單元編碼器來表示用于最終預測的時間問答對。在CHNAT(一個真實數據集)上進行的實證結果驗證了我們提出的模型顯著優于基于文本匹配的基準模型。消融研究和10個隨機種子的實驗結果也表明了我們模型的有效性和穩定性。
//www.zhuanzhi.ai/paper/5c766d478e8b7fae79e95f2a09e5bdd1
圖神經網絡(gnn)的優勢在于對結構化數據的拓撲信息進行顯式建模。然而,現有的gnn在獲取層次圖表示方面的能力有限,而層次圖表示在圖形分類中起著重要的作用。本文創新性地提出了層次圖膠囊網絡(HGCN),該網絡可以聯合學習節點嵌入和提取圖的層次結構。具體地說,解糾纏圖膠囊是通過識別每個節點下的異構因素建立的,這樣它們的實例化參數代表同一實體的不同屬性。為了學習層次表示,HGCN通過顯式地考慮部件之間的結構信息,刻畫了低層膠囊(部分)和高層膠囊(整體)之間的部分-整體關系。實驗研究證明了HGCN算法的有效性和各組成部分的貢獻。
//www.zhuanzhi.ai/paper/c9930a15b45547cafbee90db8c5612aa