亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視頻問答任務需要根據語言線索的組合語義獲取并使用視頻中視覺信號的時域和空域特征,從而生成回答。近來,在目標數據集上微調(fine-tuning)預訓練模型的范式在多模態任務中取得了非常好的效果,尤其是對視頻問答任務的預訓練模型。這些現存的多模態學習范式,主要通過從視頻中提取空間視覺信息以及運動特征來表示視頻內容,并設計了不同的注意力機制(如 question-routed attention 和 co-attention 等)來整合這些特征。然而,這些多模態學習范式都存在一個缺陷:忽略了同一個視頻中視頻段-文本對(clip-text pair)之間的相關性,而在訓練時將每一個視頻段-文本對都視為是相互獨立的樣本。因此,這些多模態學習范式無法很好地利用同一個視頻中不同樣本之間豐富的上下文語義信息。

為了解決上述問題,微軟亞洲研究院的研究員們對如何更好地挖掘并利用這些信息進行了研究。研究員們認為,同視頻中的不同視頻段應該具有較為相似的全局視頻特征語義以及相關聯的上下文信息,并且這些信息可以被用于增強網絡的學習效果。因此,研究員們提出了一個具有創新性、基于自驅動孿生采樣和推理的端到端多模態學習框架 SimSamRea,能夠應用在視頻問答任務中。

在該框架中,研究員們創新地使用了孿生采樣和推理,對同視頻中的多個視頻段信息進行融合,充分利用視頻上下文信息為網絡的訓練過程提供指導。同時為該框架精心設計了一個推理策略,其主要包括孿生知識生成模塊和孿生知識推理模塊,可以預測出每個視頻段所屬的類別,傳播并且融合基準段和孿生段之間的相關聯信息,再根據模型預測出的每個視頻段的類別概率為每個視頻段生成軟標簽。研究員們以令每個視頻段的軟標簽與其預測類別盡可能接近為優化目標,使得同一個視頻中的多個視頻段的語義特征盡可能相似,從而為框架的訓練過程提供指導。

在五個常用的視頻問答數據集上進行實驗的結果顯示,該方法不僅可以在訓練過程中為網絡提供有效的指導,而且在進行推斷時沒有任何額外開銷(例如計算量、內存消耗、網絡參數量),充分驗證了 SiaSamRea 框架對視頻問答任務的有效性和優越性。

付費5元查看完整內容

相關內容

自我挖掘:視頻問答中對樣本進行孿生采樣和推理

Learning from Inside: Self-driven Siamese Sampling and Reasoning for Video Question Answering

論文摘要:視頻問答任務需要根據語言線索的組合語義,獲取并使用視頻中的視覺信號的時域和空域特征,從而生成回答。現有的一些工作從視頻中提取一般的視覺信息以及運動特征來表示視頻內容,并設計了不同的注意力機制來整合這些特征。這些方法注重于如何更好地理解視頻的整體內容,但這樣容易忽略了視頻段中的細節。也有一些研究人員探究了如何通過對視頻的視覺和語言信息進行語義層面上的特征對齊。但是這些工作都忽略了同一個視頻中的上下文之間的關聯。為了解決上訴問題,我們提出了此基于自驅動孿生采樣和推理的框架,并將其用于提取相同視頻的不同視頻段中的上下文語義信息,用于增強網絡的學習效果。本方法在 5 個公開的數據集上面實現了最優的效果。

//papers.nips.cc/paper/2021/file/dea184826614d3f4c608731389ed0c74-Paper.pdf

付費5元查看完整內容

對于視頻理解任務而言,多種模態的輸入數據往往會攜帶大量的冗余信息,除了普通的RGB幀數據,視頻多模態分析還會用到音頻、光流和深度圖等模態的數據,但是對于某些時刻,其他模態的數據不論是數據獲取還是前向傳播都會有更高的計算性能要求,這對于一些即時的多模態應用是不合理的。

基于此,本文設計了一種自適應的多模態學習框架對一段視頻的不同片段選取最為合適的模態數據作為輸入,在保證識別精度的同時,獲得了較為明顯的計算量節省效果。 本文的整體框架包含了一個輕量的策略級網絡Policy Network和一個識別網絡Recognition Network,其中策略網絡的作用是對視頻序列的每個模態片段計算二進制策略向量,用來判斷是否保留當前模態的數據進行后續的識別。

識別網絡由多個子網絡構成,分別對上一步選取得到的多模態數據進行特征提取和后融合得到識別結果。整體網絡聯合訓練,在測試階段,首先將輸入多模態視頻片段送入策略網絡,其輸出決定用于給定片段的正確模態,然后將選擇的輸入模態路由到識別網絡中的相應的子網絡以生成片段級預測。

最后,網絡將所有片段級預測平均作為視頻級預測。與普通的視頻理解模型相比,輕量級策略網絡(本文使用的是MobileNetV2)產生的額外計算成本可以忽略不計。

經過一系列的實驗表明,本文方法在四個標準數據集上都取得了較好的效果。

付費5元查看完整內容

現有的神經視頻壓縮方法大多采用預測編碼框架,該框架首先生成預測幀,然后將其殘差與當前幀進行編碼。然而,在壓縮比方面,預測編碼只是一種次優方案,因為它使用簡單的減法操作來去除幀間的冗余。在本文中,我們提出了一個深度上下文視頻壓縮框架,以實現從預測編碼到條件編碼的范式轉換。特別是,我們試圖回答以下問題:如何定義、使用和學習條件下的深度視頻壓縮框架。為了挖掘條件編碼的潛力,我們提出使用特征域上下文作為條件。這使我們能夠利用高維上下文為編碼器和解碼器攜帶豐富的信息,這有助于重建高頻內容以獲得更高的視頻質量。我們的框架也是可擴展的,條件可以靈活設計。實驗表明,我們的方法可以顯著優于以往的先進的(SOTA)深度視頻壓縮方法。與x265使用非常慢的預設相比,1080P標準測試視頻可以節省26.0%的比特率。

//www.zhuanzhi.ai/paper/dc8a3c4de86f67bd7da9cc282e6c53bb

付費5元查看完整內容

可供性檢測是指識別圖像中物體的潛在動作可能性,是智能體感知和操縱的重要能力。為了在未知場景中賦予智能體這種能力,研究員們考慮了具有挑戰性的單樣本可供性檢測問題,即,給定描述動作目的的支持圖像,應檢測出場景中具有共同可供性的所有對象(如圖3.1所示)。

圖3.1 單樣本可供性檢測的流程圖

與對象檢測/分割問題不同,對象的可供性和語義類別高度相關,但并不相互暗示。一個對象可能有多種可供性(見圖 3.2),例如,沙發可用于坐下或躺下。實際上,可能的可供性取決于人在實際應用場景中的目的。在沒有目的的指導下直接從單個圖像中學習可供性使模型傾向于關注統計上占主導地位的可供性,而忽略可能適合完成任務的其他可供性。

為了解決這個問題:1)研究員們試圖從單個支持圖像中找到關于動作目的的明確提示(即通過主體和客體的位置信息),它隱含地定義了對象可供性,并且這是未知場景中的合理設置。2)研究員們采用協作學習來捕捉不同對象之間的內在關系,以抵消視覺外觀差異帶來的干擾,提高泛化能力。具體來說,研究員們設計了一種新穎的 One-Shot Affordance Detection (OS-AD) 網絡來解決這個問題(如圖3.3所示)。以一張圖像作為支持,一組圖像(本文中為 5 張圖像)作為查詢。

網絡首先使用意圖學習模塊(PLM)從支持圖像中捕獲人與對象的交互,以對動作意圖進行編碼。然后,設計了一個意圖轉移模塊 (PTM) 以使用動作目的的編碼來激活查詢圖像中具有共同可供性的特征。最后,設計了一個協作增強模塊(CEM)來捕捉具有相同可供性的對象之間的內在關系,并抑制與動作意圖無關的背景。通過這種方式,OS-AD網絡可以學習到良好的適應能力來感知未知場景中的物體可供性。

此外,由于物體可供性多樣性的限制,現有數據集相對于實際應用場景仍然存在差距。 為了解決數據集的局限性,研究員們收集并提出了PAD可供性數據集,其中包含 4,002 張不同的圖像,涵蓋 31 個可供性類別以及來自不同場景的 72 個對象類別。

最后,研究員們對提議的 PAD 基準進行的實驗表明,OS-AD網絡優于包含3種類型(分割模型,顯著性檢測模型和協同顯著性模型)的6個SOTA模型(UNet, PSPNet, CPD, BASNet, CSNet 和 CoEGNet),可以作為未來研究的強大基線。

付費5元查看完整內容

可學習知識引導的事件因果關系識別數據增強方法

事件因果關系識別(Event Causality Identification, ECI)旨在識別文本中事件之間的因果關系,可以為許多自然語言處理任務提供重要線索,如邏輯推理、問答系統等。ECI任務通常被建模為一個分類問題,即識別一個句子中兩個事件之間是否存在因果關系。

目前大多數ECI方法采用監督學習的范式。雖然這些方法取得了很好的性能,但通常需要大規模的標注訓練數據。然而,現有的事件因果關系識別數據集相對較少。小規模的標注數據集阻礙了高性能事件因果關系識別模型的訓練,無法提供充足的訓練數據支撐模型準確理解文本中的事件關系語義。

本文探索了一個知識融合的數據增強方法,利用大量抽取的因果相關事件生成新訓練數據,解決ECI任務訓練數據缺失問題。該方法包含兩個框架,知識增強的事件因果關系數據自動標注框架和知識引導的事件因果關系數據生成框架。其中,知識引導的事件因果關系數據生成框架(Learnable Data Augmentation framework, LearnDA),利用對偶學習機制,將事件因果關系識別器和數據生成器對偶約束,從識別過程中學習如何生成任務相關的新數據,從生成過程中學習如何更準確地理解因果語義,生成高質量表達事件因果語義的新訓練數據。

付費5元查看完整內容

論文題目:Few-shot Knowledge Graph-to-Text Generation with Pretrained Language Models

論文概述:本文研究如何自動生成描述知識圖譜(KG)中事實的自然語言文本。借助預訓練語言模型(PLMs)在語言理解和生成方面的能力,我們主要考慮少樣本場景。我們提出了三個主要的技術貢獻,即用于彌合KG編碼和PLM之間語義差距的表示對齊,用于生成更好的輸入表示的基于關系的KG線性化策略,以及用于學習KG和文本之間對應關系的多任務學習。在三個基準數據集上進行的大量實驗證明了我們的模型在KG到文本生成任務上的有效性。特別是,我們的模型可以實現在只有幾百個標記樣本的情況下取得非常好的效果。

付費5元查看完整內容

小樣本識別的目標是在每類只有少量有標簽樣本可供使用的限制下識別新的類別。受到人類學習過程的啟發,現有的一些方法引入了額外語義模態來增強從訓練樣本(稱為支持樣本)學習更好的表征。然而,這些方法忽視了為測試樣本(稱為查詢樣本)設計特殊的處理機制。在失去了潛在的效果提升的同時,這些方法可能導致模態混合表征和同類別的純視覺表征之間存在偏移,最終導致識別的錯誤率上升。

在本文中,我們提出一種屬性指導的注意力模塊(AGAM),來使用人工屬性標注學習更有區分性的特征。這種即插即用的模塊能夠利用視覺內容和對應的屬性標注一起關注支持樣本中重要的通道和區域。同時,對于屬性標注不可得的查詢樣本,這種特征選擇過程同樣能夠只利用視覺內容便可執行。因此,兩種樣本的表征經過了相似的細粒度優化。另外,我們提出一種注意力對齊機制,來從屬性的指導蒸餾知識到純視覺的特征選擇過程,使其能夠在不利用屬性標注的限制下學會關注更具語義的特征。大量的實驗和分析表明,我們提出的模塊可以顯著改進現有的基于度量的方法來達到最先進的性能。

付費5元查看完整內容

為了利用少量標注樣本實現對未見類圖片的識別,小樣本學習希望從可見類圖片中學習先驗知識。小樣本學習的難點是未見類別的數據分布與可見類別的不同,從而導致在可見類上訓練好的模型無法較好地遷移到未見類別領域。這種由于類別不同導致的數據分布差異可以看作是一種特殊的領域遷移問題。 在這篇論文中,我們提出了一種基于注意力機制的領域遷移原型網絡 (DAPNA),去解決在元學習框架下的領域遷移問題。具體來說是在訓練過程中,我們將可見類的一個紀元 (episode,訓練單位)分拆成兩個類別完全不重合的子紀元(sub-episode),用以模擬從可見類到未見類的領域遷移。在假定所有紀元都采樣于同一個分布的情況下,我們在理論上給出了該模型的期望損失上界,我們也根據該期望損失上界進行損失函數的設計與模型的優化。諸多實驗表明,我們所提出的DAPNA模型能比已有小樣本學習模型取得更好的效果。

模型主要由兩大子模塊構成:小樣本學習模塊和領域遷移模塊。流程圖中的AutoEncoder是兩個簡單的線性層,為了讓圖片特征的領域歸屬更模糊,在這里不做詳細介紹。

付費5元查看完整內容

互聯網上短視頻的快速涌現為視頻內容的精準檢索帶來了前所未有的挑戰。使用自然語言文本描述對視頻進行跨模態檢索(Cross-modal Video-Text Retrieval)是最符合自然人機交互的方式之一,能更加全面細粒度地表達用戶檢索需求,得到了越來越多的研究關注。

當前跨模態檢索的主要方法將視頻和文本模態映射到聯合視覺語義空間以計算跨模態相似度。大部分工作[1,2]使用全局特征向量分別表示視頻和文本信息,但是文本和視頻中包含了豐富復雜的元素,例如圖1中的事件檢索涉及了不同的動作、實體、以及動作實體之間的關系等等,使用單一的特征表示很難捕獲細粒度的語義信息。少量工作[3]提出細粒度的密集匹配,將視頻和文本表示為序列化特征,對每一序列元素進行局部對齊匹配,融合得到全局跨模態相似度,然而僅使用序列化表示忽略了文本或視頻內部復雜的拓撲結構,不能準確地表示事件中不同元素之間的關系,使得局部對齊匹配的語義表達能力下降。

視頻文本匹配被分解包括事件(Event)、動作(Action)和實體(Entities)的三個層次,形成整體到局部的結構。一方面,模型可借助局部語義元素增強全局語義匹配;另一方面,全局語義信息也能幫助局部元素的語義理解,增強局部信息的跨模態匹配。

因此,我們提出了層次化圖推理模型(Hierarchical Graph Reasoning model, HGR),更好地結合全局和局部密集匹配的優點,并彌補其不足。如圖1所示,我們將視頻文本匹配分解為三層的語義級別,分別負責刻畫全局事件(Event)以及局部的動作(Action)和實體(Entities),以涵蓋整體到局部的語義信息。首先對于文本編碼,全局事件由整個句子表示,動作由動詞表示,實體則由名詞短語表示。不同語義級別不是獨立的,它們之間的交互反映了它們在事件中扮演的語義角色(Semantic Role),因此我們建立三層語義級別的語義角色圖(Semantic Role Graph),提出利用基于注意力的圖推理方法來捕捉圖中的交互信息。然后,不同層次的文本特征用于指導多樣化的視頻編碼,視頻也被編碼為與事件、動作和實體相關的層次化表示。每一層次級通過注意力機制進行跨模態匹配,最后進行不同層次的融合。

我們在三個視頻描述數據集上進行實驗,從3個方面證明了所提出模型的有效性: 1) HGR模型在多個數據集中取得更好的跨模態檢索結果;2) 在跨數據集實驗中,HGR模型具有更強泛化性能;3) 提出了一個新的細粒度二元選擇任務,HGR模型更能區分細粒度語義變化和選擇更加全面的檢索結果。

付費5元查看完整內容
北京阿比特科技有限公司