亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

互聯網上短視頻的快速涌現為視頻內容的精準檢索帶來了前所未有的挑戰。使用自然語言文本描述對視頻進行跨模態檢索(Cross-modal Video-Text Retrieval)是最符合自然人機交互的方式之一,能更加全面細粒度地表達用戶檢索需求,得到了越來越多的研究關注。

當前跨模態檢索的主要方法將視頻和文本模態映射到聯合視覺語義空間以計算跨模態相似度。大部分工作[1,2]使用全局特征向量分別表示視頻和文本信息,但是文本和視頻中包含了豐富復雜的元素,例如圖1中的事件檢索涉及了不同的動作、實體、以及動作實體之間的關系等等,使用單一的特征表示很難捕獲細粒度的語義信息。少量工作[3]提出細粒度的密集匹配,將視頻和文本表示為序列化特征,對每一序列元素進行局部對齊匹配,融合得到全局跨模態相似度,然而僅使用序列化表示忽略了文本或視頻內部復雜的拓撲結構,不能準確地表示事件中不同元素之間的關系,使得局部對齊匹配的語義表達能力下降。

視頻文本匹配被分解包括事件(Event)、動作(Action)和實體(Entities)的三個層次,形成整體到局部的結構。一方面,模型可借助局部語義元素增強全局語義匹配;另一方面,全局語義信息也能幫助局部元素的語義理解,增強局部信息的跨模態匹配。

因此,我們提出了層次化圖推理模型(Hierarchical Graph Reasoning model, HGR),更好地結合全局和局部密集匹配的優點,并彌補其不足。如圖1所示,我們將視頻文本匹配分解為三層的語義級別,分別負責刻畫全局事件(Event)以及局部的動作(Action)和實體(Entities),以涵蓋整體到局部的語義信息。首先對于文本編碼,全局事件由整個句子表示,動作由動詞表示,實體則由名詞短語表示。不同語義級別不是獨立的,它們之間的交互反映了它們在事件中扮演的語義角色(Semantic Role),因此我們建立三層語義級別的語義角色圖(Semantic Role Graph),提出利用基于注意力的圖推理方法來捕捉圖中的交互信息。然后,不同層次的文本特征用于指導多樣化的視頻編碼,視頻也被編碼為與事件、動作和實體相關的層次化表示。每一層次級通過注意力機制進行跨模態匹配,最后進行不同層次的融合。

我們在三個視頻描述數據集上進行實驗,從3個方面證明了所提出模型的有效性: 1) HGR模型在多個數據集中取得更好的跨模態檢索結果;2) 在跨數據集實驗中,HGR模型具有更強泛化性能;3) 提出了一個新的細粒度二元選擇任務,HGR模型更能區分細粒度語義變化和選擇更加全面的檢索結果。

付費5元查看完整內容

相關內容

數據粒度,在AI中多指數據的詳細程度,而細粒度數據則指信息非常詳細具體的數據。數據的粒度越小,數據的信息越具體,越容易在機器學習中把握數據的規律與本質,所以在機器學習中,我們一般追求數據的細粒度化,多層次化,恰當高效的表示,但是細粒度數據是難以獲取的,并且往往難以訓練和學習,需要特殊的方法。

《Recurrent Hierarchical Topic-Guided RNN for Language Generation》,也被今年ICML錄用。該論文屬于自然語言處理領域。語言模型是各種自然語言處理任務的關鍵組成部分,其主要目的是捕獲單詞序列的分布,但它們通常忽略了文檔中句子的順序和文檔上下文。在語言建模中,如何尋找更好的方法,既能捕捉單詞之間的順序,又能捕捉全局語義信息是比較有挑戰的問題。不同于語言模型,主題模型是用來在一系列文檔中發現抽象主題的一種統計模型。主題模型可以提取具有全局語義的隱表示,但是它們通常將每個文檔視為一袋單詞(BoW),忽略了單詞之間的順序。

因此針對上述討論的語言模型的問題,以及主題模型和語言模型各自的優勢,本次研究提出使用深層時序主題模型來指導語言模型進行建模(rGBN-RNN)。如圖1(a)所示,所提模型由兩個關鍵部分組成:(1)一個層次遞歸主題模型(rGBN);(2)一個基于多層RNN的語言模型(RNN)。主題模型用于捕獲跨文檔的全局語義和文檔中句子間的長期依賴關系,而語言模型用于學習句子中單詞之間的局部語法關系。

![](//cdn.zhuanzhi.ai/vfiles/ed8aef3746e3c4d4d24e4ebf0c99a711)   

圖1 rGBN-RNN模型的總體結構,由解碼器(rGB和語言模型)和編碼器(變分時序推理)兩部分構成,紅色箭頭表示主題權向量的推理,黑色箭頭表示數據生成。

如圖1(b)所示,所提模型將層次時序的主題權重向量作為額外輸入集成到語言模型中。因此不同于傳統的基于RNN的語言模型,所提出的模型不僅捕獲句子內的單詞依賴關系,而且捕獲句子之間的相關性,同時利用主題模型考慮了文本的全局語義信息。為了進行推理,本次工作提出了隨機梯度馬爾科夫鏈蒙特卡洛和遞歸變分自編碼的混合算法。圖1(c)展示了rGBN-RNN的整個框架,包含了生成模型(編碼器)和推理模型(解碼器)。如圖2所示,我們利用新聞數據訓練三層rGBN-RNN,并將學習到的層次主題以及這些主題指導生成的句子進行了可視化。一方面,rGBN-RNN能夠捕捉到不同層次主題之間可解釋的層次關系,以及同一層次主題之間的時間關系(如圖中彩色實線框所示)。另一方面,如圖中虛線框所示,依據一個或者多個主題生成的句子大部分與相應主題高度相關。這種相關不一定在關鍵字的相似,更多是語義內容的接近,表明層次時序的主題能夠成功地引導語言模型。這些觀察結果表明,rGBN-RNN能夠成功地捕獲自然語言生成所需要的語法和全局語義信息。此外,模型還能生成語法正確、語義連貫的句子和段落。

圖1(三層rGBN-RNN基于APNEWS(新聞)數據集推斷出的主題,以及在主題指導下生成的句子。由上至下,第3層、第2層、第1層主題分別用橙色、黃色和藍色實線框表示,生成的句子用虛線框表示,虛線框中標注了生成句子所用的主題索引號。圖的底部是由不同層次的主題組合生成的句子。

付費5元查看完整內容

即使有可靠的OCR模型,要回答需要在圖片中閱讀文字的問題,也對現有模型構成了一個挑戰。其中最困難的是圖片中經常有罕見字,多義字,比如地名,產品名,球隊名。

為了克服這個困難,我們的模型利用了圖片中多個模態的豐富信息來推測圖片中文字的語義,例如酒瓶上顯眼位置的字樣很可能是酒名。

有了這樣的直觀感受,我們設計了一個新的VQA模型---多模態圖神經網絡(MM-GNN)。它會首先構建一個具有三個子圖的特征節點圖,分別描述視覺,文字,和數字模態。此后,我們設計了三個融合子,在子圖間或子圖內進行信息傳遞。增強過后的節點特征被證明可以很好地幫助下游任務,我們在ST-VQA和Facebook的Text-VQA上都取得了SOTA的成績。

付費5元查看完整內容

【導讀】計算機視覺頂會CVPR 2020在不久前公布了論文接收列表。本屆CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率僅為22%。幾周前專知小編整理了CVPR 2020 圖神經網絡(GNN)相關的比較有意思的值得閱讀的,這期小編繼續為大家奉上CVPR 2020五篇GNN相關論文供參考——視頻文本檢索、人體解析、圖像描述生成、人臉重構、Human-Object Interaction。

CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN

  1. Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning

作者:Shizhe Chen, Yida Zhao, Qin Jin and Qi Wu

摘要:隨著視頻在網絡上的迅速涌現,視頻和文本之間的跨模態檢索越來越受到人們的關注。目前解決這一問題的主流方法是學習聯合嵌入空間來度量跨模態相似性。然而,簡單的聯合嵌入不足以表示復雜的視覺和文本細節,例如場景、對象、動作及他們的組成。為了提高細粒度的視頻文本檢索,我們提出了一種分層圖推理(HGR)模型,將視頻文本匹配分解為全局到局部層次。具體地說,該模型將文本分解成層次化的語義圖,包括事件、動作、實體這三個層次和這些層次之間的關系。利用基于屬性的圖推理生成層次化的文本嵌入,以指導多樣化、層次化的視頻表示學習。HGR模型聚合來自不同視頻-文本級別的匹配,以捕捉全局和局部細節。在三個視頻文本數據集上的實驗結果表明了該模型的優越性。這種分層分解還可以更好地跨數據集進行泛化,并提高區分細粒度語義差異的能力。

網址://arxiv.org/abs/2003.00392

  1. Hierarchical Human Parsing with Typed Part-Relation Reasoning

作者:Wenguan Wang, Hailong Zhu, Jifeng Dai, Yanwei Pang, Jianbing Shen and Ling Shao

摘要:人體解析(Human parsing)是為了像素級的人類語義理解。由于人體是具有層次結構的,因此如何對人體結構進行建模是這個任務的中心主題。圍繞這一點,我們試圖同時探索深度圖網絡的表示能力和層次化的人類結構。在本文中,我們有以下兩個貢獻。首先,首次用三個不同的關系網絡完整而精確地描述了分解、組合和依賴這三種部件關系。這與以前的解析方式形成了鮮明的對比,之前的解析器只關注關系的一部分,并采用類型不可知(type-agnostic)的關系建模策略。通過在關系網絡中顯式地施加參數來滿足不同關系的具體特性,可以捕捉到更具表現力的關系信息。其次,以前的解析器在很大程度上忽略了循環的人類層次結構上的近似算法的需求,而我們則通過將具有邊類型的通用信息傳遞網絡與卷積網絡同化來解決迭代推理過程。通過這些努力,我們的解析器為更復雜、更靈活的人際關系推理模式奠定了基礎。在五個數據集上的綜合實驗表明,我們的解析器在每個數據集上都具有最好的表現。

網址:

  1. Say As You Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

作者:Shizhe Chen, Qin Jin, Peng Wang and Qi Wu

摘要:人類能夠隨心所欲地用粗略到精細的細節來描述圖像內容。然而,大多數圖像描述生成模型都是忽略意圖(intention-agnostic)的,不能根據不同的用戶意圖主動生成不同的描述。在這項工作中,我們提出了抽象場景圖(ASG)結構來在細粒度層次上表示用戶意圖,并控制生成的描述應該是什么和有多詳細。ASG是一個由三種類型的抽象節點(對象、屬性、關系)組成的有向圖,這些節點來自于圖像,沒有任何具體的語義標簽。因此,啊他們通過手動或自動生成都很容易獲得。在ASG的基礎上,我們提出了一種新穎的ASG2圖像描述生成模型,該模型能夠識別用戶在圖中的意圖和語義,從而根據圖的結構生成想要的字幕。與在VisualGenome和MSCOCO數據集上的其它的基線模型相比,我們的模型在ASG上具有更好的可控性條件。它還通過自動采樣不同的ASG作為控制信號,顯著提高了caption的多樣性。

網址:

  1. Towards High-Fidelity 3D Face Reconstruction from In-the-Wild Images Using Graph Convolutional Networks

作者:Jiangke Lin, Yi Yuan, Tianjia Shao and Kun Zhou

摘要:基于三維形變模型(3DMM)的方法在從單視圖圖像中恢復三維人臉形狀方面取得了很大的成功。然而,用這種方法恢復的面部紋理缺乏像輸入圖像中表現出的逼真度。最近的工作采用生成網絡來恢復高質量的面部紋理,這些網絡是從一個大規模的高分辨率臉部紋理UV圖數據庫中訓練出來的,這些數據庫很難準備的,也不能公開使用。本文介紹了一種在無約束條件下捕獲(in-the-wild)的單視圖像中重建具有高保真紋理的三維人臉形狀的方法,該方法不需要獲取大規模的人臉紋理數據庫。為此,我們提出使用圖卷積網絡來重建網格頂點的細節顏色來代替重建UV地圖。實驗表明,我們的方法可以產生高質量的結果,并且在定性和定量比較方面都優于最先進的方法。

網址:

  1. VSGNet: Spatial Attention Network for Detecting Human Object Interactions Using Graph Convolutions

作者:Oytun Ulutan, A S M Iftekhar and B. S. Manjunath

摘要:全面的視覺理解要求檢測框架能夠在單獨分析物體的同時有效地學習和利用物體交互。這是人類-物體交互(Human-Object Interaction,HOI)任務的主要目標。特別是,物體之間的相對空間推理和結構聯系是分析交互的基本線索,文中提出的視覺-空間-圖網絡(VSGNet)體系結構可以解決這一問題。VSGNet從人類-物體對中提取視覺特征,利用人類-物體對的空間構型對特征進行細化,并通過圖卷積利用人類-物體對之間的結構聯系。我們使用COCO(V-COCO)和HICO-Det數據集中的動詞對VSGNet的性能進行了全面評估。實驗結果表明,VSGNet在V-COCO和HICO-DET中的性能分別比現有解決方案高出8%或4MAP和16%或3MAP。

網址:

代碼鏈接:

付費5元查看完整內容
北京阿比特科技有限公司