亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

回答關于圖像的復雜問題是機器智能的一個雄心勃勃的目標,它需要對圖像、文本和常識的聯合理解,以及強大的推理能力。最近,多模態變換器在視覺常識推理(Visual Commonsense Reasoning, VCR)任務上取得了很大的進展,通過跨通道注意力層共同理解視覺對象和文本標記。然而,這些方法并沒有利用場景的豐富結構和對象之間的交互作用,而這些在回答復雜的常識問題時是必不可少的。我們提出了一個場景圖增強圖像-文本學習(SGEITL)框架,將視覺場景圖納入常識推理。為了利用場景圖結構,在模型結構層次上,我們提出了一種多跳圖轉換器來正則化各跳間的注意力交互。在預訓練方面,提出了一種場景感知的預訓練方法,利用視覺場景圖中提取的結構知識。此外,我們還介紹了一種使用文本注釋在弱監督方式下訓練和生成領域相關視覺場景圖的方法。在VCR和其他任務上的大量實驗表明,與最先進的方法相比,性能有顯著提高,并證明了所提出的每個組件的有效性。

//www.zhuanzhi.ai/paper/b1df219aafbecbaaf09c3a0b10f58df6

付費5元查看完整內容

相關內容

用于基于視頻的推理任務(如視頻問答)的時空場景圖方法通常為每一幀視頻構建這樣的圖。這種方法通常忽略了一個事實,即視頻本質上是發生在3D空間中的事件的2D“視圖”序列,并且3D場景的語義也因此能夠在幀間傳遞。利用這一觀點,我們提出了一個(2.5+1)D場景圖表示,以更好地捕捉視頻中的時空信息流。具體來說,我們首先創建2.5D(偽3D)場景圖,通過使用現成的2D到3D轉換模塊將每一幀2D畫面轉換成推斷出的3D結構,然后我們將視頻幀注冊到共享的(2.5+1)D時空空間中,并將其中的每個2D場景圖置于地面。這樣一個(2.5+1)D圖被分離成一個靜態子圖和一個動態子圖,對應于其中的對象是否通常在世界中移動。動態圖中的節點被運動特征所豐富,捕捉到它們與其他圖節點的交互。接下來,在視頻QA任務中,我們提出了一種新的基于Transformer的推理管道,將(2.5+1)D圖嵌入到一個時空層次潛在空間中,在該空間中,子圖及其交互以不同的粒度捕獲。為了證明該方法的有效性,我們在NExT-QA和AVSD-QA數據集上進行了實驗。我們的結果表明,我們提出的(2.5+1)D表示法導致了更快的訓練和推理,而我們的分層模型在視頻QA任務上的表現優于目前的技術水平。

付費5元查看完整內容

時空表示學習是視頻自監督表示的關鍵。目前的學習方法主要是對比學習和前置任務。然而,這些方法都是通過潛在空間中的特征相似度來判別采樣實例來學習表征,而忽略了學習表征的中間狀態,從而限制了整體性能。在這項工作中,考慮采樣實例的相似程度作為中間狀態,我們提出了一個新的前置任務-時空重疊率(spatial - temporal overlap rate, STOR)預測。它源于人類能夠分辨視頻在空間和時間上的重疊率。這個任務鼓勵模型區分兩個生成樣本的STOR來學習表示。此外,我們采用結合前置任務和對比學習的聯合優化方法來進一步增強時空表示學習。我們還研究了所提出方案中各組成部分的相互影響。大量實驗表明,本文提出的語料存儲任務對對比學習和托詞學習都有較好的效果。聯合優化方案可以顯著提高視頻理解的時空表征。代碼可以在//github.com/Katou2/CSTP上找到。

付費5元查看完整內容

Towards Robust Visual Information Extraction in Real World: New Dataset and Novel Solution

近年來,視覺信息提取技術因其在文檔理解、自動標注、智能教育等方面的先進應用而備受關注。現有的研究大多將這一問題解耦為文本點識別(text detection and recognition)和信息提取幾個獨立的子任務,在優化過程中完全忽略了它們之間的高相關性。在本文中,我們提出了一個面向真實場景的魯棒視覺信息提取系統(VIES),它是一個統一的端到端可訓練的框架,以單個文檔圖像作為輸入和輸出結構化信息,同時進行文本檢測、識別和信息提取。信息提取分支從文本點識別中收集豐富的視覺和語義表征,進行多模態特征融合,提供更高層次的語義線索,有助于文本點識別的優化。此外,針對公共基準的不足,我們構建了一個全注釋數據集EPHOIE (//github.com/HCIILAB/EPHOIE),該數據集是第一個同時用于文本識別和視覺信息提取的中文基準。EPHOIE包含1,494張復雜布局和背景的試卷頭圖像,包括15,771個中文手寫或打印文本實例。與最先進的方法相比,我們的VIES在EPHOIE數據集中顯示了顯著的優越性能,并且在端到端場景下,在廣泛使用的SROIE數據集上獲得9.01%的F-score增益。

付費5元查看完整內容

該工作針對基于半監督的醫學圖像算法,提出了一種利用雙任務一致性約束的新方法,將同一個分割問題表示成兩個不同的任務,并鼓勵兩個任務在預定義的表示空間內保持一致,進而充分利用未標注的數據提升深度神經網絡的性能,同時大大降低訓練網絡模型所需要的標注成本。圖片

基于深度學習的方法因為在圖像處理上優越表現而受到廣泛的關注,近年來在圖像識別、人工智能領域不斷取得了性能突破。但是由于深度神經網絡需要依賴大量良好標注的數據,在小數據上很難達到比較好的效果。在醫學圖像領域,數據標注通常需要大量的時間,也需要醫學領域的專業知識,但醫生通常很忙,沒有充足的時間來標注大量的數據,因此從少量標注數據和大量未標注數據來學習以獲得高性能模型變得尤為重要。

基于這樣的問題,本文提出了一種基于雙任務一致性的半監督學習算法,在現有全監督醫學圖像分割算法基礎上,該算法可以充分利用沒有標注的數據進行進一步學習,進而大大提高未標注數據的利用率和促進網絡分割性能。實驗表明,通過引入雙任務一致性,網絡能更穩定的從少量標注數據和大量未標注數據中學習,并顯著提高分割結果。同時與最新的半監督分割算法相比,此方法需要的訓練成本更低,所取得的效果也更好,從而降低了深度神經網絡對標注數據的依賴。
付費5元查看完整內容

隨著大規模無監督預訓練技術在文本領域的各個任務上取得了顯著的效果提升,視覺-語言預訓練(Vision-language Pre-training)也受到了越來越多的關注。視覺-語言預訓練的目標是通過對齊語料學習多模態的通用聯合表示,將各個模態之間的語義對齊信號融合到聯合表示中,從而提升下游任務效果。已有的視覺語言預訓練方法在預訓練過程中沒有區分普通詞和語義詞,學到的聯合表示無法刻畫模態間細粒度語義的對齊,如場景中物體(objects)、物體屬性(attributes)、物體間關系(relationships)這些深度理解場景所必備的細粒度語義。

我們提出了知識增強的視覺-語言預訓練技術ERNIE-ViL,將包含細粒度語義信息的場景圖先驗知識融入預訓練過程,創建了物體預測、屬性預測、關系預測三個預訓練任務,在預訓練過程中更加關注細粒度語義的跨模態對齊,從而學習到能夠刻畫更好跨模態語義對齊信息的聯合表示。作為業界首個融入場景圖知識的視覺語言預訓練模型,ERNIE-ViL在視覺問答、視覺常識推理、引用表達式理解、跨模態文本檢索、跨模態圖像檢索5個多模態典型任務上取得了SOTA效果,同時,在視覺常識推理VCR榜單上取得第一。

//www.zhuanzhi.ai/paper/3e78bfda818b0c967f692861d4b05386

付費5元查看完整內容

場景圖以結構化、符號化的方式將圖像的高層內容進行了概括,兩幅圖像的場景圖之間的相似性反映了其內容的相關性。基于這一思想,我們提出了一種利用圖神經網絡測量場景圖相似度的圖像到圖像檢索新方法。在我們的方法中,圖神經網絡被訓練來預測代理圖像的關聯度量,使用預先訓練的句子相似度模型從人工標注的標題計算。我們收集并發布由人類標注員測量的圖像相關性數據集,以評估檢索算法。收集到的數據集表明,我們的方法比其他基準方法更符合人類對圖像相似性的感知。

//www.zhuanzhi.ai/paper/36010276b120c7ce7d78a8b4b2427f71

付費5元查看完整內容

在場景圖分類的一個主要挑戰是,物體的外觀和關系可以明顯不同于另一幅圖像。以前的工作通過對圖像中所有物體的關系推理,或將先驗知識納入分類來解決這個問題。與之前的工作不同,我們不考慮感知和先驗知識的分離模型。相反,我們采用多任務學習方法,其中分類被實現為一個注意力層。這允許先驗知識在感知模型中出現和傳播。通過使模型也代表先驗,我們實現了歸納偏差。我們表明,我們的模型可以準確地生成常識性知識,并且將這些知識迭代注入到場景表示中可以顯著提高分類性能。此外,我們的模型可以根據作為三元組的外部知識進行微調。當與自監督學習相結合時,這將獲得僅對1%的帶注釋的圖像進行準確的預測。

付費5元查看完整內容

視覺對話是一項具有挑戰性的任務,它需要從視覺(圖像)和文本(對話歷史)上下文中提取隱含信息。經典的方法更多地關注當前問題、視覺知識和文本知識的整合,忽略了跨模態信息之間的異構語義鴻溝。同時,連接操作已成為跨模式信息融合的事實標準,其信息檢索能力有限。本文提出了一種新的知識橋接圖網絡模型,利用圖在細粒度上橋接視覺知識和文本知識之間的跨模式語義關系,并通過自適應的信息選擇模式檢索所需的知識。此外,視覺對話的推理線索可以清晰地從模態內實體和模態間橋梁中提取出來。VisDial v1.0和VisDial- q數據集上的實驗結果表明,我們的模型優于現有的模型,取得了最新的結果。

//www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a

付費5元查看完整內容
北京阿比特科技有限公司