亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大量的研究成果表明,大規模預訓練語言模型通過自監督任務,可在預訓練階段有效捕捉文本中蘊含的語義信息,經過下游任務微調后能有效的提升模型效果。然而,現有的預訓練語言模型主要針對文本單一模態進行,忽視了文檔本身與文本天然對齊的視覺結構信息。為了解決這一問題,研究員們提出了一種通用文檔預訓練模型LayoutLM[1][2],選擇了文檔結構信息(Document Layout Information)和視覺信息(Visual Information)進行建模,讓模型在預訓練階段進行多模態對齊。

在實際使用的過程中,LayoutLM 僅需要極少的標注數據即可達到行業領先的水平。研究員們在三個不同類型的下游任務中進行了驗證:表單理解(Form Understanding)、票據理解(Receipt Understanding),以及文檔圖像分類(Document Image Classification)。實驗結果表明,在預訓練中引入的結構和視覺信息,能夠有效地遷移到下游任務中,最終在三個下游任務中都取得了顯著的準確率提升。

付費5元查看完整內容

相關內容

預訓練模型是深度學習架構,已經過訓練以執行大量數據上的特定任務(例如,識別圖片中的分類問題)。這種訓練不容易執行,并且通常需要大量資源,超出許多可用于深度學習模型的人可用的資源。

使用圖模型解決問題時,面對實際環境中來源多樣、形式復雜的數據,怎樣將多種信息進行合理融合是一個值得關注的問題。本文將介紹兩篇發表于KDD 2020的與圖模型信息融合相關的工作。

第一篇工作為《HGMF: Heterogeneous Graph-based Fusion for Multimodal Data with Incompleteness》,該工作主要是基于異質圖來解決多模態學習中在信息融合時會遇到的模態缺失問題。

第二篇工作為《Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion》,該工作通過引入兩個外部知識圖譜豐富會話的語義信息,并通過互信息最大化彌補知識圖譜間的語義鴻溝以提升會話推薦系統的表現。

付費5元查看完整內容

遷移學習技術在難以獲得大量高質量注釋數據的NLP任務中特別有用。目前的方法在對下游任務進行微調之前,直接對域內文本采用預先訓練好的語言模型(LM)。我們展示了使用特定于領域的術語擴展LM的詞匯表會帶來進一步的收獲。在更大的效果上,我們利用未標記數據中的結構創建輔助合成任務,這有助于LM向下游任務轉移。在事先訓練好的Roberta-large LM系統上逐步應用這些方法,并在IT領域的三個任務上顯示出可觀的性能提升:閱讀理解、文檔排序和重復問題檢測。

//arxiv.org/abs/2010.05904

付費5元查看完整內容

簡介

本文研究如何利用圖生成作為自監督任務來預訓練GNN。我們將圖的生成概率分解成兩個模塊:1)節點特征生成;2)圖結構生成。通過對這兩個模塊建模,GPT-GNN可以捕捉圖任務里特征與結構之間的關聯,從而不需要很多的標注數據就可達到很高的泛化性能。

背景:預訓練

機器學習的成功很大程度上取決于數據。但是,高質量的標記數據通常很昂貴且難以獲得,尤其是對于希望訓練參數較多的模型。而相對應的,我們卻可以很容易地獲取大量的無標記數據,其數量可以是標記數據的數千倍。 例如,在社交網絡上進行異常檢測時,惡意帳戶的標注需要依賴于專家知識,數量較小,而整個網絡的規模卻可以達到十億規模。

為了解決標注數據較少,盡可能利用其無標注數據,一個常規的做法是自監督的預訓練(self-supervisedpre-training)。其目標是設計合理的自監督任務,從而使模型能從無標注數據里學得數據的信息,作為初始化遷移到下游任務中。由于目標任務中很多的知識已經在預訓練中學到,因此通過預訓練,我們只需要非常少量的標注數據,就能得到較好的泛化性能。

在NLP領域,BERT及其變種的取得了巨大的成功,證明了語言模型作為一個自監督任務,可以幫助訓練非常深的Transformer模型,以捕捉語言的底層知識,如語法、句法、詞義等。同樣,在CV領域,最近的工作如SimCLR也顯示出通過對比學習(Contrastive Learning) 對ResNet進行預訓練也可以顯著提升泛化性能。這些成功表明,無標注數據本身包含豐富的語義知識,因此如果通過預訓練可以使模型能捕捉無標注數據的分布,就能作為初始化幫助一系列下游任務。

受到這些工作的啟發,我們思考能否將預訓練的想法運用到圖數據分析中。本工作就致力于預訓練圖神經網絡,以期GNN能夠學習到圖數據的結構和特征信息,從而能幫助標注數據較少的下游任務。

GPT-GNN模型

要在圖數據上做預訓練,第一個問題是:如何設計合適的無監督學習任務?

本工作提出用生成模型來對圖分布進行建模,即逐步預測出一個圖中一個新節點會有哪些特征、會和圖中哪些節點相連。

由于我們想同時捕獲屬性和結構信息,因此需要將每個節點的條件生成概率分解為兩項,特征生成與圖結構生成。對每一個節點,我們會先掩蓋其特征及部分邊,僅提供剩下的部分作為已經觀測到的邊。

在第一步中,我們將通過已經觀測到的邊,預測該節點的特征,

在第二步中,我們將通過已經觀測到的邊,以及預測出的特征,來預測剩下的邊。

我們可以寫出對應的分解表達式。從理論上,這個目標的期望等同于整個圖的生成概率。

為了并行高效地計算每個節點的loss,避免信息泄露(如節點特征預測的時候如何避免看到該節點自己的輸入特征),以及處理大圖和增加負樣本采樣的準確性,我們做了很多的模型設計。詳見文章。

實驗

我們在兩個大規模異構網絡和一個同構網絡上進行了實驗。

第一個異構圖是MicrosoftAcademic Graph(OAG),其中包含超過2億個節點和23億條邊。另一個是AmazonRecommendation數據集。

總體而言,我們提出的GPT-GNN在不同的實驗設定下顯著提高下游任務的性能,平均能達到9.1%的性能提升。

我們還評估了在不同百分比的標記數據下,GPT-GNN是否依然能取得提升。我們可以看到,使用GPT預訓練時,僅使用20%標簽數據的模型性能就會比使用100%數據進行直接監督學習的模型性能更高。這顯示了預訓練的有效性,尤其是在標簽稀缺時。

付費5元查看完整內容

UniLMv2:統一預訓練偽掩碼語言模型

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

論文鏈接://www.zhuanzhi.ai/paper/a6628400809ab320e597b1d4d1fca177

基于大規模語料的預訓練語言模型在各種自然語言處理任務帶來了巨大的提升。受UniLMv1 ([NeurIPS-19]Unified Language Model Pre-training for Natural Language Understanding and Generation)的啟發,本篇論文提出“偽掩碼語言模型”(PMLM),可以同時對兩種不同的語言建模目標進行高效訓練,從而使其更好地適用于語言理解(如文本分類、自動問答)和語言生成(如文本摘要、問題生成)任務。

我們將語言模型預訓練目標分為三類。第一類依賴于自編碼語言建模(Autoencoding, AE)。例如在 BERT 中使用的掩碼語言建模(MLM)隨機的在文本序列中遮蓋一部分單詞,在 Transformer 的雙向編碼結果之上,對每個被遮蓋的單詞進行分別還原。第二類方法基于自回歸建模(Autoregressive, AR)。不同于 AE,目標單詞被依次預測,且依賴于先前的結果。第三類是我們提出的半自回歸語言建模(Partially Autoregressive, PAR),對短語級別進行依賴建模,從而避免了 AR可能帶來的過度局部依賴問題。

偽掩碼語言模型(PMLM)

在新提出的偽掩碼語言模型(PMLM)中,我們對 AE 以及 PAR 這兩個語言建模目標進行了融合。在共享模型參數的基礎上,盡可能對上下文的編碼結果進行了復用,以達到高效訓練的目的。通過構造合理的自注意力模型掩碼與位置編碼,PMLM 可以在一次計算中同時對兩種語言建模任務進行訓練,且無需進行上下文編碼的冗余計算。

在自動問答、復述判別、情感分類、文本摘要、問題生成等一系列任務上的測評,說明了這一方法的有效性。

付費5元查看完整內容

摘要

圖神經網絡(GNNs)已被證明在建模圖結構的數據方面是強大的。然而,訓練GNN通常需要大量指定任務的標記數據,獲取這些數據的成本往往非常高。減少標記工作的一種有效方法是在未標記數據上預訓練一個具有表達能力的GNN模型,并進行自我監督,然后將學習到的模型遷移到只有少量標記的下游任務中。在本文中,我們提出了GPT-GNN框架,通過生成式預訓練來初始化GNN。GPT-GNN引入了一個自監督屬性圖生成任務來預訓練一個GNN,使其能夠捕獲圖的結構和語義屬性信息。我們將圖生成的概率分解為兩部分:1)屬性生成和2)邊生成。通過對兩個組件進行建模,GPT-GNN捕捉到生成過程中節點屬性與圖結構之間的內在依賴關系。在10億規模的開放學術圖和亞馬遜推薦數據上進行的綜合實驗表明,GPT-GNN在不經過預訓練的情況下,在各種下游任務中的表現顯著優于最先進的GNN模型,最高可達9.1%。

**關鍵詞:**生成式預訓練,圖神經網絡,圖表示學習,神經嵌入,GNN預訓練

付費5元查看完整內容

圖表示學習已經成為解決現實問題的一種強大的技術。節點分類、相似度搜索、圖分類和鏈接預測等各種下游圖學習任務都受益于它的最新發展。然而,現有的圖表示學習技術側重于特定領域的問題,并為每個圖訓練專用的模型,這些模型通常不能轉移到域外數據。受最近自然語言處理和計算機視覺的預訓練進展的啟發,我們設計了圖對比編碼(GCC)——一種無監督圖表示學習框架——來捕獲跨多個網絡的通用網絡拓撲屬性。我們將GCC的預訓練任務設計為網絡中或跨網絡的子圖級實例識別,并利用對比學習來授權模型學習內在的和可轉移的結構表示。我們對三個圖學習任務和十個圖數據集進行了廣泛的實驗。結果表明,在一組不同的數據集上進行預訓練的GCC可以取得與任務相關的從零開始訓練的GCC具有競爭力或更好的性能。這表明,預訓練和微調范式為圖表示學習提供了巨大的潛力。

//arxiv.org/abs/2006.09963

付費5元查看完整內容

我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。

付費5元查看完整內容

【導讀】最近小編推出CVPR2019圖卷積網絡相關論文、CVPR2019生成對抗網絡相關視覺論文和【可解釋性】相關論文和代碼,反響熱烈。最近,視覺目標跟蹤領域出現了很多不同的框架和方法,CVPR 2019已經陸續放出十幾篇相關文章,這一領域近期也受到大家廣泛的關注。今天小編專門整理最新九篇視覺目標跟蹤相關應用論文—無監督視覺跟蹤、生成對抗網絡、三維Siamese跟蹤、SiamMask、SiamRPN++、SPM-Tracker等。

1、Unsupervised Deep Tracking (無監督的深度跟蹤)

CVPR ’19

作者:Ning Wang, Yibing Song, Chao Ma, Wengang Zhou, Wei Liu, Houqiang Li

摘要:我們在本文中提出了一種無監督視覺跟蹤方法。與現有的使用大量標注數據進行監督學習的方法不同,我們的CNN模型是以一種無監督的方式對大規模無標記視頻進行訓練的。我們的動機是,一個健壯的跟蹤器應該在前向和后向預測中都是有效的(即,跟蹤器可以在連續幀中對目標對象進行前向定位,并在第一幀中回溯到目標對象的初始位置)。我們在Siamese相關濾波器網絡上構建了我們的框架,該網絡使用未標記的原始視頻進行訓練。同時,我們提出了一種多幀驗證方法和代價敏感的損失函數,以方便無監督學習。在沒有監督信息的情況下(without bells and whistles),所提出的無監督跟蹤器達到了完全監督跟蹤器的baseline精度,這需要在訓練過程中完整且準確的標簽。此外,無監督框架顯示了利用無標記或弱標記數據進一步提高跟蹤精度的潛力。

網址:

//arxiv.org/abs/1904.01828

代碼鏈接:

2、Target-Aware Deep Tracking( 目標感知的深度跟蹤)

CVPR ’19

作者:Xin Li, Chao Ma, Baoyuan Wu, Zhenyu He, Ming-Hsuan Yang

摘要:現有的深度跟蹤器主要使用卷積神經網絡對泛型目標識別任務進行預處理來表示。盡管在許多視覺任務中都取得了成功,但是使用預先訓練的深度特征進行視覺跟蹤的貢獻不如目標識別那么重要。關鍵問題是,在視覺跟蹤中的目標的可以是任意對象類與任意形式。因此,預先訓練的深層特征在建模這些任意形式的目標時效果較差,無法將它們從背景中區分出來。在本文中,我們提出了一種新的學習目標感知特征的方法,該方法能夠比預訓練的深度特征更好地識別發生顯著外觀變化的目標。為此,我們提出了回歸損失和排名損失來指導目標活動和尺度敏感特征的生成。我們根據反向傳播的梯度來識別每個卷積濾波器的重要性,并基于用于表示目標的激活來選擇目標感知特征。目標感知特征與Siamese匹配網絡集成,用于視覺跟蹤。大量的實驗結果表明,該算法在精度和速度上均優于現有的算法。

網址:

代碼鏈接:

3、MOTS: Multi-Object Tracking and Segmentation(MOTS:多目標跟蹤和分割)

CVPR ’19

作者:Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe

摘要:本文將多目標跟蹤的流行任務擴展到多目標跟蹤與分割(MOTS)。為此,我們使用半自動標注程序為兩個現有跟蹤數據集創建密集的像素級標注。我們的新標注包含了10870個視頻幀中977個不同對象(汽車和行人)的65,213個像素掩碼。為了進行評估,我們將現有的多對象跟蹤指標擴展到這個新任務。此外,我們提出了一種新的baseline方法,該方法通過單個卷積網絡共同解決檢測,跟蹤和分割問題。在對MOTS標注進行訓練時,我們通過提高性能來展示數據集的價值。我們相信,我們的數據集、度量metrics和baseline將成為開發超越二維邊界框的多對象跟蹤方法的寶貴資源。我們的注釋,代碼和模型可以在

網址:

代碼鏈接:

4、Leveraging Shape Completion for 3D Siamese Tracking(利用形狀補全三維Siamese跟蹤)

CVPR ’19

作者:Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe

摘要:點云由于其稀疏性,處理起來很有挑戰性,因此自動駕駛車輛更多地依賴于外觀屬性,而不是純粹的幾何特征。然而,三維激光雷達感知在具有挑戰性的光或天氣條件下可以為城市導航提供重要的信息。本文研究了形狀補全Shape Completion在LIDAR點云三維目標跟蹤中的通用性。我們設計了一個Siamese追蹤器,將模型和候選形狀編碼成一個緊湊的潛在表示。我們通過強制將潛在表示解碼為對象模型形狀來規范編碼。我們觀察到,三維物體跟蹤和三維形狀補全Shape Completion是相輔相成的。學習更有意義的潛在表示可以顯示更好的區分能力,從而提高跟蹤性能。我們在KITTI Tracking數據集上使用汽車3D bounding boxes測試了我們的方法。我們的模型對三維目標跟蹤的成功率為76.94%,精度為81.38%,形狀補全Shape Completion正則化使得兩種指標都提高了3%。

網址:

代碼鏈接:

5、LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking(LaSOT:基于大規模單目標跟蹤的高質量基準)

CVPR ’19

作者:Heng Fan, Liting Lin, Fan Yang, Peng Chu, Ge Deng, Sijia Yu, Hexin Bai, Yong Xu, Chunyuan Liao, Haibin Ling

摘要:本文提出了一種用于大規模單目標跟蹤的高質量基準LaSOT。LaSOT由1400個序列組成,總幀數超過350萬。這些序列中的每一幀都小心翼翼地用一個邊界框手工標注,使LaSOT成為我們所知最大的、標注密集的跟蹤基準。LaSOT的平均視頻長度超過2500幀,每個序列都包含來自野外的各種挑戰,在野外,目標對象可能會消失,然后重新出現在視圖中。通過發布LaSOT,我們希望為社區提供一個大規模、高質量的專用基準,用于深度跟蹤器的訓練和跟蹤算法的真實評估。此外,考慮到視覺外觀與自然語言的緊密聯系,我們通過提供額外的語言規范來豐富LaSOT,旨在鼓勵探索自然語言特征來進行跟蹤。對LaSOT上的35種跟蹤算法進行了全面的實驗評估,并進行了詳細的分析,結果表明,該算法仍有很大的改進空間。

網址:

6、Fast Online Object Tracking and Segmentation: A Unifying Approach(快速在線目標跟蹤和分割: 一種統一的方法)

CVPR ’19

作者:Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr

摘要:在本文中,我們將介紹如何用一種簡單的方法實時地執行視覺目標跟蹤和半監督視頻目標分割。我們的方法,稱為SiamMask,改進了流行的全卷積Siamese方法的離線訓練過程,通過一個二值分割任務增加了它們的損失。經過訓練,SiamMask完全依賴于單個邊界框初始化并在線操作,生成與類無關的目標分割掩碼,并以每秒35幀的速度旋轉邊界框。它不僅具有簡單性、多功能性和快速性,還使我們能夠在VOT-2018上建立一個新的最好的實時跟蹤器,同時在DAVIS-2016和DAVIS-2017上展示出具有競爭力的性能和半監督視頻對象分割任務的最佳速度。

網址:

代碼鏈接:

7、SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks(SiamRPN++: 使用深層網絡的Siamese視覺跟蹤演化)

CVPR ’19

作者:Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan

摘要:基于Siamese網絡的跟蹤器將跟蹤描述為目標模板與搜索區域之間的卷積特征互相關聯。然而,與最先進的算法相比,Siamese跟蹤器仍然存在精度上的差距,它們無法利用深度網絡(如ResNet-50或更深)的特性。在本文中,我們證明了其核心原因是缺乏嚴格的翻轉不變性。通過全面的理論分析和實驗驗證,我們通過一種簡單有效的空間感知采樣策略打破了這一限制,成功地訓練了一個性能顯著提高的ResNet驅動的Siamese跟蹤器。此外,我們提出了一種新的模型架構來執行深度和層次的聚合,這不僅進一步提高了精度,而且減少了模型的大小。我們進行了廣泛的消融研究來證明所提出的跟蹤器的有效性,該跟蹤器目前在OTB2015、VOT2018、UAV123和LaSOT四個大型跟蹤基準上獲得了最佳結果。我們的模型將會發布,以方便研究人員基于這個問題做進一步的研究。

網址:

代碼鏈接:

8、Deeper and Wider Siamese Networks for Real-Time Visual Tracking(更深入和更廣泛的Siamese網絡實時視覺跟蹤)

CVPR ’19

作者:Zhipeng Zhang, Houwen Peng

摘要:Siamese網絡以其均衡的精度和速度在視覺跟蹤領域引起了廣泛的關注。然而,Siamese跟蹤器中使用的主干網絡相對較淺,如AlexNet[18],沒有充分利用現代深度神經網絡的優勢。在本文中,我們研究如何利用更深更廣的卷積神經網絡來提高跟蹤的魯棒性和準確性。我們注意到,用現有的強大架構(如ResNet[14]和Inception[33])直接替換主干網絡并不能帶來改進。主要原因是1)神經元接受域的大量增加導致特征識別率和定位精度下降;2)卷積的網絡padding導致了學習中的位置偏差。為了解決這些問題,我們提出了新的residual模塊,以消除padding的負面影響,并進一步設計使用這些模塊的新的架構控制感知域大小和網絡步長。設計的架構非常輕巧,并且在應用于SiamFC [2]和SiamRPN [20]時保證了實時跟蹤速度。實驗表明,僅由于提出的網絡架構,我們的SiamFC+和SiamRPN+在OTB-15、VOT-16和VOT-17數據集上分別獲得了9.8%/5.7% (AUC)、23.3%/8.8% (EAO)和24.4%/25.0% (EAO)的相對改進[2,20]。

網址:

代碼鏈接:

9、SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking(SPM-Tracker: 用于實時視覺目標跟蹤的串并聯匹配機制)

CVPR ’19

作者:Guangting Wang, Chong Luo, Zhiwei Xiong, Wenjun Zeng

摘要:視覺目標跟蹤面臨的最大挑戰是同時要求魯棒性和識別能力。為了解決這一問題,本文提出了一種基于SiamFC的跟蹤器,SPM-Tracker。基本思想是在兩個獨立的匹配階段處理這兩個需求。粗匹配(CM)階段通過廣義訓練增強了魯棒性,而精細匹配(FM)階段通過遠程學習網絡增強了分辨能力。當CM階段的輸入提議由CM階段生成時,這兩個階段串聯連接。當匹配分數和box位置細化被融合在一起產生最終結果時,它們也被并行連接。這種創新的串并聯結構充分利用了兩個階段,從而實現了卓越的性能。該SPM-Tracker在GPU上運行速度為120fps,在OTB-100上的AUC為0.687,在VOT-16上的EAO為0.434,顯著超過其他實時跟蹤器。

網址:

鏈接: 提取碼:ydw4

付費5元查看完整內容
北京阿比特科技有限公司