亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大規模文本語料庫上的模型預訓練已經被證明在NLP領域的各種下游應用中非常有效。在圖挖掘領域,也可以類比預訓練圖模型在大規模圖上,以期望從中獲益于下游圖應用,這也被一些最近的研究所探索。然而,現有的研究從未研究過在具有豐富文本信息的大型異構圖(也就是大型圖譜語料庫)上預訓練文本加圖模型,然后在具有不同圖模式的不同相關下游應用上對模型進行微調。為了解決這個問題,我們提出了一個在大型圖譜語料庫上進行圖感知語言模型預訓練(GaLM)的框架,該框架結合了大型語言模型和圖神經網絡,并在下游應用上提供了各種微調方法。我們在亞馬遜的真實內部數據集和大型公共數據集上進行了廣泛的實驗。全面的實證結果和深入的分析證明了我們提出的方法的有效性,以及我們從中學到的經驗。

付費5元查看完整內容

相關內容

在資源受限的環境下,將像BERT這樣的預訓練Transformer模型部署在下游任務上是具有挑戰性的,因為它們的推理成本會隨著輸入序列長度的增加而迅速增加。在這項研究中,我們提出了一種基于約束感知和排序蒸餾的令牌修剪方法ToP,該方法在輸入序列通過各層時選擇性地刪除不必要的令牌,允許模型在保持精度的同時提高在線推理速度。ToP通過一種排序蒸餾令牌提煉技術克服了傳統自注意力機制中令牌重要性排名不準確的限制,該技術將有效的令牌排名從未修剪模型的最后一層蒸餾到修剪模型的早期層。接下來,ToP引入了一種粗糙到精細的修剪方法,這種方法自動選擇Transformer層的最佳子集,并通過改進的L0正則化在這些層中優化令牌修剪決策。在GLUE基準測試和SQuAD任務上的大量實驗顯示,ToP在保持精度的同時,提高了速度,超越了現有最先進的令牌修剪和模型壓縮方法。ToP將BERT的平均FLOPs減少了8.1倍,同時在GLUE上保持了競爭性的準確度,并在Intel CPU上提供了高達7.4倍的真實延遲加速。代碼在這里可用。

付費5元查看完整內容

問題回答(QA)在自然語言處理(NLP)中是一個非常具有挑戰性的任務,因為它需要理解問題,找到與問題相關的信息,并執行各種推理步驟以預測答案。人們每天提出的問題與許多類型的推理相關。在這篇論文中,我們討論了在問題回答(QA)中處理具有挑戰性的推理任務的幾種方法。在問題回答(QA)中常見的推理任務包括單跳和多跳關系跟蹤、交集和并集、否定和約束驗證。在論文的第一部分,我們使用結構化或半結構化查詢研究了在符號知識庫(KBs)上的這些推理任務。我們首先提出了一種用于符號空間推理的神經查詢語言,然后討論了將其擴展到嵌入空間以實現更好泛化的可能性。由于符號KBs通常不完整,我們還提出了一種從文本構建虛擬KBs(VKBs)的方法,該方法支持大多數作為符號KBs的推理任務。由于大多數NLP系統都是基于語言模型(LMs)構建的,所以在論文的下一部分,我們提出了將推理方法整合到語言模型(LMs)中的方法,以提高LMs在執行更具挑戰性的QA任務的推理步驟的能力。整合改進了LMs對事實知識的忠實性,也使得可以更新LMs學習的知識,以進行無需任何額外訓練或微調的更新預測。這些提出的方法適用于符號KBs和虛擬KBs。然而,前面討論的推理任務主要關注精確定義的問題,即存在單一正確答案的問題。

在論文的最后一部分,我們研究了帶有模糊問題的QA任務,即從問題中缺少重要信息,根據問題的解釋可能有多個答案。我們為這個任務開發了一個新的數據集,并展示了它對當前的QA系統的挑戰。我們為新的數據集提出了改進的方法,該方法根據對回答問題的文檔的分析,確定哪些條件可以消除問題的歧義。最后,我們考慮了這個任務的“開放”版本,即未提供答案文檔。

構建理解自然語言的智能系統是自然語言處理(NLP)社區長期以來的目標。自然語言在日常生活中被用于交流和儲存關于世界的知識。然而,由于詞匯和語法的多樣性以及自然語言中豐富的語義信息,開發理解自然語言的機器學習技術是具有挑戰性的。完全理解自然語言可能還需要對文檔的語義進行推理,或者對文檔的問題進行推理。我們專注于NLP中的知識密集型任務,如信息檢索(IR)和問題回答(QA),這些任務需要理解關于世界的事實知識。知識密集型任務測試NLP系統從大量知識中找到相關信息并據此進行預測的能力。例如,可以從維基百科的一段文字中找到“CMU的位置”的答案,例如“卡內基梅隆大學(CMU)是位于賓夕法尼亞州匹茲堡的一所私立研究型大學”。一些其他的查詢可能需要多于一份的信息,例如“CMU附近的科技公司”,這需要首先找到CMU的位置,然后在同一個城市找到公司,再通過“科技”公司的限制進行篩選。我們將理解查詢的意圖,定位相關信息,并聚合多份信息來預測答案的能力稱為“推理”。在知識密集型NLP任務中涉及到各種類型的推理程序。

在這篇論文中,我們考慮了在問題回答(QA)任務中常見的幾種推理類型: 1. 關系追蹤。關系追蹤,如“CMU的部門”,是QA中最常見的問題類型。它從一個主題實體x開始,如“CMU”,然后跟蹤一個關系r,如“有部門”,以找到答案。我們可以用一階邏輯來寫關系追蹤問題,如Y = {y | has department(CMU, y)},其中has department(·, ·)是一個謂詞,關系為“X的部門”和“CMU”是主題實體。Y是那些可以用提供或檢索的信息來驗證has department(CMU, y)的答案y的集合,如Y = {MLD, LTI, CSD, . . . }。 1. 多跳關系追蹤。如果問題需要多于一步的推理,關系追蹤可以被鏈接。例如,“CMU的部門授予的學位”需要找到CMU的學術部門,然后找到這些部門授予的學位,即Y = {y | ? z, has department(CMU, z) ∧ degree(z, y)},其中最終答案y ∈ Y取決于中間輸出z。 1. 交集和并集。另外兩種常見的推理類型是交集和并集,例如“有CMU或UPitt校區的城市”。為了回答這個問題,我們聯合了CMU的位置和UPitt的位置,即Y = {y | locate(CMU, y) ∨ locate(UPitt, y)}。 1. 約束。有些問題需要滿足一些指定約束的答案,例如“有CMU校區提供金融學位的城市”。我們通過約束過濾位置集合,即Y = {y | locate(CMU, y) ∧ filter(y, “finance degrees”)}。 1. 歸納推理。在歸納中,推理過程是根據一些預先確定的規則對一組觀察結果進行解釋。解釋只得到了觀察結果的部分支持,因此,它做出了一些假設。我們考慮在回答模糊問題的情境中的歸納推理任務,其中問題提供的信息(有時與提問的場景配對)被視為觀察。由于問題是模糊的,即回答問題的重要信息缺失,規則只被部分滿足。因此,可能有多個答案,有些答案在某些條件下才是正確的。我們說,給定提供的信息,可能的答案和它們的條件的組合是解釋。

回答模糊問題的任務是找到一組關于用戶意圖的合理假設,以解決歧義,即如果將假設作為約束添加到問題中,問題將有唯一的答案。例如,如果我們假設“校園”意味著“主校園”,那么“CMU的校園”這個問題的答案就是“匹茲堡”。

付費5元查看完整內容

序列推薦的目標是通過歷史交互來模擬用戶的動態行為。現有的方法依賴于明確的商品 ID 或者通用的文本特征進行序列模型的理解用戶喜好。然而,這些方法仍然難以處理冷啟動商品,或將知識遷移到新的數據集上。在這篇文章中,我們提出將用戶偏好和商品特征建模為可以泛化到新商品和數據集的語言表示。為此,我們提出了一個新穎的框架,名為 Recformer,該框架可以有效地學習用于序列推薦的語言表示**。具體來說,我們提出將一個項目視為一個由文本描述的項目鍵值屬性展開的“句子”(詞序列),這樣用戶的一個項目序列就變成了一個句子序列**。對于推薦,Recformer被訓練來理解“句子”序列并檢索下一個“句子”。為了編碼項目序列,我們設計了一個類似于Longformer的雙向Transformer模型,但在序列推薦中使用了不同的嵌入層。為了有效的表示學習,我們提出了新穎的預訓練和微調方法,這些方法結合了語言理解和推薦任務。因此,Recformer可以有效地根據語言表示推薦下一個項目。在六個數據集上進行的廣泛實驗表明了Recformer在序列推薦,特別是在資源少和冷啟動設置中的有效性。

//www.zhuanzhi.ai/paper/9ecf508f540f4b92f1a6bf26189acaa6

付費5元查看完整內容

首篇時序預訓練綜述!

時序挖掘(Time-Series Mining,TSM)是一個重要的研究領域,因為它在實際應用中顯示出了巨大的潛力。依賴大量標注數據的深度學習模型已經成功地被用于TSM。然而,由于數據標注成本的原因,構建一個大規模、標注良好的數據集變得困難。近期,預訓練模型(Pre-Trained Models)在時序領域逐漸受到關注,這歸功于它們在計算機視覺和自然語言處理領域的卓越性能。在這個綜述中,我們對時序預訓練模型(Time-Series Pre-Trained Models,TS-PTMs)進行了全面的調研,旨在指導理解、應用和研究TS-PTMs。具體來說,我們首先簡要介紹了在TSM中應用的典型深度學習模型。然后,我們根據預訓練技術概述了TS-PTMs。我們探討的主要類別包括有監督的、無監督的和自監督的TS-PTMs。此外,我們進行了大量實驗,以分析轉移學習策略、基于Transformer的模型和代表性TS-PTMs的優點和缺點。最后,我們指出了TS-PTMs的一些潛在未來工作方向。源代碼可在//github.com/qianlima-lab/time-series-ptms 獲取。

1. 引言

作為數據挖掘領域的一個重要研究方向,時序挖掘(Time-Series Mining,TSM)在真實世界的應用中得到了廣泛的利用,例如金融[1]、語音分析[2]、動作識別[3]、[4]和交通流量預測[5]、[6]。TSM的基本問題在于如何表征時序數據[7]、[8]。然后,可以基于給定的表征執行各種挖掘任務。傳統的時序表征(例如,shapelets[9])由于過度依賴領域或專家知識,因此耗時較長。因此,自動學習適當的時序表征仍然具有挑戰性。近年來,深度學習模型[10]、[11]、[12]、[13]、[14]在各種TSM任務中取得了巨大的成功。與傳統的機器學習方法不同,深度學習模型不需要耗時的特征工程。相反,它們通過數據驅動的方式自動學習時序表征。然而,深度學習模型的成功依賴于大量標簽數據的可用性。在許多真實世界的情況下,由于數據獲取和注釋成本,構建一個大的良好標注的數據集可能會很困難。

為了減輕深度學習模型對大數據集的依賴,基于數據增強[15]、[16]和半監督學習[17]的方法常常被使用。數據增強可以有效地增強訓練數據的規模和質量,并且已經在許多計算機視覺任務中被用作一個重要的組成部分[18]。然而,與圖像數據增強不同,時序數據增強還需要考慮時間序列中的屬性,如時間依賴性和多尺度依賴性。此外,時序數據增強技術的設計通常依賴于專家知識。另一方面,半監督方法使用大量未標記數據來提高模型性能。然而,在許多情況下,甚至未標記的時序樣本也很難收集(例如,醫療保健中的心電圖時序數據[19]、[20])。緩解訓練數據不足問題的另一個有效解決方案是轉移學習[21]、[22],它放寬了訓練和測試數據必須獨立且具有相同分布的假設。轉移學習通常有兩個階段:預訓練和微調。在預訓練階段,模型在一些包含大量數據、與目標領域有關但獨立的源領域上進行預訓練。在微調階段,預訓練模型(PTM)在目標領域的通常有限的數據上進行微調。

最近,特別是基于Transformer的PTMs,在各種計算機視覺(CV)[23]、[24]和自然語言處理(NLP)[25]應用中取得了顯著的性能。在這些研究的啟發下,近期的研究開始考慮為時序數據設計時序預訓練模型(TS-PTMs)。首先,通過監督學習[26]、[27]、無監督學習[28]、[29]或自監督學習[30]、[31]、[32]來預訓練一個時序模型,以獲得適當的表示。然后,在目標領域上對TS-PTM進行微調,以改善下游的時序挖掘任務(例如時序分類和異常檢測)的性能。有監督的TS-PTMs [26]、[33]通常通過分類或預測任務進行預訓練。然而,由于很難獲得大規模標注的時序數據集用于預訓練,這常常限制了有監督TS-PTMs的性能。此外,無監督TS-PTMs利用未標記數據進行預訓練,進一步解決了標注數據不足的限制。例如,基于重構的TS-PTMs [28]利用自編碼器和重構損失來預訓練時序模型。最近,基于對比學習的自監督PTMs [34]、[35]在CV領域展現了巨大的潛力。因此,一些學者[29]、[36]已經開始探索基于一致性任務和偽標簽技術來挖掘時序數據的內在屬性的設計。盡管如此,TS-PTMs的研究仍然是一個挑戰

我們基于所使用的預訓練技術提供了一個分類法和全面的現有TS-PTMs綜述

? 我們進行了大量實驗,分析了TS-PTMs的優缺點。對于時序分類,我們發現基于轉移學習的TS-PTMs在UCR時序數據集(包含許多小數據集)上表現不佳,但在其他公開可用的大型時序數據集上表現出色。對于時序預測和異常檢測,我們發現設計合適的基于Transformer的預訓練技術應該是未來TS-PTMs研究的重點。 ? 我們分析了現有TS-PTMs的局限性,并針對數據集、Transformer、內在屬性、對抗攻擊和噪聲標簽提出了潛在的未來方向。本文的其余部分組織如下。第2節介紹了TS-PTM的背景。然后在第3節中對TS-PTMs進行了全面的審查。第4節介紹了各種TS-PTMs的實驗。第5節提出了一些未來的方向。最后,在第6節中總結了我們的發現。

2. TS-PTMs的概述

在本節中,我們提出了一個新的TS-PTMs分類法,根據預訓練技術對現有的TS-PTMs進行系統分類。TS-PTMs的分類法如圖3所示,請參考附錄A.1中的文獻概述了TS-PTMs。

2.1 有監督的PTMs

早期的TS-PTMs受到CV領域轉移學習應用的啟發。許多基于視覺的PTMs是在大規模標注的數據集(如ImageNet [62])上進行訓練的。然后,相應的權重在通常較小的目標數據集上進行微調。這種策略已被證明可以改善深度學習模型在許多CV任務上的泛化性能。自然地,一些研究也探討了這種策略在時序領域是否有效[26]、[63]。他們在UCR時序數據集[64]上的實驗表明,遷移學習可能會提高或降低下游任務的性能,這取決于源數據集和目標數據集是否相似[26]。

通用編碼器首先在標記的源數據集上對基礎網絡進行預訓練,然后將基礎網絡遷移到目標領域。這通常需要大量的標記源樣本進行預訓練,在時序領域可能很難獲得。當源數據集和目標數據集相似(不相似)時,通常會出現正向(負向)轉移。先前的研究已經探索了如何基于數據集間的相似性或潛在表示空間中的時序表示來選擇源數據。此外,基于領域適應的對齊編碼器考慮了源數據和目標數據分布之間的差異。Voice2Serie [27]提供了一種基于分類的PTMs的新方法。一些特定領域的時序數據(例如語音數據)被用來預訓練基礎網絡,然后通過模型重編程應用于通用時序數據。然而,如何構建一個大規模、標注良好的適用于TS-PTMs的時序數據集尚未探索。

基于時間序列預測(TSF)的預訓練模型(PTMs)可以利用時間序列中的復雜動態性,引導模型捕獲時間依賴性。基于自回歸的模型使用子序列之間的依賴性和同一時間序列未來預測值的一致性,因此使用TSF預訓練時間序列數據。與使用人工標簽進行預訓練的基于分類的PTMs不同,避免在基于TSF任務的預訓練中出現子序列(例如,異常值)之間的抽樣偏差仍然具有挑戰性[68]。同時,基于元學習的自適應編碼器允許目標數據集中存在少量時間序列樣本的情景。另外,基于回歸的單步預測模型(例如,RNNs)可能會因累積錯誤[10],[49]導致性能下降。相反,一些研究[14],[60]采用基于Transformer的模型一次性生成所有預測。因此,設計高效的TSF編碼器將是研究基于TSF的PTMs的基礎。

2.2 無監督預訓練模型

本節介紹無監督的時間序列預訓練模型(TS-PTMs),這些模型通常通過重建技術進行預訓練。與有監督的TS-PTMs相比,無監督的TS-PTMs應用更為廣泛,因為它們不需要有標簽的時間序列樣本。

2.3 自監督預訓練模型

本節介紹了基于一致性和偽標簽訓練策略的自監督時間序列預訓練模型(TS-PTMs),這些策略在自監督學習中常常被使用。與無監督學習(例如,重構)相比,自監督學習在訓練過程中使用自提供的監督信息(例如,偽標簽)。

3. 實驗結果與分析

在本節[68]、[142]中,我們在三個TSM任務上評估TS-PTMs,包括分類、預測和異常檢測。與[68]一樣,我們選擇了相應TSM任務中使用的一系列時間序列基準數據集進行評估。我們首先使用UCR[148]和UEA [149] archives時間序列數據集分析了TS-PTMs在分類任務上的性能。繼[31]之后,選擇了4個時間序列場景數據集進行遷移學習PTMs分析。其次,使用ETT[14]和Electricity[150]數據集比較了TSPTMs和相關基線在預測任務上的性能。最后,利用Yahoo[151]和KPI[152]數據集,分析TS-PTMs和相關基線在異常檢測任務上的性能。有關數據集、基線和實現細節的信息,請參閱附錄A。

6. 結論

在這份綜述中,我們對時間序列預訓練模型(TS-PTMs)的發展進行了系統性的回顧和分析。在早期關于TS-PTMs的研究中,相關研究主要基于CNN和RNN模型對PTMs進行遷移學習。近年來,基于Transformer和一致性的模型在時間序列下游任務中取得了顯著的性能,并已被用于時間序列預訓練。因此,我們對現有的TS-PTMs、遷移學習策略、基于Transformer的時間序列方法以及在時間序列分類、預測和異常檢測這三個主要任務上的相關代表性方法進行了大規模的實驗分析。實驗結果表明,基于Transformer的PTMs對于時間序列預測和異常檢測任務具有顯著的潛力,而為時間序列分類任務設計合適的基于Transformer的模型仍然具有挑戰性。同時,基于對比學習的預訓練策略可能是未來TS-PTMs發展的潛在焦點。

付費5元查看完整內容

文本數據在網絡上無處不在且海量:新聞報道、社交媒體帖子、維基百科文章等每天都在網上創建和更新。雖然它們包含豐富的信息和知識,但在文本密集型應用中有效利用它們仍然是一個公開的挑戰。預訓練語言模型(PLM)的最新進展已經徹底改變了文本挖掘和處理:通過在從網絡獲得的大規模文本語料庫上預訓練神經架構,然后將其表示轉移到特定任務的數據中,可以有效利用在網絡規模語料庫中編碼的知識,從而顯著提高下游任務的性能。PLM最常見的自適應方法是預訓練-微調范式,其中PLM在下游任務標記的數據上進行進一步訓練。然而,這種范式的主要挑戰是,對PLM的全監督微調通常需要大量的人工標注,而在實踐中獲取這些標注是昂貴的。

在本教程中,我們將介紹從網絡規模的語料庫中學習的預訓練文本表示的最新進展,以及它們在廣泛的文本挖掘任務中的應用。本文專注于不需要大量人工標注的弱監督方法,包括(1)作為下游任務基礎的預訓練語言模型,(2)用于從大規模文本語料庫中發現主題的無監督和種子引導方法,以及(3)用于文本分類和高級文本挖掘任務的弱監督方法。

付費5元查看完整內容

基于圖的深度學習已經在各種工業環境和應用中取得了成功。然而,由于來自不同領域的圖可能表現出不同的屬性,并且可能具有顯著的噪聲,深度模型很難實現泛化。這些挑戰限制了圖模型在各個領域的使用。**在本文中,我對圖的可泛化神經網絡提出了各種理論和經驗分析。我考慮了圖神經網絡(GNNs)的兩種類型的泛化能力:(1)數據泛化能力,其中圖模型具有有效處理具有不同屬性的各種圖的表達能力;(2)規模泛化性,圖模型可以從小規模的圖中學習并泛化到更大的圖。**論文的第一部分分別從節點和子圖兩個層面研究了數據的泛化問題。在節點層面,我分析了具有不同屬性的節點(如度、相鄰節點的標簽分布)時GNNs的性能是否會退化,并提出了有效的理論基礎設計,以緩解這種退化。在子圖層面,我考慮了數據有限和有噪聲的情況,并提出使用聚類使GNN克服這些問題并找到有意義的模式。在論文的第二部分中,研究了圖層次上的規模泛化問題。具體來說,我考慮了不同規模的圖,并研究如何將知識從小型圖遷移到大型圖。我首先說明了基于譜特性的GNN可能會受到譜和圖大小的相關性的影響,這限制了它們對大小的泛化能力。提出了一種學會消除與尺寸相關的分量的技術,提高了gnn的尺寸泛化能力。此外,我研究了transformer模型,它與gnn相關,但不依賴于圖譜。在這種情況下,我發現普通的transformer模型無法泛化到更大的序列和圖,因為它的注意力掩碼隨著輸入的增加逐漸失去保真度。基于我的發現,我引入了一個學習的條件掩蔽機制,它能夠在模型的訓練范圍之外實現強泛化。

//ai.engin.umich.edu/event/towards-generalizable-neural-networks-for-graph-applications

近年來,深度學習在各個領域得到了越來越多的關注,例如計算機視覺[52],自然語言處理[155]和機器人[49]。與傳統方法相比,深度神經網絡模型通過從海量數據中學習獲得了高表達能力。在某些領域,深度模型甚至可以超越人類[137],這為通用智能帶來了希望[139]。盡管深度學習在各個領域都顯示了其優勢,但它主要在規則結構數據上取得了成功,如序列和圖像。然而,并非所有數據都具有規則結構,圖數據就是一個值得注意的例子。圖被廣泛用于表示實體之間的交互[62,136,175]。例如,在社交網絡(Facebook, LinkedIn)中,用戶是節點,他們的友誼或職業關系是邊[174];在腦科學中,大腦中的感興趣區域(ROI)是節點,它們的活動相關性是邊[175];在程序合成中,寄存器是節點,它們的依賴關系是邊[136]。圖可以在不同的粒度上進行分析:節點或邊緣級別、子圖級別和圖級別。不同層次的分析已被用于幾個高影響的應用中,例如推斷電子郵件網絡中的專業角色63,發現社會網絡中的社區結構107,以及預測生物網絡中的圖屬性168 受語言和圖像深度學習成功的啟發,研究人員對使神經網絡適應圖數據產生了極大的興趣[73,156,176,186]。在GNN的設計目標中,本文主要關注GNN的泛化能力,并考慮兩種類型的泛化能力:(1)數據泛化能力,圖模型具有有效處理具有不同屬性的各種圖的表達能力;(2)規模泛化性,圖模型可以從小規模的圖中學習并泛化到更大的圖。除了本文涵蓋的這兩種泛化類型外,GNN還存在其他類型的泛化。例如,在遷移學習中,泛化能力表征了GNN將知識從一個領域遷移到另一個領域的能力(例如,通過微調一些層[54,85]);在多任務學習中,泛化能力表示GNN利用其他任務中編碼的信息的程度。在表1 - 1中,我簡要概述了GNN的不同泛化類型。盡管所有這些都對構建通用GNN很重要,但數據的泛化能力和大小的泛化能力相對被忽視和探索不足。數據的泛化能力決定了一個模型是否可以有效地應用于各種應用。圖在不同的域中可能不同。例如,在大多數社交網絡中,度分布遵循冪律[87],而在分子圖中,度并不存在偏斜。在引文網絡中,具有相似屬性的節點傾向于相互連接,而在在線交易網絡中,具有不同屬性的節點(欺詐者和共犯)傾向于形成鏈接[114]。在蛋白質網絡中,可以清楚地觀察到圖形,而在大腦網絡中,感興趣區域(ROIs)之間的連接是推斷的和嘈雜的[175]。盡管圖數據具有多變性,但大多數GNN[42, 51, 73, 156, 169]沒有考慮不同的圖屬性。他們持有圖數據的“同質性假設”,即有鏈接的節點通常屬于同一類或具有相似的特征(“物以類聚”)[99],而忽略了違反該假設的圖的存在;他們忽略了圖具有不同的度分布,GNN對不同度的節點的反應不同的事實[177];它們沒有考慮圖結構和特征中的噪聲。為了設計更通用的GNN模型,需要考慮各種圖屬性。因此,本文的第一個問題是: **如何通過考慮不同的圖屬性來增強GNN的數據泛化能力?除了數據的泛化性,我研究的另一個關鍵屬性是大小的泛化性。與常規結構化數據不同,很難獲得相同大小的圖。例如,在生物學中,分子圖的大小從幾個節點到數百個節點[167];在算法推理中,圖可以小到幾個節點,也可以大到數千個節點[136,176]。隨著我們從各種來源收集越來越多的數據,訓練圖和測試圖的大小不可避免地不同[167]。此外,大多數gnn是不可擴展的,更大的圖通常需要更多的訓練時間和計算資源[40]。這些原因促使一系列研究尋求將知識從較小的圖轉換為較大的圖的方法[159,176,181]。GNN的大小泛化能力仍然有待探索。一方面,一些經驗工作報告了GNN在特定應用中的良好規模泛化性能[91,97,127]。另一方面,一些實證工作認為GNN在大小泛化方面有困難[66,71,159]。大多數現有工作專注于架構設計,沒有提供對GNN大小通用性的基本理解。因此,我在本文中要回答的第二個問題是: 是什么限制了GNN的大小泛化能力,以及有什么有效的設計可以提高它們泛化到更大圖的能力?**為了回答上述兩個問題,在本文中,我通過研究不同粒度的圖來研究數據的泛化性和大小泛化性(圖I.1)。論文的第一部分分別從節點和子圖兩個層面研究了數據的泛化問題。在節點層面,我分析了具有不同屬性的節點(如度、相鄰節點的標簽分布)時GNNs的性能是否會退化,并提出了有效的理論基礎設計,以緩解這種退化。在子圖層面,我考慮了數據有限和有噪聲的情況,并提出使用聚類使GNN克服這些問題,并找到有意義的模式。在論文的第二部分中,研究了圖層次上的規模泛化問題。具體來說,我考慮了不同規模的圖,并研究如何將知識從小型圖遷移到大型圖。我首先表明,基于譜特性的GNN模型可能會受到譜和圖大小的相關性的影響,這限制了它們對過大尺寸的泛化能力。提出了一種學會消除與尺寸相關的分量的技術,提高了GNN的尺寸泛化能力。此外,我研究了transformer模型,它與GNN相關,但不依賴于圖譜。在這種情況下,我發現普通的transformer模型無法泛化到更大的序列和圖,因為它的注意力掩碼隨著輸入的增加逐漸失去保真度。基于我的發現,我引入了一種習得的條件掩碼機制,它能在遠遠超出模型訓練范圍的地方實現強大的泛化。

付費5元查看完整內容

知識圖譜(KG)嵌入已經成為不完備知識圖譜推理的主流方法,但由于其固有的淺層和靜態架構的限制,難以處理日益受到關注的復雜邏輯查詢,包括邏輯運算符、imputed邊、多源實體和未知中間實體。在這項工作中,我們提出了知識圖譜轉換器(kgTransformer),它具有掩碼的預訓練和微調策略。我們設計了一種KG三重變換方法,使Transformer能夠處理KGs,并通過混合專家(mix -of- experts, MoE)稀疏激活進一步加強了這種方法。然后,我們將復雜的邏輯查詢表述為掩碼預測,并引入兩階段掩碼訓練前策略以提高可移植性和泛化性。在兩個基準測試上的大量實驗表明,kgTransformer在9個域內和域外推理任務上可以始終優于基于KG嵌入的基準和高級編碼器。此外,kgTransformer可以通過提供完整的推理路徑來解釋給定的答案,從而具有可解釋性。

//keg.cs.tsinghua.edu.cn/jietang/publications/KDD22-Liu-et-al-KG-Transformer.pdf

付費5元查看完整內容

轉載來自公眾號:機器學習算法與自然語言處理

論文標題: VLP: A Survey on Vision-Language Pre-training 論文鏈接: //arxiv.org/abs/2202.0906101

摘要 在過去幾年中,預訓練模型的出現將計算機視覺(CV)和自然語言處理(NLP)等單模態領域帶入了一個新時代。大量工作表明它們有利于下游單模態任務,并可以避免從頭開始訓練新模型。那么這樣的預訓練模型能否應用于多模態任務呢?研究人員已經探索了這個問題并取得了重大進展。本文調查了視覺-語言預訓練 (VLP) 的最新進展和新的前沿,包括圖像-文本和視頻-文本預訓練。為了讓讀者更好地全面掌握 VLP,我們首先從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧其最近的進展。然后,我們詳細總結了具體的 VLP 模型。最后,我們討論了 VLP 的新領域。據我們所知,這是VLP 領域的第一個綜述。我們希望這個綜述能夠為 VLP 領域的未來研究提供啟示。

介紹

讓機器以類似于人類的方式做出反應一直是人工智能研究人員的不懈目標。為了讓機器能夠感知和思考,研究人員提出了一系列相關任務,例如人臉識別、閱讀理解和人機對話,以訓練和評估機器在特定方面的智能。具體來說,領域專家手動構建標準數據集,然后在其上訓練和評估相關模型。然而,由于相關技術的限制,往往需要在大量的標注數據上進行訓練,以獲得更好、更有能力的模型。最近出現的基于 Transformer 結構的預訓練模型緩解了這個問題。它們首先通過自監督學習進行預訓練,其通常利用輔助任務(預訓練目標)從大規模未標記數據中自動挖掘監督信號來訓練模型,從而學習通用表示。然后,他們可以通過僅在下游任務上使用少量人工標記數據進行微調就能實現令人驚訝的效果。自從 BERT在自然語言處理 (NLP) 中出現以來,各種預訓練模型在單模態領域如雨后春筍般涌現,例如計算機視覺 (CV)領域的Vision Transformer (ViT) 和 語音領域的Wave2Vec。大量工作表明它們有利于下游單模態任務,并避免從頭開始訓練新模型。

與單模態領域類似,多模態領域也存在高質量標注數據較少的問題。一個很自然的問題是上述預訓練方法能否應用于多模態任務?研究人員已經探索了這個問題并取得了重大進展。在本文中,我們關注主流的視覺-語言預訓練(VLP),包括圖像-文本和視頻-文本預訓練。VLP 主要通過基于大規模數據進行預訓練來學習不同模態之間的語義對應關系。例如,在圖像-文本預訓練中,我們期望模型將文本中的“狗”與圖像中的“狗”相關聯。在視頻-文本預訓練中,我們期望模型將文本中的物體/動作映射到視頻中的物體/動作。為了實現這一目標,需要巧妙地設計 VLP 目標和模型架構,以允許模型挖掘不同模態之間的關聯。 為了讓讀者更好地了解 VLP,我們首先從5個重要方面全面回顧其最新進展:

  1. 特征提取:本節包括 VLP 模型中圖像、視頻和文本的預處理和表示方法(參見第3節);
  2. 模型架構:我們從兩個不同的角度介紹VLP模型的架構:從多模態融合的角度分為單流與雙流,從整體架構設計的角度分為Encoder-only與Encoder-decoder (參見第4節);
  3. 預訓練目標:預訓練目標是VLP的核心,主要用于指導模型學習視覺語言相關聯的信息。我們總結了典型和特殊的預訓練目標,分為補全、匹配、時序和特殊類型(參見第5節);
  4. 預訓練數據集:數據對于 VLP 至關重要。我們簡要介紹了 VLP 的主流語料庫及其具體大小(參見第6節);
  5. 下游任務:多種任務需要視覺和語言的合作知識。我們將它們分為五類:分類、回歸、檢索、生成和其他任務。我們還討論了這些任務的基本細節和目標(參見第7節)。

然后我們詳細總結了具體的最先進(SOTA)VLP 模型(參見第8節)。最后,我們總結論文并對 VLP 的新前沿進行了廣泛的討論(參見第9節)。 據我們所知,這是VLP領域的第一篇綜述。我們希望我們的綜述能夠幫助研究人員更好地了解這一領域,并激發他們設計出更好的模型。

特征抽取

本節介紹 VLP 模型如何預處理和表示圖像、視頻和文本以獲得對應特征。 特征預處理

圖像特征預處理主要包括三種:基于目標檢測的區域特征,基于CNN的網格特征以及基于ViT的patch特征。 視頻特征預處理:主要先對視頻分幀,得到圖像序列,然后按照上述圖像特征預處理方式進行處理。 文本特征預處理:主要遵循BERT的預處理方式,將輸入句子切分為子詞序列,然后收尾追加[CLS]和[SEP], 最后輸入表示為詞embedding+位置embedding+segment embedding。 特征表示

為了充分利用單模態預訓練模型,VLP 模型可以將視覺或文本特征輸入到Transformer編碼器。具體來說,VLP 模型利用具有隨機初始化的標準Transformer編碼器來生成視覺或文本表示。此外,VLP 模型可以利用預訓練的視覺Transformer對基于ViT的patch特征進行編碼,例如 ViT 和 DeiT。VLP 模型也可以使用預訓練的文本Transformer對文本特征進行編碼,例如 BERT。為簡單起見,我們將這些Transformer命名為 Xformer。 更多細節描述詳見論文 Section 204 模型結構 在本節中,我們從兩個不同的角度介紹 VLP 模型的架構:(1)從多模態融合的角度分為單流與雙流,以及(2)從整體架構設計來看分為only-encoder與encoder-decoder。

Single-stream versus Dual-strea

單流架構是指將文本和視覺特征連接在一起,然后輸入單個Transformer模塊,如 Firgue 1 (a) 所示。 雙流架構是指文本和視覺特征沒有連接在一起,而是獨立發送到兩個不同的Transformer塊,如 Firgue 1 (b) 所示。 Encoder-only versus Encoder-decoder

許多 VLP 模型采用僅編碼器架構,其中跨模態表示直接饋入輸出層以生成最終輸出。相比之下,其他 VLP 模型提倡使用轉換器編碼器-解碼器架構,其中跨模態表示首先饋入解碼器,然后饋入輸出層。 更多細節描述詳見論文 Section 305 預訓練目標 本節介紹我們如何通過使用不同的預訓練目標來預訓練 VLP 模型,這對于學習視覺-語言的通用表示至關重要。我們將預訓練目標總結為四類:補全、匹配、時序和特定類型。 補全類型是通過利用未掩碼的剩余部分來重建掩碼元素從而理解模態,包括Masked LanguageModeling,Prefix Language Modeling,Masked Vision Modeling等; 匹配類型是將視覺和語言統一到一個共享的隱藏空間中,以生成通用的視覺-語言表示,包括Vision-Language Matching,Vision-LanguageContrastive Learning, Word-Region Alignment等; 時序類型是通過對中斷的輸入序列重新排序來學習良好的表示,主要針對視頻相關的預訓練,如FrameOrder Modeling等; 特殊類型由其他預訓練目標組成,例如視覺問答和視覺描述等。 更多細節描述詳見論文 Section 4.

預訓練數據集

大多數 VLP 數據集是通過組合跨不同多模態任務的公共數據集構建的。然而,之前的一些工作,例如 VideoBERT、ImageBERT、ALIGN和 CLIP,處理從互聯網收集的大量數據并使用他們自己構建的數據集進行訓練。在這里,一些主流語料庫及其規模信息如表 1所示。07 下游任務 各種各樣的任務需要視覺和語言方面的合作知識。在本節中,我們將介紹此類任務的基本細節和目標,并將其分為五類:分類、回歸、檢索、生成和其他任務,其中分類、回歸和檢索任務也稱為理解任務。 分類任務主要包括:Visual Question Answering (VQA)、Visual Question Answering (VQA)、NaturalLanguage for Visual Reasoning (NLVR).、VisualCommonsense Reasoning (VCR)等; 回歸任務包括Multi-modal Sentiment Analysis (MSA); 檢索任務主要指的是一些視覺-語言檢索任務; 生成任務包括:Visual Dialogue (VD)、Visual Captioning (VC)等; 其他任務包括:Multi-modal Machine Translation (MMT)、Vision-Language Navigation (VLN).等。 更多細節描述詳見論文 Section 6.08 SOTA VLP models 基于上述VLP模型的5大方面,我們對近幾年的VLP模型進行了匯總整理:

更多細節描述詳見論文 Section 7.09 總結和新前沿 在本文中,我們提供了第一個 VLP 綜述。我們從特征提取、模型架構、預訓練目標、預訓練數據集和下游任務五個方面回顧了它的最新進展,并詳細總結了具體的 SOTA VLP 模型。我們希望我們的綜述能夠幫助研究人員更好地了解 VLP,并激發新的工作來推動這一領域的發展。未來,在現有工作的基礎上,VLP可以從以下幾個方面進一步發展:

  1. **Incorporating Acoustic Information.**以前關于多模態預訓練的大多數工作都強調語言和視覺的聯合建模,但忽略了隱藏在音頻中的信息。盡管音頻中的語義信息可能與語言重疊,但音頻可以提供額外的情感信息、聲學邊界信息等。此外,使用音頻進行預訓練使模型能夠處理具有聲學輸入的下游任務。到目前為止,跨文本、視覺和音頻的聯合建模和表示仍然是一個有待進一步研究的懸而未決的問題。一些前沿的工作已經闡明了這個研究領域的未來。與之前的 VLP 模型不同,VATT將原始音頻作為輸入,并通過噪聲對比估計 (NCE) 學習多模態表示。與 VATT 不同,OPT 結合各種多級掩蔽策略學習跨文本、圖像和音頻的跨模態表示,并且它還能夠生成文本和圖像。其他一些工作,例如 AudioCLIP 和 MERLOT Reserve,也展示了他們在三種模態上學習跨模態表示的獨特方法;

  2. **Knowledgeable Learning and Cognitive.**雖然現有的 VLP 模型已經取得了顯著的性能,但它們的本質是擬合大規模的多模態數據集。使 VLP 模型更具有知識性對于未來的 VLP 很重要。對于輸入的視覺和文本,有豐富的相關外部常識世界知識和說明性情景知識,可以用來增強輸入,加速模型訓練和推理。解決這個問題需要統一的認知模型架構、知識引導的預訓練目標以及與新知識交互的支持;

  3. **Prompt Tuning.**目前,微調是將 VLP 的知識轉移到下游任務的主要方法。然而,隨著模型規模的增加,每個下游任務都有其微調參數,導致參數效率低下。此外,多樣化的下游任務也使得預訓練和微調階段的設計變得繁瑣,導致它們之間存在gap。最近,Prompt Tuning在 NLP 中越來越受到關注。通過設計離散或連續Prompt并將 MLM 用于特定的下游任務,這些模型可以a. 減少微調大量參數的計算成本;b. 彌合預訓練和微調之間的差距。Prompt Tuning是激發 PLM 中分布的語言和世界知識的一種很有前途的方法。下一步可以改進并遷移到多模態場景,打破傳統范式,解決VLP的痛點問題。

付費5元查看完整內容

文本生成的目標是讓機器用人類語言表達。它是自然語言處理(NLP)中最重要也是最具挑戰性的任務之一。自2014年以來,各種由Seq2Seq首創的神經編解碼器模型被提出,通過學習將輸入文本映射到輸出文本來實現這一目標。然而,僅憑輸入文本往往無法提供有限的知識來生成所需的輸出,因此在許多真實場景中,文本生成的性能仍然遠遠不能令人滿意。為了解決這個問題,研究人員考慮將輸入文本之外的各種形式的知識納入生成模型中。這一研究方向被稱為知識增強文本生成。在這項綜述中,我們提出了一個全面的綜述,在過去的五年里,知識增強文本生成的研究。主要內容包括兩部分:(一)將知識集成到文本生成中的一般方法和體系結構;(二)根據不同形式的知識數據的具體技術和應用。這項綜述在學術界和工業可以有廣泛的受眾,研究人員和實踐者。

//arxiv.org/abs/2010.04389

付費5元查看完整內容
北京阿比特科技有限公司