在過去的幾年中,自然語言處理界見證了基于transformer的語言模型(LM)在自由文本的神經表示方面的進展。鑒于關系表中可用知識的重要性,最近的研究工作通過開發表格數據的神經表示擴展了語言模型。在本教程中,我們提出這些建議有兩個主要目標。首先,我們向數據庫觀眾介紹當前模型的潛力和局限性。其次,我們將演示從transformer體系結構中受益的大量數據應用程序。本教程旨在鼓勵數據庫研究人員參與并為這個新方向做出貢獻,并為實踐者提供一組用于涉及文本和表格數據的應用程序的新工具。
一些工作正在研究如何用神經模型表示表格數據,用于自然語言處理(NLP)和數據庫(DB)的應用。這些模型支持有效的解決方案,超越了圍繞一階邏輯和SQL構建的傳統聲明性規范的限制。示例包括回答用自然語言表達的查詢[16,19,31],執行自然語言推理,如事實核查[7,18,35],語義解析[36,37],檢索相關表[20,25,33],理解表元數據[8,11,29],數據集成[6,22],數據到文本生成[32]和數據imputation[8,17]。由于這些應用程序既涉及結構化數據又涉及自然語言,因此它們構建在新的數據表示和架構之上,這些數據表示和架構超越了傳統的DB方法。
//vldb.org/2022/?program-schedule-tutorials
**神經的方法。**基于注意力機制的transformer模型已被成功用于開發預訓練語言模型(LMs),如BERT[9]、RoBERTa[24]。與傳統技術相比,這些LMs在目標文本任務(如情感分析)中取得了驚人的效果,使NLP領域發生了革命性的變化[2,3]。然而,transformer已被證明能夠超越文本,并已成功地用于視覺[10]和音頻[14]數據。遵循這一趨勢,transformer在開發表格數據表示方法方面開始受到歡迎。本教程關注渲染transformer架構的核心問題“數據結構感知”,并將設計選擇和對大量下游任務的貢獻聯系起來。與會者可以了解根據目標應用程序使用transformer的不同方式。的例子。當采用基于transformer的方法時,選擇范圍從采用現有的預訓練模型(從數百萬表中創建)到從頭開始構建解決方案。作為transformer架構的一個例子,請考慮圖1。使用頂層管道創建語言模型(1)。例如,在BERT[9]中,通過自監督任務處理大量文檔語料庫,以創建模型,然后用于構建以文本為中心的應用程序。模型的創建是昂貴的,但是任何有在線Python筆記本的從業者都可以使用最終的模型。構建應用程序最流行的方法是使用少量的特定示例(例如,文檔分類或情感分析)對這種模型進行微調。這在底層管道(2)中得到了描述。從文本數據轉移到表格數據,一些方法使用了一個表的語料庫來創建一個預先訓練的模型,它“理解”表格格式(1)。目標應用程序現在可以使用這個模型來處理下游任務(2)。在(1)和(2)中,表首先被序列化并連接到其內容,以將其作為輸入提供給變壓器。例如,在(1)中,訓練數據可以是從維基百科中提取的大量表的語料庫。(2)是使用預訓練的模型直接回答用自然語言對給定表表示的查詢。示例的輸入是一個表,以及它的標題“以百萬計的國家人口”作為上下文,以及關于法國人口的問題。期望的輸出是給定表中突出顯示的單元格。當預訓練模型不足以滿足任務時,可以用少量示例進行微調(2)。在某些情況下,模型是從頭開始進行預訓練的(1),以利用對典型transformer架構的新擴展,以考慮表格結構,這與傳統的自由文本不同,有時更豐富。
大型語言模型最近在許多自然語言處理基準測試中提高了技術水平。最新一代的模型可以應用于各種任務,幾乎不需要專門的訓練。該技術為數據管理上下文中的應用程序創造了各種機會。本教程將向參與者介紹語言模型的基本背景,討論使用語言模型的不同方法,并對可用的庫和api進行概述和簡短演示。生成自然語言的模型和GPT-3 Codex等完成程序代碼或從自然語言指令生成代碼的模型都將被考慮在內。最后,本教程將討論數據庫社區最近的研究,這些研究利用了傳統數據庫系統環境中的語言模型,或提出了基于它們的新系統架構。本教程針對數據庫研究人員。不需要有語言模型的背景知識。本教程的目標是向數據庫研究人員介紹最新一代的語言模型,以及它們在數據管理領域中的用例。
最近,隨著大型“語言模型”的出現,自然語言處理(NLP)領域發生了革命性的變化,這些“語言模型”使用大量的無標記文本[35]進行訓練。給定足夠多的訓練數據和可訓練的參數,這樣的模型能夠處理廣泛的任務,很少或不需要專門的訓練[2]。這種模型在數據庫領域的應用范圍非常廣泛。它的范圍從新的接口[25,30]到新的系統架構[29],基于最新一代語言模型支持的數據表示和處理機制。本教程的目的是向數據庫研究人員介紹這些模型提供的可能性,提供使它們可訪問的庫和api的指針[22,35],并回顧數據庫社區利用這些模型的最新研究。本教程將介紹處理和生成自然語言文本的語言模型[4,6],以及從自然語言描述[3]生成程序代碼的最新模型。它將包括例子和現場演示,為與會者提供對可解決問題范圍的直覺。
圖神經網絡(GNNs)在圖表示學習中取得了發展勢頭,并推動了各種領域的先進水平,例如數據挖掘(如社會網絡分析和推薦系統),計算機視覺(如目標檢測和點云學習),自然語言處理(如關系提取和序列學習),等等。隨著Transformer在自然語言處理和計算機視覺中的出現,圖Transformer將圖結構嵌入到Transformer架構中,以克服局部鄰域聚集的局限性,同時避免嚴格的結構歸納偏差。本文從面向任務的角度對計算機視覺中的GNNs和圖transformer進行了全面的回顧。具體而言,我們將其在計算機視覺中的應用根據輸入數據的形式分為五類,即2D自然圖像、視頻、3D數據、視覺+語言和醫學圖像。在每個類別中,我們根據一組遠景任務進一步劃分應用程序。這種面向任務的分類法允許我們檢查每個任務是如何由不同的基于GNN的方法處理的,以及這些方法的性能如何。基于必要的初步準備,我們提供了任務的定義和挑戰,對代表性方法的深入報道,以及關于見解、局限性和未來方向的討論。
引言
深度學習[1]為計算機視覺帶來了許多突破,其中卷積神經網絡(CNN)占據了主導地位,成為許多現代視覺系統的基礎設施。特別是,許多最先進的CNN模型,如AlexNet[2]、ResNet[3]和EfficientNet[4],在過去十年中被提出,并在各種視覺問題中取得了前所未有的進展,包括圖像分類、目標檢測、語義分割和圖像處理等。另一方面,現有的視覺系統可以像人類一樣建立在各種輸入模態之上,如2D圖像(如自然圖像和醫學圖像)、視頻、3D數據(如點云和網格)以及多模態輸入(如圖像+文本)。 盡管基于CNN的方法在處理像圖像這樣的網格狀數據結構方面表現出色,但在計算機視覺社區中出現了一種新意識,即數據的非網格拓撲信息對表示學習至關重要,但還有待徹底研究。觀察到人類的組合泛化能力在很大程度上依賴于他們表示結構和推理關系的認知機制[5],模仿人類的學習和決策過程可以提高視覺模型的性能,并為最終的預測提供邏輯證據。例如,在物體識別的任務中,最先進的神經網絡更傾向于單獨感知物體的存在,而不同物體之間的依賴性和相互作用卻很少受到關注。
此外,與具有內在邊連接和節點概念的自然圖數據(如社交網絡和生物蛋白質網絡)相比,基于規則網格數據(如圖像和文本)的圖(如關系圖)構建缺乏原則性方法,嚴重依賴于領域知識。另一方面,視覺問題中的一些數據格式,如點云和網格,自然不是定義在笛卡爾網格上的,并且涉及復雜的關系信息。從這個意義上說,無論是規則的還是不規則的視覺數據格式都將受益于拓撲結構和關系的探索,特別是在理解復雜場景、從有限的經驗中學習和跨領域的知識轉移等具有挑戰性的場景。
在過去的幾年中,在深度學習的最新進展下,GNNs[6]在建模圖結構方面展示了突破性的性能。在計算機視覺的范圍內,目前許多與GNN相關的研究都有以下兩個目標之一:(1)GNN和CNN主干的混合(2)用于表示學習的純GNN架構。前者通常尋求提高CNN學習到的特征的遠程建模能力,適用于以前純CNN架構解決的視覺任務,如圖像分類和語義分割。后者在一些可視化數據格式(如點云)中充當特征提取器,與其他方向相比,它是并行開發的。例如,在點云[7]的三維形狀分類任務中,主要有三個研究方向,分別是基于點的MLP方法、基于卷積的方法和基于圖的方法。 然而,盡管取得了豐碩的成果,仍然沒有一篇綜述來系統和及時地回顧基于GNN的計算機視覺的進展。本文對現有研究進行了文獻綜述,從任務導向的角度對計算機視覺中的圖神經網絡進行了完整的介紹,包括(i)任務的定義和挑戰,(ii)代表性方法的深入覆蓋,以及(iii)關于見解、局限性和未來方向的系統討論。具體而言,我們將GNN在計算機視覺中的應用根據輸入數據的形式分為五種類型。在每種類型中,我們根據它們執行的計算機視覺任務對應用程序進行分類。我們還回顧了視覺任務中使用的圖變形函數,考慮到它們在架構[8]、[9]方面與GNN的相似性。本次調查的組織如圖1所示。 背景知識
在本節中,我們將回顧在計算機視覺中使用的GNN和圖transformer。讀者可以參考之前的幾個GNN調研[10],[11],[12],全面介紹GNN的發展。此外,我們要強調的是,許多現有的基于GNN的視覺方法實際上是使用CNN和GNN的混合,而我們專注于GNN方面。
目錄
圖像建模 圖像分類 多標簽分類 少樣本學習 零樣本學習 遷移學習 目標檢測 圖像分割 場景圖生成 視頻理解 視頻動作識別 時序動作定位 視覺+語言 視覺問答基準 視覺Grounding 圖像描述 3D 數據分析 3D表示學習 3D理解 3D 生成 醫學圖像分析
盡管在感知方面取得了突破性進展,但如何賦予深度學習模型推理能力仍然是現代計算機視覺系統面臨的一個艱巨挑戰。在這方面,GNN和圖transformer在處理"關系"任務方面表現出了極大的靈活性和優越性。本文首次從面向任務的角度全面綜述了計算機視覺中的GNN和圖transformer。具體來說,根據輸入數據的形式,將各種經典和最新的算法分為5類,如圖像、視頻和點云。通過系統地梳理每個任務的方法,我們希望這項調查可以揭示未來更多的進展。通過對關鍵創新、局限性和潛在研究方向的討論,我們希望讀者能夠獲得新的見解,并向類似人類的視覺理解更進一步。
從與上下文無關的詞嵌入到與上下文相關的語言模型,預訓練的文本表示將文本挖掘帶入了一個新的時代: 通過在大規模文本語料庫上對神經模型進行預處理,然后將其適應于特定任務的數據,可以有效地將通用語言特征和知識轉移到目標應用中,并在許多文本挖掘任務中取得了顯著的性能。不幸的是,在這種突出的預訓練微調范式中存在著一個巨大的挑戰:大型的預訓練語言模型(PLM)通常需要大量的訓練數據來對下游任務進行穩定的微調,而大量的人工注釋的獲取成本很高。
在本教程中,我們將介紹預訓練文本表示的最新進展,以及它們在廣泛的文本挖掘任務中的應用。我們專注于不需要大量人工標注的最小監督方法,包括**(1)作為下游任務基礎的自監督文本嵌入和預訓練語言模型,(2)用于基本文本挖掘應用的無監督和遠程監督方法,(3)用于從大量文本語料庫中發現主題的無監督和種子引導方法,以及(4)用于文本分類和高級文本挖掘任務的弱監督方法**。
介紹 第一部分: 科學信息提取與分析 第二部分: 科學信息搜索和證據挖掘 第三部分: 主題發現、文本分類和多維文本分析 摘要及未來方向
我們將考慮流行的神經序列處理模型(如RNN和Transformer)與形式化模型(如自動機及其變體)之間的關系。特別地,我們將討論幾種RNN的提取方法,以及通過自動機變體來理解的各種RNN體系結構之間的差異。然后我們將考慮更現代的Transformer。特別是,我們將展示它如何(不!)與現有的正式類相關,并以編程語言的形式提出另一種抽象。
文本排序的目標是生成從語料庫檢索到的有序文本列表,以響應特定任務的查詢。雖然文本排序最常見的形式是搜索,但在許多自然語言處理應用程序中也可以找到該任務的實例。
本書提供了Transformer神經網絡架構的文本排序的概述,其中BERT是最著名的例子。毫不夸張地說,Transformer和自監督預訓練的結合徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排名的上下文中,這些模型在許多領域、任務和設置中產生高質量的結果。
在這項綜述中,我們提供了現有工作的綜合,作為希望更好地理解如何將transformers應用于文本排序問題的從業者和希望在這一領域繼續工作的研究人員的單一切入點。我們涵蓋了廣泛的現代技術,分為兩個高級類別:在多階段排名體系結構中執行重新排名的transformer模型,以及嘗試直接執行排名的密集表示。有許多例子屬于第一類,包括基于相關性分類的方法、來自多個文本片段的證據聚合、語料庫分析和序列到序列模型。雖然第二類方法還沒有得到很好的研究,但使用transformers進行表示學習是一個新興的和令人興奮的方向,必將引起更多的關注。在我們的調研中,有兩個主題貫穿始終:處理長文檔的技術(在NLP中使用的典型逐句處理方法之外),以及處理有效性(結果質量)和效率(查詢延遲)之間權衡的技術。
盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經被比較好地理解,并代表了成熟的技術。然而,仍然存在許多開放的研究問題,因此,除了為文本排序預先設定訓練transformers的基礎之外,該調研還試圖預測該領域的發展方向。
//www.zhuanzhi.ai/paper/fe2037d3186f4dd1fe3c3ea1fb69f79e
來自UIUC的Transformers最新教程。
Transformer 架構 architecture Attention models Implementation details Transformer-based 語言模型 language models BERT GPT Other models
Transformer 視覺 Applications of Transformers in vision
介紹
文本排序的目標是生成一個有序的文本列表,這些文本從語料庫中檢索,以響應針對特定任務的查詢。雖然最常見的文本排序是搜索,但是在許多自然語言處理應用程序中也可以找到該任務的實例。本書提供了一個關于文本排序與被稱為transformer的神經網絡結構的概述,其中BERT是最著名的例子。毫不夸張地說,transformer和自我監督預訓練的結合已經徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排序的上下文中,這些模型跨許多領域、任務和設置產生高質量的結果。
在這本書中,我們為希望更好地理解如何將transformer應用到文本排序問題的從業者和希望從事這一領域工作的研究人員提供了現有工作的綜合。我們涵蓋了廣泛的現代技術,分為兩個高級類別:transformer模型,在多階段排序架構中執行重新排序,以及學習了試圖直接執行排序的密集表示。有許多屬于第一類的例子,包括基于相關性分類、從文本的多個部分收集證據、語料庫分析和序列到序列模型的方法。雖然第二類方法還沒有得到很好的研究,但使用transformer的表示學習是一個新興的、令人興奮的方向,必將吸引更多的關注。在我們的書中有兩個主題:處理長文檔的技術(超出了NLP中使用的典型逐句處理方法)和處理效率(結果質量)和效率(查詢延遲)之間權衡的技術。
盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經得到了相對較好的理解,并代表了成熟的技術。然而,還有許多有待解決的研究問題,因此,除了為預先訓練的transformer文本排序奠定基礎外,本書還試圖預測該領域的發展方向。
目錄
部分內容概覽