本文提出了一個雙層級特征協作的Transformer結構,以實現區域特征和網格特征兩者的優勢互補,并在其中提出了特征幾何對齊圖來指導特征間的信息交互,從而解決多路特征直接融合帶來的語義噪聲問題,最終在該任務的線上線下常用公開數據集上均證明了此模型的優勢。
文本排序的目標是生成從語料庫檢索到的有序文本列表,以響應特定任務的查詢。雖然文本排序最常見的形式是搜索,但在許多自然語言處理應用程序中也可以找到該任務的實例。
本書提供了Transformer神經網絡架構的文本排序的概述,其中BERT是最著名的例子。毫不夸張地說,Transformer和自監督預訓練的結合徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排名的上下文中,這些模型在許多領域、任務和設置中產生高質量的結果。
在這項綜述中,我們提供了現有工作的綜合,作為希望更好地理解如何將transformers應用于文本排序問題的從業者和希望在這一領域繼續工作的研究人員的單一切入點。我們涵蓋了廣泛的現代技術,分為兩個高級類別:在多階段排名體系結構中執行重新排名的transformer模型,以及嘗試直接執行排名的密集表示。有許多例子屬于第一類,包括基于相關性分類的方法、來自多個文本片段的證據聚合、語料庫分析和序列到序列模型。雖然第二類方法還沒有得到很好的研究,但使用transformers進行表示學習是一個新興的和令人興奮的方向,必將引起更多的關注。在我們的調研中,有兩個主題貫穿始終:處理長文檔的技術(在NLP中使用的典型逐句處理方法之外),以及處理有效性(結果質量)和效率(查詢延遲)之間權衡的技術。
盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經被比較好地理解,并代表了成熟的技術。然而,仍然存在許多開放的研究問題,因此,除了為文本排序預先設定訓練transformers的基礎之外,該調研還試圖預測該領域的發展方向。
//www.zhuanzhi.ai/paper/fe2037d3186f4dd1fe3c3ea1fb69f79e
在自然語言處理和知識圖構造的信息提取中,三次提取是必不可少的任務。在本文中,我們將重新審視用于序列生成的端到端三重提取任務。由于生成三元組提取可能難以捕獲長期依賴關系并生成不忠實的三元組,因此我們引入了一種新穎的模型,即使用生成Transformer的對比三元組提取。具體來說,我們介紹了一個共享的Transformer模塊,用于基于編碼器-解碼器的生成。為了產生忠實的結果,我們提出了一種新穎的三重態對比訓練對象。此外,我們引入了兩種機制來進一步提高模型性能(即,批量動態注意遮罩和三級校準)。在三個數據集(即NYT,WebNLG和MIE)上的實驗結果表明,我們的方法比基線具有更好的性能。
//www.zhuanzhi.ai/paper/b8ed53721b7162af43614d558adb9c58
本文提出一種語義分組網絡通過建立詞組與相關語義視頻幀的映射來減少信息冗余。 本文提出了一個語義分組網絡(SGN)的視頻描述生成網絡,該網絡嘗試(1)使用具有部分已解碼描述的可區分詞組對視頻幀進行分組,然后(2)在預測下一個單詞時使用這些語義對齊的視頻幀組進行解碼。 本文發現連續的幀可能提供了相同的信息,然而現有方法集中于僅基于輸入視頻來丟棄或合并重復信息。語義分組網絡學習了一種算法來捕獲部分已解碼描述中最具區分性的詞組以及將每個詞組與相關視頻幀的映射,通過建立此映射可以將語義上相關的幀聚類,從而減少冗余。與現有方法相反,來自已解碼描述詞的連續反饋使語義分組網絡能夠動態更新適應部分解碼描述的視頻表示。此外,本文提出了一種對比注意損失,以促進單詞短語和視頻幀之間的準確對齊而無需人工注釋。
//www.zhuanzhi.ai/paper/ca2f9fa733ff339f5ca3e10526823d47
圖卷積網絡(GCN)因為具備出色的捕捉站點或區域之間非歐式空間依賴性的能力,已廣泛應用于交通需求預測。然而在大多數現有研究中,圖卷積是在基于先驗知識生成的鄰接矩陣上實現的,這樣的鄰接矩陣既不能準確反映站點的實際空間關系,也不能自適應地捕捉需求的多層級空間依賴性。為解決上述問題,這篇論文提出了一種新穎的圖卷積網絡進行交通需求預測。首先,文章中提出了一種新的圖卷積架構,該圖卷積架構在不同的層具有不同的鄰接矩陣,并且所有的鄰接矩陣在訓練過程中都是可以自學習的。其次,文中提出了一種分層耦合機制,該機制將上層鄰接矩陣與下層鄰接矩陣關聯起來。它還減少了模型中參數的規模。最后,構建了一個端到端的網絡,通過將隱藏的空間狀態與門控循環單元集成在一起,給出最終的預測結果,該單元可以同時捕獲多級空間相關性和時間動態。論文提出的模型在兩個真實世界的數據集NYC Citi Bike和NYC Taxi上進行了實驗,結果證明了該模型的優越性能。
//www.zhuanzhi.ai/paper/3996bc72f87617093a55530269f6fdd8
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
摘要 近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
摘要:近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。