在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。
在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。
由于層次主題結構在海量文本語料庫中普遍存在,將文檔分類到給定的標簽層次結構直觀上很有吸引力。雖然相關研究在全監督層次文檔分類方面取得了令人滿意的效果,但通常需要大量的人工標注訓練數據,且只利用文本信息。但在很多領域,(1)標注代價很高,可以獲取的訓練樣本很少;(2)文檔伴隨元數據信息。因此,本文研究弱監管下如何整合標簽層次結構、元數據和文本信號進行文檔分類。我們開發了HiMeCat,一個基于嵌入的生成框架用于我們的任務。具體地說,我們提出了一種新的聯合表示學習模塊,它允許對類別相關性、元數據信息和文本語義進行同步建模,我們的實驗證明了HiMeCat在Baseline上的持續改進,并驗證了我們的表示學習和數據增強模塊的貢獻。
//www.zhuanzhi.ai/paper/78629167dfc41e4a21cb8484c0b86e0a
在這項綜述中,我們提供了一個在信息檢索(IR)背景下的知識圖譜(KGs)的文獻綜述。現代信息檢索系統可以以多種方式從知識圖譜中獲益,不論知識圖譜是公開的還是專有的。我們提供了構建利用KGs和使用我們討論的面向任務的材料組織的IR系統所需的組件的概述。了解IR和KGs的交集對許多研究者和實踐者有益,我們從兩個互補的角度來考慮之前的工作: 利用KGs進行信息檢索和利用IR技術豐富KGs。我們首先討論如何使用KGs來支持IR任務,包括文檔和實體檢索。接下來,我們將描述如何使用IR和語言技術構建和完成KGs,包括實體識別、類型和關系提取等任務。我們討論在我們考慮的任務中出現的常見問題,并確定解決這些問題的未來方向。我們還提供了數據集和其他資源的指南,應該是有用的新手和經驗豐富的研究人員在該領域。
句法依存分析是自然語言處理中的一項重要任務。無監督依存解析旨在從沒有正確解析樹注釋的句子中學習依存解析器。盡管無監督解析很困難,但它是一個有趣的研究方向,因為它能夠利用幾乎無限的無注釋文本數據。它也為其他低資源解析的研究提供了基礎。在本文中,我們調查了現有的無監督依賴解析方法,確定了兩大類方法,并討論了最近的趨勢。我們希望我們的調查能夠為研究者提供一些啟示,并有助于今后對這一課題的研究。
第29屆國際計算機學會信息與知識管理大會(The 29th ACM International Conference on Information and Knowledge Management, CIKM 2020)將于2020年10月19日-10月23日在線上召開。CIKM是CCF推薦的B類國際學術會議,是信息檢索和數據挖掘領域頂級學術會議之一。本屆CIKM會議共收到投稿920篇,其中錄用論文193篇,錄取率約為21%。
論文題目:Diversifying Search Results using Self-Attention Network(長文)
作者者:秦緒博(人大博士生),竇志成,文繼榮
論文概述:搜索結果多樣化的目標是使得檢索得到的結果能夠盡量覆蓋用戶提出問題的所有子話題。已有的多樣化排序方法通常基于貪心選擇(Greedy Selection)過程,獨立地將每一個候選文檔與已選中的文檔序列進行比較,選擇每一個排序位置的最佳文檔,生成最后的文檔排序。而相關研究證明由于各候選文檔的邊際信息收益并非彼此獨立,貪心選擇得到的各個局部最優解將難以導向全局最佳排序。本文介紹了一種基于自注意力網絡(Self-Attention Network)的方法,可以同步地衡量全體候選文檔間的關系,以及候選文檔對不同用戶意圖的覆蓋程度,有效地克服原有方法受限于貪心選擇過程的局限性,并在TRECWebTrack09-12數據集上獲得更好的性能。
論文題目:PSTIE: Time Information Enhanced Personalized Search(長文)
作 者:馬正一(人大碩士生),竇志成,邊關月,文繼榮
論文概述:基于深度學習的個性化搜索模型通過序列神經網絡(例如RNN)對用戶搜索歷史進行序列建模,歸納出用戶的興趣表示,取得了當前最佳的效果。但是,這一類模型忽略了用戶搜索行為之間細粒度的時間信息,而只關注了搜索行為之間的相對順序。實際上,用戶每次查詢之間的時間間隔可以幫助模型更加準確地對用戶查詢意圖與文檔興趣的演化進行建模。同時,用戶歷史查詢與當前查詢之間的時間間隔可以直接幫助模型計算用戶的重查找(re-finding)行為概率。基于此,本文提出了一個時間信息增強的個性化搜索模型。我們設計了兩種時間感知的LSTM結構在連續時間空間中對用戶興趣進行建模,同時直接將時間信息利用在計算用戶重查找概率中,計算出了更加準確的用戶長短期興趣表示。我們提出了兩種將用戶興趣表示用于個性化排序的策略,并在兩個真實數據集上取得了更好的效果。
論文題目:Learning to Match Jobs with Resumes from Sparse Interaction Data using Multi-View Co-Teaching Network(長文)
作 者:卞書青(人大博士生),陳旭,趙鑫,周昆,侯宇蓬,宋洋,文繼榮
論文概述:隨著在線招聘規模的不斷增長,求職領域下的人崗匹配已經成為最重要的任務。人崗匹配任務通常可以看作文本匹配問題。當監督數據足夠多時,模型的學習效果是有用的。但是在線招聘平臺上,職位和簡歷的交互數據稀疏且帶有噪聲,這會影響求職簡歷匹配算法的性能。為了緩解這些問題,本文提出了一種多視圖協同教學網絡用來解決人崗匹配中的數據稀疏和噪聲問題,匹配網絡包含兩個主要模塊,即基于文本的匹配模型和基于關系的匹配模型。這兩個部分在兩個不同的視圖中捕獲了語義信息并且相互補充。為解決數據稀疏和噪聲數據帶來的挑戰,我們設計了兩種特定策略。首先,兩個模塊共享學習的參數和表示,以增強每個模塊的初始的表示。更重要的,我們采用了一種協同教學的機制來減少噪聲對訓練數據的影響。核心思想是讓這兩個模塊通過選擇更可靠的訓練實例來互相幫助。這兩種策略分別關注于表示增強和數據增強。與基于純文本的匹配模型相比,所提出的方法能夠從有限的甚至稀疏的交互數據中學習更好的表示,對訓練數據中的噪聲具有一定的抵抗能力。實驗結果表明,我們的模型均優于現有的方法。
論文題目:Knowledge-Enhanced Personalized Review Generation with Capsule Graph Neural Network(長文)
作 者:李軍毅(人大博士生),李思晴,趙鑫,何高樂,魏志成,袁晶,文繼榮
論文概述:個性化評論生成(PRG)任務旨在自動生成反映用戶偏好的評論文本。以前的大多數研究都沒有明確建模物品的事實描述,因此傾向于生成無信息的內容。而且,這些研究主要集中在單詞層面的生成,無法準確反映出用戶在多個主題上的抽象偏好。針對上述問題,我們提出了一種基于膠囊圖神經網絡(Caps-GNN)的知識增強個性化評論生成模型。我們首先構造一個異構知識圖譜(HKG),充分利用豐富的物品屬性。我們采用Caps-GNN學習到HKG圖膠囊,用于編碼HKG的隱含特征。我們的生成過程包含兩個主要步驟,即主題序列生成和句子生成。首先,基于圖膠囊,我們自適應地學習了主題膠囊,以推斷主題序列。然后,根據推斷的主題標簽,我們設計了一種基于圖的拷貝機制,通過引入HKG的相關實體或單詞來生成句子。本文是第一個將知識圖譜用于個性化評論生成任務,引入的KG信息能夠增強用戶在主題和單詞層面上的偏好。實驗表明,我們的模型對于個性化評論生成任務具有更好的效果。
論文題目:S3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization(長文)
作 者:周昆(人大博士生),王輝(人大碩士生),趙鑫,朱余韜,王思睿,張富錚,王仲遠,文繼榮
論文概述:近年來,深度學習在序列化推薦領域取得了巨大成功,已有的序列化推薦模型通常依賴于商品預測的損失函數進行參數訓練。但是該損失函數會導致數據稀疏和過擬合問題,其忽視了上下文數據與序列數據之間的關聯,使得數據的表示學習的并不充分。為解決該問題,本文提出了S3-Rec這一模型,該模型基于自注意力是模型框架,利用四個額外的自監督訓練函數來學習屬性、商品、序列之間的特殊關系。在這里,本文采用了互信息最大化技術來構造這些自監督函數,以此來統一這些關系。在六個數據集上的充分實驗表明本文提出的模型能夠取得State-of-the-art的效果,其在數據量受限和其他推薦模型上也能帶來較大的提升。
**論文:Learning Better Representations for Neural Information Retrieval with Graph Information” **
(作者:李祥圣,Maarten de Rijke, 劉奕群,毛佳昕,馬為之,張敏,馬少平)
內容簡介:目前的檢索模型多數基于文本間的匹配。然而,對于一個搜索會話,用戶的行為之間是具有聯系的,這樣的聯系可以用圖的方式表示出來。例如用戶在會話搜索中修改查詢的過程可以知道那些查詢之間是相似的,用戶點擊文檔后,可以知道查詢與文檔之間的關聯性。利用這樣的兩個網絡,我們可以構建一個由用戶行為組成的圖網絡。在傳統的文本匹配模式上,進一步地引入行為圖信息幫助檢索模型更好地理解用戶搜索意圖。檢索模型可以利用圖信息,對輸入的查詢進行相似節點查詢。同理,對于候選文檔也可以利用相似節點查詢。通過引入鄰接節點信息,豐富當前節點的語義表示。
現有的圖模型的工作主要分為兩種:網絡嵌入式表示方法與圖神經網絡方法。基于這兩種方法,我們提出了兩種利用圖信息改進檢索模型的方法,兩種方法的示意圖如下所示:
簡介
本文研究如何利用圖生成作為自監督任務來預訓練GNN。我們將圖的生成概率分解成兩個模塊:1)節點特征生成;2)圖結構生成。通過對這兩個模塊建模,GPT-GNN可以捕捉圖任務里特征與結構之間的關聯,從而不需要很多的標注數據就可達到很高的泛化性能。
背景:預訓練
機器學習的成功很大程度上取決于數據。但是,高質量的標記數據通常很昂貴且難以獲得,尤其是對于希望訓練參數較多的模型。而相對應的,我們卻可以很容易地獲取大量的無標記數據,其數量可以是標記數據的數千倍。 例如,在社交網絡上進行異常檢測時,惡意帳戶的標注需要依賴于專家知識,數量較小,而整個網絡的規模卻可以達到十億規模。
為了解決標注數據較少,盡可能利用其無標注數據,一個常規的做法是自監督的預訓練(self-supervisedpre-training)。其目標是設計合理的自監督任務,從而使模型能從無標注數據里學得數據的信息,作為初始化遷移到下游任務中。由于目標任務中很多的知識已經在預訓練中學到,因此通過預訓練,我們只需要非常少量的標注數據,就能得到較好的泛化性能。
在NLP領域,BERT及其變種的取得了巨大的成功,證明了語言模型作為一個自監督任務,可以幫助訓練非常深的Transformer模型,以捕捉語言的底層知識,如語法、句法、詞義等。同樣,在CV領域,最近的工作如SimCLR也顯示出通過對比學習(Contrastive Learning) 對ResNet進行預訓練也可以顯著提升泛化性能。這些成功表明,無標注數據本身包含豐富的語義知識,因此如果通過預訓練可以使模型能捕捉無標注數據的分布,就能作為初始化幫助一系列下游任務。
受到這些工作的啟發,我們思考能否將預訓練的想法運用到圖數據分析中。本工作就致力于預訓練圖神經網絡,以期GNN能夠學習到圖數據的結構和特征信息,從而能幫助標注數據較少的下游任務。
GPT-GNN模型
要在圖數據上做預訓練,第一個問題是:如何設計合適的無監督學習任務?
本工作提出用生成模型來對圖分布進行建模,即逐步預測出一個圖中一個新節點會有哪些特征、會和圖中哪些節點相連。
由于我們想同時捕獲屬性和結構信息,因此需要將每個節點的條件生成概率分解為兩項,特征生成與圖結構生成。對每一個節點,我們會先掩蓋其特征及部分邊,僅提供剩下的部分作為已經觀測到的邊。
在第一步中,我們將通過已經觀測到的邊,預測該節點的特征,
在第二步中,我們將通過已經觀測到的邊,以及預測出的特征,來預測剩下的邊。
我們可以寫出對應的分解表達式。從理論上,這個目標的期望等同于整個圖的生成概率。
為了并行高效地計算每個節點的loss,避免信息泄露(如節點特征預測的時候如何避免看到該節點自己的輸入特征),以及處理大圖和增加負樣本采樣的準確性,我們做了很多的模型設計。詳見文章。
實驗
我們在兩個大規模異構網絡和一個同構網絡上進行了實驗。
第一個異構圖是MicrosoftAcademic Graph(OAG),其中包含超過2億個節點和23億條邊。另一個是AmazonRecommendation數據集。
總體而言,我們提出的GPT-GNN在不同的實驗設定下顯著提高下游任務的性能,平均能達到9.1%的性能提升。
我們還評估了在不同百分比的標記數據下,GPT-GNN是否依然能取得提升。我們可以看到,使用GPT預訓練時,僅使用20%標簽數據的模型性能就會比使用100%數據進行直接監督學習的模型性能更高。這顯示了預訓練的有效性,尤其是在標簽稀缺時。
UniLMv2:統一預訓練偽掩碼語言模型
UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training
論文鏈接://www.zhuanzhi.ai/paper/a6628400809ab320e597b1d4d1fca177
基于大規模語料的預訓練語言模型在各種自然語言處理任務帶來了巨大的提升。受UniLMv1 ([NeurIPS-19]Unified Language Model Pre-training for Natural Language Understanding and Generation)的啟發,本篇論文提出“偽掩碼語言模型”(PMLM),可以同時對兩種不同的語言建模目標進行高效訓練,從而使其更好地適用于語言理解(如文本分類、自動問答)和語言生成(如文本摘要、問題生成)任務。
我們將語言模型預訓練目標分為三類。第一類依賴于自編碼語言建模(Autoencoding, AE)。例如在 BERT 中使用的掩碼語言建模(MLM)隨機的在文本序列中遮蓋一部分單詞,在 Transformer 的雙向編碼結果之上,對每個被遮蓋的單詞進行分別還原。第二類方法基于自回歸建模(Autoregressive, AR)。不同于 AE,目標單詞被依次預測,且依賴于先前的結果。第三類是我們提出的半自回歸語言建模(Partially Autoregressive, PAR),對短語級別進行依賴建模,從而避免了 AR可能帶來的過度局部依賴問題。
偽掩碼語言模型(PMLM)
在新提出的偽掩碼語言模型(PMLM)中,我們對 AE 以及 PAR 這兩個語言建模目標進行了融合。在共享模型參數的基礎上,盡可能對上下文的編碼結果進行了復用,以達到高效訓練的目的。通過構造合理的自注意力模型掩碼與位置編碼,PMLM 可以在一次計算中同時對兩種語言建模任務進行訓練,且無需進行上下文編碼的冗余計算。
在自動問答、復述判別、情感分類、文本摘要、問題生成等一系列任務上的測評,說明了這一方法的有效性。
論文題目:面向社會計算的網絡表示學習
作者:涂存超
導師:孫茂松, 劉知遠
網址://nlp.csai.tsinghua.edu.cn/~tcc/#Thesis
論文摘要:在數據挖掘和社交網絡分析中,對于網絡節點的特征表示一直至關重要。隨 著大規模社會網絡的出現,傳統的網絡表示方法面臨著計算效率以及可解釋性的 問題。此外,這些社會網絡往往蘊含著豐富的異構信息,這些特點使得已有的網 絡表示方法不能很好的處理這些大規模社會網絡。 網絡表示學習(NetworkRepresentationLearning),也就是網絡嵌入(Network Embedding),目的是為網絡中的節點學習一個低維實值的向量表示。每個節點對 應的表示向量蘊含了該節點的網絡結構信息以及其它異構信息,這些表示向量一 般被當作特征向量,來進行進一步的網絡分析任務,例如節點分類、鏈接預測、社 區發現等。本文針對網絡節點表示已有工作的不足,提出了在社會網絡中學習節 點顯式及隱式表示的思路,來學習高質量的網絡節點特征向量和提高社交網絡分 析任務的效果。為了學習網絡節點顯式的特征表示,我們進行了如下工作:(1)基 于詞項的顯式網絡表示:針對網絡節點分類任務,我們提出一種雙層分類模型,融 合利用社交網絡用戶異構文本信息和網絡結構信息,來進行職業預測任務。(2)基 于主題標簽的顯式網絡表示:為了提高用戶特征表示的可解釋性問題,我們提出 利用顯式的標簽來表示用戶節點,探究標簽與社交網絡用戶社交行為之間的對應 關系,進行用戶標簽推薦任務。 雖然網絡節點顯式表示可解釋性強,但它面臨著計算效率的問題。基于表示 學習在圖像、語音、文本等領域成功應用,我們提出了一系列基于深度學習的網 絡表示學習的方法,來學習網絡節點的隱式低維表示。這些工作包括:(1)基于最 大間隔的隱式網絡表示:為了提高網絡節點表示的區分性及其在節點分類上的效 果,提出基于最大間隔理論的有區分性的網絡表示學習模型,同時訓練網絡表示 學習模型和最大間隔分類器,顯著提升了網絡節點分類的效果。(2)上下文相關 的隱式網絡表示:針對鏈接預測任務,提出上下文相關的網絡表示學習模型,根據 網絡節點交互的鄰居節點的不同,結合文本信息來學習節點動態的表示向量。由 于引入了互相注意力機制,該模型能夠顯著提高鏈接預測任務的效果。(3)面向 社會關系抽取的隱式網絡表示:為了更好的對節點之間邊上的語義信息進行建模, 提出基于平移思想的網絡表示學習模型,考慮節點之間邊上的標簽信息,來進行 社會關系抽取任務。(4)社區優化的隱式網絡表示:為了考慮社會網絡中全局的 社區特征,我們利用網絡中的社區與文本中的主題之間的類比關系,提出了社區 優化的網絡表示學習模型,來同時學習節點表示和社區發現。