亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

查詢理解是信息檢索中的一個基本問題,在過去的幾十年里一直受到人們的關注。為了理解用戶的搜索查詢,人們提出了許多不同的任務,例如查詢分類或查詢聚類。然而,在意圖類/集群級別上理解搜索查詢并不那么精確,因為會丟失許多詳細信息。正如我們在許多基準數據集(例如TREC和SemEval)中發現的那樣,查詢通常與人類注釋者提供的詳細描述相關聯,這些描述清楚地描述了查詢的意圖,以幫助評估文檔的相關性。如果一個系統能夠為搜索查詢自動生成詳細而精確的意圖描述,就像人類注釋器一樣,這將表明更好的查詢理解已經實現。因此,在本文中,我們提出了一種新的查詢到意圖描述(Q2ID)任務來進行查詢理解。與那些利用查詢及其描述來計算文檔相關性的現有排序任務不同,Q2ID是一個反向任務,旨在基于給定查詢的相關和不相關文檔生成自然語言意圖描述。為了解決這一問題,我們提出了一種新的對比生成模型,即CtrsGen(簡稱CtrsGen),該模型通過對比給定查詢的相關文檔和不相關文檔來生成意圖描述。我們通過與幾種最先進的生成模型在Q2ID任務上的比較,證明了我們的模型的有效性。我們將通過一個示例應用程序討論這種Q2ID技術的潛在用法。

//www.zhuanzhi.ai/paper/d34ba15f09003b2b2c17a7a415b8b026

付費5元查看完整內容

相關內容

使用正式的查詢語言指定用戶的興趣通常是一項具有挑戰性的任務,這在多模型數據管理上下文中變得更加困難,因為我們必須處理數據多樣性。它通常缺乏統一的模式來幫助用戶發出查詢,或者由于數據來自不同的來源,所以模式不完整。多模型數據庫(mmdb)已經成為處理此任務的一種有前途的方法,因為它們能夠在單個系統中容納和查詢多模型數據。本教程旨在全面介紹多種mmdb查詢語言,并從多個角度比較它們的屬性。我們將討論跨模型查詢處理的本質,并對研究挑戰和未來工作的方向提供見解。本教程還將向參與者提供應用mmdb來發出多模型數據查詢的實際經驗。

//www.helsinki.fi/en/node/93817

付費5元查看完整內容

會話搜索的任務主要是使用交互數據來提高用戶在會話級別上的下一個查詢的相關性。在本文中,我們將會話搜索作為一個個性化任務,在學習排序的框架下進行。個性化方法重新排列結果以匹配用戶模型。這種用戶模型通常是根據用戶的瀏覽行為隨著時間的推移而積累起來的。我們使用一套預先計算的、透明的基于社會科學文獻概念的用戶模型。交互數據用于將每個會話映射到這些用戶模型。然后根據這些模型和sessions的交互數據來估計新特性。從TREC會話軌跡的測試收集上進行的廣泛實驗顯示,在統計上比當前會話搜索算法有顯著的改進。

//www.zhuanzhi.ai/paper/3cd6afe65db82a0f6e0fa3a45d1fda73

付費5元查看完整內容

Transformer 模型的自監督預訓練已經徹底改變了NLP的應用。這種語言建模目標的預訓練為參數提供了一個有用的初始化,這些參數可以很好地推廣到新的任務中。然而,微調仍然是數據效率低下的——當有標記的例子很少時,準確性可能會很低。數據效率可以通過優化預訓練;這可以看作是一個元學習問題。然而,標準的元學習技術需要許多訓練任務才能泛化;不幸的是,找到一組不同的這樣的監督任務通常是困難的。本文提出了一種自監督的方法,從無標記文本生成一個龐大的,豐富的元學習任務分布。這是使用closize風格的目標實現的,但是通過從少數詞匯表術語中收集待刪除的標記來創建單獨的多類分類任務。這產生的唯一元訓練任務與詞匯術語子集的數量一樣多。我們使用最近的元學習框架對任務分配的transformer模型進行元訓練。在17個NLP任務中,我們表明,這種元訓練比語言模型前訓練后的精細化能產生更好的少樣本泛化效果。此外,我們還展示了如何將自監督任務與監督任務結合起來進行元學習,從而比之前的監督元學習獲得了更大的準確性。

//arxiv.org/abs/2009.08445

付費5元查看完整內容

基于場景圖分解的自然語言描述生成 Comprehensive Image Captioning via Scene Graph Decomposition

本文由騰訊 AI Lab 主導,與威斯康星大學麥迪遜分校合作完成,提出了一種基于場景圖分解的自然語言描述生成方法。

使用自然語言來描述圖像是一項頗具挑戰性的任務,本文通過重新回顧圖像場景圖表達,提出了一種基于場景圖分解的圖像自然語言描述生成方法。該方法的核心是把一張圖片對應的場景圖分解成多個子圖,其中每個子圖對應描述圖像的一部分內容或一部分區域。通過神經網絡選擇重要的子圖來生成一個描述圖像的完整句子,該方法可以生成準確、多樣化、可控的自然語言描述。研究者也進行了廣泛的實驗,實驗結果展現了這一新模型的優勢。

如圖所示,新方法從輸入圖像生成場景圖,并且分解為一系列子圖。本文設計了一個子圖生成網絡(sGPN),用于學習識別有意義的子圖,這些子圖基于注意力的 LSTM 可以進一步解碼生成句子,并且將短語匹配到圖節點對應的圖像區域。通過利用子圖,模型可實現準確、多樣化且可控制的圖像描述生成。

//www.zhuanzhi.ai/paper/97df62d67f87b9976eba899a617c099e

付費5元查看完整內容

第29屆國際計算機學會信息與知識管理大會(The 29th ACM International Conference on Information and Knowledge Management, CIKM 2020)將于2020年10月19日-10月23日在線上召開。CIKM是CCF推薦的B類國際學術會議,是信息檢索和數據挖掘領域頂級學術會議之一。本屆CIKM會議共收到投稿920篇,其中錄用論文193篇,錄取率約為21%。

論文題目:Diversifying Search Results using Self-Attention Network(長文)

作者者:秦緒博(人大博士生),竇志成,文繼榮

論文概述:搜索結果多樣化的目標是使得檢索得到的結果能夠盡量覆蓋用戶提出問題的所有子話題。已有的多樣化排序方法通常基于貪心選擇(Greedy Selection)過程,獨立地將每一個候選文檔與已選中的文檔序列進行比較,選擇每一個排序位置的最佳文檔,生成最后的文檔排序。而相關研究證明由于各候選文檔的邊際信息收益并非彼此獨立,貪心選擇得到的各個局部最優解將難以導向全局最佳排序。本文介紹了一種基于自注意力網絡(Self-Attention Network)的方法,可以同步地衡量全體候選文檔間的關系,以及候選文檔對不同用戶意圖的覆蓋程度,有效地克服原有方法受限于貪心選擇過程的局限性,并在TRECWebTrack09-12數據集上獲得更好的性能。

論文題目:PSTIE: Time Information Enhanced Personalized Search(長文)

作 者:馬正一(人大碩士生),竇志成,邊關月,文繼榮

論文概述:基于深度學習的個性化搜索模型通過序列神經網絡(例如RNN)對用戶搜索歷史進行序列建模,歸納出用戶的興趣表示,取得了當前最佳的效果。但是,這一類模型忽略了用戶搜索行為之間細粒度的時間信息,而只關注了搜索行為之間的相對順序。實際上,用戶每次查詢之間的時間間隔可以幫助模型更加準確地對用戶查詢意圖與文檔興趣的演化進行建模。同時,用戶歷史查詢與當前查詢之間的時間間隔可以直接幫助模型計算用戶的重查找(re-finding)行為概率。基于此,本文提出了一個時間信息增強的個性化搜索模型。我們設計了兩種時間感知的LSTM結構在連續時間空間中對用戶興趣進行建模,同時直接將時間信息利用在計算用戶重查找概率中,計算出了更加準確的用戶長短期興趣表示。我們提出了兩種將用戶興趣表示用于個性化排序的策略,并在兩個真實數據集上取得了更好的效果。

論文題目:Learning to Match Jobs with Resumes from Sparse Interaction Data using Multi-View Co-Teaching Network(長文)

作 者:卞書青(人大博士生),陳旭,趙鑫,周昆,侯宇蓬,宋洋,文繼榮

論文概述:隨著在線招聘規模的不斷增長,求職領域下的人崗匹配已經成為最重要的任務。人崗匹配任務通常可以看作文本匹配問題。當監督數據足夠多時,模型的學習效果是有用的。但是在線招聘平臺上,職位和簡歷的交互數據稀疏且帶有噪聲,這會影響求職簡歷匹配算法的性能。為了緩解這些問題,本文提出了一種多視圖協同教學網絡用來解決人崗匹配中的數據稀疏和噪聲問題,匹配網絡包含兩個主要模塊,即基于文本的匹配模型和基于關系的匹配模型。這兩個部分在兩個不同的視圖中捕獲了語義信息并且相互補充。為解決數據稀疏和噪聲數據帶來的挑戰,我們設計了兩種特定策略。首先,兩個模塊共享學習的參數和表示,以增強每個模塊的初始的表示。更重要的,我們采用了一種協同教學的機制來減少噪聲對訓練數據的影響。核心思想是讓這兩個模塊通過選擇更可靠的訓練實例來互相幫助。這兩種策略分別關注于表示增強和數據增強。與基于純文本的匹配模型相比,所提出的方法能夠從有限的甚至稀疏的交互數據中學習更好的表示,對訓練數據中的噪聲具有一定的抵抗能力。實驗結果表明,我們的模型均優于現有的方法。

論文題目:Knowledge-Enhanced Personalized Review Generation with Capsule Graph Neural Network(長文)

作 者:李軍毅(人大博士生),李思晴,趙鑫,何高樂,魏志成,袁晶,文繼榮

論文概述:個性化評論生成(PRG)任務旨在自動生成反映用戶偏好的評論文本。以前的大多數研究都沒有明確建模物品的事實描述,因此傾向于生成無信息的內容。而且,這些研究主要集中在單詞層面的生成,無法準確反映出用戶在多個主題上的抽象偏好。針對上述問題,我們提出了一種基于膠囊圖神經網絡(Caps-GNN)的知識增強個性化評論生成模型。我們首先構造一個異構知識圖譜(HKG),充分利用豐富的物品屬性。我們采用Caps-GNN學習到HKG圖膠囊,用于編碼HKG的隱含特征。我們的生成過程包含兩個主要步驟,即主題序列生成和句子生成。首先,基于圖膠囊,我們自適應地學習了主題膠囊,以推斷主題序列。然后,根據推斷的主題標簽,我們設計了一種基于圖的拷貝機制,通過引入HKG的相關實體或單詞來生成句子。本文是第一個將知識圖譜用于個性化評論生成任務,引入的KG信息能夠增強用戶在主題和單詞層面上的偏好。實驗表明,我們的模型對于個性化評論生成任務具有更好的效果。

論文題目:S3-Rec: Self-Supervised Learning for Sequential Recommendation with Mutual Information Maximization(長文)

作 者:周昆(人大博士生),王輝(人大碩士生),趙鑫,朱余韜,王思睿,張富錚,王仲遠,文繼榮

論文概述:近年來,深度學習在序列化推薦領域取得了巨大成功,已有的序列化推薦模型通常依賴于商品預測的損失函數進行參數訓練。但是該損失函數會導致數據稀疏和過擬合問題,其忽視了上下文數據與序列數據之間的關聯,使得數據的表示學習的并不充分。為解決該問題,本文提出了S3-Rec這一模型,該模型基于自注意力是模型框架,利用四個額外的自監督訓練函數來學習屬性、商品、序列之間的特殊關系。在這里,本文采用了互信息最大化技術來構造這些自監督函數,以此來統一這些關系。在六個數據集上的充分實驗表明本文提出的模型能夠取得State-of-the-art的效果,其在數據量受限和其他推薦模型上也能帶來較大的提升。

**論文:Learning Better Representations for Neural Information Retrieval with Graph Information” **

(作者:李祥圣,Maarten de Rijke, 劉奕群,毛佳昕,馬為之,張敏,馬少平)

內容簡介:目前的檢索模型多數基于文本間的匹配。然而,對于一個搜索會話,用戶的行為之間是具有聯系的,這樣的聯系可以用圖的方式表示出來。例如用戶在會話搜索中修改查詢的過程可以知道那些查詢之間是相似的,用戶點擊文檔后,可以知道查詢與文檔之間的關聯性。利用這樣的兩個網絡,我們可以構建一個由用戶行為組成的圖網絡。在傳統的文本匹配模式上,進一步地引入行為圖信息幫助檢索模型更好地理解用戶搜索意圖。檢索模型可以利用圖信息,對輸入的查詢進行相似節點查詢。同理,對于候選文檔也可以利用相似節點查詢。通過引入鄰接節點信息,豐富當前節點的語義表示。

現有的圖模型的工作主要分為兩種:網絡嵌入式表示方法與圖神經網絡方法。基于這兩種方法,我們提出了兩種利用圖信息改進檢索模型的方法,兩種方法的示意圖如下所示:

付費5元查看完整內容

領域適應(DA)提供了重用數據和模型用于新問題領域的有價值的方法。然而,對于具有不同數據可用性的時間序列數據,還沒有考慮到健壯的技術。在本文中,我們做出了三個主要貢獻來填補這一空白。我們提出了一種新的時間序列數據卷積深度域自適應模型(CoDATS),該模型在現實傳感器數據基準上顯著提高了最先進的DA策略的準確性和訓練時間。通過利用來自多個源域的數據,我們增加了CoDATS的有用性,從而進一步提高了與以前的單源方法相比的準確性,特別是在域之間具有高度可變性的復雜時間序列數據集上。其次,我們提出了一種新的弱監督域自適應(DA-WS)方法,利用目標域標簽分布形式的弱監督,這可能比其他數據標簽更容易收集。第三,我們對不同的真實數據集進行了綜合實驗,以評估我們的域適應和弱監督方法的有效性。結果表明,用于單源DA的CoDATS比最先進的方法有了顯著的改進,并且我們使用來自多個源域和弱監督信號的數據實現了額外的準確性改進。

付費5元查看完整內容

本文處理學習和推理語言和視覺數據的相關下游任務的挑戰,如視覺問題回答(VQA)和自然語言的視覺推理(NLVR)。我們設計了一個新穎的跨模態關聯模塊,用端到端框架在目標任務的監督下學習各種輸入模態組件之間的關聯表示,這比僅僅重塑原始表示空間更易于推廣到未觀測的數據。除了對文本實體和視覺實體之間的相關性進行建模外,我們還對文本中的實體關系和圖像中的對象關系之間的高階相關性進行建模。我們提出的方法使用公共基準,在兩個不同的語言和視覺任務上顯示出具有競爭力的性能,并改進了最新發布的結果。NLVR任務學習的輸入空間對齊及其相關表示提高了VQA任務的訓練效率。

付費5元查看完整內容

摘要: 我們提出了EMU,一個從語義上增強多語言句子嵌入系統。我們的框架使用兩個主要組件(語義分類器和語言鑒別器)對預先訓練好的多語言句子嵌入進行了微調。語義分類器提高了相關句子的語義相似度,而語言鑒別器通過多語言對抗訓練增強了嵌入語的多語言性。我們的實驗結果基于幾個語言對表明,我們的專門嵌入優于最先進的多語言句子嵌入模型的任務,跨語言意圖分類僅使用單語標記的數據。

付費5元查看完整內容
北京阿比特科技有限公司