亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

搜索引擎已經成為各種web和移動應用程序的基本組件。從海量數據集中檢索相關文檔對于搜索引擎系統來說是一項挑戰,尤其是在遇到冗長或尾部查詢時。在本文中,我們探索了一個向量空間搜索框架的文檔檢索。具體地說,我們訓練了一個深度語義匹配模型,使每個查詢和文檔都可以編碼為低維嵌入。我們的模型是基于BERT架構進行訓練的。我們為在線服務部署了一個快速的k-近鄰索引服務。離線和在線指標都表明,我們的方法大大提高了檢索性能和搜索質量,特別是尾部查詢。

//www.zhuanzhi.ai/paper/98c122f66125ade0ad73761f23bab2f4

付費5元查看完整內容

相關內容

在最大化源與目標之間的互信息方面的最新進展已經證明了它在文本生成方面的有效性。然而,以往的工作對MI(即MI)的后向網絡建模關注較少。這對于變分信息最大化下界的緊密性至關重要。在本文中,我們提出了一個對抗互信息(AMI):一個文本生成框架,它是一個新的鞍點(min-max)優化,旨在識別源與目標之間的聯合交互。在這個框架中,通過比較真實和合成的數據分布,前向網絡和后向網絡能夠迭代地提升或降級彼此生成的實例。我們還開發了一個潛在噪聲采樣策略,利用高級語義空間的隨機變化來增強生成過程中的長期依賴性。基于不同文本生成任務的大量實驗表明,所提出的AMI框架能夠顯著優于多個強基線,我們還表明,AMI有可能為變分信息最大化問題帶來更緊密的互信息上限。

//www.zhuanzhi.ai/paper/ccd8403755c153d155bec032656f8c49

付費5元查看完整內容

本文提出了一個新的多粒度閱讀理解框架,并且在NQ數據集上驗證了其有效性。我們利用文檔自身的層次結構特性,以四個粒度建模文檔,并且同時考慮NQ中兩個粒度答案的依賴關系。實驗結果表明我們提出的方法是非常有效的,并且相比現有方法有了大幅度的提升。

整體系統架構,所有文檔片段被獨立的輸入到模型中,最后匯總之后得到答案 我們針對這種NQ數據集提出了一個新的框架,整體系統架構如圖3所示,我們將問題以及文檔的每個片段獨立的輸入到模型中,通過BERT編碼器進行編碼,得到問題和文檔片段的初步表示,然后用我們提出的圖編碼器用得到的表示進一步建模,最終得到一系列結構化的表示,匯總到答案選擇模塊得到答案。

付費5元查看完整內容

題目:

Mining Implicit Relevance Feedback from User Behavior for Web Question Answering

簡介:

訓練和刷新用于多語言商業搜索引擎的Web級問答系統通常需要大量的數據。一個想法是從搜索引擎日志中記錄的用戶行為從而挖掘隱式相關性。以前所有有關挖掘隱式相關性的著作都將反饋的目標指定為Web文檔的相關性。由于QA任務中的幾個獨特特性,現有的Web文檔用戶行為模型無法應用于推斷段落相關性。在本文中,我們進行了第一項研究,以探索用戶行為與段落之間的相關性,并提出了一種挖掘Web QA訓練數據的方法。我們對四個測試數據集進行了廣泛的實驗,結果表明,在沒有人標記的數據中,我們的方法顯著提高了段落排名的準確性。實際上,已證明這項工作有效地降低了全球商業搜索引擎中質量檢查服務的人工標記成本,尤其是對于資源較少的語言。

付費5元查看完整內容

了解在線用戶可能關注的內容是內容推薦和搜索服務的關鍵。這些服務將受益于實體、概念、事件、主題和類別的高度結構化和web級本體。雖然現有的知識庫和分類法包含了大量的實體和類別,但我們認為它們未能以online population的語言風格發現適當粒度的概念、事件和主題。這些概念之間也不存在邏輯結構的本體。在本文中,我們提出GIANT,一種構建一個以用戶為中心的、網絡規模的、結構化的本體論的機制,該本體論包含了大量的自然語言短語,這些短語在不同的粒度上符合用戶的需要,這些短語是從大量的網絡文檔和搜索點擊圖中挖掘出來的。此外,還構造了各種類型的邊來維護本體中的層次結構。我們介紹了在GIANT中使用的基于圖神經網絡的技術,并與各種基線進行了比較,對提出的方法進行了評估。騰訊開發出了注意力本體,并將其應用到騰訊的各種應用中,涉及用戶超過10億。在騰訊QQ瀏覽器上進行的在線A/B測試表明,注意力本體可以顯著提高新聞推薦的點擊率。

付費5元查看完整內容

題目: Learning Contextualized Document Representations for Healthcare Answer Retrieval

摘要: 我們提出了 Contextual Discourse Vectors(CDV),這是一種分布式的文檔表示,可用于從較長的醫療文檔中有效地檢索答案。我們的方法基于來自自由文本和醫療分類法的實體和aspects的結構化查詢元組。我們的模型利用hierarchical LSTM層和多任務訓練的雙重編碼器體系結構來編碼臨床實體的位置和aspects。我們使用連續表示來解決具有短延遲的查詢,在句子級使用近似近鄰搜索。我們將CDV模型應用于網上的9個英語公共衛生資源中檢索連貫的回答段落,以解決患者和醫療專業人員的問題。由于沒有適用于所有應用程序場景的端到端訓練數據,我們使用來自Wikipedia的自監督數據來訓練我們的模型。我們證明了我們的模型顯著地優于幾個最先進的healthcare passage ranking基準,并且能夠適應不需要額外微調的異構領域。

地址:

//arxiv.org/abs/2002.00835

付費5元查看完整內容

論文題目: Learning Contextualized Document Representations for Healthcare Answer Retrieval

摘要: 我們提出了上下文文檔向量(CDV),這是一種分布式的文檔表示,用于從較長的醫療文檔中有效地檢索答案。我們的方法基于來自自由文本和醫療分類法的實體和方面的結構化查詢元組。我們的模型利用具有分層LSTM層和多任務訓練的雙重編碼器體系結構來編碼臨床實體的位置和方面。我們使用連續表示來解決具有短延遲的查詢,在句子級使用近似近鄰搜索。我們使用CDV模型從網上9個英語公共衛生資源中檢索連貫的回答段落,面向患者和醫療專業人員。由于沒有適用于所有應用程序場景的端到端訓練數據,我們使用來自Wikipedia的自監督數據來訓練我們的模型。我們證明,我們的廣義模型顯著地優于幾個最先進的衛生醫療基準,并且能夠適應不需要額外微調的異構領域。

付費5元查看完整內容
北京阿比特科技有限公司