亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

論文題目: Learning Contextualized Document Representations for Healthcare Answer Retrieval

摘要: 我們提出了上下文文檔向量(CDV),這是一種分布式的文檔表示,用于從較長的醫療文檔中有效地檢索答案。我們的方法基于來自自由文本和醫療分類法的實體和方面的結構化查詢元組。我們的模型利用具有分層LSTM層和多任務訓練的雙重編碼器體系結構來編碼臨床實體的位置和方面。我們使用連續表示來解決具有短延遲的查詢,在句子級使用近似近鄰搜索。我們使用CDV模型從網上9個英語公共衛生資源中檢索連貫的回答段落,面向患者和醫療專業人員。由于沒有適用于所有應用程序場景的端到端訓練數據,我們使用來自Wikipedia的自監督數據來訓練我們的模型。我們證明,我們的廣義模型顯著地優于幾個最先進的衛生醫療基準,并且能夠適應不需要額外微調的異構領域。

付費5元查看完整內容

相關內容

主題: Learning Colour Representations of Search Queries

摘要: 圖像搜索引擎依賴于適當設計的排名功能,這些功能可以捕獲內容語義的各個方面以及歷史上的流行。在這項工作中,我們考慮了色彩在相關性匹配過程中的作用。觀察到很大一部分用戶查詢具有與之相關的固有顏色,這促使我們開展工作。雖然某些查詢包含明確的顏色提及(例如“黑色汽車”和“黃色雛菊”),但其他查詢卻包含隱式的顏色概念(例如“天空”和“草”)。此外,顏色的基礎查詢不是到單一顏色的映射,而是顏色空間中的分布。例如,對“樹”的搜索往往會在綠色和棕色之間形成雙峰分布。我們利用歷史點擊數據為搜索查詢生成顏色表示,并提出一種遞歸神經網絡架構,將看不見的查詢編碼到顏色空間中。我們還展示了如何從印象日志中的交叉模式相關性排序器中學習該嵌入,在印象日志中單擊了結果圖像的子集。我們證明了查詢圖像顏色距離功能的使用可改善排名性能,該性能通過用戶對點擊圖像和跳過圖像的偏好來衡量。

付費5元查看完整內容

題目: Learning Problem-agnostic Speech Representations from Multiple Self-supervised Tasks

摘要: 無監督學習的表示仍然是機器學習中的一個開放問題,尤其是語音信號的挑戰,語音信號的特征通常是長序列和復雜的層次結構。然而,最近的一些研究表明,通過使用一種自監督的編碼器-鑒別器方法來獲得有用的語音表示是可能的。本文提出了一種改進的自監督方法,即一個神經編碼器由多個工作者共同完成不同的自監督任務。不同任務之間所需的一致意見自然會給編碼人員帶來有意義的約束,有助于發現一般的表示,并將學習淺顯表示的風險降至最低。實驗表明,該方法可以學習可遷移的、具有魯棒性的、與問題無關的特征,這些特征從語音信號中傳遞相關信息,如說話人身份、音素,甚至更高層次的特征,如情感線索。此外,大量的設計選擇使編碼器易于輸出,方便其直接使用或適應不同的問題。

付費5元查看完整內容

題目

跨語言表示學習,Unsupervised Cross-lingual Representation Learning at Scale

關鍵詞

自然語言處理,表示學習,跨語言,人工智能

簡介

本文表明,針對多種跨語言轉換任務,大規模地對多語言語言模型進行預訓練可以顯著提高性能。 我們使用超過2 TB的經過過濾的CommonCrawl數據在一百種語言上訓練了基于Transformer的屏蔽語言模型。 我們的模型稱為XLM-R,在各種跨語言基準測試中,其性能明顯優于多語言BERT(mBERT),包括XNLI的平均精度為+ 13.8%,MLQA的平均F1得分為+ 12.3%,NER的平均F1得分為+ 2.1%。 XLM-R在低資源語言上表現特別出色,與以前的XLM模型相比,斯瓦希里語的XNLI準確性提高了11.8%,烏爾都語的準確性提高了9.2%。 我們還對獲得這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極轉移和能力稀釋以及(2)大規模資源資源的高低性能之間的權衡。 最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性。 XLM-R在GLUE和XNLI基準測試中具有強大的單語言模型,因此非常具有競爭力。 我們將公開提供XLM-R代碼,數據和模型。

作者

Alexis Conneau, Kartikay Khandelwal等。

付費5元查看完整內容

主題: A New Meta-Baseline for Few-Shot Learning

摘要: 近年來,元學習已經成為小樣本學習的流行框架,其目標是從少拍分類任務的集合中學習模型。雖然提出了越來越多的新穎元學習模型,但我們的研究發現了被忽視的簡單基準。我們通過在所有基類上預先訓練分類器,并在基于最近質心的少數鏡頭分類算法上進行元學習,提出了一種Meta-Baseline方法,該方法以較大的優勢勝過了最新的方法。為什么這個簡單的方法這么好?在元學習階段,我們觀察到在基礎類的未見任務上更好地推廣的模型在新型類任務上的性能可能會下降,這表明存在潛在的客觀差異。我們發現預訓練和從預訓練的分類器繼承良好的幾次快照分類法對于元基線都很重要,這可能有助于模型更好地利用具有更強可傳遞性的預訓練表示。此外,我們研究了何時需要在此元基線中進行元學習。我們的工作為該領域建立了一個新的基準,并為進一步了解元學習框架中的幾次學習現象提供了啟示。

付費5元查看完整內容

對于自然語言理解任務來說,外部知識通常是有用的。我們介紹了一個上下文文本表示模型,稱為概念上下文(CC)嵌入,它將結構化的知識合并到文本表示中。與實體嵌入方法不同,我們的方法將知識圖編碼到上下文模型中。就像預先訓練好的語言模型一樣,CC嵌入可以很容易地在廣泛的任務中重用。我們的模型利用語義泛化,有效地編碼了龐大的UMLS數據庫。在電子健康記錄(EHRs)和醫療文本處理基準上的實驗表明,我們的模型大大提高了監督醫療NLP任務的性能。

付費5元查看完整內容

題目: Learning Contextualized Document Representations for Healthcare Answer Retrieval

摘要: 我們提出了 Contextual Discourse Vectors(CDV),這是一種分布式的文檔表示,可用于從較長的醫療文檔中有效地檢索答案。我們的方法基于來自自由文本和醫療分類法的實體和aspects的結構化查詢元組。我們的模型利用hierarchical LSTM層和多任務訓練的雙重編碼器體系結構來編碼臨床實體的位置和aspects。我們使用連續表示來解決具有短延遲的查詢,在句子級使用近似近鄰搜索。我們將CDV模型應用于網上的9個英語公共衛生資源中檢索連貫的回答段落,以解決患者和醫療專業人員的問題。由于沒有適用于所有應用程序場景的端到端訓練數據,我們使用來自Wikipedia的自監督數據來訓練我們的模型。我們證明了我們的模型顯著地優于幾個最先進的healthcare passage ranking基準,并且能夠適應不需要額外微調的異構領域。

地址:

//arxiv.org/abs/2002.00835

付費5元查看完整內容

題目: Pre-training Tasks for Embedding-based Large-scale Retrieval

摘要:

我們考慮大型查詢文檔檢索問題:給定一個查詢(例如,一個問題),從大型文檔語料庫返回相關文檔集(例如,包含答案的段落)。這個問題通常分兩步解決。檢索階段首先減少解決方案空間,返回候選文檔的子集。然后評分階段重新排列文檔。關鍵是,該檢索算法不僅要求較高的查全率,而且要求具有較高的效率,能夠及時返回與文檔數量成次線性關系的候選對象。不像評分階段,由于交叉注意力模型上的伯特式訓練任務,最近取得了重大進展,檢索階段仍然沒有得到很好的研究。以前的大部分工作依賴于經典的信息檢索(IR)方法,如BM-25(令牌匹配+ TF-IDF權值)。這些模型只接受稀疏的手工特性,不能針對感興趣的不同下游任務進行優化。本文對基于嵌入式的檢索模型進行了全面的研究。我們證明了學習強嵌入式變壓器模型的關鍵是訓練前的任務集。通過充分設計分段級的預訓練任務,變壓器模型比廣泛使用的BM-25模型以及沒有變壓器的嵌入模型有顯著的改進。我們研究的分段式預訓練任務包括Inverse Close Task(ICT)、Body First Selection(BFS)、Wiki Link Prediction(WLP)以及三者的結合。

付費5元查看完整內容

論文題目

Factorized Multimodal Transformer for Multimodal Sequential Learning

論文簡介

我們周圍的復雜世界本質上是多模態和連續的。信息分散在不同的模式中,需要捕獲多個連續的傳感器。隨著機器學習向更好的泛化方向發展,多模態序貫學習成為一個基礎研究領域。可以說,在模式內和模式間任意分布的時空動力學建模是這一研究領域的最大挑戰。在本文中,我們提出了一個新的變壓器模型,稱為因子化多模變壓器(FMT)的多模順序學習。FMT以因子分解的方式固有地在其多模態輸入中對模式內和多式聯運(涉及兩個或多個模式)動力學建模。所提出的因子分解允許增加自我關注的數量,以便更好地模擬手邊的多模現象;即使在相對較低的資源設置下,在訓練期間也不會遇到困難(例如過度擬合)。FMT中的所有注意機制都有一個完整的時域接收場,使它們能夠異步捕獲遠程多模態動力學。在我們的實驗中,我們將重點放在包含語言、視覺和聽覺三種常用研究模式的數據集上。我們進行了廣泛的實驗,跨越了3個研究良好的數據集和21個不同的標簽。FMT顯示出優于先前提出的模型的性能,在研究的數據集中創造了新的技術狀態。

論文作者

Amir Zadeh, Chengfeng Mao, Kelly Shi, Yiwei Zhang, Paul Pu Liang, Soujanya Poria, Louis-Philippe Morency,作者們長期從事人工智能研究,是機器學習領域專家級人物,在研究過程中,主張機器學習要面向實踐,面向實際,立志解決當前問題,隨著機器學習向更好的泛化方向發展,多模態序貫學習成為一個基礎研究領域,作者們在該領域進行了大量的資源投入,并取得了豐碩成果。

付費5元查看完整內容

論文題目: Learning Conceptual-Contextual Embeddings for Medical Text

論文摘要:

對于自然語言理解任務來說,外部知識通常是有用的。本文介紹了一個上下文文本表示模型,稱為概念上下文(CC)嵌入,它將結構化的知識合并到文本表示中。與實體嵌入方法不同,文中提到的方法將知識圖編碼到上下文模型中。就像預先訓練好的語言模型一樣,CC嵌入可以很容易地在廣泛的任務中重用。模型利用語義泛化,有效地編碼了龐大的UMLS數據庫。電子實驗健康記錄(EHRs)和醫療文本處理基準表明,而使得模型大大提高了監督醫療NLP任務的性能。

付費5元查看完整內容

論文摘要:知識圖譜嵌入是一種將符號實體和關系投影到連續向量空間的方法,越來越受到人們的重視。以前的方法允許對每個實體或關系進行單一的靜態嵌入,忽略它們的內在上下文性質,即。,實體和關系可能出現在不同的圖上下文中,因此,它們具有不同的屬性。該工作提出了一種新的基于上下文的知識圖譜嵌入(CoKE)范式,該范式考慮了這種上下文性質,并學習了動態的、靈活的、完全上下文化的實體和關系嵌入。研究了兩類圖的上下文:邊和路徑,它們都被表示為實體和關系的序列。CoKE采用一個序列作為輸入,并使用Transformer編碼器獲得上下文化的表示。因此,這些表現形式自然地適應輸入,捕捉實體的上下文含義和其中的關系。通過對各種公共基準的評估,驗證了CoKE在鏈路預測和路徑查詢應答方面的優越性。在幾乎所有情況下,它的性能始終比當前的技術水平更好,或者至少與之相當,特別是在H@10的路徑查詢應答方面提高了19.7%。

代碼鏈接:[ /tree/develop/PaddleKG/CoKE]( /tree/develop/PaddleKG/CoKE)

付費5元查看完整內容
北京阿比特科技有限公司