亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

論文摘要: 我們提出了一個大型的可調神經會話響應生成模型DIALOGPT(對話生成預訓練Transformer)。經過2005年至2017年期間從Reddit評論中提取147M大小的類似的對話內容,DialoGPT擴展了Hugging Face PyTorch transformer,在單輪對話設置中實現了在自動和人類評估性方面都接近人類。我們表明,利用DialoGPT的會話系統比基線系統生成更相關、更有內容和上下文一致的響應。預訓練的模型和訓練方法已經公開發布,以促進對神經響應生成的研究和更智能的open-domain對話系統的開發。

代碼鏈接//github.com/microsoft/DialoGPT

付費5元查看完整內容

相關內容

計算學習理論(Computational learning theory)研究的是關于通過“計算”來進行“學習”的理論,即關于機器學習的理論基礎,其目的是分析學習任務的困難本質,為學習算法提供理論保證,并根據分析結果指導算法設計。

題目: Span-ConveRT: Few-shot Span Extraction for Dialog with Pretrained Conversational Representations

摘要:

本文介紹了Span-ConveRT,這是一種用于對話框槽填充的輕量級模型,它將任務描述為基于輪的span提取任務。這個公式允許簡單地集成編碼在大型預先訓練的會話模型中的會話知識,如ConveRT (Henderson等人,2019)。我們展示了在Span-ConveRT中利用這些知識對于很少的學習場景特別有用:

  • 一個跨度提取器,在目標域從零開始訓練表示,
  • 基于bert的跨度提取器。

為了激發更多關于填槽任務的span提取的工作,我們還發布了RESTAURANTS-8K,這是一個新的具有挑戰性的數據集,包含8,198個話語,是從餐館預訂領域的實際對話中匯編而成。

付費5元查看完整內容

最近的研究表明,預訓練文本表示能夠顯著提高許多自然語言處理任務的性能。訓練的中心目標是學習對后續任務有用的文本表示形式。然而,現有的方法是通過最小化代理目標(如語言建模的負日志可能性)來優化的。在這項工作中,我們介紹了一個學習算法,它直接優化模型學習文本表示的能力,以有效地學習下游任務。我們證明了多任務預訓練和模型不可知的元學習之間有著內在的聯系。BERT中采用的標準多任務學習目標是元訓練深度為零的學習算法的一個特例。我們在兩種情況下研究了這個問題:無監督的預訓練和有監督的預訓練,不同的預訓練對象驗證了我們的方法的通用性。實驗結果表明,我們的算法對各種下游任務進行了改進,獲得了更好的初始化。

付費5元查看完整內容

題目: TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

簡介: 深度和大型預訓練語言模型是各種自然語言處理任務的最新技術。但是,這些模型的巨大規模可能會阻礙在實踐中使用它們。一些近期和并行的工作使用知識蒸餾將這些巨大的模型壓縮為淺層模型。在這項工作中,我們重點研究多語言命名實體識別(NER)的知識提煉。特別是,我們研究了幾種蒸餾策略,并提出了一個階段性的優化方案,該方案利用了與教師架構無關的教師內部表示形式,并表明它優于先前工作中采用的策略。此外,我們調查了幾個因素的作用,例如未標記數據的數量,注釋資源,模型架構和推理延遲僅舉幾例。我們證明了我們的方法可以對MBERT類教師模型進行大規模壓縮,在參數推斷方面最多可壓縮35倍,在延遲方面則可壓縮51倍,同時為41種語言的NER有95%的F1分數。

付費5元查看完整內容

As a crucial component in task-oriented dialog systems, the Natural Language Generation (NLG) module converts a dialog act represented in a semantic form into a response in natural language. The success of traditional template-based or statistical models typically relies on heavily annotated data, which is infeasible for new domains. Therefore, it is pivotal for an NLG system to generalize well with limited labelled data in real applications. To this end, we present FewShotWoz, the first NLG benchmark to simulate the few-shot learning setting in task-oriented dialog systems. Further, we develop the SC-GPT model. It is pre-trained on a large set of annotated NLG corpus to acquire the controllable generation ability, and fine-tuned with only a few domain-specific labels to adapt to new domains. Experiments on FewShotWoz and the large Multi-Domain-WOZ datasets show that the proposed SC-GPT significantly outperforms existing methods, measured by various automatic metrics and human evaluations.

題目: Pre-training Tasks for Embedding-based Large-scale Retrieval

摘要:

我們考慮大型查詢文檔檢索問題:給定一個查詢(例如,一個問題),從大型文檔語料庫返回相關文檔集(例如,包含答案的段落)。這個問題通常分兩步解決。檢索階段首先減少解決方案空間,返回候選文檔的子集。然后評分階段重新排列文檔。關鍵是,該檢索算法不僅要求較高的查全率,而且要求具有較高的效率,能夠及時返回與文檔數量成次線性關系的候選對象。不像評分階段,由于交叉注意力模型上的伯特式訓練任務,最近取得了重大進展,檢索階段仍然沒有得到很好的研究。以前的大部分工作依賴于經典的信息檢索(IR)方法,如BM-25(令牌匹配+ TF-IDF權值)。這些模型只接受稀疏的手工特性,不能針對感興趣的不同下游任務進行優化。本文對基于嵌入式的檢索模型進行了全面的研究。我們證明了學習強嵌入式變壓器模型的關鍵是訓練前的任務集。通過充分設計分段級的預訓練任務,變壓器模型比廣泛使用的BM-25模型以及沒有變壓器的嵌入模型有顯著的改進。我們研究的分段式預訓練任務包括Inverse Close Task(ICT)、Body First Selection(BFS)、Wiki Link Prediction(WLP)以及三者的結合。

付費5元查看完整內容

題目: IMAGEBERT: CROSS-MODAL PRE-TRAINING WITH LARGE-SCALE WEAK-SUPERVISED IMAGE-TEXT DATA

摘要: 本文介紹了一種新的用于圖像-文本聯合嵌入的視覺語言預訓練模型圖像BERT。我們的模型是一個基于Transformer的模型,它以不同的模態作為輸入,對它們之間的關系進行建模。該模型同時進行了四項任務的預訓練:掩蔽語言建模(MLM)、掩蔽對象分類(MOC)、掩蔽區域特征回歸(MRFR)和圖像文本匹配(ITM)。為了進一步提高預訓練的質量,我們從Web上收集了一個大規模的弱監督圖像-文本(LAIT)數據集。我們首先在這個數據集上對模型進行預訓練,然后對概念字幕和SBU字幕進行第二階段的預訓練。實驗結果表明,多階段預訓練策略優于單階段預訓練策略。我們還在圖像檢索和文本檢索任務上對預先訓練好的ImageBERT模型進行了調優和評估,并在MSCOCO和Flickr30k數據集上獲得了最好的效果。

付費5元查看完整內容

題目

知識增強的常識性故事生成預訓練模型,A Knowledge-Enhanced Pretraining Model for Commonsense Story Generation

關鍵字

知識增強,故事生成,預訓練,機器學習,神經網絡,語言模型

簡介

故事生成,即從主導語境中生成真實的故事,是一項重要而富有挑戰性的任務。盡管成功建模流暢性和本地化,現有的神經語言生成模型(例如,GPT-2)仍然遭受重復,邏輯沖突,缺乏長期連貫性在生成的故事。我們推測,這是由于關聯相關常識知識、理解因果關系、規劃實體和事件具有適當的時間順序等方面的困難,本文設計了一個常識故事生成的知識增強預訓練模型,并提出了利用常識知識的方法來自外部知識庫的知識,以生成合理的故事。為了進一步捕捉可推理故事中句子之間的因果關系和時間依賴關系,我們采用了多任務學習法,在微調過程中結合辨別目標來區分真假故事。自動和手動評估表明,我們的模型可以生成比藝術基線狀態更合理的故事,特別是在邏輯和全局一致性方面。

作者

Jian Guan, Fei Huang, Xiaoyan Zhu, Minlie Huang,來自人工智能研究所,智能技術與系統國家重點實驗室;北京國家信息科學技術研究中心;清華大學計算機科學與技術系。 Zhihao Zhao,來自北京航空航天大學軟件學院。

付費5元查看完整內容

論文題目: A Pre-training Based Personalized Dialogue Generation Model with Persona-sparse Data

論文摘要: 賦予對話系統以人物角色是實現更人性化對話的關鍵。然而,由于在自然語言中很難體現個性,以及在大多數對話語料庫中觀察到的人物稀疏性問題,這一問題還遠未得到很好的探討。本論文提出了一種基于預訓練的個性化對話模型,該模型可以利用人物角色稀疏對話數據生成一致響應。該方法利用預先訓練好的語言模型來初始化編解碼器,并通過將說話人的角色和對話歷史一起編碼,設計了個人屬性嵌入來建模更豐富的對話上下文。此外,為了在解碼過程中合并目標人物角色并平衡其貢獻,在解碼器中設計了注意路由結構,以使用動態預測權重合并從目標人物角色提取的特征和對話上下文。我們的模型可以在訓練過程中統一使用人物角色稀疏對話,也可以控制推理過程中要顯示的人物角色相關特征的數量。無論是自動評估還是手動評估都表明,該模型在使用人物角色稀疏數據生成更一致和人物角色一致的響應方面優于最新方法。

付費5元查看完整內容

We present a large, tunable neural conversational response generation model, DialoGPT (dialogue generative pre-trained transformer). Trained on 147M conversation-like exchanges extracted from Reddit comment chains over a period spanning from 2005 through 2017, DialoGPT extends the Hugging Face PyTorch transformer to attain a performance close to human both in terms of automatic and human evaluation in single-turn dialogue settings. We show that conversational systems that leverage DialoGPT generate more relevant, contentful and context-consistent responses than strong baseline systems. The pre-trained model and training pipeline are publicly released to facilitate research into neural response generation and the development of more intelligent open-domain dialogue systems.

北京阿比特科技有限公司