亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

主題: Residual Energy-Based Models for Text Generation

摘要: 從摘要到對話機器翻譯,文本生成在許多NLP任務中無處不在。主導參數方法基于局部標準化模型,該模型一次預測一個單詞。盡管這些工作非常出色,但由于發電過程的貪婪性,它們受到暴露偏差的困擾。在這項工作中,我們研究了基于非標準化能量的模型(EBM),該模型不是在令牌上運行,而是在序列級別上運行。為了使訓練易于處理,我們首先在預訓練的局部歸一化語言模型的殘差中進行工作,其次我們使用噪聲對比估計進行訓練。此外,由于EBM在序列級別起作用,因此我們可以利用預訓練的雙向上下文表示,例如BERT和RoBERTa。我們在兩個大型語言建模數據集上的實驗表明,與本地標準化基準相比,殘留EBM的困惑度更低。此外,根據人類評估,通過重要性抽樣進行的生成比基線模型非常有效且質量更高。

付費5元查看完整內容

相關內容

由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。

這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度

//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

概述:

在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。

最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。

在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。

雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。

付費5元查看完整內容

人工神經網絡(ANNS)在解決各種認知模式下的感知任務方面顯示出很大的經驗成功。雖然它們只是受到生物大腦的松散啟發,但最近的研究報告稱,從任務優化的神經網絡中提取的表征與大腦中的神經種群之間存在相當多的相似性。神經網絡后來成為一個流行的模型類,用來推斷復雜認知功能下的計算原理,反過來,它們也成為一個自然的實驗平臺,用來應用最初開發的方法來探測神經群體中的信息。在這項工作中,我們利用平均場理論流形分析,從計算神經科學的最新技術,從大規模語境嵌入模型分析語言表示的高維幾何。我們從不同的模型族(BERT, RoBERTa, GPT-2等)中探索表征,并找到跨層深度的語言流形出現的證據(例如詞性流形和組合范疇語法標簽)。我們進一步觀察到,不同的編碼方案用于獲取表示,導致這些語言流形出現在網絡的早期或后期層的差異。此外,我們發現這些流形中線性可分性的出現是由流形半徑、維數和流形間相關性的聯合減少所驅動的。

//arxiv.org/abs/2006.01095

付費5元查看完整內容

自回歸文本生成模型通常側重于局部的流暢性,在長文本生成過程中可能導致語義不一致。此外,自動生成具有相似語義的單詞是具有挑戰性的,而且手工編寫的語言規則很難應用。我們考慮了一個文本規劃方案,并提出了一個基于模型的模仿學習方法來緩解上述問題。具體來說,我們提出了一種新的引導網絡來關注更長的生成過程,它可以幫助下一個單詞的預測,并為生成器的優化提供中間獎勵。大量的實驗表明,該方法具有較好的性能。

付費5元查看完整內容

有關實體及其關系的真實世界事實的知識庫是各種自然語言處理任務的有用資源。然而,由于知識庫通常是不完整的,因此能夠執行知識庫補全或鏈接預測是很有用的。本文全面概述了用于知識庫完成的實體和關系的嵌入模型,總結了標準基準數據集上最新的實驗結果。

付費5元查看完整內容

題目: TinyMBERT: Multi-Stage Distillation Framework for Massive Multi-lingual NER

簡介: 深度和大型預訓練語言模型是各種自然語言處理任務的最新技術。但是,這些模型的巨大規模可能會阻礙在實踐中使用它們。一些近期和并行的工作使用知識蒸餾將這些巨大的模型壓縮為淺層模型。在這項工作中,我們重點研究多語言命名實體識別(NER)的知識提煉。特別是,我們研究了幾種蒸餾策略,并提出了一個階段性的優化方案,該方案利用了與教師架構無關的教師內部表示形式,并表明它優于先前工作中采用的策略。此外,我們調查了幾個因素的作用,例如未標記數據的數量,注釋資源,模型架構和推理延遲僅舉幾例。我們證明了我們的方法可以對MBERT類教師模型進行大規模壓縮,在參數推斷方面最多可壓縮35倍,在延遲方面則可壓縮51倍,同時為41種語言的NER有95%的F1分數。

付費5元查看完整內容

題目: BLEURT: Learning Robust Metrics for Text Generation

摘要: 文本生成在過去幾年中取得了重大進展。然而,評估指標卻落后了,因為最流行的選擇(如BLEU和 ROUGE)可能與人類的判斷關系不大。我們提出了BLEURT,一個基于BERT的學習評價指標,它可以用幾千個可能有偏差的訓練例子來模擬人類的判斷。我們的方法的一個關鍵方面是一個新的訓練前方案,它使用數百萬的綜合例子來幫助模型泛化。BLEURT提供了過去三年WMT指標共享任務和WebNLG競賽數據集的最新成果。與基于vanilla bert的方法相比,即使在訓練數據缺乏和分布不均勻的情況下,它也能產生更好的結果。

付費5元查看完整內容

簡介:

作為面向任務的對話系統中的關鍵組件,自然語言生成(NLG)模塊將以語義形式表示的對話行為轉換為自然語言的響應。傳統的基于模板或統計模型的成功通常依賴于帶有大量注釋的數據,這對于新領域而言是不可行的。因此,對于NLG系統而言,在實際應用中使用有限的標記數據很好地泛化至關重要。為此,我們展示了FewShotWOZ,這是第一個NLG基準測試,用于模擬面向任務的對話系統中的少量學習設置。此外,我們開發了SC-GPT模型。它在大量帶注釋的NLG語料庫上進行了預訓練,以獲取可控的生成能力,并僅用少數幾個特定于域的標簽進行微調以適應新的域。在FewShotWOZ和大型Multi-Domain-WOZ數據集上進行的實驗表明,通過各種自動指標和人工評估,提出的SC-GPT明顯優于現有方法。

付費5元查看完整內容

論文題目:
Latent Relation Language Models

論文摘要: 在本文中,我們提出了潛在關系語言模型(LRLM),它是一類語言模型,它通過知識圖的關系參數化文檔中單詞和其中出現的實體的聯合分布。 該模型具有許多吸引人的屬性:它不僅提高了語言建模性能,而且還能夠注釋實體跨度對于關聯文本的后驗概率。 實驗表明,在基于單詞的基準語言模型和結合了知識圖譜信息的先前方法上,經驗性改進。 定性分析進一步證明了該模型在上下文中學習最佳預測適當關系的能力。

付費5元查看完整內容

論文摘要: 我們提出了一個大型的可調神經會話響應生成模型DIALOGPT(對話生成預訓練Transformer)。經過2005年至2017年期間從Reddit評論中提取147M大小的類似的對話內容,DialoGPT擴展了Hugging Face PyTorch transformer,在單輪對話設置中實現了在自動和人類評估性方面都接近人類。我們表明,利用DialoGPT的會話系統比基線系統生成更相關、更有內容和上下文一致的響應。預訓練的模型和訓練方法已經公開發布,以促進對神經響應生成的研究和更智能的open-domain對話系統的開發。

代碼鏈接//github.com/microsoft/DialoGPT

付費5元查看完整內容
北京阿比特科技有限公司