原型驅動的文本生成使用非參數模型,該模型首先從句子庫中選擇“原型”,然后修改原型生成輸出文本。這些方法雖然有效,但測試時效率低下,因為需要對整個訓練語料庫進行存儲和索引。此外,現有的方法通常需要啟發式來確定在訓練時引用哪個原型。在本文中,我們提出了一種新的生成模型,它可以自動學習稀疏原型支持集,同時也可以獲得較強的語言建模性能。通過(1)在原型選擇分布上施加稀疏誘導先驗,(2)利用平攤變分推理學習原型檢索函數來實現。在實驗中,我們的模型優于以前的原型驅動的語言模型,同時實現了高達1000倍的內存減少,以及測試時1000倍的加速。更有趣的是,當我們改變原型選擇的稀疏性時,我們展示了學習的原型能夠在不同的粒度捕獲語義和語法,并且可以通過指定生成的原型來控制某些句子屬性。
遷移學習從根本上改變了自然語言處理(NLP)的處理范式。許多最先進的模型首先在大型文本語料庫上進行預先訓練,然后在下游任務上進行微調。然而,當我們對下游任務的監督有限且薄弱時,由于預訓練模型的復雜度極高,過度微調往往會導致微調后的模型對下游任務的訓練數據進行過擬合,而不能泛化到看不到的數據。
為了解決這一問題,我們提出了一種新的方法來微調預先訓練的模型,以獲得更好的泛化性能。我們提出的方法采用了三個重要成分: (1)平滑誘導正則化,有效地管理了大量模型的復雜性; (2) Bregman近端點優化,它是信任域方法的一個實例,可以防止惡意更新;(3)自訓練,可以逐步改進模型擬合,有效抑制誤差傳播。我們的實驗表明,在有限或弱監督的情況下,該方法明顯優于現有的NLP任務。
神經文本退化:一致性和學習
用最大似然估計訓練的神經序列模型已經成為建模和生成文本的標準方法。然而,最近的研究發現了這些模型的問題。在這次談話中,我們研究了在實踐中出現的最大似然學習的退化性質,激發了新的學習方法。我們使用在生成文本中觀察到的三個特性來描述簡并性:非終止性、邏輯不連貫性和重復性。為了研究非終止性,我們發展了一個理論,允許我們正式證明傳統的文本生成方法可以生成具有高概率的無限長序列。為了減少這三種類型的退化,我們開發了兩種學習算法:非似然訓練(懲罰特定任務的文本屬性)和最大似然引導參數搜索(直接優化序列級損失)。
雖然BERT等大規模的預訓練語言模型在各種自然語言理解任務上取得了巨大的成功,但如何高效、有效地將它們合并到序列到序列模型和相應的文本生成任務中仍然是一個不容忽視的問題。為了解決這個問題,我們提出采用兩種不同的BERT模型分別作為編碼器和解碼器,并通過引入簡單的和輕量級的適配器模塊對它們進行微調,這些適配器模塊插入到BERT層之間,并針對特定的任務數據集進行調優。這樣,我們得到了一個靈活高效的模型,它能夠聯合利用源端和目標端BERT模型中包含的信息,同時繞過了災難性遺忘問題。框架中的每個組件都可以看作是一個插件單元,使得框架靈活且任務不相關。該框架基于并行序列譯碼算法掩模預測,考慮了BERT算法的雙向和條件獨立性,易于適應傳統的自回歸譯碼。我們在神經機器翻譯任務上進行了廣泛的實驗,在實驗中,所提出的方法始終優于自回歸基線,同時將推理延遲減少了一半,并且在IWSLT14德語-英語/WMT14德語-英語翻譯中達到36.49/33.57的BLEU分數。當采用自回歸譯碼時,該方法在WMT14英-德/英-法翻譯中的BLEU得分達到30.60/43.56,與最先進的基線模型相當。
理想情況下,我們希望將兩個幾何對象插入到一個函數中,然后通過函數來說明它們之間的相似性。這將允許我們回答關于下游應用程序中幾何數據的不同層次上的各種問題。然而,對于高級任務,如計算樣式相似度或三維形狀之間的頂點到頂點映射,直接在原始幾何數據上進行這些操作是困難的,因為更抽象的任務需要更結構化的聚合信息。實現這種相似性函數的一種方法是首先計算這些數據到嵌入空間的映射,從而對不同幾何元素之間的有意義的關系進行編碼,例如在風格上,更相似的形狀嵌入得更緊密。通過利用這個嵌入空間,我們可以計算并輸出相似度度量。然而,手工構建保存這些屬性的映射是很困難的,因為為越來越抽象的任務制定顯式規則或模型變得越來越具有挑戰性。因此,我們使用了由人類提供的與任務相關的元信息的幾何數據集合。這允許我們通過使用神經網絡靈活地制定地圖計算,而不用對映射圖本身的形式做太多假設。為了從廣泛可用的機器學習技術中獲益,我們必須首先考慮如何選擇合適的幾何數據表示作為各種學習模型的輸入。具體來說,根據數據源的可用性和任務的特定需求,我們從圖像、點云和三角形網格計算嵌入。一旦我們找到了對輸入進行編碼的合適方法,我們就會探索不同的方法來塑造學習到的中間域(嵌入),這超越了直接的基于分類分布的交叉熵最小化方法。
//sites.google.com/view/geometry-learning-foundation/schedule#h.p_am99P6ELk_gL
UniLMv2:統一預訓練偽掩碼語言模型
UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training
論文鏈接://www.zhuanzhi.ai/paper/a6628400809ab320e597b1d4d1fca177
基于大規模語料的預訓練語言模型在各種自然語言處理任務帶來了巨大的提升。受UniLMv1 ([NeurIPS-19]Unified Language Model Pre-training for Natural Language Understanding and Generation)的啟發,本篇論文提出“偽掩碼語言模型”(PMLM),可以同時對兩種不同的語言建模目標進行高效訓練,從而使其更好地適用于語言理解(如文本分類、自動問答)和語言生成(如文本摘要、問題生成)任務。
我們將語言模型預訓練目標分為三類。第一類依賴于自編碼語言建模(Autoencoding, AE)。例如在 BERT 中使用的掩碼語言建模(MLM)隨機的在文本序列中遮蓋一部分單詞,在 Transformer 的雙向編碼結果之上,對每個被遮蓋的單詞進行分別還原。第二類方法基于自回歸建模(Autoregressive, AR)。不同于 AE,目標單詞被依次預測,且依賴于先前的結果。第三類是我們提出的半自回歸語言建模(Partially Autoregressive, PAR),對短語級別進行依賴建模,從而避免了 AR可能帶來的過度局部依賴問題。
偽掩碼語言模型(PMLM)
在新提出的偽掩碼語言模型(PMLM)中,我們對 AE 以及 PAR 這兩個語言建模目標進行了融合。在共享模型參數的基礎上,盡可能對上下文的編碼結果進行了復用,以達到高效訓練的目的。通過構造合理的自注意力模型掩碼與位置編碼,PMLM 可以在一次計算中同時對兩種語言建模任務進行訓練,且無需進行上下文編碼的冗余計算。
在自動問答、復述判別、情感分類、文本摘要、問題生成等一系列任務上的測評,說明了這一方法的有效性。
由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。
這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度。
//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a
概述:
在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。
最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。
在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。
雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。