GPT-3: Few-Shot Learning with a Giant Language Model
最近的工作表明,通過對大量文本語料庫進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了實質性進展。雖然這種方法在架構中通常與任務無關,但它仍然需要成千上萬個樣例的特定于任務的微調數據集。相比之下,人類通常只通過幾個例子或簡單的指令就能完成一項新的語言任務——這是目前的NLP系統在很大程度上難以做到的。我將討論GPT-3,這是一種具有1750億個參數的自回歸語言模型,它演示了如何擴大語言模型可以極大地改善與任務無關的、少樣本的性能,有時甚至可以達到與先前的最先進的微調方法相媲美的競爭力。GPT-3可以應用于沒有任何漸變更新或微調的任務,與少數樣本演示指定純粹通過文本與模型的交互。我將概述GPT-3是什么以及它是如何工作的,討論我們從這樣一個系統中看到的功能,以及它們如何啟用與語言模型交互的新方式,此外還將關注這些交互帶來的局限性和更廣泛的問題。
//nlp.stanford.edu/seminar/details/melaniesubbiah.shtml
最近的GPT-3模型僅利用自然語言提示和一些任務演示作為輸入上下文,就實現了顯著的少樣本學習性能。受該工作的發現啟發,作者在一個更實際的場景中研究了少次學習,我們使用更小的語言模型,以便在微調時更具有計算效率。我們提出了LM-BFF——更好的面向語言模型的少樣本微調,這是一套簡單且互補的技術,用于在少量帶注釋的示例上微調語言模型。我們的方法包括:(1)基于提示的微調,以及一個自動化提示生成的新管道;(2)動態和有選擇地將演示整合到每個上下文中的精煉策略。最后,我們提出了一個系統的評價,以分析在一系列的自然語言處理任務的少數射擊性能,包括分類和回歸。我們的實驗表明,在這種低資源設置下,我們的方法結合起來顯著優于標準微調程序,實現了高達30%的絕對改進,在所有任務中平均達到11%。我們的方法對任務資源和領域專家知識做了最小的假設,因此構成了一個強大的任務不可知的方法,用于少樣本學習。
遷移學習從根本上改變了自然語言處理(NLP)的處理范式。許多最先進的模型首先在大型文本語料庫上進行預先訓練,然后在下游任務上進行微調。然而,當我們對下游任務的監督有限且薄弱時,由于預訓練模型的復雜度極高,過度微調往往會導致微調后的模型對下游任務的訓練數據進行過擬合,而不能泛化到看不到的數據。
為了解決這一問題,我們提出了一種新的方法來微調預先訓練的模型,以獲得更好的泛化性能。我們提出的方法采用了三個重要成分: (1)平滑誘導正則化,有效地管理了大量模型的復雜性; (2) Bregman近端點優化,它是信任域方法的一個實例,可以防止惡意更新;(3)自訓練,可以逐步改進模型擬合,有效抑制誤差傳播。我們的實驗表明,在有限或弱監督的情況下,該方法明顯優于現有的NLP任務。
因果學習
因果推理在許多領域都很重要,包括科學、決策制定和公共政策。確定因果關系的金標準方法使用隨機控制擾動實驗。然而,在許多情況下,這樣的實驗是昂貴的、耗時的或不可能的。從觀察數據中獲得因果信息是可替代的一種選擇,也就是說,從通過觀察感興趣系統獲得的數據中獲得而不使其受到干預。在這次演講中,我將討論從觀察數據中進行因果學習的方法,特別關注因果結構學習和變量選擇的結合,目的是估計因果效果。我們將用例子來說明這些概念。
對話人工智能系統通過完成用戶請求或進行簡單的聊天與人類用戶進行交互。這些系統的應用范圍從個人幫助、健康幫助到客戶服務等等。在這個由三部分組成的教程中,我們將首先概述最先進的模塊化對話AI方法,這些方法通常被面向任務的對話系統所采用。然后,我們將概述當前基于序列到序列、生成的對話AI方法。我們將討論普通的基于生成的模型的挑戰和缺點,如缺乏知識、一致性、同理心、可控性、多功能性等。然后我們將強調當前的工作,以解決這些挑戰,并在改進深度生成為基礎的ConvAI。在本教程的最后一部分,我們將指出對話AI的挑戰和未來研究的可能方向,包括如何減輕不適當的回復和終身學習。我們還將概述模塊化和基于生成的對話AI的共享任務和公開可用資源。
原型驅動的文本生成使用非參數模型,該模型首先從句子庫中選擇“原型”,然后修改原型生成輸出文本。這些方法雖然有效,但測試時效率低下,因為需要對整個訓練語料庫進行存儲和索引。此外,現有的方法通常需要啟發式來確定在訓練時引用哪個原型。在本文中,我們提出了一種新的生成模型,它可以自動學習稀疏原型支持集,同時也可以獲得較強的語言建模性能。通過(1)在原型選擇分布上施加稀疏誘導先驗,(2)利用平攤變分推理學習原型檢索函數來實現。在實驗中,我們的模型優于以前的原型驅動的語言模型,同時實現了高達1000倍的內存減少,以及測試時1000倍的加速。更有趣的是,當我們改變原型選擇的稀疏性時,我們展示了學習的原型能夠在不同的粒度捕獲語義和語法,并且可以通過指定生成的原型來控制某些句子屬性。
Unsupervised Machine Translation
雖然現代機器翻譯依賴于大量的平行語料庫,但最近的一項研究已經成功地在無監督的情況下訓練機器翻譯系統,僅使用單語語料庫。現有的方法大多依賴于跨語言單詞嵌入或深度多語言預訓練來進行初始化,并通過迭代反翻譯來進一步完善該系統。在這次演講中,我將對這一領域做一個概述,重點介紹我們自己在跨語言單詞嵌入映射以及無監督神經和統計機器翻譯方面的工作。
神經文本退化:一致性和學習
用最大似然估計訓練的神經序列模型已經成為建模和生成文本的標準方法。然而,最近的研究發現了這些模型的問題。在這次談話中,我們研究了在實踐中出現的最大似然學習的退化性質,激發了新的學習方法。我們使用在生成文本中觀察到的三個特性來描述簡并性:非終止性、邏輯不連貫性和重復性。為了研究非終止性,我們發展了一個理論,允許我們正式證明傳統的文本生成方法可以生成具有高概率的無限長序列。為了減少這三種類型的退化,我們開發了兩種學習算法:非似然訓練(懲罰特定任務的文本屬性)和最大似然引導參數搜索(直接優化序列級損失)。
OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter!史無前例!論文介紹了GPT-3這是一種由1750億個參數組成的最先進的語言模型。論文由32位作者72頁pdf。
最近的工作表明,通過對大量文本進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了巨大的進展。盡管這種方法在架構中通常與任務無關,但它仍然需要成千上萬個特定于任務的實例微調數據集。相比之下,人類通常只需要幾個例子或簡單的指令就可以完成一項新的語言任務——這是目前的NLP系統仍然難以做到的。在這里,我們展示了擴展語言模型極大地提高了任務無關性、低命中率的性能,有時甚至達到了與先前最先進的微調方法的匹配性能。具體來說,我們訓練了一個帶有1750億個參數的自回歸語言模型GPT-3,比以前任何非稀疏語言模型都多10倍,并在小樣本設置下測試了它的性能。對于所有任務,GPT-3的應用沒有任何梯度更新或微調,任務和小樣本演示指定純粹通過與模型的文本交互。GPT-3在許多NLP數據集上實現了強大的性能,包括翻譯、問答和完形填空任務,以及一些需要即時推理或領域適應的任務,如整理單詞、在句子中使用新單詞或執行3位算術。同時,我們還確定了一些數據集,其中GPT-3的小樣本學習仍然效果不佳,以及一些數據集,其中GPT-3面臨著與大型web語料庫上的訓練有關的方法問題。最后,我們發現GPT-3可以生成新聞文章的樣本,這些文章是人類評價者難以區分的。我們討論了這個發現和一般的GPT-3的更廣泛的社會影響。
GPT-3的主要目標是用更少的領域數據、且不經過精調步驟去解決問題。
為了達到上述目的,作者們用預訓練好的GPT-3探索了不同輸入形式下的推理效果。
這里的Zero-shot、One-shot、Few-shot都是完全不需要精調的,因為GPT-3是單向transformer,在預測新的token時會對之前的examples進行編碼。
作者們訓練了以下幾種尺寸的模型進行對比:
實驗證明Few-shot下GPT-3有很好的表現:
最重要的是,GPT-3在Few-shot設定下,在部分NLU任務上超越了當前Fine-tuning的SOTA。
借助現代的高容量模型,大數據已經推動了機器學習的許多領域的革命,但標準方法——從標簽中進行監督學習,或從獎勵功能中進行強化學習——已經成為瓶頸。即使數據非常豐富,獲得明確指定模型必須做什么的標簽或獎勵也常常是棘手的。收集簡單的類別標簽進行分類對于數百萬計的示例來說是不可能的,結構化輸出(場景解釋、交互、演示)要糟糕得多,尤其是當數據分布是非平穩的時候。
自監督學習是一個很有前途的替代方法,其中開發的代理任務允許模型和代理在沒有明確監督的情況下學習,這有助于對感興趣的任務的下游性能。自監督學習的主要好處之一是提高數據效率:用較少的標記數據或較少的環境步驟(在強化學習/機器人技術中)實現可比較或更好的性能。
自監督學習(self-supervised learning, SSL)領域正在迅速發展,這些方法的性能逐漸接近完全監督方法。
人類的視覺系統證明,用極少的樣本就可以學習新的類別;人類不需要一百萬個樣本就能學會區分野外的有毒蘑菇和可食用蘑菇。可以說,這種能力來自于看到了數百萬個其他類別,并將學習到的表現形式轉化為新的類別。本報告將正式介紹機器學習與熱力學之間的聯系,以描述遷移學習中學習表征的質量。我們將討論諸如速率、畸變和分類損失等信息理論泛函如何位于一個凸的,所謂的平衡曲面上。我們規定了在約束條件下穿越該表面的動態過程,例如,一個調制速率和失真以保持分類損失不變的等分類過程。我們將演示這些過程如何完全控制從源數據集到目標數據集的傳輸,并保證最終模型的性能。