在线点播亚洲日韩国产欧美-欧美日韩国产视频

機器之心報道

機器之心編輯部能容納 50 頁文檔的輸入框不夠用，那幾千頁呢？

一個多月前，OpenAI 的 GPT-4 問世。除了各種出色的直觀演示外，它還實現了一個重要更新：可以處理的上下文 token 長度默認為 8k，但最長可達 32K（大約 50 頁文本）。這意味著，在向 GPT-4 提問時，我們可以輸入比之前長得多的文本。這使得 GPT-4 的應用場景大大擴展，能更好地處理長對話、長文本以及文件搜索和分析。

不過，這一記錄很快就被打破了：來自谷歌研究院的 CoLT5 將模型可以處理的上下文 token 長度擴展到了 64k。

這樣的突破并不容易，因為這些使用 Transformer 架構的模型都要面臨一個問題：Transformer 處理長文檔在計算上是非常昂貴的，因為注意力成本隨輸入長度呈二次增長，這使得大型模型越來越難以應用于更長的輸入。

盡管如此，研究者依然在此方向上不斷突破。前幾天，一篇來自開源對話 AI 技術棧 DeepPavlov 等機構的研究表明：通過采用一種名為 Recurrent Memory Transformer（RMT）的架構，他們可以將 BERT 模型的有效上下文長度增加到 200 萬個 token（按照 OpenAI 的計算方式，大約相當于 3200 頁文本），同時保持了較高的記憶檢索準確性（注：Recurrent Memory Transformer 是 Aydar Bulatov 等人在 NeurIPS 2022 的一篇論文中提出的方法）。新方法允許存儲和處理局部和全局信息，并通過使用 recurrence 使信息在輸入序列的各 segment 之間流動。

作者表示，通過使用 Bulatov 等人在「Recurrent Memory Transformer」一文中介紹的簡單的基于 token 的記憶機制，他們可以將 RMT 與 BERT 這樣的預訓練 Transformer 模型結合起來，用一個 Nvidia GTX 1080Ti GPU 就可以對超過 100 萬個 token 的序列進行全注意和全精度操作。

論文地址：//arxiv.org/pdf/2304.11062.pdf

不過，也有人提醒說，這并不是真正的「免費的午餐」，上述論文的提升是用「更長的推理時間 + 實質性的質量下降」換來的。因此，它還不能算是一次變革，但它可能成為下一個范式（token 可能無限長）的基礎。

Recurrent Memory Transformer

該研究采用 Bulatov 等人 2022 年提出的方法 Recurrent Memory Transformer（RMT），并將其改成即插即用的方法，主要機制如下圖所示：

冗長的輸入被分成多個 segment，記憶向量（memory vector）被添加到第一個 segment 嵌入之前，并與 segment token 一起處理。對于像 BERT 這樣的純編碼器模型，記憶只在 segment 的開頭添加一次，這一點與 (Bulatov et al., 2022) 不同，純解碼器模型將記憶分為讀取和寫入兩部分。對于時間步長 τ 和 segment ，循環按照如下步驟執行：

其中，N 是 Transformer 的層數。前向傳播之后，包含 segment τ 的更新記憶 token。

輸入序列的 segment 按照順序處理。為了啟用循環連接，該研究將記憶 token 的輸出從當前 segment 傳遞到下一個 segment 的輸入：

RMT 中的記憶和循環都僅基于全局記憶 token。這允許主干 Transformer 保持不變，從而使 RMT 的記憶增強能力與任何 Transformer 模型都兼容。

計算效率

該研究估算了不同大小和序列長度的 RMT 和 Transformer 模型所需的 FLOP。

如下圖 3 所示，如果 segment 的長度固定，RMT 可針對任何模型大小進行線性擴展。該研究通過將輸入序列分成 segment，并僅在 segment 邊界內計算完整的注意力矩陣來實現線性擴展。

由于 FFN 層的計算量很大，較大的 Transformer 模型往往會表現出較慢的隨序列長度的二次擴展（quadratic scaling）。然而，對于大于 32000 的超長序列，它們會退回到二次擴展。對于多于一個 segment 的序列（本研究中 > 512），RMT 比非循環模型需要更少的 FLOP，并且可以將 FLOP 的數量減少多達 295 倍。RMT 為較小的模型提供了更大的 FLOP 相對減少，但在絕對數量上，OPT-175B 模型的 FLOP 減少了 29 倍是非常顯著的。

記憶任務

為了測試記憶能力，該研究構建了需要記憶簡單事實和基本推理的合成數據集。任務輸入由一個或多個事實和一個只有使用所有事實才能回答的問題組成。為了增加任務難度，該研究還添加了與問題或答案無關的自然語言文本來充當噪聲，因此模型的任務是將事實與不相關的文本分開，并使用事實來回答問題。

事實記憶

第一項任務是檢測 RMT 在記憶中長時間寫入和存儲信息的能力，如下圖 4 頂部所示。在最簡單的情況下，事實往往位于輸入開頭，而問題總是在末尾。問題和答案之間不相關文本的數量逐漸增加，以至于整個輸入不適合單個模型輸入。

事實檢測與記憶

事實檢測通過將一個事實移動到輸入中的隨機位置來增加任務難度，如上圖 4 中部所示。這需要模型首先將事實與不相關文本區分開來，把事實寫入記憶中，然后用它回答位于末尾的問題。

利用記憶事實進行推理

記憶的另一個操作是使用記憶事實和當前上下文進行推理。為了評估這一功能，研究者使用了一個更復雜的任務，其中生成了兩個事實并將它們放置在了輸入序列之中，如上圖 4 底部所示。在序列末尾提出的問題是以一種「必須使用任意事實來正確回答問題」的方式來描述。

實驗結果

研究者使用 4 到 8 塊英偉達 1080ti GPU 來訓練和評估模型。對于更長的序列，他們則使用單個 40GB 的英偉達 A100 來加快評估速度。

課程學習

研究者觀察到，使用訓練計劃能夠顯著提升解決方案的準確性和穩定性。最開始，RMT 在較短版本的任務上進行訓練，并在訓練收斂時通過添加另一個 segment 來增加任務長度。課程學習過程一直持續，直到達到所需的輸入長度。

在實驗中，研究者首先從適合單個 segment 的序列開始。實際 segment 的大小為 499，但由于 BERT 的 3 個特殊 token 和 10 個記憶占位符從模型輸入中保留下來，大小為 512。他們注意到，在較短任務上訓練后，RMT 更容易解決更長版本任務，這得益于它使用更少訓練步收斂到完美的解決方案。

外推能力

RMT 對不同序列長度的泛化能力如何呢？為了回答這個問題，研究者評估了在不同數量 segment 上訓練的模型，以解決更長的任務，具體如下圖 5 所示。

他們觀察到，模型往往在較短任務上表現更好，唯一的例外是單 segment 推理任務，一旦模型在更長序列上訓練，則該任務變得很難解決。一個可能的解釋是：由于任務大小超過了一個 segment，則模型不再「期待」第一個 segment 中的問題，導致質量下降。

有趣的是，RMT 泛化到更長序列的能力也隨著訓練 segment 的增加而出現。在 5 個或更多 segment 上訓練后，RMT 可以近乎完美地泛化到兩倍長的任務。

為了測試泛化的局限性，研究者將驗證任務大小增至 4096 個 segment 或 2,043,904 個 token（如上圖 1 所示），RMT 在如此長的序列上表現得出奇的好。檢測和記憶任務最簡單，推理任務最復雜。

記憶操作的注意力模式

在下圖 6 中，通過檢查特定 segment 上的 RMT 注意力，研究者觀察到了記憶操作對應特定的注意力模式。此外 5.2 節中極長序列上的高外推性能證明了學得記憶操作的有效性，即使使用數千次也是如此。

付費5元查看完整內容

相關內容

GPT-4

關注 29

北京時間2023年3月15日凌晨，ChatGPT開發商OpenAI 發布了發布了全新的多模態預訓練大模型 GPT-4，可以更可靠、更具創造力、能處理更細節的指令，根據圖片和文字提示都能生成相應內容。具體來說來說，GPT-4 相比上一代的模型，實現了飛躍式提升：支持圖像和文本輸入，擁有強大的識圖能力；大幅提升了文字輸入限制，在ChatGPT模式下，GPT-4可以處理超過2.5萬字的文本，可以處理一些更加細節的指令；回答準確性也得到了顯著提高。

ChatGPT · 大模型 · 人工智能 · 機器學習 ·

2023 年 4 月 26 日

[付費5元查看完整內容]【ChatGPT系列報告】AI大語言模型的原理、演進及算力測算

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

AI大語言模型的原理、演進及算力測算　　

機器學習中模型及數據規模增加有利于提高深度神經網絡性能。　　

人工智能致力于研究能夠模擬、延伸和擴展人類智能的理論方法及技術，并開發相關應用系統；其最終目標是使計算機能夠模擬人的思維方式和行為。機器學習是一門專門研究計算機如何模擬或實現人類的學習行為、以獲取新的知識或技能、重新組織已有的知識結構使之不斷改善自身性能的學科，廣泛應用于數據挖掘、計算機視覺、自然語言處理等領域。深度學習是機器學習的子集，主要由人工神經網絡組成。與傳統算法及中小型神經網絡相比，大規模的神經網絡及海量的數據支撐將有效提高深度神經網絡的表現性能。　　Transformer模型架構是現代大語言模型所采用的基礎架構。　

Transformer模型是一種非串行的神經網絡架構，最初被用于執行基于上下文的機器翻譯任務。Transformer模型以Encoder-Decoder架構為基礎，能夠并行處理整個文本序列，同時引入“注意機制”（Attention），使其能夠在文本序列中正向和反向地跟蹤單詞之間的關系，適合在大規模分布式集群中進行訓練，因此具有能夠并行運算、關注上下文信息、表達能力強等優勢。Transformer模型以詞嵌入向量疊加位置編碼作為輸入，使得輸入序列具有位置上的關聯信息。編碼器（Encoder）由Self-Attention（自注意力層）和FeedForwardNetwork（前饋網絡）兩個子層組成，Attention使得模型不僅關注當前位置的詞語，同時能夠關注上下文的詞語。解碼器（Decoder）通過Encoder-DecoderAttention層，用于解碼時對于輸入端編碼信息的關注；利用掩碼（Mask）機制，對序列中每一位置根據之前位置的輸出結果循環解碼得到當前位置的輸出結果。　　

AI大語言模型的原理、演進及算力測算　　

GPT是基于Transformer架構的大語言模型，近年迭代演進迅速。　　構建語言模型是自然語言處理中最基本和最重要的任務之一。GPT是基于Transformer架構衍生出的生成式預訓練的單向語言模型，通過對大量語料數據進行無監督學習，從而實現文本生成的目的；在結構上僅采用Transformer架構的Decoder部分。自2018年6月OpenAI發布GPT-1模型以來，GPT模型迭代演進迅速。GPT-1核心思想是采用“預訓練+微調”的半監督學習方法，服務于單序列文本的生成式任務；GPT-2在預訓練階段引入多任務學習機制，將多樣化的自然語言處理任務全部轉化為語言模型問題；GPT-3大幅增加了模型參數，更能有效利用上下文信息，性能得到跨越式提高；GPT-3.5引入人類反饋強化學習機制，通過使用人類反饋的數據集進行監督學習，能夠使得模型輸出與人類意圖一致。　　

大語言模型的訓練及推理應用對算力需求帶來急劇提升。　

以GPT-3為例，GPT-3參數量達1750億個，訓練樣本token數達3000億個。考慮采用精度為32位的單精度浮點數數據來訓練模型及進行谷歌級訪問量推理，假設GPT-3模型每次訓練時間要求在30天完成，對應GPT-3所需運算次數為3.1510^23FLOPs，所需算力為121.528PFLOPS，以A100PCle芯片為例，訓練階段需要新增A100GPU芯片1558顆，價值量約2337萬美元；對應DGXA100服務器195臺，價值量約3880.5萬美元。假設推理階段按谷歌每日搜索量35億次進行估計，則每日GPT-3需推理token數達7.9萬億個，所需運算次數為4.7610^24FLOPs，所需算力為55EFLOPs，則推理階段需要新增A100GPU芯片70.6萬顆，價值量約105.95億美元；對應DGXA100服務器8.8萬臺，價值量約175.12億美元。

付費5元查看完整內容

ChatGPT · 大型語言模型 · 人類反饋強化學習 (RLHF) ·

2023 年 2 月 21 日

[付費5元查看完整內容]ChatGPT 背后的“功臣”——RLHF 技術詳解

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮，它面對多種多樣的問題對答如流，似乎已經打破了機器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model，LLM) 生成領域的新訓練范式：RLHF (Reinforcement Learning from Human Feedback) ，即以強化學習方式依據人類反饋優化語言模型。

過去幾年里各種 LLM 根據人類輸入提示 (prompt) 生成多樣化文本的能力令人印象深刻。然而，對生成結果的評估是主觀和依賴上下文的，例如，我們希望模型生成一個有創意的故事、一段真實的信息性文本，或者是可執行的代碼片段，這些結果難以用現有的基于規則的文本生成指標 (如 BLUE 和 ROUGE) 來衡量。除了評估指標，現有的模型通常以預測下一個單詞的方式和簡單的損失函數 (如交叉熵) 來建模，沒有顯式地引入人的偏好和主觀意見。如果我們 用生成文本的人工反饋作為性能衡量標準，或者更進一步用該反饋作為損失來優化模型，那不是更好嗎？這就是 RLHF 的思想：使用強化學習的方式直接優化帶有人類反饋的語言模型。RLHF 使得在一般文本數據語料庫上訓練的語言模型能和復雜的人類價值觀對齊。看看 ChatGPT 是如何解釋 RLHF 的：

ChatGPT 解釋的很好，但還沒有完全講透；讓我們更具體一點吧！

RLHF 技術分解

RLHF 是一項涉及多個模型和不同訓練階段的復雜概念，這里我們按三個步驟分解：

預訓練一個語言模型 (LM) ；
聚合問答數據并訓練一個獎勵模型 (Reward Model，RM) ；
用強化學習 (RL) 方式微調 LM。

Step 1. 預訓練語言模型

首先，我們使用經典的預訓練目標訓練一個語言模型。對這一步的模型，OpenAI 在其第一個流行的 RLHF 模型 InstructGPT 中使用了較小版本的 GPT-3; Anthropic 使用了 1000 萬～ 520 億參數的 Transformer 模型進行訓練；DeepMind 使用了自家的 2800 億參數模型 Gopher。這里可以用額外的文本或者條件對這個 LM 進行微調，例如 OpenAI 對 “更可取” (preferable) 的人工生成文本進行了微調，而 Anthropic 按 “有用、誠實和無害” 的標準在上下文線索上蒸餾了原始的 LM。這里或許使用了昂貴的增強數據，但并不是 RLHF 必須的一步。由于 RLHF 還是一個尚待探索的領域，對于” 哪種模型” 適合作為 RLHF 的起點并沒有明確的答案。

接下來，我們會基于 LM 來生成訓練獎勵模型 (RM，也叫偏好模型) 的數據，并在這一步引入人類的偏好信息。

Step 2. 訓練獎勵模型

RM 的訓練是 RLHF 區別于舊范式的開端。這一模型接收一系列文本并返回一個標量獎勵，數值上對應人的偏好。我們可以用端到端的方式用 LM 建模，或者用模塊化的系統建模 (比如對輸出進行排名，再將排名轉換為獎勵) 。這一獎勵數值將對后續無縫接入現有的 RL 算法至關重要。關于模型選擇方面，RM 可以是另一個經過微調的 LM，也可以是根據偏好數據從頭開始訓練的 LM。例如 Anthropic 提出了一種特殊的預訓練方式，即用偏好模型預訓練 (Preference Model Pretraining，PMP) 來替換一般預訓練后的微調過程。因為前者被認為對樣本數據的利用率更高。但對于哪種 RM 更好尚無定論。關于訓練文本方面，RM 的提示 - 生成對文本是從預定義數據集中采樣生成的，并用初始的 LM 給這些提示生成文本。Anthropic 的數據主要是通過 Amazon Mechanical Turk 上的聊天工具生成的，并在 Hub 上可用 (//huggingface.co/datasets/Anthropic/hh-rlhf)，而 OpenAI 使用了用戶提交給 GPT API 的 prompt。關于訓練獎勵數值方面，這里需要人工對 LM 生成的回答進行排名。起初我們可能會認為應該直接對文本標注分數來訓練 RM，但是由于標注者的價值觀不同導致這些分數未經過校準并且充滿噪音。通過排名可以比較多個模型的輸出并構建更好的規范數據集。對具體的排名方式，一種成功的方式是對不同 LM 在相同提示下的輸出進行比較，然后使用 Elo 系統建立一個完整的排名。這些不同的排名結果將被歸一化為用于訓練的標量獎勵值。這個過程中一個有趣的產物是目前成功的 RLHF 系統使用了和生成模型具有不同大小的 LM (例如 OpenAI 使用了 175B 的 LM 和 6B 的 RM，Anthropic 使用的 LM 和 RM 從 10B 到 52B 大小不等，DeepMind 使用了 70B 的 Chinchilla 模型分別作為 LM 和 RM) 。一種直覺是，偏好模型和生成模型需要具有類似的能力來理解提供給它們的文本。

接下來是最后一步：利用 RM 輸出的獎勵，用強化學習方式微調優化 LM。

Step 3. 用強化學習微調

長期以來出于工程和算法原因，人們認為用強化學習訓練 LM 是不可能的。而目前多個組織找到的可行方案是使用策略梯度強化學習 (Policy Gradient RL) 算法、近端策略優化 (Proximal Policy Optimization，PPO) 微調初始 LM 的部分或全部參數。因為微調整個 10B～100B+ 參數的成本過高 (相關工作參考低秩適應 LoRA 和 DeepMind 的 Sparrow LM) 。PPO 算法已經存在了相對較長的時間，有大量關于其原理的指南，因而成為 RLHF 中的有利選擇。事實證明，RLHF 的許多核心 RL 進步一直在弄清楚如何將熟悉的 RL 算法應用到更新如此大的模型。讓我們首先將微調任務表述為 RL 問題。首先，該策略 (policy) 是一個接受提示并返回一系列文本 (或文本的概率分布) 的 LM。這個策略的行動空間 (action space) 是 LM 的詞表對應的所有詞元 (一般在 50k 數量級) ，觀察空間 (observation space) 是可能的輸入詞元序列，也比較大 (詞匯量 ^ 輸入標記的數量) 。獎勵函數是偏好模型和策略轉變約束 (Policy shift constraint) 的結合。 PPO 算法確定的獎勵函數具體計算如下：將提示輸入初始 LM 和當前微調的 LM，分別得到了輸出文本，將來自當前策略的文本傳遞給 RM 得到一個標量的獎勵。將兩個模型的生成文本進行比較計算差異的懲罰項，在來自 OpenAI、Anthropic 和 DeepMind 的多篇論文中設計為輸出詞分布序列之間的 Kullback–Leibler (KL) 散度的縮放，即。這一項被用于懲罰 RL 策略在每個訓練批次中生成大幅偏離初始模型，以確保模型輸出合理連貫的文本。如果去掉這一懲罰項可能導致模型在優化中生成亂碼文本來愚弄獎勵模型提供高獎勵值。此外，OpenAI 在 InstructGPT 上實驗了在 PPO 添加新的預訓練梯度，可以預見到獎勵函數的公式會隨著 RLHF 研究的進展而繼續進化。最后根據 PPO 算法，我們按當前批次數據的獎勵指標進行優化 (來自 PPO 算法 on-policy 的特性) 。PPO 算法是一種信賴域優化 (Trust Region Optimization，TRO) 算法，它使用梯度約束確保更新步驟不會破壞學習過程的穩定性。DeepMind 對 Gopher 使用了類似的獎勵設置，但是使用 A2C (synchronous advantage actor-critic) 算法來優化梯度。

作為一個可選項，RLHF 可以通過迭代 RM 和策略共同優化。隨著策略模型更新，用戶可以繼續將輸出和早期的輸出進行合并排名。Anthropic 在他們的論文中討論了迭代在線 RLHF，其中策略的迭代包含在跨模型的 Elo 排名系統中。這樣引入策略和 RM 演變的復雜動態，代表了一個復雜和開放的研究問題。

RLHF 的未來

盡管 RLHF 取得了一定的成果和關注，但依然存在局限。這些模型依然會毫無不確定性地輸出有害或者不真實的文本。這種不完美也是 RLHF 的長期挑戰和動力 —— 在人類的固有領域中運行意味著永遠不會到達一個完美的標準。收集人類偏好數據的質量和數量決定了 RLHF 系統性能的上限。RLHF 系統需要兩種人類偏好數據：人工生成的文本和對模型輸出的偏好標簽。生成高質量回答需要雇傭兼職人員 (而不能依賴產品用戶和眾包) 。另一方面，訓練 RM 需要的獎勵標簽規模大概是 50k 左右，所以并不那么昂貴 (當然遠超了學術實驗室的預算) 。目前相關的數據集只有一個基于通用 LM 的 RLHF 數據集 (來自 Anthropic) 和幾個較小的子任務數據集 (如來自 OpenAI 的摘要數據集) 。另一個挑戰來自標注者的偏見。幾個人類標注者可能有不同意見，導致了訓練數據存在一些潛在差異。除開數據方面的限制，一些有待開發的設計選項可以讓 RLHF 取得長足進步。例如對 RL 優化器的改進方面，PPO 是一種較舊的算法，但目前沒有什么結構性原因讓其他算法可以在現有 RLHF 工作中更具有優勢。另外，微調 LM 策略的一大成本是策略生成的文本都需要在 RM 上進行評估，通過離線 RL 優化策略可以節約這些大模型 RM 的預測成本。最近，出現了新的 RL 算法如隱式語言 Q 學習 (Implicit Language Q-Learning，ILQL) 也適用于當前 RL 的優化。在 RL 訓練過程的其他核心權衡，例如探索和開發 (exploration-exploitation) 的平衡也有待嘗試和記錄。探索這些方向至少能加深我們對 RLHF 的理解，更進一步提升系統的表現。

參考資料

首先介紹一些相關的開源工作：關于 RLHF 的第一個項目，來自 OpenAI: PyTorch 的 repo： *

此外，Huggingface Hub 上有一個由 Anthropic 創建的大型數據集: 相關論文包括在現有 LM 前的 RLHF 進展和基于當前 LM 的 RLHF 工作：

TAMER: Training an Agent Manually via Evaluative Reinforcement (Knox and Stone 2008)
Interactive Learning from Policy-Dependent Human Feedback (MacGlashan et al. 2017)
Deep Reinforcement Learning from Human Preferences (Christiano et al. 2017)
Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces (Warnell et al. 2018)
Fine-Tuning Language Models from Human Preferences (Zieglar et al. 2019)
Learning to summarize with human feedback (Stiennon et al., 2020)
Recursively Summarizing Books with Human Feedback (OpenAI Alignment Team 2021)
WebGPT: Browser-assisted question-answering with human feedback (OpenAI, 2021)
InstructGPT: Training language models to follow instructions with human feedback (OpenAI Alignment Team 2022)
GopherCite: Teaching language models to support answers with verified quotes (Menick et al. 2022)
Sparrow: Improving alignment of dialogue agents via targeted human judgements (Glaese et al. 2022)
ChatGPT: Optimizing Language Models for Dialogue (OpenAI 2022)
Scaling Laws for Reward Model Overoptimization (Gao et al. 2022)
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic, 2022)
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (Ganguli et al. 2022)
Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning (Cohen at al. 2022)
Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization (Ramamurthy and Ammanabrolu et al. 2022)

本文翻譯自 Hugging Face 官方博客 () 參考資料部分鏈接請點擊閱讀原文到博客上查看。你也可以查看我們的直播活動回放了解更多: 本文譯者: 李濼秋，浙江大學計算機科學碩士，主要研究 NLP 領域。我們正在招募更多翻譯志愿者幫助我們擴充官方公眾號內容，如果你感興趣，歡迎通過文章下方的留言功能介紹自己，并留下聯系方式。謝謝！

付費5元查看完整內容

預訓練語言模型 · GPT3 · OpenAI ·

2020 年 5 月 30 日

[付費5元查看完整內容]1750億參數！GPT-3來了！31位作者，OpenAI發布小樣本學習器語言模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter！史無前例！論文介紹了GPT-3這是一種由1750億個參數組成的最先進的語言模型。論文由32位作者72頁pdf。

最近的工作表明，通過對大量文本進行預訓練，然后對特定任務進行微調，在許多NLP任務和基準測試方面取得了巨大的進展。盡管這種方法在架構中通常與任務無關，但它仍然需要成千上萬個特定于任務的實例微調數據集。相比之下，人類通常只需要幾個例子或簡單的指令就可以完成一項新的語言任務——這是目前的NLP系統仍然難以做到的。在這里，我們展示了擴展語言模型極大地提高了任務無關性、低命中率的性能，有時甚至達到了與先前最先進的微調方法的匹配性能。具體來說，我們訓練了一個帶有1750億個參數的自回歸語言模型GPT-3，比以前任何非稀疏語言模型都多10倍，并在小樣本設置下測試了它的性能。對于所有任務，GPT-3的應用沒有任何梯度更新或微調，任務和小樣本演示指定純粹通過與模型的文本交互。GPT-3在許多NLP數據集上實現了強大的性能，包括翻譯、問答和完形填空任務，以及一些需要即時推理或領域適應的任務，如整理單詞、在句子中使用新單詞或執行3位算術。同時，我們還確定了一些數據集，其中GPT-3的小樣本學習仍然效果不佳，以及一些數據集，其中GPT-3面臨著與大型web語料庫上的訓練有關的方法問題。最后，我們發現GPT-3可以生成新聞文章的樣本，這些文章是人類評價者難以區分的。我們討論了這個發現和一般的GPT-3的更廣泛的社會影響。