OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮，它面對多種多樣的問題對答如流，似乎已經打破了機器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model，LLM) 生成領域的新訓練范式：RLHF (Reinforcement Learning from Human Feedback) ，即以強化學習方式依據人類反饋優化語言模型。

過去幾年里各種 LLM 根據人類輸入提示 (prompt) 生成多樣化文本的能力令人印象深刻。然而，對生成結果的評估是主觀和依賴上下文的，例如，我們希望模型生成一個有創意的故事、一段真實的信息性文本，或者是可執行的代碼片段，這些結果難以用現有的基于規則的文本生成指標 (如 BLUE 和 ROUGE) 來衡量。除了評估指標，現有的模型通常以預測下一個單詞的方式和簡單的損失函數 (如交叉熵) 來建模，沒有顯式地引入人的偏好和主觀意見。如果我們 用生成文本的人工反饋作為性能衡量標準，或者更進一步用該反饋作為損失來優化模型，那不是更好嗎？這就是 RLHF 的思想：使用強化學習的方式直接優化帶有人類反饋的語言模型。RLHF 使得在一般文本數據語料庫上訓練的語言模型能和復雜的人類價值觀對齊。看看 ChatGPT 是如何解釋 RLHF 的：

ChatGPT 解釋的很好，但還沒有完全講透；讓我們更具體一點吧！

RLHF 技術分解

RLHF 是一項涉及多個模型和不同訓練階段的復雜概念，這里我們按三個步驟分解：

預訓練一個語言模型 (LM) ；
聚合問答數據并訓練一個獎勵模型 (Reward Model，RM) ；
用強化學習 (RL) 方式微調 LM。

Step 1. 預訓練語言模型

首先，我們使用經典的預訓練目標訓練一個語言模型。對這一步的模型，OpenAI 在其第一個流行的 RLHF 模型 InstructGPT 中使用了較小版本的 GPT-3; Anthropic 使用了 1000 萬～ 520 億參數的 Transformer 模型進行訓練；DeepMind 使用了自家的 2800 億參數模型 Gopher。這里可以用額外的文本或者條件對這個 LM 進行微調，例如 OpenAI 對 “更可取” (preferable) 的人工生成文本進行了微調，而 Anthropic 按 “有用、誠實和無害” 的標準在上下文線索上蒸餾了原始的 LM。這里或許使用了昂貴的增強數據，但并不是 RLHF 必須的一步。由于 RLHF 還是一個尚待探索的領域，對于” 哪種模型” 適合作為 RLHF 的起點并沒有明確的答案。

接下來，我們會基于 LM 來生成訓練獎勵模型 (RM，也叫偏好模型) 的數據，并在這一步引入人類的偏好信息。

Step 2. 訓練獎勵模型

RM 的訓練是 RLHF 區別于舊范式的開端。這一模型接收一系列文本并返回一個標量獎勵，數值上對應人的偏好。我們可以用端到端的方式用 LM 建模，或者用模塊化的系統建模 (比如對輸出進行排名，再將排名轉換為獎勵) 。這一獎勵數值將對后續無縫接入現有的 RL 算法至關重要。關于模型選擇方面，RM 可以是另一個經過微調的 LM，也可以是根據偏好數據從頭開始訓練的 LM。例如 Anthropic 提出了一種特殊的預訓練方式，即用偏好模型預訓練 (Preference Model Pretraining，PMP) 來替換一般預訓練后的微調過程。因為前者被認為對樣本數據的利用率更高。但對于哪種 RM 更好尚無定論。關于訓練文本方面，RM 的提示 - 生成對文本是從預定義數據集中采樣生成的，并用初始的 LM 給這些提示生成文本。Anthropic 的數據主要是通過 Amazon Mechanical Turk 上的聊天工具生成的，并在 Hub 上可用 (//huggingface.co/datasets/Anthropic/hh-rlhf)，而 OpenAI 使用了用戶提交給 GPT API 的 prompt。關于訓練獎勵數值方面，這里需要人工對 LM 生成的回答進行排名。起初我們可能會認為應該直接對文本標注分數來訓練 RM，但是由于標注者的價值觀不同導致這些分數未經過校準并且充滿噪音。通過排名可以比較多個模型的輸出并構建更好的規范數據集。對具體的排名方式，一種成功的方式是對不同 LM 在相同提示下的輸出進行比較，然后使用 Elo 系統建立一個完整的排名。這些不同的排名結果將被歸一化為用于訓練的標量獎勵值。這個過程中一個有趣的產物是目前成功的 RLHF 系統使用了和生成模型具有不同大小的 LM (例如 OpenAI 使用了 175B 的 LM 和 6B 的 RM，Anthropic 使用的 LM 和 RM 從 10B 到 52B 大小不等，DeepMind 使用了 70B 的 Chinchilla 模型分別作為 LM 和 RM) 。一種直覺是，偏好模型和生成模型需要具有類似的能力來理解提供給它們的文本。

接下來是最后一步：利用 RM 輸出的獎勵，用強化學習方式微調優化 LM。

Step 3. 用強化學習微調

長期以來出于工程和算法原因，人們認為用強化學習訓練 LM 是不可能的。而目前多個組織找到的可行方案是使用策略梯度強化學習 (Policy Gradient RL) 算法、近端策略優化 (Proximal Policy Optimization，PPO) 微調初始 LM 的部分或全部參數。因為微調整個 10B～100B+ 參數的成本過高 (相關工作參考低秩適應 LoRA 和 DeepMind 的 Sparrow LM) 。PPO 算法已經存在了相對較長的時間，有大量關于其原理的指南，因而成為 RLHF 中的有利選擇。事實證明，RLHF 的許多核心 RL 進步一直在弄清楚如何將熟悉的 RL 算法應用到更新如此大的模型。讓我們首先將微調任務表述為 RL 問題。首先，該策略 (policy) 是一個接受提示并返回一系列文本 (或文本的概率分布) 的 LM。這個策略的行動空間 (action space) 是 LM 的詞表對應的所有詞元 (一般在 50k 數量級) ，觀察空間 (observation space) 是可能的輸入詞元序列，也比較大 (詞匯量 ^ 輸入標記的數量) 。獎勵函數是偏好模型和策略轉變約束 (Policy shift constraint) 的結合。 PPO 算法確定的獎勵函數具體計算如下：將提示輸入初始 LM 和當前微調的 LM，分別得到了輸出文本，將來自當前策略的文本傳遞給 RM 得到一個標量的獎勵。將兩個模型的生成文本進行比較計算差異的懲罰項，在來自 OpenAI、Anthropic 和 DeepMind 的多篇論文中設計為輸出詞分布序列之間的 Kullback–Leibler (KL) 散度的縮放，即。這一項被用于懲罰 RL 策略在每個訓練批次中生成大幅偏離初始模型，以確保模型輸出合理連貫的文本。如果去掉這一懲罰項可能導致模型在優化中生成亂碼文本來愚弄獎勵模型提供高獎勵值。此外，OpenAI 在 InstructGPT 上實驗了在 PPO 添加新的預訓練梯度，可以預見到獎勵函數的公式會隨著 RLHF 研究的進展而繼續進化。最后根據 PPO 算法，我們按當前批次數據的獎勵指標進行優化 (來自 PPO 算法 on-policy 的特性) 。PPO 算法是一種信賴域優化 (Trust Region Optimization，TRO) 算法，它使用梯度約束確保更新步驟不會破壞學習過程的穩定性。DeepMind 對 Gopher 使用了類似的獎勵設置，但是使用 A2C (synchronous advantage actor-critic) 算法來優化梯度。

作為一個可選項，RLHF 可以通過迭代 RM 和策略共同優化。隨著策略模型更新，用戶可以繼續將輸出和早期的輸出進行合并排名。Anthropic 在他們的論文中討論了迭代在線 RLHF，其中策略的迭代包含在跨模型的 Elo 排名系統中。這樣引入策略和 RM 演變的復雜動態，代表了一個復雜和開放的研究問題。

RLHF 的未來

盡管 RLHF 取得了一定的成果和關注，但依然存在局限。這些模型依然會毫無不確定性地輸出有害或者不真實的文本。這種不完美也是 RLHF 的長期挑戰和動力 —— 在人類的固有領域中運行意味著永遠不會到達一個完美的標準。收集人類偏好數據的質量和數量決定了 RLHF 系統性能的上限。RLHF 系統需要兩種人類偏好數據：人工生成的文本和對模型輸出的偏好標簽。生成高質量回答需要雇傭兼職人員 (而不能依賴產品用戶和眾包) 。另一方面，訓練 RM 需要的獎勵標簽規模大概是 50k 左右，所以并不那么昂貴 (當然遠超了學術實驗室的預算) 。目前相關的數據集只有一個基于通用 LM 的 RLHF 數據集 (來自 Anthropic) 和幾個較小的子任務數據集 (如來自 OpenAI 的摘要數據集) 。另一個挑戰來自標注者的偏見。幾個人類標注者可能有不同意見，導致了訓練數據存在一些潛在差異。除開數據方面的限制，一些有待開發的設計選項可以讓 RLHF 取得長足進步。例如對 RL 優化器的改進方面，PPO 是一種較舊的算法，但目前沒有什么結構性原因讓其他算法可以在現有 RLHF 工作中更具有優勢。另外，微調 LM 策略的一大成本是策略生成的文本都需要在 RM 上進行評估，通過離線 RL 優化策略可以節約這些大模型 RM 的預測成本。最近，出現了新的 RL 算法如隱式語言 Q 學習 (Implicit Language Q-Learning，ILQL) 也適用于當前 RL 的優化。在 RL 訓練過程的其他核心權衡，例如探索和開發 (exploration-exploitation) 的平衡也有待嘗試和記錄。探索這些方向至少能加深我們對 RLHF 的理解，更進一步提升系統的表現。

參考資料

首先介紹一些相關的開源工作：關于 RLHF 的第一個項目，來自 OpenAI: PyTorch 的 repo： *

此外，Huggingface Hub 上有一個由 Anthropic 創建的大型數據集: 相關論文包括在現有 LM 前的 RLHF 進展和基于當前 LM 的 RLHF 工作：

TAMER: Training an Agent Manually via Evaluative Reinforcement (Knox and Stone 2008)
Interactive Learning from Policy-Dependent Human Feedback (MacGlashan et al. 2017)
Deep Reinforcement Learning from Human Preferences (Christiano et al. 2017)
Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces (Warnell et al. 2018)
Fine-Tuning Language Models from Human Preferences (Zieglar et al. 2019)
Learning to summarize with human feedback (Stiennon et al., 2020)
Recursively Summarizing Books with Human Feedback (OpenAI Alignment Team 2021)
WebGPT: Browser-assisted question-answering with human feedback (OpenAI, 2021)
InstructGPT: Training language models to follow instructions with human feedback (OpenAI Alignment Team 2022)
GopherCite: Teaching language models to support answers with verified quotes (Menick et al. 2022)
Sparrow: Improving alignment of dialogue agents via targeted human judgements (Glaese et al. 2022)
ChatGPT: Optimizing Language Models for Dialogue (OpenAI 2022)
Scaling Laws for Reward Model Overoptimization (Gao et al. 2022)
Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback (Anthropic, 2022)
Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned (Ganguli et al. 2022)
Dynamic Planning in Open-Ended Dialogue using Reinforcement Learning (Cohen at al. 2022)
Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization (Ramamurthy and Ammanabrolu et al. 2022)

本文翻譯自 Hugging Face 官方博客 () 參考資料部分鏈接請點擊閱讀原文到博客上查看。你也可以查看我們的直播活動回放了解更多: 本文譯者: 李濼秋，浙江大學計算機科學碩士，主要研究 NLP 領域。我們正在招募更多翻譯志愿者幫助我們擴充官方公眾號內容，如果你感興趣，歡迎通過文章下方的留言功能介紹自己，并留下聯系方式。謝謝！

付費5元查看完整內容

The Art of Asking ChatGPT 提問的藝術—讓ChatGPT給出高質量答案

ChatGPT回答的質量如何全靠Prompt輸入了，雖然GPT-3.5和GPT-4展現出來的能力差別很大，但是就輸入端講，你描述的越清晰，給AI的指令越準確，他提供的回答質量就越高，才有可能超越人類的生成質量，我常用的幾個技巧如下

Prompt需要包含完整的信息，并且盡量不要包含容易混淆的信息，這對輸出會產生干擾
告訴他做什么不要做什么，這個是在幫助AI限定生成內容的范圍，不僅可以提高內容質量，也有助于提升生成速度
給定AI一個角色，在專業場景下適用這種方法，給出他一些角色的提示，比如電影評論家、作者、面試官、代碼專家等等
要求Prompt給出推理過程，尤其在做邏輯題和數學相關題目的時候，比較實用
問題中加上例子，一般在難以描述清楚需求時可以用這種方式

Prompt的技巧非常多，如果你懶得記，也有一個經過實踐的萬能公式

Instruction（必須）： 指令，即你希望模型執行的具體任務。 Context（選填）： 背景信息，或者說是上下文信息，這可以引導模型做出更好的反應。 Input Data（選填）： 輸入數據，告知模型需要處理的數據。 Output Indicator（選填）： 輸出指示器，告知模型我們要輸出的類型或格式。

只要你按照這個框架寫 prompt ，模型返回的結果都不會差。當然，你在寫 prompt 的時候，并不一定要包含所有4個元素，而是可以根據自己的需求排列組合。

付費5元查看完整內容

ChatGPT ·

2023 年 4 月 9 日

[付費5元查看完整內容]揭秘ChatGPT情感對話能力

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

原創作者：趙偉翔，趙妍妍，陸鑫，王世龍，童彥澎，秦兵

轉載須標注出處：哈工大SCIR引言

情感對話技術旨在賦予對話機器人類似人類的情感，使它們具備識別、理解和表達情感的能力，從而為用戶提供更為人性化和多樣化的回復。讓計算機具備“情商”可以說是人工智能領域的更高追求。人工智能之父馬文·明斯基（Marvin Minsky）在其著作《情感機器》[1]中指出：“只具備智力而無情感的人工智能，并非真正的智能。這表明對話機器人不僅需要“智商”，還要具備“情商”。因此，研發具備情感功能的對話機器人成為學術界和產業界共同關注的課題。近年來，產業界的許多對話機器人產品都增加了情感功能，以提高產品的趣味性和人性化，例如微軟的小冰、小黃雞聊天機器人等。情感對話技術成為了提升這些應用產品（如閑聊機器人[2]、智能客服[3]、語音助手[4]等）性能的核心技術。通過在這些產品中加入情感對話技術，可以使得機器人更好地理解用戶的需求和情感，從而提供更為貼近用戶心理的服務。隨著ChatGPT[5]的問世，對話機器人領域迎來了革新。作為一款先進的大型語言模型，ChatGPT為對話機器人帶來了更為豐富且精確的語義理解和回復生成能力，極大地提升了與人類用戶的交互體驗。考慮到ChatGPT在基本對話技術方面的重要突破，以及近期研究分析了其在各項傳統自然語言處理任務中的表現[6, 7]，我們對ChatGPT在情感對話技術發展方面的影響產生了興趣。因此，在本文中，我們將探討ChatGPT在情感對話領域的多個任務上的性能表現，分析其優缺點，并思考情感對話領域未來的研究方向。

任務設置

我們將從情感對話理解和生成能力這兩個維度出發，對ChatGPT在其下各個主流任務的性能表現進行比較和分析。評測方法對于各個任務上的SOTA模型，我們直接引用了其原論文的實驗結果，而ChatGPT的性能測試則全部使用OpenAI開放API的"gpt-3.5-turbo"模型（截止至3.8日的模型版本）。我們測試了ChatGPT在各個任務上零式學習(Zero-shot Learing)和上下文學習(In-context Learning)的表現。

評測詳情

對話情緒識別

任務定義

對話情緒識別是一個分類任務，旨在對一段對話中的話語進行情緒分類。任務的輸入是一段連續的對話，輸出是這段對話中所有話語的情緒，圖1給出了一個簡單的示例。對話中的話語情緒識別并不簡單等同于單個句子的情緒識別，需要綜合考慮對話中的背景、上下文、說話人等信息。對話情緒識別可廣泛應用于各種對話場景中，如社交媒體中評論的情感分析、人工客服中客戶的情緒分析等。此外，對話情緒識別還可應用于聊天機器人中，實時分析用戶的情緒狀態，實現基于用戶情感驅動的回復生成。

圖1. 對話情緒識別示例[8]

數據集介紹

IEMOCAP

[9]南加州大學SAIL實驗室收集，由人扮演的雙人對話，12小時的多模態視聽數據。10個專業演員（5男5女），一共分為5個Session，每個Session分配1男1女。對話分為兩部分，一部分是固定的劇本，另一部分是給定主題情景下的自由發揮。151段對話，共7433句。標注了6類情緒：Neutral, Happiness, Sadness, Anger, Frustrated, Excited，非中性情緒占比77%。IEMOCAP是對話情緒識別中常用的數據集之一，質量較高，優點是有多模態信息，缺點是數據規模較小。本次測試僅使用其文本模態數據。數據集鏈接：//sail.usc.edu/iemocap/MELD[10]來源于老友記，多人對話形式，是EmotionLines[11]老友記部分的多模態擴充（文本+視頻）。1432段對話，共13708句。標注了7類情緒：Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear和3類情感：Positive, Negative, Neutral，非中性情緒占比53%。MELD是對話情緒識別中常用的數據集之一，優點是數據集質量較高，缺點是數據集中的對話涉及到的劇情背景太多，情緒識別難度很大。本次測試僅使用其文本模態數據。數據集鏈接：EmoryNLP[12]來源于老友記，多人對話形式。897段對話，共12606句。標注了7類情緒：Sad, Mad, Scared, Powerful, Peaceful, Joyful, Neutral，非中性情緒占比70%。EmoryNLP是對話情緒識別中常用的數據集之一，由于和MELD來源相同，故優缺點與MELD數據集類似。數據集鏈接：DailyDialog[13]高質量多輪對話數據集，純文本，噪聲小，對話反映不同主題的日常生活，無固定說話人。數據集除了7類情緒標注，還有10類主題標注以及4類對話行為標注。13118段對話，共102979句。標注了7類情緒：Neutral, Happiness, Surprise, Sadness, Anger, Disgust, Fear，非中性情緒占比16.8%。DailyDialog是對話情緒識別中常用的數據集之一，優點是數據規模較大，缺點是中性情緒占比過高。數據集鏈接：評價指標介紹對于IEMOCAP、MELD和EmoryNLP數據集，目前大部分論文使用Weighted-F1指標進行評價；對于DailyDialog數據集，由于其中性占比實在太高，目前大部分論文都使用不考慮中性類別的Micro-F1指標進行評價。

主實驗結果

下面是主實驗結果，從中可以看出ChatGPT相比于最先進的微調模型普遍還有10—20百分點的性能差距。模型IEMOCAPMELDEmoryNLPDailyDialogCoMPM[14] (NAACL 2022)69.4666.5238.9360.34SPCL[15] (EMNLP 2022)69.7467.2540.94—ChatGPT, 0-shot44.9757.3037.4740.66ChatGPT, 1-shot47.4658.6335.6042.00ChatGPT, 3-shot48.5858.3535.9242.39

案例展示

下面是從DailyDialogue數據集中找到的一段對話數據，模擬了醫生和病人的對話場景，我們將其翻譯成中文展示。說話人對話內容數據集標注ChatGPT預測A早上好。你怎么了？中性中性B早上好，醫生。我頭疼得厲害。中性難過A好的，年輕人。告訴我它是怎么開始的。中性中性B昨天我流鼻涕，現在我鼻塞了，喉嚨痛，恐怕我發燒了。我感覺很糟糕。中性難過A別擔心，年輕人。讓我給你做個檢查。首先讓我看看你的喉嚨。張開嘴說“啊”。中性中性B啊。中性中性A你的喉嚨發炎了。你的舌頭上有厚厚的舌苔。你有流感的癥狀。中性恐懼B那我該怎么辦？中性恐懼A你只需要好好休息，多喝水。我給你開藥方。中性積極B非常感謝。中性積極

分析與討論

案例展示部分中，我們將數據集可能的標注錯誤用紅色字體展示，將ChatGPT扭轉了標注錯誤用綠色字體展示；另外ChatGPT預測結果中還有黃色字體的標簽，這是我們額外發現的問題：ChatGPT與數據集規范不匹配問題。從這部分實際預測樣例看，ChatGPT做不好的最大問題是它的標準與數據集的標準有偏差。數據集標注時可能按一種標注規范來確定什么情況是什么情緒，而ChatGPT自己有一套理解和規范。具體來說，在上面醫生和病人的對話中，病人在描述自己頭疼癥狀時，數據集標注的是中性，而ChatGPT則認為這是難過，這個不能說是誰對誰錯，而是兩者認識的標準不同。更進一步討論，這種標準的不匹配可能并不是ChatGPT能力的問題，而是Few-Shot設定的問題。因為當標注規范細致繁瑣到一定程度后，就已經不可能僅由幾個示例覆蓋了，這是Few-shot天然所不能做好的事情。基于此可對未來方向有所推測：如果是不追求與特定規范嚴格對齊的場景，那么基于ChatGPT等Few-Shot設定下的改進是可行的，但是使用數據集標簽評價是不合適的，可能需要廣泛的人工評價；如果是追求與特定規范嚴格對齊的場景，Few-Shot設定可能并不是一個好的選擇，有監督微調模型仍然是更好的方案。

對話情緒原因識別

任務定義

對話情緒原因識別，旨在找出一段對話中，引起目標句情緒的原因。任務的輸入是一段連續的對話和目標句，輸出引發目標句情緒的原因。在這里，情緒原因有兩種存在形式，分別為句子級情緒原因和詞組級情緒原因，圖2給出了一個簡單的示例。這本次測試中，我們僅關注在對句子級情緒原因的識別。

圖2 對話情緒原因識別示例

數據集介紹

我們在基準數據集RECCON-DD[16]上進行了實驗。它是在對話情緒識別數據集DailyDialog[13]的基礎上，進行情緒原因的標注。我們只考慮存在于對話上文中的情緒原因，并且重復的因果語句被刪除。數據集鏈接：評價指標介紹我們分別對負例和正例因果對計算F1值，以及計算二者的macro-F1值。

主實驗結果

模型Neg. F1Pos. F1Macro F1KBCIN[17] (AAAI 2023)89.6568.5979.12ChatGPT 0-shot85.2551.3368.29ChatGPT 1-shot82.1052.8467.47

分析與討論

對于 ChatGPT 的錯誤案例分析，可以發現其在 Pos. F1 上的性能與 SOTA 存在較大差距的原因在于數據集中有大量情緒原因樣本存在于目標句本身。ChatGPT 未能對這種樣例進行正確的預測，而更偏向于從對話上文中尋找原因語句。這一現象與上述對話情緒識別的分析是相符的。ChatGPT 的性能不佳的最大問題在于其預測標準與數據集的標注標準存在很大偏差。在給定一個示例后，ChatGPT 的性能下降進一步表明，對于情緒原因這類標注規范較為復雜的任務，充分發揮 ChatGPT 性能的關鍵是使其能夠深刻理解數據集構建時的規范，從而沖破其自身的語言模型先驗，以獲得更符合下游測試數據的性能表現。

對話動作識別

任務定義

為對話中的每一個輪次，都進行一次對話動作的分類，是一個四分類任務，我們認為每一個輪次都完成了一個對話動作，動作標簽集合：{告知（inform）, 提問（question）, 指示（directive）, 承諾（commissive）}，對話動作的理解能力是對話情感理解能力的一個重要組成部分。

數據集介紹

采用DailyDialog[13]作為實驗數據集，相關介紹同對話情緒識別。評價指標介紹分類任務多采用weighted-F1與macro-F1作為評測指標，本任務中，ChatGPT會給出四分類以外的無意義標簽，嚴重拉低宏平均值，故采用加權平均f1值作為評價指標。

主實驗結果

ModelAccweighted-F1Co-GAT-0.79ChatGPT, oneshot0.670.65ChatGPT, oneshot+prompt-engineering0.710.70ChatGPT, fewshot0.730.71ChatGPT, fewshot+prompt-engineering0.730.72

案例展示

下面是測試數據集中的一個數據實例，對話翻譯成中文展示如下。說話人話語ChatGPT預測標簽真實標簽A我們什么時候才能盼到你來吃晚餐？今天能來嗎？提問指示B不行。我答應和我的妹妹去聽音樂會了。告知承諾A好吧...那周日怎么樣？提問指示B那聽起來不錯。承諾承諾分析與討論ChatGPT對于指示、承諾這兩類標簽的理解能力較差，經常將提問與指示，告知與承諾混淆，正如案例所示。這是兩個難以區分的標簽，如果沒有明顯的定義區別，它們之間會有語義上的重疊：“今天能來嗎”是一種引導性的問句，“我答應和我妹妹去音樂會了”是一種承諾性的告知。這不能說明ChatGPT的對話動作理解能力差，仍表現出ChatGPT的標簽體系與數據集的標簽體系存在差異。若在提示詞中加入詳細的標簽解釋（提示詞工程），評價指標會有明顯提升。從實驗結果可以觀察到：在本任務上，few-shot是一種對于ChatGPT最高效的提示詞增強方式，無需復雜的提示詞工程（本實驗是對commissive和directive標簽做了詳細解釋，具體見

任務提示模板

節），也能使得評價指標得到可觀的提升。本實驗的設定few-shot為3個樣本，提示詞工程也是簡單地進行設計，我們有理由相信，在精細挑選更多示例，以及更精細化地做提示詞工程，能進一步降低ChatGPT理解的標簽體系與數據集原始標簽體系的差異，從而進一步提升ChatGPT在該任務的上限，但與上述兩個任務中提及的觀點相似，這種追求與數據集標簽體系對齊的評價體系仍然值得思考。共情回復生成****任務定義給定對話歷史，模型將扮演傾聽者的角色，設身處地理解用戶處境，生成感同身受的共情回復。數據集介紹EmpatheticDialogues[19]：一個大規模的多輪雙人共情對話數據集，包含了眾包收集的24850段共情對話，并為每個對話提供了一個情緒標簽（一共有32種分布均勻的情緒）。

數據集鏈接：評價指標介紹自動評價指標：?Bleu-n (B-1, B-2, B-3, B-4)[20]，Rouge-L (R-L)[21]：評估生成回復與參考回復的相似程度。?**Distinct-n **(D-1, D-2, D-3)[22]：評估生成回復的多樣性。人工評價指標：我們采取了基于屬性的成對人工偏好評價方式。具體來說，100對分別由DialoGPT和ChatGPT生成的回復語句被隨機選取出來，2位志愿者依據以下三個方面挑選出哪一句回復更好：?流暢度：評價哪一條回復更流暢，與對話歷史更相關。?共情能力：評價哪一條回復更共情，展現出對于用戶狀態和處境更好的理解。?信息量：評價哪一條回復展現出與對話歷史相關的更多信息。

主實驗結果

人工評價結果

WinLossTieEmpSOA [24] v.s ChatGPT流暢度844.547.5共情能力1053.536.5信息量98011分析與討論在共情回復生成時，ChatGPT更傾向于生成更長更具多樣性的回復。此外，其尤其傾向于提出建議解決用戶面臨的問題**，**從而與真實回復產生偏差。更進一步，從人工評價來看，SOTA方法的流暢度和共情能力勉強能夠與ChatGPT相比，但回復的信息量相差甚遠。ChatGPT生成的回復能夠完全理解用戶處境，回復質量也相當之高，從而明顯優于目前的SOTA模型。但在共情能力方面，ChatGPT在表達共情時會頻繁重復這樣的模式：復述情緒?信息擴展。反復循環著同樣一種模式不免使得用戶產生乏味。對于該任務的未來方向，首先一點是提升模型的個性化共情能力，模板且套路化的共情表達方式顯然還未能夠與真實的人類共情對話所對齊。其次，由自動評價和人工評價得到的模型性能差異化表現，進一步說明了目前仍缺乏一個合理的評價指標，來衡量共情對話系統的優劣。情緒支持對話****任務定義情緒支持對話是一個生成任務，旨在為處于消極情緒狀態時，前來尋求幫助的求助者給予情緒支持。任務的輸入為發生在求助者和支持者之間的雙人對話歷史，輸出為生成的支持者輪次的情緒支持回復。情緒支持對話可以分為三個階段：支持者需要（1）確定求助者所面臨的問題，（2）安慰求助者，然后（3）提供一些建議或信息，以幫助求助者采取行動來應對他們的問題。支持者在此過程中可以使用以下8種策略，分別為：提問（Question）, 復述或改述（Restatement or Paraphrasing）, 反思感受（Reflection of Feelings）, 自我揭示（Self-disclosure）, 肯定和安慰（Affirmation and Reassurance）, 提供建議（Providing Suggestions）,信息（Information）和其他（Others）。

圖3 情緒支持對話的三個階段和各個階段支持者使用的策略[25]

數據集介紹

數據集：ESConv[25]包含1,053段對話和31,410個句子。為了構建這個數據集，數據集作者招募了已經學會了提供情感支持的常用步驟和策略的支持者，通過一個在線平臺與需要情感支持的志愿者進行交流。支持者被要求在每個回合中標注所采取的策略，而尋求支持的人則被要求每兩個回合在Likert量表上給出反饋，該量表有五個等級，表明其消極情緒的緩解程度。數據集鏈接：評價指標介紹自動評價指標：?Bleu-n (B-1, B-2, B-3, B-4)，Rouge-L (R-L)：評估生成回復與參考回復的相似程度。?Distinct-n (D-1, D-2, D-3)：評估生成回復的多樣性。?ACC：預測策略的準確率。人工評價指標：我們招募了一名熟悉情緒支持對話的志愿者與模型進行交互，以進行人工評估。具體而言，我們從測試集中隨機抽取了89段對話。然后，我們要求志愿者在這些對話場景下扮演求助者的角色，并與模型展開交流。對于MISC和ChatGPT，志愿者需要在以下五個方面進行評判（或判斷兩者表現相當），這些方面涵蓋了情緒支持對話的三個階段：?流暢度：哪個模型能產生更連貫和流暢的回應；?探索能力：哪個模型能更有效地探討求助者的問題；?共情能力：哪個模型在理解求助者的感受和情況方面表現出更強的同理心；?建議能力：哪個模型能提供更有價值的建議；?總體表現：哪個模型能提供更有效的情感支持。主實驗結果

人工評價結果

WinLossTieMISC v.s ChatGPT流暢度63152探索能力63845共情能力****401633建議能力37313總體表現126512分析與討論ChatGPT的生成內容仍保持著長而多樣的特點，使其在自動評價指標Distinct-n上遠超過SOTA方法。但多樣性也帶來了與真實回復的偏離。從人工評價結果來看，情緒支持對話的特點之一是為用戶提供建議和有效信息以走出困境。這恰好符合ChatGPT的生成偏好，故在此任務上展示出優秀的效果。然而，在共情能力方面，SOTA方法優于ChatGPT的原因在于，ChatGPT太過“急于求成”，一旦確認用戶所面臨的困境，便立刻給出相應的建議和應對措施，忽略了對用戶情緒的撫慰和關照。但這并不能說明ChatGPT不具有共情能力。其在共情回復生成任務中展現出的優秀表現能夠證明，其能夠設身處地安慰用戶。通過適當的提示詞工程，我們相信可以使ChatGPT“放慢節奏”，在給出用戶建議前進行充分的情緒疏導。相比MISC，ChatGPT能展現出更多樣化且更有效的建議，從而在建議能力方面遠遠超過現有模型。但這一點MISC無法通過現有數據集學習，因為語料中真實的建議本身就具有局限性。對于未來關于情緒支持對話的研究，如何使得模型自適應地控制情緒支持的節奏（不宜“操之過急”提出建議解決問題，也不宜“停滯不前”重復無效的安慰）是一個值得關注的研究點。此外，研究更合理的自動評價指標，以對齊與人工評價的差異，仍需要進一步探索。結論與展望經過對ChatGPT情感對話能力的初步探索，我們發現ChatGPT在情感對話理解和生成方面表現出色。需要注意的是，我們的實驗結果可能無法完全反映ChatGPT在相應任務上的最佳表現。通過更加精細化的提示詞工程和上下文示例選擇，我們相信ChatGPT的性能可以進一步提高。未來的情感對話理解工作方向之一是探索ChatGPT與標簽標注規范的對齊，而在情感對話生成方面，重要的是研究合理的自動評價指標以衡量模型能力，因為目前所廣泛采用的自動評價和人工評價得到的性能表現可能會有所不同。

付費5元查看完整內容

ChatGPT · GPT-4 · 自然語言推理 · 大模型 ·

2023 年 3 月 29 日

[付費5元查看完整內容]ChatGPT背后的大模型如何做推理？港中文等最新《自然語言推理》綜述詳述預訓練語言模型推理方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講，本文為NLP中的自然語言推理提供了一個明確的定義，基于哲學和NLP場景，討論了哪些類型的任務需要推理，并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述，主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式，并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本，不包括神經符號技術和數學推理。

1. 引言

近年來，自然語言處理(NLP)取得了重大進展，特別是transformer和預訓練語言模型(PLM)的引入。然而，它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程，是人類智能的一個基本方面，對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標，也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比，使用自然語言表達進行推理提供了更加自然的人機交互界面，并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。

諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練，PLM能夠進行自然語言理解。最近的進展表明，PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說，PLM可以對自然語言語句[24]進行軟演繹推理，利用其參數中記憶的隱性知識進行推理[141]，并在模型規模足夠大時通過思維鏈提示[76,154]，僅使用少量演示或指令就可以逐步執行多步推理。最近，ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。

**然而，盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154]，但仍然缺乏對推理的明確定義，并且“推理”一詞有時會被錯誤使用，這可能會影響NLP社區對推理的交流和發展。**例如，雖然它屬于“常識推理”，但很少有人會認為講述一個共同的生活經歷[9]，例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是，有時“自然語言推理”被引入為自然語言理解的任務[11]，但其他時候的推理為[24]。到目前為止，沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理)，也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性，我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義，但該定義并不能很好地捕捉NLP中的推理。例如，雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57]，但它未能明確隱含常識是否可以作為證據以及推理的結論類型，如命名實體消歧。

為了促進自然語言處理中推理的研究，本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講，本文從哲學和NLP場景出發，提出了NLP推理的定義，討論了哪些類型的任務需要推理，并介紹了推理的分類。在實踐中，基于明確的定義，對自然語言處理中的自然語言推理進行了全面的文獻綜述，主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文，我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后，討論了推理的局限性和未來的發展方向。除了推理的定義之外，該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理，這是除正向推理外的另一種強大的多步推理范式。雖然正向推理，如思維鏈提示，最近在LLM中很流行，但反向推理值得進行更多的探索。由于搜索空間更小[71]，向后推理在概念和經驗上都比前向推理更有效，因此有可能推廣到步驟更長的復雜推理。其次，介紹了可廢止推理(即非演繹推理)，認為這是最重要的未來方向之一。哲學認為，人類日常生活中的推理大多是非演繹的。然而，這在NLP研究中仍然存在很大的差距，而ChatGPT[4]也更具挑戰性。更重要的是，當演繹推理可以用符號推理機(如Prolog編程)精確求解時，可廢止推理仍然缺乏有效的解決方案。

本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧，故意排除了神經符號技術。對收集到的論文進行了整理，對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年，我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字，包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。

**總而言之，本綜述的主要貢獻是: **

(1)首次為NLP中的自然語言推理提供了一個明確的定義，并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述，涵蓋了不同的NLR基準，并提供了一個全面的方法分類。我們還介紹了向后推理，它被忽略了，但有潛力。 (3)介紹了可廢止推理，比較了演繹推理和可廢止推理的差異，討論了它們對NLP解決方案的影響，并回顧了現有的方法。

2. 什么是自然語言推理

目前，自然語言推理在自然語言處理領域仍缺乏明確的定義，影響了自然語言處理領域的發展和交流。為促進理解、分析和交流，本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標，我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究，并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義，以滿足NLP社區的關注(第2.1節)。然后，提供了NLR的類別，并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后，介紹實現NLR的潛力、挑戰和要求(第2.3節)。

NLP中的推理近年來一直受到關注，而哲學從幾千年前就開始研究推理，邏輯被視為正確推理的藝術，它研究推理的概念，使其類別系統化，并發展良好推理的原則，包括形式邏輯和非形式邏輯[8,45,62]。在本節中，我們首先包括來自哲學和邏輯學的推理理論，并將其導出為NLP推理。然后，回顧了自然語言處理中的一些自然語言推理問題;最后，本文提出了一種NLP中推理的定義，該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源，也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件，或實際行動。

3. 為什么要用PLMs進行自然語言推理

預訓練語言模型(PLM)基于transformer架構[149]，該架構由許多注意力模塊構建，并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來，預訓練-再微調成為一種常見的范式，它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務，并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14]，上下文學習已經成為一種新的流行范式，它可以在只有少量演示的情況下預測新樣本，而無需微調參數。最近，零樣本提示范式在LLM中也變得更加流行[76]。

4. 自然語言推理方法

在本節中，我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節)，正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說，“端到端推理”只預測最終答案，沒有任何中間文本，而后兩種方法可以產生推理路徑，包含一個或多個帶有中間結論的步驟，展示了將前提與結論聯系起來的(可能是多步)推理過程。

給出每個預測的推理路徑可以提高系統的可解釋性。特別地，嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外，生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程，它從已有的知識出發，反復推理以獲得新的知識，直到問題被解決。反向推理是一種自上而下的過程，它從問題出發，不斷地分解為子問題，直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題，而正向推理可以自由地發現由現有知識所蘊含的新知識，而不需要預先指定問題。因此，在求解特定問題時，前向推理的搜索空間要比后向推理的搜索空間大得多，隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題，其推理路徑稱為“證明”，正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法，并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。

5. 結論

在本節中，我們提出了一些開放問題，介紹了一些局限性，并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。

為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前，只需要產生推理路徑，甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時，LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159]，但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力，那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者，構建更多的數據集和設計推理算法是否仍然有益?

付費5元查看完整內容

ChatGPT · 機器人 · 微軟 ·

2023 年 2 月 25 日

[付費5元查看完整內容]ChatGPT和機器人如何結合？微軟最新《ChatGPT機器人:設計原則和模型能力》論文，25頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

**本文對OpenAI的ChatGPT[1]在機器人應用中的使用進行了實驗研究。**本文概述了一種策略，將prompt工程的設計原則和高級函數庫的創建相結合，使ChatGPT能夠適應不同的機器人任務、模擬器和形狀因素。重點評估了不同的提示工程技術和對話策略對執行各種類型的機器人任務的有效性。探討了ChatGPT使用自由形式對話、解析XML標簽和合成代碼的能力，以及使用特定任務的提示函數和通過對話進行閉環推理的能力。**本文研究涵蓋了機器人領域的一系列任務，從基本的邏輯、幾何和數學推理一直到復雜的領域，如空中導航、操縱和具身智能體。**ChatGPT可以有效地解決其中的幾個任務，同時允許用戶主要通過自然語言指令與之交互。此外，本文還介紹了一個名為PromptCraft的開源研究工具，其中包括一個研究人員可以協作上傳并投票的機器人應用程序的良好提示方案示例的平臺，以及一個集成ChatGPT的機器人模擬器示例，使用戶更容易開始使用ChatGPT機器人。

自然語言處理(NLP)的快速發展導致了大型語言模型(LLMs)的發展，如BERT[2]、GPT-3[3]和Codex[4]，這些模型正在對廣泛的應用程序進行革命。這些模型在文本生成、機器翻譯和代碼合成等各種任務中都取得了顯著的效果。這個模型集合的最新成員是OpenAI ChatGPT[1]，這是一個預訓練的生成文本模型，使用人類反饋進行了微調。與以前主要基于單個提示符操作的模型不同，ChatGPT通過對話提供了特別令人印象深刻的交互技能，結合了文本生成和代碼合成。我們在本文中的目標是研究ChatGPT的能力是否以及如何推廣到機器人領域。我們將ChatGPT的功能擴展到機器人領域，并使用語言直觀地控制了多個平臺，如機器人手臂、無人機和家庭助理機器人。

你有沒有想過用你自己的語言告訴機器人該做什么，就像你對人類做的那樣?如果只是告訴你的家庭機器人助手:“請把我的午餐熱一下”，然后讓它自己找到微波爐，這不是很神奇嗎?盡管語言是我們表達意圖最直觀的方式，但我們仍然嚴重依賴手寫代碼來控制機器人。我們的團隊一直在探索如何改變這一現實，并使用OpenAI的新AI語言模型ChatGPT使自然的人-機器人交互成為可能。

ChatGPT是一個在大量文本和人類交互語料庫上訓練的語言模型，它可以對各種各樣的提示和問題生成連貫且語法正確的回答。我們這項研究的目標是看看ChatGPT是否能超越文本思考，并對物理世界進行推理，以幫助機器人任務。我們希望幫助人們更容易與機器人互動，而不需要學習復雜的編程語言或機器人系統的細節。這里的關鍵挑戰是教ChatGPT如何解決問題，考慮物理定律，操作環境的上下文，以及機器人的物理行為如何改變世界的狀態。

近年來，在將語言納入機器人系統方面有不同的嘗試。這些工作主要集中在針對特定形式因素或場景使用語言token嵌入模型、LLM特征和多模態模型特征。應用范圍從視覺-語言導航[5,6]，基于語言的人機交互[7,8]和視覺-語言操作控制[9,10,11]。然而，盡管在機器人中使用LLMs有潛在的優勢，但大多數現有方法都受到嚴格的范圍和有限的功能集的限制，或其開環性質的限制，不允許從用戶反饋中進行流動交互和行為糾正。當被要求進行高層智能體規劃[12,13]或代碼生成[14,15]時，GPT-3、LaMDA和Codex等模型也在零樣本機器人場景中顯示出希望。這些早期的演示啟發我們研究ChatGPT，將其作為機器人領域的一個潛在的更多功能的工具，因為它結合了自然語言和代碼生成模型的優勢以及對話的靈活性。ChatGPT能夠參與自由形式的對話和捕獲長上下文，允許用戶以更自然的方式與模型交互，并靈活地進行行為矯正。

本文旨在展示ChatGPT在機器人應用中的潛力。我們概述了一個關鍵概念，它解鎖了用ChatGPT解決機器人應用程序的能力，這是創建一個高級函數庫。由于機器人是一個多樣化的領域，存在多種平臺、場景和工具，因此存在各種各樣的庫和api。我們創建了一個簡單的高級函數庫供ChatGPT處理，然后可以在后端鏈接到所選平臺的實際API，而不是要求LLM輸出特定于平臺或庫的代碼，這可能涉及大量的微調。因此，我們允許ChatGPT從自然對話框中解析用戶意圖，并將其轉換為高級函數調用的邏輯鏈。本文還概述了一些幫助ChatGPT解決機器人任務的提示工程指南。

事實證明，ChatGPT本身可以做很多事情，但它仍然需要一些幫助。我們的技術論文描述了一系列設計原則，可用于指導語言模型解決機器人任務。這些包括但不限于特殊的提示結構、高級API和通過文本的人工反饋。我們相信，我們的工作只是我們如何開發機器人系統的轉變的開始，我們希望激勵其他研究人員進入這個令人興奮的領域。繼續閱讀有關我們的方法和想法的更多技術細節。

當今機器人技術的挑戰，以及ChatGPT如何提供幫助

機器人系統與純文本應用不同，需要對現實世界的物理、環境上下文和執行物理動作的能力有深刻的理解。一個生成式機器人模型需要有一個強大的常識知識和一個復雜的世界模型，以及與用戶交互的能力，以物理上可行的方式解釋和執行命令，在現實世界中有意義。這些挑戰超出了語言模型的原始范圍，因為它們不僅必須理解給定文本的含義，還必須將意圖翻譯為物理動作的邏輯序列。

當前的機器人管道從工程師或技術用戶開始，他們需要將任務需求轉換為系統的代碼。工程師在循環中，這意味著他們需要編寫新的代碼和規范來糾正機器人的行為。總的來說，這個過程是緩慢的(用戶需要編寫低級代碼)，昂貴的(需要具有深度機器人知識的高技能用戶)，并且低效的(需要多次交互才能讓事情正常工作)。

ChatGPT開啟了一種新的機器人范式，并允許(潛在的非技術)用戶參與循環，在監視機器人性能的同時向大型語言模型(LLM)提供高級反饋。通過遵循我們的設計原則，ChatGPT可以為機器人場景生成代碼。在沒有任何微調的情況下，我們利用LLM的知識來控制不同的機器人形狀，以完成各種任務。在我們的工作中，我們展示了多個ChatGPT解決機器人難題的示例，以及在操作、空中和導航領域的復雜機器人部署。 ChatGPT機器人技術:設計原則

LLMs是一門高度經驗主義的科學。通過反復試驗，我們建立了一套方法和一套設計原則，用于為機器人任務編寫提示:

首先，我們定義一組高級機器人api或函數庫。這個庫可以特定于特定的機器人，并且應該映射到機器人的控制棧或感知庫中的現有底層實現。對高級api使用描述性的名稱非常重要，這樣ChatGPT可以推斷它們的行為; * 接下來，我們為ChatGPT編寫一個文本提示，它描述了任務目標，同時也明確說明了高級庫中的哪些函數可用。提示符還可以包含關于任務約束的信息，或者ChatGPT應該如何形成它的答案(使用特定的編碼語言，使用輔助解析元素); * 用戶停留在循環中來評估ChatGPT的代碼輸出，要么通過直接檢查，要么使用模擬器。如果需要，用戶可以使用自然語言向ChatGPT反饋答案的質量和安全。 * 當用戶對解決方案感到滿意時，就可以將最終代碼部署到機器人上。

ChatGPT到底能做什么?

零樣本任務規劃

我們讓ChatGPT訪問控制真正無人機的功能，事實證明，它是非技術用戶和機器人之間非常直觀的基于語言的界面。當用戶的指示模棱兩可時，ChatGPT會提出澄清性問題，并為無人機編寫復雜的代碼結構，如z字形模式以視覺檢查貨架。它甚至學會了自拍!???? 我們還在使用Microsoft AirSim模擬器的模擬工業檢測場景中使用ChatGPT。該模型能夠有效地解析用戶的高層意圖和幾何線索，從而準確地控制無人機。

循環中的用戶:當一個復雜的任務需要對話時

接下來，我們將ChatGPT用于機器人手臂的操作場景。我們使用對話反饋來教模型如何將最初提供的API組合成更復雜的高級函數:ChatGPT自己編碼。通過使用基于課程的策略，該模型能夠將這些學習到的技能邏輯地鏈接在一起，以執行堆疊積木等操作。此外，當任務是用木塊構建微軟標志時，該模型展示了一個連接文本和物理域的有趣示例。它不僅能夠從其內部知識庫中回憶徽標，還能夠“繪制”徽標(作為SVG代碼)，然后使用上述學到的技能來確定現有的機器人動作可以組成其物理形式。

接下來，我們委托ChatGPT編寫一個算法，使無人機在不撞到障礙物的情況下在太空中達到目標。我們告訴模型，這架無人機有一個面向前方的距離傳感器，ChatGPT立即為算法編寫了大多數關鍵的構建模塊。這項任務需要與人類進行一些對話，我們對ChatGPT僅使用語言反饋進行本地化代碼改進的能力印象深刻。

感知-行動循環:機器人在行動之前感知世界

在做某事(行動)之前感知世界(感知)的能力是任何機器人系統的基礎。因此，我們決定測試ChatGPT對這個概念的理解，并讓它探索一個環境，直到找到用戶指定的對象。我們允許模型訪問諸如對象檢測和對象距離API等函數，并驗證了它生成的代碼成功地實現了感知-動作循環。在實驗角色中，我們運行了額外的實驗來評估ChatGPT是否能夠根據傳感器實時反饋來決定機器人應該去哪里(而不是讓ChatGPT生成一個代碼循環來做出這些決定)。有趣的是，我們驗證了我們可以在每一步將相機圖像的文本描述輸入到聊天中，并且該模型能夠弄清楚如何控制機器人，直到它到達特定的對象。

付費5元查看完整內容

ChatGPT · Transformer · 大模型 ·

2023 年 2 月 17 日

[付費5元查看完整內容]ChatGPT背后的大模型最新有哪些？最新最全《Transformer預訓練模型分類》論文，36頁pdf詳述大模型技術目錄

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

最近OpenAI推出的ChatGPT持續成為熱點，背后依賴的GPT-3.5預訓練語言模型和指令人類反饋強化學習等技術。ChatGPT背后大模型（也稱預訓練模型、基礎模型等）通常是在大規模無標注數據上進行訓練，學習出一種特征和規則，核心是Transformer算法與架構。來自Xavier Amatriain最新的Transformer預訓練模型分類，36頁pdf詳述大模型分類圖。

在過去的幾年里，我們已經看到了幾十種Transformer家族的模型的迅速出現，它們的名字都很有趣，但并不是不言自明的。本文的目標是對最流行的Transformer模型提供一個有點全面但簡單的目錄和分類。本文還介紹了Transformer模型的最重要方面和創新。

1. 引言

Transformer是一類深度學習模型，由一些架構特征定義。2017年，谷歌的研究人員在現在著名的“Attention is All you Need”論文1和相關的博客post1中首次介紹了它們。Transformer架構是前2 - 3年流行的編碼器-解碼器模型[2]2的一個具體實例。然而，在那之前，注意力只是這些模型使用的機制之一，這些模型主要基于LSTM(長短期記憶)[3]和其他RNN(遞歸神經網絡)[4]變體。正如標題所暗示的那樣，transformer論文的關鍵見解是，注意力可以用作獲得輸入和輸出之間依賴關系的唯一機制。Transformer架構的所有細節已經超出了本博客的范圍。為此，我建議你參考上面的原始論文或精彩的the Illustrated transformers帖子。話雖如此，我們將簡要描述最重要的方面，因為我們將在下面的目錄中提到它們。讓我們從原始論文中的基本架構圖開始，并描述一些組件。

從人類反饋(或偏好)中進行強化學習，即RLHF(或RLHP)，最近已經成為AI工具包的一個巨大補充。這一概念已經在2017年的論文中提出。最近，它已被應用于ChatGPT和類似的對話代理，如BlenderBot3或Sparrow。這個想法非常簡單:一旦語言模型被預訓練，我們就可以對對話產生不同的響應，并讓人類對結果進行排名。在強化學習的背景下，我們可以使用這些排名(又名偏好或反饋)來訓練獎勵(見圖3)。您可以在Huggingface]14或Weights and Bias15的這兩篇精彩文章中閱讀更多內容。

2. Transformers分類

希望到目前為止，您已經理解了什么是Transformer模型，以及為什么它們如此流行和有影響力。在本節中，我將介紹迄今為止開發的最重要的Transformer模型的目錄。我將根據以下屬性對每個模型進行分類:預訓練架構、預訓練任務、壓縮、應用程序、年份和參數數量。讓我們簡要地定義它們: 預訓練架構我們將Transformer架構描述為由Encoder和Decoder組成，對于最初的Transformer也是如此。然而，從那時起，已經取得了不同的進展，揭示了在某些情況下，只使用編碼器，只使用解碼器，或兩者都是有益的。編碼器預訓練這些模型也被稱為雙向編碼或自編碼，在預訓練過程中只使用編碼器，通常通過屏蔽輸入句子中的單詞并訓練模型進行重構來完成。在預訓練的每個階段，注意力層可以訪問所有輸入單詞。該模型族對于需要理解完整句子的任務最有用，如句子分類或抽取式問答。 解碼器預訓練

解碼器模型通常被稱為自回歸模型，在預訓練過程中只使用解碼器，而預訓練通常是為了迫使模型預測下一個單詞。注意力層只能訪問句子中給定單詞之前的單詞。它們最適合于涉及文本生成的任務。 Transformer(編碼器-解碼器)預訓練編碼器-解碼器模型，也稱為序列到序列，使用Transformer架構的兩部分。編碼器的注意力層可以訪問輸入中的所有單詞，而解碼器的注意力層只能訪問輸入中給定單詞之前的單詞。預訓練可以使用編碼器或解碼器模型的目標來完成，但通常涉及更復雜的東西。這些模型最適合于根據給定輸入生成新句子的任務，如摘要、翻譯或生成式問答。**預訓練任務 **當訓練模型時，我們需要為模型定義一個學習任務。上面已經提到了一些典型的任務，例如預測下一個單詞或學習重建被掩碼的單詞。《自然語言處理的預訓練模型綜述》[10]包括一個相當全面的預訓練任務分類，所有這些任務都可以被認為是自監督的:

語言建模(LM):預測下一個標記(單向LM的情況下)或前一個和下一個標記(雙向LM的情況下)
掩碼語言建模(MLM):從輸入句子中屏蔽一些標記，然后訓練模型，用其余標記預測被屏蔽的標記 3.置換語言模型(PLM):與LM相同，但對輸入序列進行隨機置換。一個置換是從所有可能的置換中隨機抽樣得到的。然后選擇一些token作為目標，并訓練模型來預測這些目標。
降噪自編碼器(DAE):采用部分損壞的輸入(例如，從輸入中隨機采樣token，并將其替換為“[MASK]”元素。從輸入中隨機刪除標記，或按隨機順序打亂句子)，并旨在恢復原始未失真的輸入。
對比學習(CTL):通過假設一些觀察到的文本對比隨機采樣的文本更相似，來學習文本對的得分函數。它包括: ?深度信息最大化(DIM):最大化圖像表示和圖像局部區域之間的互信息;替換Token檢測(RTD):根據Token的環境預測其是否被替換; 下一個句子預測(NSP):訓練模型以區分輸入的兩個句子是否為訓練語料庫中的連續片段;和句子順序預測(SOP):類似于NSP，但使用兩個連續的片段作為正例，并使用相同的片段，但其順序交換為負例在這里，我們將注意Transformer模型的主要實際應用。這些應用大多數將在語言領域(例如，問答、情感分析或實體識別)。然而，如前所述，一些Transformer模型也在NLP之外找到了應用，也包括在目錄中。

付費5元查看完整內容

ChatGPT · 李宏毅 ·

2022 年 12 月 9 日

[付費5元查看完整內容]刷爆的ChatGPT什么算法這么強！臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的》！

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

OpenAI 新上線的 ChatGPT 可謂是火爆出圈，這個對話模型可以回答后續問題，承認錯誤，挑戰不正確的前提，還能幫你修改代碼中的 bug……只要和它聊上幾句，一會兒功夫它就能把問題給你解決了。例如用戶要求：「ChatGPT 幫我解釋一下文中正則表達式的含義。」ChatGPT：安排。密密麻麻的解釋了一大段內容，應該是解釋清楚了。

ChatGPT 使用與 InstructGPT 相同的方法——用人類反饋強化學習 (RLHF) 訓練模型，但數據收集設置略有不同。ChatGPT 使用監督微調訓練了一個初始模型：人類 AI 訓練員提供對話，他們在對話中扮演雙方——用戶和 AI 助手，AI 訓練員可以訪問模型編寫的對話回復，以幫助 AI 調整回復內容。

為了創建強化學習的獎勵模型，該研究需要收集比較數據，其中包含兩個或多個按質量排序的模型回復。該研究收集了 AI 訓練員與聊天機器人的對話，并隨機選擇一條模型編寫的消息，抽取幾個備選回復，讓 AI 訓練員對這些回復進行排名。此外，該研究還使用近端策略優化算法（PPO）微調模型，并對整個過程進行了幾次迭代。

ChatGPT 對 GPT-3.5 系列中的某個模型進行了微調，該模型于 2022 年初完成訓練。ChatGPT 和 GPT 3.5 在 Azure AI 超級計算基礎設施上進行了訓練。

臺大李宏毅老師：Chat GPT (可能)是怎么煉成的- GPT社會化的過程

參考鏈接：

付費5元查看完整內容

預訓練語言模型 · GPT3 · OpenAI ·

2020 年 5 月 30 日

[付費5元查看完整內容]1750億參數！GPT-3來了！31位作者，OpenAI發布小樣本學習器語言模型

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

OpenAI在昨天悄然放出了GPT第三代——《Language Models are Few-Shot Learners》。刷遍Twitter！史無前例！論文介紹了GPT-3這是一種由1750億個參數組成的最先進的語言模型。論文由32位作者72頁pdf。

最近的工作表明，通過對大量文本進行預訓練，然后對特定任務進行微調，在許多NLP任務和基準測試方面取得了巨大的進展。盡管這種方法在架構中通常與任務無關，但它仍然需要成千上萬個特定于任務的實例微調數據集。相比之下，人類通常只需要幾個例子或簡單的指令就可以完成一項新的語言任務——這是目前的NLP系統仍然難以做到的。在這里，我們展示了擴展語言模型極大地提高了任務無關性、低命中率的性能，有時甚至達到了與先前最先進的微調方法的匹配性能。具體來說，我們訓練了一個帶有1750億個參數的自回歸語言模型GPT-3，比以前任何非稀疏語言模型都多10倍，并在小樣本設置下測試了它的性能。對于所有任務，GPT-3的應用沒有任何梯度更新或微調，任務和小樣本演示指定純粹通過與模型的文本交互。GPT-3在許多NLP數據集上實現了強大的性能，包括翻譯、問答和完形填空任務，以及一些需要即時推理或領域適應的任務，如整理單詞、在句子中使用新單詞或執行3位算術。同時，我們還確定了一些數據集，其中GPT-3的小樣本學習仍然效果不佳，以及一些數據集，其中GPT-3面臨著與大型web語料庫上的訓練有關的方法問題。最后，我們發現GPT-3可以生成新聞文章的樣本，這些文章是人類評價者難以區分的。我們討論了這個發現和一般的GPT-3的更廣泛的社會影響。