ChatGLM-6B 是一個開源的、支持中英雙語問答的對話語言模型,基于 General Language Model (GLM) 架構,具有 62 億參數。結合模型量化技術,用戶可以在消費級的顯卡上進行本地部署(INT4 量化級別下最低只需 6GB 顯存)。ChatGLM-6B 使用了和 ChatGLM 相同的技術,針對中文問答和對話進行了優化。經過約 1T 標識符的中英雙語訓練,輔以監督微調、反饋自助、人類反饋強化學習等技術的加持,62 億參數的 ChatGLM-6B 已經能生成相當符合人類偏好的回答。
谷歌I/O上發布一系列生成式AI新進展,科技大廠競爭激烈。5月10日,谷歌I/O開發者大會上發布了包括:新一代語言模型PaLM2、升級AI聊天機器人Bard、生成式AI實驗版搜索引擎、DuetAIforWorkspace等。 AI藝人迅速出圈,多模態應用充分釋放AI潛力,進一步推動商業化落地。1)AI歌手:截至5月14日,“AI孫燕姿”翻唱的《發如雪》已有超過150萬點擊量。2)AI網紅CarynMarjorie通過出售AI版本的Caryn,在過去一周的beta階段創收7.16萬美元,99%的用戶是男性。 從應用端看,昆侖萬維,湯姆貓,中文在線,萬興科技,美圖公司等同時兼具跨模態屬性和海外業務的公司有望率先實現應用場景落地。 昆侖萬維:2023年02月公司宣布將與奇點智源合作,在今年內發布中國版類ChatGPT代碼開源。旗下Opera瀏覽器計劃接入ChatGPT,截至2022H1,Opera全球平均MAU達3.3億,美洲市場Q2活躍用戶規模同比增長22%;2022年,OperaGX的MAU已超過2000萬。湯姆貓:湯姆貓家族IP的交互屬性與ChatGPT有著較高的契合度。公司團隊已嘗試應用ChatGPT模型進行AI交互產品開發的初步測試,測試的模型目前通過ChatGPT海外接口接入。中文在線:海量優質數據資產為核心優勢;與瀾舟科技合力探索AIGC在內容生產方面的技術應用;AI技術已在內容創作、游戲元宇宙等領域落地。海外產品Chapters和MyEscape已在做接入ChatGPT測試,應用在故事創作生成、劇本生成及改編、用戶與AI交互聊天等方面。萬興科技:視頻創意軟件WondershareFilmora接入OpenAI,WondershareFilmora12新增功能包括AI摳圖、AI音頻拉伸和AI音頻降噪。軟件擁有超過1億用戶,覆蓋超過150個國家及地區。3月31日正式面向出海營銷領域全球首發AIGC“真人”短視頻出海營銷神器“萬興播爆”(英文名:WondershareVirbo),并宣布開啟移動端公測。美圖公司:AI繪畫功能在旗下部分產品中上線,推動產品全球業績增長。商業化探索包括,1)“AI繪畫”免費生成3張繪畫,支付2元可解鎖五張新效果;2)“百變AI頭像”,6.6元50張(5種風格×10張);9.9元100張(10種風格×10張),12.9元200張(20種風格×10張)。 隨著技術的更新迭代,以及在應用端的持續探索,有望進一步創造新的消費和需求,有利于文娛內容和互聯網行業。重點關注:萬興科技、昆侖萬維、湯姆貓、中文在線、思美傳媒、美圖公司、百度集團-SW、商湯-W、騰訊控股、閱文集團;皖新傳媒、南方傳媒、焦點科技、風語筑、利歐股份、神州泰岳、聯絡互動、捷成股份、掌閱科技、立方數科、元隆雅圖等。
隨著ChatGPT等語言大模型落地,AIGC技術落地在各行各業中得到發展和推進。根據模型的分類,AIGC的應用可被分為單模態和多模態兩類。單模態模型可以助力各個應用,提升原有的能力和生產力。諸如ChatGPT已與Bing結合,使搜索更智能化。同時,搜索引擎又能很好地彌補語言模型預訓練時不具備的數據實時性。單模態模型與操作系統的連接也能改變傳統的人機交互模式,使系統響應更智能,軟件間的數據流通更廣泛;與游戲應用的結合可以使NPC更鮮活,與玩家的對話更真實;應用于文學作品可以激發創作靈感,提高寫作效率,掀起AI電子書熱潮;應用于客服場景可以提升原智能客服的多輪對話能力,個性化回答能力。 多模態的模型是AIGC的發展趨勢,現有的DALL-E或StableDiffusion已經在文本到圖像的跨模態領域很好地落地,可以更容易地生成高質量海報和提升三維場景重建的效果;與視頻剪輯應用的結合降低視頻制作的門檻,拓展影視領域的空間;Google的多模態模型PaLM-E將豐富機器人操作場景,智能化機器人反饋。最新的GPT4多模態模型與Office辦公軟件的結合將顯著提升生產力,使辦公軟件間的聯動更智能;GPT4可以賦能教育科研領域,緩解教育資源短缺,降低獲取知識的門檻;GPT4可以賦能數字人,使數字人落地場景更豐富,交互更擬人;GPT4還能助力應用開發,簡化發開周期,降低開發的門檻。
ChatGPT快速滲透, AI產業迎發展新機 ChatGPT是由OpenAI公司開發的人工智能聊天機器人程序, 于2022年11月發布, 推出不久便在全球范圍內爆火。根據World of Engineering數據顯示, ChatGPT達到1億用戶量用時僅2個月, 成為史上用戶增長速度最快的消費級應用程序。與之相比, TikTok達到1億用戶用了9個月, Instagram則花了2年半的時間。從用戶體驗來看, ChatGPT不僅能實現流暢的文字聊天, 還可以勝任翻譯、 作詩、 寫新聞、 做報表、 編代碼等相對復雜的語言工作。 ChatGPT爆火的背后是人工智能算法的迭代升級。ChatGPT是基于GPT-3.5微調得到的新版本模型, 能夠借助人類反饋的強化學習(RLHF) 技術來指導模型訓練, 實現模型輸出與人類預期的需求, 使對話內容更加人性化和富有邏輯性。從2008年第一代生成式預訓練模型GPT-1誕生以來, GPT系列模型幾乎按照每年一代的速度進行迭代升級, 未來隨著大語言模型(LLM) 技術的不斷突破, AI相關應用有望加速落地, AI產業或將迎來新一輪發展機遇。 ChatGPT激起AI浪潮,大算力芯片迎來產業機遇 ChatGPT是生成式人工智能技術(AIGC) 的一種, 與傳統的決策/分析式AI相比, 生成式AI并非通過簡單分析已有數據來進行分析與決策, 而是在學習歸納已有數據后進行演技創造, 基于歷史進行模仿式、 縫合式創作, 生成全新的內容。AIGC的應用非常廣泛, 包括自然語言生成、 圖像生成、 視頻生成、 音樂生成、 藝術創作等領域。 AIGC產業鏈主要分為上游算力硬件層、 中游數據/算法軟件層和下游行業應用層。硬件層依靠高性能AI芯片、 服務器和數據中心為AIGC模型的訓練提供算力支持, 是承載行業發展的基礎設施;數據/算法層軟件層主要負責AI數據的采集、 清洗、 標注及模型的開發與訓練, 多方廠商入局自然語言處理、 計算機視覺、 多模態模型等領域;行業應用層目前主要涉及搜索、 對話、推薦等場景, 未來有望在多個行業呈現井噴式革新。 多模態賦能下游行業智慧化升級 多模態大模型有望成為AI主流, 賦能下游行業智能升級。生成式AI主要依賴于人工智能大模型, 如Transformer、 BERT、GPT系列等。這些模型通常包含數十億至數萬億個參數, 需要龐大的數據集進行訓練, 致使AI算力的需求也呈現出指數級的增長。多模態是一種全新的交互、 生成模式, 集合了圖像、 語音、 文本等方式, 因其可以結合多種數據類型和模態的學習,將有望徹底改變我們與機器互動的方式, 快速占據人工智能主導地位。我們認為多模態大模型長期來看不僅可以從成本端降本增效, 需求端也將通過快速滲透推廣為下游行業帶來持續增長需求, 從而快速推動下游行業智慧化應用升級。 模型更新升級帶動下游行業不斷發展 從GPT-1到ChatGPT, 模型參數與訓練數據量不斷增加, 所需算力資源不斷提升: GPT-1:最早的GPT模型之一, 包含了1.17億個參數, 預訓練數據量約為5GB。 GPT-2:參數數量達到了1.5億個, 預訓練數據量達40GB。 GPT-3:是目前為止最大的語言模型之一, 包含了1750億個參數, 預訓練數據量為45TB。 ChatGPT:基于GPT-3模型的變種之一, 參數量預計與GPT-3相近。 GPT-4性能提升顯著, AIGC應用市場空間廣闊 多模態模型是實現人工智能應用的關鍵。3月14日OpenAI發布GPT-4多模態大模型, 擁有1) 強大的識圖能力;2) 文字輸入限制提升至2.5萬字;3) 回答準確性顯著提高;4) 能夠生成歌詞、 創意文本、 實現風格變化。在各種專業和學術基準上,GPT-4已具備與人類水平相當表現。如在模擬律師考試中, 其分數在應試者前10%, 相比下GPT-3.5在倒數10%左右。多模態大模型在整體復雜度及交互性上已有較大提升, 模型升級有望加速細分垂直應用成熟, 賦能下游智慧化升級, 帶動需求快速增長。 AIGC下游市場滲透率低, 增長空間廣闊。根據 Gartner數據, 目前由人工智能生成的數據占所有數據的 1%以下, 預計2023年將有 20%的內容被生成式AI 所創建, 2025 年人工智能生成數據占比將達到 10%。根據前瞻產業研究院數據, 2025年中國生成式商業AI應用規模將達2070億元, CAGR(2020-2025) 為84.06%。
3月15日 OpenAI發布多模態大模型GPT-4,其不僅在語言處理能力上提高,還具備對圖像的理解和分析能力。GPT-4商業化進程加快,開放API的同時還發布了在6個不同商業場景的應用落地。隨后微軟發布了震撼的微軟365 Copilot,極大提升office的生產力和交互方式。此前,ChatGPT就已經展示了強大的能力,在文字創造、人機交互、教育、影音、零售等多場景落地應用。我們認為,多模態大模型已在多領域具有專家能力,未來將深度賦能千行百業,改變生產生活方式。 **1. 2023年3月15日,OpenAI目前最強大的多模態預訓練大模型GPT-4正式發布。**其能夠處理文本、圖像兩種模態的輸入信息,單次處理文本量是ChatGPT的8倍,GPT-4的表現大大優于目前最好的語言模型,同時在學術考試中的水平遠超GPT3.5。這意味著GPT-4不僅在學術層面上實現了模型優化與突破,同時也展現出了成為部分領域專家的能力。
**2. GPT-4商業化進程加快。**GPT-4在發布時便開放了其純文本輸入的API,這與GPT-3和GPT-3.5的滯后開放不同。同時,GPT-4這次一起推出了6個商業場景的具體應用落地,在優化人機交互體驗、提供專業服務、提升組織效能、文化傳承與保護等方面都展現了巨大的潛能,未來有望看到更多場景中的商業化拓展與落地。 **3. ChatGPT已經刮起GPT生態狂潮。**2023年3月1號,OpenAI基于GPT 3.5 Turbo模型開放了ChatGPT API。API收費模式為0.002美元/1000tokens。相較于前一代開放接口GPT 3.5,性能更強的同時,價格下降90%,加速ChatGPT相關應用生態的發展。 **4.應用百花齊放,創造新的生產方式。**微軟先后在搜索引擎Bing、企業服務平臺Dynamic 365及開發者工具平臺Power Platform等接入 ChatGPT/GPT-4能力。微軟還發布了震撼的Microsoft 365 Copilot,極大提升office的生產力和交互方式。與此同時,在越來越多的企業宣布接入ChatGPT的能力,其中不乏一些已經取得優秀商業化的應用。如Jasper、Quizlet、Shop等,在語言文字創造、人機交互、教育、繪畫、影音、零售等多場景落地應用。 5. 我們認為以GPT4/ChatGPT為代表的預訓練大模型是這一輪AI浪潮的重要革新,重點推薦關注海內外優秀應用落地情況,AI芯片產業鏈等投資機遇。
**GPT技術發展不及預期:**GPT屬于先進AI算法,若后續GPT算法更新迭代效果不及預期,則會影響GPT演進及拓展,進而會影響其商業化落地等; **算法歧視與人權道德風險:**GPT引入基于人工反饋的強化學習,在人工反饋中,不可避免的會參雜歧視問題,從而會將歧視帶入后續的人機交互中;大模型在進行預訓練過程中,使用了大量數據,其中會涉及相關隱私問題; **數據數量與數據質量不及預期:**大模型需要大量的高質量數據進行訓練,若數據數量和質量存在短板,則會影響模型效果。 **GPT接口開放不明確:**目前GPT是否能對國內開放API還不明朗,若未來無法接入,可能將導致相關應用在國內無法落地。 **算力受限:**目前大模型訓練以GPU為主,尤其是英偉達的GPU。未來若GPU產能或者中美摩擦升級,可能導致國內廠商的算力布局。
GPT-4來了!今日凌晨,萬眾矚目的大型多模態模型GPT-4正式發布! OpenAI CEO Sam Altman直接介紹說:
這是我們迄今為止功能最強大的模型!
圖靈獎三巨頭之一Geoffrey Hinton對此贊嘆不已,「毛蟲吸取了營養之后,就會化繭為蝶。而人類提取了數十億個理解的金塊,GPT-4,就是人類的蝴蝶。」
OpenAI發文稱,GPT-4能接受圖像和文本輸入,輸出文本內容,雖然在許多現實場景中的能力不如人類,但在各種專業和學術基準測試中已做到人類水平的表現。GPT-4 實現了以下幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至 2.5 萬字;回答準確性顯著提高;能夠生成歌詞、創意文本,實現風格變化。
它強大到什么程度呢?輸入一張手繪草圖,GPT-4能直接生成最終設計的網頁代碼。
它以高分通過各種標準化考試:SAT拿下700分,GRE幾乎滿分,邏輯能力吊打GPT-3.5。
GPT-4在高級推理能力上超越ChatGPT。在律師模擬考試中,ChatGPT背后的GPT-3.5排名在倒數10%左右,而GPT-4考到了前10%左右。GPT-4的長度限制提升到32K tokens,即能處理超過25000個單詞的文本,并且可以使用長格式內容創建、擴展對話、文檔搜索和分析等。OpenAI還貼心地發布了GPT-4開發者視頻,手把手教你生成代碼、檢查錯誤信息、報稅等。在視頻中,OpenAI聯合創始人兼總裁Greg Brockman說了句有點扎心的話:“它并不完美,但你也一樣。”OpenAI正通過ChatGPT和API發布GPT-4的文本輸入功能,圖像輸入功能暫未開放。ChatGPT plus訂閱者可直接獲得有使用上限的GPT-4的試用權,4小時內最多只能發布100條信息。開發者也可以申請GPT-4 API,進入候補名單等待通過。
**申請直通門:**//t.cn/A6ClOHn7隨著時間的推移,OpenAI會將其自動更新為推薦的穩定模型(你可以通過調用gpt-4-0314來鎖定當前版本,OpenAI將支持到6月14日)。定價是每1k prompt tokens 0.03美元,每1k completion tokens 0.06美元。默認速率限制是每分鐘40k tokens和每分鐘200個請求。gpt-4的上下文長度為8192個tokens。還提供對32768個上下文(約50頁文本)版本gpt-4-32k的有限訪問,該版本也將隨著時間的推移自動更新(當前版本gpt-4-32k-0314,也將支持到6月14日)。價格是每1k prompt tokens 0.06美元,每1K completion tokens 0.12美元。此外,OpenAI還開源了用于自動評估AI模型性能的框架OpenAI Evals,以便開發者更好的評測模型的優缺點,從而指導團隊進一步改進模型。開源地址:github.com/openai/evalsGPT-4 技術報告
本文報告了GPT-4的發展,這是一個大規模的多模態模型,可以接受圖像和文本輸入并產生文本輸出。雖然在許多現實世界的場景中,GPT-4的能力不如人類,但它在各種專業和學術基準上表現出了人類水平的表現,包括通過了模擬的律師考試,其分數約為考生的前10%。GPT-4是一個基于transformer的模型,預訓練用于預測文檔中的下一個token。訓練后的校準過程會提高對事實的衡量和對期望行為的堅持程度。該項目的一個核心組件是開發基礎設施和優化方法,這些方法可以在廣泛的范圍內預測性能。這使我們能夠基于不超過GPT-4計算量的1/ 1000的訓練模型準確地預測GPT-4性能的某些方面。本技術報告介紹了GPT-4,一個能夠處理圖像和文本輸入并產生文本輸出的大型多模態模型。此類模型是一個重要的研究領域,具有廣泛的應用前景,如對話系統、文本摘要和機器翻譯。因此,近年來,它們一直是人們感興趣和取得進展的主題[1-28]。開發這樣的模型的主要目標之一是提高它們理解和生成自然語言文本的能力,特別是在更復雜和微妙的情況下。為了測試它在這種情況下的能力,在最初為人類設計的各種考試中對GPT-4進行了評估。在這些評估中,它表現得相當好,經常超過絕大多數人類考生。例如,在模擬的律師考試中,GPT-4的分數落在了考生的前10%。這與GPT-3.5形成對比,GPT-3.5得分在最后10%。在一套傳統的NLP基準測試中,GPT-4的表現優于之前的大型語言模型和大多數最先進的系統(這些系統通常有基準特定的訓練或手工工程)。在MMLU基準29,30上,GPT-4不僅在英語方面以相當大的優勢超過現有模型,而且在其他語言方面也表現出強大的性能。在MMLU的翻譯變體上,GPT-4在考慮的26種語言中的24種超過了英語的最先進水平。我們將在后面的章節中更詳細地討論這些模型能力結果,以及模型安全性的改進和結果。本報告還討論了該項目的一個關鍵挑戰,即開發在大范圍內表現可預測的深度學習基礎設施和優化方法。這使我們能夠對GPT-4的預期性能做出預測(基于以類似方式訓練的小測試),并在最后的測試中進行測試,以增加我們對訓練的信心。盡管GPT-4功能強大,但它與早期的GPT模型有相似的局限性[1,31,32]:它不完全可靠(例如,可能會出現“幻覺”),上下文窗口有限,并且不能從經驗中學習。在使用GPT-4輸出時應小心,特別是在可靠性很重要的情況下。GPT-4的能力和局限性帶來了重大而新穎的安全挑戰,我們認為,考慮到潛在的社會影響,仔細研究這些挑戰是一個重要的研究領域。本報告包括一個廣泛的系統卡(在附錄之后),描述了我們預計的關于偏見、虛假信息、過度依賴、隱私、網絡安全、擴散等方面的一些風險。它還描述了我們為減輕GPT-4部署帶來的潛在危害而采取的干預措施,包括與領域專家進行對抗性測試,以及一個模型輔助的安全通道。本報告重點介紹了GPT-4的功能、局限性和安全性。GPT-4是[33]預訓練的transformer風格的模型,可以使用公開可用的數據(如互聯網數據)和第三方提供商授權的數據來預測文檔中的下一個Token。然后使用來自人類反饋的強化學習(RLHF)[34]對模型進行微調。考慮到大型模型(如GPT-4)的安全影響,本報告沒有包含有關架構(包括模型大小)、硬件、訓練計算、數據集構造、訓練方法或類似內容的進一步細節。我們致力于對我們的技術進行獨立審計,并在這個版本附帶的系統卡中分享了這一領域的一些初始步驟和想法我們計劃向更多的第三方提供進一步的技術細節,他們可以就如何權衡上述競爭和安全考慮與進一步透明的科學價值提供建議
OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮,它面對多種多樣的問題對答如流,似乎已經打破了機器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model,LLM) 生成領域的新訓練范式:來自普林斯頓博士生Ameet Deshpande講述《大型語言模型》技術細節,值得關注!
ChatGPT:AIGC現象級應用,商業化落地打開成長空間
ChatGPT上線后熱度持續提升,已超過TikTok成為活躍用戶增長最快的產品。英偉達CEO黃仁勛表示“ChatGPT相當于AI界的iPhone問世”。目前ChatGPT已開啟商業化探索,面向B端開放接口對外輸出服務(如與微軟Bing的結合);面向C端推出收費的Plus版本,月度費用為20美元/月。根據OpenAI預測,2023年將實現2億美元收入,2024年將超過10億美元,未來成長空間廣闊。
大模型+大數據+高算力,ChatGPT不斷突破
(1)預訓練大模型:GPT大模型是ChatGPT的基礎,目前已經過多個版本迭代,GPT-3版本參數量達1750億,訓練效果持續優化。(2)數據:數據是預訓練大模型的原材料。GPT-3數據主要來自CommonCrawl、新聞、帖子、書籍及各種網頁,原始數據規模達45TB,訓練效果大幅提升。(3)算力:微軟AzureAI是OpenAI獨家云計算供應商,所用超算擁有285,000個CPU內核、約10,000個GPU。在大模型、大數據和高算力的支撐下,ChatGPT技術持續突破,表現驚艷。
巨頭積極布局,產業落地加速
AIGC在AI技術創新(生成算法、預訓練模型、多模態技術等)、產業生態(三層生態體系雛形已現)和政策支持(北京經信局表示支持頭部企業打造對標ChatGPT的大模型)共振下,有望步入發展快車道,根據騰訊研究院發布的AIGC發展趨勢報告,預計2030年AIGC市場規模將達1100億美元,前景廣闊。
(1)微軟:微軟自2019年與OpenAI展開合作,并表示未來所有產品將全線整合ChatGPT。目前已推出引入ChatGPT技術的搜索引擎NewBing,經過測試后,71%的用戶對ChatGPT版Bing滿意,AI與搜索協同效果顯著。
(2)谷歌:2023年2月谷歌推出對標ChatGPT的對話機器人Bard。Bard基于谷歌LaMDA模型,參數量最高達1370億,LaMDA已經在多個維度接近人類水平。谷歌表示未來會將AI技術率先應用于搜索領域,或將與微軟展開正面競爭。
(3)百度:百度在AI領域深耕數十年,在芯片、深度學習框架、大模型以及應用已形成全棧布局,已有文心一格(AI作畫)、文心百中(產業搜索)產品落地。2023年2月,百度推出聊天機器人“文心一言”,目前生態合作伙伴近300家,未來可期。
OpenAI 推出的 ChatGPT 對話模型掀起了新的 AI 熱潮,它面對多種多樣的問題對答如流,似乎已經打破了機器和人的邊界。這一工作的背后是大型語言模型 (Large Language Model,LLM) 生成領域的新訓練范式:RLHF (Reinforcement Learning from Human Feedback) ,即以強化學習方式依據人類反饋優化語言模型。
過去幾年里各種 LLM 根據人類輸入提示 (prompt) 生成多樣化文本的能力令人印象深刻。然而,對生成結果的評估是主觀和依賴上下文的,例如,我們希望模型生成一個有創意的故事、一段真實的信息性文本,或者是可執行的代碼片段,這些結果難以用現有的基于規則的文本生成指標 (如 BLUE 和 ROUGE) 來衡量。除了評估指標,現有的模型通常以預測下一個單詞的方式和簡單的損失函數 (如交叉熵) 來建模,沒有顯式地引入人的偏好和主觀意見。 如果我們 用生成文本的人工反饋作為性能衡量標準,或者更進一步用該反饋作為損失來優化模型,那不是更好嗎?這就是 RLHF 的思想:使用強化學習的方式直接優化帶有人類反饋的語言模型。RLHF 使得在一般文本數據語料庫上訓練的語言模型能和復雜的人類價值觀對齊。 看看 ChatGPT 是如何解釋 RLHF 的:
ChatGPT 解釋的很好,但還沒有完全講透;讓我們更具體一點吧!
RLHF 是一項涉及多個模型和不同訓練階段的復雜概念,這里我們按三個步驟分解:
首先,我們使用經典的預訓練目標訓練一個語言模型。對這一步的模型,OpenAI 在其第一個流行的 RLHF 模型 InstructGPT 中使用了較小版本的 GPT-3; Anthropic 使用了 1000 萬 ~ 520 億參數的 Transformer 模型進行訓練;DeepMind 使用了自家的 2800 億參數模型 Gopher。 這里可以用額外的文本或者條件對這個 LM 進行微調,例如 OpenAI 對 “更可取” (preferable) 的人工生成文本進行了微調,而 Anthropic 按 “有用、誠實和無害” 的標準在上下文線索上蒸餾了原始的 LM。這里或許使用了昂貴的增強數據,但并不是 RLHF 必須的一步。由于 RLHF 還是一個尚待探索的領域,對于” 哪種模型” 適合作為 RLHF 的起點并沒有明確的答案。
接下來,我們會基于 LM 來生成訓練獎勵模型 (RM,也叫偏好模型) 的數據,并在這一步引入人類的偏好信息。
RM 的訓練是 RLHF 區別于舊范式的開端。這一模型接收一系列文本并返回一個標量獎勵,數值上對應人的偏好。我們可以用端到端的方式用 LM 建模,或者用模塊化的系統建模 (比如對輸出進行排名,再將排名轉換為獎勵) 。這一獎勵數值將對后續無縫接入現有的 RL 算法至關重要。 關于模型選擇方面,RM 可以是另一個經過微調的 LM,也可以是根據偏好數據從頭開始訓練的 LM。例如 Anthropic 提出了一種特殊的預訓練方式,即用偏好模型預訓練 (Preference Model Pretraining,PMP) 來替換一般預訓練后的微調過程。因為前者被認為對樣本數據的利用率更高。但對于哪種 RM 更好尚無定論。 關于訓練文本方面,RM 的提示 - 生成對文本是從預定義數據集中采樣生成的,并用初始的 LM 給這些提示生成文本。Anthropic 的數據主要是通過 Amazon Mechanical Turk 上的聊天工具生成的,并在 Hub 上可用 (//huggingface.co/datasets/Anthropic/hh-rlhf),而 OpenAI 使用了用戶提交給 GPT API 的 prompt。 關于訓練獎勵數值方面,這里需要人工對 LM 生成的回答進行排名。起初我們可能會認為應該直接對文本標注分數來訓練 RM,但是由于標注者的價值觀不同導致這些分數未經過校準并且充滿噪音。通過排名可以比較多個模型的輸出并構建更好的規范數據集。 對具體的排名方式,一種成功的方式是對不同 LM 在相同提示下的輸出進行比較,然后使用 Elo 系統建立一個完整的排名。這些不同的排名結果將被歸一化為用于訓練的標量獎勵值。 這個過程中一個有趣的產物是目前成功的 RLHF 系統使用了和生成模型具有 不同 大小的 LM (例如 OpenAI 使用了 175B 的 LM 和 6B 的 RM,Anthropic 使用的 LM 和 RM 從 10B 到 52B 大小不等,DeepMind 使用了 70B 的 Chinchilla 模型分別作為 LM 和 RM) 。一種直覺是,偏好模型和生成模型需要具有類似的能力來理解提供給它們的文本。
接下來是最后一步:利用 RM 輸出的獎勵,用強化學習方式微調優化 LM。
長期以來出于工程和算法原因,人們認為用強化學習訓練 LM 是不可能的。而目前多個組織找到的可行方案是使用策略梯度強化學習 (Policy Gradient RL) 算法、近端策略優化 (Proximal Policy Optimization,PPO) 微調初始 LM 的部分或全部參數。因為微調整個 10B~100B+ 參數的成本過高 (相關工作參考低秩適應 LoRA 和 DeepMind 的 Sparrow LM) 。PPO 算法已經存在了相對較長的時間,有大量關于其原理的指南,因而成為 RLHF 中的有利選擇。 事實證明,RLHF 的許多核心 RL 進步一直在弄清楚如何將熟悉的 RL 算法應用到更新如此大的模型。 讓我們首先將微調任務表述為 RL 問題。首先,該策略 (policy) 是一個接受提示并返回一系列文本 (或文本的概率分布) 的 LM。這個策略的行動空間 (action space) 是 LM 的詞表對應的所有詞元 (一般在 50k 數量級) ,觀察空間 (observation space) 是可能的輸入詞元序列,也比較大 (詞匯量 ^ 輸入標記的數量) 。獎勵函數是偏好模型和策略轉變約束 (Policy shift constraint) 的結合。 PPO 算法確定的獎勵函數具體計算如下:將提示 輸入初始 LM 和當前微調的 LM,分別得到了輸出文本 ,將來自當前策略的文本傳遞給 RM 得到一個標量的獎勵 。將兩個模型的生成文本進行比較計算差異的懲罰項,在來自 OpenAI、Anthropic 和 DeepMind 的多篇論文中設計為輸出詞分布序列之間的 Kullback–Leibler (KL) 散度的縮放,即 。這一項被用于懲罰 RL 策略在每個訓練批次中生成大幅偏離初始模型,以確保模型輸出合理連貫的文本。如果去掉這一懲罰項可能導致模型在優化中生成亂碼文本來愚弄獎勵模型提供高獎勵值。此外,OpenAI 在 InstructGPT 上實驗了在 PPO 添加新的預訓練梯度,可以預見到獎勵函數的公式會隨著 RLHF 研究的進展而繼續進化。 最后根據 PPO 算法,我們按當前批次數據的獎勵指標進行優化 (來自 PPO 算法 on-policy 的特性) 。PPO 算法是一種信賴域優化 (Trust Region Optimization,TRO) 算法,它使用梯度約束確保更新步驟不會破壞學習過程的穩定性。DeepMind 對 Gopher 使用了類似的獎勵設置,但是使用 A2C (synchronous advantage actor-critic) 算法來優化梯度。
作為一個可選項,RLHF 可以通過迭代 RM 和策略共同優化。隨著策略模型更新,用戶可以繼續將輸出和早期的輸出進行合并排名。Anthropic 在他們的論文中討論了迭代在線 RLHF,其中策略的迭代包含在跨模型的 Elo 排名系統中。這樣引入策略和 RM 演變的復雜動態,代表了一個復雜和開放的研究問題。
盡管 RLHF 取得了一定的成果和關注,但依然存在局限。這些模型依然會毫無不確定性地輸出有害或者不真實的文本。這種不完美也是 RLHF 的長期挑戰和動力 —— 在人類的固有領域中運行意味著永遠不會到達一個完美的標準。 收集人類偏好數據的質量和數量決定了 RLHF 系統性能的上限。RLHF 系統需要兩種人類偏好數據:人工生成的文本和對模型輸出的偏好標簽。生成高質量回答需要雇傭兼職人員 (而不能依賴產品用戶和眾包) 。另一方面,訓練 RM 需要的獎勵標簽規模大概是 50k 左右,所以并不那么昂貴 (當然遠超了學術實驗室的預算) 。目前相關的數據集只有一個基于通用 LM 的 RLHF 數據集 (來自 Anthropic) 和幾個較小的子任務數據集 (如來自 OpenAI 的摘要數據集) 。另一個挑戰來自標注者的偏見。幾個人類標注者可能有不同意見,導致了訓練數據存在一些潛在差異。 除開數據方面的限制,一些有待開發的設計選項可以讓 RLHF 取得長足進步。例如對 RL 優化器的改進方面,PPO 是一種較舊的算法,但目前沒有什么結構性原因讓其他算法可以在現有 RLHF 工作中更具有優勢。另外,微調 LM 策略的一大成本是策略生成的文本都需要在 RM 上進行評估,通過離線 RL 優化策略可以節約這些大模型 RM 的預測成本。最近,出現了新的 RL 算法如隱式語言 Q 學習 (Implicit Language Q-Learning,ILQL) 也適用于當前 RL 的優化。在 RL 訓練過程的其他核心權衡,例如探索和開發 (exploration-exploitation) 的平衡也有待嘗試和記錄。探索這些方向至少能加深我們對 RLHF 的理解,更進一步提升系統的表現。
首先介紹一些相關的開源工作: 關于 RLHF 的第一個項目,來自 OpenAI: PyTorch 的 repo: *
此外,Huggingface Hub 上有一個由 Anthropic 創建的大型數據集: 相關論文包括在現有 LM 前的 RLHF 進展和基于當前 LM 的 RLHF 工作:
本文翻譯自 Hugging Face 官方博客 () 參考資料部分鏈接請點擊閱讀原文到博客上查看。你也可以查看我們的直播活動回放了解更多: 本文譯者: 李濼秋,浙江大學計算機科學碩士,主要研究 NLP 領域。 我們正在招募更多翻譯志愿者幫助我們擴充官方公眾號內容,如果你感興趣,歡迎通過文章下方的留言功能介紹自己,并留下聯系方式。謝謝!
**刷爆的ChatGPT什么算法這么強!臺大李宏毅老師國語講解《ChatGPT (可能)是怎么煉成的 》! **
** **
** **
AIGC多模態跨模態應用逐漸成熟,市場空間廣闊。 廣義的AIGC指具備生成創造能力的AI技術,即生成式AI。可以基于訓練數據和生成算法模型,自主生成創造新的文本、圖像、音樂、視頻等內容。2022年被稱為AIGC元年,未來兼具大模型和多模態模型的AIGC模型有望成為新的技術平臺。據《中國AI數字商業產業展望2021-2025》報告,預測AI數字商業內容的市場規模將從2020年的40億元,增加到2025年的495億元。 ChatGPT產品歷經多代技術演進,產品與商業模式逐漸成熟。 ChatGPT是文本生成式AI,過去的傳統AI偏向于分析能力,主要基于已有內容;現在文本生成式AI基于底層Transformer模型,不斷訓練數據和迭代生成算法模型,歷經GPT-1、GPT-2、GPT-3,模型不斷升級,到ChatGPT的GPT3.5模型,已可以自主生成各種形式的內容。近期收費版ChatGPTPlus版本發布,AI商業化序幕逐漸拉開。 AI商業化落地在即,行業算法側和算力側投資機會有望超預期。 根據數據顯示,ChatGPT總算力消耗約為3640PF-Days,按國內的數據中心算力測算,需要7-8個數據中心才能支持其運行。各模態AI數據訓練到應用均需要算法和算力的加持,未來要想大規模應用,算法訓練和算力部署均需先行。
GPT-3: Few-Shot Learning with a Giant Language Model
最近的工作表明,通過對大量文本語料庫進行預訓練,然后對特定任務進行微調,在許多NLP任務和基準測試方面取得了實質性進展。雖然這種方法在架構中通常與任務無關,但它仍然需要成千上萬個樣例的特定于任務的微調數據集。相比之下,人類通常只通過幾個例子或簡單的指令就能完成一項新的語言任務——這是目前的NLP系統在很大程度上難以做到的。我將討論GPT-3,這是一種具有1750億個參數的自回歸語言模型,它演示了如何擴大語言模型可以極大地改善與任務無關的、少樣本的性能,有時甚至可以達到與先前的最先進的微調方法相媲美的競爭力。GPT-3可以應用于沒有任何漸變更新或微調的任務,與少數樣本演示指定純粹通過文本與模型的交互。我將概述GPT-3是什么以及它是如何工作的,討論我們從這樣一個系統中看到的功能,以及它們如何啟用與語言模型交互的新方式,此外還將關注這些交互帶來的局限性和更廣泛的問題。
//nlp.stanford.edu/seminar/details/melaniesubbiah.shtml