一级a视频免费一区二区,久久综合久久香蕉网欧美,WWW免费高清视频精品,一本大道久久香蕉AV网站

GPT-4來了！今日凌晨，萬眾矚目的大型多模態模型GPT-4正式發布！ OpenAI CEO Sam Altman直接介紹說：

這是我們迄今為止功能最強大的模型！

圖靈獎三巨頭之一Geoffrey Hinton對此贊嘆不已，「毛蟲吸取了營養之后，就會化繭為蝶。而人類提取了數十億個理解的金塊，GPT-4，就是人類的蝴蝶。」

OpenAI發文稱，GPT-4能接受圖像和文本輸入，輸出文本內容，雖然在許多現實場景中的能力不如人類，但在各種專業和學術基準測試中已做到人類水平的表現。GPT-4 實現了以下幾個方面的飛躍式提升：強大的識圖能力；文字輸入限制提升至 2.5 萬字；回答準確性顯著提高；能夠生成歌詞、創意文本，實現風格變化。

它強大到什么程度呢？輸入一張手繪草圖，GPT-4能直接生成最終設計的網頁代碼。

它以高分通過各種標準化考試：SAT拿下700分，GRE幾乎滿分，邏輯能力吊打GPT-3.5。

GPT-4在高級推理能力上超越ChatGPT。在律師模擬考試中，ChatGPT背后的GPT-3.5排名在倒數10%左右，而GPT-4考到了前10%左右。GPT-4的長度限制提升到32K tokens，即能處理超過25000個單詞的文本，并且可以使用長格式內容創建、擴展對話、文檔搜索和分析等。OpenAI還貼心地發布了GPT-4開發者視頻，手把手教你生成代碼、檢查錯誤信息、報稅等。在視頻中，OpenAI聯合創始人兼總裁Greg Brockman說了句有點扎心的話：“它并不完美，但你也一樣。”OpenAI正通過ChatGPT和API發布GPT-4的文本輸入功能，圖像輸入功能暫未開放。ChatGPT plus訂閱者可直接獲得有使用上限的GPT-4的試用權，4小時內最多只能發布100條信息。開發者也可以申請GPT-4 API，進入候補名單等待通過。

**申請直通門：**//t.cn/A6ClOHn7隨著時間的推移，OpenAI會將其自動更新為推薦的穩定模型（你可以通過調用gpt-4-0314來鎖定當前版本，OpenAI將支持到6月14日）。定價是每1k prompt tokens 0.03美元，每1k completion tokens 0.06美元。默認速率限制是每分鐘40k tokens和每分鐘200個請求。gpt-4的上下文長度為8192個tokens。還提供對32768個上下文（約50頁文本）版本gpt-4-32k的有限訪問，該版本也將隨著時間的推移自動更新（當前版本gpt-4-32k-0314，也將支持到6月14日）。價格是每1k prompt tokens 0.06美元，每1K completion tokens 0.12美元。此外，OpenAI還開源了用于自動評估AI模型性能的框架OpenAI Evals，以便開發者更好的評測模型的優缺點，從而指導團隊進一步改進模型。開源地址：github.com/openai/evalsGPT-4 技術報告

本文報告了GPT-4的發展，這是一個大規模的多模態模型，可以接受圖像和文本輸入并產生文本輸出。雖然在許多現實世界的場景中，GPT-4的能力不如人類，但它在各種專業和學術基準上表現出了人類水平的表現，包括通過了模擬的律師考試，其分數約為考生的前10%。GPT-4是一個基于transformer的模型，預訓練用于預測文檔中的下一個token。訓練后的校準過程會提高對事實的衡量和對期望行為的堅持程度。該項目的一個核心組件是開發基礎設施和優化方法，這些方法可以在廣泛的范圍內預測性能。這使我們能夠基于不超過GPT-4計算量的1/ 1000的訓練模型準確地預測GPT-4性能的某些方面。本技術報告介紹了GPT-4，一個能夠處理圖像和文本輸入并產生文本輸出的大型多模態模型。此類模型是一個重要的研究領域，具有廣泛的應用前景，如對話系統、文本摘要和機器翻譯。因此，近年來，它們一直是人們感興趣和取得進展的主題[1-28]。開發這樣的模型的主要目標之一是提高它們理解和生成自然語言文本的能力，特別是在更復雜和微妙的情況下。為了測試它在這種情況下的能力，在最初為人類設計的各種考試中對GPT-4進行了評估。在這些評估中，它表現得相當好，經常超過絕大多數人類考生。例如，在模擬的律師考試中，GPT-4的分數落在了考生的前10%。這與GPT-3.5形成對比，GPT-3.5得分在最后10%。在一套傳統的NLP基準測試中，GPT-4的表現優于之前的大型語言模型和大多數最先進的系統(這些系統通常有基準特定的訓練或手工工程)。在MMLU基準29,30上，GPT-4不僅在英語方面以相當大的優勢超過現有模型，而且在其他語言方面也表現出強大的性能。在MMLU的翻譯變體上，GPT-4在考慮的26種語言中的24種超過了英語的最先進水平。我們將在后面的章節中更詳細地討論這些模型能力結果，以及模型安全性的改進和結果。本報告還討論了該項目的一個關鍵挑戰，即開發在大范圍內表現可預測的深度學習基礎設施和優化方法。這使我們能夠對GPT-4的預期性能做出預測(基于以類似方式訓練的小測試)，并在最后的測試中進行測試，以增加我們對訓練的信心。盡管GPT-4功能強大，但它與早期的GPT模型有相似的局限性[1,31,32]:它不完全可靠(例如，可能會出現“幻覺”)，上下文窗口有限，并且不能從經驗中學習。在使用GPT-4輸出時應小心，特別是在可靠性很重要的情況下。GPT-4的能力和局限性帶來了重大而新穎的安全挑戰，我們認為，考慮到潛在的社會影響，仔細研究這些挑戰是一個重要的研究領域。本報告包括一個廣泛的系統卡(在附錄之后)，描述了我們預計的關于偏見、虛假信息、過度依賴、隱私、網絡安全、擴散等方面的一些風險。它還描述了我們為減輕GPT-4部署帶來的潛在危害而采取的干預措施，包括與領域專家進行對抗性測試，以及一個模型輔助的安全通道。本報告重點介紹了GPT-4的功能、局限性和安全性。GPT-4是[33]預訓練的transformer風格的模型，可以使用公開可用的數據(如互聯網數據)和第三方提供商授權的數據來預測文檔中的下一個Token。然后使用來自人類反饋的強化學習(RLHF)[34]對模型進行微調。考慮到大型模型(如GPT-4)的安全影響，本報告沒有包含有關架構(包括模型大小)、硬件、訓練計算、數據集構造、訓練方法或類似內容的進一步細節。我們致力于對我們的技術進行獨立審計，并在這個版本附帶的系統卡中分享了這一領域的一些初始步驟和想法我們計劃向更多的第三方提供進一步的技術細節，他們可以就如何權衡上述競爭和安全考慮與進一步透明的科學價值提供建議

付費5元查看完整內容

相關內容

GPT-4

關注 0

北京時間2023年3月15日凌晨，ChatGPT開發商OpenAI 發布了發布了全新的多模態預訓練大模型 GPT-4，可以更可靠、更具創造力、能處理更細節的指令，根據圖片和文字提示都能生成相應內容。具體來說來說，GPT-4 相比上一代的模型，實現了飛躍式提升：支持圖像和文本輸入，擁有強大的識圖能力；大幅提升了文字輸入限制，在ChatGPT模式下，GPT-4可以處理超過2.5萬字的文本，可以處理一些更加細節的指令；回答準確性也得到了顯著提高。

ChatGPT · GPT-4 ·

2023 年 3 月 31 日

[付費5元查看完整內容]【ChatGPT系列報告】GPT-4專題-構建模型理解能力，商業落地未來可期

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

AI大模型持續演進，GPT-4理解能力大幅提升。2022年11月30日，OpenAI發布ChatGPT，5天后即達到100萬用戶，是歷史上用戶增長最快的應用程序。2023年3月15日，OpenAI發布GPT-4，GPT4相比ChatGPT基于的GPT-3.5模型，其在多模態、理解能力、角色認知、長文本支持方面有了明顯進展。我們認為，無論從應用上的用戶增長，還是在模型上的能力提升方面，均具備極大優勢。　　AI大模型加速應用升級，AIGC有望對多個行業帶來顛覆式創新。2023年2月8日，微軟正式將ChatGPT引入Bing，3月17日微軟宣布其正在將基于GPT-4的AI技術植入Office辦公軟件中，標志著以GPT-3.5和GPT-4為代表的大模型開啟了辦公和搜索新方式，我們認為，未來AI大模型的發展和推廣將率先帶來游戲、代碼編碼、生命科學3個行業的變革。此外，多模態將賦能生成式AI，在文本、音頻、圖像和視頻等場景實現商業化落地，軟件端和硬件端有望迎來新機遇，其中，我們將重點關注大模型對工具類軟件和多場景的賦能，在工具側有望帶來以CAD、EDA、ERP為主的工具類軟件的估值重構。　　GPT-4引發海量算力需求，把握算力產業鏈機會。根據測算，我們認為，在中性假設下，ChatGPT一年產生的API調用費用約為6.2億美元，與此同時，ChatGPT將在訓練和推理層面對GPU產生巨大需求。根據OpenAI公開信息，GPT-3.5模型的API價格為0.002美元/千token，而GPT-4在請求方面的API價格為0.06美元/千token，回復方面為0.12美元/千token，以0.06美元/千token計算，GPT-4的API調用成本是GPT-3.5的30倍以上，算力相關需求有望翻倍增長。

付費5元查看完整內容

ChatGPT · 文心一言 · GPT3.5 · GPT-4 ·

2023 年 3 月 21 日

[付費5元查看完整內容]【ChatGPT系列報告】文心一言、GPT3.5及GPT-4的應用測評對比，32頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

ChatGPT系列報告地址：//www.zhuanzhi.ai/topic/tpcac5a15a1c8b5293bfc970b97839eaf7

OpenAI于2023年3月14日發布最新版本多模態大模型GPT-4及其API；國內百度于3月16日發布生成式大模型“文心一言”并開放邀請測試。為對比國內外大模型在各領域的性能差異，我們對文心一言、GPT-3.5（ChatGPT的原模型）和GPT-4的問答表現分別進行了測評。測評涉及常識和創作（文學/圖片）、歸納和推理（演繹推理/情感推理/邏輯推理/主體信息抽取）、數學和代碼、應用（AI助手/客服/辦公協同/推薦/詩詞理解）等方面。

　　在常識和創作類問題中，三大模型均能正確回答客觀常識類問題；進行文學創作結果均能體現正面價值觀，但文心一言的分詞功能有待提升；目前GPT-4尚未開放圖像生成外部測試，文心一言的圖像生成能力較為出色。　　　在歸納和推理類問題中，文心一言在演繹推理、邏輯推理等領域表現略遜于GPT系列模型，但在歸納總結類任務中表現較好；三大模型在情感推理類問題中仍有提升空間。　　　在數學和代碼類問題中，GPT-3.5有更好的數學能力表現；GPT-3.5及GPT-4模型均完成了本文提出的代碼生成問題，但并非最優解，文心一言代碼問題識別能力有待加強。　　　在應用場景測試中，三大模型均能較好地完成AI生活助手、售后客服、產品推薦、辦公場景文本生成等任務，但在文言文和古詩詞理解運用方面表現不佳。　　　我們認為隨百度文心及OpenAI合作生態伙伴數量快速增長、訓練數據量和模型訓練能力持續提升，各模型性能都有望實現進一步優化完善。

付費5元查看完整內容

ChatGPT · GPT-4 ·

2023 年 3 月 19 日

[付費5元查看完整內容]【ChatGPT系列報告】GPT-4及ChatGPT相關應用梳理，33頁ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

3月15日 OpenAI發布多模態大模型GPT-4，其不僅在語言處理能力上提高，還具備對圖像的理解和分析能力。GPT-4商業化進程加快，開放API的同時還發布了在6個不同商業場景的應用落地。隨后微軟發布了震撼的微軟365 Copilot，極大提升office的生產力和交互方式。此前，ChatGPT就已經展示了強大的能力，在文字創造、人機交互、教育、影音、零售等多場景落地應用。我們認為，多模態大模型已在多領域具有專家能力，未來將深度賦能千行百業，改變生產生活方式。 **1. 2023年3月15日，OpenAI目前最強大的多模態預訓練大模型GPT-4正式發布。**其能夠處理文本、圖像兩種模態的輸入信息，單次處理文本量是ChatGPT的8倍，GPT-4的表現大大優于目前最好的語言模型，同時在學術考試中的水平遠超GPT3.5。這意味著GPT-4不僅在學術層面上實現了模型優化與突破，同時也展現出了成為部分領域專家的能力。

**2. GPT-4商業化進程加快。**GPT-4在發布時便開放了其純文本輸入的API，這與GPT-3和GPT-3.5的滯后開放不同。同時，GPT-4這次一起推出了6個商業場景的具體應用落地，在優化人機交互體驗、提供專業服務、提升組織效能、文化傳承與保護等方面都展現了巨大的潛能，未來有望看到更多場景中的商業化拓展與落地。 **3. ChatGPT已經刮起GPT生態狂潮。**2023年3月1號，OpenAI基于GPT 3.5 Turbo模型開放了ChatGPT API。API收費模式為0.002美元/1000tokens。相較于前一代開放接口GPT 3.5，性能更強的同時，價格下降90%，加速ChatGPT相關應用生態的發展。 **4.應用百花齊放，創造新的生產方式。**微軟先后在搜索引擎Bing、企業服務平臺Dynamic 365及開發者工具平臺Power Platform等接入 ChatGPT/GPT-4能力。微軟還發布了震撼的Microsoft 365 Copilot，極大提升office的生產力和交互方式。與此同時，在越來越多的企業宣布接入ChatGPT的能力，其中不乏一些已經取得優秀商業化的應用。如Jasper、Quizlet、Shop等，在語言文字創造、人機交互、教育、繪畫、影音、零售等多場景落地應用。 5. 我們認為以GPT4/ChatGPT為代表的預訓練大模型是這一輪AI浪潮的重要革新，重點推薦關注海內外優秀應用落地情況，AI芯片產業鏈等投資機遇。

**GPT技術發展不及預期：**GPT屬于先進AI算法，若后續GPT算法更新迭代效果不及預期，則會影響GPT演進及拓展，進而會影響其商業化落地等； **算法歧視與人權道德風險：**GPT引入基于人工反饋的強化學習，在人工反饋中，不可避免的會參雜歧視問題，從而會將歧視帶入后續的人機交互中；大模型在進行預訓練過程中，使用了大量數據，其中會涉及相關隱私問題； **數據數量與數據質量不及預期：**大模型需要大量的高質量數據進行訓練，若數據數量和質量存在短板，則會影響模型效果。 **GPT接口開放不明確：**目前GPT是否能對國內開放API還不明朗，若未來無法接入，可能將導致相關應用在國內無法落地。 **算力受限：**目前大模型訓練以GPU為主，尤其是英偉達的GPU。未來若GPU產能或者中美摩擦升級，可能導致國內廠商的算力布局。

付費5元查看完整內容

ChatGPT · GPT-4 ·

2023 年 3 月 17 日

[付費5元查看完整內容]【ChatGPT報告】OpenAI正式推出GPT-4，性能大幅躍升，再添技術里程碑

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

下游突破：GPT-4能力躍遷打開技術可用性上限

　　GPT-4突破了僅適配淺層任務處理的定位，將深度參與人類工作流。這基于GPT-4相比GPT-3.5的能力全面提升：1）更可靠，更有創造力，可以理解并處理指令的微妙之處；2）具備更高智能，在學術和專業考試中表現接近人類最好水平；3）接受圖文類模特輸入，可將應用范圍拓展至機器人、智能駕駛等領域；4）利用模型調試、工程補丁、眾包測評等方式減少謬誤性顯示，解決體驗痛點。　　　上游需求：模型復雜度加大，大幅提升算力需求　　　我們認為，GPT-4的模型規模或將創新高，在訓練和運行時極可能造成較大的算力壓力。目前，OpenAI未披露具體模型規模參數，但更長的輸入量即更多的token，意味著指數級躍升的關聯性計算需求；而多模態指向更復雜的模型設計和訓練數據集。OpenAI在工程上進行優化緩解算力壓力，但多模態大模型因其特質，計算量激增，我們判斷，行業對算力的需求仍將維持高速增長態勢。　　　大模型商業化：OpenAI已跑通多條商業化路徑　　　商業化主要分為自有產品部分直接變現和ToB集成，倚靠行業領先的技術地位，OpenAI在較短時間內進行了較充分地變現嘗試。對于自有產品部分，GPT-4不再進行免費開放，意向用戶都需要直接或者間接參與商業轉化。集成進第三方產品思路上，OpenAI已涉及多個行業領域，并具備服務千萬級月活流量的能力。　　　大模型國產化：珠玉在前，國內廠商追趕在即　　　國外的快速進展對國內大模型參與者造成一定壓力。工程量爆發性增長，項目閉源導致國產化難度高企。在此追趕期間，參考辦公軟件領域發展歷程，國內玩家可選本土化思路，即創建合規的基本可用的版本。對于開發垂直小模型進行差異化競爭，因大模型泛化能力不斷增強，小模型市場空間有限。　

付費5元查看完整內容

GPT-4 · 多模態模型 · 多模態大模型 · ChatGPT ·

2023 年 3 月 15 日

[付費5元查看完整內容]GPT-4震撼發布：多模態大模型，直接升級ChatGPT、必應，開放API，游戲終結了？

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器之心報道機器之心編輯部

ChatGPT 點燃了科技行業的明燈，GPT-4 能燎原嗎？

誰能革得了 ChatGPT 的命？現在看來還是 OpenAI 自己。在 ChatGPT 引爆科技領域之后，人們一直在討論 AI「下一步」的發展會是什么，很多學者都提到了多模態，我們并沒有等太久。今天凌晨，OpenAI 發布了多模態預訓練大模型 GPT-4。

GPT-4 實現了以下幾個方面的飛躍式提升：強大的識圖能力；文字輸入限制提升至 2.5 萬字；回答準確性顯著提高；能夠生成歌詞、創意文本，實現風格變化。

「GPT-4 是世界第一款高體驗，強能力的先進AI系統，我們希望很快把它推向所有人，」OpenAI 工程師在介紹視頻里說道。似乎是想一口氣終結這場游戲，OpenAI 既發布了論文（更像是技術報告）、 System Card，把 ChatGPT 直接升級成了 GPT-4 版的，也開放了 GPT-4 的 API。另外，微軟營銷主管在 GPT-4 發布后第一時間表示：「如果你在過去六周內的任何時候使用過新的 Bing 預覽版，你就已經提前了解了 OpenAI 最新模型的強大功能。」是的，微軟的新必應早就已經用上了GPT-4。

接下來，就讓我們細細品味這場震撼發布。 GPT-4：我 SAT 考 710，也能當律師

GPT-4 是一個大型多模態模型，能接受圖像和文本輸入，再輸出正確的文本回復。實驗表明，GPT-4 在各種專業測試和學術基準上的表現與人類水平相當。例如，它通過了模擬律師考試，且分數在應試者的前 10% 左右；相比之下，GPT-3.5 的得分在倒數 10% 左右。 OpenAI 花了 6 個月的時間使用對抗性測試程序和 ChatGPT 的經驗教訓對 GPT-4 進行迭代調整，從而在真實性、可控性等方面取得了有史以來最好的結果。在過去的兩年里，OpenAI 重建了整個深度學習堆棧，并與 Azure 一起為其工作負載從頭開始設計了一臺超級計算機。一年前，OpenAI 在訓練 GPT-3.5 時第一次嘗試運行了該超算系統，之后他們又陸續發現并修復了一些錯誤，改進了其理論基礎。這些改進的結果是 GPT-4 的訓練運行獲得了前所未有的穩定，以至于 OpenAI 能夠提前準確預測 GPT-4 的訓練性能，它也是第一個實現這一點的大模型。OpenAI 表示他們將繼續專注于可靠的擴展，進一步完善方法，以幫助其實現更強大的提前預測性能和規劃未來的能力，這對安全至關重要。 OpenAI 正在通過 ChatGPT 和 API（有候補名單）發布 GPT-4 的文本輸入功能。圖像輸入功能方面，為了獲得更廣泛的可用性，OpenAI 正在與其他公司展開合作。 OpenAI 今天還開源了 OpenAI Evals，這是其用于自動評估 AI 模型性能的框架。OpenAI 表示此舉是為了讓所有人都可以指出其模型中的缺點，以幫助 OpenAI 進一步改進模型。有趣的是，GPT-3.5 和 GPT-4 之間的區別很微妙。當任務的復雜性達到足夠的閾值時，差異就會出現 ——GPT-4 比 GPT-3.5 更可靠、更有創意，并且能夠處理更細微的指令。為了了解這兩個模型之間的差異，OpenAI 在各種基準和一些為人類設計的模擬考試上進行了實驗。

OpenAI 還在為機器學習模型設計的傳統基準上評估了 GPT-4。GPT-4 大大優于現有的大型語言模型，以及大多數 SOTA 模型：

許多現有的機器學習基準測試都是用英語編寫的。為了初步了解 GPT-4 在其他語言上的能力，研究團隊使用 Azure Translate 將 MMLU 基準 —— 一套涵蓋 57 個主題的 14000 個多項選擇題 —— 翻譯成多種語言。在測試的 26 種語言的 24 種中，GPT-4 優于 GPT-3.5 和其他大語言模型（Chinchilla、PaLM）的英語語言性能：

就像許多使用 ChatGPT 的公司一樣，OpenAI 表示他們內部也在使用 GPT-4，因此 OpenAI 也在關注大型語言模型在內容生成、銷售和編程等方面的應用效果。OpenAI 還使用 GPT-4 輔助人們評估 AI 輸出，這也是 OpenAI 對其策略的第二階段。OpenAI 既是 GPT-4 的開發者，也是使用者。 GPT-4：我能玩梗圖

GPT-4 可以接受文本和圖像形式的 prompt，新能力與純文本設置并行，允許用戶指定任何視覺或語言任務。具體來說，它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出（自然語言、代碼等）。在一系列領域 —— 包括帶有文本和照片的文檔、圖表或屏幕截圖上 ——GPT-4 展示了與純文本輸入類似的功能。此外，它還可以通過為純文本語言模型開發的測試時間技術得到增強，包括少樣本和思維鏈 prompt。比如給 GPT-4 一個長相奇怪的充電器的圖片，問為什么這很可笑？

GPT-4 回答道，VGA 線充 iPhone。

格魯吉亞和西亞的人均每日肉類消費，算平均數：

看起來，現在的 GPT 已經不會在計算上胡言亂語了：

還是太簡單，那直接讓它做題，還是個物理題：

GPT-4 看懂了法語題目，并完整解答：

GPT-4 可以理解一張照片里「有什么不對勁的地方」：

GPT-4 還可以量子速讀看論文，如果你給它 InstructGPT 的論文，讓它總結摘要，就會變成這樣：

如果你對論文里的某一個圖感興趣呢？GPT-4 也可以解釋一下：

接著來，問 GPT-4 梗圖是什么意思：

它給出了詳細的回答：

那么漫畫呢？

讓 GPT-4 解釋為什么要給神經網絡加層數，似乎有一點加倍的幽默感。

不過 OpenAI 在這里說了，圖像輸入是研究預覽，仍不公開。研究人員用學術的 Benchmark 視角來解讀 GPT-4 的看圖能力，然而這已經不夠了，他們還能不斷發現該模型可以令人興奮地處理新任務 —— 現在的矛盾是 AI 的能力和人類想象力之間的矛盾。

看到這里，應該有研究人員感嘆：CV 不存在了。 可控性

與具有固定冗長、平靜語氣和風格的經典 ChatGPT 個性不同，開發人員（以及 ChatGPT 用戶）現在可以通過在「系統」消息中描述這些方向來規定他們的 AI 的風格和任務。系統消息允許 API 用戶在一定范圍內定制化實現不同的用戶體驗。OpenAI 知道你們在讓 ChatGPT 玩 Cosplay，也鼓勵你們這樣做。

局限性

盡管功能已經非常強大，但 GPT-4 仍與早期的 GPT 模型具有相似的局限性，其中最重要的一點是它仍然不完全可靠。OpenAI 表示，GPT-4 仍然會產生幻覺、生成錯誤答案，并出現推理錯誤。目前，使用語言模型應謹慎審查輸出內容，必要時使用與特定用例的需求相匹配的確切協議（例如人工審查、附加上下文或完全避免使用）。總的來說，GPT-4 相對于以前的模型（經過多次迭代和改進）已經顯著減輕了幻覺問題。在 OpenAI 的內部對抗性真實性評估中，GPT-4 的得分比最新的 GPT-3.5 模型高 40%：

GPT-4 在 TruthfulQA 等外部基準測試方面也取得了進展，OpenAI 測試了模型將事實與錯誤陳述的對抗性選擇區分開的能力，結果如下圖所示。

實驗結果表明，GPT-4 基本模型在此任務上僅比 GPT-3.5 略好；然而，在經過 RLHF 后訓練之后，二者的差距就很大了。以下是 GPT-4 的測試示例 —— 并不是所有時候它都能做出正確的選擇。

該模型在其輸出中可能會有各種偏見，OpenAI 在這些方面已經取得了進展，目標是使建立的人工智能系統具有合理的默認行為，以反映廣泛的用戶價值觀。 GPT-4 通常缺乏對其絕大部分數據截止后（2021 年 9 月）發生的事件的了解，也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤，這似乎與這么多領域的能力不相符，或者過于輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗，比如在它生成的代碼中引入安全漏洞。 GPT-4 預測時也可能出錯但很自信，意識到可能出錯時也不會 double-check。有趣的是，基礎預訓練模型經過高度校準（其對答案的預測置信度通常與正確概率相匹配）。然而，通過 OpenAI 目前的后訓練（post-training）過程，校準減少了。

風險及緩解措施

OpenAI 表示，研究團隊一直在對 GPT-4 進行迭代，使其從訓練開始就更加安全和一致，所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。 GPT-4 有著與以前的模型類似的風險，如產生有害的建議、錯誤的代碼或不準確的信息。同時，GPT-4 的額外能力導致了新的風險面。為了了解這些風險的程度，團隊聘請了 50 多位來自人工智能對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家，對該模型在高風險領域的行為進行對抗性測試。這些領域需要專業知識來評估，來自這些專家的反饋和數據為緩解措施和模型的改進提供了依據。

預防風險

按照 demo 視頻里 OpenAI 工程師們的說法，GPT-4 的訓練在去年 8 月完成，剩下的時間都在進行微調提升，以及最重要的去除危險內容生成的工作。 GPT-4 在 RLHF 訓練中加入了一個額外的安全獎勵信號，通過訓練模型拒絕對此類內容的請求來減少有害的輸出。獎勵是由 GPT-4 的零樣本分類器提供的，它判斷安全邊界和安全相關 prompt 的完成方式。為了防止模型拒絕有效的請求，團隊從各種來源（例如，標注的生產數據、人類的紅隊、模型生成的 prompt）收集多樣化的數據集，在允許和不允許的類別上應用安全獎勵信號（有正值或負值）。這些措施大大在許多方面改善了 GPT-4 的安全性能。與 GPT-3.5 相比，模型對不允許內容的請求的響應傾向降低了 82%，而 GPT-4 對敏感請求（如醫療建議和自我傷害）的響應符合政策的頻率提高了 29%。

訓練過程

與之前的 GPT 模型一樣，GPT-4 基礎模型經過訓練可以預測文檔中的下一個單詞。OpenAI 使用公開可用的數據（例如互聯網數據）以及已獲得許可的數據進行訓練。訓練數據是一個網絡規模的數據語料庫，包括數學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述，以及各種各樣的意識形態和想法。因此，當提出問題時，基礎模型的回應可能與用戶的意圖相去甚遠。為了使其與用戶意圖保持一致，OpenAI 依然使用強化學習人類反饋 (RLHF) 來微調模型的行為。請注意，該模型的能力似乎主要來自預訓練過程 ——RLHF 不會提高考試成績（甚至可能會降低它）。但是模型的控制來自后訓練過程 —— 基礎模型甚至需要及時的工程設計來回答問題。

GPT-4 的一大重點是建立了一個可預測擴展的深度學習棧。主要原因是，對于像 GPT-4 這樣的大型訓練，進行廣泛的特定模型調整是不可行的。團隊開發了基礎設施和優化，在多種規模下都有可預測的行為。為了驗證這種可擴展性，他們提前準確地預測了 GPT-4 在內部代碼庫（不屬于訓練集）上的最終損失，方法是通過使用相同的方法訓練的模型進行推斷，但使用的計算量為 1/10000。

現在，OpenAI 可以準確地預測在訓練過程中優化的指標（損失）。例如從計算量為 1/1000 的模型中推斷并成功地預測了 HumanEval 數據集的一個子集的通過率：

有些能力仍然難以預測。例如，Inverse Scaling 競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標，而 hindsight neglect 任務是獲勝者之一。GPT-4 扭轉了這一趨勢。

能夠準確預測未來的機器學習能力對于技術安全來說至關重要，但它并沒有得到足夠的重視，OpenAI 表示正在投入更多精力開發相關方法，并呼吁業界共同努力。 OpenAI 表示正在開源 OpenAI Evals 軟件框架，它被用于創建和運行基準測試以評估 GPT-4 等模型，同時可以逐樣本地檢查模型性能。 ChatGPT 直接升級至 GPT-4 版

GPT-4 發布后，OpenAI 直接升級了 ChatGPT。ChatGPT Plus 訂閱者可以在 chat.openai.com 上獲得具有使用上限的 GPT-4 訪問權限。要訪問 GPT-4 API（它使用與 gpt-3.5-turbo 相同的 ChatCompletions API），用戶可以注冊等待。OpenAI 會邀請部分開發者體驗。獲得訪問權限后，用戶目前可以向 GPT-4 模型發出純文本請求（圖像輸入仍處于有限的 alpha 階段）。至于價格方面，定價為每 1k 個 prompt token 0.03 美元，每 1k 個 completion token 0.06 美元。默認速率限制為每分鐘 40k 個 token 和每分鐘 200 個請求。 GPT-4 的上下文長度為 8,192 個 token。OpenAI 還提供了 32,768 個 token 上下文（約 50 頁文本）版本的有限訪問，該版本也將隨著時間自動更新（當前版本 gpt-4-32k-0314，也支持到 6 月 14 日)。定價為每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上，就是今天 OpenAI 關于 GPT-4 的所有內容了。令人不滿的一點是，OpenAI 公開的技術報告中，不包含任何關于模型架構、硬件、算力等方面的更多信息，可以說是很不 Open 了。不管怎樣，迫不及待的用戶大概已經開始測試體驗了吧。

最后，也想問一下讀者，看完 GPT-4 的發布，你有何感想。參考內容：//openai.com/product/gpt-4

付費5元查看完整內容

ChatGPT · AIGC ·

2023 年 2 月 23 日

[付費5元查看完整內容]【ChatGPT系列報告】ChatGPT不斷突破，AI駛入快車道

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

ChatGPT：AIGC現象級應用，商業化落地打開成長空間

　　ChatGPT上線后熱度持續提升，已超過TikTok成為活躍用戶增長最快的產品。英偉達CEO黃仁勛表示“ChatGPT相當于AI界的iPhone問世”。目前ChatGPT已開啟商業化探索，面向B端開放接口對外輸出服務（如與微軟Bing的結合）；面向C端推出收費的Plus版本，月度費用為20美元/月。根據OpenAI預測，2023年將實現2億美元收入，2024年將超過10億美元，未來成長空間廣闊。

　　大模型+大數據+高算力，ChatGPT不斷突破

　　（1）預訓練大模型：GPT大模型是ChatGPT的基礎，目前已經過多個版本迭代，GPT-3版本參數量達1750億，訓練效果持續優化。（2）數據：數據是預訓練大模型的原材料。GPT-3數據主要來自CommonCrawl、新聞、帖子、書籍及各種網頁，原始數據規模達45TB，訓練效果大幅提升。（3）算力：微軟AzureAI是OpenAI獨家云計算供應商，所用超算擁有285,000個CPU內核、約10,000個GPU。在大模型、大數據和高算力的支撐下，ChatGPT技術持續突破，表現驚艷。

　　巨頭積極布局，產業落地加速

　　AIGC在AI技術創新（生成算法、預訓練模型、多模態技術等）、產業生態（三層生態體系雛形已現）和政策支持（北京經信局表示支持頭部企業打造對標ChatGPT的大模型）共振下，有望步入發展快車道，根據騰訊研究院發布的AIGC發展趨勢報告，預計2030年AIGC市場規模將達1100億美元，前景廣闊。

　　（1）微軟：微軟自2019年與OpenAI展開合作，并表示未來所有產品將全線整合ChatGPT。目前已推出引入ChatGPT技術的搜索引擎NewBing，經過測試后，71%的用戶對ChatGPT版Bing滿意，AI與搜索協同效果顯著。

　　（2）谷歌：2023年2月谷歌推出對標ChatGPT的對話機器人Bard。Bard基于谷歌LaMDA模型，參數量最高達1370億，LaMDA已經在多個維度接近人類水平。谷歌表示未來會將AI技術率先應用于搜索領域，或將與微軟展開正面競爭。

　　（3）百度：百度在AI領域深耕數十年，在芯片、深度學習框架、大模型以及應用已形成全棧布局，已有文心一格（AI作畫）、文心百中（產業搜索）產品落地。2023年2月，百度推出聊天機器人“文心一言”，目前生態合作伙伴近300家，未來可期。

付費5元查看完整內容

ChatGPT · Transformer · 大模型 ·

2023 年 2 月 17 日

[付費5元查看完整內容]ChatGPT背后的大模型最新有哪些？最新最全《Transformer預訓練模型分類》論文，36頁pdf詳述大模型技術目錄

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

最近OpenAI推出的ChatGPT持續成為熱點，背后依賴的GPT-3.5預訓練語言模型和指令人類反饋強化學習等技術。ChatGPT背后大模型（也稱預訓練模型、基礎模型等）通常是在大規模無標注數據上進行訓練，學習出一種特征和規則，核心是Transformer算法與架構。來自Xavier Amatriain最新的Transformer預訓練模型分類，36頁pdf詳述大模型分類圖。

在過去的幾年里，我們已經看到了幾十種Transformer家族的模型的迅速出現，它們的名字都很有趣，但并不是不言自明的。本文的目標是對最流行的Transformer模型提供一個有點全面但簡單的目錄和分類。本文還介紹了Transformer模型的最重要方面和創新。

1. 引言

Transformer是一類深度學習模型，由一些架構特征定義。2017年，谷歌的研究人員在現在著名的“Attention is All you Need”論文1和相關的博客post1中首次介紹了它們。Transformer架構是前2 - 3年流行的編碼器-解碼器模型[2]2的一個具體實例。然而，在那之前，注意力只是這些模型使用的機制之一，這些模型主要基于LSTM(長短期記憶)[3]和其他RNN(遞歸神經網絡)[4]變體。正如標題所暗示的那樣，transformer論文的關鍵見解是，注意力可以用作獲得輸入和輸出之間依賴關系的唯一機制。Transformer架構的所有細節已經超出了本博客的范圍。為此，我建議你參考上面的原始論文或精彩的the Illustrated transformers帖子。話雖如此，我們將簡要描述最重要的方面，因為我們將在下面的目錄中提到它們。讓我們從原始論文中的基本架構圖開始，并描述一些組件。

從人類反饋(或偏好)中進行強化學習，即RLHF(或RLHP)，最近已經成為AI工具包的一個巨大補充。這一概念已經在2017年的論文中提出。最近，它已被應用于ChatGPT和類似的對話代理，如BlenderBot3或Sparrow。這個想法非常簡單:一旦語言模型被預訓練，我們就可以對對話產生不同的響應，并讓人類對結果進行排名。在強化學習的背景下，我們可以使用這些排名(又名偏好或反饋)來訓練獎勵(見圖3)。您可以在Huggingface]14或Weights and Bias15的這兩篇精彩文章中閱讀更多內容。

2. Transformers分類

希望到目前為止，您已經理解了什么是Transformer模型，以及為什么它們如此流行和有影響力。在本節中，我將介紹迄今為止開發的最重要的Transformer模型的目錄。我將根據以下屬性對每個模型進行分類:預訓練架構、預訓練任務、壓縮、應用程序、年份和參數數量。讓我們簡要地定義它們: 預訓練架構我們將Transformer架構描述為由Encoder和Decoder組成，對于最初的Transformer也是如此。然而，從那時起，已經取得了不同的進展，揭示了在某些情況下，只使用編碼器，只使用解碼器，或兩者都是有益的。編碼器預訓練這些模型也被稱為雙向編碼或自編碼，在預訓練過程中只使用編碼器，通常通過屏蔽輸入句子中的單詞并訓練模型進行重構來完成。在預訓練的每個階段，注意力層可以訪問所有輸入單詞。該模型族對于需要理解完整句子的任務最有用，如句子分類或抽取式問答。 解碼器預訓練

解碼器模型通常被稱為自回歸模型，在預訓練過程中只使用解碼器，而預訓練通常是為了迫使模型預測下一個單詞。注意力層只能訪問句子中給定單詞之前的單詞。它們最適合于涉及文本生成的任務。 Transformer(編碼器-解碼器)預訓練編碼器-解碼器模型，也稱為序列到序列，使用Transformer架構的兩部分。編碼器的注意力層可以訪問輸入中的所有單詞，而解碼器的注意力層只能訪問輸入中給定單詞之前的單詞。預訓練可以使用編碼器或解碼器模型的目標來完成，但通常涉及更復雜的東西。這些模型最適合于根據給定輸入生成新句子的任務，如摘要、翻譯或生成式問答。**預訓練任務 **當訓練模型時，我們需要為模型定義一個學習任務。上面已經提到了一些典型的任務，例如預測下一個單詞或學習重建被掩碼的單詞。《自然語言處理的預訓練模型綜述》[10]包括一個相當全面的預訓練任務分類，所有這些任務都可以被認為是自監督的:

語言建模(LM):預測下一個標記(單向LM的情況下)或前一個和下一個標記(雙向LM的情況下)
掩碼語言建模(MLM):從輸入句子中屏蔽一些標記，然后訓練模型，用其余標記預測被屏蔽的標記 3.置換語言模型(PLM):與LM相同，但對輸入序列進行隨機置換。一個置換是從所有可能的置換中隨機抽樣得到的。然后選擇一些token作為目標，并訓練模型來預測這些目標。
降噪自編碼器(DAE):采用部分損壞的輸入(例如，從輸入中隨機采樣token，并將其替換為“[MASK]”元素。從輸入中隨機刪除標記，或按隨機順序打亂句子)，并旨在恢復原始未失真的輸入。
對比學習(CTL):通過假設一些觀察到的文本對比隨機采樣的文本更相似，來學習文本對的得分函數。它包括: ?深度信息最大化(DIM):最大化圖像表示和圖像局部區域之間的互信息;替換Token檢測(RTD):根據Token的環境預測其是否被替換; 下一個句子預測(NSP):訓練模型以區分輸入的兩個句子是否為訓練語料庫中的連續片段;和句子順序預測(SOP):類似于NSP，但使用兩個連續的片段作為正例，并使用相同的片段，但其順序交換為負例在這里，我們將注意Transformer模型的主要實際應用。這些應用大多數將在語言領域(例如，問答、情感分析或實體識別)。然而，如前所述，一些Transformer模型也在NLP之外找到了應用，也包括在目錄中。

付費5元查看完整內容

ChatGPT · 報告 ·

2023 年 2 月 5 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

事件:美國AI公司OpenAI推出基于大語言模型的對話模型ChatGPT，可提供高質量的回答，并能實現創作、編程等復雜功能，備受市場關注。不到兩個月的時間，ChatGPT全球日活用戶已突破千萬。

　　ChatGPT是突破式的創新技術ChatGPT是OpenAI公司推出的全新聊天機器人模型。通過引入人類反饋的強化學習，大幅提升了AI在人機對話時的準確度和可控性，具有強大的語言理解能力和語言表達能力。GPT模型仍在持續迭代，更先進大語言模型GPT-4有望在2023年推出，有望進一步推動AIGC產業發展。　　　ChatGPT應用及商業化落地加速科技公司紛紛涌入AIGC賽道，優秀的AIGC大模型層出不窮，我們認為基于AI文本生成的模型ChatGPT有望率先應用落地。AIGC賽道相關公司受到資本青睞，AIGC頭部初創公司OpenAI最新估值約為290億美元。作為AIGC領域領先的模型ChatGPT在對話機器人、智能創作等領域應用廣泛，亞馬遜、微軟、Jasper等公司已經開啟商業化之路，商業化前景廣闊。