亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

人工智能(AI)研究人員一直在開發和完善大型語言模型(LLM),這些模型在各種領域和任務中表現出非凡的能力,挑戰了我們對學習和認知的理解。OpenAI開發的最新模型GPT-4是使用前所未有的計算和數據規模進行訓練的。本文報告了對早期版本的GPT-4的調研,當時它仍由OpenAI積極開發。我們認為(這個早期版本)GPT-4是新一代LLM的一部分(例如ChatGPT和谷歌的PaLM),它們比以前的人工智能模型表現出更多的通用智能。討論了這些模型不斷提高的能力和影響。證明了GPT-4除了對語言的掌握外,還可以解決跨越數學、編碼、視覺、醫學、法律、心理學等新穎和困難的任務,而不需要任何特別的提示。此外,在所有這些任務中,GPT-4的性能驚人地接近人類水平的性能,并經常大大超過之前的模型,如ChatGPT。鑒于GPT-4能力的廣度和深度,我們相信它可以被合理地視為人工通用智能(AGI)系統的早期(但仍不完整)版本。在對GPT-4的探索中,特別強調了發現其局限性,并討論了向更深入、更全面的AGI版本前進的挑戰,包括可能需要追求一種超越下一個字預測的新范式。最后,反思了最近技術飛躍的社會影響和未來的研究方向。

付費5元查看完整內容

相關內容

當地時間 5 月 10 日上午,一年一度的谷歌 I/O 來了,加州山景城的海岸圓形劇場座無虛席,今年的大會正式開幕。PaLM 二代模型****支持多語言、更強的數學、代碼能力

首先,谷歌給出了自己對標 GPT-4 的大模型 PaLM 2。 要說這一波 AI 技術突破的源頭,或許可以追溯到 2017 年谷歌提出的 transformer 架構,它已成為絕大多數現代大語言模型的基石。

在過去的幾年里,谷歌除了在大模型上不斷進步之外,也采用了許多創造性的新技術來構建功能更強大、用途更廣的模型。這些技術是新一代語言模型 PaLM 2 的核心。PaLM 基于谷歌 Pathways 架構,其第一個版本的模型于 2022 年 4 月發布。

谷歌 I/O 大會上,皮查伊宣布推出 PaLM 2 預覽版本,改進了數學、代碼、推理、多語言翻譯和自然語言生成,利用谷歌最新的 TPU 算力基礎設施提升了訓練速度。由于它的構建方式是將計算、優化擴展、改進的數據集混合以及模型架構改進結合在一起,因此服務效率更高,同時整體表現更好。

會上,谷歌并沒有給出有關 PaLM 2 的具體技術細節,只說明了它是構建在谷歌最新 JAX 和 TPU v4 之上。PaLM 2 模型提供了不同尺寸規模的四個版本,從小到大依次為 Gecko、Otter、Bison 和 Unicorn,更易于針對各種用例進行部署。其中輕量級的 Gecko 模型可以在移動設備上運行,速度非常快,不聯網也能在設備上運行出色的交互式應用程序。

皮查伊表示,PaLM 2 模型在常識推理、數學和邏輯領域表現更好。為此,谷歌在大量包含數學表達式的科學論文和網頁上進行了訓練,可以輕松解決數學難題、推理文本甚至可以輸出圖表。

從基準測試上可以看到,對于具有思維鏈 prompt 或自洽性的 MATH、GSM8K 和 MGSM 基準評估,PaLM 2 的部分結果超越了 GPT-4。

PaLM 2 是在具有 100 + 語言的語料庫上進行訓練的,因此它更擅長多語言任務,能夠理解、生成和翻譯比以往模型更細致多樣化的文本(包括習語、詩歌和謎語等)。PaLM 2 通過了「精通」(mastery)級別的高級語言能力考試。

與此同時,PaLM 2 改進了對代碼編寫和調試的支持,在 20 種編程語言上進行了訓練,包括 Python 和 JavaScript 等流行語言以及 Prolog、Verilog 和 Fortran 等其他更專業的語言。PaLM 2 構成了 Codey 的基礎,它是谷歌用于編碼和調試的專用模型,作為代碼補全和生成服務的一部分推出。 皮查伊現場演示了 PaLM 2 的代碼調試功能,輸入指令「你能修復這段代碼的一個 bug,并添加一行一行的韓文注釋嗎?」,結果如下動圖所示。

谷歌內部已經有超過 70 個產品團隊正在使用 PaLM 2 構建產品,包括分別針對安全知識和醫療知識微調而成的 Sec-PaLM 和 Med-PaLM 2

其中 Sec-PaLM 是專注于安全用例的版本,使用 AI 幫助分析和解釋具有潛在惡意腳本的行為,并檢測哪些腳本對個人或組織構成威脅。Med-PaLM 2 可以檢索醫學知識、回答問題、生成有用的模板和解碼醫學術語,甚至還可以從圖像中合成患者信息,例如胸部 X 光檢查或乳房 X 光檢查。值得強調的是,Med-PaLM 2 是首個達到專家水平的大語言模型

皮查伊在會上展示了 Med-PaLM 2 的醫療內容生成效果。

目前,開發者可以通過谷歌的 PaLM API、Firebase 以及 Colab 訪問 PaLM 2。皮查伊還表示,PaLM 2 將繼續為谷歌最新的 Bard 提供支持。 論文地址://ai.google/static/documents/palm2techreport.pdf

PaLM 2 技術報告

我們介紹了PaLM 2,這是一個全新的、具有更優秀的多語言和推理能力的語言模型,比其前任PaLM(Chowdhery等人,2022)更高效。PaLM 2是一個基于Transformer的模型,其訓練使用的目標混合類似于UL2(Tay等人,2023)。通過對英語和多語言、以及推理任務的廣泛評估,我們證明了PaLM 2在不同模型大小的下游任務上質量顯著提升,同時相比于PaLM展示出更快、更高效的推理能力。這種改進的效率使得模型能夠被更廣泛地部署,同時也使模型能夠更快地響應,為交互提供更自然的節奏。PaLM 2展示了強大的推理能力,這一點由其在BIG-Bench以及其他推理任務上相對于PaLM的大幅改進所證明。PaLM 2在一系列負責任的AI評估中表現穩定,并且能夠在推理時控制毒性,無需額外的開銷或影響其他能力。總的來說,PaLM 2在各種任務和能力上都實現了最先進的性能。自從Shannon(1951)通過預測下一個詞來估算語言中的信息以來,語言建模一直是一個重要的研究領域。建模起初以n-gram為基礎的方法(Kneser & Ney, 1995)開始,但隨著LSTM(Hochreiter & Schmidhuber, 1997; Graves, 2014)的出現,其發展速度快速提升。后來的研究表明,語言建模也導致了語言理解的提升(Dai & Le, 2015)。隨著規模的增大和Transformer架構(Vaswani等人,2017)的應用,過去幾年大型語言模型(LLMs)在語言理解和生成能力上表現出了強大的性能,這導致在推理、數學、科學和語言任務中取得了突破性的成績(Howard & Ruder, 2018; Brown等人,2020; Du等人,2022; Chowdhery等人,2022; Rae等人,2021; Lewkowycz等人,2022; Tay等人,2023; OpenAI, 2023b)。在這些進步中,關鍵的因素包括模型規模(Brown等人,2020; Rae等人,2021)和數據量(Hoffmann等人,2022)的擴大。到目前為止,大多數LLMs主要遵循一種標準的配方,即主要使用單語語料庫并配合語言建模目標。我們介紹了PaLM 2,這是PaLM(Chowdhery等人,2022)的后繼者,這是一個將建模進步、數據改進和規模洞察力統一起來的語言模型。PaLM 2融合了以下各種研究進步:

? 計算最優縮放:最近,計算最優縮放(Hoffmann等人,2022)表明,數據大小至少與模型大小同等重要。我們驗證了這項研究對更大計算量的適用性,并同樣發現,為了達到給定訓練計算量的最佳性能,數據和模型大小應大致按1:1的比例縮放(這與過去的趨勢不同,過去的趨勢是模型的縮放速度比數據集快3倍)。

? 改進的數據集混合:之前的大型預訓練語言模型通常使用由英文文本主導的數據集(例如,Chowdhery等人(2022)的非代碼部分約占78%)。我們設計了一個更具多語言和多樣性的預訓練混合,它涵蓋了數百種語言和領域(例如,編程語言、數學和平行多語言文檔)。我們證明,較大的模型可以處理更多不同的非英語數據集,而不會導致英語理解性能的下降,并應用去重復來減少記憶(Lee等人,2021)

?** 架構和目標的改進**:我們的模型架構基于Transformer。過去的LLMs幾乎都獨自使用一個因果或掩蔽語言建模目標。鑒于UL2(Tay等人,2023)的強大結果,我們在這個模型中使用調優的不同預訓練目標的混合,以訓練模型理解語言的不同方面。

中文版

付費5元查看完整內容

隨著ChatGPT等語言大模型落地,AIGC技術落地在各行各業中得到發展和推進。根據模型的分類,AIGC的應用可被分為單模態和多模態兩類。單模態模型可以助力各個應用,提升原有的能力和生產力。諸如ChatGPT已與Bing結合,使搜索更智能化。同時,搜索引擎又能很好地彌補語言模型預訓練時不具備的數據實時性。單模態模型與操作系統的連接也能改變傳統的人機交互模式,使系統響應更智能,軟件間的數據流通更廣泛;與游戲應用的結合可以使NPC更鮮活,與玩家的對話更真實;應用于文學作品可以激發創作靈感,提高寫作效率,掀起AI電子書熱潮;應用于客服場景可以提升原智能客服的多輪對話能力,個性化回答能力。   多模態的模型是AIGC的發展趨勢,現有的DALL-E或StableDiffusion已經在文本到圖像的跨模態領域很好地落地,可以更容易地生成高質量海報和提升三維場景重建的效果;與視頻剪輯應用的結合降低視頻制作的門檻,拓展影視領域的空間;Google的多模態模型PaLM-E將豐富機器人操作場景,智能化機器人反饋。最新的GPT4多模態模型與Office辦公軟件的結合將顯著提升生產力,使辦公軟件間的聯動更智能;GPT4可以賦能教育科研領域,緩解教育資源短缺,降低獲取知識的門檻;GPT4可以賦能數字人,使數字人落地場景更豐富,交互更擬人;GPT4還能助力應用開發,簡化發開周期,降低開發的門檻。

付費5元查看完整內容

生成式人工智能技術,如大型語言模型,有可能徹底改變我們高等教育的教學和學習。ChatGPT是一個令人印象深刻的、易于使用的、公開訪問的系統,展示了GPT-4等大型語言模型的力量。其他類似的生成模型可用于文本處理、圖像、音頻、視頻和其他輸出-我們預計在未來幾年內,性能將大幅提高,集成到更大的軟件系統中,并得到推廣。這項技術的發展引發了大學水平教學的重大不確定性和變化。學生們會問這樣的問題:ChatGPT或其他人工智能工具如何支持我?我可以在研討會或期末論文中使用ChatGPT嗎?還是說這是作弊?我怎樣才能最好地使用ChatGPT ?還有其他方法訪問模型嗎,比如GPT-4?既然這樣的工具已經存在,我應該學習哪些技能,哪些是過時的?講師會從不同的角度問類似的問題:我應該教什么技能?我如何測試學生的能力,而不是他們提示生成AI模型的能力?我如何使用ChatGPT和其他基于生成式AI的系統來提高我的效率,甚至改善我的學生的學習體驗和結果?即使當前的討論圍繞ChatGPT和GPT-4展開,這些也只是我們可以從未來基于生成式人工智能的模型和工具中期待的先驅。因此,即使您認為ChatGPT在技術上還不成熟,但它對高等教育的影響是值得研究的。這就是白皮書的用武之地。它將ChatGPT視為利用大型語言模型的當代對話用戶界面的例子。白皮書從學生和講師的角度來看待ChatGPT。它關注高等教育的日常領域:教學課程、為考試而學習、撰寫研討會論文和論文,以及評估學生的學習成果和表現。為此,考慮ChatGPT的機會和具體應用的可能性、限制和風險,以及底層的大型語言模型。這有兩個目的:

首先,我們的目標是為個別學生和講師提供具體的例子和指導,以找到他們處理ChatGPT和類似工具的方法。 * 其次,本白皮書將為在高等教育中擁抱和包含大型語言模型或相關工具的更廣泛的組織意義過程提供信息。

**我們基于我們在信息系統、計算機科學、管理和社會學方面的經驗編寫了這篇白皮書。我們有使用生成式AI工具的實踐經驗。**作為教授、博士后、博士生和學生,我們不斷創新我們的教學和學習。全面擁抱生成型人工智能的機遇和挑戰,需要來自其他各種學科的學者(專注于高等教育的教學和法律方面)、大學管理和更廣泛的學生群體的進一步觀點。總的來說,我們對生成式人工智能模型和工具(如GPT-4和ChatGPT)有積極的看法。一如既往,有光明也有黑暗,改變是困難的。然而,如果我們對大學、學院和教師個人發布明確的指導方針,如果教師和學生有效和負責地使用這些系統,我們的高等教育系統可能會得到改善。我們看到了一個巨大的機會,如果我們接受并適當地管理變化。

付費5元查看完整內容

**大型語言模型(LLMs)在包括醫學在內的各個領域的自然語言理解和生成方面表現出了卓越的能力。我們對GPT-4(一種最先進的LLM)的醫療能力檢查和基準數據集進行了全面評估。GPT-4是一個通用模型,它不是通過訓練專門用于醫療問題,**也不是設計來解決臨床任務的。我們的分析涵蓋了美國醫學執照考試(USMLE)的兩套官方實踐材料,這是一個在美國用于評估臨床能力和授予執照的三步考試計劃。還在MultiMedQA基準數據集上評估了性能。除了測量模型性能外,還進行了實驗,以調查包含文本和圖像的試題對模型性能的影響,探索訓練過程中對內容的記憶,并研究概率的校準,這在醫學等高風險應用中至關重要。結果表明,在沒有任何專門提示的情況下,GPT-4比USMLE的及格分數高出20分以上,并優于早期的通用模型(GPT-3.5)以及專門針對醫學知識進行微調的模型(Med-PaLM,一種快速調整的Flan-PaLM 540B版本)。此外,GPT-4的校準效果明顯優于GPT-3.5,在預測其答案正確的可能性方面有了很大的提高。還通過一個案例研究定性地探索了該模型的行為,該案例研究顯示了GPT-4解釋醫學推理、向學生個性化解釋的能力,并圍繞醫學案例交互式地打造新的反事實場景。討論了研究結果對GPT-4在醫學教育、評估和臨床實踐中的潛在用途的影響,并適當注意準確性和安全性的挑戰。 **大型語言模型(LLMs)在解釋和生成跨越廣泛領域(如自然語言、計算機代碼和蛋白質序列)的序列方面表現出了卓越的能力。**許多強大的模型都基于transformer架構[VSP+17],適應于語言并以自監督的方式進行訓練[RNS+18, DCLT18]。隨著規模的擴大,各種基準的分數通常都有所提高,包括模型大小、數據集大小和訓練計算量的增加[KMH+20, LBL+22]。經驗發現與理論分析[BS21]產生了共鳴,這表明從大型神經模型進行推斷的魯棒性需要規模[BS21]。在過去的幾年中,在大規模跨學科語料庫上訓練的LLM已經成為創建以任務為中心的系統的強有力的基石[BHA+21]。針對特定領域細化模型的方法包括使用從目標應用中提取的專門數據集進行微調,以及用于指導模型行為的一般方法,如人工反饋強化學習(RLHF),它可以指導系統更好地理解最終用戶的請求[BJN+22]。

**人們對LLMs在沒有專門微調的情況下為廣泛的專門任務做出有用推斷的能力也有很大的興趣。**使用少量甚至零樣本提示的通用LLM的性能突出了它們在協助跨問題類型、專業領域和學科的任務方面的潛力[BMR+20]。最近,研究人員調查了基準,這些基準提供了對LLM如何編碼臨床知識的見解,并可能被利用來增強醫學實踐。本文比較了最近發布的(純文本)GPT-4模型與其GPT家族中的前身在醫療挑戰問題上的性能。雖然GPT-4的規模度量細節,包括模型參數的數量和訓練數據的大小和范圍尚未公開,但據報道,這兩個維度都明顯大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在醫療問題解決方面的能力是一個長期的醫學人工智能研究項目的一部分,可以追溯到Ledley和Lusted的經典工作[LL59]。幾十年來,對輔助醫生的計算方法的探索一直以對不同表示和推理方法的轉變為標志,包括核心概率和決策理論方法(如[GB68, HHN92]),基于規則的產生式系統(如[Sho77, BS84]),語義圖(如[PSS81]),從醫療信息數據庫(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神經網絡模型(如[EKN+17,Shj +17, riz +17, msg +20]。雖然在診斷計算機視覺領域開始了使用深度學習來實現人類在醫療任務上水平表現的一系列努力,但自那以來,它已經發展到包括通過自然語言介導的更一般臨床推理的基準。在此背景下部署的模型可以在特定的醫學語料庫上進行訓練,或在大量通用語言和/或視覺信息上進行訓練的基礎模型,然后通過專門的微調使其適應于醫學數據。 **本文的主要貢獻是研究了GPT-4在醫療挑戰性問題上的能力。為了建立強大的比較基線,本文評估了GPT-4和GPT-3.5,并報告了來自Flan-PaLM 540B的結果。**我們的目標是為GPT-4建立“開箱即用”的性能數據。使用了盡可能簡單的提示(零樣本和隨機選擇的5樣本提示,并直接推斷答案),發現GPT-4獲得了同類中最好的性能,而不需要精心設計的提示技術或特定領域的微調。我們首先詢問了模型在挑戰性問題上的表現,這些問題是為評估醫學生和住院醫生的能力而開發的。

本探索包括對GPT-4在美國醫學執照考試(USMLE)第1-3步中的表現進行綜合評估。該考試是美國醫療執照官方認證協議的一部分。我們的結果是基于樣本考試和由美國國家醫學檢驗師委員會(NBME)正式發布的自我評估材料。結果表明,零樣本GPT-4顯著優于早期模型,在USMLE測試的自我評估和樣本測試中分別取得了86.65%和86.7%的平均分數,而GPT-3.5的平均分數為53.61%和58.78%。在回顧了USMLE研究的結果后,我們檢查了其他幾個醫療基準。Zero shot GPT-4在MultiMedQA[SAT+22]上的表現明顯優于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是醫學機器學習文獻中常用的一套基準數據集。除了描述整體表現外,我們的調查還涵蓋了醫學領域LLM行為的其他幾個方面。研究了純文本GPT-4在以文本為中心的考題和依賴圖像的考題中的表現。鑒于關于正確概率的可靠信息在醫療保健和其他高風險應用中至關重要,評估了隱式分配給答案的概率的校準。我們評估了該模型通過其訓練數據接觸(和記憶)考試內容的證據。通過一個案例研究進一步探索了該模型的定性行為,證明了GPT-4解釋醫學推理的能力,并交互式地支持學生圍繞一個醫療案例的反事實場景。最后,研究了研究結果的影響,包括GPT-4及其繼任者幫助醫學教育和為醫療專業人員提供幫助的潛力,同時考慮到與準確性、公平性和對醫學實踐的更廣泛影響相關的擔憂。特別反思了基于基準的性能評估的局限性,并討論了在現實世界環境中使用GPT-4等模型所需的預防措施和進展。要全面評估這些系統,還有大量工作要做,而且需要非常謹慎。然而,我們期望在現實世界中有多種使用,例如低風險的應用程序,其中包括專家監督作為世代和工作流程的一部分。從長期來看,我們看到GPT-4及其擴展體在醫學方面有巨大的潛力。

付費5元查看完整內容

GPT-4 打開通用人工智能之門?

人工智能(AI)研究人員一直在開發和完善大型語言模型(LLM),這些模型在各種領域和任務中表現出非凡的能力,挑戰了我們對學習和認知的理解。OpenAI開發的最新模型GPT-4是使用前所未有的計算和數據規模進行訓練的。本文報告了對早期版本的GPT-4的調研,當時它仍由OpenAI積極開發。我們認為(這個早期版本)GPT-4是新一代LLM的一部分(例如ChatGPT和谷歌的PaLM),它們比以前的人工智能模型表現出更多的通用智能。討論了這些模型不斷提高的能力和影響。**證明了GPT-4除了對語言的掌握外,還可以解決跨越數學、編碼、視覺、醫學、法律、心理學等新穎和困難的任務,而不需要任何特別的提示。此外,在所有這些任務中,GPT-4的性能驚人地接近人類水平的性能,并經常大大超過之前的模型,如ChatGPT。**鑒于GPT-4能力的廣度和深度,我們相信它可以被合理地視為人工通用智能(AGI)系統的早期(但仍不完整)版本。在對GPT-4的探索中,特別強調了發現其局限性,并討論了向更深入、更全面的AGI版本前進的挑戰,包括可能需要追求一種超越下一個詞預測的新范式。最后,反思了最近技術飛躍的社會影響和未來的研究方向。

**1. 引言 **

智力是一個多方面的、難以捉摸的概念,長期以來一直挑戰著心理學家、哲學家和計算機科學家。1994年,52名心理學家組成的小組在一篇關于智力科學的社論中簽署了一個寬泛的定義,試圖抓住它的本質。小組將智力定義為一種非常普遍的心智能力,其中包括推理、計劃、解決問題、抽象思考、理解復雜想法、快速學習和從經驗中學習的能力。這一定義意味著智力并不局限于特定的領域或任務,而是包含了廣泛的認知技能和能力。構建一個顯示出1994年共識定義所捕獲的那種通用智能的人工系統,是人工智能研究的一個長期而雄心勃勃的目標。在早期的著作中,人工智能(AI)研究現代學科的創始人提出了一系列理解智能的理想目標[MMRS06]。幾十年來,人工智能研究人員一直在追求智能的原則,包括可泛化的推理機制(例如,[NSS59], [LBFL93])和包含大型常識語料庫的知識庫的構建[Len95]。然而,人工智能研究的許多最新成功可以被描述為狹隘地專注于明確定義的任務和挑戰,例如下國際象棋或圍棋,這些分別在1996年和2016年被人工智能系統掌握。在20世紀90年代末和21世紀初,開發更通用的AI系統的呼聲越來越高(例如,[SBD+96]),該領域的學術界試圖確定可能用于更通用智能系統(例如,[Leg08, GHT15])的原則。“通用人工智能”(AGI)一詞在21世紀初流行開來(見[Goe14]),以強調從“狹義人工智能”(如正在開發的集中的、現實世界的應用程序所示)轉向更廣泛的智能概念的愿望,喚起了早期人工智能研究的長期愿望和夢想。我們使用AGI來指的是顯示上述1994定義中所捕獲的廣泛智能能力的系統,以及這些能力達到或超過人類水平的額外要求,這可能隱含在共識組的工作中。然而,我們注意到,AGI沒有一個被廣泛接受的單一定義,我們在結論部分討論了其他定義。

過去幾年人工智能研究中最顯著的突破是通過大型語言模型(LLMs)實現的自然語言處理的進步。這些神經網絡模型**基于Transformer架構[VSP+17],并在大量Web-文本數據語料庫上進行訓練,其核心是使用自監督目標來預測部分句子中的下一個單詞。**本文報告了由OpenAI開發的一個新的LLM,它是GPT-4的早期和非多模態版本[Ope23],根據1994年的定義,顯示出許多智能的特征。盡管純粹是一個語言模型,但這個早期版本的GPT-4在各種領域和任務上表現出了卓越的能力,包括抽象、理解、視覺、編碼、數學、醫學、法律、理解人類的動機和情感等。在OpenAI的早期開發中,我們使用純自然語言查詢(提示)與GPT-4進行交互。在圖1.1中,我們展示了GPT-4輸出的一些初步示例,包括用一首詩的形式證明無窮素數,用TiKZ(一種用于在LATEX中創建圖形的語言)畫一只獨角獸,用Python創建一個復雜的動畫,以及解決一個高中水平的數學問題。它很容易完成所有這些任務,并且產生的輸出基本上與人類的輸出沒有區別(甚至比人類的輸出更好)。還將GPT-4的性能與之前的LLM進行了比較,其中最著名的是ChatGPT,它是GPT-3 [BMR+20]的微調版本。在圖1.2中,我們展示了向ChatGPT請求無限素數詩和TikZ獨角獸圖的結果。雖然系統在兩個任務上的表現都很出色,但與GPT-4的輸出無法比較。這些初步觀察結果將在本文中在各種任務中重復出現。GPT-4能力的通用性,與跨越廣泛領域的眾多能力的結合,以及它在廣泛的任務范圍上達到或超過人類水平的性能,使我們可以輕松地說,GPT-4是邁向AGI的重要一步。

我們聲稱GPT-4代表了AGI的進步,但這并不意味它所做的事情上是完美的,或者它接近于能夠做人類可以做的任何事情(這是AGI的通常定義之一;有關這方面的更多信息,請參閱結論部分),或者它有內在的動機和目標(AGI某些定義中的另一個關鍵方面)。事實上,即使在1994年智能定義的受限背景下,也不完全清楚GPT-4可以在智能的某些軸上走多遠,例如規劃(見第8節),而且可以說它完全沒有“快速學習并從經驗中學習”這一部分,因為模型沒有不斷更新(盡管它可以在一個會話中學習,例如見第5節)。總的來說,GPT-4仍然有許多局限性和偏差,我們在下面詳細討論,這些也在OpenAI的報告[Ope23]中有所涉及。特別是它仍然遭受的一些證據確鑿的缺點LLM如幻覺(MNBM20)的問題(見圖1.8)或犯基本的算術錯誤CKB + 21,然而它也克服一些基本的障礙,如獲得許多非語言功能(例如,它解決了大部分的LLM [MIB + 23]中描述失效模式,并取得了很大的進步在常識性的,參見圖1.7第一個例子和附錄a)。這突出了一個事實,盡管GPT-4在許多任務上都達到或超過了人類的水平,但總體上它的智能模式顯然與人類不同。然而,幾乎可以肯定的是,GPT-4只是邁向一系列越來越普遍的智能系統的第一步,事實上,在我們的測試過程中,GPT-4本身已經得到了改進,參見圖1 - 3,了解在一個月的訓練過程中獨角獸繪圖的演變2。然而,即使作為第一步,GPT-4也挑戰了大量廣泛接受的關于機器智能的假設,并展示了涌現的行為和能力,這些行為和能力的來源和機制目前還難以精確地識別(再次參閱結論部分以了解有關此的更多討論)。撰寫本文的主要目標是分享我們對GPT-4的能力和限制的探索,以支持我們的評估,即技術飛躍已經實現。我們相信,GPT-4的智能標志著計算機科學及其他領域的真正范式轉變

1.1 GPT-4智能的研究方法

我們如何衡量一個在未知但極其龐大的web-text數據語料庫上訓練的LLM的智能?機器學習中標準的方法是在一組標準基準數據集上評估系統,確保它們獨立于訓練數據,并且覆蓋一系列任務和領域。這種方法旨在將真正的學習與單純的記憶分開,并有豐富的理論框架支持[SSBD14, MRT18]。然而,這種方法并不一定適用于研究GPT-4,原因有二。首先,由于我們無法訪問其大量訓練數據的全部細節,我們必須假設它可能已經看到了每個現有的基準,或至少一些類似的數據。例如,似乎GPT-4知道最近提出的BIG-bench [SRR+22](至少GPT-4知道BIG-bench中的canary GUID)。當然,OpenAI本身可以訪問所有的訓練細節,因此他們的報告[Ope23]包含許多詳細的基準測試結果。然而,超越傳統基準的第二個原因可能更重要:GPT4智能的關鍵方面之一是它的通用性,表面上理解和連接任何主題的能力,以及執行超出狹窄AI系統典型范圍的任務的能力。GPT-4一些最令人印象深刻的表現是在不承認單一解決方案的任務上,例如編寫圖形用戶界面(GUI)或幫助人類對一些與工作有關的問題進行頭腦風暴。也可以設計此類生成式或交互式任務的基準,但評估的指標成為一個挑戰(例如,有關NLP這一活躍研究領域的一些最新進展,請參見[PSZ+21])。我們注意到,[Cho19]也對衡量AI系統的標準方法提出了批評,其中提出了一個新的基準來評估通用智能。由于前面提到的原因,以及該基準本質上是可視化的,因此更適合[Ope23]中描述的GPT-4的多模態版本,我們沒有在后一個基準上測試GPT-4。 為克服上述限制,本文提出一種研究GPT-4的不同方法,更接近傳統心理學而不是機器學習,利用人類的創造力和好奇心。本文旨在生成新的和困難的任務和問題,令人信服地證明GPT-4遠遠超出了記憶,并且它對概念、技能和領域有深刻和靈活的理解([CWF+22]中也提出了某種類似的方法)。探討了GPT-4的反應和行為,以驗證其一致性、連貫性和正確性,并揭示其局限性和偏差。我們承認這種方法有些主觀和非正式,它可能無法滿足科學評估的嚴格標準。然而,我們相信這是欣賞GPT-4非凡的能力和挑戰的有用和必要的第一步,這樣的第一步為開發更正式和全面的方法來測試和分析具有更通用智能的AI系統開辟了新的機會

為了說明我們評估GPT-4智能的方法,讓我們考慮圖1.1中與GPT-4交互的前兩個示例。第一個例子是要求GPT-4以一首詩的形式證明質數的無限。這是一項具有挑戰性的任務,需要結合初等數學推理、詩意表達和自然語言生成。第二個例子是讓GPT-4在TiKZ中畫一只獨角獸。這是另一項具有挑戰性的任務,需要結合視覺想象力和編碼技能。在這兩種情況下,GPT-4產生了令人印象深刻的輸出,遠遠優于之前最先進的LLM ChatGPT,至少可以媲美(如果不是優于)人類會做的事情。

然而,令人印象深刻的輸出還不足以讓我們相信GPT-4已經真正掌握了這些任務。我們需要進一步研究,以排除GPT-4只是簡單地記憶或復制一些現有數據的可能性。對于這篇詩,我們可以稍微改變一下問題,讓GPT-4用莎士比亞的風格寫一個同樣定理的證明,見圖2.2,或者要求不同的組合,比如寫一個關于語言模型的柏拉圖式對話,見圖1.6。可以看到,GPT-4很容易適應不同的風格并產生令人印象深刻的輸出,這表明它對所涉及的概念有靈活和普遍的理解。對于獨角獸,我們可以稍微修改一下代碼,然后讓GPT-4修復或改進它。例如,我們可以刪除角,對坐標應用一些隨機變換,然后讓GPT-4將角重新添加到獨角獸中(我們還小心地刪除了代碼中的文本信息,如注釋)。如圖1 -4所示,GPT-4可以正確識別頭部的位置,繪制一個角,并將其連接到頭部,這表明它可以基于自然語言描述理解和操作代碼,以及推斷和生成視覺特征。這些例子展示了我們如何利用人類的創造力和好奇心來產生新的和困難的問題,并探索GPT-4的反應和行為,以評估其智力。在本文的其余部分,我們圍繞用例組織了對GPT-4的研究,涵蓋了各種領域和任務,并強調了GPT-4的優點和缺點。我們接下來會介紹這些。

1.2 實驗

我們在幾個選定的主題上執行上述方法,這些主題大致涵蓋了1994年智力定義中給出的不同能力。智力是一種非常普遍的心智能力,包括推理、計劃、解決問題、抽象思考、理解復雜想法、快速學習和從經驗中學習的能力

**1. GPT-4的主要優勢是它對自然語言無與倫比的掌握。**它不僅可以生成流暢連貫的文本,還可以以各種方式理解和操縱它,例如總結、翻譯或回答一系列極其廣泛的問題。此外,我們所說的翻譯不僅指不同自然語言之間的翻譯,還包括語氣和風格上的翻譯,以及跨領域的翻譯,如醫學、法律、會計、計算機編程、音樂等,參見圖1.6中的柏拉圖對話。這些技能清楚地證明了GPT-4可以理解復雜的想法。在第2節中進一步探討了GPT-4跨模式和學科的組合技能。我們還在第7節中給出了更多關于語言的實驗。

**2. 編碼和數學是抽象推理和思考能力的象征。**在第3節和第4節中,我們分別探討了GPT4在這些領域的能力。然而,我們注意到,就像論文的所有其他部分一樣,我們只是觸及了這些主題的皮毛,整篇論文可以(并且將會)討論GPT-4在這些領域的性能。此外,我們可以選擇其他幾個專家領域來展示GPT-4的一般推理能力,如醫學或法律。我們對美國醫學執照考試第1步、第2步和第3步的選擇題部分(大部分分數)進行了初步測試(詳見[Ope23]),每一步的準確率都在80%左右。對GPT-4在多州司法考試中的能力進行的類似初步測試顯示,準確率在70%以上。我們注意到,最近在最新一代LLM中觀察到這些領域出現了人類水平的能力,例如,數學和醫學上的谷歌's PaLM參見[LAD+22, SAT+22],法律上的GPT-3.5參見[BIK22]。正如我們之前解釋的,我們研究GPT-4的方法不同于這些工作。

**3.在第5節中,我們將測試模型規劃和解決問題的能力,**以及在一定程度上通過讓它玩各種游戲(或翻桌子,模擬游戲環境)以及與工具交互來快速學習和從經驗中學習的能力。特別是,GPT-4可以使用工具(包括它自己)這一事實,對于使用GPT-4構建實際應用程序肯定是非常重要的。

**4. 我們爭論的一個重要部分是,GPT-4在許多任務上達到了人類水平的性能。**因此,我們很自然地會問,GPT-4對人類本身的理解程度如何。我們在第6節中展示了關于這個問題的幾個實驗,包括理解人類以及GPT-4使自己為人類所理解的實驗,即解決可解釋性問題。我們特別注意到,此類任務需要大量的常識,這是迄今為止LLM的眾所周知的痛點[DM15]。在圖1.7中,我們給出了GPT-4在常識性問題上比ChatGPT好多少的第一個例子,并在附錄a中提供了一些進一步的例子。

5. 在整篇論文中,每當我們發現局限性時,我們都會強調,但我們也將第8節專門用于深入分析缺乏規劃,這可能是GPT-4架構的自回歸性質的直接后果

6. 最后,在第9節中,我們討論了這種早期形式的AGI的預期社會影響,在第10節中,我們分享了該領域的關鍵挑戰、方向和下一步步驟。


許多讀者腦海中可能揮之不去的一個問題是,GPT-4是否真正理解所有這些概念,或者它只是在沒有任何真正或深入理解的情況下,在即興發揮方面比之前的模型好得多。我們希望在閱讀本文后,這個問題應該幾乎翻轉過來,人們可能會想,除了即興發揮之外,真正的理解還有多少。有人能合理地說一個通過了軟件工程候選人考試的系統(圖1.5)不是真正的智能嗎? 也許對理解的唯一真正考驗是一個人是否可以產生新的知識,例如證明新的數學定理,這是LLM目前仍然無法實現的壯舉。

結論

**本文在廣泛的任務和領域中展示了對GPT-4的初步探索,為GPT-4的能力在其中許多方面與人類水平相當的說法提供了支持性證據。**這一結論與OpenAI在[Ope23]中提出的研究結果一致。實驗的一個主要目標是對GPT-4的智能進行初步評估,鑒于這一概念缺乏正式定義,這是一項艱巨的任務,特別是對人工系統。希望我們的探索為理解GPT-4的卓越能力和挑戰提供了有用和必要的第一步,并為開發更正式和全面的方法來測試和分析具有如此廣泛智能的未來AI系統開辟了新機會。上述模型在深度和通用性方面的能力表明,機器學習社區需要通過結構化的數據集和任務超越經典的基準測試,并且對這些新模型的能力和認知能力的評估在本質上已經更接近于評估人類的能力,而不是狹義AI模型的能力。希望我們的研究能夠促進對GPT-4和類似系統的進一步研究,無論是在探索新的應用和領域方面,還是在理解其智能基礎的機制和原理方面。**本文工作的中心主張是,GPT-4實現了一種形式的通用智能,確實展示了人工通用智能的火花。**這可以通過它的核心心智能力(如推理、創造力和推理),它獲得專業知識的主題范圍(如文學、醫學和編碼),以及它能夠執行的各種任務(如玩游戲、使用工具、解釋自己,……)來證明。要創建一個有資格成為完整AGI的系統,還有很多工作要做。最后,討論了幾個直接的下一步步驟,包括定義AGI本身,構建AGI LLM中缺失的一些組件,以及更好地理解最近LLM所顯示的智能的起源。

付費5元查看完整內容

Artificial intelligence (AI) researchers have been developing and refining large language models (LLMs) that exhibit remarkable capabilities across a variety of domains and tasks, challenging our understanding of learning and cognition. The latest model developed by OpenAI, GPT-4, was trained using an unprecedented scale of compute and data. In this paper, we report on our investigation of an early version of GPT-4, when it was still in active development by OpenAI. We contend that (this early version of) GPT-4 is part of a new cohort of LLMs (along with ChatGPT and Google's PaLM for example) that exhibit more general intelligence than previous AI models. We discuss the rising capabilities and implications of these models. We demonstrate that, beyond its mastery of language, GPT-4 can solve novel and difficult tasks that span mathematics, coding, vision, medicine, law, psychology and more, without needing any special prompting. Moreover, in all of these tasks, GPT-4's performance is strikingly close to human-level performance, and often vastly surpasses prior models such as ChatGPT. Given the breadth and depth of GPT-4's capabilities, we believe that it could reasonably be viewed as an early (yet still incomplete) version of an artificial general intelligence (AGI) system. In our exploration of GPT-4, we put special emphasis on discovering its limitations, and we discuss the challenges ahead for advancing towards deeper and more comprehensive versions of AGI, including the possible need for pursuing a new paradigm that moves beyond next-word prediction. We conclude with reflections on societal influences of the recent technological leap and future research directions.

ChatGPT系列報告地址://www.zhuanzhi.ai/topic/tpcac5a15a1c8b5293bfc970b97839eaf7

01ChatGPT是全要素生產率提升的核心   ChatGPT將顯著提升我國全要素生產率   全要素生產率(Total Productivity Factor,TFP)由技術創新、技術效率、規模效率和配置效率等因素決定,未來隨著我國進入高質量發展階段,TFP的改善可有效對沖人口老齡化帶來的壓力,TFP決定了我國潛在增長中樞。   ChatGPT在很多傳統領域會產生勞動力替代,但也會產生很多新的就業機會。2004年之后,中國從劉易斯的二元經濟發展階段進入到新發展階段,農村人口從過剩變為短缺,勞動年齡人口占總人口的比重開始下降。   ChatGPT可與人類開展連續對話,ChatGPT可勝任報告起草、詩歌創作、代碼撰寫等復雜任務。通過“學習”和“理解”人類語言,標志著人工智能技術應用將進入快車道。通過對超過1萬億個人類詞匯和1700億個模型參數進行高效迭代訓練,ChatGPT具備強大的自我學習、推理和歸納總結能力。   02ChatGPT是人工智能科技革命的縮影   ChatGPT是人工智能科技革命的縮影   ChatGPT是人工智能科技革命的縮影。實際上,2010年前后,以人工智能、云計算、大數據、物聯網等組成元素的新一輪科技革命開始孵化、孕育和成長,如智能汽車、新能源汽車已經開始逐步替代傳統汽車,廣泛地應用生產生活。   ChatGPT可以理解為一個高情商、理性且學識淵博的聊天機器人,歸納學習能力強,但在專業領域尚不具備預測能力,如宏觀經濟預測、大類資產價格走勢等。不過,在可預見的未來,ChatGPT將在養老、教育、醫療、內容創作等領域實現廣泛的應用。

付費5元查看完整內容

3月15日 OpenAI發布多模態大模型GPT-4,其不僅在語言處理能力上提高,還具備對圖像的理解和分析能力。GPT-4商業化進程加快,開放API的同時還發布了在6個不同商業場景的應用落地。隨后微軟發布了震撼的微軟365 Copilot,極大提升office的生產力和交互方式。此前,ChatGPT就已經展示了強大的能力,在文字創造、人機交互、教育、影音、零售等多場景落地應用。我們認為,多模態大模型已在多領域具有專家能力,未來將深度賦能千行百業,改變生產生活方式。  **1. 2023年3月15日,OpenAI目前最強大的多模態預訓練大模型GPT-4正式發布。**其能夠處理文本、圖像兩種模態的輸入信息,單次處理文本量是ChatGPT的8倍,GPT-4的表現大大優于目前最好的語言模型,同時在學術考試中的水平遠超GPT3.5。這意味著GPT-4不僅在學術層面上實現了模型優化與突破,同時也展現出了成為部分領域專家的能力。

**2. GPT-4商業化進程加快。**GPT-4在發布時便開放了其純文本輸入的API,這與GPT-3和GPT-3.5的滯后開放不同。同時,GPT-4這次一起推出了6個商業場景的具體應用落地,在優化人機交互體驗、提供專業服務、提升組織效能、文化傳承與保護等方面都展現了巨大的潛能,未來有望看到更多場景中的商業化拓展與落地。 **3. ChatGPT已經刮起GPT生態狂潮。**2023年3月1號,OpenAI基于GPT 3.5 Turbo模型開放了ChatGPT API。API收費模式為0.002美元/1000tokens。相較于前一代開放接口GPT 3.5,性能更強的同時,價格下降90%,加速ChatGPT相關應用生態的發展。 **4.應用百花齊放,創造新的生產方式。**微軟先后在搜索引擎Bing、企業服務平臺Dynamic 365及開發者工具平臺Power Platform等接入 ChatGPT/GPT-4能力。微軟還發布了震撼的Microsoft 365 Copilot,極大提升office的生產力和交互方式。與此同時,在越來越多的企業宣布接入ChatGPT的能力,其中不乏一些已經取得優秀商業化的應用。如Jasper、Quizlet、Shop等,在語言文字創造、人機交互、教育、繪畫、影音、零售等多場景落地應用。 5. 我們認為以GPT4/ChatGPT為代表的預訓練大模型是這一輪AI浪潮的重要革新,重點推薦關注海內外優秀應用落地情況,AI芯片產業鏈等投資機遇。

**GPT技術發展不及預期:**GPT屬于先進AI算法,若后續GPT算法更新迭代效果不及預期,則會影響GPT演進及拓展,進而會影響其商業化落地等; **算法歧視與人權道德風險:**GPT引入基于人工反饋的強化學習,在人工反饋中,不可避免的會參雜歧視問題,從而會將歧視帶入后續的人機交互中;大模型在進行預訓練過程中,使用了大量數據,其中會涉及相關隱私問題; **數據數量與數據質量不及預期:**大模型需要大量的高質量數據進行訓練,若數據數量和質量存在短板,則會影響模型效果。 **GPT接口開放不明確:**目前GPT是否能對國內開放API還不明朗,若未來無法接入,可能將導致相關應用在國內無法落地。 **算力受限:**目前大模型訓練以GPU為主,尤其是英偉達的GPU。未來若GPU產能或者中美摩擦升級,可能導致國內廠商的算力布局。

付費5元查看完整內容

近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。

//compstat-lmu.github.io/seminar_nlp_ss20/

在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。

這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。

為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。

遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。

為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。

在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。

本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。

付費5元查看完整內容
北京阿比特科技有限公司