亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器之心報道機器之心編輯部

ChatGPT 點燃了科技行業的明燈,GPT-4 能燎原嗎?

誰能革得了 ChatGPT 的命?現在看來還是 OpenAI 自己。 在 ChatGPT 引爆科技領域之后,人們一直在討論 AI「下一步」的發展會是什么,很多學者都提到了多模態,我們并沒有等太久。今天凌晨,OpenAI 發布了多模態預訓練大模型 GPT-4。

GPT-4 實現了以下幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至 2.5 萬字;回答準確性顯著提高;能夠生成歌詞、創意文本,實現風格變化。

「GPT-4 是世界第一款高體驗,強能力的先進AI系統,我們希望很快把它推向所有人,」OpenAI 工程師在介紹視頻里說道。 似乎是想一口氣終結這場游戲,OpenAI 既發布了論文(更像是技術報告)、 System Card,把 ChatGPT 直接升級成了 GPT-4 版的,也開放了 GPT-4 的 API。 另外,微軟營銷主管在 GPT-4 發布后第一時間表示:「如果你在過去六周內的任何時候使用過新的 Bing 預覽版,你就已經提前了解了 OpenAI 最新模型的強大功能。」是的,微軟的新必應早就已經用上了GPT-4。

接下來,就讓我們細細品味這場震撼發布。 GPT-4:我 SAT 考 710,也能當律師

GPT-4 是一個大型多模態模型,能接受圖像和文本輸入,再輸出正確的文本回復。實驗表明,GPT-4 在各種專業測試和學術基準上的表現與人類水平相當。例如,它通過了模擬律師考試,且分數在應試者的前 10% 左右;相比之下,GPT-3.5 的得分在倒數 10% 左右。 OpenAI 花了 6 個月的時間使用對抗性測試程序和 ChatGPT 的經驗教訓對 GPT-4 進行迭代調整 ,從而在真實性、可控性等方面取得了有史以來最好的結果。 在過去的兩年里,OpenAI 重建了整個深度學習堆棧,并與 Azure 一起為其工作負載從頭開始設計了一臺超級計算機。一年前,OpenAI 在訓練 GPT-3.5 時第一次嘗試運行了該超算系統,之后他們又陸續發現并修復了一些錯誤,改進了其理論基礎。這些改進的結果是 GPT-4 的訓練運行獲得了前所未有的穩定,以至于 OpenAI 能夠提前準確預測 GPT-4 的訓練性能,它也是第一個實現這一點的大模型。OpenAI 表示他們將繼續專注于可靠的擴展,進一步完善方法,以幫助其實現更強大的提前預測性能和規劃未來的能力,這對安全至關重要。 OpenAI 正在通過 ChatGPT 和 API(有候補名單)發布 GPT-4 的文本輸入功能。圖像輸入功能方面,為了獲得更廣泛的可用性,OpenAI 正在與其他公司展開合作。 OpenAI 今天還開源了 OpenAI Evals,這是其用于自動評估 AI 模型性能的框架。OpenAI 表示此舉是為了讓所有人都可以指出其模型中的缺點,以幫助 OpenAI 進一步改進模型。 有趣的是,GPT-3.5 和 GPT-4 之間的區別很微妙。當任務的復雜性達到足夠的閾值時,差異就會出現 ——GPT-4 比 GPT-3.5 更可靠、更有創意,并且能夠處理更細微的指令。為了了解這兩個模型之間的差異,OpenAI 在各種基準和一些為人類設計的模擬考試上進行了實驗。

OpenAI 還在為機器學習模型設計的傳統基準上評估了 GPT-4。GPT-4 大大優于現有的大型語言模型,以及大多數 SOTA 模型:

許多現有的機器學習基準測試都是用英語編寫的。為了初步了解 GPT-4 在其他語言上的能力,研究團隊使用 Azure Translate 將 MMLU 基準 —— 一套涵蓋 57 個主題的 14000 個多項選擇題 —— 翻譯成多種語言。在測試的 26 種語言的 24 種中,GPT-4 優于 GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能:

就像許多使用 ChatGPT 的公司一樣,OpenAI 表示他們內部也在使用 GPT-4,因此 OpenAI 也在關注大型語言模型在內容生成、銷售和編程等方面的應用效果。OpenAI 還使用 GPT-4 輔助人們評估 AI 輸出,這也是 OpenAI 對其策略的第二階段。OpenAI 既是 GPT-4 的開發者,也是使用者。 GPT-4:我能玩梗圖

GPT-4 可以接受文本和圖像形式的 prompt,新能力與純文本設置并行,允許用戶指定任何視覺或語言任務。 具體來說,它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應的文本輸出(自然語言、代碼等)。在一系列領域 —— 包括帶有文本和照片的文檔、圖表或屏幕截圖上 ——GPT-4 展示了與純文本輸入類似的功能。此外,它還可以通過為純文本語言模型開發的測試時間技術得到增強,包括少樣本和思維鏈 prompt。 比如給 GPT-4 一個長相奇怪的充電器的圖片,問為什么這很可笑?

GPT-4 回答道,VGA 線充 iPhone。

格魯吉亞和西亞的人均每日肉類消費,算平均數:

看起來,現在的 GPT 已經不會在計算上胡言亂語了:

還是太簡單,那直接讓它做題,還是個物理題:

GPT-4 看懂了法語題目,并完整解答:

GPT-4 可以理解一張照片里「有什么不對勁的地方」:

GPT-4 還可以量子速讀看論文,如果你給它 InstructGPT 的論文,讓它總結摘要,就會變成這樣:

如果你對論文里的某一個圖感興趣呢?GPT-4 也可以解釋一下:

接著來,問 GPT-4 梗圖是什么意思:

它給出了詳細的回答:

那么漫畫呢?

讓 GPT-4 解釋為什么要給神經網絡加層數,似乎有一點加倍的幽默感。

不過 OpenAI 在這里說了,圖像輸入是研究預覽,仍不公開。 研究人員用學術的 Benchmark 視角來解讀 GPT-4 的看圖能力,然而這已經不夠了,他們還能不斷發現該模型可以令人興奮地處理新任務 —— 現在的矛盾是 AI 的能力和人類想象力之間的矛盾。

看到這里,應該有研究人員感嘆:CV 不存在了。 可控性

與具有固定冗長、平靜語氣和風格的經典 ChatGPT 個性不同,開發人員(以及 ChatGPT 用戶)現在可以通過在「系統」消息中描述這些方向來規定他們的 AI 的風格和任務。 系統消息允許 API 用戶在一定范圍內定制化實現不同的用戶體驗。OpenAI 知道你們在讓 ChatGPT 玩 Cosplay,也鼓勵你們這樣做。

局限性

盡管功能已經非常強大,但 GPT-4 仍與早期的 GPT 模型具有相似的局限性,其中最重要的一點是它仍然不完全可靠。OpenAI 表示,GPT-4 仍然會產生幻覺、生成錯誤答案,并出現推理錯誤。 目前,使用語言模型應謹慎審查輸出內容,必要時使用與特定用例的需求相匹配的確切協議(例如人工審查、附加上下文或完全避免使用) 。 總的來說,GPT-4 相對于以前的模型(經過多次迭代和改進)已經顯著減輕了幻覺問題。在 OpenAI 的內部對抗性真實性評估中,GPT-4 的得分比最新的 GPT-3.5 模型高 40%:

GPT-4 在 TruthfulQA 等外部基準測試方面也取得了進展,OpenAI 測試了模型將事實與錯誤陳述的對抗性選擇區分開的能力,結果如下圖所示。

實驗結果表明,GPT-4 基本模型在此任務上僅比 GPT-3.5 略好;然而,在經過 RLHF 后訓練之后,二者的差距就很大了。以下是 GPT-4 的測試示例 —— 并不是所有時候它都能做出正確的選擇。

該模型在其輸出中可能會有各種偏見,OpenAI 在這些方面已經取得了進展,目標是使建立的人工智能系統具有合理的默認行為,以反映廣泛的用戶價值觀。 GPT-4 通常缺乏對其絕大部分數據截止后(2021 年 9 月)發生的事件的了解,也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤,這似乎與這么多領域的能力不相符,或者過于輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗,比如在它生成的代碼中引入安全漏洞。 GPT-4 預測時也可能出錯但很自信,意識到可能出錯時也不會 double-check。有趣的是,基礎預訓練模型經過高度校準(其對答案的預測置信度通常與正確概率相匹配)。然而,通過 OpenAI 目前的后訓練(post-training)過程,校準減少了。

風險及緩解措施

OpenAI 表示,研究團隊一直在對 GPT-4 進行迭代,使其從訓練開始就更加安全和一致,所做的努力包括預訓練數據的選擇和過濾、評估和專家參與、模型安全改進以及監測和執行。 GPT-4 有著與以前的模型類似的風險,如產生有害的建議、錯誤的代碼或不準確的信息。同時,GPT-4 的額外能力導致了新的風險面。為了了解這些風險的程度,團隊聘請了 50 多位來自人工智能對齊風險、網絡安全、生物風險、信任和安全以及國際安全等領域的專家,對該模型在高風險領域的行為進行對抗性測試。這些領域需要專業知識來評估,來自這些專家的反饋和數據為緩解措施和模型的改進提供了依據。

預防風險

按照 demo 視頻里 OpenAI 工程師們的說法,GPT-4 的訓練在去年 8 月完成,剩下的時間都在進行微調提升,以及最重要的去除危險內容生成的工作。 GPT-4 在 RLHF 訓練中加入了一個額外的安全獎勵信號,通過訓練模型拒絕對此類內容的請求來減少有害的輸出。獎勵是由 GPT-4 的零樣本分類器提供的,它判斷安全邊界和安全相關 prompt 的完成方式。為了防止模型拒絕有效的請求,團隊從各種來源(例如,標注的生產數據、人類的紅隊、模型生成的 prompt)收集多樣化的數據集,在允許和不允許的類別上應用安全獎勵信號(有正值或負值)。 這些措施大大在許多方面改善了 GPT-4 的安全性能。與 GPT-3.5 相比,模型對不允許內容的請求的響應傾向降低了 82%,而 GPT-4 對敏感請求(如醫療建議和自我傷害)的響應符合政策的頻率提高了 29%。

訓練過程

與之前的 GPT 模型一樣,GPT-4 基礎模型經過訓練可以預測文檔中的下一個單詞。OpenAI 使用公開可用的數據(例如互聯網數據)以及已獲得許可的數據進行訓練。訓練數據是一個網絡規模的數據語料庫,包括數學問題的正確和錯誤解決方案、弱推理和強推理、自相矛盾和一致的陳述,以及各種各樣的意識形態和想法。 因此,當提出問題時,基礎模型的回應可能與用戶的意圖相去甚遠。為了使其與用戶意圖保持一致,OpenAI 依然使用強化學習人類反饋 (RLHF) 來微調模型的行為。請注意,該模型的能力似乎主要來自預訓練過程 ——RLHF 不會提高考試成績(甚至可能會降低它)。但是模型的控制來自后訓練過程 —— 基礎模型甚至需要及時的工程設計來回答問題。

GPT-4 的一大重點是建立了一個可預測擴展的深度學習棧。主要原因是,對于像 GPT-4 這樣的大型訓練,進行廣泛的特定模型調整是不可行的。團隊開發了基礎設施和優化,在多種規模下都有可預測的行為。為了驗證這種可擴展性,他們提前準確地預測了 GPT-4 在內部代碼庫(不屬于訓練集)上的最終損失,方法是通過使用相同的方法訓練的模型進行推斷,但使用的計算量為 1/10000。

現在,OpenAI 可以準確地預測在訓練過程中優化的指標(損失)。例如從計算量為 1/1000 的模型中推斷并成功地預測了 HumanEval 數據集的一個子集的通過率:

有些能力仍然難以預測。例如,Inverse Scaling 競賽旨在找到一個隨著模型計算量的增加而變得更糟的指標,而 hindsight neglect 任務是獲勝者之一。GPT-4 扭轉了這一趨勢。

能夠準確預測未來的機器學習能力對于技術安全來說至關重要,但它并沒有得到足夠的重視,OpenAI 表示正在投入更多精力開發相關方法,并呼吁業界共同努力。 OpenAI 表示正在開源 OpenAI Evals 軟件框架,它被用于創建和運行基準測試以評估 GPT-4 等模型,同時可以逐樣本地檢查模型性能。 ChatGPT 直接升級至 GPT-4 版

GPT-4 發布后,OpenAI 直接升級了 ChatGPT。ChatGPT Plus 訂閱者可以在 chat.openai.com 上獲得具有使用上限的 GPT-4 訪問權限。 要訪問 GPT-4 API(它使用與 gpt-3.5-turbo 相同的 ChatCompletions API),用戶可以注冊等待。OpenAI 會邀請部分開發者體驗。 獲得訪問權限后,用戶目前可以向 GPT-4 模型發出純文本請求(圖像輸入仍處于有限的 alpha 階段)。至于價格方面,定價為每 1k 個 prompt token 0.03 美元,每 1k 個 completion token 0.06 美元。默認速率限制為每分鐘 40k 個 token 和每分鐘 200 個請求。 GPT-4 的上下文長度為 8,192 個 token。OpenAI 還提供了 32,768 個 token 上下文(約 50 頁文本)版本的有限訪問,該版本也將隨著時間自動更新(當前版本 gpt-4-32k-0314,也支持到 6 月 14 日)。定價為每 1K prompt token 0.06 美元和每 1k completion token 0.12 美元。

以上,就是今天 OpenAI 關于 GPT-4 的所有內容了。令人不滿的一點是,OpenAI 公開的技術報告中,不包含任何關于模型架構、硬件、算力等方面的更多信息,可以說是很不 Open 了。 不管怎樣,迫不及待的用戶大概已經開始測試體驗了吧。

最后,也想問一下讀者,看完 GPT-4 的發布,你有何感想。 參考內容://openai.com/product/gpt-4

付費5元查看完整內容

相關內容

北京時間2023年3月15日凌晨,ChatGPT開發商OpenAI 發布了發布了全新的多模態預訓練大模型 GPT-4,可以更可靠、更具創造力、能處理更細節的指令,根據圖片和文字提示都能生成相應內容。 具體來說來說,GPT-4 相比上一代的模型,實現了飛躍式提升:支持圖像和文本輸入,擁有強大的識圖能力;大幅提升了文字輸入限制,在ChatGPT模式下,GPT-4可以處理超過2.5萬字的文本,可以處理一些更加細節的指令;回答準確性也得到了顯著提高。

機器之心報道

機器之心編輯部

平替再平替,可以在消費級 GPU 上運行的 Koala 模型能實現 ChatGPT 一半的性能。

自從 Meta 發布并開源了 LLaMA 系列模型,來自斯坦福大學、UC 伯克利等機構的研究者們紛紛在 LLaMA 的基礎上進行「二創」,先后推出了 Alpaca、Vicuna 等多個「羊駝」大模型。

羊駝已然成為開源社區的新晉頂流。由于「二創」過于豐富,生物學羊駝屬的英文單詞都快不夠用了,但是用其他動物的名字給大模型命名也是可以的。

最近,UC 伯克利的伯克利人工智能研究院(BAIR)發布了一個可以在消費級 GPU 上運行的對話模型 Koala(直譯為考拉)。Koala 使用從網絡收集的對話數據對 LLaMA 模型進行微調。

項目地址://bair.berkeley.edu/blog/2023/04/03/koala/

Koala 已經推出線上測試 demo:

Demo 地址: * 開源地址:

Koala 概述

與 Vicuna 類似,Koala 也使用從網絡收集的對話數據對 LLaMA 模型進行微調,其中重點關注與 ChatGPT 等閉源大模型對話的公開數據。

研究團隊表示,Koala 模型在 EasyLM 中使用 JAX/Flax 實現,并在配備 8 個 A100 GPU 的單個 Nvidia DGX 服務器上訓練 Koala 模型。完成 2 個 epoch 的訓練需要 6 個小時。在公共云計算平臺上,進行此類訓練的成本通常低于 100 美元。

研究團隊將 Koala 與 ChatGPT 和斯坦福大學的 Alpaca 進行了實驗比較,結果表明:具有 130 億參數的 Koala-13B 可以有效地響應各種用戶查詢,生成的響應通常優于 Alpaca,并且在超過一半的情況下與 ChatGPT 性能相當。

Koala 最重要的意義是它表明:在質量較高的數據集上進行訓練,那么小到可以在本地運行的模型也可以獲得類似大模型的優秀性能。這意味著開源社區應該更加努力地管理高質量數據集,因為這可能比簡單地增加現有系統的規模更能實現安全、真實和強大的模型。從這個角度看,Koala 是 ChatGPT 一種小而精的平替。

不過,Koala 還只是一個研究原型,在內容、安全性和可靠性方面仍然存在重大缺陷,也不應用于研究之外的任何用途。

數據集和訓練

構建對話模型的主要障礙是管理訓練數據。ChatGPT、Bard、Bing Chat 和 Claude 等大型對話模型都使用帶有大量人工注釋的專有數據集。為了構建 Koala 的訓練數據集,研究團隊從網絡和公共數據集中收集對話數據并整理,其中包含用戶公開分享的與大型語言模型(例如 ChatGPT)對話的數據。

不同于其他模型盡可能多地抓取網絡數據來最大化數據集,Koala 是專注于收集小型高質量數據集,包括公共數據集中的問答部分、人類反饋(正面和負面)以及與現有語言模型的對話。具體而言,Koala 的訓練數據集包括如下幾個部分:

ChatGPT 蒸餾數據:

公開可用的與 ChatGPT 對話數據(ShareGPT); * Human ChatGPT 比較語料庫 (HC3),其中同時使用來自 HC3 數據集的人類和 ChatGPT 響應。

開源數據:

Open Instruction Generalist (OIG); * 斯坦福 Alpaca 模型使用的數據集; * Anthropic HH; * OpenAI WebGPT; * OpenAI Summarization。

實驗與評估

該研究進行了一項人工評估,將 Koala-All 與 Koala-Distill、Alpaca 和 ChatGPT 幾個模型的生成結果進行比較,結果如下圖所示。其中,使用兩個不同的數據集進行測試,一個是斯坦福的 Alpaca 測試集,其中包括 180 個測試查詢(Alpaca Test Set),另一個是 Koala Test Set。

總的來說,Koala 模型足以展示 LLM 的許多功能,同時又足夠小,方便進行微調或在計算資源有限的情況下使用。研究團隊希望 Koala 模型成為未來大型語言模型學術研究的有用平臺,潛在的研究應用方向可能包括:

安全性和對齊:Koala 允許進一步研究語言模型的安全性并更好地與人類意圖保持一致。 * 模型偏差:Koala 使我們能夠更好地理解大型語言模型的偏差,深入研究對話數據集的質量問題,最終有助于改進大型語言模型的性能。 * 理解大型語言模型:由于 Koala 模型可以在相對便宜的消費級 GPU 上運行,并且執行多種任務,因此 Koala 使我們能夠更好地檢查和理解對話語言模型的內部結構,使語言模型更具可解釋性。

參考鏈接:

? THE END 轉載請聯系本公眾號獲得授權 投稿或尋求報道:

付費5元查看完整內容

GPT-4來了!今日凌晨,萬眾矚目的大型多模態模型GPT-4正式發布! OpenAI CEO Sam Altman直接介紹說:

這是我們迄今為止功能最強大的模型!

 圖靈獎三巨頭之一Geoffrey Hinton對此贊嘆不已,「毛蟲吸取了營養之后,就會化繭為蝶。而人類提取了數十億個理解的金塊,GPT-4,就是人類的蝴蝶。」

OpenAI發文稱,GPT-4能接受圖像和文本輸入,輸出文本內容,雖然在許多現實場景中的能力不如人類,但在各種專業和學術基準測試中已做到人類水平的表現。GPT-4 實現了以下幾個方面的飛躍式提升:強大的識圖能力;文字輸入限制提升至 2.5 萬字;回答準確性顯著提高;能夠生成歌詞、創意文本,實現風格變化。

它強大到什么程度呢?輸入一張手繪草圖,GPT-4能直接生成最終設計的網頁代碼。

它以高分通過各種標準化考試:SAT拿下700分,GRE幾乎滿分,邏輯能力吊打GPT-3.5。

GPT-4在高級推理能力上超越ChatGPT。在律師模擬考試中,ChatGPT背后的GPT-3.5排名在倒數10%左右,而GPT-4考到了前10%左右。GPT-4的長度限制提升到32K tokens,即能處理超過25000個單詞的文本,并且可以使用長格式內容創建、擴展對話、文檔搜索和分析等。OpenAI還貼心地發布了GPT-4開發者視頻,手把手教你生成代碼、檢查錯誤信息、報稅等。在視頻中,OpenAI聯合創始人兼總裁Greg Brockman說了句有點扎心的話:“它并不完美,但你也一樣。”OpenAI正通過ChatGPT和API發布GPT-4的文本輸入功能,圖像輸入功能暫未開放。ChatGPT plus訂閱者可直接獲得有使用上限的GPT-4的試用權,4小時內最多只能發布100條信息。開發者也可以申請GPT-4 API,進入候補名單等待通過。

**申請直通門:**//t.cn/A6ClOHn7隨著時間的推移,OpenAI會將其自動更新為推薦的穩定模型(你可以通過調用gpt-4-0314來鎖定當前版本,OpenAI將支持到6月14日)。定價是每1k prompt tokens 0.03美元,每1k completion tokens 0.06美元。默認速率限制是每分鐘40k tokens和每分鐘200個請求。gpt-4的上下文長度為8192個tokens。還提供對32768個上下文(約50頁文本)版本gpt-4-32k的有限訪問,該版本也將隨著時間的推移自動更新(當前版本gpt-4-32k-0314,也將支持到6月14日)。價格是每1k prompt tokens 0.06美元,每1K completion tokens 0.12美元。此外,OpenAI還開源了用于自動評估AI模型性能的框架OpenAI Evals,以便開發者更好的評測模型的優缺點,從而指導團隊進一步改進模型。開源地址:github.com/openai/evalsGPT-4 技術報告

本文報告了GPT-4的發展,這是一個大規模的多模態模型,可以接受圖像和文本輸入并產生文本輸出。雖然在許多現實世界的場景中,GPT-4的能力不如人類,但它在各種專業和學術基準上表現出了人類水平的表現,包括通過了模擬的律師考試,其分數約為考生的前10%。GPT-4是一個基于transformer的模型,預訓練用于預測文檔中的下一個token。訓練后的校準過程會提高對事實的衡量和對期望行為的堅持程度。該項目的一個核心組件是開發基礎設施和優化方法,這些方法可以在廣泛的范圍內預測性能。這使我們能夠基于不超過GPT-4計算量的1/ 1000的訓練模型準確地預測GPT-4性能的某些方面。本技術報告介紹了GPT-4,一個能夠處理圖像和文本輸入并產生文本輸出的大型多模態模型。此類模型是一個重要的研究領域,具有廣泛的應用前景,如對話系統、文本摘要和機器翻譯。因此,近年來,它們一直是人們感興趣和取得進展的主題[1-28]。開發這樣的模型的主要目標之一是提高它們理解和生成自然語言文本的能力,特別是在更復雜和微妙的情況下。為了測試它在這種情況下的能力,在最初為人類設計的各種考試中對GPT-4進行了評估。在這些評估中,它表現得相當好,經常超過絕大多數人類考生。例如,在模擬的律師考試中,GPT-4的分數落在了考生的前10%。這與GPT-3.5形成對比,GPT-3.5得分在最后10%。在一套傳統的NLP基準測試中,GPT-4的表現優于之前的大型語言模型和大多數最先進的系統(這些系統通常有基準特定的訓練或手工工程)。在MMLU基準29,30上,GPT-4不僅在英語方面以相當大的優勢超過現有模型,而且在其他語言方面也表現出強大的性能。在MMLU的翻譯變體上,GPT-4在考慮的26種語言中的24種超過了英語的最先進水平。我們將在后面的章節中更詳細地討論這些模型能力結果,以及模型安全性的改進和結果。本報告還討論了該項目的一個關鍵挑戰,即開發在大范圍內表現可預測的深度學習基礎設施和優化方法。這使我們能夠對GPT-4的預期性能做出預測(基于以類似方式訓練的小測試),并在最后的測試中進行測試,以增加我們對訓練的信心。盡管GPT-4功能強大,但它與早期的GPT模型有相似的局限性[1,31,32]:它不完全可靠(例如,可能會出現“幻覺”),上下文窗口有限,并且不能從經驗中學習。在使用GPT-4輸出時應小心,特別是在可靠性很重要的情況下。GPT-4的能力和局限性帶來了重大而新穎的安全挑戰,我們認為,考慮到潛在的社會影響,仔細研究這些挑戰是一個重要的研究領域。本報告包括一個廣泛的系統卡(在附錄之后),描述了我們預計的關于偏見、虛假信息、過度依賴、隱私、網絡安全、擴散等方面的一些風險。它還描述了我們為減輕GPT-4部署帶來的潛在危害而采取的干預措施,包括與領域專家進行對抗性測試,以及一個模型輔助的安全通道。本報告重點介紹了GPT-4的功能、局限性和安全性。GPT-4是[33]預訓練的transformer風格的模型,可以使用公開可用的數據(如互聯網數據)和第三方提供商授權的數據來預測文檔中的下一個Token。然后使用來自人類反饋的強化學習(RLHF)[34]對模型進行微調。考慮到大型模型(如GPT-4)的安全影響,本報告沒有包含有關架構(包括模型大小)、硬件、訓練計算、數據集構造、訓練方法或類似內容的進一步細節。我們致力于對我們的技術進行獨立審計,并在這個版本附帶的系統卡中分享了這一領域的一些初始步驟和想法我們計劃向更多的第三方提供進一步的技術細節,他們可以就如何權衡上述競爭和安全考慮與進一步透明的科學價值提供建議


付費5元查看完整內容

谷歌的下一代架構 Pathways 已經用來訓練大模型了。

隨著規模的增加,模型在處理多個任務時的性能逐漸提高,而且還在不斷解鎖新的能力。

在探討現有 AI 模型的局限時,谷歌人工智能主管 Jeff Dean 曾經說過,今天的人工智能系統總是從頭開始學習新問題。最終,我們為數千個單獨的任務開發了數千個模型。以這種方式學習每項新任務不僅需要更長的時間,而且還需要更多的數據,效率非常低。

在 Jeff Dean 看來,理想的發展模式應該是訓練一個模型來做成千上萬件事情。為了實現這一愿景,他所在的團隊去年提出了一種名叫「Pathways」的通用 AI 架構。Jeff Dean 介紹說,Pathways 旨在用一個架構同時處理多項任務,并且擁有快速學習新任務、更好地理解世界的能力。前段時間,該團隊終于公布了 Pathways 的論文。

論文寫道,PATHWAYS 使用了一種新的異步分布式數據流設計。這種設計允許 PATHWAYS 采用單控制器模型,從而更容易表達復雜的新并行模式。實驗結果表明,當在 2048 個 TPU 上運行 SPMD(single program multiple data)計算時,PATHWAYS 的性能(加速器利用率接近 100%)可以媲美 SOTA 系統。

谷歌 Pathways 系統架構概覽。

有了強大的系統,接下來就是訓練模型了。

在剛剛公布的論文——「PaLM: Scaling Language Modeling with Pathways」中,谷歌宣布,他們用 Pathways 系統訓練了一個 5400 億參數的大型語言模型——PaLM(Pathways Language Model)。

圖片

論文鏈接://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

這是一個只有解碼器的密集 Transformer 模型。為了訓練這個模型,谷歌動用了 6144 塊 TPU,讓 Pathways 在兩個 Cloud TPU v4 Pods 上訓練 PaLM。

強大的系統和算力投入帶來了驚艷的結果。研究者在數百個語言理解和生成任務上評估了 PaLM,發現它在大多數任務上實現了 SOTA 少樣本學習性能,可以出色地完成笑話解讀、bug 修復、從表情符號中猜電影等語言、代碼任務。

付費5元查看完整內容
北京阿比特科技有限公司