亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

OpenAI發布了最新文生視頻大模型SORA,可以生成1分鐘長視頻,效果顯著,在生成的視頻細節,內容一致性和指令遵循能力獨樹一幟   2月16日,OpenAI首次對外公布了SORA文生視頻模型,SORA模型可以直接輸出長達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個角色。相比較而言,Runway Gen2、Pika等AI視頻工具,都還在突破幾秒內的連貫性,而OpenAI,已經達到了史詩級的紀錄。OpenAI目前已經邀請了一支專業的創意人士測試,用于反饋其在專業環境中的實用性。   SORA模型在訓練中將不同類型視覺素材統一為時空Latent Patch,采用Diffusion-transformer結構并大規模訓練,再次展現“暴力美學”   從technical report窺探技術路徑,OpenAI在文生視頻領域再次展現“暴力美學”,SORA在模型結構上使用了Diffusion Transformer結構,采用了大規模的訓練,在數據上將圖片和視頻統一壓縮轉換為時空Latent Patches并作為transformer輸入,而這一步也使得模型能夠在不同分辨率、持續時間和寬高比的視頻/圖像數據上進行訓練,同時為了提高模型的理解能力,SORA使用了DALL-E3模型中的re-captioning技術,訓練了一個caption模型為視頻數據生成文字字幕。   SORA模型已具備了一定的涌現能力,雖然也存在“幻覺問題”,但我們認為文生視頻的GPT-3時刻已來   SORA模型現在可用于視頻生成,圖片生成,視頻編輯、視頻鏈接和視頻前后拓展等,我們認為未來有望重塑影視/動畫/自媒體等諸多視頻生產行業,同時SORA還展現出了一定的涌現能力,使其能夠從物理世界模擬人、動物和環境的某些方面,包括3D連續,物體持續和long-range的連貫性,我們預計未來SORA也會逐步進化,如同GPT3到4一樣有更強的能力,或許文生視頻的GPT-3時刻已經到來。  

付費5元查看完整內容

相關內容

Sora是OpenAI發布的一個AI模型,可以從文本指令中創建現實和想象的視頻。OpenAI發布首個文本生成視頻模型Sora,在生成視頻長度(60秒)和內容上表現突出,為AIGC發展過程中的一大里程碑事件,

機器之心報道 機器之心編輯部性能比 GPT-4 強很多。

大模型的純文本方向,已經卷到頭了? 昨晚,OpenAI 最大的競爭對手 Anthropic 發布了新一代 AI 大模型系列 ——Claude 3。 該系列包含三個模型,按能力由弱到強排列分別是 Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。其中,能力最強的 Opus 在多項基準測試中得分都超過了 GPT-4 和 Gemini 1.0 Ultra,在數學、編程、多語言理解、視覺等多個維度樹立了新的行業基準。 Anthropic 表示,Claude 3 Opus 擁有人類本科生水平的知識。

在新模型發布后,Claude 首次帶來了對多模態能力的支持(Opus 版本的 MMMU 得分為 59.4%,超過 GPT-4V,與 Gemini 1.0 Ultra 持平)。用戶現在可以上傳照片、圖表、文檔和其他類型的非結構化數據,讓 AI 進行分析和解答。

此外,這三個模型也延續了 Claude 系列模型的傳統強項 —— 長上下文窗口。其初始階段支持 200K token 上下文窗口,不過,Anthropic 表示,三者都支持 100 萬 token 的上下文輸入(向特定客戶開放),這大約是英文版《白鯨》或《哈利?波特與死亡圣器》的長度。 不過,在定價上,能力最強的 Claude 3 也比 GPT-4 Turbo 要貴得多:GPT-4 Turbo 每百萬 token 輸入 / 輸出收費為 10/30 美元 ;而 Claude 3 Opus 為 15/75 美元。

Opus 和 Sonnet 現可在 claude.ai 和 Claude API 中使用,Haiku 也將于不久后推出。亞馬遜云科技也第一時間宣布新模型登陸了 Amazon Bedrock。以下是 Anthropic 發布的官方 demo:

在 Anthropic 官宣之后,不少得到試用機會的研究者也曬出了自己的體驗。有人說,Claude 3 Sonnet 解出了一道此前只有 GPT-4 才能解開的謎題。

不過,也有人表示,在實際體驗方面,Claude 3 并沒有徹底擊敗 GPT-4。

技術報告里寫了什么

目前,Anthropic 已經放出了 42 頁的技術報告《The Claude 3 Model Family: Opus, Sonnet, Haiku》。

報告地址://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf 我們看到了 Claude 3 系列模型的訓練數據、評估標準以及更詳細的實驗結果。 在訓練數據方面,Claude 3 系列模型接受了截至 2023 年 8 月互聯網公開可用的專用混合數據的訓練,以及來自第三方的非公開數據、數據標簽服務商和付費承包商提供的數據、Claude 內部的數據。 Claude 3 系列模型在以下多個指標上接受了廣泛的評估,包括:

  • 推理能力
  • 多語言能力
  • 長上下文
  • 可靠性 / 事實性
  • 多模態能力

首先是推理、編程和問答任務上的評估結果,Claude 3 系列模型在一系列推理、閱讀理解、數學、科學和編程的行業標準基準上與競品模型展開了比較,結果顯示不僅超越了自家以往模型,還在大多數情況下實現了新 SOTA。

Anthropic 在法學院入學考試 (LSAT) 、多州律師考試 (MBE)、美國數學競賽 2023 年數學競賽和研究生入學考試 (GRE) 普通考試中評估了 Claude 3 系列模型,具體結果如下表 2 所示。

Claude 3 系列模型具備多模態(圖像和視頻幀輸入)能力,并且在解決超越簡單文本理解的復雜多模態推理挑戰方面取得了重大進展。 一個典型的例子是 Claude 3 模型在 AI2D 科學圖表基準上的表現,這是一種視覺問答評估,涉及圖表解析并以多項選擇格式回答相應的問題。 Claude 3 Sonnet 在 0-shot 設置中達到了 SOTA 水平 —— 89.2%,其次是 Claude 3 Opus(88.3%)和 Claude 3 Haiku(80.6%),具體結果如下表 3 所示。

針對這份技術報告,愛丁堡大學博士生符堯在第一時間給出了自己的分析。 首先,在他看來,被評估的幾個模型在 MMLU / GSM8K / HumanEval 等幾項指標上基本沒有區分度,真正需要關心的是為什么最好的模型在 GSM8K 上依然有 5% 的錯誤。

他認為,真正能夠把模型區分開的是 MATH 和 GPQA,這些超級棘手的問題是 AI 模型下一步應該瞄準的目標。

與 Claude 之前的模型相比,改進比較大的領域是金融和醫學。

視覺方面,Claude 3 表現出的視覺 OCR 能力讓人看到了它在數據收集方面的巨大潛力。

此外,他還發現了其他一些趨勢:

從目前的評測基準和體驗看來,Claude 3 在智能水平、多模態能力和速度上都取得了長足的進步。隨著新系列模型的進一步優化和應用,我們或許將看到更加多元化的大模型生態。

博客地址: 參考內容:

付費5元查看完整內容

Sora橫空出世引領多模態產業革命。美國時間2月15日,文生視頻大模型Sora橫空出世,能夠根據文本指令或靜態圖像生成1分鐘的視頻。其中,視頻生成包含精細復雜的場景、生動的角色表情以及復雜的鏡頭運動,同時也接受現有視頻擴展或填補缺失的幀。總體而言,不管是在視頻的保真度、長度、穩定性、一致性、分辨率、文字理解等方面,Sora都做到了業內領先水平,引領多模態產業革命。此外,當Sora訓練的數據量足夠大時,它也展現出了一種類似于涌現的能力,從而使得視頻生成模型具備了類似于物理世界通用模擬器的潛力。

  拆解視頻生成過程,技術博采眾長或奠定了Sora文生視頻領軍地位。從技術報告中,Sora視頻生成過程大致由“視頻編碼+加噪降噪+視頻解碼”三個步驟組成,視頻壓縮網絡、時空patches、transformer架構、視頻數據集等技術與資源在其中發揮了重要作用。     視頻壓縮網絡:過往VAE應用于視頻領域通常需插入時間層,Sora從頭訓練了能直接壓縮視頻的自編碼器,可同時實現時間和空間的壓縮,既節省算力資源,又最大程度上保留視頻原始信息,或為Sora生成長視頻的關鍵因素,并為后續處理奠定基礎。     時空patches:1)同時考慮視頻中時間和空間關系,能夠捕捉到視頻中細微的動作和變化,在保證視頻內容連貫性和長度的同時,創造出豐富多樣的視覺效果;2)突破視頻分辨率、長寬比等限制的同時顯著提升模型性能,節約訓練與推理算力成本。     Transformer架構:1)相比于U-Net架構,transformer突顯Scaling Law下的“暴力美學”,即參數規模越大、訓練時長越長、訓練數據集越大,生成視頻的效果更好;2)此外,在transformer大規模訓練下,逐步顯現出規模效應,迸發了模型的涌現能力。     視頻數據集:Sora或采用了更豐富的視頻數據集,在原生視頻的基礎上,將DALL?E3的re-captioning技術應用于視頻領域,同時利用GPT保障文字-視頻數據集質量,使得模型具有強大的語言理解能力。

付費5元查看完整內容

事件:北京時間2月16日凌晨,OpenAI發布了其首個文生視頻模型Sora。相比其他文生視頻模型,Sora在整體性能,尤其是最大生成時長上有了較大幅度提升。   文生視頻技術突破,視頻時長和視頻質量顯著提升:Sora目前主要的功能包括文生視頻、圖生視頻和視頻生視頻。1)文生視頻:Sora目前可以根據文本要求生成60s的連貫視頻,生成的視頻除滿足了文本要求的主題、要素外,在對場景內的光影、人物輪廓描繪等方面都展示了極高的質量:場景中的積水倒影處理真實,人物的特寫鏡頭中臉部輪廓也非常清晰且細節豐富。同時,生成的視頻在3D一致性、長期一致性、互動性上都表現出了較高的質量,并且支持多種分辨率輸入和輸出。2)圖生視頻:Sora能夠在提供圖像和文字提示作為輸入的情況下生成視頻。增加的圖片提示將大幅縮窄模型的生成范圍,可以幫助用戶更快、更便捷地生成滿足要求的視頻。3)視頻生視頻:Sora可以根據輸入的視頻片段和文字要求對視頻進行編輯,如更改背景等;Sora還能夠在時間上向前或向后擴展視頻:通過這種方法來向前和向后擴展視頻,可以產生無縫的無限循環。視頻擴展的功能可以在已有的素材基礎上為創作者提供靈感,將為影視類素材的供給提供新的可能。   瑕不掩瑜,AI視頻應用或加速推進:對比之前的AI視頻模型,除最大生成時長從2-4s顯著提升至60s外,Sora也對以往AI視頻工具的不足和痛點進行了改進,盡管目前在一些物理過程和視頻內人和物的交互上還不夠穩定,但生成的視頻質量總體來說已經有明顯提升。我們認為,當前Sora生成的視頻在長度和質量上已經具備了一定的生產力價值,AI生成視頻在影視、游戲等相關行業內的應用或將加速推進。   文生視頻工具應用前景廣闊,相關行業供給有望開啟新時代:隨著AI文生視頻技術的不斷完善和更新,我們認為AI視頻有望憑借人工智能的技術優勢和視頻這一品類的內容優勢打開市場:在C端,通過AI視頻生成,此類AI視頻應用有望通過其生成的內容來構建自有用戶流量池,完成后續的流量變現;在B端,AI視頻可以大幅度降低視頻的制作成本,對廣告營銷、影視、游戲等都有可觀的降本增效作用,隨著AI視頻工具的不斷更新迭代,相關產業制作效率或將實現質的提升,游戲、短視頻等相關內容的供給端有望實現飛躍式的發展。

付費5元查看完整內容

Sora問世,視頻創作領域迎來“iPhone時刻”。2023年2月15日,OpenAI發布視頻生成大模型Sora,通過文本指令,Sora可以直接輸出長達60秒的高清視頻,包含高度寫實的背景、復雜的多角度鏡頭以及富有情感的多角色敘事,更為可貴的是,Sora生成的視頻表現出對于真實世界物理常識的深刻理解。部分媒體報道驚嘆——“Sora之后,現實將不再存在”。從本輪AI應用端發展實踐來看,以文本創作(小說、劇本)、圖像創作(繪畫、平面設計、攝影)、視頻創意(廣告、短視頻、傳統影視、游戲)為代表的創意創作領域因其高容錯率、高投入度,在AI浪潮之初就被市場廣泛認為將會成為最先被AI深刻賦能的產業之一;從本輪AI模型發展演繹來看,以ChatGPT為代表的文本創作以Midjourney、StableDiffusion為代表的圖像創作以Runway、Sora為代表的視頻創作的發展速度無疑是極為驚人的。我們認為,從文字到圖像到視頻,AI內容創作的信息升維越來越考驗模型的創作效率與生成結果的穩定性(早期版本的Midjourney存在生成時間長、生成結果違背物理常識或者“AI感”明顯的問題;RunwayGen-1/2也存在生成視頻時長較短且生成視頻邏輯連貫性較弱等缺陷),但正如MidjourneyV5/6已逐步廣泛實現多行業的商業化落地,我們認為Sora的問世有望推動著視頻創作領域的“iPhone時刻”到來。

  Sora取法Tokens文本特征標記,是基于Patches視覺特征標記的DiffusionTransformer模型。OpenAI研究團隊從LLM中汲取靈感,認為LLM范式的成功在一定程度上得益于Tokens的使用,故而通過將視頻信息分解為帶有時空特征的Patches訓練了DiffusionTransformer模型。從訓練角度而言,基于Patches視覺特征標記對原生視頻進行采樣擴大了可用樣本的規模且省去了標準化樣本的步驟。從推理角度而言,基于原生視頻訓練的模型在生成新視頻方面改善了構圖和取景。OpenAI目前發布的Sora視頻大模型主要具備文生視頻、視頻編輯、文生圖三類功能,在文生視頻過程中,用戶通過輸入Prompt提示詞DALL·E生成圖像Sora生成視頻。     文生圖和文生視頻是當下AI應用端落地焦點,海外相關技術產品迭代迅速。據Discord,按邀請頁面流量排序的十大AI應用程序中,有5個是圖片生成應用程序,2個是音頻生成應用程序,2個是視頻生成應用程序,其中,Midjourney位列第一,Pika位列第二,圖片約占前10名流量的74%,視頻約占前10名流量的8%。文生圖領域,海外有Adobe(老牌創意軟件巨頭,現已發布下一代Firefly支持多種文生圖功能)、Midjourney(文生圖模型新銳,現已廣泛實現商業化落地)。文生視頻領域,海外有Pika(AI初創公司,支持一鍵生成3秒共計72幀視頻)、Runway(擁有最早商業化的T2V模型RunwayGen-2)。     國內推薦關注萬興科技和美圖公司等創意軟件龍頭投資機會。萬興于2023年9月宣布即將發布國內首個專注于以視頻創意應用為核心的百億級參數多媒體大模型“天幕”,具備一鍵成片、AI美術設計、文生音樂、音頻增強、音效分析、多語言對話等核心能力。2022年底至2023全年萬興對旗下T2V/I多款拳頭產品進行AI功能更新,AI賦能之下訂閱收入占比及訂閱續約率取得雙增。美圖公司于2023年12更新視覺大模型MiracleVision4.0,具備文生視頻、圖生視頻、視頻生視頻等多模態能力,AI賦能之下訂閱業務收入占比逐年增長。  

付費5元查看完整內容

機器之心報道****編輯:小舟、梓文

擴散模型雖好,但如何保證生成的圖像準確高質量?GPT-4或許能幫上忙。

文本到圖像生成領域近兩年取得了很大的突破,從 GAN 到 Stable Diffusion,圖像生成的速度越來越快,生成效果越來越好。然而,AI 模型生成的圖像在細節上還有很多瑕疵,并且使用自然語言指定對象的確切位置、大小或形狀存在一定的困難。為了生成精準、高質量的圖像,現有方法通常依賴于廣泛的提 prompt 工程或手動創建圖像草圖。這些方法需要大量的人工工作,因此非常低效。

最近,來自加州大學伯克利分校(UC 伯克利)和微軟研究院的研究者從編程的角度思考了這個問題。當前,用戶能夠使用大型語言模型較好地控制代碼生成,這讓該研究看到了編寫程序來控制生成圖像細節的可能,包括物體的形狀、大小、位置等等。基于此,該研究提出利用大型語言模型(LLM)生成代碼的功能實現可控型文本到圖像生成。

論文地址://arxiv.org/pdf/2305.18583.pdf

該研究提出了一個簡單而有效的框架 Control-GPT,它利用 LLM 的強大功能根據文本 prompt 生成草圖。Control-GPT 的工作原理是首先使用 GPT-4 生成 TikZ 代碼形式的草圖。如下圖 1 (c) 所示,程序草圖(programmatic sketch)是按照準確的文本說明繪制的,隨后這些草圖被輸入 Control-GPT。Control-GPT 是 Stable Diffusion 的一種變體,它能接受額外的輸入,例如參考圖像、分割圖等等。這些草圖會充當擴散模型的參考點,使擴散模型能夠更好地理解空間關系和特殊概念,而不是僅僅依賴于文本 prompt。這種方法使得 prompt 工程和草圖創建過程不再需要人為干預,并提高了擴散模型的可控性。

我們來看一下 Control-GPT 方法的具體細節。

方法

對圖像生成來說,訓練過程的一個較大挑戰是缺乏包含對齊文本和圖像的數據集。為了解決這個難題,該研究將現有實例分割數據集(例如 COCO 和 LVIS)中的實例掩碼轉換為多邊形的表示形式,這與 GPT-4 生成的草圖類似。

然后,該研究構建了一個包含圖像、文本描述和多邊形草圖的三元數據集,并微調了 ControlNet。該研究發現這種方法有助于更好地理解 GPT 生成的草圖,并且可以幫助模型更好地遵循文本 prompt 指令。

ControlNet 是擴散模型的一種變體,它需要額外的輸入條件。該研究使用 ControlNet 作為基礎圖像生成模型,并通過編程草圖和 grounding token 的路徑對其進行擴展。

框架

如下圖 2 所示,在 Control-GPT 中,首先 GPT-4 會根據文本描述生成 TikZ 代碼形式的草圖,并輸出圖像中物體的位置。然后該研究用 LATEX 編譯 TikZ 代碼,將草圖轉換為圖像格式,再將編程草圖、文本描述和物體位置的 grounding token 提供給經過調優的 ControlNet 模型,最終生成符合條件的圖像。

使用 GPT-4 生成的草圖訓練 ControlNet 是必要的,因為預訓練的 ControlNet 不理解生成的草圖,不能將其轉換為現實圖像。為了 prompt GPT-4,該研究要求用戶遵循如下的 prompt 樣本,以讓 GPT-4 請求 TikZ 代碼片段的結構化輸出,以及相關物體的名稱和位置。然后,該研究使用 GPT-4 的輸出來編譯草圖圖像并獲得 grounding token。

LLM 繪制草圖的準確性如何

Control-GPT 的精度取決于 LLM 生成草圖時的準確性和可控性。因此,該研究對 LLM 在草圖生成方面的性能進行了基準測試。實驗結果表明 GPT 系列模型在草圖生成方面明顯優于 LLaMa 等開源模型,并且 GPT-4 在遵循文本指令方面表現出驚人的高準確性(約 97%)。

該研究對 Control-GPT 和一些經典模型的生成結果進行了人工評估,結果表明當圖像中包含兩個不相關的罕見物體組合時,一些模型的生成效果比較差,而 Control-GPT 的生成結果相對較好,如下表 2 所示:

查詢 LLMs,生成一個 TikZ 代碼片段來描述給定的文本,進而檢查 LLMs 的性能。如下表 1 所示,GPT-series 模型的大多數代碼片段都可以編譯為有效的草圖,而 LLaMA 和 Alpaca 的輸出要么是空的,要么不可運行。在 GPT-series 模型中,最新的 GPT-4 在 95 個查詢中只有 3 次失敗,這些查詢成功地生成了有效草圖,在遵循文本指令方面的成功率大約有 97%。ChatGPT 是 GPT-3.5 的 RLHF 微調版本,其性能明顯低于原始 GPT-3.5。在調優過程中,聊天能力和代碼生成之間可能存在著權衡。

在下圖 4 中,研究者提供了一個來自 GPT 系列模型的可視化草圖例子。雖然生成的草圖不如照片那樣逼真,但它們往往能捕捉到語義,并正確推理出物體的空間關系。生成的草圖經常出人意料地通過簡單的代碼片斷來正確處理物體形狀。

下圖最后一行展示了 GPT-4 的一個失敗案例,即模型無法生成物體形狀,而 GPT-3.5 卻能給出一個正確的草圖。GPT-4 在草圖生成方面的高精度帶來的啟發是:可以使用它來提高圖像生成模型的可控性。

實驗

基于 Visor 數據集,研究者對 Control-GPT 進行了一系列實驗設置的評估,測試其在空間關系、物體位置和大小方面的可控性。他們還將評估擴展到多個物體和分布外的 prompt。廣泛的實驗表明,Control-GPT 可以大大提升擴散模型的可控性。

下表 3 中列出了定量評估結果。可以看到,Control-GPT 模型可以在給定的一些規格下更好地控制物體的大小和位置。與幾乎無法控制物體位置和尺寸的 Stable Diffusion 模型(SD-v1.5)相比,Control-GPT 將總體精度從 0% 提高到 14.18%。與現成的 ControlNet 相比,Control-GPT 在所有指標上也取得了更好的表現,獲得了從 8.46% 到 4.18% 的整體改善。這些結果展示了本文的 LLM 集成框架在更細化和精確控制圖像生成過程方面的潛力。

視覺化。下圖 6 展示了定性評估結果,可以看到,ControlGPT 可以按照物體位置和尺寸的規范繪制物體。相比之下,ControlNet 也能遵循,但卻很難生成正確的物體,而 Stable Diffusion 則無法遵循規范。

對空間關系的消融實驗。研究者還探討了模型是否對不同類型的空間關系(如左 / 右 / 上 / 下)有偏好,作為空間關系基準分析的一部分。從下表 4 中可以看出,Control-GPT 在 Visor Score 和物體準確性方面一直比所有的基線模型工作得更好。

多個物體之間的關系。研究者對 Control-GPT 生成多個物體的能力進行了進一步的評估,這些物體的空間關系由 prompt 指定。下圖 7 展示了一些例子,Control-GPT 能理解不同物體之間的空間關系,并在 GPT-4 的幫助下將它們放入布局中,表現出了更好的性能。

可控性與圖像逼真度。通常,在生成逼真圖像與遵循精確布局之間往往存在著妥協,特別是對于分布外的文字 prompt。如下圖 8 所示,(a)是一個例子,生成的圖像完全遵循布局,但這導致了圖像中的一些偽影;而在(b)中,照片往往看起來很逼真,但沒有很好地遵循草圖。

更多研究細節,可參考原論文。

付費5元查看完整內容

機器之心報道

機器之心編輯部能容納 50 頁文檔的輸入框不夠用,那幾千頁呢?

一個多月前,OpenAI 的 GPT-4 問世。除了各種出色的直觀演示外,它還實現了一個重要更新:可以處理的上下文 token 長度默認為 8k,但最長可達 32K(大約 50 頁文本)。這意味著,在向 GPT-4 提問時,我們可以輸入比之前長得多的文本。這使得 GPT-4 的應用場景大大擴展,能更好地處理長對話、長文本以及文件搜索和分析。

不過,這一記錄很快就被打破了:來自谷歌研究院的 CoLT5 將模型可以處理的上下文 token 長度擴展到了 64k

這樣的突破并不容易,因為這些使用 Transformer 架構的模型都要面臨一個問題:Transformer 處理長文檔在計算上是非常昂貴的,因為注意力成本隨輸入長度呈二次增長,這使得大型模型越來越難以應用于更長的輸入。

盡管如此,研究者依然在此方向上不斷突破。前幾天,一篇來自開源對話 AI 技術棧 DeepPavlov 等機構的研究表明:通過采用一種名為 Recurrent Memory Transformer(RMT)的架構,他們可以將 BERT 模型的有效上下文長度增加到 200 萬個 token(按照 OpenAI 的計算方式,大約相當于 3200 頁文本),同時保持了較高的記憶檢索準確性(注:Recurrent Memory Transformer 是 Aydar Bulatov 等人在 NeurIPS 2022 的一篇論文中提出的方法)。新方法允許存儲和處理局部和全局信息,并通過使用 recurrence 使信息在輸入序列的各 segment 之間流動。

作者表示,通過使用 Bulatov 等人在「Recurrent Memory Transformer」一文中介紹的簡單的基于 token 的記憶機制,他們可以將 RMT 與 BERT 這樣的預訓練 Transformer 模型結合起來,用一個 Nvidia GTX 1080Ti GPU 就可以對超過 100 萬個 token 的序列進行全注意和全精度操作。

論文地址://arxiv.org/pdf/2304.11062.pdf

不過,也有人提醒說,這并不是真正的「免費的午餐」,上述論文的提升是用「更長的推理時間 + 實質性的質量下降」換來的。因此,它還不能算是一次變革,但它可能成為下一個范式(token 可能無限長)的基礎。

Recurrent Memory Transformer

該研究采用 Bulatov 等人 2022 年提出的方法 Recurrent Memory Transformer(RMT),并將其改成即插即用的方法,主要機制如下圖所示:

冗長的輸入被分成多個 segment,記憶向量(memory vector)被添加到第一個 segment 嵌入之前,并與 segment token 一起處理。對于像 BERT 這樣的純編碼器模型,記憶只在 segment 的開頭添加一次,這一點與 (Bulatov et al., 2022) 不同,純解碼器模型將記憶分為讀取和寫入兩部分。對于時間步長 τ 和 segment ,循環按照如下步驟執行:

其中,N 是 Transformer 的層數。前向傳播之后, 包含 segment τ 的更新記憶 token。

輸入序列的 segment 按照順序處理。為了啟用循環連接,該研究將記憶 token 的輸出從當前 segment 傳遞到下一個 segment 的輸入:

RMT 中的記憶和循環都僅基于全局記憶 token。這允許主干 Transformer 保持不變,從而使 RMT 的記憶增強能力與任何 Transformer 模型都兼容。

計算效率

該研究估算了不同大小和序列長度的 RMT 和 Transformer 模型所需的 FLOP。

如下圖 3 所示,如果 segment 的長度固定,RMT 可針對任何模型大小進行線性擴展。該研究通過將輸入序列分成 segment,并僅在 segment 邊界內計算完整的注意力矩陣來實現線性擴展。

由于 FFN 層的計算量很大,較大的 Transformer 模型往往會表現出較慢的隨序列長度的二次擴展(quadratic scaling)。然而,對于大于 32000 的超長序列,它們會退回到二次擴展。對于多于一個 segment 的序列(本研究中 > 512),RMT 比非循環模型需要更少的 FLOP,并且可以將 FLOP 的數量減少多達 295 倍。RMT 為較小的模型提供了更大的 FLOP 相對減少,但在絕對數量上,OPT-175B 模型的 FLOP 減少了 29 倍是非常顯著的。

記憶任務

為了測試記憶能力,該研究構建了需要記憶簡單事實和基本推理的合成數據集。任務輸入由一個或多個事實和一個只有使用所有事實才能回答的問題組成。為了增加任務難度,該研究還添加了與問題或答案無關的自然語言文本來充當噪聲,因此模型的任務是將事實與不相關的文本分開,并使用事實來回答問題。

事實記憶

第一項任務是檢測 RMT 在記憶中長時間寫入和存儲信息的能力,如下圖 4 頂部所示。在最簡單的情況下,事實往往位于輸入開頭,而問題總是在末尾。問題和答案之間不相關文本的數量逐漸增加,以至于整個輸入不適合單個模型輸入。

事實檢測與記憶

事實檢測通過將一個事實移動到輸入中的隨機位置來增加任務難度,如上圖 4 中部所示。這需要模型首先將事實與不相關文本區分開來,把事實寫入記憶中,然后用它回答位于末尾的問題。

利用記憶事實進行推理

記憶的另一個操作是使用記憶事實和當前上下文進行推理。為了評估這一功能,研究者使用了一個更復雜的任務,其中生成了兩個事實并將它們放置在了輸入序列之中,如上圖 4 底部所示。在序列末尾提出的問題是以一種「必須使用任意事實來正確回答問題」的方式來描述。

實驗結果

研究者使用 4 到 8 塊英偉達 1080ti GPU 來訓練和評估模型。對于更長的序列,他們則使用單個 40GB 的英偉達 A100 來加快評估速度。

課程學習

研究者觀察到,使用訓練計劃能夠顯著提升解決方案的準確性和穩定性。最開始,RMT 在較短版本的任務上進行訓練,并在訓練收斂時通過添加另一個 segment 來增加任務長度。課程學習過程一直持續,直到達到所需的輸入長度。

在實驗中,研究者首先從適合單個 segment 的序列開始。實際 segment 的大小為 499,但由于 BERT 的 3 個特殊 token 和 10 個記憶占位符從模型輸入中保留下來,大小為 512。他們注意到, 在較短任務上訓練后,RMT 更容易解決更長版本任務,這得益于它使用更少訓練步收斂到完美的解決方案。

外推能力

RMT 對不同序列長度的泛化能力如何呢?為了回答這個問題,研究者評估了在不同數量 segment 上訓練的模型,以解決更長的任務,具體如下圖 5 所示。

他們觀察到,模型往往在較短任務上表現更好,唯一的例外是單 segment 推理任務,一旦模型在更長序列上訓練,則該任務變得很難解決。一個可能的解釋是:由于任務大小超過了一個 segment,則模型不再「期待」第一個 segment 中的問題,導致質量下降。

有趣的是,RMT 泛化到更長序列的能力也隨著訓練 segment 的增加而出現。在 5 個或更多 segment 上訓練后,RMT 可以近乎完美地泛化到兩倍長的任務。

為了測試泛化的局限性,研究者將驗證任務大小增至 4096 個 segment 或 2,043,904 個 token(如上圖 1 所示),RMT 在如此長的序列上表現得出奇的好。檢測和記憶任務最簡單,推理任務最復雜。

記憶操作的注意力模式

在下圖 6 中,通過檢查特定 segment 上的 RMT 注意力,研究者觀察到了記憶操作對應特定的注意力模式。此外 5.2 節中極長序列上的高外推性能證明了學得記憶操作的有效性,即使使用數千次也是如此。

付費5元查看完整內容

 ChatGPT憑實力“出圈”。ChatGPT是一款對話式AI聊天機器人,由微軟旗下的人工智能研究實驗室OpenAI于2022年11月30日發布。它能寫論文、編代碼、寫小說,甚至知道繞開人類提問中預設的價值判斷、道德傾向等陷阱。ChatGPT一經推出,就在人工智能生成內容(AIGC)領域引起轟動,被評價聰明得“像人類”。

  “人形機器人”與“AI”的關系已密不可分。人形機器人離不開機器視覺與神經網絡,前者通過目標追蹤、圖像描述、場景理解等生成數據,后者模仿人腦對生成的數據進行算法處理,從而令人形機器人完成各自任務,而無論是機器視覺或神經網絡都與AI息息相關。AI已成為人形機器人的核心。

  ChatGPT助力AI快速實現技術平臺化和應用場景化。ChatGPT與以往的AI工具擁有諸多“共性”,但又具備獨特的“個性”。1)ChatGPT的“自然語言處理”采用了一種用于處理序列數據的模型,使其交互能力和學習能力得到加強。這意味著它與人類互動越多,“成長”越快,隨著時間推移對用戶提出的同一問題能做出不同或更靠譜的解答。2)ChatGPT使用大量語料庫作為訓練,它能更好地理解人類語言,避免“人工智障”的詬病。約有40名全職AI訓練師在多年時間內給ChatGPT“投喂”了3000億個單詞的語料。3)一般的對話型AI具備特定用途(例如某一組織的對內對外服務),而ChatGPT則試圖完成“幾乎任何語種“的任務。

  ChatGPT或帶來人形機器人下一拐點。人形機器人是一個多任務、通用型機器人平臺,未來它在工業生產、社會服務等領域將有非常多的應用場景。ChatGPT基于OpenAI公司開發的一個GPT-3.5架構的大型語言模型,通過強化學習訓練人工智能聊天機器人程序,能夠廣泛應用于業界和客戶服務,基于Transformer架構的強大算力的語言模型,具有深度學習特質,葆有出色的語言理解和文本對話生成能力,ChatGPT的語言理解和生成水平的便捷性或帶來人形機器人下一拐點。  

付費5元查看完整內容

【導讀】無監督學習再發力!Facebook AI 研究團隊的陳鑫磊、樊昊棋、Ross Girshick、何愷明等人提出了第二版動量對比(MoCo)的無監督訓練方法。使用一個MLP投影頭和更多的數據增強——建立了比Hinton前一久的SimCLR更強的基準,并且不需要大量的訓練。

對比式無監督學習最近取得了令人鼓舞的進展,例如動量對比(MoCo)和SimCLR。在本文中,我們通過在MoCo框架中實現SimCLR的兩個設計改進來驗證它們的有效性。通過對MoCo的簡單修改——即使用一個MLP投影頭和更多的數據增強——我們建立了比SimCLR更強的基準,并且不需要大量的訓練。我們希望這將使最先進的無監督學習研究更容易獲得。代碼將被公開。

論文鏈接://arxiv.org/pdf/2003.04297.pdf

最近關于從圖像中進行無監督表示學習的研究[16,13,8,17,1,9,15,6,12,2]都集中在一個中心概念上,即對比學習[5]。結果是非常有希望的:例如,動量對比(MoCo)[6]表明,在多個檢測和分割任務中,無監督前訓練可以超越其圖像監督后,而SimCLR[2]進一步減少了無監督和監督前預訓練表示之間的線性分類器性能的差距。

本文介紹在MoCo框架內建立了更強、更可行的基線。我們報告了SimCLR中使用的兩個設計改進,即一個MLP投影頭和更強的數據增強,與MoCo和SimCLR框架是正交的,當與MoCo一起使用時,它們會帶來更好的圖像分類和目標檢測遷移學習結果。此外,MoCo框架可以處理大量的負樣本,而不需要大量的訓練批(圖1)。與需要TPU支持的SimCLR的大4k~8k批相比,我們的“MoCo v2”基線可以在典型的8-GPU機器上運行,并且獲得比SimCLR更好的結果。我們希望這些改進的基線能夠為未來的無監督學習研究提供參考。

圖1:對比學習的兩種優化機制的批處理透視圖。圖像被編碼到一個表示空間中,在這個表示空間中計算成對的相似度。

方法

對比學習及其最新進展可以看做是為查詞典任務訓練一個編碼器。

假設有一個編碼的查詢 q 和一組編碼的樣本 {k0, k1, k2, ...},它們都是詞典的鍵。詞典中有一個鍵(k+)與 q 相匹配。對比損失是一個函數,該函數的值在 q 類似于其正鍵 k+且不同于其他所有鍵(q 的負鍵)時很低。研究者使用點積的相似度度量,這是一種對比損失函數的形式,名為 InfoNCE。本文采用了這個函數:

這一對比損失函數充當一個無監督目標函數,用于訓練表征查詢和鍵的編碼器網絡。總體來說,查詢表征是 q = f_q(x^q ),其中的 f_q 是一個編碼器網絡,x^q 是查詢樣本。

改進設計

SimCLR[2]在三個方面改進了實例識別的端到端變體:(i)能夠提供更多負樣本的更大的批處理(4k或8k);(ii)將輸出的fc投影頭[16]替換為MLP頭;(三)數據擴充能力增強。

在MoCo框架中,大量的負樣本是現成的;MLP頭和數據擴充與對比學習的實例化方式是正交的。接下來,我們研究MoCo中的這些改進。

實驗設置

在1.28M的ImageNet[3]訓練集上進行無監督學習。(i) ImageNet線性分類:對特征進行凍結,訓練監督線性分類器;我們報告了1種crop(224×224),驗證準確率排名第一。(ii) 遷移到VOC目標檢測[4]:更快的R-CNN檢測器[14](c4 -主干)在VOC 07+12訓練集上對所有條目(包括監督和MoCo v1基線)進行端到端微調,我們對VOC進行24k迭代微調,高于[6]中的18k。并在VOC 07測試集上使用COCO標準[10]進行評估。我們使用與MoCo[6]相同的超參數(除非特別指出)和代碼庫。所有結果使用標準大小的ResNet-50[7]。

MLP頭 在[2]之后,我們將MoCo中的fc頭替換為2層MLP頭(隱藏層2048-d,使用ReLU)。注意,這只影響到非監督訓練階段;線性分類或遷移階段不使用這個MLP頭。[2]之后,我們尋找一個最佳的τ關于ImageNet線性分類準確率:

使用默認τ= 0.07[16,6],訓練的MLP頭提高從60.6%至62.9%;切換到MLP的最優值(0.2),準確度度提高到66.2%。表1(a)顯示了它的檢測結果:與ImageNet上的大飛躍相比,檢測增益更小。

數據增強 我們通過在[2]中加入模糊增強來擴展[6]中的原始增強(我們發現在[2]中更強的顏色失真在我們更高的基線中有遞減的增益)。單獨的額外增加(即(no MLP)將ImageNet上的MoCo基線提高了2.8%,達到63.4%,見表1(b)。有趣的是,它的檢測準確率比單獨使用MLP要高,表1(b)與(a),盡管線性分類準確度要低得多(63.4%比66.2%)。這說明線性分類精度與檢測中的遷移性能不是單調相關的。對于MLP,額外的增強將ImageNet的精度提高到67.3%,見表1(c)。

與SimCLR進行比較 表2將SimCLR[2]與我們的結果MoCo v2進行了比較。為了公平比較,我們還研究了SimCLR采用的一個余弦(半周期)學習速率調度[11]。表1(d, e)。MoCo v2使用200個epoch和256個批量大小的預訓練,在ImageNet上達到67.5%的準確率,比SimCLR在相同epoch和批量大小下的準確率高5.6%,比SimCLR的大批量結果高66.6%。通過800-epoch的預訓練,MoCo v2達到了71.1%,超過了SimCLR的69.3%,達到了1000個epoch。

計算成本

在表3中,我們報告了實現的內存和時間成本。端到端案例反映了GPU中的SimCLR成本(而不是[2]中的TPUs)。即使在高端的8-GPU機器上,4k的批處理大小也是難以處理的。而且,在相同的批處理大小為256的情況下,端到端變體在內存和時間上仍然更昂貴,因為它向后傳播到q和k編碼器,而MoCo只向后傳播到q編碼器。

表2和表3表明,為了獲得良好的準確性,不需要大的訓練批處理。我們研究的改進只需要對MoCo v1進行幾行代碼更改,我們將公開代碼以方便將來的研究。

付費5元查看完整內容
北京阿比特科技有限公司