亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

3月2日,阿里巴巴與清華大學聯合發布業界最大的中文多模態預訓練AI模型M6,該模型參數規模超千億,同時具備文本、圖像的理解和生成能力,圖像設計效率超越人類,可應用于產品設計、信息檢索、機器人對話、文學創作等領域。

預訓練語言模型是讓AI具備認知能力的關鍵技術,它突破了傳統深度學習方法的瓶頸,是一種新型AI訓練思路,即首先自動學習大量語言文字和圖像數據,記憶和理解人類豐富的先驗知識,再進一步學習專業領域信息,從而讓AI同時掌握常識和專業知識。目前,谷歌、微軟和 Facebook等企業已投入該技術的研發。

此次發布的M6模型參數規模達到1000億,是多模態預訓練領域史上最大的模型,其理解和生成能力超越傳統AI。以圖像生成為例,模型可設計包括服飾、鞋類、家具、首飾、書籍等在內的30多個物品類別的圖像,最短一分鐘即可完成作品的創作,效率超越普通設計師。

M6的突破源自多項底層技術創新。阿里巴巴研究團隊基于自研Whale分布式框架,將參數規模擴展到千億的同時,利用大規模數據并行和模型并行,訓練速度提升10倍以上,僅需1-2天即可完成上億數據的預訓練。此外,M6模型首次將多模態預訓練模型應用到基于文本的圖像生成任務,結合向量量化生成對抗網絡學習文本與圖像編碼共同建模的任務,能夠生成清晰度高且細節豐富的圖像。

阿里巴巴達摩院智能計算實驗室資深算法專家楊紅霞表示:“多模態預訓練是下一代人工智能的基礎,M6模型實現了訓練效率和生成精度等多項突破,是當前眾多中文多模態下游任務最優模型。”

作為國內最早投入認知智能研究的科技公司之一,阿里巴巴已有30多項認知智能領域研究成果被國際頂級會議收錄;研究團隊還將研發更高規模的萬億參數多模態預訓練模型,進一步突破算力及預訓練模型的極限,最終實現通用領域的高質量泛內容生成。

論文內容

M6: A Chinese Multimodal Pretrainer

Authors: Junyang Lin, Rui Men, An Yang, Chang Zhou, Ming Ding, Yichang Zhang, Peng Wang, Ang Wang, Le Jiang, Xianyan Jia, Jie Zhang, Jianwei Zhang, Xu Zou, Zhikang Li, Xiaodong Deng, Jie Liu, Jinbao Xue, Huiling Zhou, Jianxin Ma, Jin Yu, Yong Li, Wei Lin, Jingren Zhou, Jie Tang, Hongxia Yang

摘要:

在這項工作中,我們構建了最大的中文多模態預訓練數據集,包含超過1.9TB的圖像和292GB的文本,涵蓋了廣泛的領域。

我們提出了一種跨模態預訓練方法,稱為M6,Multi-Modality to MultiModality Multitask Mega-transformer,對單模態和多模態數據進行統一的預訓練。

我們將模型規模擴大到100億和1000億參數,并建立了最大的中文預訓練模型。我們將該模型應用于一系列下游應用,并與強基線進行了比較,展示了其出色的性能。

在此基礎上,我們專門設計了下游的文本引導圖像生成任務,結果表明,經過微調的M6可以生成高分辨率、細節豐富的高質量圖像。

//arxiv.org/pdf/2103.00823.pdf

引言

預訓練已經成為自然語言處理(natural language processing, NLP)研究的一個熱點[1,2,7,15,17,18,25,29,35,42,47]。最近的GPT-3具有超過175B的參數,這表明利用大數據訓練的大模型具有非常大的容量,在下游任務中,特別是在零樣本的情況下,它的性能超過了最先進的水平。同時,預訓練在自然語言處理中的迅速發展也促進了跨模態預訓練的發展。許多研究[4,10,16,20,22,23,26,27,36,49]為各種跨模態下游任務創造了最新的性能。

遺憾的是,最近的研究大多集中在英語數據的預訓練上。目前既缺乏大規模的中文數據集,也缺乏基于中文數據的大規模預訓練模型。因此,在本研究中,我們開發了一個由1.9TB以上的圖像和292GB文本組成的大規模數據集M6-語料庫。據我們所知,這是中國最大的多模態和自然語言預訓練數據集。從網頁上收集的數據集由不同類型的數據組成,涵蓋了大量的領域,包括百科全書、問答、論壇討論、產品描述等。同時,我們設計了復雜的清洗程序,以確保數據的高質量。

此外,為了充分利用海量高質量數據,我們建立一個能夠處理多種模態數據的超大模型,以適應不同類型的下游任務。因此,我們提出了一種名為M6的新型模型,即MultiModality-to-MultiModality Multitask Mega-transformer。該模型以transformer為基礎,并對其進行了多任務的預訓練。預訓練使模型具有單模態和多模態的理解和生成能力。基于M6的架構,我們構建了M6-10B和M6-100B,分別放大到100億和1000億參數。更具體地說,M6-100B是根據中文數據預先訓練的最近最大的模型。我們將該模型應用于產品描述生成、視覺問答、社區問答、中文詩歌生成等一系列下游應用,實驗結果表明,M6優于一系列強基線。

這項工作的另一個貢獻是,我們首先將預訓練與文本-圖像生成結合起來。繼Ramesh等人的[30]之后,我們利用了一個兩階段的框架來生成圖像。具體來說,我們使用經過訓練的矢量量化生成對抗網絡用離散圖像編碼來表示圖像,然后使用經過訓練的M6來學習文本和編碼之間的關系。這樣的學習可以連接這兩種形式,可以實現可控的文本-圖像生成。綜上所述,M6的貢獻如下:

  • 我們收集并構建了業界最大的中文多模態預訓練數據,包括300GB文本和2TB圖像。

  • 我們提出用M6進行中文的多模態預訓練,我們將模型規模擴大到100億和1000億參數。M6-10B和M6-100B都是最近最大的多模態預訓練模型。

  • M6是通用的,在VQA中超過11.8%,在圖像-文本匹配中超過10.3%。此外,M6能夠生成高質量的圖像。

  • 通過精心設計的大規模分布式訓練優化,M6在訓練速度上具有明顯優勢,大大降低了訓練成本,為多模態預訓練的更廣泛應用創造了可能。

付費5元查看完整內容

相關內容

多模態預訓練模型通常可以歸類為以下兩種網絡結構:如UNITER的單塔結構,和如CBT、VilBERT和ERNIE-VIL的雙塔結構。

從2020年9月開始,通過一系列的實驗和探索,文瀾的研發團隊獨立提出了基于多模態對比學習的雙塔結構,跟2021年1月發布的OpenAI CLIP在模型結構上不謀而合。

文瀾團隊推出的第一代圖文互檢模型在論文中叫做BriVL (Bridging Vision and Language),BriVL具有如下四個特點和優勢。

1. 基于視覺-語言弱相關的假設

現有的大量多模態預訓練模型,特別是單塔結構,往往會采用如下強假設:對于輸入的數據,圖像與文本之間存在較強的語義相關性。例如,對于下面這張蛋糕的圖片,會假設在多模態數據集中對應“水果蛋糕上有一些蠟燭在燃燒”這樣描述性的文本。

正是有了語義相關性上的強假設,單塔結構才能在詞匯與局部圖像特征之間進行模態交互。但遺憾的是,在實際應用場景中,上述的強假設往往并不成立,比如視覺與語言之間通常只有較抽象的關聯。例如,對于蛋糕的照片,配的文字可以是“生日快樂,許個愿吧”,也可以引申到“哎,我的減肥大計又泡湯了”。

文瀾的研發者們進行了一系列的實驗和探索,實驗結果表明,在開放獲取(例如互聯網上的公開數據)的圖文數據集上,簡單的雙塔結構要優于單塔結構。因此,BriVL采用了雙塔結構作為多模態預訓練模型的基本架構。

2. 將多模態與對比學習算法相結合

基于雙塔結構的預訓練模型網絡結構比較簡單,需要彌補神經網絡在表達能力上的損失。近兩年來,自監督學習有著飛速的進展,對比學習被發現可以用來提高神經網絡的表達能力。

基于這一點,文瀾的開發團隊將對比學習引入到了BriVL的雙塔結構中。不同于CLIP,對于給定的某一對圖文數據,BriVL同時使用了視覺模態和語言模態去構建該圖文數據的負樣本,并且基于MoCo的思想擴大負樣本數目,從而進一步提高神經網絡的表達能力。

3. 網絡結構靈活,方便實際部署

BriVL首先使用了獨立的語言和視覺編碼器提取語言和視覺信息的特征向量,然后將這些向量傳入到對比學習模塊中進行訓練。采用這樣的雙塔結構,可以很方便地把編碼器模塊替換為最新的單模態預訓練模型,從而可以持續地增強模型表達的能力。

在訓練完畢后,BriVL可以對外提供獲取圖像和語言的向量特征的API,便于在下游任務中部署。特別地,與向量檢索引擎的結合可以極大地提高圖文檢索效率。

此外,BriVL模型也可以再融入其他的預訓練任務,例如圖像caption任務等。

4. 目前最大的中文多模態通用預訓練模型

文瀾團隊使用RUC-CAS-WenLan多源圖文數據集對BriVL進行預訓練。

RUC-CAS-WenLan是文瀾團隊構建的超大規模預訓練數據集,該多源圖文數據集來自網頁用戶產生的圖文數據。文瀾團隊的數據組從互聯網獲取原始數據后,對數據進行了一系列的清洗工作,從而構建了包含5500萬對圖文數據的RUC-CAS-WenLan通用多模態數據集。RUC-CAS-WenLan的內容十分豐富,涵蓋了新聞,體育,娛樂,文化,生活等多個主題。

第一代文瀾使用了3000萬對圖文數據,訓練得到的BriVL模型的初始版本有10億參數量,此階段的BriVL模型在RUC-CAS-WenLan測試集和AIC-ICC測試集上的性能均超過了UNITER和CLIP。

在未來,文瀾團隊將使用5億級別的圖文數據作為預訓練數據集,BriVL的參數量將達到百億級別。

付費5元查看完整內容

NLP自然語言處理在高德各個業務線發揮重要作用,例如動態事件命名實時識別,搜索場景用戶語義理解,共享出行通話文本自動判責等。

而NLP領域近期最重要的進展當屬預訓練模型,Google發布的BERT預訓練語言模型一經推出就霸占了NLP各大榜單,提升了諸多 NLP 任務的性能,在11種不同NLP測試中創出最佳成績,預訓練模型成為自然語言理解主要趨勢之一。

預訓練模型通常包括兩個階段: 第一階段是在大型語料庫根據給定上下文預測特定文本。 第二階段是在特定的下游任務進行finetuning。

BERT的強大毫無疑問,但由于模型有上億參數量體型龐大,單個樣本計算一次的開銷動輒上百毫秒,因而給部署線上服務帶來很大的困擾,如何讓BERT瘦身是工業界以及學術界重點攻堅問題。

Hinton的文章"Distilling the Knowledge in a Neural Network"首次提出了知識蒸餾的概念,將teacher知識壓縮到student網絡,student網絡與teacher網絡具有相同的預測能力但擁有更快的推理速度,極大節省了計算資源。

目前前沿的技術有微軟的 BERT-PKD (Patient Knowledge Distillation for BERT),huggingface 的 DistilBERT,以及華為TinyBERT。其基本思路都是減少 transformer encoding 的層數和 hidden size 大小,實現細節上各有不同,主要差異體現在 loss 的設計上。

然而知識蒸餾最核心問題是如何捕捉到模型潛在語義信息,而之前工作焦點在loss設計上,而這種方式讓模型關注在單個樣本的表達信息細節上,對于捕捉潛在語義信息無能為力。

高德智能技術中心研發團隊在工作中設計了對比學習框架進行知識蒸餾,并在此基礎上提出COS-NCE LOSS,通過優化COS-NCE LOSS拉近正樣本,并拉遠負樣本距離,能夠讓模型有效的學習到潛在語義表達信息(LRC-BERT對比DistillBERT,BERT-PKD并不限制模型的結構,student網絡可以靈活的選擇模型結構以及特征維度)。

同時為進一步讓LRC-BERT更加有效的學習,我們設計了兩階段訓練過程。最后LRC-BERT在word vector embedding layer引入梯度擾動技術提升模型魯棒性。

本文的主要貢獻點概括如下:

  • 提出了對比學習框架進行知識蒸餾,在此基礎上提出COS-NCE LOSS可以有效的捕捉潛在語義信息。
  • 梯度擾動技術首次引入到知識蒸餾中,在實驗中驗證其能夠提升模型的魯棒性。
  • 提出使用兩階段模型訓練方法更加高效的提取中間層潛在語義信息。

本文在General Language Understanding Evaluation (GLUE)評測集合取得了蒸餾模型的SOTA效果。

付費5元查看完整內容

【導讀】CVPR2020workshop的視覺與語言研究,邀請了業界學者講述了視覺語言之間的研究進展。來自微軟和facebook的Licheng Yu, Yen-Chun Chen, Linjie Li講述了自監督學習在視覺語言建模中的技術進展,共115頁ppt,不容錯過!

//rohit497.github.io/Recent-Advances-in-Vision-and-Language-Research/

視覺和語言(V+L)研究是計算機視覺和自然語言處理之間聯系的一個有趣的領域,并迅速吸引了這兩個領域的關注。各種各樣的V+L任務,以大規模的人類注釋數據集為基準,已經推動了聯合多模態表示學習的巨大進步。本教程將重點介紹該領域中最近流行的一些任務,如視覺描述、視覺基準、視覺問題回答和推理、文本到圖像的生成以及通用圖像-文本表示的自監督學習。我們將涵蓋這些領域的最新方法,并討論集中體現多模態理解、推理和生成的核心挑戰和機遇的關鍵原則。

付費5元查看完整內容
北京阿比特科技有限公司