亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

多模態自監督學習。本節將討論Transformer架構如何彌合視覺領域和自然語言處理領域之間的差距。ViT架構允許使用Transformer基座對不同模態進行多模態學習,如CLIP、LiT、VATT。它還開啟了基于NLP領域掩模語言建模思想的自監督視覺表示學習,如BEIT和MAE。

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

隨著對廣義深度模型的迫切需求,許多預訓練大模型被提出,如BERT、ViT、GPT等。受這些模型在單一領域(如計算機視覺和自然語言處理)成功的啟發,多模態預訓練大模型近年來也引起了越來越多的關注。在這項工作中,我們對這些模型進行了全面的綜述,希望本文能夠提供新的見解,幫助新的研究人員跟蹤最前沿的工作。**具體而言,我們首先通過回顧傳統深度學習、自然語言過程、計算機視覺和語音中的預訓練工作,介紹了多模態預訓練的背景;然后,我們介紹了多模態預訓練模型(MM-PTMs)的任務定義、主要挑戰和優勢,并討論了MM-PTMs,重點是數據、目標、網絡架構和知識增強的預訓練。**在此之后,我們介紹了用于大規模MM-PTMs驗證的下游任務,包括生成、分類和回歸任務。我們還對典型下游任務的模型參數和結果進行了可視化和分析。最后,我們指出了本課題可能的研究方向,對今后的工作有所裨益。此外,我們維護了一個持續更新的大規模預訓練多模態大模型的論文列表://github.com/wangxiao5791509/MultiModal BigModels survey

1. 引言

隨著AlexNet[1]在ImageNet比賽[2]上的識別性能的突破,人工智能有了很大的發展。提出了許多具有代表性的深度神經網絡,如VGG[3]、ResNet[4]、Inception[5]、LSTM[6]等。研究人員通常為他們的任務收集和注釋一些樣本,并基于大規模數據集上預訓練的基座訓練他們的模型(例如用于計算機視覺的ImageNet[2],用于自然語言處理的Glove[7]和Skip-thought vectors[8])。與傳統的手工功能相比,許多任務都可以通過這種端到端方式很好地解決,例如目標檢測、分割和識別。然而,所得到的深度模型泛化能力仍然有限。收集和注釋一個更大的數據集可以在一定程度上解決這些問題,但這個過程是昂貴和乏味的。 為了解決這個問題,Ashish等人提出了Transformer網絡[9],該網絡在機器翻譯任務上取得了新的SOTA(最先進的)性能。之后,在大規模語料上進行自監督預訓練,然后在下游任務上進行微調,吸引了越來越多研究者的關注。許多預訓練的大模型都是遵循這樣的范式提出的,如BERT [10], GPT [11,12], T5 [13], XLNet[14],也引發了CV領域預訓練的新研究熱點。越來越多的大規模NLP和CV模型通過預訓練和微調范式展示了強大的效果,包括ViT[15]和Swin-Transformer[16]。

盡管這一進展為人工智能的發展帶來了新的動力,然而,單模態缺陷所帶來的問題仍然難以解決。研究人員試圖納入更多模態來彌合深度模型的數據差距。許多基于多模態融合的任務也采用傳統的深度學習方式進行探索,如RGB、深度、自然語言、點云、音頻、事件流等。許多大規模預訓練多模態模型[17-23]被提出,這些模型在下游任務上相繼設置新的SOTA,如圖1所示。文中對這些工作進行了全面的綜述,旨在幫助感興趣的研究者快速了解該領域的歷史和最新發展。

綜述組織。文中首先回顧了多模態預訓練技術的研究背景,從傳統的深度學習范式到單模態任務的預訓練,包括自然語言處理、計算機視覺和自動語音處理。然后,在3.1節和3.2節中,重點介紹MM-PTMs,并描述任務定義、關鍵挑戰和好處。在以下子節中還將審查關鍵組件,包括大規模數據、網絡架構、優化目標和知識增強的預訓練。為了驗證預訓練模型的有效性,使用許多下游任務進行定量評估。在第4節中,詳細回顧了這些任務的任務定義和評估指標。在第5節中,我們回顧了用于訓練的模型參數和硬件,并報告了幾個代表性下游任務的實驗結果。最后,在第6節中,總結了本綜述并提出了多個需要研究的研究方向。這個綜述的架構如圖2所示。

與現有評論的區別。雖然已經有兩項針對MM-PTMs的綜述[24,25],但我們的綜述與現有綜述之間的差異可以總結如下: * 范圍:現有的多模態綜述[24,25]只關注視覺-語言,然而,多模態信息問題是一個更廣泛的研究主題。本文比上述綜述更全面,引入了更多的模態,如音頻、視頻、表格等。 * 時效性:本文介紹了針對多模態預訓練提出的最新數據集和算法(從2019年到2022年6月),這是一個很長的綜述,同時,他們的工作屬于短論文。 * 對MM-PTMs的新見解:通過從不同的角度對現有MM-PTMs進行分類和分析,本文可以幫助讀者從詳細和高層次的角度掌握最前沿的方法和技術。此外,提出的MM-PTMs研究方向是經過深思熟慮的,將為后續研究提供新的線索。

2. 多模態預訓練

**任務的定義。**通常,深度神經網絡是在大規模數據集上進行訓練的,例如,廣泛使用的殘差網絡[4]是在ImageNet數據集[2]上使用分類任務進行預訓練的。相比之下,多模態預訓練大型模型通常在大規模訓練數據集上進行訓練。通常,這些數據由于規模太大而無法標注,因此沒有標注標簽。另一方面,參數需要達到一定的規模。如圖4所示,多模態數據、大模型和計算能力是緊密聯系的。總之,多模態預訓練通常是指在計算能力的支持下,對海量多模態數據進行無監督的預訓練,即具有大量參數的多模態模型。

與單模態預訓練大模型相比,MM-PTMs更適合實際應用場景。具體而言,MM-PTMs可以很好地解決多模態協同生成、模態補全、跨域檢索等問題。同時,多模態數據包含更多的信息,可以彌補單一模態的缺陷。因此,MM-PTMs有助于提取多模態的共同特征。最近的許多工作表明,MM-PTMs的使用確實帶來了額外的先驗知識[76-78]。與小規模的多模態模型相比,通過自監督/無監督學習得到的MM-PTMs的泛化能力顯著提高。由于一些先驗知識僅包含在海量的大數據中,而人工選擇的少量標注數據存在偏差,因此小規模模型很難掌握這些知識。

預訓練數據集

如表2所示,針對預訓練任務提出了許多大規模多模態數據集。在本小節中,我們將簡要介紹這些數據集,以幫助讀者快速掌握預訓練所需的數據信息。

預訓練目標

如何設計學習目標是多模態預訓練中非常重要的一步。目前,提出了以下學習目標,包括對比損失、生成損失等。

預訓練架構

在大規模預訓練時代,目前大多數預訓練模型的靈感來自Transformer(主要由自注意力層組成)。它最初是在2017年為自然語言處理任務[9]開發的,它在許多下游任務上大幅提高了新的SOTA性能。此類框架也被引入計算機視覺領域,因此,針對各種任務和輸入設計統一的網絡架構是當前的研究熱點。

多層transformer廣泛應用于目前許多MM-PTMs中。每個模態的輸入首先由獨立的編碼器提取作為特征嵌入,然后與其他模態進行交互。根據多模態信息融合方式的不同,MM-PTMs可分為單模態和跨模態兩類。在本小節中,我們將分別介紹這兩種架構。

目前的大規模預訓練多模態模型大多采用concate、add、Mergeattention、Co-attention和Cross-attention[132]來實現模態之間的交互學習。以下各段將介紹這些模塊。

預訓練知識利用

傳統的預訓練模型邏輯推理能力差,缺乏可解釋性。為了緩解這些問題,在預訓練模型中直接涉及知識,對數據的深入理解,即使用知識進行預訓練,也稱為知識增強預訓練模型(KEPTMs),如圖9所示。

3. 下游任務

在預訓練階段之后,研究人員通常會在許多下游任務中測試他們的模型,以驗證這種強大的能力。具體來說,驗證采用了生成任務、分類任務、回歸任務,下面將討論這些任務。快速學習作為一種新的學習范式,以修改下游任務來適應預先訓練好的大模型為目標,受到越來越多的關注。本部分還對幾種有代表性的提示學習算法進行了綜述。這些下游任務的概述如圖10所示。

付費5元查看完整內容

預訓練基礎模型(PFMs)被視為具有不同數據模態的各種下游任務的基礎。預訓練的基礎模型,如BERT、GPT-3、MAE、DALLE-E和ChatGPT,在大規模數據上進行訓練,為廣泛的下游應用提供了合理的參數初始化。**PFMs背后的預訓練思想在大型模型的應用中起著重要的作用。**作為一種遷移學習范式,預訓練通過凍結和微調技術應用于計算機視覺,顯示出良好的性能。詞向量在自然語言處理中也可以看作是修飾詞的一種,但它存在多義詞等問題。與之前應用卷積和循環模塊進行特征提取的方法不同,生成預訓練(GPT)方法應用Transformer作為特征提取器,并以自回歸范式在大型數據集上進行訓練。類似地,BERT應用transformer在大型數據集上作為上下文語言模型進行訓練。最近,ChatGPT在大型語言模型上顯示出可喜的成功,它應用了零樣本或很少提示的自回歸語言模型。隨著PFMs的非凡成功,人工智能在過去幾年中在各種領域掀起了浪潮。文獻中提出了相當多的方法,數據集和評估指標,需要更新的綜述。

**本研究全面回顧了文本、圖像、圖以及其他數據模態中PFMs的最新研究進展、當前和未來挑戰和機遇。**首先回顧了自然語言處理、計算機視覺和圖學習中的基本組成部分和現有的預訓練。然后討論針對其他數據模態的其他高級PFMs,以及考慮數據質量和數量的統一PFMs。此外,還討論了PFM的相關研究,包括模型效率與壓縮、安全與隱私。最后,總結了關鍵意義、未來研究方向、挑戰和開放問題。希望對PFMs在可擴展性、推理能力、跨域能力、用戶友好交互能力、安全與隱私保護能力等方面的研究有所啟發。

//www.zhuanzhi.ai/paper/9345ff120bd8f1b703c1c9324c321dd9

1. 引言

預訓練基礎模型(PFMs)是大數據時代人工智能(AI)必不可少的重要組成部分。基礎模型首先在[1]中命名,這意味著更廣泛的模型類及其功能。在人工智能的三大領域(自然語言處理(NLP)[2]、計算機視覺(CV)[3]和圖學習(GL)[4])中,PFM被廣泛研究。**PFM是強大的通用模型,在各種領域或跨領域都是有效的。它們在各種學習任務中表現出了學習特征表示的巨大潛力,如文本分類[5]、文本生成[6]、圖像分類[7]、目標檢測[8]和圖分類[9]。**PFMs在使用大規模語料庫對多個任務進行訓練,并將其微調到類似的小規模任務方面表現出優越的性能,使啟動快速數據處理成為可能。**PFMs基于預訓練技術,該技術旨在使用大量數據和任務訓練一個通用模型,這些數據和任務可以在不同的下游應用程序中輕松地進行微調。**預訓練的思想源于CV任務中的遷移學習[10]。認識到預訓練在CV領域的有效性,人們開始在其他領域使用預訓練技術來提高模型性能。當預訓練技術應用于NLP領域時,訓練有素的語言模型(lm)可以捕獲對下游任務有益的豐富知識,如長期依賴關系、層次關系等。此外,在NLP領域進行預訓練的顯著優勢在于,訓練數據可以來自任何未標記的文本語料庫,即預訓練過程中有無限數量的訓練數據。早期的預訓練是一種靜態技術,如NNLM[11]和Word2vec[12],但靜態方法難以適應不同的語義環境。因此,提出了動態預訓練技術,如BERT[13]、XLNet[14]等。圖1描述了NLP、CV和GL領域PFMs的歷史和演變。基于預訓練技術的PFMs利用大規模語料庫學習通用語義表示。隨著這些開創性工作的引入,各種PFMs已經出現并應用于下游任務和應用。

**ChatGPT是PFM應用的一個很好的例子。ChatGPT是對生成式預訓練transformer GPT-3.5進行微調的,它是在文本和代碼的混合上進行訓練的[15,16]。**ChatGPT應用了來自人類反饋的強化學習(RLHF)[17,18],這已經成為將大型語言模型與人類意圖[19]相結合的一種有希望的方法。ChatGPT令人驚訝的優越性能可能會導致每種類型PFM訓練范式的轉變——應用指令對齊技術,如強化學習(RL)、提示調整[20,21,22]和思維鏈[23,24],向人工通用智能發展。重點介紹了文本、圖像和圖形的PFMs,這是一個比較成熟的研究分類。對于文本,它是一個多用途的語言模型,用于預測序列中的下一個單詞或字符。例如,PFMs可用于機器翻譯、問答系統、主題建模、情感分析等。對于圖像,它類似于文本上的PFMs,使用巨大的數據集來訓練一個適用于許多CV任務的大模型。對于圖,類似的預訓練思想也被應用于獲得pfm,用于許多下游任務。除了特定數據域的PFMs,還回顧和介紹了其他一些先進的PFMs,如語音、視頻和跨領域數據的PFMs,以及多模態PFMs。此外,還出現了一種處理多模態的PFMs大收斂,即所謂的統一PFMs。首先定義了統一PFMs的概念,然后回顧了近年來SOTA統一PFMs的最新研究進展(如OFA[25]、UNIFIED-IO [26]、FLAVA[27]、BEiT-3[28]等)。

**根據現有PFMs在這三個領域的特點,我們得出PFMs具有以下兩個主要優勢。**首先,需要輕微的微調來增強模型在下游任務上的性能。第二,PFMs已經在質量方面進行了綜述。我們可以將PFMs應用于與任務相關的數據集,而不是從頭開始構建模型來解決類似的問題。PFMs的巨大前景激發了大量相關工作,以關注模型效率、[29]、安全性[30,31,32]和壓縮[33,34]等。

有一些綜述研究[35,8,5,6,7,1]回顧了一些特定領域的預訓練模型,如文本生成[6],視覺transformer[7],目標檢測[8]。Bommasani出版社。[1]總結了基礎模型的機會和風險。然而,現有工作沒有在預訓練任務、效率、功效和隱私等不同方面對不同領域(如CV、NLP、GL、語音、視頻)的PFMs進行全面的回顧。在本次調查中,我們專門跟蹤了NLP領域的PFMs的演變,以及預訓練是如何轉移到CV和GL并被采用的。與其他調查相比,我們沒有對這三個領域現有的PFMs進行全面介紹和分析。與以往預訓練模型的綜述不同,本文總結了現有的模型,從傳統模型到pfm,以及這三個領域的最新工作。傳統模型強調靜態特征學習。動態PFMs介紹了結構,這是目前的主流研究。進一步介紹了一些針對PFMs的其他研究,包括其他先進和統一的PFMs、模型效率和壓縮、安全性和隱私。最后,總結了不同領域未來的研究挑戰和開放問題。全面介紹了附錄F和附錄g中的相關評價指標和數據集。總結而言,本文的主要貢獻如下:

本文對PFM在NLP、CV和GL中的發展進行了扎實和最新的綜述。在這篇綜述中,討論和提供了關于三個主要應用領域中的通用PFM設計和預訓練方法的見解。

我們總結了PFMs在其他多媒體領域(如語音和視頻)的發展。此外,還討論了PFMs的前沿問題,包括統一PFMs、模型效率與壓縮、安全與隱私等。

通過對不同任務的不同模態的PFMs的回顧,討論了大數據時代超大模型未來研究的主要挑戰和機遇,這指導了基于PFMs的新一代協作和交互智能。

付費5元查看完整內容

本教程涵蓋了自監督視覺表示學習領域的流行方法和最新進展。我們將介紹掩碼自動編碼器和對比學習等主題。我們將展示這些框架如何成功地從2D靜態圖像和動態視頻信息中學習。最后,我們還將從機器學習的角度討論自監督學習。總的來說,我們將展示不同自監督學習技術之間的聯系和區別,并提供關于社區中流行方法的見解。

//feichtenhofer.github.io/eccv2022-ssl-tutorial/

組織人員:

目錄內容:

Welcome and agenda - Xinlei Chen and Christoph Feichtenhofer, Meta AI * Opening remarks - Yann LeCun, Meta AI and NYU * Masked autoencoders as scalable vision learners - Xinlei Chen, Meta AI * Self-supervised learning from masked video and audio - Christoph Feichtenhofer, Meta AI * The virtuous cycle of object discovery and representation learning - Olivier J. Hénaff, DeepMind * Contrastive learning of visual representations - Ting Chen, Google

Masked autoencoders as scalable vision learners

論文鏈接:

這篇論文展示了一種被稱為掩蔽自編碼器(masked autoencoders,MAE)的新方法,可以用作計算機視覺的可擴展自監督學習器。MAE 基于兩個核心理念:研究人員開發了一個非對稱編碼器 - 解碼器架構,其中一個編碼器只對可見的 patch 子集進行操作(沒有掩蔽 token),另一個簡單解碼器可以從潛在表征和掩蔽 token 重建原始圖像。

研究人員進一步發現,掩蔽大部分輸入圖像(例如 75%)會產生重要且有意義的自監督任務。結合這兩種設計,我們就能高效地訓練大型模型:提升訓練速度至 3 倍或更多,并提高準確性。 作者認為,這種可擴展方法允許學習泛化良好的高容量模型:例如在僅使用 ImageNet-1K 數據的方法中,vanilla ViT-Huge 模型實現了最佳準確率 (87.8%)。在下游任務中的傳輸性能優于有監督的預訓練,并顯示出可觀的擴展能力。

Self-supervised learning from masked video and audio

付費5元查看完整內容

ACL 是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL 在 NLP 領域的學術影響力都位列第一,它也是 CCF-A 類推薦會議。今年的 ACL 大會已是第 60 屆,將于 5 月 22-5 月 27 在愛爾蘭都柏林舉辦。

ACL 2022論文獎項公布,伯克利摘得最佳論文,陳丹琦、楊笛一等華人團隊獲杰出論文

來自DeepMind等學者Aishwarya Agrawal, Damien Teney, Aida Nematzadeh做了關于《視覺語言預訓練:當前趨勢與未來》教程,值得關注!

本教程的目標是概述多模態預訓練問題的處理所需的要素,特別是視覺和語言。我們還將討論這一領域的一些開放性問題和有希望的未來方向

在過去的幾年里,人們對建立多模態(視覺語言)模型越來越感興趣,這些模型是在較大但噪聲較大的數據集上進行預訓練的,其中兩種模態(如圖像和文本)松散地相互對應(如ViLBERT和CLIP)。給定一個任務(比如可視的問題回答),這些模型通常會針對特定于任務的監督數據集進行微調。除了更大的預訓練數據集,Transformer體系結構,特別是應用于兩種模態的自注意力,最近的預訓練模型在下游任務上的令人印象深刻的性能。

這種方法之所以有吸引力,有幾個原因: 首先,預訓練數據集通常是自動從Web上整理出來的,以微不足道的收集成本提供了巨大的數據集。第二,我們可以訓練大型模型一次,并在各種任務中重用它們。最后,這些預訓練方法的表現更好或與以前的特定任務模型持平。一個有趣的問題是,除了良好的任務表現,這些預訓練的模型是否學習了更好地捕捉兩種模態之間的一致性的表征。在本教程中,我們關注最近的視覺語言預訓練范例。我們的目標是首先提供圖像-語言數據集、基準和建模創新。接下來,我們討論用于視覺語言預訓練的不同模型家族,強調它們的優點和缺點。最后,我們討論了通過統計學習進行視覺語言預訓練的局限性,以及因果建模等替代方法的必要性。

目錄內容:

**1. 引言 Introduction: the goal of the tutorial (5 minutes) **

2. 視覺語言概覽 Vision-language landscape before the pretraining era (55 minutes)

**Motivation for vision-language research from both application and research point of views. **

**Popular vision-language tasks, datasets and benchmarks (e.g., image-retrieval, referring expressions, image captioning, visual question answering). **

Task specific modelling approaches and fundamental innovations before the pretraining era (e.g., CNN + LSTM based approaches, language guided image attention, multimodal pooling, compositional networks).

**3. 視覺語言預訓練 Vision-language pretraining (VLP) (60 minutes) **

**– Inspiration from pretraining successes in NLP (transformers, BERT, GPT). **

**– Different families of VLP models (all are transformer based models): * Models using task-specific heads for each downstream task (e.g., ViLBERT, LXMERT, UNITER, OSCAR, VinVL). **

*** Models treating all downstream tasks as language generation tasks, i.e. no task-specific head (e.g., VL-T5, VLBART, SimVLM). **

*** Models using VLP data for improving performance on vision tasks (e.g., CLIP, ALIGN). **

*** Models using VLP data for improving performance on language tasks, including multilingual data (e.g., Vokenization, M3P, VL-T5, SimVLM). **

– Different VLP datasets and how they affect the downstream task performance w.r.t their size, degree of noise, and similarity with downstream datasets.

4. Beyond statistical learning in vision-language

講者:

Aishwarya Agrawal (DeepMind, University of Montreal, Mila), Damien Teney (Idiap Research Institute), and Aida Nematzadeh (DeepMind)

付費5元查看完整內容

今天跟大家聊一聊ICLR 2022微軟亞研院的一篇工作BEIT: BERT Pre-Training of Image Transformers(ICLR 2022)。BEIT是一種圖像無監督預訓練,屬于最近非常火的Vision Transformer這類工作的研究方向(Vision Transformer前沿工作詳細匯總可以參考歷史文章從ViT到Swin,10篇頂會論文看Transformer在CV領域的發展歷程)。首先簡單介紹一下這篇文章的整體思路:利用BERT中MLM(Masked Language Modeling)的思路,把一個圖像轉換成token序列,對圖像token進行mask,然后預測被mask掉的圖像token,實現圖像領域的無監督預訓練。

這個想法聽起來跟BERT沒有太大區別,但是想把這個思路成功應用到圖像領域,并且取得效果,就不是那么容易了。接下來我們走進BEIT,看看這篇工作是如何實現將MLM預訓練應用到圖像領域的。我們首先介紹BEIT的原理,再對比BEIT和歷史的Vision Transformer工作,如iGPT、ViT等,看看BEIT有哪些優越之處。

BEIT主要分為dVAE和基于Vision Transformer的MIM(Masked Image Modeling)兩個部分。其中,dVAE用來實現將圖像轉換為圖像token,Vision Transformer部分使用ViT作為backbone對圖像進行編碼,并對mask掉的圖像token。BEIT整體的模型結構如下圖所示。下面我們對模型結構進行詳細介紹。

付費5元查看完整內容

【導讀】NeurIPS,全稱神經信息處理系統大會(Conference and Workshop on Neural Information Processing Systems),作為關于機器學習和計算神經科學的國際會議,每年固定在12月舉行,由NIPS基金會主辦。NeurIPS是機器學習領域的頂級會議 ,是神經計算方面最好的會議之一 。在中國計算機學會的國際學術會議排名中,NeurIPS為人工智能領域的A類會議。NeurIPS 2021于12月6日-12月14日在加拿大蒙特利爾采用線上線下結合的方式舉辦。

來自OpenAI的研究人員Lilian Weng和Jong Wook Kim對自監督學習做了最新的報告,非常值得關注。

Lilian Weng現為OpenAI應用人工智能研究負責人,主要從事機器學習、深度學習和網絡科學研究 。她本科畢業于香港大學,碩士就讀于北京大學信息系統與計算機科學系,之后前往印度安納大學布魯頓分校攻讀博士。

Lilian Weng經常在個人博客分享學習和工作筆記,感興趣的可以戳這里: //lilianweng.github.io/lil-log/。

Jong Wook Kim,OpenAI研究技術人員,參與Jukebox和CLIP這樣的項目。研究興趣包括大規模多模態深度學習和音樂理解。

自監督學習:自預測與對比學習

自監督學習是一種很好的方法,可以從大量的未標記數據中提取訓練信號,并學習良好的表示,以方便下游的任務,在這些任務中收集特定于任務的標簽非常昂貴。本教程將著重介紹自監督學習的兩種主要方法:自預測和對比學習。自預測是指自監督的訓練任務,在這種訓練任務中,模型學會從剩余數據中預測一部分可用數據。對比學習是通過從數據集構造相似和不同的對,來學習一個相似數據樣本保持相近而不同數據樣本相距較遠的表示空間。本教程將涵蓋這兩個主題和跨各種應用程序的方法,包括視覺、語言、視頻、多模態和強化學習。

● 導論 Introduction: motivation, basic concepts, examples.

● 早期工作 Early work: look into connection with old methods.

● 方法 Methods

○ Self-prediction 

○ Contrastive Learning

● 前置任務 Pretext tasks: a wide range of literature review.

● 技術 Techniques: improve training efficiency.

● 未來方向 Future directions

付費5元查看完整內容

【導讀】CVPR2020workshop的視覺與語言研究,邀請了業界學者講述了視覺語言之間的研究進展。來自微軟和facebook的Licheng Yu, Yen-Chun Chen, Linjie Li講述了自監督學習在視覺語言建模中的技術進展,共115頁ppt,不容錯過!

//rohit497.github.io/Recent-Advances-in-Vision-and-Language-Research/

視覺和語言(V+L)研究是計算機視覺和自然語言處理之間聯系的一個有趣的領域,并迅速吸引了這兩個領域的關注。各種各樣的V+L任務,以大規模的人類注釋數據集為基準,已經推動了聯合多模態表示學習的巨大進步。本教程將重點介紹該領域中最近流行的一些任務,如視覺描述、視覺基準、視覺問題回答和推理、文本到圖像的生成以及通用圖像-文本表示的自監督學習。我們將涵蓋這些領域的最新方法,并討論集中體現多模態理解、推理和生成的核心挑戰和機遇的關鍵原則。

付費5元查看完整內容
北京阿比特科技有限公司