亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

今天跟大家聊一聊ICLR 2022微軟亞研院的一篇工作BEIT: BERT Pre-Training of Image Transformers(ICLR 2022)。BEIT是一種圖像無監督預訓練,屬于最近非常火的Vision Transformer這類工作的研究方向(Vision Transformer前沿工作詳細匯總可以參考歷史文章從ViT到Swin,10篇頂會論文看Transformer在CV領域的發展歷程)。首先簡單介紹一下這篇文章的整體思路:利用BERT中MLM(Masked Language Modeling)的思路,把一個圖像轉換成token序列,對圖像token進行mask,然后預測被mask掉的圖像token,實現圖像領域的無監督預訓練。

這個想法聽起來跟BERT沒有太大區別,但是想把這個思路成功應用到圖像領域,并且取得效果,就不是那么容易了。接下來我們走進BEIT,看看這篇工作是如何實現將MLM預訓練應用到圖像領域的。我們首先介紹BEIT的原理,再對比BEIT和歷史的Vision Transformer工作,如iGPT、ViT等,看看BEIT有哪些優越之處。

BEIT主要分為dVAE和基于Vision Transformer的MIM(Masked Image Modeling)兩個部分。其中,dVAE用來實現將圖像轉換為圖像token,Vision Transformer部分使用ViT作為backbone對圖像進行編碼,并對mask掉的圖像token。BEIT整體的模型結構如下圖所示。下面我們對模型結構進行詳細介紹。

付費5元查看完整內容

相關內容

ICLR 2022 放出了本屆會議的論文接收結果:共有 54 篇 Oral(口頭報告)論文和 176 篇 Spolight 論文,論文接收總數 1095 篇,最終投稿量 3391 篇,論文接收率 32.3%。
北京阿比特科技有限公司