亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

 本文簡要介紹TPAMI 2024錄用論文“Turning a CLIP Model into a Scene Text Spotter”的主要工作。這篇文章介紹了一種新方法FastTCM,專注于直接將CLIP 模型用于文本檢測和端到端文本識別,無需設計特殊的預訓練代理任務。

一、研究背景****

大規模對比語言-圖像預訓練CLIP模型[1]通過利用預訓練的視覺和語言知識在各種下游任務中展現了巨大的潛力。場景文本包含豐富的文本和視覺信息,與像 CLIP 這樣的視覺語言大模型有著固有的聯系。現有利用視覺語言預訓練的工作[2-4]通常包含兩個階段:第一個階段需要設計合適的代理任務進行預訓練,充分挖掘文本知識,使得視覺編碼器能夠較好地感知到文本;第二個階段再對第一個階段預訓練好的視覺編碼器進行微調,使其能夠較好地執行下游的文本檢測或者端到端文本識別任務。這篇文章介紹了一種新方法FastTCM,專注于直接將CLIP 模型用于文本檢測和端到端文本識別,無需設計特殊的預訓練代理任務。

圖1 現有利用視覺語言知識進行文本檢測或者端到端文本識別的不同范式

二、方法原理簡述****

FastTCM整體框架如圖2所示,包含CLIP的圖像編碼器、文本編碼器、視覺提示模塊、文本提示單元和下游的文本檢測或端到端文本識別頭。其中,文本提示單元包含文本提示模塊和雙模態相似匹配機制。首先視覺編碼器對圖像進行編碼,得到全局視覺特征;其次,文本提示模塊通過可學習的元查詢和預定義的提示構造有利于下游任務的提示,并送入文本編碼器編碼得到文本嵌入;接著,雙模態相似匹配機制計算當前圖像特征和文本嵌入的相似度,并將該相似度和圖像特征相乘疊加到文本嵌入生成新的文本嵌入,該機制可以根據輸入的視覺圖像特征動態的調整文本編碼器的輸出,充分挖掘CLIP中預訓練的文本知識,有利于后續提取細粒度的視覺圖像特征。之后的流程和會議版本的工作[5]一致。在訓練時文本提示模塊的參數需要參與訓練優化,當訓練完成時該模塊參數被固定,在推理時可以將文本編碼器部分的輸出離線計算,以此來減少推理時間。 圖2 FastTCM方法整體框架圖 三、主要實驗結果****

作者將FastTCM應用于現有的文本檢測方法和端到端文本識別方法上進行了實驗驗證,發現FastTCM可以應用于改進現有的場景文本檢測方法和端到端文本識別方法,并且速度有所提升,同時可以提升現有方法的小樣本學習能力和泛化能力。表1 分別提升現有的文本檢測方法和端到端文本識別方法的性能 表2 提升現有的文本檢測方法和端到端文本識別方法上的小樣本學習能力 表3 提升現有的文本檢測和端到端文本識別方法上的泛化學習能力

作者進一步在旋轉目標檢測任務上進行了驗證,并在遙感圖像數據集DOTA-v1.0[6]上進行了實驗,本文提出的方法依舊可以適用于遙感目標檢測,下圖展示了可視化結果。

圖 3 在旋轉目標遙感數據集DOTA-v1.0上的可視化檢測結果

四、未來展望

本文提出了一種利用大規模對比語言-圖像預訓練 CLIP 模型來提升文本檢測和端到端文本識別下游任務,對邁向通用場景的文本感知任務更近了一步,未來可以繼續探索借助更強大的多模態大模型[7]的能力來實現更通用的文本感知和理解任務。 五、相關資源****

論文鏈接://ieeexplore.ieee.org/document/10476714代碼://github.com/wenwenyu/TCM 參考文獻****

[1] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning transferable visual models from natural language supervision,” in ICML, 2021. [2] Q. Wan, H. Ji, and L. Shen, “Self-attention based text knowledge mining for text detection,” in CVPR, 2021. [3] S. Song, J. Wan, Z. Yang, J. Tang, W. Cheng, X. Bai, and C. Yao, “Vision-language pre-training for boosting scene text detectors,” in CVPR, 2022. [4] C. Xue, W. Zhang, Y. Hao, S. Lu, P. H. S. Torr, and S. Bai, “Language matters: A weakly supervised vision-language pretraining approach for scene text detection and spotting,” in ECCV, 2022. [5] W. Yu, Y. Liu, W. Hua, D. Jiang, B. Ren, and X. Bai, “Turning a clip model into a scene text detector,” in CVPR, 2023. [6] G.-S. Xia, X. Bai, J. Ding, Z. Zhu, S. J. Belongie, J. Luo, M. Datcu, M. Pelillo, and L. Zhang, “Dota: A large-scale dataset for object detection in aerial images,” in CVPR, 2017.[7] Z. Li, , B. Yang, Q. Liu, Z. Ma, S. Zhang, J. Yang, Y. Sun, Y. Liu, and X. Bai,“Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models,”in CVPR 2024.


原文作者:Wenwen Yu, Yuliang Liu*, Xingkui Zhu, Haoyu Cao,Xing Sun, Xiang Bai 撰稿:余文文編排:高 學審校:連宙輝發布:金連文

付費5元查看完整內容

相關內容

IEEE模式分析和機器智能期刊TPAMI(IEEE Trans on Pattern Analysis and Machine Intelligence)出版了有關計算機視覺和圖像理解的所有傳統領域,模式分析和識別的所有傳統領域以及機器智能的選定領域的文章,其中特別強調了用于模式分析的機器學習。還涵蓋了諸如可視搜索,文檔和手寫分析,醫學圖像分析,視頻和圖像序列分析,基于內容的圖像和視頻檢索,面部和手勢識別以及相關的專用硬件和/或軟件體系結構等技術領域。 官網地址:

掩碼自編碼器(MAE)通過隨機掩碼圖像塊和重建,在各種視覺任務上表現出優越的性能。然而,MAE的有效數據增強策略仍然是開放問題,不同于作為最重要部分的對比學習中的策略。研究了主流的MAE混合增廣算法。**本文首先證明,由于互信息(MI)的增加,樸素的混合會使模型性能退化。本文提出同源識別,一種輔助的前置任務,不僅通過明確要求每個塊識別同源塊來緩解MI的增加,而且還進行目標感知的自監督預訓練,以獲得更好的下游密集感知性能。**通過廣泛的實驗,所提出的混合自編碼器(MixedAE)在不同的下游任務上實現了最先進的掩碼圖像建模(MIM)增強之間的遷移結果,效率顯著。所提出的MixedAE在ImageNet-1K、ADE20K和COCO上使用標準vite - base分別比MAE提高了+0.3%的精度,+1.7 mIoU和+0.9 AP。此外,MixedAE的訓練速度提高了2倍,超過了結合實例判別的強MIM方法iBOT。據我們所知,這是第一項從前置任務設計的角度考慮MIM混合的工作。代碼將被提供。

付費5元查看完整內容

本工作由京東探索研究院和悉尼大學聯合完成,已經被CVPR 2022 接收,并獲得口頭報告(oral)展示機會。在本文中,我們提出了一個利用遞歸“瞥視”解碼器的方法來利用興趣區域信息,從而有效加速基于Transformer的目標檢測算法。具體來說,我們試圖模仿人類的視覺感知過程并借助類似于“瞥視”的行為獲取有關物體位置的大致信息,然后通過一個多階段遞歸的處理過程,幫助模型逐漸地聚焦到正確的物體區域,從而較大程度上降低模型進行目標檢測的難度,減少其所需的訓練周期。在大數據集實驗中,我們的方法被證明能減少30%左右當前最先進模型所需的訓練周期且不會使目標檢測的準確率下降。在使用相同訓練周期的情況下,我們的方法也能進一步提升5%左右的檢測準確率。

01 研究背景

近期,基于Transformer的目標檢測算法開始在學術界流行起來。這一類算法通過建模全局視覺信息,能直接輸出圖片中出現物體的詳細位置和類別信息。和傳統目標檢測算法不同,此類算法避免了額外的后處理過程,能高效高質量地進行目標檢測。

然而,此類算法一個比較重要的缺陷在于往往需要極長的訓練周期來優化模型參數并確保其能正確地關注物體區域。具體來說,傳統算法一般需要12或24個訓練周期來獲取高質量模型參數,而最原始的基于Transformer的目標檢測算法卻需要500個訓練周期來獲取同等質量的模型參數。這一缺點極大地阻礙了這一類算法的發展和應用。

經過調研,我們發現近期的一些工作試圖通過優化特征表示或是改進模型結構來處理這一問題。總體上,目前的改進工作傾向于在訓練的過程中幫助基于Transformer的目標檢測器更快地找到正確的物體區域,從而減少整體的訓練過程。這些工作在一定程度上緩解了這一問題。

不同于目前的方法,我們發現有關可能包含物體的興趣區域(region-of-interest)信息能直接、簡單、有效地幫助縮短需要的訓練周期。具體來說,我們試圖模仿人類的視覺感知過程并借助類似于“瞥視”的行為獲取有關物體位置的大致信息,然后通過一個多階段遞歸的處理過程,幫助模型逐漸地聚焦到正確的物體區域,從而較大程度上降低模型進行目標檢測的難度,減少其所需的訓練周期。依此,在本文中,我們提出了一個利用遞歸“瞥視”解碼器的方法來利用興趣區域信息,從而有效加速基于Transformer的目標檢測算法。

圖1 遞歸“瞥視”解碼器 (REGO: Recurrent Glimpsed-based Decoder) 的概念展示。

02 遞歸“瞥視”解碼器

2.1 算法概述

遞歸“瞥視”解碼器主要通過擴大物體興趣區域并提取其中的視覺信息作為“瞥視”的實現。然后,我們引入了一個視覺解碼器以解釋獲取到的“瞥視”信息,使其能幫助基于Transformer的目標檢測器更能正確地捕捉到物體區域。在實現的過程中,我們使用了遞歸多階段處理的策略,使其能逐漸且穩定地改善檢測器的輸出。在每一個遞歸階段中,我們都進行一次“瞥視”和解碼。解碼后的信息,和原始Transformer目標檢測算法的視覺信息合并,進而產生改善的視覺信息表示及目標檢測結果。每一個階段得到的最終視覺信息和檢測結果則會被遞歸地送到下一階段的處理過程中。圖2展示了具體的操作流程。

圖2 遞歸“瞥視”解碼器(REGO)每一階段的處理框架圖

2.2 算法詳述

在每一個階段中,我們使用前一個階段的視覺解碼信息 及其檢測框預測結果 作為算法輸入,然后輸出本階段“瞥視”信息改進的視覺解碼信息 及檢測結果 ,包括物體類別識別結果 和及其檢測框預測結果 。值得一提的是,我們令原始基于Transformer的目標檢測算法的視覺信息和檢測框預測結果作為第一個階段的輸入,則后續階段可以遞歸地進行“瞥視”解碼及改進操作。

在一個階段中,我們首先提取“瞥視”信息。提取過程主要通過擴大前一階段預測的檢測框然后提取其中的視覺特征得到。假設 代表視覺特征, 代表提取的“瞥視”信息,則我們使用一下操作: (1) 其中 代表視覺特征提取操作, 代表擴大檢測框的操作, α 則表示本階段使用的擴大系數。

根據公式(1)得到的“瞥視”信息,我們使用一個解碼器,定義為 ,將其根據前一個階段的信息解碼成可以用來改進檢測的表示 : (2)

最后,我們將“瞥視”解碼結果 和建議階段的視覺解碼信息合并 ,得到本階段的視覺解碼信息: (3) 在得到本階段的視覺解碼信息之后,我們就可以讓神經網絡基于這一信息產生關于物體類別機器檢測框位置的預測。

2.3 實驗結果

在大數據集實驗中,我們的方法可以被證明能減少30%左右當前最先進模型所需的訓練周期且不使得目標檢測準確率下降。在使用相同訓練周期的情況下,我們的方法也能進一步提升5%左右的檢測準確率。這些結果證明了我們提出的方法在基于Transformer的目標檢測算法上的高效性,同時也展示出了我們的方法代表了本領域發展的最前沿成果。

具體來說,我們首先能改進原始基于Transformer的目標檢測算法的收斂速度。圖3展示了我們的方法(紅線)應用在現有Transformer檢測器(灰線)的收斂效果,橫軸代表了訓練周期長短,豎軸代表了檢測效果。可以看到,我們的方法使用36圈即可以得到比原方法50圈的收斂結果還要好的檢測效果,大大減少了訓練周期。

圖3 我們的方法(REGO)相對于baseline在收斂速度上的提升效果

我們在圖4展示了更詳細的目標檢測實驗效果比較。我們對比了改進后的原始Transformer檢測器(DETR)以及最新的Transformer檢測器(Deformable DETR)在是否使用我們提出方法(REGO)的情況下得到的檢測效果。從實驗結果中,我們可以看到,我們的方法能幫助原有方法在36圈訓練周期里得到和原來50圈訓練周期相當水平的結果。同時,我們的方法也能在50圈訓練周期里得到大致相對5%的檢測精度提升。同時,我們的方法僅僅引入了較少的計算復雜都和參數量。

表1 基于Transformer的目標檢測算法以及我們的方法(REGO)檢測表現對比

**

圖 4 我們的方法(REGO)和原始方法(Deformable DETR)檢測結果可視化

我們在圖4中進一步展示了我們的方法(REGO)和原始方法(Deformable DETR)檢測結果的可視化效果。我們可以看到,原始的方法仍然會產生一些錯誤的檢測,而我們的方法能有效地幫助識別并排除這些錯誤檢測結果。

03 結論

在本文中,我們提出了一個利用遞歸“瞥視”解碼器的方法來利用興趣區域信息,從而有效加速基于Transformer的目標檢測算法。我們成功地借用了人類的視覺感知過程中 “瞥視” 的概念并實現了一個有效的多階段遞歸 “瞥視” 解碼的處理過程,幫助模型逐漸地聚焦到正確的物體區域,從而較大程度上降低模型進行目標檢測的難度,減少其所需的訓練周期。在每一個階段中,我們通過擴大物體興趣區域并提取其中的視覺信息作為 “瞥視” 的實現,然后我們引入了一個視覺解碼器以解釋獲取到的 “瞥視” 信息。我們基于視覺解碼器的輸出來產生本階段的目標檢測結果,這一結果之后被遞歸地送到下一階段的處理過程中,進而產生改善的目標檢測結果。在大數據集實驗的結果證明了我們提出的方法在基于Transformer的目標檢測算法上的高效性,同時也展示出了我們的方法代表了本領域發展的最前沿成果。

Paper: //arxiv.org/abs/2112.04632 Code:

參考文獻 [1] Chen, Zhe, Jing Zhang, and Dacheng Tao. "Recurrent Glimpse-based Decoder for Detection with Transformer." In CVPR, 2022. [2] Carion, Nicolas, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. "End-to-end object detection with transformers." In ECCV, 2020. [3] Meng, Depu, Xiaokang Chen, Zejia Fan, Gang Zeng, Houqiang Li, Yuhui Yuan, Lei Sun, and Jingdong Wang. "Conditional detr for fast training convergence." In ICCV. 2021. [4] Zhu, Xizhou, Weijie Su, Lewei Lu, Bin Li, Xiaogang Wang, and Jifeng Dai. "Deformable DETR: Deformable Transformers for End-to-End Object Detection." In ICLR. 2020.

付費5元查看完整內容

論文摘要:參考視頻對象分割任務(RVOS)涉及在給定視頻的幀中分割文本引用的對象實例。由于這個多模式任務的復雜性,它結合了文本推理、視頻理解、實例分割和跟蹤,現有的方法通常依賴復雜的管道來處理它。在本文中,我們提出了一種簡單的基于Transformer器的RVOS方法。我們的框架稱為多模態跟蹤Transformer(MTTR),將RVOS任務建模為一個序列預測問題。隨著計算機視覺和自然語言處理的最新進展,MTTR基于這樣一種實現,即視頻和文本可以通過單一的多模態Transformer模型有效而優雅地一起處理。MTTR是端到端可訓練的,不需要文本相關的感應偏差組件,不需要額外的掩模改進后處理步驟。因此,與現有方法相比,它大大簡化了RVOS管道。對標準基準的評估表明,MTTR在多個指標上顯著優于以前的藝術。特別是,MTTR在A2D-Sentences和jhmd - sentences數據集上分別顯示了+5.7和+5.0的mAP增益,而每秒處理76幀。此外,我們報告了reference - youtube - vos公共驗證集的強勁結果,這是一個更具挑戰性的RVOS數據集,尚未得到研究人員的注意。
● 論文視頻://user-images.githubusercontent.com/29209964/143956960-73e84321-757f-4272-afc5-385900905093.mp4
● 論文鏈接:
● 論文代碼:
● 作者單位:以色列理工學院

付費5元查看完整內容

本文簡要介紹ICCV2021錄用論文“Joint Visual Semantic Reasoning: Multi-Stage Decoder for Text Recognition”的主要工作。作者提出了一種多階段多尺度注意力解碼器,用于執行聯合視覺語義推理,從而進一步利用語義信息。第一階段使用視覺特征進行預測,隨后的階段使用聯合視覺語義信息進行優化。

由于復雜的背景、不同的字體、不受控制的照明、扭曲和其他人為因素,最先進的文本識別框架仍然難以適應各種場景[1]。當人類面對這些挑戰時,我們可以通過聯合視覺語義推理來很容易地識別它們。因此,“如何開發文本識別的視覺語義推理技能”是一個重點問題。

在野外場景中,文字圖像可能會模糊、扭曲或部分失真,噪聲或有偽影,這使得僅使用視覺特征識別非常困難。在這種情況下,我們人類會首先嘗試僅使用視覺線索來解釋易于識別的字符。然后,聯合處理先前已經識別的字符序列的視覺和語義信息,應用語義推理技巧對最終的文本進行解碼。

付費5元查看完整內容

本文簡要介紹CVPR2021錄用論文“Sequence-to-Sequence Contrastive Learning for Text Recognition”的主要工作。該論文提出了一種針對文本識別,序列到序列對比學習的無監督方法SeqCLR。

無監督的對比學習方法在圖像分類、目標檢測和圖像分割[1,2,3,4]中都取得不錯的成果。但是無監督和半監督的方法在文本識別中還有待進一步探索。 對于已有的無監督方法SimCLR[1],它將整張圖像作為對比學習中的輸入元素,這種整圖、非序列化的無監督方法從后文的實驗中證明對文本識別的效果很差。所以本文提出了一個序列化的無監督方法SeqCLR,它從整張圖片中映射出一定數量的實例來作為對比學習中的輸入元素。 圖片

圖1(a)目前的對比方法比較從整個圖像中計算出的單個表示。(b)SeqCLR的對比方法比較從整個圖像中計算出的多個表示。

本文的方法是第一個提出用于文本識別的自我監督表示學習的工作。通過在特征圖中加窗產生正負樣本來將文本圖片序列化,這種方法在一些手寫文本和場景文本數據集中取得不錯的效果。

付費5元查看完整內容

在這篇論文中,我們提出了一個框架,能夠生成與給定的一次性樣例相同分布的人臉圖像。我們利用一個預先訓練的StyleGAN模型,它已經學會了一般的面部分布。針對這一一次性目標,我們提出了一種快速調整模型權值的迭代優化方案,以使輸出的高階分布適應目標的高階分布。為了生成相同分布的圖像,我們引入了一種風格混合技術,將低水平的統計信息從目標傳輸到模型隨機生成的人臉。這樣,我們就能夠生成無限數量的面孔,這些面孔既繼承了一般人臉的分布,也繼承了一次性人臉的分布。新生成的人臉可以作為其他下游任務的增強訓練數據。這樣的設置很有吸引力,因為它需要在目標域中標記很少的標記,甚至只需要一個示例,而在現實世界中,人臉操作通常是由各種未知的和獨特的分布導致的。結果表明,本文提出的單樣本自適應方法是一種有效的人臉操作檢測方法,并與其他多鏡頭自適應方法進行了定性和定量的比較。

付費5元查看完整內容

本文表明,在大規模的多語言預訓練模型,可以顯著地提高跨語言遷移任務的性能。我們使用超過2TB的過濾CommonCrawl數據,在100種語言上訓練一個基于Transformer的掩碼語言模型。我們的模型被稱為XLM-R,在多種跨語言基準測試中顯著優于多語言BERT (mBERT),包括XNLI的平均正確率+13.8%,MLQA的平均F1分數+12.3%,NER的平均F1分數+2.1%。XLM- r在低資源語言上表現特別好,與以前的XLM模型相比,XNLI在斯瓦希里語上的準確率提高了11.8%,在烏爾都語上的準確率提高了9.2%。我們還對實現這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極遷移和能力稀釋之間的權衡,以及(2)大規模高資源語言和低資源語言的性能。最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性;XLM-Ris在GLUE和XNLI基準上有很強的單語言模型,非常有競爭力。我們將使XLM-R代碼、數據和模型公開可用。

付費5元查看完整內容
北京阿比特科技有限公司