亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

視覺語言任務,如回答關于圖像的問題或生成描述圖像的標題,對計算機來說是一項難以完成的任務。近期的一系列研究已將Vaswani等人在2017年引入的預訓練Transformer架構適應于視覺語言建模。Transformer模型在性能和通用性上都大大優于以前的視覺語言模型。它們通過在大型通用數據集上預訓練模型,并將學習成果轉移到新任務上,而這只需要對架構和參數值進行微小的改變。這種轉移學習已經成為自然語言處理和計算機視覺中的標準建模實踐。視覺語言Transformer模型有望在需要視覺和語言的任務中產生類似的進步。在這篇論文中,我們提供了當前可用的視覺語言Transformer模型研究的廣泛綜述,并對它們的優勢、局限性以及一些仍未解決的問題進行了一些分析。

視覺語言建模是計算機視覺和自然語言處理交匯的領域。視覺語言任務的一個例子是視覺問題回答:給定一張圖片和一個關于圖片的問題,視覺語言模型必須從多個選項中選擇正確的答案。另一個例子,也是更具挑戰性的任務,是圖像標題生成,給定一張圖片,模型必須產生描述該圖片的文本序列。盡管對人類來說這些任務輕而易舉,但歷史上這種性質的任務對計算機來說極具挑戰性。直到最近,用于視覺語言任務的深度學習模型往往在概念上復雜且僅限于狹窄的應用范圍。

在過去的幾年里,一種被稱為視覺語言(VL)變換器的新型模型極大地擴展了視覺語言模型的準確性和多功能性。這些模型基于Vaswani等人在2017年引入的廣受贊譽的變換器架構。視覺語言變換器通過在大型的圖像-文本對數據集上預訓練模型,然后將其轉移到其他任務(通常需要對參數值和架構進行微小的改變)上,從而改進了之前的模式。在很短的時間里,這些模型在文獻中出現的數量令人眼花繚亂。它們在預期的用途、架構、預訓練過程以及用來預訓練的數據上差異很大。在這篇論文中,我們提供了一份文獻中各種視覺語言變換器模型的全面調查。這些模型被設計用于廣泛的視覺語言任務。像CLIP(Radford等人,2021年)和ALIGN(Jia等人,2021年)這樣的模型特別適合于視覺語言對齊任務,如圖像檢索。而像UNITER(Chen等人,2019年)、ViLBERT(Lu等人,2019年)和METER(Dou等人,2022年)這樣的模型擅長于理解任務,例如在引言段落中描述的視覺問題回答(VQA)。有些具有適當架構的變換器,如LEMON(Hu等人,2022年)和GIT(Wang等人,2022a),被設計用來生成文本,如為圖像輸入生成標題。甚至還有一系列專門用于視覺定位任務的視覺語言變換器,其中模型必須將單詞與它們描述的視覺對象匹配。Referring Transformer和mDETR就是兩種可以在圖像輸入上執行對象檢測并將這些對象與文本描述匹配的模型。

出于簡潔考慮,我們將研究限制在使用英語作為主要語言的模型上。這不僅排除了使用其他語言文本的模型,也排除了多語言模型。我們還排除了專門為視頻語言任務設計的模型。但需要注意的是,我們審查的一些模型處理的輸入既包括視頻也包括圖像。而且,有一個多語言模型PaLI(Chen等人,2022年)由于在英語語言視覺語言基準測試中的出色性能而被包含進來。上述令人印象深刻的任務范圍反映出同樣令人印象深刻的嵌入策略、模型架構、預訓練任務和訓練數據集的多樣性。我們將詳細討論這些話題以及這些特征可以如何適應視覺語言領域的各種方式。在此過程中,我們希望能提供對這些模型的各種設計選擇的一些理解,以及當存在足夠數據時,這些選擇對模型性能的相應影響。本文審查的所有模型都列在表1中,表中還提供了每個模型的引用文獻以及關于它們設計的一些基本信息。

本文的其余部分按如下方式組織:在第2部分,我們簡要解釋了構成我們所審查的模型基礎的變換器模型,以及預訓練的變換器如何被適應用于自然語言處理(NLP)和計算機視覺(CV)任務。在第3部分,我們討論了視覺語言模型如何將視覺和語言數據嵌入到其特征空間中,特別關注它們是如何創建視覺特征的。第4部分討論了審查模型的架構以及這些設計選擇是如何影響視覺和語言特征的交互的。這些模型使用的各種預訓練任務和策略以及它們如何影響下游性能在第5部分中進行了總結。第6部分描述了模型的下游能力,第7部分描述了用于預訓練的數據。在最后一部分,我們對討論的模型的優點和局限性進行了簡要分析,并探討了研究的未來方向,并指出了仍存在的未解決問題。

**2 背景:**Transformers 在這一部分,我們將描述構成我們以下討論的視覺語言模型的架構基礎的Transformers風格的深度神經模型。Transformers首次在Vaswani等人(2017年)的開創性論文《Attention Is All You Need》中被引入,該論文討論的是在機器翻譯任務中使用注意力機制的情境。自那時起,Transformers已經取代了遞歸神經網絡(RNN)成為大多數自然語言處理任務的標準模型。自然語言處理的Transformers通過在大型未標注的文本集上預訓練網絡,然后將預訓練的網絡通過微小的架構改變和最小的參數更新轉移到其他任務,從而實現了顯著的結果。像RoBERTa(Liu等人,2019年)和GPT-3(Brown等人,2020年)這樣的預訓練Transformers模型,現在幾乎在每個類別的自然語言處理任務中都是最先進的。卷積神經網絡(CNN)在本文撰寫時仍被廣泛用于計算機視覺任務。然而,近期的研究表明,Transformers架構可以用相對較少的修改適應計算機視覺任務(Dosovitskiy等人,2020年;Touvron等人,2021年)。當使用足夠大的數據集預訓練時,視覺Transformers可以與為計算機視覺設計的最先進的CNNs競爭。鑒于它們在兩個領域都能達到或接近最先進的水平,Transformers自然成為預訓練視覺語言模型的基礎。在我們討論如何調整Transformers以適應視覺語言任務的設計選擇之前,我們將簡要概述Transformers模型和驅動其顯著結果的注意力機制。熟悉Transformers和它們在自然語言處理和計算機視覺應用的工作原理的讀者可以直接跳到下一部分。

**3 嵌入策略 **在這一部分,我們討論視覺語言Transformer模型如何將其文本和視覺嵌入編碼到模型的特征空間中。形式上,文本和視覺輸入必須被編碼成一系列的文本標記 {t1, ....tT }和一系列的視覺特征 {v1, ..., vV },其中每個序列元素都是一個數值向量。幾乎所有我們為本文審查的模型都采用相同的文本表示嵌入策略,這一策略將在下面的子部分中詳細描述。然而,表示圖像的策略有很大的差異,這也是預訓練視覺語言模型的關鍵差異之一,我們將在以下部分詳細討論這個主題。

**4 模型架構 **無論采用何種嵌入策略,視覺語言模型的模型架構必須允許與文本和視覺模式相關的特征以某種方式交互。在這一部分,我們將描述預訓練視覺語言Transformer模型用于聯合表示視覺和語言的不同模型設計。從最廣義的角度來看,預訓練視覺語言模型可以根據這種交互是通過淺層交互(如點積)實現的,還是在深度學習模型本身中發生的來進行分類。在使用深度交互的模型中,架構采用單塔編碼器、雙塔編碼器或編碼器-解碼器設計。按照 Bao 等人(2022)的說法,我們將使用淺層交互的模型稱為雙編碼器。這些架構將在下面的子部分中詳細描述,并提供可用的視覺語言模型的顯著示例。

**5 預訓練任務 **本節專門討論各種視覺語言Transformer使用的預訓練任務。預訓練是這些模型成功的關鍵元素,我們將花費大量的空間來描述這些方法。幾乎所有的融合和組合編碼器模型都使用了掩蔽語言模型和圖像文本匹配,這兩種都是BERT自然語言處理模型(Devlin等人,2018)中使用的預訓練目標的擴展。在下文中,我們將詳細描述這些任務,以及相關文獻中找到的幾個額外目標。

**6 下游能力 **原則上,我們討論的大多數模型都可以通過對模型架構進行適當的調整和微調來適應幾乎任何給定的視覺語言任務。然而,許多模型明確地為某些視覺語言能力而設計和測試。例如,雙編碼器非常適合對齊任務,如文本到圖像的檢索。地面變壓器,例如mDETR或Referring Transformer,接受了大量的視覺接地任務的訓練和評估。在本節中,我們將簡要介紹模型創造者在預訓練、零鏡頭評估或微調其模型時涵蓋的視覺語言任務的范圍。在此過程中,我們將有機會參考每種類型任務的一些主要基準。

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

自然語言理解是機器對人類語言進行語義解碼的任務。NLU允許用戶使用自然句子與機器進行交互,是任何自然語言處理(NLP)系統的基礎組件。盡管機器學習方法(尤其是深度學習)在NLU任務上取得了顯著的成就,但它們仍然嚴重依賴于大量的訓練數據來確保良好的性能,不能很好地泛化到訓練數據很少的語言和領域。對于互聯網上具有大量文本數據的高資源語言(如英語、中文),獲取或收集海量數據樣本相對容易。然而,許多其他語言的在線足跡很小(例如,互聯網上不到0.1%的數據資源是泰米爾語或烏爾都語)。這使得收集這些低資源語言的數據集變得更加困難。同樣,低資源領域(如罕見疾病)的數據集也比高資源領域(如新聞)的數據集更具有挑戰性,因為這些領域的數據資源和領域專家很少。為了讓機器更好地理解低資源語言和領域中的自然句子,有必要克服數據稀缺的挑戰,因為只有很少甚至沒有訓練樣本可用

跨語言和跨領域遷移學習方法已經被提出,從高資源語言和領域的大型訓練樣本中學習任務知識,并將其遷移到低資源語言和領域。然而,以往的方法未能有效地解決開發跨語言和跨領域系統的兩個主要挑戰,即:1)難以從低資源的目標語言(域)中學習良好的表示;2)由于語言(領域)之間的差異,任務知識很難從高資源源語言(領域)轉移到低資源目標語言(領域)。如何在深度學習框架下應對這些挑戰,需要進行新的研究。

在這篇論文中,我們專注于在深度學習框架中解決上述挑戰。首先,我們提出進一步細化跨語言的任務相關關鍵詞的表示。我們發現,通過只關注關鍵詞,低資源語言的表示可以很容易地得到很大的改進。其次,我們提出了一個用于跨語言自適應的Transformer ,發現建模部分語序而不是整個語序可以提高模型對語言語序差異和任務知識向低資源語言遷移的魯棒性。第三,我們提出在訓練前利用不同層次的領域相關語料庫和額外的數據掩蔽來進行跨領域適應,并發現更具挑戰性的訓練前可以更好地解決任務知識轉移中的領域差異問題。最后,我們引入了一個從粗到細的框架Coach,以及一個跨語言和跨領域的解析框架X2Parser。Coach將表示學習過程分解為粗粒度和細粒度特征學習,X2Parser將分層任務結構簡化為扁平化。我們觀察到,簡化任務結構使表示學習對于低資源語言和領域更有效。

總之,我們通過改進低資源表示學習和增強任務知識遷移中拓撲距離較遠的語言和領域的模型魯棒性,解決了自然語言學習中的數據稀缺問題。實驗表明,我們的模型能夠有效地適應低資源的目標語言和領域,并顯著優于之前的最先進的模型。

付費5元查看完整內容

來自KAIST的關于《自監督學習掩碼自編碼器》綜述,通過討論其歷史發展、最近的進展以及對各種應用的影響,重點討論了它在視覺上的應用

掩碼自編碼器是可擴展的視覺學習器,正如MAE[1],這表明視覺中的自監督學習(SSL)可能會經歷與NLP類似的發展軌跡。具體來說,帶有掩碼預測的生成前置任務(例如BERT)已經成為NLP中事實上的標準SSL實踐。相比之下,視覺生成方法的早期嘗試已經被它們的判別性同行所掩蓋(如對比學習); 然而,掩模圖像建模的成功復興了掩模自編碼器(過去常被稱為去噪自編碼器)。作為彌合與BERT在NLP中的差距的里程碑,掩碼自動編碼器在視覺和視覺上引起了SSL前所未有的關注。這項工作對掩碼自編碼器進行了全面的綜述,以洞察SSL的一個有前途的方向。作為第一個回顧帶掩碼自編碼器的SSL的作者,本文通過討論其歷史發展、最近的進展以及對各種應用的影響,重點討論了它在視覺上的應用

//www.zhuanzhi.ai/paper/503c1465e6e64706b872ff3061005911

在過去的十年里,深度學習[2]徹底改變了人工智能。早期的開發集中于可擴展的架構設計,如增加模型深度,從AlexNet[3]到VGG[4]和ResNet[5]。近年來,人們的注意力逐漸從設計更好的模型轉移到解決深度學習中的數據饑渴問題。例如,ImageNet[6]擁有超過100萬張帶標簽的圖像,它已經成為視覺模型的典型基準數據集,而視覺transformer(ViT)[7]據稱需要的帶標簽的圖像要多出數百倍。要對一個相對較小的標記數據集進行令人滿意的性能,一種常見的方法是在另一個較大的數據集上預訓練模型,這被廣泛稱為遷移學習。自監督學習(SSL)[8],[9]在視覺預訓練中表現優于監督學習,引起了廣泛關注

隨著2018年對比SSL的出現,聯合嵌入方法已成為視覺訓練前框架的主導; 然而,這一現狀最近受到了一種稱為掩碼圖像建模(MIM)[10]的生成方法的成功的挑戰。BEiT[10]采用先屏蔽后預測的策略,利用現成的標記賦予器生成的目標視覺標記來訓練模型。通過離散變分自編碼器(dVAE)[11]對標記化器進行預訓練,因此BEiT可以看作是自編碼器[12]去噪的兩階段訓練。此外,在MAE[1]中提出了一種視覺中的端到端掩碼自編碼器,引起了前所未有的關注。

顧名思義,掩碼自動編碼器是一種帶有掩碼預測的自動編碼器,即從未掩碼輸入內容預測掩碼輸入的屬性。值得一提的是,掩碼自編碼器在無監督視覺預訓練中并不是什么新東西。追溯到2008年,早期工作[12]預測未掩碼的掩碼像素,但被稱為去噪自編碼器[12],[13]。2016年再次進行了類似的調查,任務是圖像修復[14]。它在最近的MAE[1]中復興的成功,超越了聯合嵌入方法,啟發了許多工作來理解它在視覺上的成功,并將其應用于各種應用,如視頻、點云和圖形。

掩碼自編碼器在視覺預訓練中非常流行的原因是一個類似的生成式SSL框架,稱為掩碼語言建模(如BERT[15]),在NLP中得到了廣泛的應用。換句話說,視覺中的掩碼自動編碼器的成功為視覺中的SSL通過帶有掩碼預測的生成前置任務“可能現在正走上與NLP類似的軌跡”[1]鋪平了道路。此外,由于NLP和計算機視覺是現代人工智能的兩個主要分支,許多研究人員認為,掩碼自編碼器可能是SSL的未來。

為此,這項工作對SSL中的掩碼自動編碼器進行了全面的綜述。這項綜述涵蓋了它在各種數據類型中的應用; 然而,它專注于理解其復興成功的愿景。請注意,2018/2019年,基于自編碼器的掩碼預測開始成為語言理解的事實上的標準實踐[15]; 因此,在21世紀20年代討論這個問題就不那么重要了。此外,視覺掩碼自編碼器的成功表明,視覺SSL可以走上與語言相同的道路,這在一定程度上改變了視覺SSL,并啟發了對廣泛應用的掩碼自編碼器的研究。本研究以視覺中的蒙版自編碼器為重點,主要包括三個部分。(1) 第三節總結了掩碼語言建模的歷史發展及其與掩碼語言建模的關系; (2) 第四節討論了視覺中的掩碼建模原理,以及從不同角度對其成功的理解。(3)第5節總結了其在自然圖像之外的各種應用的預訓練的影響。為了便于討論,我們加入了術語部分(即第2節)來討論本調研中的基本術語。

視覺自監督學習

圖1顯示了無監督視覺預訓練(包括NLP的GPT和BERT)發展的總體時間表。有趣的是,無監督視覺預訓練始于2008年的生成SSL。它在2016年和2017年的復興嘗試隨后被區分性SSL所掩蓋,特別是在聯合嵌入方法出現之后。然而,在NLP的啟發下,帶掩碼預測的生成式SSL再次出現。

付費5元查看完整內容

大型的、預訓練的基于Transformer的語言模型,如BERT,已經極大地改變了自然語言處理(NLP)領域。我們對最近的研究進行了調研,這些研究使用了大型語言模型來解決NLP任務,通過預訓練、微調、提示或文本生成方法。我們還提出了使用預訓練語言模型生成數據的方法,用于訓練增強或其他目的。最后,我們討論了局限性,并提出了未來研究的方向。

引言

近年來,大型預訓練的基于Transformer的語言模型(PLMs),如BERT (Devlin et al., 2019)和GPT (Radford et al., 2018)系列模型席卷了自然語言處理(NLP),在許多任務中實現了最先進的性能。

這些大型PLM推動了NLP的范式轉變。以分類任務p(y|x)(將文本輸入x分類為標簽y)為例:傳統統計NLP方法通常設計手工特征來表示x,然后應用機器學習模型(如SVM (Cortes and Vapnik, 1995)、邏輯回歸)來學習分類函數。深度學習模型通過深度神經網絡(LeCun et al., 2015)。注意,每個新的NLP任務都需要重新學習潛在特征表示,而且在許多情況下,訓練數據的大小限制了潛在特征表示的質量。考慮到語言的細微差別對所有NLP任務來說都是共同的,我們可以假設我們可以從一些通用任務中學習一個通用的潛在特征表示,然后在所有NLP任務中共享它。語言建模需要學習如何在給定前一個單詞的情況下預測下一個單詞,這是一項具有大量自然出現的文本的通用任務,可以預訓練這樣一個模型(因此得名預訓練語言模型)。事實上,最新的、正在進行的范式轉換從引入PLMs開始: 對于大量的NLP任務,研究人員現在來利用現有的PLMs通過對感興趣的任務進行微調,提示PLMs執行期望的任務,或者將任務重新構造為文本生成問題,并應用PLMs來解決相應的問題。這三種基于PLM的范式的進步不斷地建立了新的最先進的性能。

本文調研了最近利用PLM進行NLP的工作。我們將這些工作組織成以下三種范式:

  • 先進行預訓練,然后進行微調(§2): 先對大量未標記語料庫進行通用預訓練,然后對感興趣的任務進行少量的任務特定微調。

  • 基于提示的學習(§3):提示一個PLM,這樣解決NLP任務就會減少到類似于PLM的訓練前任務(如預測一個遺漏的單詞),或一個更簡單的代理任務(如文本包含)。提示通常可以更有效地利用PLM中編碼的知識,從而產生“少樣本”的方法。

  • NLP作為文本生成(§4): 將NLP任務重新定義為文本生成,以充分利用生成語言模型(如GPT-2 (Radford et al., 2019)和T5 (Raffel et al., 2020)中編碼的知識。

  • 生成式PLMs也可以用于文本生成任務。我們向讀者推薦關于文本生成的優秀調研,如Li et al. (2021b) 和Yu et al. (2021b)。除非另有說明,本文主要關注非生成性任務(如分類、序列標注和結構預測),這些任務仍然涵蓋廣泛的NLP任務,包括文本的語法或語義解析、信息抽取(IE)、問答(QA)、文本蘊涵(TE)、情感分析、等等。除了這三種范式之外,還有另一種互補的方法:間接使用上述任何一種PLM范式來改善目標NLP任務的結果:

  • 數據生成(§5): 運行PLM自動生成NLP任務的數據。生成的數據可以是銀色標記的數據,通常生成的PLM是針對任務進行微調的,或者是一些輔助數據,如反例、澄清、上下文或其他。在第一種情況下,銀色標記數據可以添加到現有的標記數據中。在第二種情況下,輔助數據以某種方式支持目標任務。

論文組織如下: 第2節提供了PLM的背景,并描述了第一種范式,即預訓練然后微調。第三節討論第二種范式,即基于提示的學習。第4節總結了第三種范式,即作為文本生成的NLP。在第5節中,我們將描述通過PLM為廣泛的NLP任務生成數據的方法。我們將在第6節討論局限性并提供未來研究的方向,并在第7節進行總結。

范式1: 先訓練,然后微調

傳統統計NLP的工作重點是在標記數據集上訓練特定任務的模型,而這種模式轉變為在一個共享的、“基本”的預訓練任務上訓練一個大型模型,然后在第二步中將其調整(“微調”)到各種任務。預訓練任務幾乎總是一種語言建模任務,它可以利用大量的未標記數據來學習有利于一系列NLP任務的表示(Rogers et al., 2020)。在本節中,我們首先提供關于預訓練的大型語言模型(PLMs)的入門知識,然后描述使用凍結或微調PLM進行NLP任務的方法。

范式2: 基于提示的學習

我們使用提示指的是在輸入或輸出中添加自然語言文本(通常是短語)的做法,以鼓勵預訓練的模型執行特定任務(Yuan et al., 2021)。使用提示符有幾個優點。提示,特別是上下文學習(例如Brown et al., 2020),可能不需要更新PLM的參數,與微調方法相比,或在2.4.4中描述的基礎上,減少了計算需求。提示還能促使新任務的制定與預訓練的目標更好地結合,從而更好地利用預訓練獲得的知識。更緊密的匹配還支持少樣本方法(Liu et al., 2021b),特別是對于具有小訓練數據集的任務;一個好的提示可以值幾百個標簽數據點(Le Scao and Rush, 2021)。最后,提示允許以一種不受監督的方式探索PLM,以評估PLM對特定任務所獲得的知識(如Petroni et al., 2019)。

下面我們討論三種基于提示的學習方法:從指令和演示中學習、基于模板的學習和從代理任務中學習。圖3顯示了這三種方法的說明。

范式3 NLP即文本生成

基于生成式Transformer的PLMs10(如GPT、BART和T5)的成功,最近激發了人們對利用生成式PLM解決各種非生成式NLP任務的興趣。這些任務包括但不限于傳統的判別任務,如分類和結構預測。例如,圖4說明了Raffel等人(2020)所描述的這種“文本到文本”方法。與傳統的NLP任務判別模型不同,這些任務被重新表述為文本生成問題,從而可以直接用生成式PLM解決。生成的輸出序列通常包括給定任務所需的標簽或其他輔助信息,從而能夠準確地重構預期的類標簽(即避免映射中的歧義),并促進生成/解碼過程(即為預測提供足夠的上下文)。

總結

在這篇文章中,我們介紹了三種使用預訓練語言模型進行自然語言處理的趨勢。我們對每一種方法都進行了深入的描述,并對其應用前景進行了總結。此外,我們還描述了使用預先訓練過的語言模型來自動生成用于提高NLP任務性能的數據。我們希望這一調研將為讀者提供關鍵的基本概念和對范式轉變的全面看法。

付費5元查看完整內容

弱監督目標檢測(WSOD)和定位(WSOL),即使用圖像級標簽檢測圖像中包含邊界框的多個或單個實例,是CV領域中長期存在且具有挑戰性的任務。隨著深度神經網絡在目標檢測中的成功,WSOD和WSOL都受到了前所未有的關注。在深度學習時代,已有數百種WSOD和WSOL方法和大量技術被提出。為此,本文將WSOL視為WSOD的一個子任務,并對近年來WSOD的成就進行了全面的綜述。具體來說,我們首先描述了WSOD的制定和設置,包括產生的背景、面臨的挑戰、基本框架。同時,總結和分析了提高檢測性能的各種先進技術和訓練技巧。然后,介紹了目前廣泛使用的WSOD數據集和評價指標。最后,討論了WSOD的未來發展方向。我們相信這些總結可以為今后的WSOD和WSOL研究鋪平道路。

引言

目標檢測[2]是一項基礎的、具有挑戰性的任務,旨在定位和分類圖像中的對象實例。對象定位是使用邊界框(一個與軸對齊的矩形緊緊包圍對象)在圖像中搜索盡可能多的對象的空間位置和范圍[3],[4]。對象分類是評估圖像中給定一組對象類中是否存在對象。目標檢測作為計算機視覺最基本的任務之一,是許多高級應用不可或缺的技術,如機器人視覺[5]、人臉識別[6]、圖像檢索[7]、[8]、增強現實[9]、自動駕駛[10]、變化檢測[11]等。隨著卷積神經網絡在視覺識別領域[12]-[14]的發展,以及大規模數據集[4]、[15]的發布,當今最先進的目標檢測器在全監督設置下可以達到近乎完美的性能,即全監督目標檢測(FSOD)[16] -[21]。然而,這些完全監督的對象檢測方法存在兩個不可避免的局限性:1)大量實例注釋難以獲取,而且需要大量的人工。2)在標注這些數據時,可能會無意中引入標注噪聲。

為了避免上述問題,社區開始在弱監督設置下解決對象檢測問題,即弱監督對象檢測(WSOD)。與完全監督的設置不同(參見圖1 (a)), WSOD的目的是檢測只有圖像級標簽的實例(例如,實例在整個圖像中的類別)。同時,WSOD也可以從網絡上的大規模數據集中獲益,如Facebook和Twitter。另一個類似的任務是弱監督對象定位(WSOL),它只檢測圖像中的一個實例。由于WSOD和WSOL分別檢測多個實例和單個實例,所以我們認為WSOL是WSOD的一個子任務。在接下來的文章中,我們使用WSOD來表示WSOD和WSOL。

在本文中,我們回顧了所有典型的WSOD方法,并對WSOD的最新進展進行了全面的綜述(參見圖2)。在第二部分,我們介紹了背景、主要挑戰和基本框架。在第三部分中,我們根據WSOD的發展時間表,詳細介紹了幾種現代經典方法。然后,對主要挑戰的所有先進技術和技巧進行了深入分析。在第8節中,我們將演示WSOD的所有流行基準和標準評估指標。在第9節中,我們簡要地討論了未來的方向。

在本文中,我們總結了大量的深度學習 WSOD方法,并給出了大量的解決方案來解決上述挑戰。綜上所述,本文的主要內容如下:

  • 分析了WSOD的背景、主要挑戰和基本框架。此外,我們還詳細介紹了幾種主流方法。
  • 對于主要挑戰,我們分析了2016年以來幾乎所有的WSOD方法,并總結了許多技巧和訓練技巧(參見表V)。
  • 在WSOD任務中引入了當前流行的數據集和重要的評估指標。
  • 總結并討論了關于模型和應用方向未來進展的有價值的見解和指南。
付費5元查看完整內容

在大規模無標簽文本上預訓練語言模型,然后在下游任務微調的學習模式已經在自然語言處理(NLP)領域取得了廣泛的應用。盡管當前的預訓練語言模型在大部分NLP任務上取得了顯著的進展,然而,研究人員發現當預訓練任務的目標更接近于下游任務的目標時,模型在下游任務上能取得更大幅度的性能提升,例如針對文本摘要設計的Gap Sentence Prediciton預訓練任務[1]、面向機器閱讀理解設計的Span Selection預訓練任務[2]、以及為情感分析設計的Label-aware MLM預訓練任務[3],都取得了相較于原始預訓練語言模型更好的性能。近年來,在信息檢索(IR)中,預訓練語言模型在文檔排序任務上取得了一定的效果,然而,如何設計更符合信息檢索需求的預訓練目標,是一個值得探索的新領域。

在這項工作中,我們提出了一個新穎的針對信息檢索的預訓練任務,叫做“代表詞預測”任務(Representative Words Prediction)。這個任務是受到了IR中經典統計語言模型——查詢似然模型的啟發,在查詢似然模型的基本假設中,查詢被認為是由“理想”文檔“生成”出來的具有代表性的文本,因此通過貝葉斯定理推導,查詢的相關性強度可由其代表性或者說是其似然值表征。鑒于此,我們就構建了這樣一個新的代表詞預測任務(簡稱為ROP任務),具體來說,對于一個給定的文檔,我們根據文檔語言模型(狄利克雷平滑的多項式語言模型)采樣出該文檔的代表性詞集,然后預訓練語言模型使其能夠有效地區分出其中哪些詞項更具有代表性。為了同時建模查詢和文檔內容理解以及二者關系的預測,我們結合ROP與MLM一起在無標簽的文檔語料上進行預訓練,我們把通過這種預訓練方式得到的語言模型命名為PROP。

//www.zhuanzhi.ai/paper/57435651043bb840be881c8e7a71c70d

付費5元查看完整內容

盡管在深度學習方面取得了最近的進展,但大多數方法仍然采用類似“筒倉”的解決方案,專注于孤立地學習每個任務:為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實問題需要多模態方法,因此需要多任務模型。多任務學習(MTL)旨在利用跨任務的有用信息來提高模型的泛化能力。在這個綜述中,我們提供了一個最先進的在深度神經網絡的背景下MTL技術的全面觀點。我們的貢獻涉及以下方面。首先,我們從網絡架構的角度來考慮MTL。我們包括了一個廣泛的概述,并討論了最近流行的MTL模型的優缺點。其次,我們研究了解決多任務聯合學習的各種優化方法。我們總結了這些工作的定性要素,并探討了它們的共性和差異。最后,我們在各種數據集上提供了廣泛的實驗評估,以檢查不同方法的優缺點,包括基于架構和優化的策略。

//arxiv.org/abs/2004.13379

概述

在過去的十年中,神經網絡在許多任務中都顯示了令人印象深刻的結果,例如語義分割[1],實例分割[2]和單目深度估計[3]。傳統上,這些任務是單獨處理的,即為每個任務訓練一個單獨的神經網絡。然而,許多現實世界的問題本質上是多模態的。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,定位它們,了解它們是什么,估計它們的距離和軌跡,等等,以便在它的周圍安全導航。同樣的,一個智能廣告系統應該能夠在它的視點上檢測到人們的存在,了解他們的性別和年齡,分析他們的外貌,跟蹤他們正在看的地方,等等,從而提供個性化的內容。與此同時,人類非常擅長同時解決許多任務。生物數據處理似乎也遵循多任務處理策略: 不同的處理過程似乎共享大腦中相同的早期處理層,而不是將任務分開單獨處理。上述觀察結果促使研究人員開發了多任務學習(MTL)模型,即給定一個輸入圖像可以推斷出所有所需的任務輸出。

在深度學習時代之前,MTL工作試圖對任務之間的共同信息進行建模,希望通過聯合任務學習獲得更好的泛化性能。為了實現這一點,他們在任務參數空間上放置了假設,例如:任務參數應該彼此靠近w.r.t.一些距離度量[5],[6],[16]0,[16]2,共享一個共同的概率先驗[16]1,[10],[11],[12],[13],或駐留在一個低維子空間[14],[15],[16]或流形[17]。當所有任務都是相關的[5]、[14]、[18]、[19]時,這些假設可以很好地工作,但是如果在不相關的任務之間發生信息共享,則可能導致性能下降。后者是MTL中已知的問題,稱為負轉移。為了緩解這一問題,其中一些研究人員選擇根據先前對任務的相似性或相關性的認識將任務分組。

在深度學習時代,MTL轉化為能夠從多任務監控信號中學習共享表示的網絡設計。與單任務情況下,每個單獨的任務由自己的網絡單獨解決相比,這種多任務網絡理論上給表帶來了幾個優點。首先,由于它們固有的層共享,結果內存占用大大減少。其次,由于他們明確地避免重復計算共享層中的特征,每次都要計算一次,因此他們的推理速度有所提高。最重要的是,如果相關的任務能夠分享互補的信息,或者互相調節,它們就有可能提高績效。對于前者,文獻已經為某些對任務提供了證據,如檢測和分類[20],[21],檢測和分割[2],[22],分割和深度估計[23],[24],而對于后者,最近的努力指向了那個方向[25]。這些工作導致了第一個深度多任務網絡的發展,歷史上分為軟或硬參數共享技術。

在本文中,我們回顧了在深度神經網絡范圍內的MTL的最新方法。首先,我們對MTL基于架構和優化的策略進行了廣泛的概述。對于每種方法,我們描述了其關鍵方面,討論了與相關工作的共性和差異,并提出了可能的優點或缺點。最后,我們對所描述的方法進行了廣泛的實驗分析,得出了幾個關鍵的發現。我們在下面總結了我們的一些結論,并提出了未來工作的一些可能性。

  • 首先,MTL的性能在很大程度上取決于任務字典。它的大小、任務類型、標簽源等等,都影響最終的結果。因此,最好根據每個案例選擇合適的架構和優化策略。盡管我們提供了具體的觀察結果,說明為什么某些方法在特定設置中工作得更好,但是MTL通常可以從更深的理論理解中獲益,從而在每種情況下最大化預期收益。例如,這些收益似乎取決于多種因素,例如數據量、任務關系、噪音等。未來的工作應該嘗試分離和分析這些不同因素的影響。

  • 其次,當使用單一MTL模型處理多個密集預測任務時,基于解碼器的架構目前在多任務性能方面提供了更多優勢,與基于編碼器的架構相比,其計算開銷有限。如前所述,這是由于基于解碼器的體系結構促進了常見的跨任務模式的對齊,這自然很適合密集的預測任務。基于編碼器的架構在密集預測任務設置中仍然具有一定的優勢,但其固有的層共享似乎更適合處理多個分類任務。

  • 最后,我們分析了多種任務均衡策略,并分離出對任務均衡學習最有效的要素,如降低噪聲任務的權重、平衡任務梯度等。然而,許多優化方面仍然缺乏了解。與最近的研究相反,我們的分析表明避免任務之間的梯度競爭會損害性能。此外,我們的研究顯示,一些任務平衡策略仍然存在不足,突出了現有方法之間的一些差異。我們希望這項工作能促進對這一問題的進一步研究。

付費5元查看完整內容

深度神經網絡(DNNs)在許多計算機視覺任務中是成功的。然而,最精確的DNN需要數以百萬計的參數和操作,這使得它們需要大量的能量、計算和內存。這就阻礙了大型DNN在計算資源有限的低功耗設備中的部署。最近的研究改進了DNN模型,在不顯著降低精度的前提下,降低了內存需求、能耗和操作次數。本文綜述了低功耗深度學習和計算機視覺在推理方面的研究進展,討論了壓縮和加速DNN模型的方法。這些技術可以分為四大類:(1)參數量化和剪枝;(2)壓縮卷積濾波器和矩陣分解;(3)網絡結構搜索;(4)知識提取。我們分析了每一類技術的準確性、優點、缺點和潛在的問題解決方案。我們還討論了新的評價指標,作為今后研究的指導。

付費5元查看完整內容
北京阿比特科技有限公司