摘要
視覺和語言在生成智能中起著至關重要的作用。因此,在過去的幾年中,大量的研究致力于圖像描述,即用句法和語義上有意義的句子描述圖像的任務。從2015年開始,該任務通常使用由可視化編碼步驟和用于文本生成的語言模型組成的流程來解決。在這些年里,這兩個組件通過開發對象區域、屬性和關系以及引入多模態連接、充分關注的方法和類似BERT的早期融合策略得到了相當大的發展。然而,盡管已經取得了令人印象深刻的成果,但關于圖像描述的研究還沒有得出一個結論性的答案。這項工作旨在提供圖像描述方法的全面概述和分類,從視覺編碼和文本生成到訓練策略,使用的數據集和評估指標。在這方面,我們定量比較了許多相關的最先進的方法,以確定在圖像描述架構和訓練策略中最具影響力的技術創新。此外,本文還分析和討論了該問題的許多變體及其面臨的挑戰。這項工作的最終目標是作為一個工具來理解現有的最先進的技術,并強調計算機視覺和自然語言處理可以找到最佳協同的未來研究方向。
引言
圖像描述(Image Captioning)生成有意義的、語法正確的句子。神經科學研究在最近幾年才闡明了人類視覺和語言生成之間的聯系。類似地,在人工智能中,能夠處理圖像和生成語言的架構設計是一個非常新問題。這些研究工作的目標是找到最有效的管道來處理輸入圖像,表示其內容,并通過在保持語言流暢的同時產生視覺和文本元素之間的聯系,將其轉換為一系列單詞。在其標準配置中,圖像描述是一個圖像到序列的問題,其輸入是像素。在視覺編碼步驟中,這些特征被編碼為一個或多個特征向量,為第二個生成步驟(稱為語言模型)準備輸入。這將產生一個根據給定詞匯表解碼的單詞或子單詞序列。在這幾年里,研究人員對模型進行了很大的改進:從第一個基于深度學習的模型,采用循環神經網絡(RNNs),并通過卷積神經網絡(CNN)提取全局圖像描述子,方法已經被注意力方法和強化學習豐富,直到突破變體和自注意力到單流BERT-like方法。與此同時,計算機視覺和自然語言處理(NLP)社區已經解決了建立適當的評估協議和評估指標的挑戰,以將結果與人工生成的標準進行比較。此外,還研究了該任務的幾個特定領域的場景和變體。然而,取得的成果還遠未確定最終的解決方案。在本文中,我們追溯了過去幾年發展起來的模型的整體概述。
根據描述模型固有的雙重性,我們提出開發了視覺編碼和語言建模方法的分類,重點關注它們的關鍵方面和限制。我們還關注了過去幾年文獻中遵循的訓練策略,從交叉熵損失到強化學習,以及預訓練范式獲得的最新進展。此外,我們回顧了用于探索圖像描述的主要數據集,從領域通用基準到收集來調查問題的特定方面的領域特定數據集,并分析用于性能評估的標準和非標準指標,這些指標捕獲產生描述質量的不同方面。這項工作的另一個貢獻是對主要圖像描述方法進行定量比較,其中考慮了標準和非標準指標,并討論了它們之間的關系,闡明了最重要模型的性能、差異和特征。最后,我們概述了該問題的許多變體,并討論了一些開放的挑戰和未來的方向。
在人類中,注意力是所有感知和認知操作的核心屬性。考慮到我們處理競爭性信息來源的能力有限,注意力機制選擇、調整和關注與行為最相關的信息。
幾十年來,哲學、心理學、神經科學和計算機科學都在研究注意力的概念和功能。在過去的六年中,這一特性在深度神經網絡中得到了廣泛的研究。目前,深度學習的研究進展主要體現在幾個應用領域的神經注意力模型上。
本研究對神經注意力模型的發展進行了全面的概述和分析。我們系統地回顧了該領域的數百個架構,識別并討論了那些注意力顯示出重大影響的架構。我們亦制訂了一套自動化方法體系,并將其公諸于眾,以促進這方面的研究工作。通過批判性地分析650部文獻,我們描述了注意力在卷積、循環網絡和生成模型中的主要用途,識別了使用和應用的共同子組。
此外,我們還描述了注意力在不同應用領域的影響及其對神經網絡可解釋性的影響。最后,我們列出了進一步研究的可能趨勢和機會,希望這篇綜述能夠對該領域的主要注意力模型提供一個簡明的概述,并指導研究者開發未來的方法,以推動進一步的改進。
摘要: 圖像描述生成結合了計算機視覺和自然語言處理2個研究領域,不僅要求完備的圖像語義理解,還要求復雜的自然語言表達,是進一步研究符合人類感知的視覺智能的關鍵任務.對圖像描述生成的研究進展做了回顧.首先,歸納分析了當前基于深度學習的圖像描述生成方法涉及的5個關鍵技術,包括整體架構、學習策略、特征映射、語言模型和注意機制.然后,按照發展進程將現有的圖像描述生成方法分為4大類,即基于模板的方法、基于檢索的方法、基于編碼器-解碼器架構的方法和基于復合架構的方法,并闡述了各類方法的基本概念、代表性方法和研究現狀,重點討論了基于編碼器-解碼器架構的各種方法及其創新思路,如多模態空間、視覺空間、語義空間、注意機制、模型優化等.接著,從實驗的角度給出圖像描述生成的常用數據集和評估措施,并在2個基準數據集上比較了一些典型方法的性能.最后,以提升圖像描述的準確性、完整性、新穎性、多樣性為依據,展示了圖像描述生成的未來發展趨勢.
隨著互聯網與信息技術的發展,多媒體數據呈現 爆炸性增長的趨勢,從各種信息源(如網絡、新聞、 相機等)上可獲得的圖像數據越來越多.由于圖像數 據具有海量特性和非結構化特性,如何快速有效的組 織、存儲和檢索圖像,成為重要的研究課題,而完備 的圖像語義理解則是其中的關鍵問題[1].盡管從信息 源上獲取的大多數圖像并沒有對應的語義描述,但人 類仍然能夠在很大程度上理解它們.也就是說,人類 很容易就能完成涉及復雜視覺識別以及場景理解的 各種任務、涉及自然語言交流的各種任務以及 2 種模 態之間的轉換任務.例如,只需快速瀏覽圖像就足以 讓人指出并描述關于視覺場景的大量細節,而這對于 機器來說目前仍然是難以完成的任務.為了實現圖像 數據的結構化和半結構化,從語義上更完備地理解圖 像數據,從而進一步研究更符合人類感知的視覺智 能,迫切需要機器能夠為給定圖像自動地生成自然語 言描述.
計算機視覺研究如何理解圖像和視頻,而自然語 言處理研究如何分析和生成文本.盡管這 2 個領域的 研究都采用類似的人工智能和機器學習方法,但在很 長一段時間里它們都是各自發展而很少交叉.近幾 年,結合視覺和語言的跨模態問題受到了廣泛關 注.事實上,許多日常生活中的任務都具有這種跨模 態的特性.例如,看報紙時解釋圖片的上下文信息, 聽報告時為理解講話而搭配圖表,網頁上提供大量結 合視覺信息和自然語言的數據(帶標簽的照片、新聞 里的圖片視頻、具有多模態性質的社交媒體)等.為 完成結合視覺和語言的任務并充分利用多模態數據, 計算機視覺和自然語言處理 2 個領域的聯系越來越 緊密. 在這個新的視覺和語言交叉的研究領域中,圖像 描述生成是個重要的任務,該任務包括獲取圖像信 息、分析其視覺內容、生成文本描述以說明圖像中的 顯著物體和行為等步驟[2-5].圖 1 給出了幾個根據圖 像內容生成描述語句的實例.
近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。
//compstat-lmu.github.io/seminar_nlp_ss20/
在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。
這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。
為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。
遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。
為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。
在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。
本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。
圖像到圖像轉換(I2I)的目的是在保留內容表示的同時將圖像從源域傳輸到目標域。I2I由于在圖像合成、分割、風格轉換、復原、姿態估計等計算機視覺和圖像處理問題上的廣泛應用,近年來受到越來越多的關注,并取得了巨大的進展。在本文中,我們對近年來發展起來的I2I工作進行了綜述。我們將分析現有I2I工作的關鍵技術,并闡明社區取得的主要進展。此外,我們將闡述I2I對研究和行業社區的影響,并指出在相關領域仍存在的挑戰。
//www.zhuanzhi.ai/paper/5fe5204f7d9eeb37dc385304f9cb9f62
想象一下,如果你拍了一張自拍照,想讓它更有藝術感,就像漫畫家畫的一樣,你怎么能通過電腦自動實現呢?這類研究工作可以概括為圖像到圖像轉換(I2I)問題。通常,I2I的目標是將輸入圖像x從源域A轉換為目標域B,保留內在源內容并轉移外部目標樣式。例如,可以將自拍圖像作為源域,以一些漫畫作為目標域參考,將其“翻譯”為想要的藝術風格圖像。
從上面I2I的基本定義可以看出,將一幅圖像從一個源域轉換到另一個目標域可以涵蓋圖像處理、計算機圖形學、計算機視覺等方面的許多問題。具體來說,I2I已經廣泛應用于語義圖像合成[3],[4],[5],[6],圖像分割[7],[8],[9],風格轉移[2],[10],[11],[12],[13],圖像修復[14],[15],[16],[17],[18],3 d姿勢估計[19],[20],圖像/視頻彩色化[21], [22]、[23]、[24]、[25]、[26],圖像超分辨率[27]、[28],域適配[29]、[30]、[31],卡通生成[22]0、[22]、[22]、[22]、[22]4、[22]5,圖像注冊[22]。我們將在第五節詳細分析和討論這些相關的應用。
本文就圖像到圖像翻譯的研究進展作一綜述。據我們所知,這是第一個概述了I2I的分析、方法和相關應用的論文。具體來說,我們的論文組織如下:
首先,我們簡要介紹了用于圖像-圖像翻譯的兩種最具代表性和最常用的生成模型,以及一些著名的評價指標,然后分析了這些生成模型如何學習表示和獲得想要的翻譯結果。
其次,我們將I2I問題劃分為兩大類任務,即雙域I2I任務和多域I2I任務,每一組I2I任務都出現了大量的I2I工作,對其他研究領域產生了深遠的影響,如圖2所示。
最后但并非最不重要的是,我們按照相同的I2I方法分類,提供了一個完整的I2I應用程序分類,如表1所示。
視頻標題生成與描述是使用自然語言對視頻進行總結與重新表達. 由于視頻與語言之間存在異構特性, 其數據處理過程較為復雜. 本文主要對基于“編碼-解碼”架構的模型做了詳細闡述, 以視頻特征編碼與使用方式為依據, 將其分為基于視覺特征均值/最大值的方法、基于視頻序列記憶建模的方法、基于三維卷積特征的方法及混合方法, 并對各類模型進行了歸納與總結. 最后, 對當前存在的問題及可能趨勢進行了總結與展望, 指出需要生成融合情感、邏輯等信息的結構化語段, 并在模型優化、數據集構建、評價指標等方面進行更為深入的研究.
生成對抗網絡(GANs)在過去的幾年里得到了廣泛的研究。可以說,它們最重要的影響是在計算機視覺領域,在這一領域中,圖像生成、圖像-圖像轉換、面部屬性處理和類似領域的挑戰取得了巨大進展。盡管迄今為止已經取得了重大的成功,但將GAN應用于現實世界的問題仍然面臨著重大的挑戰,我們在這里重點關注其中的三個。這是: (1)生成高質量的圖像; (2) 圖像生成的多樣性; (3) 穩定的訓練。我們將重點關注目前流行的GAN技術在應對這些挑戰方面取得的進展程度,并對已發表文獻中GAN相關研究的現狀進行了詳細回顧。我們進一步通過一個分類結構,我們已經采用了基于GAN體系架構和損失函數的變化。雖然到目前為止已經提交了幾篇關于GANs的綜述,但沒有一篇是基于它們在解決與計算機視覺相關的實際挑戰方面的進展來考慮這一領域的現狀。因此,為了應對這些挑戰,我們回顧并批判性地討論了最流行的架構變體和損失變體GANs。我們的目標是在重要的計算機視覺應用需求的相關進展方面,對GAN的研究現狀進行概述和批判性分析。在此過程中,我們還將討論GANs在計算機視覺方面最引人注目的應用,并對未來的研究方向提出一些建議。本研究中所研究的GAN變體相關代碼在
//github.com/sheqi/GAN_Review上進行了總結。
地址:
生成對抗網絡(GANs)在深度學習社區[1]-[6]吸引了越來越多的興趣。GANs已應用于計算機視覺[7]-[14]、自然語言處理[15]-[18]、時間序列合成[19]-[23]、語義分割[24]-[28]等多個領域。GANs屬于機器學習中的生成模型家族。與其他生成模型(如變分自編碼器)相比,GANs提供了一些優勢,如能夠處理清晰的估計密度函數,有效地生成所需樣本,消除確定性偏差,并與內部神經結構[29]具有良好的兼容性。這些特性使GANs獲得了巨大的成功,特別是在計算機視覺領域,如可信圖像生成[30]-[34],圖像到圖像轉換[2],[35]-[41],圖像超分辨率[26],[42]-[45]和圖像補全[46]-[50]。
然而,GANs并非沒有問題。最重要的兩點是,它們很難訓練,也很難評估。由于訓練難度大,在訓練過程中判別器和生成器很難達到納什均衡,生成器不能很好地學習數據集的完整分布是常見的問題。這就是眾所周知的模式崩潰問題。在[51]-[54]這一領域進行了大量的研究工作。在評估方面,首要問題是如何最好地衡量目標pr的真實分布與生成的分布pg之間的差異。不幸的是,不可能準確地估算pr。因此,對pr和pg之間的對應關系進行良好的估計是很有挑戰性的。以往的研究提出了各種對GANs[55] -的評價指標[63]。第一個方面直接關系到GANs的性能,如圖像質量、圖像多樣性和穩定訓練。在這項工作中,我們將研究計算機視覺領域中處理這方面的現有GAN變體,而對第二方面感興趣的讀者可以參考[55][63]。
目前許多GAN研究可以從以下兩個目標來考慮:(1)改進訓練,(2)將GAN應用于現實應用。前者尋求提高GANs性能,因此是后者(即應用)的基礎。考慮到許多已發表的關于GAN訓練改進的結果,我們在本文中對這方面最重要的GAN變體進行了簡要的回顧。GAN訓練過程的改進提供了好處表現如下: (1)改進生成的圖像的多樣性(也稱為模式多樣性) ,(2)增加生成的圖像質量,和 (3) 包含更多 :(1) 介紹相關GAN綜述工作和說明的區別這些評論和這項工作; (2)簡要介紹GANs;(3)回顧文獻中關于“GAN”的架構變體;(4)我們回顧文獻中損失變體的GAN;(5)介紹了GAN在計算機視覺領域的一些應用; (6)引入了GAN的評價指標,并利用部分指標(Inception Score和Frechet Inception Distance, FID)對本文討論的GAN變量進行了比較;(7)我們總結了本研究中的GANs變體,說明了它們的差異和關系,并討論了關于GANs未來研究的幾種途徑。(8)我們總結了這篇綜述,并展望了GANs領域可能的未來研究工作。
文獻中提出了許多GAN變體來提高性能。這些可以分為兩種類型:(1)架構變體。第一個提出的GAN使用完全連接的神經網絡[1],因此特定類型的架構可能有利于特定的應用,例如,用于圖像的卷積神經網絡(CNNs)和用于時間序列數據的循環神經網絡(RNNs);和(2)Loss-variants。這里探討了損失函數(1)的不同變化,以使G的學習更加穩定。
圖2說明了我們對2014年至2020年文獻中具有代表性GANs提出的分類法。我們將目前的GAN分為兩種主要變體,即架構變體和損失變體。在體系架構變體中,我們分別總結了網絡體系結構、潛在空間和應用三大類。網絡架構范疇是指對GAN架構的整體改進或修改,例如PROGAN中部署的漸進機制。潛在空間類別表示基于潛在空間的不同表示方式對架構進行修改,例如CGAN涉及到編碼到生成器和識別器的標簽信息。最后一類,應用,指的是根據不同的應用所做的修改,例如,CycleGAN有特定的架構來處理圖像風格的轉換。根據損失的變化,我們將其分為兩類:損失類型和正則化。損失類型是指GANs需要優化的不同損失函數,正則化是指對損失函數設計的額外懲罰或對網絡進行任何類型的歸一化操作。具體來說,我們將損失函數分為基于積分概率度量和非積分概率度量。在基于IPM的GAN中,鑒別器被限制為一類特定的函數[64],例如,WGAN中的鑒別器被限制為1-Lipschitz。基于非IPM的GAN中的鑒別器沒有這樣的約束。
摘要 近年來,跨模態研究吸引了越來越多學者的關注,尤其是連接視覺和語言的相關課題。該文針對跨視覺和語言模態研究中的核心任務——圖像描述生成,進行文獻綜述。該文從基于視覺的文本生成框架、基于視覺的文本生成研究中的關鍵問題、圖像描述生成模型的性能評價和圖像描述生成模型的主要發展過程四個方面對相關文獻進行介紹和總結。最后,該文給出了幾個未來的重點研究方向,包括跨視覺和語言模態的特征對齊、自動化評價指標的設計以及多樣化圖像描述生成。
由于計算和存儲效率的提高,哈希被廣泛應用于大規模數據庫檢索中的近似近鄰搜索。深度哈希技術是一種利用卷積神經網絡結構來挖掘和提取圖像語義信息或特征的技術,近年來受到越來越多的關注。在這個綜述中,我們對幾種圖像檢索的深度監督哈希方法進行了評估,總結出深度監督哈希方法的三個主要不同方向。最后提出了幾點意見。此外,為了突破現有哈希方法的瓶頸,我提出了一種影子周期性哈希(SRH)方法作為嘗試。具體來說,我設計了一個CNN架構來提取圖像的語義特征,并設計了一個loss function來鼓勵相似的圖像投影接近。為此,我提出了一個概念: CNN輸出的影子。在優化的過程中,CNN的輸出和它的shadow互相引導,盡可能的達到最優解。在數據集CIFAR-10上的實驗表明,該算法具有良好的性能。