好男人在线观看免费2019-亚洲日韩中文字幕一级乱码在线播放不卡

圖像到圖像轉換(I2I)的目的是在保留內容表示的同時將圖像從源域傳輸到目標域。I2I由于在圖像合成、分割、風格轉換、復原、姿態估計等計算機視覺和圖像處理問題上的廣泛應用，近年來受到越來越多的關注，并取得了巨大的進展。在本文中，我們對近年來發展起來的I2I工作進行了綜述。我們將分析現有I2I工作的關鍵技術，并闡明社區取得的主要進展。此外，我們將闡述I2I對研究和行業社區的影響，并指出在相關領域仍存在的挑戰。

//www.zhuanzhi.ai/paper/5fe5204f7d9eeb37dc385304f9cb9f62

想象一下，如果你拍了一張自拍照，想讓它更有藝術感，就像漫畫家畫的一樣，你怎么能通過電腦自動實現呢?這類研究工作可以概括為圖像到圖像轉換(I2I)問題。通常，I2I的目標是將輸入圖像x從源域A轉換為目標域B，保留內在源內容并轉移外部目標樣式。例如，可以將自拍圖像作為源域，以一些漫畫作為目標域參考，將其“翻譯”為想要的藝術風格圖像。

從上面I2I的基本定義可以看出，將一幅圖像從一個源域轉換到另一個目標域可以涵蓋圖像處理、計算機圖形學、計算機視覺等方面的許多問題。具體來說,I2I已經廣泛應用于語義圖像合成[3],[4],[5],[6],圖像分割[7],[8],[9],風格轉移[2],[10],[11],[12],[13],圖像修復[14],[15],[16],[17],[18],3 d姿勢估計[19],[20],圖像/視頻彩色化[21], [22]、[23]、[24]、[25]、[26]，圖像超分辨率[27]、[28]，域適配[29]、[30]、[31]，卡通生成[22]0、[22]、[22]、[22]、[22]4、[22]5，圖像注冊[22]。我們將在第五節詳細分析和討論這些相關的應用。

本文就圖像到圖像翻譯的研究進展作一綜述。據我們所知，這是第一個概述了I2I的分析、方法和相關應用的論文。具體來說，我們的論文組織如下:

首先，我們簡要介紹了用于圖像-圖像翻譯的兩種最具代表性和最常用的生成模型，以及一些著名的評價指標，然后分析了這些生成模型如何學習表示和獲得想要的翻譯結果。

其次，我們將I2I問題劃分為兩大類任務，即雙域I2I任務和多域I2I任務，每一組I2I任務都出現了大量的I2I工作，對其他研究領域產生了深遠的影響，如圖2所示。

最后但并非最不重要的是，我們按照相同的I2I方法分類，提供了一個完整的I2I應用程序分類，如表1所示。

付費5元查看完整內容

相關內容

智能時尚 · 計算機視覺 ·

2021 年 1 月 31 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

時尚是我們向世界展示自己的方式，已經成為世界上最大的產業之一。時尚主要通過視覺來傳達，因此近年來受到了計算機視覺研究者的廣泛關注。鑒于智能時尚的快速發展，本文對200多部主要時尚相關工作進行了全面的綜述，涵蓋了實現智能時尚的四個主要方面: (1)時尚檢測包括地標檢測、時尚解析、時尚條目檢索等。(2)時尚分析包含屬性識別、風格學習和流行度預測，(3)時尚合成包括風格轉換、姿勢變換、物理模擬等，(4)時尚推薦包括時尚搭配、服裝搭配、發型建議。針對每個任務，總結了基準數據集和評估協議。展望了未來的研究方向。

導論

時尚是我們向世界展示自己的方式。我們的著裝和化妝方式定義了我們獨特的風格，并將我們與他人區分開來。時尚在現代社會已經成為了我這個人不可或缺的一部分。不出所料，僅全球服裝市場就已超過3萬億美元，占世界國內生產總值的近2%。具體來說，到2020年，時尚領域的收入將超過7180億美元，預計每年增長8.4%。

隨著計算機視覺與人工智能(AI)的革命正在進行，人工智能開始沖擊寬宏大量的時尚領域，從電子零售到個性化設計師，再到服裝設計流程，各種應用創新正在重塑我們的時尚生活。在本文中，我們將計算機視覺驅動的時尚技術稱為智能時尚。從技術上講，智能時尚是一項具有挑戰性的任務，因為與一般對象不同，時尚項目在風格和設計上存在顯著差異，最重要的是，可計算的低級特性和它們所編碼的高級語義概念之間存在著長期存在的語義鴻溝。

之前很少有工作[120,165]與時尚綜述相關。2014年，Liu等[120]提出了一項以人臉美容和服裝分析為重點的智能時尚分析的初步文獻調查，介紹了2006-2013年發表的代表著作。然而，由于計算機視覺的快速發展，智能時尚的領域遠遠不止這兩個領域，如風格遷移、物理模仿、時尚預測。有很多相關的工作需要更新。2018年，Song and Mei[165]介紹了多媒體時尚研究的進展，將時尚任務分為三個方面: 低級像素計算、中級時尚理解和高級時尚分析。低像素計算的目的是在圖像上生成像素級標簽，如人體分割、地標檢測和人體姿態估計。中級時尚理解旨在識別時尚形象，如時尚物品和時尚風格。高級時尚分析包括時尚推薦、時尚綜合、時尚趨勢預測。然而，目前還缺乏一個系統、全面的綜述來描繪智能時尚的全貌，從而總結和分類最先進的方法，討論數據集和評價指標，并為未來的研究方向提供見解。

目前關于智能時尚的研究課題不僅包括檢測以圖像形式呈現的時尚物品，還包括對其進行分析，綜合創意新產品，最后給出個性化的建議。因此，在本文中，我們將相應的研究主題組織起來，分類如圖1所示，包括時尚圖像檢測、分析、合成和推薦。此外，我們還概述了智能時尚在時尚領域的主要應用，展示了智能時尚在時尚行業的力量。總的來說，我們工作的貢獻可以總結如下:

我們提供時尚領域的最新研究進展的全面綜述，并將時尚研究主題分為四個主要類別:檢測、分析、合成和推薦。
對于智能時尚研究中的每個類別，我們提供了一個深入和有組織的回顧，其中最重要的方法及其貢獻。同時, 我們總結基準數據集以及相應的門戶網站的鏈接。
我們為不同的問題收集評估指標，并對不同的方法進行性能比較。
我們列出了可能的未來方向，這將有助于即將到來的進步，并激勵研究社區。

本綜述的組織部分如下。第二節回顧了時尚檢測任務，包括地標檢測、時尚解析和條目檢索。第3節說明了包含屬性識別、風格學習和流行度預測的時裝分析工作。第4節提供了時裝合成任務的概述，包括風格轉換、人體姿勢轉換和物理紋理模擬。第五節介紹時尚推薦作品，包括時尚搭配、服裝搭配、發型建議。此外，第6節展示了選定的應用和未來的工作。最后但并非最不重要的是，結束語在第7節給出。

付費5元查看完整內容

生成式對抗網絡 · GAN逆轉 ·

2021 年 1 月 19 日

[付費5元查看完整內容]最新《生成式對抗網絡GAN逆轉》綜述論文，22頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

GAN逆轉化的目的是將給定的圖像逆映射到預先訓練好的GAN模型的潛在空間，以便由生成器從反代碼忠實地重建圖像。GAN逆映射作為一種新興的連接真實和虛假圖像領域的技術，在使預先訓練好的GAN模型如StyleGAN和BigGAN用于真實圖像編輯應用中起著至關重要的作用。同時，GAN逆轉化也為GAN的潛在空間的解讀以及如何生成逼真的圖像提供了思路。在本文中，我們對GAN逆轉化進行了概述，并重點介紹了它最近的算法和應用。我們涵蓋了GAN逆轉化的重要技術及其在圖像恢復和圖像處理中的應用。我們進一步闡述了未來方向的一些趨勢和挑戰。

//www.zhuanzhi.ai/paper/8a6100aa9aacbe624aae09afc4308355

生成對抗網絡(GAN)框架是一種深度學習架構，可以估計數據點是如何在概率框架[1]、[2]中生成的。它由兩個相互作用的神經網絡組成:一個生成器G和一個鑒別器D，它們通過對抗過程共同訓練。G的目標是合成與真實數據相似的假數據，D的目標是區分真實數據和假數據。通過對抗性的訓練過程，生成器G可以生成與真實數據分布相匹配的假數據。近年來，GANs被應用于圖像翻譯[3]、[4]、[5]、圖像處理[6]、[7]、[11]0到圖像恢復[9]、[10]、[11]、[12]、[13]等眾多任務。

許多GAN模型，如PGGAN [14]， BigGAN[15]和StyleGAN[16]，[17]，已經被開發用于從隨機噪聲輸入合成高質量和多樣性的圖像。近年來的研究表明，GANs在圖像生成過程中有效編碼了中間特征[18]和潛在空間[19]、[20]、[21]中豐富的語義信息。這些方法可以通過改變潛在代碼來合成具有不同屬性的圖像，如老化、表情、光方向等。然而，由于GANs缺乏推理功能和編碼器，這種對潛在空間的操作只適用于GANs生成的圖像，并不適用于任何給定的真實圖像。

相比之下，GAN反轉的目標是將給定的圖像反演回預先訓練好的GAN模型的潛在空間。然后，圖像發生器就可以從反碼中忠實地重建出來。由于GAN逆轉化是連接真實和虛假圖像域的關鍵，因此在[17]、[20]、[21]、[23]、[24]、[25]、[26]、[27]、[28]等領域取得了重大進展。GAN反演使得在現有訓練過的GAN的潛在空間中發現的可控方向適用于真實的圖像編輯，而不需要特別的監督或昂貴的優化。如圖1所示，在將真實圖像倒置到潛在空間后，我們可以沿著一個特定的方向改變其代碼來編輯圖像的相應屬性。GAN反演作為一個將生成對抗網絡與可解釋機器學習技術相結合的快速發展的領域，不僅提供了一種靈活的替代圖像編輯框架，而且有助于揭示深層生成模型的內在機制。

在這篇文章中，我們提出了一個全面的GAN逆向轉化方法，重點是算法和應用。據我們所知，這項工作是對快速增長的GAN反轉的第一次調查，并有以下貢獻。首先，我們提供了一個全面和系統的回顧，以及深刻的分析，在GAN倒置的所有方面的層次和結構。其次，我們對GAN反轉方法的性質和性能進行了比較總結。第三，我們討論了挑戰和有待解決的問題，并確定了未來研究的趨勢。

付費5元查看完整內容

生成式對抗網絡 · 計算機視覺 · 穩定學習 · 損失變體 · 架構變體 ·

2020 年 12 月 26 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

生成對抗網絡(GANs)在過去的幾年里得到了廣泛的研究。可以說，它們最重要的影響是在計算機視覺領域，在這一領域中，圖像生成、圖像-圖像轉換、面部屬性處理和類似領域的挑戰取得了巨大進展。盡管迄今為止已經取得了重大的成功，但將GAN應用于現實世界的問題仍然面臨著重大的挑戰，我們在這里重點關注其中的三個。這是: (1)生成高質量的圖像; (2) 圖像生成的多樣性; (3) 穩定的訓練。我們將重點關注目前流行的GAN技術在應對這些挑戰方面取得的進展程度，并對已發表文獻中GAN相關研究的現狀進行了詳細回顧。我們進一步通過一個分類結構，我們已經采用了基于GAN體系架構和損失函數的變化。雖然到目前為止已經提交了幾篇關于GANs的綜述，但沒有一篇是基于它們在解決與計算機視覺相關的實際挑戰方面的進展來考慮這一領域的現狀。因此，為了應對這些挑戰，我們回顧并批判性地討論了最流行的架構變體和損失變體GANs。我們的目標是在重要的計算機視覺應用需求的相關進展方面，對GAN的研究現狀進行概述和批判性分析。在此過程中，我們還將討論GANs在計算機視覺方面最引人注目的應用，并對未來的研究方向提出一些建議。本研究中所研究的GAN變體相關代碼在

//github.com/sheqi/GAN_Review上進行了總結。

地址：

生成對抗網絡(GANs)在深度學習社區[1]-[6]吸引了越來越多的興趣。GANs已應用于計算機視覺[7]-[14]、自然語言處理[15]-[18]、時間序列合成[19]-[23]、語義分割[24]-[28]等多個領域。GANs屬于機器學習中的生成模型家族。與其他生成模型(如變分自編碼器)相比，GANs提供了一些優勢，如能夠處理清晰的估計密度函數，有效地生成所需樣本，消除確定性偏差，并與內部神經結構[29]具有良好的兼容性。這些特性使GANs獲得了巨大的成功，特別是在計算機視覺領域，如可信圖像生成[30]-[34]，圖像到圖像轉換[2]，[35]-[41]，圖像超分辨率[26]，[42]-[45]和圖像補全[46]-[50]。

然而，GANs并非沒有問題。最重要的兩點是，它們很難訓練，也很難評估。由于訓練難度大，在訓練過程中判別器和生成器很難達到納什均衡，生成器不能很好地學習數據集的完整分布是常見的問題。這就是眾所周知的模式崩潰問題。在[51]-[54]這一領域進行了大量的研究工作。在評估方面，首要問題是如何最好地衡量目標pr的真實分布與生成的分布pg之間的差異。不幸的是，不可能準確地估算pr。因此，對pr和pg之間的對應關系進行良好的估計是很有挑戰性的。以往的研究提出了各種對GANs[55] -的評價指標[63]。第一個方面直接關系到GANs的性能，如圖像質量、圖像多樣性和穩定訓練。在這項工作中，我們將研究計算機視覺領域中處理這方面的現有GAN變體，而對第二方面感興趣的讀者可以參考[55][63]。

目前許多GAN研究可以從以下兩個目標來考慮:(1)改進訓練，(2)將GAN應用于現實應用。前者尋求提高GANs性能，因此是后者(即應用)的基礎。考慮到許多已發表的關于GAN訓練改進的結果，我們在本文中對這方面最重要的GAN變體進行了簡要的回顧。GAN訓練過程的改進提供了好處表現如下: (1)改進生成的圖像的多樣性(也稱為模式多樣性) ,(2)增加生成的圖像質量,和 (3) 包含更多 :(1) 介紹相關GAN綜述工作和說明的區別這些評論和這項工作; (2)簡要介紹GANs;(3)回顧文獻中關于“GAN”的架構變體;(4)我們回顧文獻中損失變體的GAN；(5)介紹了GAN在計算機視覺領域的一些應用; (6)引入了GAN的評價指標，并利用部分指標(Inception Score和Frechet Inception Distance, FID)對本文討論的GAN變量進行了比較;(7)我們總結了本研究中的GANs變體，說明了它們的差異和關系，并討論了關于GANs未來研究的幾種途徑。(8)我們總結了這篇綜述，并展望了GANs領域可能的未來研究工作。

文獻中提出了許多GAN變體來提高性能。這些可以分為兩種類型:(1)架構變體。第一個提出的GAN使用完全連接的神經網絡[1]，因此特定類型的架構可能有利于特定的應用，例如，用于圖像的卷積神經網絡(CNNs)和用于時間序列數據的循環神經網絡(RNNs);和(2)Loss-variants。這里探討了損失函數(1)的不同變化，以使G的學習更加穩定。

圖2說明了我們對2014年至2020年文獻中具有代表性GANs提出的分類法。我們將目前的GAN分為兩種主要變體，即架構變體和損失變體。在體系架構變體中，我們分別總結了網絡體系結構、潛在空間和應用三大類。網絡架構范疇是指對GAN架構的整體改進或修改，例如PROGAN中部署的漸進機制。潛在空間類別表示基于潛在空間的不同表示方式對架構進行修改，例如CGAN涉及到編碼到生成器和識別器的標簽信息。最后一類，應用，指的是根據不同的應用所做的修改，例如，CycleGAN有特定的架構來處理圖像風格的轉換。根據損失的變化，我們將其分為兩類:損失類型和正則化。損失類型是指GANs需要優化的不同損失函數，正則化是指對損失函數設計的額外懲罰或對網絡進行任何類型的歸一化操作。具體來說，我們將損失函數分為基于積分概率度量和非積分概率度量。在基于IPM的GAN中，鑒別器被限制為一類特定的函數[64]，例如，WGAN中的鑒別器被限制為1-Lipschitz。基于非IPM的GAN中的鑒別器沒有這樣的約束。

付費5元查看完整內容

機器學習 · 視覺分析 ·

2020 年 12 月 2 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習的視覺分析最近已經發展成為可視化領域中最令人興奮的領域之一。為了更好地確定哪些研究課題是有前景的，并學習如何在視覺分析中應用相關技術，我們系統地回顧了近十年來發表的259篇論文以及2010年之前的代表性作品。我們構建一個分類法，其中包括三個第一級類別:構建模型之前的技術、構建建模期間的技術和構建模型之后的技術。每個類別的進一步特征是具有代表性的分析任務，每個任務都以一組最近有影響的著作為例。我們也討論并強調研究的挑戰和對視覺分析研究人員有用的潛在未來研究機會。

最近人工智能應用的成功依賴于機器學習模型[1]的性能和能力。在過去的十年里，各種視覺分析方法被提出，使機器學習更加可解釋、可信和可靠。這些研究努力充分結合交互式可視化和機器學習技術的優勢，便于分析和理解學習過程中的主要組件，以提高性能。例如，用于解釋深度卷積神經網絡內部工作原理的可視化分析研究增加了深度學習模型的透明度，并在最近受到了越來越多的關注[1-4]。

用于機器學習的視覺分析技術的快速發展產生了對這一領域進行全面回顧的需求，以支持理解可視化技術是如何設計并應用于機器學習管道的。已有幾項初步努力從不同的觀點總結這一領域的進展。例如，Liu等人[5]總結了文本分析的可視化技術。Lu等人對預測模型的可視化分析技術進行了調查。最近，Liu等人[1]發表了一篇從視覺分析的角度分析機器學習模型的論文。Sacha等[7]分析了一組示例系統，提出了一種用于視覺分析輔助機器學習的本體。然而，現有的調研要么專注于機器學習的一個特定領域(例如，文本挖掘[5]，預測模型[6]，模型理解[1])，要么僅基于一組示例技術來勾畫本體[7]。

本文旨在對機器學習的視覺分析技術進行全面的綜述，重點介紹機器學習管道的各個階段。我們主要關注可視化社區中的工作。然而，人工智能社區也對深度學習模型中視覺解釋特征檢測器的研究做出了堅實的貢獻。例如，Selvaraju等人[8]試圖通過計算類激活映射來識別圖像中分類結果敏感的部分。讀者可以參考張、朱[9]和Hohman等人[3]的調查。通過系統的程序，我們在過去的十年中收集了259篇來自相關頂級場所的論文。基于機器學習流水線，我們將這篇文獻分為建模前、建模中、建模后三個階段。我們分析了可視化分析技術在這三個階段的功能，并抽象了典型任務，包括在建模前提高數據質量和特征質量，建模過程中的模型理解、診斷和轉向，以及建模后的數據理解。每個任務都由一組精心挑選的例子來說明。我們強調了機器學習視覺分析領域六個突出的研究方向和開放問題。我們希望這項調查能夠促進機器學習相關視覺分析技術的討論，并為希望開發機器學習的視覺分析工具的從業者和研究人員提供一個起點。

付費5元查看完整內容

自然語言處理 · 低資源學習 ·

2020 年 10 月 27 日

[付費5元查看完整內容]最新《低資源自然語言處理》綜述論文，21頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

當前自然語言處理的發展為低資源語言和領域提供了挑戰和機遇。眾所周知，深度神經網絡需要大量的訓練數據，而這些數據在資源貧乏的情況下可能無法得到。然而，也有越來越多的工作來提高低資源環境下的性能。基于對神經模型的基本改變和目前流行的預訓練和微調范式，我們概述了低資源自然語言處理的有前途的方法。在討論了低資源場景的定義和數據可用性的不同維度之后，我們接著研究了在訓練數據稀少時支持學習的方法。這包括創建附加標簽數據的機制，如數據增強和遠程監督，以及轉移學習設置，以減少對目標監督的需要。調查結束時，簡要地看了一下在非NLP機器學習社區中建議的方法，這些方法在資源少的情況下可能對NLP有益。

//arxiv.org/abs/2010.12309

付費5元查看完整內容

文本檢測 · 場景文本識別 ·

2020 年 6 月 10 日

[付費5元查看完整內容]最新《自然場景中文本檢測與識別》綜述論文，26頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

對自然圖像中的文本進行檢測和識別是計算機視覺領域的兩個主要問題，在體育視頻分析、自動駕駛、工業自動化等領域都有廣泛的應用。他們面臨著共同的具有挑戰性的問題，即文本如何表示和受幾種環境條件的影響的因素。當前最先進的場景文本檢測和/或識別方法利用了深度學習體系結構的進步，并取得了在處理多分辨率和多方向文本時基準數據集的卓越準確性。然而，仍然有幾個挑戰影響自然圖像中的文本，導致現有的方法表現不佳，因為這些模型不能泛化到看不見的數據和不足的標記數據。因此,不同于以往的綜述,這個綜述的目標如下: 首先,提供讀者不僅回顧最近場景文字檢測和識別方法,但也用一個統一的評估框架來呈現廣泛開展實驗的結果, 評估pre-trained模型選擇的方法上具有挑戰性的情況下,這些技術適用于相同的評估標準。其次，識別在自然圖像中檢測或識別文本存在的幾個挑戰，即平面內旋轉、多方向和多分辨率文本、透視失真、光照反射、部分遮擋、復雜字體和特殊字符。最后，本文還提出了這一領域的潛在研究方向，以解決場景文本檢測和識別技術仍面臨的一些挑戰。

付費5元查看完整內容

卷積神經網絡 · 綜述論文 ·

2020 年 4 月 7 日

[付費5元查看完整內容]卷積神經網絡的概述論文:分析、應用和展望，21頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

卷積神經網絡(Convolutional Neural Network, CNN)是深度學習領域中最重要的網絡之一。由于CNN在計算機視覺和自然語言處理等諸多領域都取得了令人矚目的成就，因此在過去的幾年里，CNN受到了業界和學術界的廣泛關注。現有的綜述主要關注CNN在不同場景下的應用，并沒有從整體的角度來考慮CNN，也沒有涉及到最近提出的一些新穎的想法。在這篇綜述中，我們的目標是在這個快速增長的領域提供盡可能多的新想法和前景。不僅涉及到二維卷積，還涉及到一維和多維卷積。首先，這篇綜述首先簡單介紹了CNN的歷史。第二，我們提供CNN的概述。第三，介紹了經典的和先進的CNN模型，特別是那些使他們達到最先進的結果的關鍵點。第四，通過實驗分析，得出一些結論，并為函數選擇提供一些經驗法則。第五，介紹了一維、二維和多維卷積的應用。最后，討論了CNN的一些有待解決的問題和有發展前景的方向，為今后的工作提供參考。