亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

標準流和擴散模型是深度生成模型中代表性方法,阿姆斯特丹大學Emiel Hoogeboom博士論文《離散數據和幾何數據的標準流和擴散模型》,詳細闡述了兩種生成模型在離散幾何數據上的應用。

**作者:**Emiel Hoogeboom

**Emiel Hoogeboom是阿姆斯特丹大學的一名博士生,**導師是Max Welling。

//ehoogeboom.github.io/

**《離散數據和幾何數據的標準流和擴散模型》 **

**深度生成模型正變得越來越流行和有影響力。這項技術的應用范圍很廣,從照片編輯、語音合成到藥物發現。**本文分析并改進了兩種類型的生成模型的靈活性:標準流和擴散模型。具體來說,在本文的第一部分中,我們的目標是通過發明構建可逆卷積層的新方法,使標準流更具表現力。從線性代數和傅里葉分析可以看出,可以選擇不同的結構。 此外,我們探索了為離散空間定義標準流和擴散模型的方法。我們找到了可以成功優化的新模型配方。這些新模型的某些變體有一個實用的副產品:它們可以有效地應用于無損壓縮。此外,我們將看到這些新的離散擴散模型之一連接了許多著名的生成模型。它彌合了離散擴散、自回歸模型和掩碼語言模型之間的差距。最后,設計了一種用于三維分子生成的標準流和擴散模型。為了模擬離散的原子類型,我們將結合我們的新技術來操作離散空間。此外,由于分子生活在物理空間中,我們將證明考慮位置信息的歐氏對稱性是很重要的。

1. 引言

**深度學習范式已經改變了多個領域,目前正在許多科學領域進行探索。可以說,這一成功始于ImageNet競賽,其中一個模型將圖像作為輸入,并需要預測該圖像屬于1000個類別中的哪個類別,例如“考拉”,“河鲀”和“烤面包機”。**讓變量x指向一個圖像,例如,一個向量,其中每個元素代表一個像素值。從概率的角度來看,這項任務可以框架為給定圖像x對特定類別y的概率進行建模,簡而言之:p(y|x)是什么?2012年,深度卷積網絡[104]的表現超過了其非基于深度學習的方法。此外,從那一刻起,接下來的每一年也都是通過深度學習方法獲勝。從那時起,深度學習已經超越圖像應用于不同類型的數據,如音頻、視頻、文本、圖形和分子。除了越來越多的數據源,需要在這些數據上學習的任務也變得越來越具有挑戰性。其中一個基本任務是生成模型,以創建看似來自給定數據的相同分布的數據。從概率的角度來看,生成模型旨在學習分布p(x),從中我們可以提取樣本x?p(x)以生成新數據。使建模p(x)比建模p(y|x)困難得多的關鍵因素是x的高維性,而y是一維的。事實證明,在高維變量上指定靈活的分布是非常困難的。

生成模型是非常基本的,它們的原理出現在許多應用中,對于這些應用來說,它們共享的許多特征可能并不明顯。生成模型目前正在公司中用于語言翻譯、圖像超分辨率、材料發現、照片編輯、視頻特效、文本音頻和虛擬助手。由于高維建模的固有難度,存在許多不同類型的生成模型。目前,它們可以大致量化為六類:自回歸模型(ARMs)、變分自編碼器(vae)、生成對抗網絡(GANs)、標準化流(NFs)、基于能量的模型(EBMs)和(基于分數的)擴散模型

**本文研究了在各種環境下的兩個生成模型:標準流和擴散模型。**標準流之所以有吸引力,是因為它們可以計算精確的可能性,而不是依賴于下限。這個特性源于變量替換公式的使用。擴散模型特別有趣,因為它們在訓練規模期間的計算成本與其他生成模型相比具有優勢:以前對于VAE來說需要一個大型集群,但可以在單個GPU上訓練具有同等質量的擴散模型。盡管存在這些差異,但隨著研究的進展,這些模型之間的聯系越來越多。通常,模型類的優缺點不僅取決于它們所屬的類,還取決于所使用的特定實現和體系結構。

研究問題1:如何構建可逆卷積層來標準化流?

標準化流的一個大問題是找到可驗證可逆的變換,并且可以高效地計算雅可比行列式。對于全連接矩陣乘法,一個選擇是學習矩陣分解。然而,深度學習架構通常通過參數共享來表現良好,例如在卷積層中。對于這些層,沒有已知的分解。在第4章中,我們將探索構建線性卷積流的方法,這些方法可以用作標準化流的構建模塊,以提高其靈活性和性能。本文提出三種變體,它們都有各自的優點和缺點:基于三角卷積分解的新興卷積,基于傅里葉變換的周期卷積,以及基于矩陣指數的卷積指數。所有提出的方法都優于現有方法。

研究問題2:如何定義離散變量的標準化流?

標準化流通常是針對連續變量定義的,因為它們依賴于變量變化公式。這可能會帶來問題,因為許多數據源是離散的(或離散化的),例如8位圖像、音頻、視頻和文本。在第5章中,我們提出了新的標準化流來處理離散數據,包括整數值和類別數據:整數離散流和Argmax流。與現有方法相比,這些模型是有競爭力的,并允許對離散變量模型的新見解。此外,整數流是無損壓縮的自然模型,甚至可以輕松地針對特定類型的數據進行調整。

研究問題3: 如何用離散潛空間定義擴散模型?

擴散模型與標準化流有類似的問題:它們通常用連續隱空間定義,對整數數據可以很好地工作,但對文本等分類數據就不行了。在第6章中,我們將探索直接在離散空間中定義的新擴散模型,為用擴散模型建模類別數據開辟了可能性。它們是離散擴散模型和自回歸模型之間的深度聯系,通過順序不可知的自回歸模型。提出了兩種新的擴散方法:多項擴散和自回歸擴散模型。有趣的是,最后一種模型也是無損壓縮的自然模型。

研究問題4: 我們如何創建一個強大的生成模型來生成3D分子?

分子生活在物理3D空間中,服從歐氏對稱性,這意味著它們的全局方向和平移不會影響分子的含義。理想情況下,此類數據的生成模型不應該受到方向或轉換的變化的影響。簡而言之,我們希望模型是等變的(或在某些情況下不變)。在第7章中,我們將介紹兩個生成模型,它們與上述來自數學群E(3)的歐氏對稱性等變。首先引入了E(3)等變歸一化流(E- nfs),該流能夠生成具有高穩定性的分子。用E(3)等變擴散模型(EDMs)改進了E- nfs,該模型更容易擴展,因此生成的分子更穩定。

付費5元查看完整內容

相關內容

本文探索了一類新的基于transformer架構的擴散模型。訓練圖像的潛在擴散模型,用一個在潛在塊上操作的transformer取代常用的U-Net骨干。通過Gflops測量的前向傳遞復雜性來分析擴散transformer (DiTs)的可擴展性。具有較高Gflops的DiTs——通過增加transformer深度/寬度或增加輸入tokens 數量——始終具有較低的FID。除了具有良好的可擴展性,最大的DiT-XL/2模型在類條件ImageNet 512x512和256x256基準上的性能優于所有先驗的擴散模型,在后者上實現了最先進的FID 2.27。 //www.wpeebles.com/DiT

1. 引言

在transformers的推動下,機器學習正在復興。在過去的五年中,自然語言處理[8,39]、視覺[10]和其他幾個領域的神經架構在很大程度上被transformer[57]所涵蓋。然而,許多類別的圖像級生成模型仍然堅持這一趨勢,盡管transformer在自回歸模型中被廣泛使用[3,6,40,44],但在其他生成模型框架中被采用的較少。例如,擴散模型一直處于圖像級生成模型最新進展的前沿[9,43];然而,它們都采用卷積U-Net架構作為事實上的骨干選擇。

Ho等人的開創性工作[19]首先為擴散模型引入了U-Net主干。設計選擇繼承自PixelCNN++[49,55],一個自回歸生成模型,有一些架構上的變化。該模型是卷積的,主要由ResNet[15]塊組成。與標準的U-Net[46]相比,額外的空間自注意力塊(transformer中的重要組成部分)在較低的分辨率下穿插。Dhariwal和Nichol[9]消除了U-Net的幾個架構選擇,例如使用自適應歸一化層[37]來注入條件信息和卷積層的通道計數。然而,Ho等人提出的U-Net的高層設計在很大程度上保持不變。

**本文旨在揭開擴散模型中結構選擇的意義,并為未來的生成式建模研究提供經驗基線。**U-Net歸納偏差對擴散模型的性能不是至關重要的,可以很容易地被transformer等標準設計取代。因此,擴散模型很好地從最近的架構統一趨勢中獲益。通過繼承其他領域的最佳實踐和訓練秘訣,以及保留可擴展性、魯棒性和效率等良好特性。標準化的架構也將為跨領域研究開辟新的可能性。

本文關注一類新的基于transformer的擴散模型。我們稱它們為擴散transformer,或簡稱DiTs。DiTs遵循視覺transformer (vit)[10]的最佳實踐,已被證明比傳統卷積網絡(如ResNet[15])更有效地擴展視覺識別。

本文研究了transformer的擴展行為,即網絡復雜性與樣本質量之間的關系。通過在潛擴散模型(LDMs)[45]框架下構建DiT設計空間并對其進行基準測試,其中擴散模型是在VAE的潛空間中訓練的,可以成功地用transformer取代U-Net主干。DiTs是擴散模型的可擴展架構:網絡復雜性(由Gflops衡量)與樣本質量(由FID衡量)之間有很強的相關性。通過簡單地擴大DiT并訓練具有高容量骨干(118.6 Gflops)的LDM,能夠在有類條件的256 × 256 ImageNet生成基準上取得2.27 FID的最新結果。

Diffusion x Transformers

在過去的一年里,擴散模型在圖像生成方面取得了驚人的成果。幾乎所有這些模型都使用卷積U-Net作為骨干。這有點令人驚訝!在過去的幾年里,深度學習的主要故事是transformer在各個領域的主導地位。U-Net或卷積是否有什么特別之處——使它們在擴散模型中工作得如此好?

本文將潛在擴散模型(LDMs)中的U-Net骨干替換為transformer。我們稱這些模型為擴散transformer,或簡稱DiTs。DiT架構非常類似于標準的視覺Transformer (ViT),有一些小但重要的調整。擴散模型需要處理條件輸入,如擴散時間步或類標簽。我們嘗試了一些不同的模塊設計來注入這些輸入。最有效的是具有自適應層norm層(adaLN)的ViT塊。重要的是,這些adaLN層還調制塊內任何殘差連接之前的激活,并被初始化為每個ViT塊都是identity函數。簡單地改變注入條件輸入的機制就會在FID方面產生巨大的差異。這是我們獲得良好性能所需的唯一更改;除此之外,DiT是一個相當標準的transformer模型。

Scaling DiT

可視化放大DiT的效果。我們使用相同的采樣噪聲,在400K訓練步驟中從所有12個DiT模型生成圖像。計算密集型的DiT模型具有更高的樣本質量。 眾所周知,transformer在各種領域都具有良好的擴展性。那么作為擴散模型呢?本文將DiT沿兩個軸進行縮放:模型大小和輸入標記數量。

*擴展模型大小。我們嘗試了四種不同模型深度和寬度的配置:DiT-S、DiT-B、DiT-L和DiT-XL。這些模型配置范圍從33M到675M參數和0.4到119 Gflops。它們是從ViT文獻中借來的,該文獻發現聯合放大深度和寬度效果很好。

擴展標記。DiT中的第一層是patchify層。Patchify將每個patch線性嵌入到輸入圖像(或在我們的例子中,input latent)中,將它們轉換為transformer token。較小的patch大小對應于大量的transformer token。例如,將patch大小減半會使transformer的輸入token數量增加四倍,從而使模型的總Gflops至少增加四倍。盡管它對Gflops有巨大的影響,但請注意,patch大小對模型參數計數沒有意義的影響。

對于我們的四個模型配置中的每一個,我們訓練三個模型,潛塊大小為8、4和2(共12個模型)。Gflop 最高的模型是DiT-XL/2,它使用最大的XL配置,patch大小為2。

通過Fréchet Inception Distance (FID)測量,擴展模型大小和輸入tokens 數量可以大大提高DiT的性能。正如在其他領域觀察到的那樣,計算(而不僅僅是參數)似乎是獲得更好模型的關鍵。例如,雖然DiT-XL/2獲得了優秀的FID值,但XL/8表現不佳。XL/8的參數比XL/2多一些,但Gflops少得多。較大的DiT模型相對于較小的模型是計算效率高的;較大的模型比較小的模型需要更少的訓練計算來達到給定的FID(詳細信息請參見論文)。

根據我們的擴展分析,當訓練時間足夠長時,DiT-XL/2顯然是最佳模型。在本文的其余部分,我們將專注于XL/2。

與最新擴散模型的比較

從我們的DiT-XL/2模型中選擇的樣本,以512x512分辨率(頂部行)和256x256分辨率(底部)進行訓練。在這里,我們使用無分類器指導規模,對512模型使用6.0,對256模型使用4.0。 我們在ImageNet上訓練了兩個版本的DiT-XL/2,分辨率分別為256x256和512x512,步驟分別為7M和3M。當使用無分類器指導時,DiT-XL/2優于所有先驗擴散模型,將LDM (256x256)取得的3.60的之前最好的FID-50K降低到2.27;這是所有生成模型中最先進的。XL/2在512x512分辨率下再次優于所有先前的擴散模型,將ADM-U之前獲得的最佳FID 3.85提高到3.04。

除了獲得良好的FIDs外,DiT模型本身相對于基線仍然是計算高效的。例如,在256x256分辨率下,LDM-4模型是103 Gflops, ADM-U是742 Gflops, DiT-XL/2是119 Gflops。在512x512分辨率下,ADM-U是2813 Gflops,而XL/2只有525 Gflops。

付費5元查看完整內容

作為一種數據生成和表示學習的方法,生成模型在現代機器學習和統計學中獲得了相當大的興趣。生成對抗網絡(Generative Adversarial Networks, GANs)和變分自編碼器(Variational Autoencoders, vae)是兩類重要的隱式生成建模方法,它們對隱變量和數據變量之間的轉換進行建模,以模擬采樣過程,而無需顯式地指定概率分布。由于深度學習的最新發展,生成模型在廣泛的應用中取得了顯著的經驗性能。

盡管生成模型在經驗上取得了成功,但它們的理論屬性不太合理,尤其是GANs的理論屬性。這激發了本文的第一個主題,即f-散度GAN的統計分析。該理論產生了一類具有更高統計效率的GAN新算法,并揭示了統計問題,包括現代算法(GAN)和經典方法(最大似然估計)之間的關系,以及各種f-散度的行為。在雙向生成模型的原則框架下,提供了GAN和VAE的統一視圖。將所提出的方法廣泛應用于計算機視覺和自然語言處理的實際任務,并取得了最先進的性能。本文提出一種新的模型架構和學習公式,基于高效的GAN方法,用于連貫和多樣化的文本生成。

在人類對現實世界的認知和理解中,結構是普遍存在的、固有的。本文的第二部分將重點轉移到生成模型的結構屬性上。這方面的一個新興領域是解耦表示學習,它以現實世界的數據是由一些解釋因素生成的為前提,旨在恢復生成因素及其基本結構。數據的解耦表示在深度學習模型的可解釋性、下游學習任務和可控生成方面有許多好處。解纏的難度取決于可用的監督數量以及基礎結構的復雜性。眾所周知,解纏在完全無監督的環境中是不可能的。現有的解纏文獻大多考慮簡單的結構,如在給定一些觀察輔助變量的情況下的獨立性或條件獨立性,而更普遍(且具有挑戰性)的結構是因果結構,其中潛在因素由因果圖連接。本文形式化了之前方法在因果情況下的失敗,提出了一種基于具有因果先驗的雙向生成模型的因果因素解纏方法。對所提算法的可辨識性和漸近收斂性進行了理論證明。開發了一種非參數方法,從觀察數據中學習因果結構。

//lbezone.hkust.edu.hk/bib/9903412#

付費5元查看完整內容

生成對抗網絡(GenerativeAdversarialNetwork,GAN)在諸多領域都取得了較好的應 用效果,本章將以生成模型概述為切入點,介紹生成模型的基本概念和生成模型的意義及應 用,在此基礎上詳細敘述 GAN,并分析 GAN 的延伸模型———SGAN 模型、CGAN 模型、 StackGAN 模型、InfoGAN 模型和 AuxiliaryClassifierGAN 模型的結構。深度神經網絡的熱門話題是分類問題,即給定一幅圖像,神經網絡可以告知你它是什么 內容,或者屬于什么類別。近年來,生成模型成為深度神經網絡新的熱門話題,它想做的事 情恰恰相反,即給定一個類別,神經網絡可以無窮無盡地自動生成真實而多變的此類別圖 像,如圖5.1所示,它可以包括各種角度,而且會在此過程中不斷進步。

**5.1.1 生成模型的基本概念 **

在深度學習中,可以將其模型分為生成模型和判別模型兩大類[1]。生成模型可以通過 觀察數據,學習樣本與標簽的聯合概率密度分布P(x,y),然后生成對應的條件概率分布P (y|x),從而得到所預測的模型Y=f(x)。判別模型強調直接從數據中學習決策函數[2]。生成模型的目標是給定訓練數據,希望能獲得與訓練數據相同的新數據樣本。判別模型的 目標是找到訓練數據的分布函數。在深度學習中,監督學習和非監督學習都包含其對應的 生成模型,根據尋找分布函數的過程,可以把生成模型大致分為概率估計和樣本生成。概率估計是在不了解事件概率分布的情況下,通過假設隨機分布,觀察數據確定真正的 概率密度分布函數,此類模型也可定義為淺層生成模型,典型的模型有樸素貝葉斯、混合高斯模型和隱馬爾可夫模型等。樣本生成是在擁有訓練樣本數據的情況下,通過神經網絡訓練后的模型生成與訓練集 類似的樣本,此類模型也可以定義為深度生成模型,典型的模型有受限玻爾茲曼機、深度信 念網絡、深度玻爾茲曼機和廣義除噪自編碼器等。 **5.1.2 生成模型的意義及應用 **

著名物理學家費曼說過一句話:“只要是我不能創造的,我就還沒有理解。”生成模型恰 如其所描述的,其應用包括: (1)生成模型的訓練和采樣是對高維概率分布問題的表達和操作,高維概率分布問題 在數學和工程領域有很廣泛的應用[3]。(2)生成模型可以以多種方式應用到強化學習中。基于時間序列的生成模型可用來對 未來可能的行為進行模擬;基于假設環境的生成模型可用于指導探索者或實驗者,即使發生 錯誤行為,也不會造成實際損失[4]。(3)生成模型可以使用有缺失的數據進行訓練,并且可以對缺失的數據進行預測。(4)生成模型可以應用于多模態的輸出問題,一個輸入可能對應多個正確的輸出,每一 個輸出都是可接受的[5]。圖5.2是預測視頻的下一幀圖像的多模態數據建模示例。神經網絡的發展大致可以分為神經網絡的興起、神經網絡的蕭條與反思、神經網絡的復 興與再發展、神經網絡的流行度降低和深度學習的崛起共5個階段。

付費5元查看完整內容

擴散模型是近年來快速發展并得到廣泛關注的生成模型。它通過一系列的加噪和去噪過程,在復雜的圖像分布和高斯分布之間建立聯系,使得模型最終能將隨機采樣的高斯噪聲逐步去噪得到一張圖像。來自布加勒斯特大學等學者發布了關于《視覺擴散模型》綜述論文,對應用于視覺的去噪擴散模型的文章進行了全面的回顧,包括該領域的理論和實踐貢獻,值得關注**!**

最近大火的“擴散模型”首篇綜述來了!北大最新《擴散模型:方法和應用》綜述,23頁pdf涵蓋200頁文獻

去噪擴散模型是計算機視覺中的一個新興課題,在生成建模領域顯示了顯著的結果。擴散模型是基于正向擴散和反向擴散兩個階段的深度生成模型。在正向擴散階段,通過加入高斯噪聲對輸入數據進行逐級擾動。在反向階段,模型的任務是通過學習逐步逆轉擴散過程來恢復原始輸入數據。擴散模型因其生成樣本的質量和多樣性而受到廣泛贊賞,盡管其已知的計算負擔,即采樣過程中涉及的大量步驟導致速度較低。本文對應用于視覺的去噪擴散模型的文章進行了全面的回顧,包括該領域的理論和實踐貢獻。首先,我們確定并提出了三種通用的擴散建模框架,它們是基于去噪擴散概率模型、噪聲條件評分網絡和隨機微分方程。我們進一步討論了擴散模型和其他深層生成模型之間的關系,包括變分自編碼器、生成對抗網絡、基于能量的模型、自回歸模型和歸一化流。然后,我們介紹了一種多視角分類擴散模型在計算機視覺中的應用。最后,我們說明了擴散模型目前的局限性,并展望了一些有趣的未來研究方向。

導論

擴散模型[1]-[11]構成了深度生成模型的一個類別,它最近成為計算機視覺中最熱門的話題之一(見圖1),展示了令人印象深刻的生成能力,從高水平的細節到生成示例的多樣性。我們甚至可以說,這些生成模型將生成建模領域的標準提高到一個新的水平,特別是涉及到模型,如Imagen[12]和潛在擴散模型(LDM)[10]。到目前為止,擴散模型已經被廣泛應用于各種生成建模任務,如圖像生成[1]-[7],[10]-[22],圖像超分辨率[10],[12],[23]-[26],圖像修復[1],[3],[4],[10],[23],[25],[27]-[29],圖像編輯[30]-[32],圖像轉換[31],[33]-[37]等。此外,通過擴散模型學習到的潛在表示在判別任務中也很有用,如圖像分割[38]-[41]、分類[42]和異常檢測[43]-[45]。這證實了去噪擴散模型的廣泛適用性,表明進一步的應用還有待發現。此外,學習強潛在表征的能力與表征學習[46],[47]建立了聯系,這是一個全面的領域,研究學習強大數據表征的方法,涵蓋多種方法,從設計新穎的神經結構[48]-[51]到開發學習策略[52]-[57]。

從圖1所示的圖表可以看出,擴散模型的論文數量增長速度非常快。為了概述這一快速發展的主題的過去和現在的成就,本文對計算機視覺中去噪擴散模型的文章進行了全面的回顧。更準確地說,我們調查了以下定義的生成式模型范疇的文章。擴散模型代表了一類深度生成模型,基于(i)前向擴散階段,輸入數據在幾個步驟中通過添加高斯噪聲逐漸受到擾動;(ii)反向(后向)擴散階段,生成模型的任務是從擴散(噪聲)數據中恢復原始輸入數據,通過學習逐步逆轉擴散過程,一步一步。 我們強調,至少有三個子類的擴散模型符合上述定義。第一類是受非平衡熱力學理論啟發的去噪擴散概率模型(DDPMs)[1]、[2]。DDPM是利用潛在變量估計概率分布的潛在變量模型。從這個角度看,DDPM可以看作是一種特殊的變分自編碼(VAEs)[49],正向擴散階段對應于VAE內部的編碼過程,反向擴散階段對應于解碼過程。第二類由噪聲條件評分網絡(NCSNs)[3]表示,它基于通過評分匹配來訓練共享神經網絡,以估計不同噪聲水平下受擾動數據分布的評分函數(定義為對數密度梯度)。隨機微分方程[4]代表了擴散模型的另一種方法,形成了擴散模型的第三個子類別。通過正向和反向SDEs對擴散進行建模,得到了有效的生成策略以及較強的理論結果[58]。后一種表述(基于SDEs)可以被視為對DDPM和NCSNs的泛化。 我們確定了幾個確定的設計選擇,并將它們綜合成三個通用的擴散模型框架,對應于上述三個子類別。在此基礎上,我們進一步討論了擴散模型與其他深層生成模型之間的關系。更具體地說,我們描述了與變分自編碼器(VAEs)[49]、生成對抗網絡(GANs)[51]、基于能量的模型(EBMs)[59]、[60]、自回歸模型[61]和歸一化流[62]、[63]的關系。然后,我們引入了一種用于計算機視覺的擴散模型的多視角分類方法,根據底層框架、目標任務或去噪條件等標準對現有模型進行分類。最后,我們說明了擴散模型目前的局限性,并展望了一些有趣的未來研究方向。例如,可能最成問題的限制之一是推斷過程中較差的時間效率,這是由非常多的計算步驟(例如數千個)導致的,以生成一個示例[2]。當然,在不影響生成樣本質量的情況下克服這一限制是未來研究的一個重要方向。

綜上所述,我們的貢獻有兩方面:

由于視覺領域最近出現了許多基于擴散模型的貢獻,我們提供了一篇全面而及時的文獻綜述,介紹了在計算機視覺中應用的去噪擴散模型,旨在為我們的讀者提供對通用擴散模型框架的快速理解。

我們設計了擴散模型的多視角分類,旨在幫助其他研究應用于特定領域的擴散模型的研究人員快速找到各自領域的相關工作

圖2所示。一個由三種不同形式的擴散模型組成的通用框架:去噪擴散概率模型(DDPM)、噪聲條件分數網絡(NCSNs)和隨機微分方程(SDEs)。基于SDEs的公式是對另外兩種公式的泛化。在正向過程中,輸入x0經過T步逐漸加入高斯噪聲。在相反的過程中,模型通過逐漸去除噪聲來學習恢復原始輸入。在SDE公式中,正向過程基于Eq.(11),反向過程基于Eq.(12)。在DDPM版本中,正向過程采用Eq.(1),反向過程采用Eq.(5)。同理,在NCSN版本中,正向過程采用Eq.(9),反向過程采用退火后的朗之萬動力學。 擴散模型是一類概率生成模型,它可以學習通過在不同尺度上添加噪聲來逆轉逐漸降低訓練數據結構的過程。在接下來的三個小節中,我們提出了三種擴散模型的形式,即去噪擴散概率模型、噪聲條件分數網絡和基于隨機微分方程的方法,該方法推廣了前兩種方法。對于每個公式,我們描述了向數據添加噪聲的過程,學習逆轉這一過程的方法,以及在推斷時如何生成新樣本。在圖2中,所有三個公式都作為一個通用框架進行了說明。我們在最后一小節專門討論與其他深度生成模型的聯系。 考慮到不同的分類標準,我們將擴散模型分為多視角分類法。也許分類模型的最重要的標準是由** (i)它們應用的任務和 (ii) 它們需要的輸入信號定義的。此外,由于形成擴散模型有多種方法,(iii) 底層架構是對擴散模型進行分類的另一個關鍵因素**。最后,在訓練和評估過程中使用的數據集也非常重要,因為這有助于在同一任務中比較不同的基線。我們根據之前列舉的標準對擴散模型的分類如表1所示。

付費5元查看完整內容

近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。

//compstat-lmu.github.io/seminar_nlp_ss20/

在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。

這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。

為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。

遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。

為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。

在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。

本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。

付費5元查看完整內容

使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。

付費5元查看完整內容

近年來,人們對學習圖結構數據表示的興趣大增。基于標記數據的可用性,圖表示學習方法一般分為三大類。第一種是網絡嵌入(如淺層圖嵌入或圖自動編碼器),它側重于學習關系結構的無監督表示。第二種是圖正則化神經網絡,它利用圖來增加半監督學習的正則化目標的神經網絡損失。第三種是圖神經網絡,目的是學習具有任意結構的離散拓撲上的可微函數。然而,盡管這些領域很受歡迎,但在統一這三種范式方面的工作卻少得驚人。在這里,我們的目標是彌合圖神經網絡、網絡嵌入和圖正則化模型之間的差距。我們提出了圖結構數據表示學習方法的一個綜合分類,旨在統一幾個不同的工作主體。具體來說,我們提出了一個圖編碼解碼器模型(GRAPHEDM),它將目前流行的圖半監督學習算法(如GraphSage、Graph Convolutional Networks、Graph Attention Networks)和圖表示的非監督學習(如DeepWalk、node2vec等)歸納為一個統一的方法。為了說明這種方法的一般性,我們將30多個現有方法放入這個框架中。我們相信,這種統一的觀點既為理解這些方法背后的直覺提供了堅實的基礎,也使該領域的未來研究成為可能。

概述

學習復雜結構化數據的表示是一項具有挑戰性的任務。在過去的十年中,針對特定類型的結構化數據開發了許多成功的模型,包括定義在離散歐幾里德域上的數據。例如,序列數據,如文本或視頻,可以通過遞歸神經網絡建模,它可以捕捉序列信息,產生高效的表示,如機器翻譯和語音識別任務。還有卷積神經網絡(convolutional neural networks, CNNs),它根據移位不變性等結構先驗參數化神經網絡,在圖像分類或語音識別等模式識別任務中取得了前所未有的表現。這些主要的成功僅限于具有簡單關系結構的特定類型的數據(例如,順序數據或遵循規則模式的數據)。

在許多設置中,數據幾乎不是規則的: 通常會出現復雜的關系結構,從該結構中提取信息是理解對象之間如何交互的關鍵。圖是一種通用的數據結構,它可以表示復雜的關系數據(由節點和邊組成),并出現在多個領域,如社交網絡、計算化學[41]、生物學[105]、推薦系統[64]、半監督學習[39]等。對于圖結構的數據來說,將CNNs泛化為圖并非易事,定義具有強結構先驗的網絡是一項挑戰,因為結構可以是任意的,并且可以在不同的圖甚至同一圖中的不同節點之間發生顯著變化。特別是,像卷積這樣的操作不能直接應用于不規則的圖域。例如,在圖像中,每個像素具有相同的鄰域結構,允許在圖像中的多個位置應用相同的過濾器權重。然而,在圖中,我們不能定義節點的順序,因為每個節點可能具有不同的鄰域結構(圖1)。此外,歐幾里德卷積強烈依賴于幾何先驗(如移位不變性),這些先驗不能推廣到非歐幾里德域(如平移可能甚至不能在非歐幾里德域上定義)。

這些挑戰導致了幾何深度學習(GDL)研究的發展,旨在將深度學習技術應用于非歐幾里德數據。特別是,考慮到圖在現實世界應用中的廣泛流行,人們對將機器學習方法應用于圖結構數據的興趣激增。其中,圖表示學習(GRL)方法旨在學習圖結構數據的低維連續向量表示,也稱為嵌入。

廣義上講,GRL可以分為兩類學習問題,非監督GRL和監督(或半監督)GRL。第一個系列的目標是學習保持輸入圖結構的低維歐幾里德表示。第二系列也學習低維歐幾里德表示,但為一個特定的下游預測任務,如節點或圖分類。與非監督設置不同,在非監督設置中輸入通常是圖結構,監督設置中的輸入通常由圖上定義的不同信號組成,通常稱為節點特征。此外,底層的離散圖域可以是固定的,這是直推學習設置(例如,預測一個大型社交網絡中的用戶屬性),但也可以在歸納性學習設置中發生變化(例如,預測分子屬性,其中每個分子都是一個圖)。最后,請注意,雖然大多數有監督和無監督的方法學習歐幾里德向量空間中的表示,最近有興趣的非歐幾里德表示學習,其目的是學習非歐幾里德嵌入空間,如雙曲空間或球面空間。這項工作的主要動機是使用一個連續的嵌入空間,它類似于它試圖嵌入的輸入數據的底層離散結構(例如,雙曲空間是樹的連續版本[99])。

鑒于圖表示學習領域的發展速度令人印象深刻,我們認為在一個統一的、可理解的框架中總結和描述所有方法是很重要的。本次綜述的目的是為圖結構數據的表示學習方法提供一個統一的視圖,以便更好地理解在深度學習模型中利用圖結構的不同方法。

目前已有大量的圖表示學習綜述。首先,有一些研究覆蓋了淺層網絡嵌入和自動編碼技術,我們參考[18,24,46,51,122]這些方法的詳細概述。其次,Bronstein等人的[15]也給出了非歐幾里德數據(如圖或流形)的深度學習模型的廣泛概述。第三,最近的一些研究[8,116,124,126]涵蓋了將深度學習應用到圖數據的方法,包括圖數據神經網絡。這些調查大多集中在圖形表示學習的一個特定子領域,而沒有在每個子領域之間建立聯系。

在這項工作中,我們擴展了Hamilton等人提出的編碼-解碼器框架,并介紹了一個通用的框架,圖編碼解碼器模型(GRAPHEDM),它允許我們將現有的工作分為四大類: (i)淺嵌入方法,(ii)自動編碼方法,(iii) 圖正則化方法,和(iv) 圖神經網絡(GNNs)。此外,我們還介紹了一個圖卷積框架(GCF),專門用于描述基于卷積的GNN,該框架在廣泛的應用中實現了最先進的性能。這使我們能夠分析和比較各種GNN,從在Graph Fourier域中操作的方法到將self-attention作為鄰域聚合函數的方法[111]。我們希望這種近期工作的統一形式將幫助讀者深入了解圖的各種學習方法,從而推斷出相似性、差異性,并指出潛在的擴展和限制。盡管如此,我們對前幾次綜述的貢獻有三個方面

  • 我們介紹了一個通用的框架,即GRAPHEDM,來描述一系列廣泛的有監督和無監督的方法,這些方法對圖形結構數據進行操作,即淺層嵌入方法、圖形正則化方法、圖形自動編碼方法和圖形神經網絡。

  • 我們的綜述是第一次嘗試從同一角度統一和查看這些不同的工作線,我們提供了一個通用分類(圖3)來理解這些方法之間的差異和相似之處。特別是,這種分類封裝了30多個現有的GRL方法。在一個全面的分類中描述這些方法,可以讓我們了解這些方法究竟有何不同。

  • 我們為GRL發布了一個開源庫,其中包括最先進的GRL方法和重要的圖形應用程序,包括節點分類和鏈接預測。我們的實現可以在//github.com/google/gcnn-survey-paper上找到。

付費5元查看完整內容
北京阿比特科技有限公司