生成模型作為統計建模的一個重要家族,其目標是通過生成新實例來學習觀察到的數據分布。隨著神經網絡的興起,深度生成模型,如變分自編碼器(vais)和生成對抗網絡(GANs),在二維圖像合成方面取得了巨大的進展。近年來,由于三維數據與我們的物理世界更接近,在實踐中具有巨大的潛力,研究者們將研究的重點從二維空間轉向了三維空間。然而,與2D圖像不同的是,2D圖像本質上擁有高效的表示(即像素網格),表示3D數據可能面臨更多的挑戰。具體地說,我們希望理想的3D表示能夠足夠詳細地建模形狀和外觀,并且能夠高效地建模高分辨率數據,速度快,內存成本低。然而,現有的三維表示方法,如點云、網格和最近的神經場,通常不能同時滿足上述要求。在本文中,我們從算法和更重要的表示兩方面對3D生成的發展進行了全面的回顧,包括3D形狀生成和3D感知圖像合成。我們希望我們的討論可以幫助社區跟蹤這一領域的發展,并進一步激發一些創新的想法來推進這一具有挑戰性的任務。
//www.zhuanzhi.ai/paper/494ecc28feabb3aeaade6da6523b430f
概述
深度學習[1]的快速發展顯著推進了計算機視覺領域的許多任務,如視覺物體識別[2]、[3]、物體檢測[4]、[5]、[6]、圖像渲染[7]、[8]、[9]等,并在許多方面促進了我們的日常生活,如自動駕駛[10]、[11]、生物研究[12]、智能創造[13]、[14]。在所有類型的技術中,生成建模[15],[16],[17]在數據分析和機器學習中扮演著重要的角色。與直接對輸入進行預測的判別模型不同,生成模型旨在通過創建新實例來再現數據分布。為此,需要對數據進行全面的描述。例如,一個檢測模型可以忽略與任務無關的信息(例如,顏色)而不犧牲性能,但是生成模型被期望管理圖像的每一個細節(例如,對象排列以及每個對象的紋理),以獲得令人滿意的生成。從這個角度來看,學習生成模型通常更具挑戰性,但促進了一系列應用[14],[18],[19],[20]。
在過去的幾年里,深度生成模型[15],[16],[17]在2D圖像合成中取得了不可思議的成功[14],[21],[22]。盡管公式不同,變分自編碼器(vais)[16]、自回歸模型(ARs)[23]、歸一化流(NFs)[24]、生成對抗網絡(GANs)[15]和最新的擴散概率模型(DPMs)[17]都能夠將潛在變量轉換為高質量圖像。然而,如今二維空間中的學習生成模型已經不能滿足一些現實應用的需求,因為我們的物理世界實際上位于3D空間之下。以電影行業為例,我們希望設計3D數字資產,而不是簡單地生產2D圖像,帶來沉浸式的體驗。現有的內容創建管道通常需要大量的專業知識和人力,這可能是耗時和昂貴的。在研究如何自動生成3D數據a1方面,已經進行了許多開拓性的嘗試[25],[26],[27],[28],[29],[30],但這類研究仍處于早期階段。
2D生成和3D生成之間的一個關鍵區別是數據格式。具體來說,二維圖像可以自然地表示為像素值的數組,神經網絡[2]、[3]可以方便地處理這些像素值。相反,有許多3D表示來描述一個3D實例,如點云[31],[32],網格[33],[34],體素網格[35],[36],多平面圖像[37],隱式神經表示[9]等。每種表示都有其優點和局限性。例如,網格緊湊地表示3D形狀,但由于數據結構不規則,神經網絡很難分析和生成。相比之下,體素網格有規律地位于三維空間中,與標準卷積神經網絡工作良好,但體素網格消耗內存,難以表示高分辨率3D場景。因此,選擇合適的表示形式對于3D內容生成至關重要。
鑒于3D生成模型的快速發展,文中對該領域進行了全面的綜述,以幫助社區跟蹤其發展。我們想提到的是,在文獻中已經有一些調查研究生成模型[38],[39],3D視覺[40],[41],[42],[43],以及3D結構[44]和面孔[45]的生成,但仍然缺少對3D生成的全面回顧。如前所述,要完成這樣一項具有挑戰性的任務,有許多候選算法(如vais和GANs)和表示(如點云和隱式神經表示)可供選擇。這個調查有助于理清不同類型的生成模型如何適用于不同的表示。我們將本文的其余部分組織如下。第二節闡明了這項綜述的范圍。第三節介紹了3D生成任務的基本原理,包括各種生成模型的公式和流行的3D表示。第4和第5節分別總結了現有的3D形狀生成方法和3D感知圖像合成方法。第6節討論了3D生成模型的下游應用。第7節提供了3D生成領域的未來工作。
本綜述范圍
在本研究中,我們重點研究訓練網絡對目標三維樣本的數據分布進行建模的方法,并支持三維表示合成的采樣。我們還包括基于某些輸入(如圖像、部分點云或文本句子)預測條件概率分布的方法。請注意,這些條件生成方法旨在合成尊重輸入的3D表示,同時保持生成多樣性。這與經典的三維重建方法形成對比,后者建立從輸入到目標三維表示的一對一映射。我們建議讀者參考[40]、[46]對這些方法的綜述。雖然我們的綜述包括生成3D表示的方法,但我們沒有完全覆蓋神經渲染方法,[40]和[47]中已經詳細討論過。該綜述是對現有的生成模型[38],[39],[44]的調查的補充。
基礎模型
生成式模型旨在以一種無監督的方式了解實際的數據分布,通過嘗試從給定的信息中生成盡可能真實的數據,從而捕獲更多的細節并顯示出更多的創造力。具體來說,首先需要生成模型來總結輸入數據的分布,然后利用生成模型在給定的數據分布中創建或合成樣本。一般來說,生成模型可以分為兩大類。一種是基于似然的模型,包括變分自編碼器(ves)[16],歸一化流(N-Flows)[24],擴散模型(DDPMs)[17]和基于能量的模型(EBMs)[48],這些模型是通過最大化給定數據的似然來學習的。另一種是無似然模型,包括生成對抗網絡(GANs)[15],它建立在兩名玩家的最小最大博弈之上,以尋找納什均衡。下面,我們將簡要回顧不同類型的生成模型。圖1顯示了每個生成模型的一般概念。
計算機視覺和計算機圖形社區已經開發了各種3D場景表示,包括體素網格、點云、網格和神經場。這些表示在三維形狀生成和三維感知圖像合成任務中表現出各自的優點和缺點。例如,與結構良好的2D圖像相比,大多數3D表示都不是常規格式,不能用標準cnn直接處理。3D體素網格通常是規則的,這使得它能夠很好地與3D卷積網絡一起工作。然而,體素網格往往消耗內存,因此難以表示高分辨率的形狀。神經場理論上支持高分辨率形狀建模,但訓練過程中對隱式表示的有效監督是一個有待解決的問題。
三維形狀生成
目前,大多數三維形狀生成方法都是訓練深度神經網絡來獲取三維形狀的分布。與2D圖像相比,3D形狀有許多類型的表示,如體素網格、點云、網格和神經場。這些表示方法在三維形狀生成任務中各有優缺點。評估3D表示是否能與深度生成模型很好地工作,可以考慮很多方面,包括網絡處理表示的容易程度,允許高效生成高質量和復雜的3D形狀,以及生成模型獲取監督信號的成本。表1總結了三維形狀生成的代表性方法。
三維感知圖像生成
三維感知圖像生成的目標是在合成圖像時顯式地控制相機的視點。基于二維gan的模型[217],[218],[219],[220],[221]通過發現與視點軌跡相對應的潛在空間方向來實現這一目標。盡管它們提供了令人印象深刻的結果,但在潛在空間中找到一個合理的方向并不容易,通常不能支持渲染視點的完全控制。本研究的重點是為三維圖像合成明確生成三維表示的工作。與直接用形狀訓練的3D形狀生成方法相比,大多數3D感知的圖像生成方法都是通過可微神經渲染的圖像來監督的,因為通常沒有高質量和大規模的可渲染的3D表示數據集來訓練生成模型。由于缺乏可渲染的3D表示,自動編碼器架構在此任務中很少使用。大多數方法采用生成對抗模型,從潛在空間中提取潛在向量并將其解碼為目標表示。
6 應用
3D生成模型的興起使許多有前途的應用成為可能,如圖12所示。在本節中,我們將討論3D生成模型在編輯、重建和表示學習方面的應用。
7 未來的工作
3D生成模型的發展非常迅速,但在將其用于下游應用程序(如游戲、模擬和增強/虛擬現實)之前,仍有許多挑戰需要克服。在這里,我們討論了3D生成模型的未來發展方向。
通用性:大多數現有的3D生成模型都是在簡單的對象級數據集上進行訓練的,例如,用于3D形狀生成的ShapeNet和用于3D感知圖像合成的FFHQ。我們認為,將3D生成模型擴展到更大程度的通用性是未來研究的一個富有成效的方向。它的通用性包括生成通用對象(如ImageNet或Microsoft CoCo)、動態對象或場景以及大規模場景。與其專注于單一類別,不如學習一種通用的3D生成模型,用于各種類別,如DALL-E2和Imagen[257],[258]和無限3D場景[259],這是非常有趣的。
可控性:3D生成模型的可控性落后于2D生成模型。理想情況下,用戶應該能夠通過用戶友好的輸入控制3D生成過程,包括但不限于語言、草圖和程序。此外,我們認為物理特性的可控性應該進一步研究,包括照明,材料,甚至動力學。
效率:許多3D生成模型需要在多個高端gpu上進行3-10天的訓練,并且在推理過程中速度較慢。我們認為,提高三維生成模型的訓練效率是必要的,而提高推理效率對于下游應用至關重要。
訓練穩定性:3D生成模型的訓練,特別是3D感知的圖像合成模型,通常更容易發生模式崩潰。一種可能的解釋是,物理上有意義的因素的分布,例如相機姿勢和渲染參數,可能與真實圖像不匹配。因此,研究生成模型的訓練穩定性就顯得尤為重要。
神經壓縮是神經網絡和其他機器學習方法在數據壓縮方面的應用。雖然機器學習涉及許多與壓縮密切相關的概念,但由于神經壓縮依賴信息論、感知度量和該領域的其他特定知識,因此進入神經壓縮領域可能很困難。本導論希望通過回顧熵編碼和率失真理論等基本編碼主題、位背編碼和感知度量等相關機器學習思想,并通過目前文獻中的代表性作品提供指導,填補必要的背景知識。
圖1所示 壓縮作為生成模型。
數據壓縮的目標是減少表示有用信息所需的比特數。神經,或學習壓縮,是應用神經網絡和相關機器學習技術的任務。本文旨在通過回顧信息論背景以及神經壓縮的代表性方法和技術,為機器學習研究者提供一個切入點。神經壓縮借鑒了基于學習的圖像處理方法的豐富歷史。事實上,計算攝影中的許多問題可以被視為有損圖像壓縮;例如,圖像超分辨率可以通過學習固定編碼器的解碼器(圖像降采樣過程)[1][2]來解決。事實上,神經網絡在20世紀80年代末和90年代就已經被應用于圖像壓縮[3][4],甚至有一篇早期的綜述文章[5]。與早期的工作相比,現代方法在規模、神經結構和編碼方案上有顯著的不同。
當前神經壓縮的研究很大程度上受到了深度生成模型的啟發,如GANs、VAE、標準化流和自回歸模型[6]、[7]、[8]、[9]。雖然這些模型允許我們從樣本中捕捉復雜的數據分布(這是神經壓縮的關鍵),但研究傾向于生成真實的數據[10]或實現高數據日志密度[8],目標并不總是與數據壓縮一致。可以說,第一個探索數據壓縮的深度生成模型的工作出現在2016年[11],神經壓縮的主題從那時起就有了相當大的發展。許多研究人員已經確定了變分推斷與無損[12][67]以及有損[13][14][15][16]壓縮之間的聯系。本文希望進一步促進這些領域之間的交流,提高對壓縮作為生成建模的一種富有成效的應用以及相關的有趣挑戰的認識。
我們的目標不是調研大量的文獻,而是涵蓋神經壓縮的基本概念和方法,并考慮到精通機器學習但不一定精通數據壓縮的讀者。我們希望通過強調生成建模和機器學習之間的聯系來補充現有的綜述,這些綜述更注重數據壓縮[17][18][19]。神經壓縮提供了從原始數據自動構建壓縮算法的潛力。這對于新的或領域特定的數據類型尤其有用,如VR內容或科學數據,否則開發自定義編解碼器可能會很昂貴。然而,這種潛力的大部分仍未被探索,所以我們的討論集中在圖像壓縮上,大多數學習到的壓縮方法都是在圖像壓縮上首次開發的。盡管如此,這些方法更廣泛地適用于其他類型的數據。我們將在第3.7節中討論一個順序數據的例子,視頻壓縮。有效地壓縮這類數據需要更精細的模型,但調節學習表征的熵/比特率和相關技術的基本思想保持不變。
本介紹由兩個主要部分組成,無損壓縮(第2節)和有損壓縮(第3節);后者依賴于前者來壓縮數據的潛在表示(見圖2)。我們從回顧基本編碼理論(第2.1節)開始,它允許我們將無損壓縮問題轉化為學習離散數據分布。在實踐中,我們需要使用生成式建模的工具來分解潛在的高維數據分布,包括自回歸(第2.2節)、潛在變量(第2.3節),以及其他模型(第2.4節)。每種模型在其與不同熵碼的兼容性上有所不同,并在壓縮比特率和計算效率之間提供了不同的權衡。然后,有損壓縮引入了額外的需要,最常見的是重構的失真,在此基礎上,經典理論和算法,如VQ和變換編碼進行了回顧(第3.1節)。然后,我們介紹神經方法作為轉換編碼的自然擴展(第3.2節),討論量化表示的端到端學習所需的技術(第3.3節),以及試圖繞過量化的有損壓縮方案(第3.4節)。然后,在簡要回顧視頻壓縮(第3.7節)之前,我們探討了其他需要的數據,如重構的感知質量(第3.5節),以及學習到的下游任務表示的有用性(第3.6節)。最后,我們總結在第4節的挑戰和開放的問題,神經壓縮,可能會推動其未來的進展。
機器學習 (ML) 的使用已迅速擴展到多個領域,在結構動力學和振動聲學 (SD&V) 中產生了許多應用。在前所未有的數據可用性、算法進步和計算能力的推動下,ML 從數據中揭示洞察力的能力不斷增強,增強了決策制定、不確定性處理、模式識別和實時評估。 SD&V 中的三個主要應用都利用了這些優勢。在結構健康監測中,機器學習檢測和預測導致安全操作和優化維護計劃。 ML 技術在主動噪聲控制和主動振動控制中利用了系統識別和控制設計。最后,所謂的基于 ML 的代理模型為昂貴的模擬提供了快速替代方案,從而實現了穩健和優化的產品設計。盡管該地區有許多作品,但尚未對其進行審查和分析。因此,為了跟蹤和理解這種持續的領域整合,本文對機器學習在 SD&V 分析中的應用進行了調查,闡明了當前的實施狀態和新出現的機會。為這三種應用中的每一種確定了主要的方法、優勢、局限性和基于科學知識的建議。此外,本文還考慮了數字孿生和物理引導 ML 在克服當前挑戰和推動未來研究進展方面的作用。因此,該調查對在 SD&V 中應用的機器學習的現狀進行了廣泛的概述,并引導讀者深入了解該領域的進展和前景。
圖 9:結構健康監測工作流程:(a)在經典方法中,特征提取和選擇是手工制作的,然后是 ML 方法;(b) 如果使用深度學習,則通過 ML 方法自動執行特征提取和選擇。
圖 15:數字孿生框架:來自物理的數據由數字孿生的數據驅動方法處理,在整個產品生命周期中支持優化和穩健的決策。
引言
深度學習已經實現了廣泛的應用,并在近年來變得越來越流行。多模態深度學習的目標是創建可以使用各種模態處理和鏈接信息的模型。單模態學習雖然得到了廣泛的發展,但還不能涵蓋人類學習的所有方面。多模態學習有助于更好地理解和分析不同感官參與信息處理的過程。本文著重于多種模態,即圖像、視頻、文本、音頻、身體手勢、面部表情和生理信號。本文詳細分析了過去和當前的基準方法,并對多模態深度學習應用的最新進展進行了深入研究。提出了多種多模態深度學習應用的細粒度分類,并對不同的應用進行了更深入的闡述。還討論了這些應用中使用的架構和數據集,以及它們的評估指標。最后,分別對各個領域的主要問題和未來可能的研究方向進行了重點分析。
//www.zhuanzhi.ai/paper/eaf89268e664a48119b223b0c86a7ed1
概述
機器學習(ML)是近年來研究的熱點。它已經在圖像識別、多媒體概念檢索、社會網絡分析、視頻推薦、文本挖掘等領域得到了廣泛的應用。深度學習(Deep Learning, DL)在這些應用中得到了廣泛的應用[117]。計算技術的指數級增長、不可思議的發展和數據可用性促成了DL研究的興起。DL的成功已經成為解決更復雜的ML問題的一個激勵因素。此外,DL的主要優點是它以分層的形式表示,即它可以通過一個通用的學習過程有效地學習。各種新的DL方法已經被開發出來,并在多個應用中顯示出令人印象深刻的結果,如視覺數據處理、自然語言處理(NLP)、語音和音頻處理,以及許多其他廣為人知的應用。多模態深度學習(Multimodal Deep learning, MMDL)是近年來隨著深度學習的發展而引起的重要研究方向。
我們對周圍事物的體驗是多模態的;我們能看到、聽到、觸摸、聞到和嘗到東西。捕獲對象的多個方面,以圖像、文本、視頻、圖形、聲音等不同媒體形式傳遞信息。模態指定存儲特定類型信息的表示格式。因此,上面提到的各種媒體形式都與模態有關,而這些多模態的共同表示可以定義為multimodal[47]。然而,對人類的全部方面進行建模是不夠的。單模態工作更好的地方,方法的進展需要在一個模式。多模態學習表明,當多種感官參與信息處理時,我們能更好地理解和分析。本文著重討論了各種各樣的模態,本文從MMDL的角度探討了多種模態,包括圖像、視頻、文本、音頻、肢體動作、面部表情和生理信號。MMDL的主要目標是構建一個能夠處理來自不同模式的信息并將其關聯起來的模型。
人工智能(AI)的未來已經被DL徹底改變。它解決了AI社區中存在多年的幾個復雜問題。對于MMDL,快速設計了各種具有不同學習框架的深度架構。機器開發出來了在其他應用領域,如自動駕駛汽車、圖像處理、醫療診斷和預測預測等,表現得與人類相似,甚至更好[129]。MMDL的最新進展和發展趨勢包括視聽語音識別(AVSR)[173]、多模態情感識別[26]、圖像和視頻字幕[58,89]、視覺問答(VQA)[161]、多媒體檢索[134]等.
在本研究中,我們討論了多模態深度學習的最新進展和趨勢。各種DL模型被劃分為不同的應用程序組,并使用多種媒體進行了詳盡的解釋。本文重點介紹了使用圖像、音頻、視頻、文本、身體姿勢、面部表情和生理信號等多種形式的應用,并與之前的相關調查進行了比較。提出了一種新的多模式DL應用的細粒度分類方法。此外,還提供了在這些MMDL應用中使用的體系結構、數據集和評估指標的簡要討論。最后,針對每一組應用分別提出了有待解決的研究問題,并詳細列出了未來可能的研究方向。我們希望我們提出的分類和研究方向將促進未來多模態深度學習的研究,并有助于更好地理解這一特定領域尚未解決的問題。
生成對抗網絡(GANs)在過去的幾年里得到了廣泛的研究。可以說,它們最重要的影響是在計算機視覺領域,在這一領域中,圖像生成、圖像-圖像轉換、面部屬性處理和類似領域的挑戰取得了巨大進展。盡管迄今為止已經取得了重大的成功,但將GAN應用于現實世界的問題仍然面臨著重大的挑戰,我們在這里重點關注其中的三個。這是: (1)生成高質量的圖像; (2) 圖像生成的多樣性; (3) 穩定的訓練。我們將重點關注目前流行的GAN技術在應對這些挑戰方面取得的進展程度,并對已發表文獻中GAN相關研究的現狀進行了詳細回顧。我們進一步通過一個分類結構,我們已經采用了基于GAN體系架構和損失函數的變化。雖然到目前為止已經提交了幾篇關于GANs的綜述,但沒有一篇是基于它們在解決與計算機視覺相關的實際挑戰方面的進展來考慮這一領域的現狀。因此,為了應對這些挑戰,我們回顧并批判性地討論了最流行的架構變體和損失變體GANs。我們的目標是在重要的計算機視覺應用需求的相關進展方面,對GAN的研究現狀進行概述和批判性分析。在此過程中,我們還將討論GANs在計算機視覺方面最引人注目的應用,并對未來的研究方向提出一些建議。本研究中所研究的GAN變體相關代碼在
//github.com/sheqi/GAN_Review上進行了總結。
地址:
生成對抗網絡(GANs)在深度學習社區[1]-[6]吸引了越來越多的興趣。GANs已應用于計算機視覺[7]-[14]、自然語言處理[15]-[18]、時間序列合成[19]-[23]、語義分割[24]-[28]等多個領域。GANs屬于機器學習中的生成模型家族。與其他生成模型(如變分自編碼器)相比,GANs提供了一些優勢,如能夠處理清晰的估計密度函數,有效地生成所需樣本,消除確定性偏差,并與內部神經結構[29]具有良好的兼容性。這些特性使GANs獲得了巨大的成功,特別是在計算機視覺領域,如可信圖像生成[30]-[34],圖像到圖像轉換[2],[35]-[41],圖像超分辨率[26],[42]-[45]和圖像補全[46]-[50]。
然而,GANs并非沒有問題。最重要的兩點是,它們很難訓練,也很難評估。由于訓練難度大,在訓練過程中判別器和生成器很難達到納什均衡,生成器不能很好地學習數據集的完整分布是常見的問題。這就是眾所周知的模式崩潰問題。在[51]-[54]這一領域進行了大量的研究工作。在評估方面,首要問題是如何最好地衡量目標pr的真實分布與生成的分布pg之間的差異。不幸的是,不可能準確地估算pr。因此,對pr和pg之間的對應關系進行良好的估計是很有挑戰性的。以往的研究提出了各種對GANs[55] -的評價指標[63]。第一個方面直接關系到GANs的性能,如圖像質量、圖像多樣性和穩定訓練。在這項工作中,我們將研究計算機視覺領域中處理這方面的現有GAN變體,而對第二方面感興趣的讀者可以參考[55][63]。
目前許多GAN研究可以從以下兩個目標來考慮:(1)改進訓練,(2)將GAN應用于現實應用。前者尋求提高GANs性能,因此是后者(即應用)的基礎。考慮到許多已發表的關于GAN訓練改進的結果,我們在本文中對這方面最重要的GAN變體進行了簡要的回顧。GAN訓練過程的改進提供了好處表現如下: (1)改進生成的圖像的多樣性(也稱為模式多樣性) ,(2)增加生成的圖像質量,和 (3) 包含更多 :(1) 介紹相關GAN綜述工作和說明的區別這些評論和這項工作; (2)簡要介紹GANs;(3)回顧文獻中關于“GAN”的架構變體;(4)我們回顧文獻中損失變體的GAN;(5)介紹了GAN在計算機視覺領域的一些應用; (6)引入了GAN的評價指標,并利用部分指標(Inception Score和Frechet Inception Distance, FID)對本文討論的GAN變量進行了比較;(7)我們總結了本研究中的GANs變體,說明了它們的差異和關系,并討論了關于GANs未來研究的幾種途徑。(8)我們總結了這篇綜述,并展望了GANs領域可能的未來研究工作。
文獻中提出了許多GAN變體來提高性能。這些可以分為兩種類型:(1)架構變體。第一個提出的GAN使用完全連接的神經網絡[1],因此特定類型的架構可能有利于特定的應用,例如,用于圖像的卷積神經網絡(CNNs)和用于時間序列數據的循環神經網絡(RNNs);和(2)Loss-variants。這里探討了損失函數(1)的不同變化,以使G的學習更加穩定。
圖2說明了我們對2014年至2020年文獻中具有代表性GANs提出的分類法。我們將目前的GAN分為兩種主要變體,即架構變體和損失變體。在體系架構變體中,我們分別總結了網絡體系結構、潛在空間和應用三大類。網絡架構范疇是指對GAN架構的整體改進或修改,例如PROGAN中部署的漸進機制。潛在空間類別表示基于潛在空間的不同表示方式對架構進行修改,例如CGAN涉及到編碼到生成器和識別器的標簽信息。最后一類,應用,指的是根據不同的應用所做的修改,例如,CycleGAN有特定的架構來處理圖像風格的轉換。根據損失的變化,我們將其分為兩類:損失類型和正則化。損失類型是指GANs需要優化的不同損失函數,正則化是指對損失函數設計的額外懲罰或對網絡進行任何類型的歸一化操作。具體來說,我們將損失函數分為基于積分概率度量和非積分概率度量。在基于IPM的GAN中,鑒別器被限制為一類特定的函數[64],例如,WGAN中的鑒別器被限制為1-Lipschitz。基于非IPM的GAN中的鑒別器沒有這樣的約束。