亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

我們展示了在開發穩定、可擴展和可傳遞的用于視覺數據的生成模型方面的進展。我們首先利用自回歸模型學習表達豐富的圖像先驗知識,這些模型可以生成高質量且多樣化的圖像。然后,我們探索了遷移學習,將視覺表征模型推廣到具有有限可用數據的新數據模態。我們提出了兩種方法,通過從預訓練的判別式視覺模型中提取知識,從稀疏的輸入圖像或自然語言描述生成高質量的3D圖形。我們簡要總結了利用去噪擴散概率模型改善生成質量的工作,并展示了如何將其轉移到新的模態,包括使用分數蒸餾采樣進行高質量的文本到3D合成。最后,我們通過優化矢量圖形渲染器,利用從預訓練的文本到圖像擴散模型中提取的知識,從文本生成2D矢量圖形,而無需矢量圖形數據。我們的模型可以在許多模態下實現高質量的生成,并在隨后的工作中得到廣泛應用。

研究主要集中在三類工作上:(i) 可以擴展學習的高效計算機系統,(ii) 開發更具表達力和穩定性的模型,以便從規模效應中受益,以及 (iii) 能夠使模型推廣到新模態的遷移學習算法。在這篇論文中,我將專注于后兩類工作。

從真實樣本中估計高維分布是機器學習和統計學中一個長期存在的挑戰性問題。這樣的分布估計需要一個模型來捕捉一組變量之間的相互依賴關系,例如隨機向量的各個維度。通過參數化分布估計,幾乎可以在真實世界的數據上實現神奇的效果。當這些分布描述圖像時,這些應用包括無條件圖像生成,例如合成無限的人工數據,基于已知屬性的圖像生成,照片編輯,增強技術,如超分辨率或修復,領域轉換等等。深度生成模型還推動了其他數據模態的進展,包括語音合成、音樂生成和自然語言生成。

在深度生成模型的許多研究中,重點是估計無條件參數分布???? (x),通過與任務無關的樣本質量和似然度量來衡量進展。然而,生成建模的吸引力在于先驗分布????在向下游任務中的靈活性,其中通常可以獲取一些條件信息,如類別標簽??或損壞的觀測值x?。在這些設置中,能夠以較低的計算成本訪問所需的后驗分布(例如???? (x|x?))至關重要。通用的推斷算法在某些情況下可以從所需的后驗中進行采樣,但理想情況下,我們希望能夠準確且高效地對這些后驗進行計算。

我們的整體目標是學習和轉移表達豐富的生成視覺模型到許多領域。我們通過消除生成圖像先驗中的架構限制來解決這個問題,然后通過從大型預訓練模型中轉移知識,降低生成應用的數據需求。首先,在第二章中,我們提出了一種改進的PixelCNN自回歸模型架構,支持對數據維度進行任意條件分布的圖像補全應用。我們修改后的架構,局部掩蔽的PixelCNN,允許在集合中共享參數,從而提高密度估計。然而,自回歸模型是強大的密度估計器,但在小尺度上樣本質量較差,采樣速度慢,并且在條件生成任務上相對不夠靈活。特別是,像PixelCNN這樣的自回歸模型一次只對一個數據維度進行采樣,通常需要進行完整的神經網絡前向傳遞,這是低效的。

在第三章中,我們探索了圖像合成的一個具有挑戰性的應用:新視角合成(NVS)問題。NVS的目標是從新的相機位置插值出場景的稀疏視角。在給定稀疏采樣的觀察視角的情況下,基于神經輻射場的現有方法估計了編碼特定場景幾何和外觀的神經網絡的參數。然后,使用體積渲染生成新視角。在我們的工作中,我們提出了一個輔助損失函數,允許將大型圖像編碼器的先驗知識轉移到視角合成問題中。這使得神經輻射場能夠對未見區域進行外推——這對于生成模型來說是一項重要的能力。使用輔助損失函數來約束場景表示還可以改善視角合成的質量,即使只有1-8個觀察圖像。利用自監督模型的先驗知識是提高生成模型的數據效率、靈活性和可控性的一種有前途的方法。是否需要任何觀察?在第四章中,我們展示了特征空間損失可以用于僅通過標題生成一個3D物體。我們描述了一種名為Dream Fields的方法,通過測試時訓練來合成一個3D神經輻射場。Dream Fields由一個經過正則化的3D表示和一個基于預訓練語言模型和圖像編碼器的特征空間對齊的損失函數優化而成。正則化對于高質量是至關重要的。我們的工作為無需使用任何3D訓練數據的開放領域文本到3D生成鋪平了道路。

DietNeRF和Dream Fields依賴于來自自監督視覺Transformer和對比語言-視覺雙編碼器等判別模型的先驗知識。然而,判別模型不一定能夠完全表示高質量合成所需的所有視覺細節。第五章簡要討論了我們在生成建模方面的兩項工作,使得跨模態生成具有更高保真度成為可能。首先,我們開發了一種新的去噪擴散概率模型(DDPM),它在圖像合成方面實現了最先進的樣本質量。DDPM被證明是一種高度可擴展且穩定的先驗模型,可以直接在不同模態下進行訓練。然而,在不同格式的訓練數據可用量上總會存在差異:當前圖像數據集的規模比最大的3D數據集大幾個數量級。在后續的工作中,我們找到了將擴散模型從其訓練模態中轉移出來的新方法。我們提出了分數蒸餾采樣損失來實現這種轉移能力,并將其首次應用于高質量的文本到3D方法,即Dream Fusion。在擴散模型和分數蒸餾采樣的基礎上,我們在第六章中基于預訓練的文本到圖像擴散模型開發了一種文本到SVG的方法,稱為VectorFusion。VectorFusion展示了生成模型從文本中創建抽象的矢量化圖形的潛力。在整個論文中,我們通過將在數據豐富的模態上學習到的大規模先驗知識與可微分的渲染器相結合,構建了強大的合成工具,這些渲染器表示了為下游任務有用的定制模態。第七章提供了總結思考。

付費5元查看完整內容

相關內容

遷移學習(Transfer Learning)是一種機器學習方法,是把一個領域(即源領域)的知識,遷移到另外一個領域(即目標領域),使得目標領域能夠取得更好的學習效果。遷移學習(TL)是機器學習(ML)中的一個研究問題,著重于存儲在解決一個問題時獲得的知識并將其應用于另一個但相關的問題。例如,在學習識別汽車時獲得的知識可以在嘗試識別卡車時應用。盡管這兩個領域之間的正式聯系是有限的,但這一領域的研究與心理學文獻關于學習轉移的悠久歷史有關。從實踐的角度來看,為學習新任務而重用或轉移先前學習的任務中的信息可能會顯著提高強化學習代理的樣本效率。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

視頻是訓練計算機視覺模型的吸引人的數據來源。在線上幾乎存在無限量的視頻,但是進行詳盡的手動標注是不可行的。本論文的目標是通過自監督學習高效地學習強大的視頻表示:這是一種從數據中學習而非人類標注的方法。本論文圍繞三個主題展開:(1)短期視頻的自監督學習,(2)高效的視頻表示學習,以及(3)長期視頻的自監督學習。對于僅持續幾秒鐘的短期視頻,我們展示了預測未來視頻在大規模上是一種強大的學習信號。我們進一步展示,通過采用兩種互補的模態,即 RGB 和光流,并使用它們相互教導,可以學習到強大的視頻表示。對于高效的視頻表示學習,我們展示了大規模預訓練的視覺-語言模型可以通過提示調整技術有效地進行調整。我們還展示,丟棄圖像塊可以加速分類任務的微調和視頻-語言模型的預訓練。對于持續時間超過幾分鐘的長期視頻,我們展示了時間對齊網絡可以通過教學視頻中的弱視覺-文本對應關系進行訓練。由此產生的網絡可以自動清理自然視頻,以進行有效的視覺-語言訓練。此外,我們還展示了可以通過利用預訓練的視覺語言模型來訓練電影描述模型。

視頻是一種通過比特鎖定空間和時間的媒介;它們包含了突出的人類感官信息,如視覺和音頻;同時也攜帶了豐富的關于人類認知的信息,如推理、知識和決策制定,這些反映了人類的智慧。因此,理解視頻是實現人工智能的一個重要里程碑。幸運的是,由于先進的網絡和存儲技術,視頻現在被大量地創建和分享在互聯網上,并且已經成為一個可以用來訓練計算機視覺系統的無限數據源。然而,視頻的巨大可用性排除了手動數據標注的可能性,并推動研究人員創建從原始數據本身學習的方法;這種方法被稱為“自監督學習”。與從“樣本 - 標簽”對(例如 [Krizhevsky等,2012])中學習的監督學習不同,自監督學習(SSL)從一個不涉及任何手動定義標簽的任務中學習。這個任務通常被稱為“代理任務”,它只提供學習信號,而不是學習的最終目標。在從代理任務學習之后,模型生成輸入樣本的表示。這意味著輸入樣本被表示為具有有限維度的向量。表示學習的質量通常通過將學到的表示適應到感興趣的下游任務來評估,如分類、分割和檢索。

受到心理學動機的啟發,以及受到硬件和實現等其他實際因素的影響,我們在本節介紹一些主導論文并指導方法設計的關鍵研究思想。

1.1 從海量視頻數據中學習

視頻是一種非常豐富的視覺數據,例如,每天有超過720,000小時的視頻被上傳到視頻平臺YouTube1,一個人需要82年的時間來觀看它們。我們對開發能夠從海量視頻數據中受益的學習方法感興趣,因為鑒于計算能力和數據處理的快速進步,這些方法在未來具有很高的潛力。因此,本論文的主要關注點是在自然視頻上的大規模訓練。盡管計算資源有限,但我們在大型視頻數據集上探索大規模訓練的極限,例如 Kinetics [Kay et al. 2017; Jo?o Carreira et al. 2018; Jo?o Carreira et al. 2019] 和 HowTo100M [Miech et al. 2019]。在方法設計上,我們從數據本身發現學習信號,這樣一旦有額外的計算資源,我們的方法可以輕松擴展。

1.2 從多模態學習 視頻自然地包含多種模態,如音頻(來自物體和環境的聲音,或人聲)和文本(視頻標題,字幕和觀眾的評論)。在視覺感官輸入中,外觀和運動(光流)也可以寬泛地被視為兩種模態。根據心理學研究,多種模態通常是冗余的,但彼此互補,即不同的模態代表同一觀察的不同方面。對于實際的自監督學習,模態之間的聯系可以用作強大的學習信號。在我們的工作中,我們使用運動模態來教導外觀模態,反之亦然。我們還依賴視覺和文本模態的共現來學習強大的表示。

1.3 高效學習 高效學習對于實現大規模的自監督學習非常重要,原因有兩個。首先,它使具有有限資源訪問的社區能夠進行SSL研究和應用。其次,它減少了大規模計算造成的能耗和對環境的負面影響 [Strubell et al. 2019]。因此,高效學習是本論文的另一個關鍵思想。我們主要采用三種策略來追求高效學習:(1)從預訓練模型學習以節省不必要的計算成本。(2)減少冗余或噪聲學習信號,如連續視頻幀中的圖像塊和無關的視頻字幕。(3)通過少量參數來引導大模型,如提示調整。

2. 論文大綱和貢獻

本節提供了后續論文章節的大綱,并總結了關鍵貢獻。論文分為三個主題:短期視頻的自監督學習,高效視頻表示學習,以及長期視頻的自監督學習。

第一部分:短期視頻的自監督學習

通過“短期”這個詞,我們指的是時長不超過10秒的視頻。10秒是一個大致的界限,源于開創性的Kinetics數據集[Kay et al. 2017],其中的視頻片段被剪輯到約10秒長。在這有限的時間內,短期視頻包含較簡單的語義信息,時間上的變化不大,通常只足以涵蓋一個動作。在這個主題中,我們展示了通過預測未來和從互補模態中學習可以學到強大的視頻表示。特別是在第2章中,我們的動機是預測像素空間是繁重且不必要的,對于學習更高級的語義而言,然后我們提出了一種在特征空間中預測未來視頻的方法。通過在時空特征上使用對比損失進行訓練,這樣的預測模型學習到了一個強大的視頻表示,用于動作分類任務。而且,預測未來的視頻是一個通用任務,適用于任何視頻數據,并且已經證明可以從大數據集訓練中受益。然而,我們注意到視頻預測中存在多個假設的屬性,即鑒于目前的觀察,可能發生多個合理的未來。因此,被訓練成做出單一預測的模型會收斂到在特征空間中對多個可能的未來預測一個平均值,這限制了學習的進步。為了解決多假設問題,在第3章中,我們通過一個外部記憶庫來增強未來預測模塊,該記憶庫包含可學習的特征向量,以便在結構上支持學習多個未來。在第4章中,利用視頻的多模態屬性,我們建議使用一種模態的最近鄰作為偽標簽來訓練另一種模態,反之亦然。特別是,我們使用RGB視頻流和光流流,我們展示了兩種模態的最終表示質量都得到了很大的提高。

第二部分:高效視頻表示學習

從第一部分的實踐經驗中,我們注意到,視頻的自監督學習受益于大量數據和長時間的訓練計劃。然而,考慮到SSL訓練的高資源需求和能耗,開發高效學習方法變得至關重要。在這個主題中,我們展示了兩種可以降低視頻表示學習的訓練成本的方法。在第5章中,我們將輕量級的prompttuning方法應用于工業級的預訓練視覺語言模型,以使用較小的計算成本實現各種下游視頻理解任務,同時保持可比較的性能。在第6章中,我們建議在視覺變換器 [Dosovitskiy et al. 2020] 的視頻-語言預訓練、視頻分類微調和長視頻分類任務中丟棄冗余的輸入視覺塊。這種技術可以加速訓練過程,達到最高4倍,并且使那些需要大量資源的訓練任務在有限的資源下成為可能。

第三部分:長期視頻的自監督學習

在線上的視頻數據絕大多數是未剪輯的長視頻,時長可能是幾分鐘或幾小時。與第一部分中的短期視頻不同,較長的時間軸包含豐富的信息,如復雜活動的程序或電影的故事情節。在這個主題中,展示了兩種針對長期視頻的方法,一種是從教學視頻中學習,另一種是從特色電影中學習。在第7章中,我們利用YouTube上自然教學視頻中的弱文本-視覺對應關系,并提出一種方法來自動將演示者的字幕與視頻中的視覺內容對齊。因此,我們獲得了一個時間對齊網絡,它可以通過執行自動文本-視覺對齊來清理自然教學視頻。在第8章中,我們關注可能持續幾個小時的特色電影。受益于預訓練的視覺-語言模型,我們開發了一種方法,沿著時間軸密集地為電影生成音頻描述。

付費5元查看完整內容

允許生成模擬但不提供分布密度訪問的統計模型被稱為模擬器模型。它們通常由科學家開發,用于表示自然現象,并依賴于具有物理意義的參數。類似地,生成網絡通過將噪聲(或潛在)分布的抽樣通過神經網絡進行轉換,從而從概率分布中產生樣本;對于模擬器模型,密度是不可獲取的。這兩個框架是由不同社區獨立開發的,可以歸為生成模型類;與明確指定密度的統計模型相比,它們更強大且更靈活。

對于生成網絡,通常通過通過自動微分啟用的梯度下降最小化目標函數來獲得參數(或權重)的單點估計。相比之下,對于模擬器模型,通常通過某種統計算法獲得參數的概率分布的樣本。然而,在這兩種情況下,推斷方法都依賴于利用模擬的共同原則。在這篇論文中,我遵循通過評分規則評估概率模型如何與觀察結果相匹配的原則。這概括了基于密度函數的常見統計實踐,并且通過特定的評分規則,允許處理生成模型。

在第1章中進行了詳細的介紹和文獻綜述之后,這篇論文的第一部分(第2章和第3章)涉及推斷模擬器模型參數的概率分布的方法。具體來說,第2章通過一種學習概要統計的新方法為傳統的貝葉斯無似然推斷文獻做出貢獻,這些概要統計被定義為模擬器模型的最佳指數族近似的充分統計。相反,第3章通過定義一個基于廣義貝葉斯推斷框架的新的后驗分布,而不是作為標準后驗的近似來偏離傳統。后驗分布是通過對模擬器模型可計算的評分規則來定義的,并且對異常值具有魯棒性。

在論文的第二部分(第4章和第5章),我研究評分規則最小化以確定生成網絡的權重;對于評分規則的特定選擇,這種方法比流行的替代方法更好地捕捉數據的可變性。我將以這種方式訓練的生成網絡應用于對不確定性敏感的任務:在第4章中,我使用它們為模擬器模型的參數提供概率分布,從而回到第2章和第3章的主題;相反,在第5章中,我考慮概率預測,同時也確立了訓練目標與依賴訓練數據的一致性。 最后,我在第6章中總結了一些最終的想法和未來工作的方向。

付費5元查看完整內容

在機器學習中,長期以來,數據表示的學習一直是一個理想的目標。構建這樣的表示可以使得分類或物體檢測等下游任務高效執行。此外,我們希望這些表示可以以一種可解釋的方式構建,這將允許我們對輸入特性進行細致的干預和推理。其他任務可能包括不同模態之間的交叉生成,或者校準預測使其信心匹配其準確性。一種有效學習表示的方法是通過變分自編碼器(VAE),它對可觀察輸入的潛在變量進行變分推斷。在這篇論文中,我們展示了如何利用VAE:將標簽信息融入學習過程;學習多模態數據的共享表示;以及校準現有神經分類器的預測

數據源通常伴隨著額外的標簽信息,這可能表示輸入中存在某種特性。自然地,我們會問一個問題:是否可以使用額外的標簽信息來構造表示,使其提供關于特性的互操作性概念,例如“這個人在多大程度上在微笑?”。這篇論文的第一項貢獻是解決上述問題,并提出了一個成功使用標簽信息構造潛在空間的方法。此外,這還使我們能夠執行其他任務,如細致的干預;分類;以及有條件的生成。此外,我們也成功地處理了標簽信息缺失的情況,這在訓練這些模型時大大減少了數據負擔。

我們有時并未獲得標簽,而是觀察到了同一對象的另一種非結構化觀察,例如圖像的標題。在這種情況下,模型的目標稍微改變,變成了能夠學習數據的共享表示,使其能夠在模態之間進行交叉生成。這篇論文的第二項貢獻解決了這個問題。在這里,學習是通過在模態之間實施互相監督并引入雙向目標來進行的,這確保了模型中的對稱性。此外,憑借這種方法,我們能夠在某些模態在訓練過程中可能缺失的情況下學習這些表示。

不確定性量化在機器學習中是一項重要的任務,現在眾所周知,當前的深度學習模型嚴重高估了他們的信心。這篇論文的最后一項貢獻是探討如何使用VAE的表示來為神經分類器提取可靠的信心估計。這項研究導向了一種新穎的方法來校準神經分類器,該方法在現成的分類器上進行事后應用,且訓練和測試的速度非常快。

付費5元查看完整內容

在這篇論文中,我通過三個貢獻呈現了使圖像和視頻生成模型對于一般視覺內容創建具有用處的基本要素。首先,我將介紹關于長視頻生成的研究。這項工作提出了一種網絡架構和訓練范例,使其能夠從視頻中學習長期時間模式,這是將視頻生成從短片推進到更長格式連貫視頻的關鍵挑戰。接下來,我將介紹關于生成基于人體姿勢的場景圖像的研究。這項工作展示了生成模型表示人與其環境之間關系的能力,并強調了從大規模復雜的日常人類活動數據集中學習的重要性。最后,我將提出一種教導生成模型按照圖像編輯指示進行操作的方法,通過結合大型語言模型和文本到圖像模型的能力來創建有監督的訓練數據。遵循指示是一個重要步驟,將使得視覺數據的生成模型對人們更有幫助。總的來說,這些工作推進了生成模型在合成圖像和長視頻方面的能力。 在我攻讀博士學位期間,圖像和視頻生成模型已從小眾展示發展為廣泛采用的創意工具。在這個關鍵時期,我很榮幸能夠研究視覺生成模型,我對未來視覺生成模型的變革潛力和實用性感到樂觀。在這篇論文中,我介紹了三項旨在提高生成模型進行視覺內容創作能力的工作。這些工作概述了制作未來圖像和視頻生成模型,使其更有助于人們完成復雜視覺創作任務所需的關鍵元素。在第二章,我討論了能夠表示長期模式的視頻生成模型的開發。增加生成視頻的時長是改善視覺生成模型的重要方面,這些模型以前主要集中在短視頻片段上。長視頻生成對于AI輔助制作長片等應用至關重要。此外,從長視頻中學習有助于深入理解視覺世界,這對于通用視覺生成模型無比寶貴。在其他模態中增加序列長度,如語言和語音建模,已經顯示出這些模型在緊急能力上的巨大提升。同樣,未來的視覺生成模型可能會處理非常長的視頻,最終解鎖變革性的視覺理解和生成能力。我提出的視頻生成方法采取了朝這個方向邁出的一步,將模型在視頻中的時間視野擴大到比以前的研究更大。長視頻帶來了特殊的挑戰,如隨著時間推移在視頻中出現的新物體和風景的建模,以及維護真實環境所期望的物理一致性。我的工作通過引入一種新的視頻生成對抗網絡(GAN),能夠在有效的時間潛在空間中表示長期模式,并且能夠通過將建模問題分解為在不同的時間和空間規模上操作的兩種互補的生成模型,有效地在長視頻上進行訓練,來解決這些困難問題。

在第三章,我介紹了關于從反映日常人類活動的復雜實際數據中學習的研究。人與物體及其周圍環境之間的互動為我們提供了關于世界的豐富信息。我提出了一種通過條件生成模型學習這些關系的方法。早期的生成模型主要集中在特定的內容類別上,如臉部或特定的物體類別。這項工作將生成模型擴展到建模復雜人類場景的領域。只要提供一個人的輸入骨骼姿勢,模型就能夠生成與該姿勢兼容的合理場景。模型可以生成空場景,也可以生成包含輸入姿勢的人的場景。視覺結果表明,該模型開始學習場景可供性和環境與人類行為之間語義關系的微妙理解。這項研究突顯了生成模型通過在大型的日常人類活動的視覺數據集上進行訓練,理解視覺世界復雜關系的能力。

在第四章,我提出了一種通過教導它們遵循圖像編輯指示,使視覺生成模型對人們更有用的技術。考慮人們如何使用生成模型創建視覺內容的界面是至關重要的,我認為理想的界面,除了讀心術,就是與AI系統交談,就像與有創造力的人類專家交談一樣。我們應該能夠明確地告訴AI模型我們希望它們做什么,并收到一個符合我們請求的有用的輸出。基于這個概念,我將介紹的最后一項工作教導生成模型遵循圖像編輯指示。

基于指示的圖像編輯是一個特別具有挑戰性的任務,因為不像其他圖像預測任務,并不存在大量的示例訓練數據集。雖然有大量的圖像,包括許多帶有對應文本的圖像,但沒有大量的帶有編輯指示和對應的前后圖像的數據集,而收集這樣的數據將會極其昂貴并且難以擴展。我展示的工作的一個關鍵洞察是結合大型語言模型和文本到圖像模型的能力來生成必要的訓練數據。隨著生成模型在產生逼真樣本方面變得越來越強大,它們在為其他模型或專門任務創建訓練數據方面也將變得越來越有用。通過結合兩個在不同模態上訓練的大型生成模型的知識——一個大型語言模型和一個文本到圖像模型——可以為基于指示的圖像編輯創建訓練數據,這是單獨的模型無法完成的任務。雖然訓練數據完全是生成的,但結果模型可以推廣到實際輸入,并為各種圖像和指示生成引人入勝的圖像編輯。教導視覺生成模型遵循指示是使基于AI的內容創建更有用的關鍵一步。在未來,將這些能力擴展到超過單一指示,并使用戶和視覺生成模型之間進行全面交談將是至關重要的。總的來說,這些工作確定了未來視覺生成模型的三個關鍵組成部分:隨時間建模長期模式、從復雜視覺數據中學習和遵循視覺生成指示。在開發執行復雜視覺創作任務、輔助人類創造力和將我們的視覺想象變為現實的人工超智能方面,這三個元素都將是必不可少的。

付費5元查看完整內容

作為一種數據生成和表示學習的方法,生成模型在現代機器學習和統計學中獲得了相當大的興趣。生成對抗網絡(Generative Adversarial Networks, GANs)和變分自編碼器(Variational Autoencoders, vae)是兩類重要的隱式生成建模方法,它們對隱變量和數據變量之間的轉換進行建模,以模擬采樣過程,而無需顯式地指定概率分布。由于深度學習的最新發展,生成模型在廣泛的應用中取得了顯著的經驗性能。

盡管生成模型在經驗上取得了成功,但它們的理論屬性不太合理,尤其是GANs的理論屬性。這激發了本文的第一個主題,即f-散度GAN的統計分析。該理論產生了一類具有更高統計效率的GAN新算法,并揭示了統計問題,包括現代算法(GAN)和經典方法(最大似然估計)之間的關系,以及各種f-散度的行為。在雙向生成模型的原則框架下,提供了GAN和VAE的統一視圖。將所提出的方法廣泛應用于計算機視覺和自然語言處理的實際任務,并取得了最先進的性能。本文提出一種新的模型架構和學習公式,基于高效的GAN方法,用于連貫和多樣化的文本生成。

在人類對現實世界的認知和理解中,結構是普遍存在的、固有的。本文的第二部分將重點轉移到生成模型的結構屬性上。這方面的一個新興領域是解耦表示學習,它以現實世界的數據是由一些解釋因素生成的為前提,旨在恢復生成因素及其基本結構。數據的解耦表示在深度學習模型的可解釋性、下游學習任務和可控生成方面有許多好處。解纏的難度取決于可用的監督數量以及基礎結構的復雜性。眾所周知,解纏在完全無監督的環境中是不可能的。現有的解纏文獻大多考慮簡單的結構,如在給定一些觀察輔助變量的情況下的獨立性或條件獨立性,而更普遍(且具有挑戰性)的結構是因果結構,其中潛在因素由因果圖連接。本文形式化了之前方法在因果情況下的失敗,提出了一種基于具有因果先驗的雙向生成模型的因果因素解纏方法。對所提算法的可辨識性和漸近收斂性進行了理論證明。開發了一種非參數方法,從觀察數據中學習因果結構。

//lbezone.hkust.edu.hk/bib/9903412#

付費5元查看完整內容

盡管數據規模在增長,但我們希望將學習算法的許多應用都受到數據數量和質量的限制。生成模型提出了一個框架,可以自然地將先驗信念與現實世界的數據結合起來。生成式方法的核心是概率推理的挑戰,或估計給定觀測的潛變量。這一挑戰催生了涵蓋多種統計技術的豐富研究領域。最近,深度學習方法被用來解決推理查詢,被恰當地命名為深度推理。在我的論文中,我將探索深度推理的擴展,以應對現實世界的稀疏性和效率的挑戰。我將介紹實際應用的案例研究,其中深度推理在以前的工作上取得了相當大的改進。

本文主要圍繞三個部分展開。我們介紹了生成模型和深度推理的背景,重點是現代變分方法。第一部分將提出新的泛化推理算法,以對不同的稀疏性概念(如多模態數據、缺失數據或計算約束)具有魯棒性。其次,我們研究了元平攤推理,或“推斷如何推斷”。一種雙平攤推理算法將能夠廉價地解決一個新的生成模型的推理查詢。我們將展示一種新的算法來重新利用掩碼語言建模來實現這一點。

第三,我們提出了深度推理在教育中的兩個現實應用:(a)在項目反應理論和相關心理測量模型下估計學生的能力,(b)為學生學習解決編程問題推理教育反饋。總之,這些貢獻展示了深度推理在教育中的豐富性和實用性,以及在現實世界中更廣泛的應用。

付費5元查看完整內容

模型必須能夠自我調整,以適應新環境。深度網絡在過去十年取得了巨大成功,特別是當訓練和測試數據來自相同的分布時。不幸的是,當訓練(源)與測試(目標)數據不同時,性能會受到影響,這種情況稱為域移位。模型需要自我更新以應對這些意外的自然干擾和對抗性擾動,如天氣變化、傳感器退化、對抗性攻擊等。如果我們有一些標記的目標數據,可以使用一些遷移學習方法,如微調和少樣本學習,以有監督的方式優化模型。然而,對目標標簽的要求對于大多數現實場景是不實際的。**本文專注于無監督學習方法,以將模型泛化到目標域。

本文研究了完全測試時自適應的設置,在不獲取目標標簽和源數據的情況下,將模型更新到不可控的目標數據分布。換句話說,模型在這個設置中只有它的參數和未標記的目標數據。其核心思想是利用測試時間優化目標,熵最小化,作為可學習模型的反饋機制,在測試時間內關閉循環。我們通過在線或離線的方式優化模型,以測量輸出熵的置信度。這種簡單有效的方法可以降低自然破壞和對抗性擾動圖像分類的泛化誤差。此外,語義分割模型的自適應特性可用于處理場景理解的動態尺度推理。通過對比學習和擴散模型,我們可以學習目標域特征并生成源風格的圖像,進一步提高動態環境下的識別性能。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-229.html

付費5元查看完整內容

深度神經網絡在學習給定數據集上的表示方面取得了巨大的成功。然而,在許多情況下,學習到的表示是依賴于數據集的,不能轉移到具有不同分布的數據集,即使是對于相同的任務。如何處理域漂移是提高模型泛化能力的關鍵。域適應提供了一個潛在的解決方案,允許我們將具有豐富標簽的源域轉移到只有有限標簽或沒有標簽的目標域。

在本論文中,我將介紹在不同場景下學習可遷移表示的許多方法,包括1) 當源域只有有限的標簽,甚至每個類只有一個標簽時,2) 當有多個標記源域時,3) 當有多個未標記的目標域時。這些方法在不同的數據模態(如視覺和語言)中是通用的,并且可以很容易地組合起來解決其他類似的領域轉移設置(如從具有有限標簽的多個源適應),使模型能夠泛化到源域之外。許多工作將知識從模擬數據轉移到真實數據,以減少對昂貴的手動注釋的需求。最后,介紹了我們在構建LiDAR 點云模擬器方面的開創性工作,進一步實現了LiDAR 點云分割的大量領域適配工作。

//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-213.html

付費5元查看完整內容

盡管最近在深度學習方面取得了進展,但大多數方法仍然采用豎井式的解決方案,即為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實世界的問題需要同時解決許多任務。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,對其進行定位,估計其距離和軌跡等,以便在其周圍環境中安全導航。類似地,用于商業應用的圖像識別系統應該能夠標記產品、檢索類似的商品、提出個性化的建議等,以便為客戶提供盡可能好的服務。這類問題促使研究人員建立多任務學習模型。多任務學習的核心思想是并行學習多個任務,同時共享學習到的表示。與單任務情況相比,多任務網絡具有許多實際的優點,單任務情況下,每個單獨的任務由自己的網絡單獨解決。首先,由于層的共享,產生的內存占用大大減少。其次,由于它們避免在共享層中重復計算特征,每個任務一次,它們顯示出提高的推理速度。第三,如果相關的任務共享互補信息,或者作為一個正則化器,它們有可能提高性能。

在構建多任務學習模型時,我們面臨著兩個重要的挑戰。首先,我們需要想出能夠處理多個任務的神經網絡架構。其次,我們需要為共同學習任務制定新的訓練方案。特別是,由于我們并行地優化多個目標,一個或多個任務可能會開始主導權重更新過程,從而阻礙模型學習其他任務。在這份手稿中,我們在視覺場景理解的背景下鉆研了這兩個問題。我們提出了兩種新的模型類型來解決體系結構問題。首先,我們探索了分支多任務網絡,其中神經網絡的更深層次逐漸成長為更具體的任務。我們介紹了一種有原則的方法來自動構建這樣的分支多任務網絡。構造過程將可以用一組相似特征來解決的任務組合在一起,同時在任務相似性和網絡復雜性之間進行權衡。通過這種方式,我們的方法生成的模型可以在性能和計算資源量之間做出更好的權衡。

其次,我們提出了一種新的神經網絡結構,用于聯合處理多個密集的預測任務。其關鍵思想是從多個尺度上對其他任務的預測中提取有用信息,從而提高對每個任務的預測。包含多個尺度的動機是基于這樣的觀察:在某個尺度上具有高相似性的任務不能保證在其他尺度上保持這種行為,反之亦然。在密集標記的兩個流行基準上進行的廣泛實驗表明,與之前的工作不同,我們的模型提供了多任務學習的全部潛力,即更小的內存占用,減少的計算數量,以及更好的性能w.r.t.單任務學習。此外,我們還考慮了多任務學習優化問題。我們首先分析幾種平衡任務學習的現有技術。令人驚訝的是,我們發現了這些工作之間的一些差異。我們假設,這可能是由于多任務學習缺乏標準化的基準,不同的基準受益于特定的策略。基于這個結果,我們然后分離最有希望的元素,并提出一組啟發式方法來平衡任務。啟發式具有實際性質,并在不同的基準測試中產生更魯棒的性能。

在最后一章中,我們從另一個角度來考慮場景理解的問題。文獻中描述的許多模型都受益于有監督的預訓練。在這種情況下,在轉移到感興趣的任務之前,模型首先在一個更大的帶注釋的數據集(如ImageNet)上進行預訓練。這使得模型能夠很好地執行,即使是在只有少量標記示例的數據集上。不幸的是,有監督的預訓練依賴于帶注釋的數據集本身,這限制了它的適用性。為了解決這個問題,研究人員開始探索自監督學習方法。我們以對比學習為基礎來回顧最近流行的作品。首先,我們展示了現有的方法,如MoCo可以在不同的數據集上獲得穩健的結果,包括以場景為中心的數據、長尾數據和特定領域的數據。其次,我們通過增加額外的不變性來改進學習的表示。這一結果直接有利于許多下游任務,如語義分割、檢測等。最后,我們證明了通過自監督學習所獲得的改進也可以轉化為多任務學習網絡。綜上所述,本文提出了幾個重要的貢獻,以改進多任務學習模型的視覺場景理解。創新集中在改進神經網絡結構、優化過程和訓練前方面。所有方法都經過了各種基準測試。該代碼公開發布://github.com/SimonVandenhende。

付費5元查看完整內容
北京阿比特科技有限公司