亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

文本生成領域的進步源于管道中的每一個階段:問題定義、數據整理、學習、解碼和評估。本論文重點關注學習。傳統的訓練目標與評估目標之間存在不匹配:常規的最大似然估計(MLE)嘗試最小化數據集中每個樣本的交叉熵損失,但下游評估通常基于輸入輸出對的兼容性得分(例如,人類對輸出的判斷)。我們的目標是通過直接優化生成文本的獎勵來彌合這一差距

本論文包括以下部分:(1) 獎勵可能難以獲得。為了解決社交對話中的這一挑戰,我們從部署數據中提取隱式信號,而無需額外的人類注釋。為了生成機器人的回應,我們優化未來人類回合中預測的正面反應。我們的方法總體上改進了機器人回應,但某些代理信號可能導致生成更多具有不良屬性的文本。(2) 模型在學習中可能進展緩慢或沒有進展,其中一個想法是獲得更密集和更高質量的獎勵。在神經機器翻譯中,我們從有著悠久歷史的噪聲通道解碼中獲得靈感,基于此我們定義了一個獎勵函數。副產品是我們能夠在確保翻譯質量相似的情況下顯著提高解碼速度。(3) 另一個在學習中取得進展的方法是創新訓練算法。我們將獎勵設定為生成和參考的簡單精確匹配,但在算法方面,我們探索了一個極端情況,即通過將文本生成框架化為離線強化學習問題來不偏離參考太遠。我們提出了從演示中離線學習生成(GOLD):一種通過重要性加權從演示中學習的算法。我們展示了使用GOLD訓練的模型在一系列任務中表現優于使用MLE和策略梯度訓練的模型。(4) 我們展示了不需要依賴強化學習的情況,以推理任務(例如數學、科學、常識)作為測試平臺。我們開發了一種稱為迭代推理偏好優化(IRPO)的方法,通過優化獲勝與失敗的推理思維鏈,使用修改后的直接偏好優化作為標準。與一系列基準相比,IRPO顯著提高了準確性。 最后,我們討論了將大型語言模型作為獎勵的未來方向。我們簡要提及了在使用類似于IRPO的迭代直接偏好優化學習標準的自我獎勵語言模型工作中初步展現的前景;隨后討論了相應的挑戰和下一步措施。此外,提高評估能力的另一種方法可能依賴于人類與AI的協作方法,其最終目標是使最終表現遠遠超過單獨的人類或單獨的AI的表現。

付費5元查看完整內容

相關內容

(New York University),成立于 1831 年,是全美最大的私立大學之一,也是美國唯一一座坐落于紐約心臟地帶的名校。所設課程壓力不大,但要求甚高。而34名諾貝爾獎得主更是使紐約大學光芒四射,享譽世界。紐約大學較為偏重人文藝術及社會科學,研究生院享有很高的聲譽。屬下的帝勢藝術學院是全美最佳的美術學院之一;斯特恩商學院由于得到地靈人杰之助,是蜚聲世界的著名商學院,聚集著世界最頂尖的人才。

監督學習通過使用標記數據集訓練模型,由于其高成本以及泛化性和魯棒性問題,正變得不那么流行。這并不令人意外,因為圖像和語言等數據十分復雜,無法通過單一標簽準確表示。使用這種方法訓練的模型往往學習到與標簽虛假相關的特征,導致在現實世界中表現不佳。本論文探討了使用多種數據源進行表示學習,如圖像和語言或照片和素描。我們通過生成模型和判別模型證明,在多種模態或領域之間提取共同的抽象概念可以獲得更準確和更具泛化能力的表示。此外,我們還研究了提高這些模型數據效率的方法,包括通過對比風格目標使用更少的多模態對,以及通過掩碼圖像建模生成多模態對。最后,我們系統地評估了不同學習目標在分布偏移任務上的魯棒性,以了解它們在現實世界中的實用性。假設你是一名外星人,任務是掌握“狗”的概念,作為征服地球的第一步。如果你的同事Groot建議你通過查看一百萬張狗的圖片并將它們標記為“0”,以及另一百萬張非狗的圖片并將它們標記為“1”來完成這個任務,你可能會覺得他在故意破壞你的職業生涯。相反,更有效(也更有趣)的方式是親自訪問地球,與一些狗互動——讓你有機會看、聽、聞和觸摸它們。事實上,地球上的研究表明,人類在現實世界中的學習涉及多模態或多領域的觀察和互動,例如通過視覺觀察、語言描述或物理互動來感知同一個對象(Stein et al., 2009; Quiroga et al., 2009)。這些不同模態的聯合學習已被證明有助于通過這些模態的表達來促進推理和理解(Yildirim, 2014; Bauer and Johnson-Laird, 1993; Fan et al., 2018)。

盡管有這些見解,大多數機器學習模型仍然使用Groot倡導的單模態監督學習模式進行訓練,其中通過標簽來訓練模型以提取特征。這種模式被用于幾乎所有計算機視覺任務的最先進模型中(Bhat et al., 2021; Zhai et al., 2022; Liu et al., 2022a; Li et al., 2022a):對于圖像分類,標簽是圖像所屬類別的索引;對于深度估計,使用場景中物體的每像素距離來監督模型的學習。雖然這種方法對于某些任務可能有效,但它存在幾個潛在的缺陷。首先,獲取足夠數量的標記數據既昂貴又耗時。此外,這些算法可能脆弱且容易過擬合,尤其是在處理高維和復雜數據時。它們在處理類別分布不均衡的數據集時也可能會遇到困難(Abd Elrahman and Abraham, 2013; Buda et al., 2018)。最近的研究還揭示了使用監督學習訓練的模型容易受到對抗性攻擊(Szegedy et al., 2013)、易受簡單性偏見的影響(Shah et al., 2020),并且在分布外(OOD)泛化性能較差(Koh et al., 2021; Gulrajani and Lopez-Paz, 2020)。

多模態學習,利用不同模態之間復雜而微妙的關系,可能是解決監督學習挑戰的潛在解決方案。除了前面提到的人類學習啟示,多模態學習允許模型通過利用不同模態之間的復雜和微妙的關系來學習抽象概念,從而對給定問題或任務有更全面的理解。這可能解決監督學習從簡單、潛在噪聲和偏見標簽中學習時遇到的魯棒性問題;此外,多模態數據更容易獲取且無需人工標注,因為可以簡單地利用不同感知模態之間的時間一致性。例如,YouTube上的烹飪教學視頻包含三種感知模態:圖像(視頻)、文本(字幕)和音頻(聲音軌道)。可以認為這些模態互為標簽,不同之處在于這些“標簽”更復雜,可能包含輸入模態中未包含的信息。 在本論文中,我們研究了從多模態數據中學習表示。由于目標是探索聯合嵌入來自多個源數據的好處,我們將“模態”的定義從傳統的視覺和語言等感知模態放寬到不同的數據分布,例如狗的素描和真實照片,或同一圖像的兩個隨機增強視圖。這使我們能夠在多種機器學習設置下研究聯合嵌入問題,從領域泛化、自監督學習到視覺-語言生成模型。我們通過生成模型和判別模型展示了從多模態數據中學習的優勢,無論是在流行基準測試中的表現還是在泛化等魯棒性方面;我們還首次提出了多模態深度生成模型的系統需求。此外,受限于我們當時的計算資源和合適的數據集,我們還研究了提高多模態學習數據效率的方法,包括嚴格使用更少的多模態對和生成多模態數據。接下來,我們介紹本論文在這些不同主題上的貢獻如何組織。

貢獻和組織摘要 第2章提供了理解本論文其余部分所需的背景,包括所研究問題的介紹以及全面的文獻綜述。 在第3章中,我們在生成模型設置下研究多模態學習,提出了一種新的多模態VAE,名為MMVAE,它為其所有輸入模態學習高質量、平衡的表示。重要的是,我們的工作是第一個能夠在測試時無需輔助組件進行跨模態生成(例如語言→視覺,視覺→語言)的多模態VAE。此外,我們還提出了多模態VAE應滿足的四個需求,這些需求現已被多模態VAE領域廣泛采用。 第4章繼續研究多模態VAE,并著眼于提高此類模型的數據效率。我們提出了一個可用于任何多模態VAE的對比框架,并通過實驗證明我們的框架大大減少了達到同一性能水平所需的標記多模態對的數量;請注意,我們將對比目標適配于多模態學習的工作早于CLIP(Radford et al., 2021),在發表時具有新穎性。 在第5章中,我們從判別角度重新審視多模態學習問題,研究領域泛化,即模型必須利用多個源領域之間的共性,以便在未見過的目標領域中表現良好。我們提出了一種名為Fish的方法,通過最大化域間梯度內積來鼓勵學習這些共性。 最后,在第6章中,我們研究了自監督學習(SSL),其學習原理可以被認為本質上是“多模態”的,因為學習目標依賴于保持同一圖像的兩個增強視圖之間的共性。我們提出使用對圖像編碼器生成的對抗性掩碼遮蔽一個增強視圖,使我們能夠遮蔽圖像中的完整語義實體,從而從圖像編碼器中學習到更高質量的表示。 值得注意的是,本論文主體所涵蓋的工作研究了三種不同的表示學習機制:基于重構的生成模型(VAE)、監督學習和自監督學習。大多數模型評估遵循標準統計假設,即訓練和測試數據來自相同分布。然而,在機器學習模型的部署中,這一假設并不成立。因此,在附錄A中,我們研究了這些不同機制的方法如何在未見過的分布中泛化,以評估它們在現實世界中的表現。通過精心設計的實驗和評估指標,我們發現令人驚訝的是,特別是自監督學習,在分布變化較大的情況下,泛化效果更好。由于這項工作與論文的多模態主題不太契合,因此我們將其排除在正文之外,感興趣的讀者可參考附錄。

付費5元查看完整內容

人類智能的標志是能夠通過應用從先前任務中學習到的相關知識來處理新任務。因此,人類在適應過程中只需要少量的新任務示例。相比之下,深度學習模型在實現這種卓越的泛化能力方面仍然落后于人類,特別是在數據有限的新任務中。這種學習方式被稱為資源高效學習。在本論文中,我們探討了面向具有視覺能力的深度學習模型的資源高效問題的公式化。我們首先研究了應用于長尾圖像分類的純視覺神經模型。在長尾圖像分類中,尾類的訓練樣本數量稀少,而頭類樣本則豐富。訓練分布的不平衡使得學習良好的尾類表示變得困難。我們提出了插值中心對比學習(ICCL)方法,通過利用豐富的頭類樣本來促進尾類表示的學習。我們在頭類和尾類之間創建插值樣本,并使用新的插值中心對比損失來優化表示。我們在多個長尾評估數據集上展示了ICCL的有效性。

接下來,我們將研究擴展到涉及圖像和文本模態的視覺語言模型(VLMs)。我們調查了零樣本視覺問答(VQA),該方法限制VLMs訪問任何VQA訓練樣本。我們設計了一個模塊化框架PnP-VQA,該框架執行零樣本VQA并且不需要訓練。我們利用自然語言和網絡可解釋性技術作為接口,結合多個預訓練模型。具體來說,我們首先通過關注相關的圖像區域生成多個問題引導的描述,然后將這些描述作為上下文輸入到預訓練語言模型中以回答問題。我們的問題引導描述能夠捕捉詳細的視覺屬性并包含答案詞,從而幫助問答模型獲得正確答案。我們的PnP-VQA在多個VQA基準測試中實現了最先進的結果。

我們最后研究了視覺語言模型(VLMs)的零樣本評估。至關重要的是,VLMs在零樣本設置下的測試任務性能應反映其真實的泛化能力,這樣我們才能對VLMs進行公平比較并跟蹤其進展。當測試任務與VLM的訓練任務高度相似時,該VLM的性能可能會高于那些沒有這種相似性的其他VLMs。因此,我們進行了遷移學習實驗,以研究訓練任務和測試任務之間的相似性,這是在評估VLMs時通常未考慮的。此外,我們通過利用遷移性能上的因子分析,直接從數據中發現潛在的視覺語言技能。我們證明了因子分析是一種有效的數據驅動方法,可以識別出合理但令人驚訝的視覺語言技能。 此外,我們通過提出一個新的基準測試OLIVE,解決了缺乏關注野外VLM評估的視覺語言基準的問題。OLIVE模擬了用戶在實際、現實場景中對VLMs的多樣化查詢。

//dr.ntu.edu.sg/handle/10356/174637

付費5元查看完整內容

在給定某些數據分布的樣本情況下,生成建模的核心目標是從大致相同的分布中生成更多樣本。這一框架最近變得極其流行,其在圖像生成、語言模型和蛋白質合成等領域的應用令人印象深刻。這些方法的顯著成功引發了兩個關鍵問題:在什么條件下生成模型能提供對底層數據分布的準確近似?我們能否擴展它們的應用場景范圍?本論文在兩類生成模型的背景下考慮這些問題:擴散模型和重要性加權自編碼器。

擴散模型通過迭代地向數據分布應用噪聲,然后學習去除這種噪聲來工作。它們最初是為實數值數據引入的。然而,對于許多潛在應用來說,我們的數據最自然地定義在另一個狀態空間上——也許是流形或離散空間。我們描述了擴散模型到任意狀態空間的擴展,使用通用的馬爾可夫過程進行噪聲處理,并展示了這樣的模型如何被有效地學習。我們還提供了對離散狀態空間的特定擴展的詳細研究。接下來,我們調查了擴散模型的近似準確性。我們為流匹配推導出誤差界限——擴散模型的一個概括——并使用受隨機定位啟發的技術改進了擴散模型的現有最優界限。

重要性加權自編碼器(IWAEs)通過學習數據的潛變量表示,使用在證據下界中的重要性抽樣來獲得更緊的變分目標。IWAEs存在幾個限制,包括后驗方差低估、訓練中的信噪比差和重要性抽樣比率中的權重崩潰。我們提出了IWAE的一個擴展——VR-IWAE——解決了這三個問題中的前兩個。然后我們提供了第三個問題的詳細理論研究,表明它甚至在VR-IWAE中也存在。我們在一系列模擬和實際數據上提供了這些現象的實證演示。 在我們設計算法執行的許多最基本的任務中,基本層面上涉及生成數據。例如,我們可能希望有能合成音頻、編寫連貫文本或根據描述繪制圖像的算法。然而,對于大多數有趣的任務,合理數據的分布非常復雜且難以明確指定——準確描述使圖像或文本片段令人信服的特征極其具有挑戰性,最初嘗試構建能在人類水平上執行這些任務的人工智能系統大多因此失敗。幸運的是,對于我們希望生成的許多類型的數據,已有大量現有數據可用。這提出了一種可能性,即我們可以利用這些現有數據來了解一些關于底層分布的信息,然后使用我們所學到的知識來指導我們生成新數據。從數學上看,這一觀點在生成模型的核心問題中得到了體現:給定來自數據分布 pdata(x) 的樣本,我們能否生成來自大致相同分布的附加合成樣本?更一般地,我們問,給定來自聯合分布 pdata(ξ, x) 的樣本,我們能否生成來自條件分布 pdata(x|ξ) 的近似樣本。這使我們能夠例如根據給定的文本提示 ξ 生成圖像 x。能執行此任務的模型稱為生成模型,它們是生成各種條件數據的一種極具影響力的技術。

在過去的十年中,深度學習的興起激發了一系列基于神經網絡的生成建模技術。這些技術包括生成對抗網絡(Goodfellow等,2014年)、變分自編碼器(VAEs)(Kingma等,2014年)、規范化流(Rezende等,2015年)、自回歸模型(Oord等,2016b年)、擴散模型(Sohl-Dickstein等,2015年;Ho等,2020年;Song等,2021b年)以及流匹配方法(Lipman等,2023年;Albergo等,2023b年)。這些模型在各種領域取得了顯著進展,包括圖像合成(Karras等,2020年;Vahdat等,2020年;Ramesh等,2022年;Saharia等,2022年)、文本生成(Brown等,2020年;Anil等,2023年)、音頻生成(Oord等,2016a年;Popov等,2021年;Le等,2023年)和分子結構生成(Ingraham等,2019年;Trippe等,2023年)。這些方法的驚人成功引發了兩個問題,這將是本論文的核心主題: ? 我們能否理解這些生成模型在什么條件下提供對底層數據分布的準確近似? ? 我們能否擴大這些生成模型可能應用的場景范圍?

盡管可能的生成建模技術空間非常廣泛,但在本論文中,我們選擇關注現有技術的一個子集。在論文的第一部分,我們研究了擴散建模及其近親流匹配。在第二部分,我們將注意力轉向變分自編碼器,特別是一種稱為重要性加權自編碼器(IWAE)(Burda等,2016年)的擴展。 擴散模型最初是為定義在 R^d 上的數據開發的(Sohl-Dickstein等,2015年;Ho等,2020年;Song等,2021b年)。然而,有很多形式的數據并不是最自然地表示在 R^d 上。例如,文本數據自然是離散的,而地理空間數據通常取值于球面 S^2。盡管我們可以選擇將這些分布嵌入到實數向量空間中,但開發尊重數據分布內在結構的擴散模型可能更為合適。這些模型的開發是本論文第2章和第3章的主題。 其次,我們調查了擴散模型提供的近似有多準確。具體來說,我們研究了 R^d 上的擴散模型收斂到真實數據分布的速率。我們希望了解這些收斂率可以洞察為什么擴散模型在經驗上如此成功。此外,我們希望它能揭示它們在什么條件下會(或不會)提供準確的近似,可能激勵更有效的擴散方法的設計。這是第4章和第5章的主題。 第三,在第6章中,我們轉向 VAE 及其表親 IWAE,后者在變分目標中使用重要性抽樣以獲得更緊的變分界限。這些方法已被觀察到有幾個實際限制,我們尋求解決。首先,VAE 通常遭受后驗方差低估的問題(Minka,2005年),意味著它們通常無法實現對數據分布的良好覆蓋。Li等(2016年)的先前工作用Rényi的α-散度(Rényi,1961年)替換了VAE目標中的Kullback–Leibler(KL)散度,試圖鼓勵模式尋求行為;我們問這一洞察是否可以推廣到IWAE設置。其次,盡管IWAE提供了更緊的變分界限,但實踐中它的信噪比(SNR)低(Rainforth等,2018年)。我們研究了我們基于α-散度的IWAE擴展對這個問題的影響。第三,我們懷疑 IWAE 邊界中的重要性抽樣應在高維中遭受權重崩潰(Bengtsson等,2008年),這可能使其在實踐中無效;我們旨在提供這一現象的量化分析并展示其實際相關性。

付費5元查看完整內容

本論文描述了增強生成模型的方法,這些方法增加了可控性或不確定性的表達能力,展示了如何通過強大的先驗知識同時實現這兩個特性。一種通用方法是引入新的架構或訓練目標。然而,當前朝著模型規模、訓練數據和計算資源的大規模擴張的趨勢,可能使得重新訓練或微調變得困難且昂貴。因此,另一種方法是在現有的預訓練模型之上構建。我們考慮了這兩種方法,特別強調后者。我們首先通過基于訓練的方法解決可控圖像合成和不確定性估計的任務,然后轉向不需要直接更新基礎模型參數的計算效率方法。我們最后通過討論基于我們發現的洞見的未來方向來結束。

深度學習結合大規模神經網絡在現代機器學習和人工智能(AI)的廣泛任務中帶來了迅速進展。因此,我們看到了越來越多的努力,旨在將 AI 集成到我們日常生活的各個方面,范圍從創意應用(例如,計算機生成的藝術作品)到輔助系統(例如,自動駕駛車輛)。對于與現實世界環境橋接的興趣有助于塑造研究的方向,考慮到了額外的考慮因素和必要的特性。以前述應用為例,能夠控制生成圖像的內容或風格為更廣泛的受眾解鎖了更多用例,并且理解可靠性和/或使自動駕駛系統能夠表達對不熟悉場景的不確定性對于安全決策至關重要。 雖然有時可以通過新架構或訓練目標的顯式設計來整合這樣的特性,但在許多場景下,這種基于訓練的方法是具有挑戰性或甚至不可行的。首先,投入到訓練單個網絡的計算資源本身就非常昂貴,更不用說不得不重新訓練或微調了。其次,深度學習是數據驅動的,其成功的一個主要因素是使用了大量的訓練數據。在如此多數據被收集的時代,數據怎會成為限制因素?世界不是一個均勻分布,其數據也不是(無論是類型/模態還是每個領域的數量)。在資源和/或數據有限的情況下,是否可能操縱現有模型的學習先驗以引出所需的特征? 在這篇論文中,我們探索了可控性和不確定性的主題,特別是在生成模型的背景下。我們考慮了兩種類型的方法——要么使用新目標進行訓練,要么有效地適應現有模型而不直接更新它們的參數。主要貢獻如下: I 可控圖像合成

基于Transformer的多模態圖像合成。我們引入了一種基于Transformer的方法,用于生成以輸入草圖和風格圖像為條件的圖像。為了使訓練成為可能,我們首先使用自動化流程,為125個不同類別收集了大約113K個“偽草圖”-圖像對數據集。Transformer預測的代碼本表示由預訓練的向量量化生成對抗網絡解碼,以產生復合圖像。我們是首次探索這種特定組合的條件輸入用于圖像合成。

使用預訓練擴散模型的多模態圖像合成。我們提出了一種方法,用于將預訓練的無條件或文本條件擴散模型適應于多模態合成。保持擴散模型的參數凍結,我們訓練一個外部模塊,該模塊對擴散模型的輸出應用空間調制。我們展示了所提出的模塊可以有效地添加新的條件模態,而參數和訓練示例相對較少。與其他同時期的工作也旨在調節預訓練網絡不同,我們不需要直接訪問基礎模型的參數或梯度。

文本到圖像擴散模型的高效個性化。我們提出了一種基于低秩殘差的方法,用于文本到圖像擴散模型的高效個性化。給定目標概念的幾張圖像,我們為擴散模型的一小部分參數學習一組殘差,并保持擴散模型凍結。在推理時,我們可以利用底層模型的注意力圖來定位圖像中應用殘差的區域,從而將新概念與底層模型的生成先驗結合起來。與現有方法相比,我們大大減少了可學習參數的數量和訓練時間。

II 生成模型中的不確定性

自動微分變分推理與混合物。我們研究了將混合分布作為變分推理中的后驗的使用。我們引入了一個新的訓練目標,該目標結合了分層抽樣和重要性加權,以對抗可能導致混合組件崩潰成單峰分布的有害探索懲罰。我們展示了在部分或損壞的觀測下改善的生成性能。

用于異常檢測的狀態密度估計。我們探索使用各種類別的生成模型進行無監督異常(OOD)檢測的任務。我們首先使用預訓練的生成模型計算訓練數據上的一系列統計量。我們提出創建一個基于值概率的決策規則,而不是基于統計量的直接值來確定一個新輸入是否為OOD。我們的方法可以輕松應用于任何現有模型,并且性能優于現有的無監督基線。

在第8章中,我們總結了這篇論文的貢獻,并討論了可控圖像合成和生成模型中不確定性的潛在未來方向。

付費5元查看完整內容

雖然生成模型具有令人興奮的潛力,但其有限的可用性為其在現實世界應用中的廣泛采納帶來了重大挑戰。具體而言,現有方法往往會放大埋藏在其訓練數據中的有害社會偏見,并且經常無法準確反映用戶主觀規格,例如在生成輸出中的風格。此外,當處理具有獨特結構的數據分布,如周期性時,存在明顯的性能差距,限制了它們在圖像和文本數據之外的適用性。本論文考慮了所有這些方面,以幫助構建安全、可靠的生成AI系統,以便實際集成和部署。

首先,我們提出了一個方法論框架來應對偏見緩解和可控性的挑戰。基于傳統的密度比率估計(DRE)方法,我們開發了技術來修正已學習的模型分布,使其顯示的特征更接近感興趣的另一個目標分布。這些貢獻不僅為DRE提供了一個新的理論框架,而且還提高了在一系列下游任務上的性能,如域適應、數據增強和互信息估計。接下來,我們展示了這些方法在社會應用中的兩個實際應用。我們證明:(a)我們的重新加權生成建模框架成功地緩解了數據集偏見,以及(b)更可控制的模型可以更好地根據個人偏好定制AI生成的音樂,并協助創作過程。最后,我們總結了開發新的學習算法,將領域特定的歸納偏見整合到無線通信的生成模型中,以及離散數據分布。

基于概率的生成模型為我們今天的社會解鎖了大量新的機會。在大規模數據集和計算能力的推動下,最近的進展使我們能夠自動完成開發者工作流中的代碼[Che+21],根據自然語言指令合成高保真度的圖像和視頻[Ram+21; Ram+22; Rom+22; Yu+22; Ho+22; Sin+22],將風格傳遞給錄制視頻的每一幀[Ess+23],并個性化音樂表演以適應我們的口味[Don+23; Ago+23]。從通過協助數字內容創建為經濟增加數萬億美元的價值,到為創意工作民主化訪問和降低進入門檻,該領域正準備重新定義人工智能(AI)領域內的可能性[Bom+21; Elo+23]。

然而,這種興奮掩蓋了阻礙生成模型在現實世界應用中實際可用性的新出現的瓶頸。盡管它們具有強大的功能,生成模型仍然難以準確捕獲具有周期性(例如,醫學時間序列)和離散性(例如,分子生成的圖)這樣的特性的結構化數據分布。這極大地限制了它們在圖像和文本數據的創意努力之外的實用性。此外,實際將這些模型整合到我們的創意循環中也由于控制其輸出所涉及的復雜性而面臨重大挑戰[Lou+20]。這是因為指導合成輸出的用戶指定控制信號通常很難在數學或語言上明確地表達,而需要大量注釋的數據集進行標記監督或巧妙地導航模型超參數的組合爆炸[Yu+22; Gal+22; Fen+23]。最后,這樣的模型可能是不安全的,并在部署時產生意外的后果。因為生成模型旨在捕獲數據分布,它們不幸地可能放大訓練數據中的有害社會刻板印象,在下游應用中[Wei+21; CZB22]。這種關鍵的故障模式對終端用戶構成了重大的安全風險,他們可能會暴露于或在令人不安的內容中被利用[Jal+21; Bia+22; Ran+22]。因此,大型機構行為者可能會猶豫是否開放這些模型的源代碼,而基于這些技術構建的產品非常難以可靠且安全地部署到廣大公眾。 在這一背景下,任何成功的利用這些AI系統的方法都必須滿足兩個基本標準。首先,它們必須生成忠實于用戶規格的高質量內容,無論控制信號是顯式的(例如,風格)還是隱式的(例如,社會規范或價值觀)。這種細致的控制將確保生成可靠和相關的輸出,適用于實際的、真實世界的應用。第二個要素是,它們必須成功處理各種數據分布。這對于擴展這些模型在各種社會和技術領域的適用性至關重要

付費5元查看完整內容

深度生成模型(DGM)將深度神經網絡與生成模型結合,以學習感興趣數據的底層生成機制。這已經成為從數據中提取知識的重要方法,適用于機器學習和人工智能。然而,盡管具有潛在的潛力,學習和應用DGM在不同領域中仍然存在許多挑戰。因此,本論文的重點是理解、改進和應用不同的深度生成模型。

首先,我們介紹了不同DGM的基本原理,包括變分自動編碼器(VAE)、基于流的模型、生成對抗網絡(GAN)和基于能量的模型(EBM)。我們還提出了VAE的新對應物:變分潛在優化(VLO),它不需要編碼器結構。此外,我們提供了一種新的角度來理解EBM的生成過程,建立了EBM和GAN之間的聯系,并設計了一種新方法來提高EBM樣本質量。

接下來,我們提出了兩種混合型DGM,以改善當前模型的生成質量。首先,我們將基于流的模型和變分自動編碼器結合,以提高基于自動編碼器的生成模型的生成質量。其次,我們借鑒了指數傾斜的思想,將基于能量的模型與其他基于似然性的生成模型相結合,以獲得更好的樣本。

最后,我們進行了與現代深度生成模型相關的各種應用,包括將生成模型用作基于似然性方法的離群分布(OOD)檢測,并設計了可控的人臉生成模型。我們提出了一種新的OOD檢測分數,稱為似然性遺憾,以幫助使用VAE檢測OOD樣本。此外,我們建議在當前基于關鍵點的人臉重演模型中添加新結構,并將其與3D可變模型相結合,以提高其生成質量和泛化能力。

付費5元查看完整內容

盡管生成模型具有令人振奮的潛力,但它們的有限可用性對于在現實世界應用中廣泛采用它們提出了重大挑戰。具體來說,現有方法往往會放大嵌入在其訓練數據中的有害社會偏見,并且通常無法準確反映生成的輸出中的主觀用戶規范,例如風格。此外,當處理具有獨特結構的數據分布時,如周期性,會存在明顯的性能差距,這限制了它們在圖像和文本數據之外的適用性。本論文考慮了所有這些方面,以幫助構建安全可靠的生成式人工智能系統,用于實際集成和部署。

首先,我們提出了一種方法論框架,以應對偏見減輕和可控性方面的挑戰。在經典的密度比估計(DRE)方法基礎上,我們開發了技術,用于糾正學習模型分布,使其表現出更與另一目標分布更緊密對齊的特征。這些貢獻不僅為DRE提供了一個新的理論框架,還提高了在各種下游任務上的性能,如領域自適應、數據增強和互信息估計等。接下來,我們介紹了這些方法在社會應用中的兩個真實應用。我們證明:(a)我們的重新加權生成建模框架成功減輕了數據集偏見,(b)更可控的模型可以更好地定制AI生成的音樂以適應個人偏好,并促進創造過程。最后,我們總結了通過將領域特定的歸納偏見納入無線通信的生成模型以及離散數據分布的生成模型中的新學習算法。

概率生成模型承諾為我們的社會帶來巨大的新機會。受大規模數據集和計算資源的可用性推動,最近的進展已經催生出可以自動完成開發者工作流中的代碼 [Che+21],根據自然語言指令合成高保真度圖像和視頻 [Ram+21; Ram+22; Rom+22; Yu+22; Ho+22; Sin+22],將風格轉移到錄制視頻的每一幀 [Ess+23],并個性化音樂表演以迎合我們的口味 [Don+23; Ago+23] 的機器。從通過協助數字內容創作增加數萬億美元的經濟價值到民主化訪問并降低創意工作的準入門檻,這個領域準備重新定義人工智能(AI)領域的可能性 [Bom+21; Elo+23]。

然而,這種興奮熱潮掩蓋了阻礙生成模型在實際應用中的實用性的新興瓶頸。盡管生成模型具有強大的能力,但它們仍然難以準確捕捉具有周期性(例如,醫學時間序列)和離散性(例如,分子生成的圖形)等特征的結構化數據分布。這極大地限制了它們在涉及圖像和文本數據以外的創意工作之外的實用性。此外,實際將這些模型集成到我們的創意循環中也面臨著重大挑戰,因為控制它們的輸出涉及復雜性 [Lou+20]。這是因為用于引導合成輸出的用戶指定的控制信號通常在數學或語言上很難表達,而是需要大量的帶標簽監督的注釋數據集或巧妙地導航可能的模型超參數組合爆炸 [Yu+22; Gal+22; Fen+23]。最后,這些模型可能存在安全風險,并在部署時產生意想不到的后果。因為生成模型的設計目標是捕捉數據分布,不幸的是,它們可能會在下游應用中放大訓練數據中存在的有害社會刻板印象 [Wei+21; CZB22]。這種重要的故障模式對最終用戶構成了重大安全風險,他們可能會接觸到或被濫用于令人不安的內容 [Jal+21; Bia+22; Ran+22]。因此,大型機構可能會猶豫是否開源這些模型,以及基于這些技術構建的產品可能會受到極大的限制。

在這種背景下,任何成功的方法來利用這些人工智能系統都必須滿足兩個基本標準。首先,它們必須生成高質量的內容,忠實于用戶的規范,無論控制信號是顯式的(比如風格)還是隱式的(比如社會價值觀念)。這種細粒度的控制將確保可靠且相關的輸出,使其適用于實際的現實世界應用。第二個要素是它們必須成功處理各種數據分布。這對于擴展這些模型的適用性到各種社會和技術領域將是至關重要的。

付費5元查看完整內容

本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。

論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。

這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。

近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。

付費5元查看完整內容

長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。

//www.repository.cam.ac.uk/handle/1810/304385

其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容
北京阿比特科技有限公司