亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本論文描述了增強生成模型的方法,這些方法增加了可控性或不確定性的表達能力,展示了如何通過強大的先驗知識同時實現這兩個特性。一種通用方法是引入新的架構或訓練目標。然而,當前朝著模型規模、訓練數據和計算資源的大規模擴張的趨勢,可能使得重新訓練或微調變得困難且昂貴。因此,另一種方法是在現有的預訓練模型之上構建。我們考慮了這兩種方法,特別強調后者。我們首先通過基于訓練的方法解決可控圖像合成和不確定性估計的任務,然后轉向不需要直接更新基礎模型參數的計算效率方法。我們最后通過討論基于我們發現的洞見的未來方向來結束。

深度學習結合大規模神經網絡在現代機器學習和人工智能(AI)的廣泛任務中帶來了迅速進展。因此,我們看到了越來越多的努力,旨在將 AI 集成到我們日常生活的各個方面,范圍從創意應用(例如,計算機生成的藝術作品)到輔助系統(例如,自動駕駛車輛)。對于與現實世界環境橋接的興趣有助于塑造研究的方向,考慮到了額外的考慮因素和必要的特性。以前述應用為例,能夠控制生成圖像的內容或風格為更廣泛的受眾解鎖了更多用例,并且理解可靠性和/或使自動駕駛系統能夠表達對不熟悉場景的不確定性對于安全決策至關重要。 雖然有時可以通過新架構或訓練目標的顯式設計來整合這樣的特性,但在許多場景下,這種基于訓練的方法是具有挑戰性或甚至不可行的。首先,投入到訓練單個網絡的計算資源本身就非常昂貴,更不用說不得不重新訓練或微調了。其次,深度學習是數據驅動的,其成功的一個主要因素是使用了大量的訓練數據。在如此多數據被收集的時代,數據怎會成為限制因素?世界不是一個均勻分布,其數據也不是(無論是類型/模態還是每個領域的數量)。在資源和/或數據有限的情況下,是否可能操縱現有模型的學習先驗以引出所需的特征? 在這篇論文中,我們探索了可控性和不確定性的主題,特別是在生成模型的背景下。我們考慮了兩種類型的方法——要么使用新目標進行訓練,要么有效地適應現有模型而不直接更新它們的參數。主要貢獻如下: I 可控圖像合成

基于Transformer的多模態圖像合成。我們引入了一種基于Transformer的方法,用于生成以輸入草圖和風格圖像為條件的圖像。為了使訓練成為可能,我們首先使用自動化流程,為125個不同類別收集了大約113K個“偽草圖”-圖像對數據集。Transformer預測的代碼本表示由預訓練的向量量化生成對抗網絡解碼,以產生復合圖像。我們是首次探索這種特定組合的條件輸入用于圖像合成。

使用預訓練擴散模型的多模態圖像合成。我們提出了一種方法,用于將預訓練的無條件或文本條件擴散模型適應于多模態合成。保持擴散模型的參數凍結,我們訓練一個外部模塊,該模塊對擴散模型的輸出應用空間調制。我們展示了所提出的模塊可以有效地添加新的條件模態,而參數和訓練示例相對較少。與其他同時期的工作也旨在調節預訓練網絡不同,我們不需要直接訪問基礎模型的參數或梯度。

文本到圖像擴散模型的高效個性化。我們提出了一種基于低秩殘差的方法,用于文本到圖像擴散模型的高效個性化。給定目標概念的幾張圖像,我們為擴散模型的一小部分參數學習一組殘差,并保持擴散模型凍結。在推理時,我們可以利用底層模型的注意力圖來定位圖像中應用殘差的區域,從而將新概念與底層模型的生成先驗結合起來。與現有方法相比,我們大大減少了可學習參數的數量和訓練時間。

II 生成模型中的不確定性

自動微分變分推理與混合物。我們研究了將混合分布作為變分推理中的后驗的使用。我們引入了一個新的訓練目標,該目標結合了分層抽樣和重要性加權,以對抗可能導致混合組件崩潰成單峰分布的有害探索懲罰。我們展示了在部分或損壞的觀測下改善的生成性能。

用于異常檢測的狀態密度估計。我們探索使用各種類別的生成模型進行無監督異常(OOD)檢測的任務。我們首先使用預訓練的生成模型計算訓練數據上的一系列統計量。我們提出創建一個基于值概率的決策規則,而不是基于統計量的直接值來確定一個新輸入是否為OOD。我們的方法可以輕松應用于任何現有模型,并且性能優于現有的無監督基線。

在第8章中,我們總結了這篇論文的貢獻,并討論了可控圖像合成和生成模型中不確定性的潛在未來方向。

付費5元查看完整內容

相關內容

在給定某些數據分布的樣本情況下,生成建模的核心目標是從大致相同的分布中生成更多樣本。這一框架最近變得極其流行,其在圖像生成、語言模型和蛋白質合成等領域的應用令人印象深刻。這些方法的顯著成功引發了兩個關鍵問題:在什么條件下生成模型能提供對底層數據分布的準確近似?我們能否擴展它們的應用場景范圍?本論文在兩類生成模型的背景下考慮這些問題:擴散模型和重要性加權自編碼器。

擴散模型通過迭代地向數據分布應用噪聲,然后學習去除這種噪聲來工作。它們最初是為實數值數據引入的。然而,對于許多潛在應用來說,我們的數據最自然地定義在另一個狀態空間上——也許是流形或離散空間。我們描述了擴散模型到任意狀態空間的擴展,使用通用的馬爾可夫過程進行噪聲處理,并展示了這樣的模型如何被有效地學習。我們還提供了對離散狀態空間的特定擴展的詳細研究。接下來,我們調查了擴散模型的近似準確性。我們為流匹配推導出誤差界限——擴散模型的一個概括——并使用受隨機定位啟發的技術改進了擴散模型的現有最優界限。

重要性加權自編碼器(IWAEs)通過學習數據的潛變量表示,使用在證據下界中的重要性抽樣來獲得更緊的變分目標。IWAEs存在幾個限制,包括后驗方差低估、訓練中的信噪比差和重要性抽樣比率中的權重崩潰。我們提出了IWAE的一個擴展——VR-IWAE——解決了這三個問題中的前兩個。然后我們提供了第三個問題的詳細理論研究,表明它甚至在VR-IWAE中也存在。我們在一系列模擬和實際數據上提供了這些現象的實證演示。 在我們設計算法執行的許多最基本的任務中,基本層面上涉及生成數據。例如,我們可能希望有能合成音頻、編寫連貫文本或根據描述繪制圖像的算法。然而,對于大多數有趣的任務,合理數據的分布非常復雜且難以明確指定——準確描述使圖像或文本片段令人信服的特征極其具有挑戰性,最初嘗試構建能在人類水平上執行這些任務的人工智能系統大多因此失敗。幸運的是,對于我們希望生成的許多類型的數據,已有大量現有數據可用。這提出了一種可能性,即我們可以利用這些現有數據來了解一些關于底層分布的信息,然后使用我們所學到的知識來指導我們生成新數據。從數學上看,這一觀點在生成模型的核心問題中得到了體現:給定來自數據分布 pdata(x) 的樣本,我們能否生成來自大致相同分布的附加合成樣本?更一般地,我們問,給定來自聯合分布 pdata(ξ, x) 的樣本,我們能否生成來自條件分布 pdata(x|ξ) 的近似樣本。這使我們能夠例如根據給定的文本提示 ξ 生成圖像 x。能執行此任務的模型稱為生成模型,它們是生成各種條件數據的一種極具影響力的技術。

在過去的十年中,深度學習的興起激發了一系列基于神經網絡的生成建模技術。這些技術包括生成對抗網絡(Goodfellow等,2014年)、變分自編碼器(VAEs)(Kingma等,2014年)、規范化流(Rezende等,2015年)、自回歸模型(Oord等,2016b年)、擴散模型(Sohl-Dickstein等,2015年;Ho等,2020年;Song等,2021b年)以及流匹配方法(Lipman等,2023年;Albergo等,2023b年)。這些模型在各種領域取得了顯著進展,包括圖像合成(Karras等,2020年;Vahdat等,2020年;Ramesh等,2022年;Saharia等,2022年)、文本生成(Brown等,2020年;Anil等,2023年)、音頻生成(Oord等,2016a年;Popov等,2021年;Le等,2023年)和分子結構生成(Ingraham等,2019年;Trippe等,2023年)。這些方法的驚人成功引發了兩個問題,這將是本論文的核心主題: ? 我們能否理解這些生成模型在什么條件下提供對底層數據分布的準確近似? ? 我們能否擴大這些生成模型可能應用的場景范圍?

盡管可能的生成建模技術空間非常廣泛,但在本論文中,我們選擇關注現有技術的一個子集。在論文的第一部分,我們研究了擴散建模及其近親流匹配。在第二部分,我們將注意力轉向變分自編碼器,特別是一種稱為重要性加權自編碼器(IWAE)(Burda等,2016年)的擴展。 擴散模型最初是為定義在 R^d 上的數據開發的(Sohl-Dickstein等,2015年;Ho等,2020年;Song等,2021b年)。然而,有很多形式的數據并不是最自然地表示在 R^d 上。例如,文本數據自然是離散的,而地理空間數據通常取值于球面 S^2。盡管我們可以選擇將這些分布嵌入到實數向量空間中,但開發尊重數據分布內在結構的擴散模型可能更為合適。這些模型的開發是本論文第2章和第3章的主題。 其次,我們調查了擴散模型提供的近似有多準確。具體來說,我們研究了 R^d 上的擴散模型收斂到真實數據分布的速率。我們希望了解這些收斂率可以洞察為什么擴散模型在經驗上如此成功。此外,我們希望它能揭示它們在什么條件下會(或不會)提供準確的近似,可能激勵更有效的擴散方法的設計。這是第4章和第5章的主題。 第三,在第6章中,我們轉向 VAE 及其表親 IWAE,后者在變分目標中使用重要性抽樣以獲得更緊的變分界限。這些方法已被觀察到有幾個實際限制,我們尋求解決。首先,VAE 通常遭受后驗方差低估的問題(Minka,2005年),意味著它們通常無法實現對數據分布的良好覆蓋。Li等(2016年)的先前工作用Rényi的α-散度(Rényi,1961年)替換了VAE目標中的Kullback–Leibler(KL)散度,試圖鼓勵模式尋求行為;我們問這一洞察是否可以推廣到IWAE設置。其次,盡管IWAE提供了更緊的變分界限,但實踐中它的信噪比(SNR)低(Rainforth等,2018年)。我們研究了我們基于α-散度的IWAE擴展對這個問題的影響。第三,我們懷疑 IWAE 邊界中的重要性抽樣應在高維中遭受權重崩潰(Bengtsson等,2008年),這可能使其在實踐中無效;我們旨在提供這一現象的量化分析并展示其實際相關性。

付費5元查看完整內容

近年來,預訓練的神經語言模型在各種自然語言理解和生成任務上取得了顯著的能力。然而,將這些模型擴展到包含數十億參數的趨勢,雖然增強了適應性和新出現的能力,但也因其龐大的規模帶來了顯著的部署挑戰。這些挑戰包括對模型存儲和實際部署的推理延遲的限制、任務適應所需的密集時間和計算成本,以及影響任務適應性的大量冗余參數的存在。受到這些挑戰的驅動,本論文旨在提高這些模型的參數效率,尋求最小化存儲需求、加速推理和適應,并增強泛化能力。

-- 在神經語言模型中提高參數利用率

雖然最近的研究發現預訓練神經語言模型中存在顯著的冗余,但參數冗余對模型泛化能力的影響在很大程度上仍未被深入探討。我們首先考察參數冗余與模型泛化能力之間的關系。觀察到移除冗余參數可以提高泛化能力,我們提出了一種用于微調的自適應優化算法,以提高冗余參數的利用率。實驗結果驗證了在各種下游任務上增加的泛化能力。

-- 神經語言模型中的模型壓縮

我們探索了模型壓縮方法,包括權重修剪和知識蒸餾,以減少模型存儲并加速推理。我們首先開發了一種可靠的迭代修剪方法,該方法考慮到訓練動態中的不確定性。然后,我們深入探討知識蒸餾領域,解決了常常阻礙學生表現的大教師-學生“知識差距”。為了解決這個問題,我們提供了兩種解決方案,通過選擇性地蒸餾與任務相關的知識來產生特定任務的學生。在需要學生跨多種任務適應性的情境中,我們提出通過結合迭代修剪和蒸餾來減少知識差距。我們的方法在相似的壓縮比率下顯著超過傳統的蒸餾方法。 -- 神經語言模型中高效的任務適應

雖然微調是實現下游任務滿意表現的一種重要適應方法,但它既計算密集又耗時。為了加速任務適應,我們研究了超網絡方法,該方法使用輔助超網絡基于少量示例迅速生成特定于任務的權重。我們通過利用內在權重結構作為歸納偏差,改進了權重生成方案,提高了超網絡訓練的樣本效率。與現有的超網絡方法相比,該方法在未見任務上顯示出優越的泛化性能。

//repository.gatech.edu/entities/publication/b2f1067e-2ee3-4b86-b565-1111a50b2cf5

付費5元查看完整內容

這篇論文在機器學習領域做出了重大貢獻,特別是在開放世界場景的背景下,系統面對以前未見過的數據和情境。傳統的機器學習模型通常在一個固定且已知的類別集內進行訓練和測試,這種情況被稱為封閉世界設定。雖然這種假設在受控環境中有效,但在現實世界應用中卻不足夠,因為新的類別或數據分類可能會動態且意外地出現。為了解決這個問題,我們的研究了開放世界機器學習的兩個相互關聯的步驟:超出分布(OOD)檢測和開放世界表示學習(ORL)。OOD檢測專注于識別那些落在模型訓練分布之外的未知類別的實例。這個過程減少了對不熟悉輸入做出過度自信、錯誤預測的風險。超越OOD檢測,ORL擴展了模型的能力,不僅能檢測未知實例,還能從中學習并納入這些新類別的知識。 在OOD檢測領域,我們的工作首先引入了先進的方法論,即ReACT和DICE,它們可以有效地區分已知和未知類別的樣本。ReACT在測試時截斷異常高的單元激活,以減少模型對輸出的過度自信,而DICE通過稀疏化利用模型最有貢獻的權重來進行OOD檢測。此外,我們提出了一種基于距離的OOD檢測方法,通過引入一種非參數方法,使用K-最近鄰(KNN)距離,從而改變了對底層特征空間的剛性分布假設。 超越OOD檢測,ORL涉及更深入地探索未知的學習,回答關于已知和未知類別之間的相互作用,以及標簽信息在塑造表示中的作用的關鍵研究問題。通過嚴格的調查,我們旨在闡明關于已知類別的知識如何有助于揭示以前未見過的類別,以及標簽信息如何影響已知和新穎類別的學習和表示。這種探索激發了一種綜合的算法框架(OpenCon)的開發,用于ORL,由期望-最大化(EM)視角的理論解釋所支撐。 通過深入研究這些開放世界學習的研究問題,本論文為構建不僅表現良好,而且在面對真實世界不斷演變的復雜性時可靠的機器學習模型鋪平了道路。

付費5元查看完整內容

雖然生成模型具有令人興奮的潛力,但其有限的可用性為其在現實世界應用中的廣泛采納帶來了重大挑戰。具體而言,現有方法往往會放大埋藏在其訓練數據中的有害社會偏見,并且經常無法準確反映用戶主觀規格,例如在生成輸出中的風格。此外,當處理具有獨特結構的數據分布,如周期性時,存在明顯的性能差距,限制了它們在圖像和文本數據之外的適用性。本論文考慮了所有這些方面,以幫助構建安全、可靠的生成AI系統,以便實際集成和部署。

首先,我們提出了一個方法論框架來應對偏見緩解和可控性的挑戰。基于傳統的密度比率估計(DRE)方法,我們開發了技術來修正已學習的模型分布,使其顯示的特征更接近感興趣的另一個目標分布。這些貢獻不僅為DRE提供了一個新的理論框架,而且還提高了在一系列下游任務上的性能,如域適應、數據增強和互信息估計。接下來,我們展示了這些方法在社會應用中的兩個實際應用。我們證明:(a)我們的重新加權生成建模框架成功地緩解了數據集偏見,以及(b)更可控制的模型可以更好地根據個人偏好定制AI生成的音樂,并協助創作過程。最后,我們總結了開發新的學習算法,將領域特定的歸納偏見整合到無線通信的生成模型中,以及離散數據分布。

基于概率的生成模型為我們今天的社會解鎖了大量新的機會。在大規模數據集和計算能力的推動下,最近的進展使我們能夠自動完成開發者工作流中的代碼[Che+21],根據自然語言指令合成高保真度的圖像和視頻[Ram+21; Ram+22; Rom+22; Yu+22; Ho+22; Sin+22],將風格傳遞給錄制視頻的每一幀[Ess+23],并個性化音樂表演以適應我們的口味[Don+23; Ago+23]。從通過協助數字內容創建為經濟增加數萬億美元的價值,到為創意工作民主化訪問和降低進入門檻,該領域正準備重新定義人工智能(AI)領域內的可能性[Bom+21; Elo+23]。

然而,這種興奮掩蓋了阻礙生成模型在現實世界應用中實際可用性的新出現的瓶頸。盡管它們具有強大的功能,生成模型仍然難以準確捕獲具有周期性(例如,醫學時間序列)和離散性(例如,分子生成的圖)這樣的特性的結構化數據分布。這極大地限制了它們在圖像和文本數據的創意努力之外的實用性。此外,實際將這些模型整合到我們的創意循環中也由于控制其輸出所涉及的復雜性而面臨重大挑戰[Lou+20]。這是因為指導合成輸出的用戶指定控制信號通常很難在數學或語言上明確地表達,而需要大量注釋的數據集進行標記監督或巧妙地導航模型超參數的組合爆炸[Yu+22; Gal+22; Fen+23]。最后,這樣的模型可能是不安全的,并在部署時產生意外的后果。因為生成模型旨在捕獲數據分布,它們不幸地可能放大訓練數據中的有害社會刻板印象,在下游應用中[Wei+21; CZB22]。這種關鍵的故障模式對終端用戶構成了重大的安全風險,他們可能會暴露于或在令人不安的內容中被利用[Jal+21; Bia+22; Ran+22]。因此,大型機構行為者可能會猶豫是否開放這些模型的源代碼,而基于這些技術構建的產品非常難以可靠且安全地部署到廣大公眾。 在這一背景下,任何成功的利用這些AI系統的方法都必須滿足兩個基本標準。首先,它們必須生成忠實于用戶規格的高質量內容,無論控制信號是顯式的(例如,風格)還是隱式的(例如,社會規范或價值觀)。這種細致的控制將確保生成可靠和相關的輸出,適用于實際的、真實世界的應用。第二個要素是,它們必須成功處理各種數據分布。這對于擴展這些模型在各種社會和技術領域的適用性至關重要

付費5元查看完整內容

盡管生成模型具有令人振奮的潛力,但它們的有限可用性對于在現實世界應用中廣泛采用它們提出了重大挑戰。具體來說,現有方法往往會放大嵌入在其訓練數據中的有害社會偏見,并且通常無法準確反映生成的輸出中的主觀用戶規范,例如風格。此外,當處理具有獨特結構的數據分布時,如周期性,會存在明顯的性能差距,這限制了它們在圖像和文本數據之外的適用性。本論文考慮了所有這些方面,以幫助構建安全可靠的生成式人工智能系統,用于實際集成和部署。

首先,我們提出了一種方法論框架,以應對偏見減輕和可控性方面的挑戰。在經典的密度比估計(DRE)方法基礎上,我們開發了技術,用于糾正學習模型分布,使其表現出更與另一目標分布更緊密對齊的特征。這些貢獻不僅為DRE提供了一個新的理論框架,還提高了在各種下游任務上的性能,如領域自適應、數據增強和互信息估計等。接下來,我們介紹了這些方法在社會應用中的兩個真實應用。我們證明:(a)我們的重新加權生成建模框架成功減輕了數據集偏見,(b)更可控的模型可以更好地定制AI生成的音樂以適應個人偏好,并促進創造過程。最后,我們總結了通過將領域特定的歸納偏見納入無線通信的生成模型以及離散數據分布的生成模型中的新學習算法。

概率生成模型承諾為我們的社會帶來巨大的新機會。受大規模數據集和計算資源的可用性推動,最近的進展已經催生出可以自動完成開發者工作流中的代碼 [Che+21],根據自然語言指令合成高保真度圖像和視頻 [Ram+21; Ram+22; Rom+22; Yu+22; Ho+22; Sin+22],將風格轉移到錄制視頻的每一幀 [Ess+23],并個性化音樂表演以迎合我們的口味 [Don+23; Ago+23] 的機器。從通過協助數字內容創作增加數萬億美元的經濟價值到民主化訪問并降低創意工作的準入門檻,這個領域準備重新定義人工智能(AI)領域的可能性 [Bom+21; Elo+23]。

然而,這種興奮熱潮掩蓋了阻礙生成模型在實際應用中的實用性的新興瓶頸。盡管生成模型具有強大的能力,但它們仍然難以準確捕捉具有周期性(例如,醫學時間序列)和離散性(例如,分子生成的圖形)等特征的結構化數據分布。這極大地限制了它們在涉及圖像和文本數據以外的創意工作之外的實用性。此外,實際將這些模型集成到我們的創意循環中也面臨著重大挑戰,因為控制它們的輸出涉及復雜性 [Lou+20]。這是因為用于引導合成輸出的用戶指定的控制信號通常在數學或語言上很難表達,而是需要大量的帶標簽監督的注釋數據集或巧妙地導航可能的模型超參數組合爆炸 [Yu+22; Gal+22; Fen+23]。最后,這些模型可能存在安全風險,并在部署時產生意想不到的后果。因為生成模型的設計目標是捕捉數據分布,不幸的是,它們可能會在下游應用中放大訓練數據中存在的有害社會刻板印象 [Wei+21; CZB22]。這種重要的故障模式對最終用戶構成了重大安全風險,他們可能會接觸到或被濫用于令人不安的內容 [Jal+21; Bia+22; Ran+22]。因此,大型機構可能會猶豫是否開源這些模型,以及基于這些技術構建的產品可能會受到極大的限制。

在這種背景下,任何成功的方法來利用這些人工智能系統都必須滿足兩個基本標準。首先,它們必須生成高質量的內容,忠實于用戶的規范,無論控制信號是顯式的(比如風格)還是隱式的(比如社會價值觀念)。這種細粒度的控制將確保可靠且相關的輸出,使其適用于實際的現實世界應用。第二個要素是它們必須成功處理各種數據分布。這對于擴展這些模型的適用性到各種社會和技術領域將是至關重要的。

付費5元查看完整內容

本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。

論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。

這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。

近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。

付費5元查看完整內容

隨著機器學習模型在各種應用中的部署越來越頻繁,我們越來越需要更好地理解、交互和調節它們的行為。解釋性機器學習是一個致力于這一需求的研究領域,其主要焦點最初在滿足有利于揭示有關模型預測的可能有用信息的算法屬性的方法論發展。然而,批評也強調了需要更為嚴謹地評估這些方法在不同用戶的具體任務中的應用。在這篇論文中,我們對該領域的方法論和應用方面做出了我們個人的貢獻。在方法論上,我們提出了一種有效的算法,通過影響力大的訓練數據點提供關于模型行為的重要信息。然后,我們提出了一種理論框架,以理解模型在性能和公平性指標上的權衡。接下來,從應用驅動的角度,我們討論了一個評估框架,測試現有的圖像顯著性方法是否適用于實際的假相關檢測任務。最后,受到學術同行評審中實際問題的啟發,我們展示了我們對新的和現有的方法在幫助人類用戶進行文檔匹配任務方面的效用的發現。

在計算機視覺和自然語言處理等實踐領域表現出色的復雜機器學習模型,越來越多地被用來協助人類進行高風險的決策,如醫療、金融、法律和社會應用。這種加速的采用使得人類用戶越來越需要更好地理解、調節和與這些模型交互。解釋性機器學習是一個致力于這一需求的廣泛研究領域。許多文獻中的工作側重于方法論的發展:開發新的滿足各種技術目標的方法,可以有效地從一個黑盒機器學習模型中引出重要和有用的信息。然而,這些方法使用的各種技術目標與引出的信息的實際“重要性”或“有用性”沒有明確的聯系,這本質上依賴于用戶使用信息進行某些下游任務。因此,基于具體應用對開發的方法進行評估,對于完全閉環開發具有實用價值的新方法至關重要。在這篇論文中,我們提出了對這個領域的方法論和應用重點方面的個人貢獻。

付費5元查看完整內容

機器學習模型在面對分布變化時很脆弱,這使得它們在現實世界的部署中很難依賴。這促使開發方法,使我們能夠檢測和減輕這種模型的脆弱性,以及驗證我們的模型確實滿足期望的魯棒性保證。本文提出了一套工具,幫助我們檢測模型漏洞和偏差。該集合包括一套新的數據集,使我們能夠更細粒度地了解模型對背景的依賴。另一方面,它涉及3DB,一個利用逼真模擬的框架,以探測模型對更多樣化分布變化的脆弱性。除了識別這些漏洞外,還討論了可以使模型對分布變化更魯棒的干預措施,包括使用更多的訓練數據。正如所證明的,不加區分地使用更多的輔助數據并不總是有益的,因此提出了數據集投影,一種選擇要使用的"正確"輔助數據的方法。展示了如何有效和形式化地驗證所提出模型對研究最充分的分布漂移類型之一是魯棒的:逐像素對抗性擾動。

付費5元查看完整內容

利用有限的數據進行學習是深度學習的最大問題之一。目前,解決這個問題的流行方法是在大量數據上訓練模型,無論是否標記,然后在同一模態的感興趣的較小數據集上重新訓練模型。直觀地說,這種技術允許模型首先學習某種數據(如圖像)的一般表示。然后,學習這種特定模態的特定任務應該需要更少的數據。雖然這種被稱為“遷移學習”的方法在計算機視覺或自然語言處理等領域非常有效,但它不能解決深度學習的常見問題,如模型可解釋性或對數據的總體需求。本文探索了在數據約束設置中學習表達模型問題的不同答案。我們不再依賴大數據集來學習神經網絡的參數,而是用反映數據結構的已知函數來代替其中的一些參數。這些函數通常都是從內核方法的豐富文獻中提取出來的。實際上,許多核函數都可以解釋,并且/或允許使用少量數據進行學習。所提出方法屬于"歸納偏差"的范疇,可以定義為對手頭數據的假設,限制了學習過程中模型探索的空間。在本文的前兩章中,我們在序列(如自然語言中的句子或蛋白質序列)和圖(如分子)的上下文中證明了該方法的有效性。本文還強調了工作與深度學習最新進展之間的關系。本文的最后一章重點研究凸機器學習模型。這里,我們不是提出新的模型,而是想知道學習一個“好的”模型真正需要數據集中的哪些樣本比例。更準確地說,研究了安全樣本篩選的問題,即在擬合機器學習模型之前,執行簡單測試以丟棄數據集中沒有信息的樣本,而不影響最優模型。此類技術可用于壓縮數據集或挖掘稀有樣本。

付費5元查看完整內容

機器學習模型在有偏差的數據集上訓練時是有偏差的。最近提出了許多方法,以減輕被確定為先驗的偏差。然而,在現實世界的應用中,標注偏差不僅耗時而且具有挑戰性。本論文考慮了三種不同的場景,并提出了學習魯棒模型的新算法。這些算法是有效的,因為它們不需要明確的偏差注釋,從而實現了實用的機器學習。

首先,我們引入了一種算法,該算法對從多個環境中收集的數據進行操作,其中偏差特征和標簽之間的相關性可能會有所不同。我們表明,當使用在一個環境上訓練的分類器對來自不同環境的例子進行預測時,它的錯誤是隱藏偏見的信息。

然后,我們利用這些錯誤來創建一組示例,這些示例的插值結果只具有穩定的相關性。我們的算法在四種文本和圖像分類任務上實現了最新的技術。然后我們考慮無法訪問多個環境的情況,這是新任務或資源有限任務的常見場景。我們證明,在現實世界的應用中,相關的任務往往有類似的偏見。在此基礎上,我們提出了一種算法,從資源豐富的源任務中推斷出偏差特征,并將這種知識轉移到目標任務中。與橫跨5個數據集的15個基線相比,我們的方法始終提供顯著的性能提升。

最后,我們研究了只給出一組輸入標簽對的自動偏差檢測。我們的算法學習分割數據集,使得在訓練分割上訓練的分類器不能泛化到測試分割上。性能差距為測量學習特征的偏差程度提供了一個智能體,因此可以用來識別未知偏差。在六個NLP和視覺任務上的實驗表明,我們的方法能夠產生與人類識別的偏差相關的虛假分裂。

付費5元查看完整內容
北京阿比特科技有限公司