雖然生成模型具有令人興奮的潛力,但其有限的可用性為其在現實世界應用中的廣泛采納帶來了重大挑戰。具體而言,現有方法往往會放大埋藏在其訓練數據中的有害社會偏見,并且經常無法準確反映用戶主觀規格,例如在生成輸出中的風格。此外,當處理具有獨特結構的數據分布,如周期性時,存在明顯的性能差距,限制了它們在圖像和文本數據之外的適用性。本論文考慮了所有這些方面,以幫助構建安全、可靠的生成AI系統,以便實際集成和部署。
首先,我們提出了一個方法論框架來應對偏見緩解和可控性的挑戰。基于傳統的密度比率估計(DRE)方法,我們開發了技術來修正已學習的模型分布,使其顯示的特征更接近感興趣的另一個目標分布。這些貢獻不僅為DRE提供了一個新的理論框架,而且還提高了在一系列下游任務上的性能,如域適應、數據增強和互信息估計。接下來,我們展示了這些方法在社會應用中的兩個實際應用。我們證明:(a)我們的重新加權生成建模框架成功地緩解了數據集偏見,以及(b)更可控制的模型可以更好地根據個人偏好定制AI生成的音樂,并協助創作過程。最后,我們總結了開發新的學習算法,將領域特定的歸納偏見整合到無線通信的生成模型中,以及離散數據分布。
基于概率的生成模型為我們今天的社會解鎖了大量新的機會。在大規模數據集和計算能力的推動下,最近的進展使我們能夠自動完成開發者工作流中的代碼[Che+21],根據自然語言指令合成高保真度的圖像和視頻[Ram+21; Ram+22; Rom+22; Yu+22; Ho+22; Sin+22],將風格傳遞給錄制視頻的每一幀[Ess+23],并個性化音樂表演以適應我們的口味[Don+23; Ago+23]。從通過協助數字內容創建為經濟增加數萬億美元的價值,到為創意工作民主化訪問和降低進入門檻,該領域正準備重新定義人工智能(AI)領域內的可能性[Bom+21; Elo+23]。
然而,這種興奮掩蓋了阻礙生成模型在現實世界應用中實際可用性的新出現的瓶頸。盡管它們具有強大的功能,生成模型仍然難以準確捕獲具有周期性(例如,醫學時間序列)和離散性(例如,分子生成的圖)這樣的特性的結構化數據分布。這極大地限制了它們在圖像和文本數據的創意努力之外的實用性。此外,實際將這些模型整合到我們的創意循環中也由于控制其輸出所涉及的復雜性而面臨重大挑戰[Lou+20]。這是因為指導合成輸出的用戶指定控制信號通常很難在數學或語言上明確地表達,而需要大量注釋的數據集進行標記監督或巧妙地導航模型超參數的組合爆炸[Yu+22; Gal+22; Fen+23]。最后,這樣的模型可能是不安全的,并在部署時產生意外的后果。因為生成模型旨在捕獲數據分布,它們不幸地可能放大訓練數據中的有害社會刻板印象,在下游應用中[Wei+21; CZB22]。這種關鍵的故障模式對終端用戶構成了重大的安全風險,他們可能會暴露于或在令人不安的內容中被利用[Jal+21; Bia+22; Ran+22]。因此,大型機構行為者可能會猶豫是否開放這些模型的源代碼,而基于這些技術構建的產品非常難以可靠且安全地部署到廣大公眾。 在這一背景下,任何成功的利用這些AI系統的方法都必須滿足兩個基本標準。首先,它們必須生成忠實于用戶規格的高質量內容,無論控制信號是顯式的(例如,風格)還是隱式的(例如,社會規范或價值觀)。這種細致的控制將確保生成可靠和相關的輸出,適用于實際的、真實世界的應用。第二個要素是,它們必須成功處理各種數據分布。這對于擴展這些模型在各種社會和技術領域的適用性至關重要。
近年來,機器學習在許多應用中證明了其極高的用途性。然而,這些成功故事很多都源于在與訓練數據非常相似的數據上評估算法。當應用于新的數據分布時,機器學習算法已被證明會失敗。鑒于現實世界數據的非平穩和異構性質,我們需要更好地掌握算法在分布外(out-of-distribution)的泛化能力,以便算法能被廣泛部署和信任。我的論文提出了三個研究課題,旨在調查和發展分布外泛化的領域。這些研究努力的中心目標是產生新的工具,如算法、理論結果、實驗結果和數據集,以提高在數據分布發生變化時機器學習方法的理解和性能。貫穿這三個機器學習場景的高級思想是模塊性——由組合在一起形成一個整體的獨立部分的質量。模塊化方法被假設為引導機器學習方法遠離僵化的記憶示例,走向更靈活和“更智能”的支持泛化的學習。
在我的第一項貢獻中,我從多個訓練分布的學習角度來接近論文目標。對這一研究方向的貢獻有兩方面。首先,我呈現了一組新的標準化任務,用于評估和比較分布外泛化算法。其次,我陳述了一系列新的理論結果,填補了數據中心和算法方法之間在分布外泛化方面的現有差距。這些理論發現引導了一組關于如何采用算法方法的新的實用建議。
在第二項貢獻中,我處理了監督圖像識別中的泛化問題。在這一背景下,我首先調查了多級特征聚合對泛化的影響,并證明了使用其中一種考慮的方法進行增強可以持續提高性能。其次,我提出了一組簡單的圖像數據集,可作為評估和比較圖像分類方法在分布外泛化方面的墊腳石。最后,我深入研究了多個神經網絡通信以解決共享任務的學習場景。這項工作以兩種方式支持論文目標。首先,我提出了一個新的環境,圖引用游戲(graph referential games),并在數據表示和相應的數據表示學習方法對分布外泛化的影響上提出了結果。這些結果連接了之前不相連的圖表示學習和新興通信領域。其次,我解決了基于現實圖像的群體通信這一具有挑戰性的領域。這篇論文中的數據集、算法、定理和實驗結果代表了在機器學習中理解和改進分布外泛化方面的幾個步驟。它們為研究人員提供了旨在促進這一領域研究的新工具和結果,其中一些已被證明對研究社群有用。最后,這項工作提出了機器學習的多個分布學習、圖像分類和多代理通信子領域中重要的未來方向。
//www.repository.cam.ac.uk/items/8680585b-87ca-4196-987f-c4d379259092
記憶與學習是否相同?阿根廷作家豪爾赫·路易斯·博爾赫斯(Jorge Luis Borges)的短篇小說《記憶者富內斯》(Funes the Memorious,由James E. Irby翻譯成英文[71,第59–66頁])描述了一個名叫富內斯的男孩,在頭部受傷后獲得了完美的記憶。他開始詳細地記住他一生的每一個時刻。同時,他失去了泛化的能力:他的記憶彼此是孤立的。例如,他從不同的角度看到同一只狗,卻只把同一只狗的不同側面視為獨立的信息。他甚至不了解自己的身體是什么樣的(‘每次看到鏡中的自己的臉,看到自己的手,都讓他感到驚訝’),這導致了一個結論:‘思考就是忘記一個差異,進行泛化,進行抽象。在富內斯過于充實的世界里,只有細節。’""與富內斯相似,具有數百萬參數的現代神經網絡已被證明會記住訓練樣本,這可能導致一系列問題,例如:(1)對噪聲數據的高度敏感性[150, 221],(2)易受對抗性攻擊的影響[271, 87, 269, 287],(3)與人類學習相比樣本效率低[302, 303, 275],以及(4)對新數據的泛化能力差[62],即使新數據樣本直觀地與模型已經訓練過的數據有相似之處[61, 251]。這些問題可能出現在應用現代機器學習的任何領域。它們可能導致機器學習系統在使用過程中產生不透明的故障模式,從而導致對機器學習系統的信任度下降[297]。"
"標準機器學習方法中缺少對分布外泛化(Out-of-distribution generalisation)的能力。這些方法得到了統計學習理論[279]的支持,該理論證明了使用基于平均值的優化(經驗風險最小化[279])以及使用測試集估計泛化誤差的做法是合理的。然而,這一理論假設訓練(過去)和測試(未來)數據是獨立同分布的。在應用機器學習的許多實際領域中,這一假設是不正確的:現實世界的數據是異構的,其分布通常會隨時間變化。分布變化的實際來源包括機器學習系統用戶特性的變化,或一個有實體的代理(embodied agent)所處環境的變化。另一個常見的分布變化例子是由于語言(包括在線使用的語言)動態性而產生的。自然語言的不斷演變已被證明會改變語言模型的困惑度(perplexity),當這些模型在數月內多次應用時[164]。背景章節的第2.4節更多地涵蓋了分布變化的類型和相應的例子。由于這些變化,即使在常用的分布內測試集上達到接近100%的準確率也不總是能預示未來的性能,這一點已被眾多論文所證明[137, 15, 61, 235, 204, 62]。"
"在機器學習領域,關于分布外泛化(OOD generalisation)的主題實質上與機器學習本身一樣廣泛和復雜,并且在研究社群中同樣容易受到瞬息萬變的趨勢和不同觀點的影響。在我看來,面對分布變化提高泛化能力是必要的,原因如下: ? 工程原因 — 提高樣本效率,并在沒有數千個訓練樣本的低資源領域提高性能[110]; ? 科學原因 — 深入了解神經網絡是如何學習的,并可能讓機器學習更接近人類學習; ? 商業原因 — 在目前由人類執行的越來越復雜的任務中使用神經網絡; ? 社會原因 — 通過控制簡單性偏見[246]來消除機器學習系統的偏見。
利用數據中的‘捷徑’可能會導致不公平的解決方案(例如,這可以在招聘工具中利用性別信息時看到[59])。在我的博士研究期間,我一直在問自己:致力于分布外泛化的機器學習研究社群最需要什么樣的工具?這篇論文旨在以新數據集、新理論結果、新測試平臺、新實驗結果和新算法的形式提供這樣的工具。這些研究努力的具體成果總結在圖1.1中。"
導致這篇論文的研究工作涉及機器學習的三個子領域:多分布學習(第3章)、圖像分類(第4章)和多智能體通信(第5章)。這種廣泛的視角使我能夠收集更多證據來支持中心假設,并探討研究問題(第1.2節)。同時,本論文中介紹的工具旨在對我在博士研究期間有幸與之合作和學習的幾個機器學習社群有所用處:(1)不變學習和群體魯棒性社群(第3章),(2)視覺社群(第4章),以及(3)新興通信社群(第5章)。所有這些社群都在獨立地研究機器學習中的分布外泛化,正如我在背景章節(第2章)以及各自貢獻章節中所回顧的。本論文聯系了我在研究中涉足的之前是分離的社群,例如圖神經網絡[141]與新興通信[43](第5章),以及面向群體魯棒性的數據導向方法[36]與分布魯棒優化[21](第3章)。"
盡管生成模型具有令人振奮的潛力,但它們的有限可用性對于在現實世界應用中廣泛采用它們提出了重大挑戰。具體來說,現有方法往往會放大嵌入在其訓練數據中的有害社會偏見,并且通常無法準確反映生成的輸出中的主觀用戶規范,例如風格。此外,當處理具有獨特結構的數據分布時,如周期性,會存在明顯的性能差距,這限制了它們在圖像和文本數據之外的適用性。本論文考慮了所有這些方面,以幫助構建安全可靠的生成式人工智能系統,用于實際集成和部署。
首先,我們提出了一種方法論框架,以應對偏見減輕和可控性方面的挑戰。在經典的密度比估計(DRE)方法基礎上,我們開發了技術,用于糾正學習模型分布,使其表現出更與另一目標分布更緊密對齊的特征。這些貢獻不僅為DRE提供了一個新的理論框架,還提高了在各種下游任務上的性能,如領域自適應、數據增強和互信息估計等。接下來,我們介紹了這些方法在社會應用中的兩個真實應用。我們證明:(a)我們的重新加權生成建模框架成功減輕了數據集偏見,(b)更可控的模型可以更好地定制AI生成的音樂以適應個人偏好,并促進創造過程。最后,我們總結了通過將領域特定的歸納偏見納入無線通信的生成模型以及離散數據分布的生成模型中的新學習算法。
概率生成模型承諾為我們的社會帶來巨大的新機會。受大規模數據集和計算資源的可用性推動,最近的進展已經催生出可以自動完成開發者工作流中的代碼 [Che+21],根據自然語言指令合成高保真度圖像和視頻 [Ram+21; Ram+22; Rom+22; Yu+22; Ho+22; Sin+22],將風格轉移到錄制視頻的每一幀 [Ess+23],并個性化音樂表演以迎合我們的口味 [Don+23; Ago+23] 的機器。從通過協助數字內容創作增加數萬億美元的經濟價值到民主化訪問并降低創意工作的準入門檻,這個領域準備重新定義人工智能(AI)領域的可能性 [Bom+21; Elo+23]。
然而,這種興奮熱潮掩蓋了阻礙生成模型在實際應用中的實用性的新興瓶頸。盡管生成模型具有強大的能力,但它們仍然難以準確捕捉具有周期性(例如,醫學時間序列)和離散性(例如,分子生成的圖形)等特征的結構化數據分布。這極大地限制了它們在涉及圖像和文本數據以外的創意工作之外的實用性。此外,實際將這些模型集成到我們的創意循環中也面臨著重大挑戰,因為控制它們的輸出涉及復雜性 [Lou+20]。這是因為用于引導合成輸出的用戶指定的控制信號通常在數學或語言上很難表達,而是需要大量的帶標簽監督的注釋數據集或巧妙地導航可能的模型超參數組合爆炸 [Yu+22; Gal+22; Fen+23]。最后,這些模型可能存在安全風險,并在部署時產生意想不到的后果。因為生成模型的設計目標是捕捉數據分布,不幸的是,它們可能會在下游應用中放大訓練數據中存在的有害社會刻板印象 [Wei+21; CZB22]。這種重要的故障模式對最終用戶構成了重大安全風險,他們可能會接觸到或被濫用于令人不安的內容 [Jal+21; Bia+22; Ran+22]。因此,大型機構可能會猶豫是否開源這些模型,以及基于這些技術構建的產品可能會受到極大的限制。
在這種背景下,任何成功的方法來利用這些人工智能系統都必須滿足兩個基本標準。首先,它們必須生成高質量的內容,忠實于用戶的規范,無論控制信號是顯式的(比如風格)還是隱式的(比如社會價值觀念)。這種細粒度的控制將確保可靠且相關的輸出,使其適用于實際的現實世界應用。第二個要素是它們必須成功處理各種數據分布。這對于擴展這些模型的適用性到各種社會和技術領域將是至關重要的。
本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。
論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。
這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。
近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。
語言模型已在自然語言處理中無處不在,它們利用大量未標記的數據并為下游任務進行微調。但人們對這些模型生成的文本的準確性和可信度提出了擔憂。
與此同時,差分隱私已成為一種框架,用于保護敏感信息,同時允許機器學習算法從中學習。然而,統計保證與實用性之間的權衡對許多應用都帶來了挑戰**。因此,這篇論文旨在開發平衡保證和實用性的技術,重點是提高生成模型的可靠性,同時保持其靈活性**。
首先,我們提出了一個框架,可以有條件地使用硬約束生成文本,允許用戶事先指定某些元素,而留下其他元素供模型預測。通過促進交互式編輯和重寫,此框架為用戶提供了對生成文本的精確控制。 接下來,我們引入了在軟約束下生成預測的共形預測方法,以確保統計的正確性。這些方法在保持高經驗精度的同時,為文本生成產生有效的置信集。
最后,我們通過放寬差分隱私的保證概念到基于猜測的定義,探索數據發布中隱私與實用性之間的平衡。我們提出了一種基于學習的去識別化方法,解決了隱私保護的挑戰,同時仍能有效地利用數據。我們提出的方法的有效性通過一系列任務得到了證明,包括文本填充、放射學報告生成和X光分類。這些任務展示了我們的技術在各種實際場景中的實用性。
最近機器學習領域取得了重大的進展,其中序列模型是深度學習模型的核心,這些模型在科學應用中取得了廣泛的成功。然而,現有的方法需要針對不同任務、模態和能力進行大量的專門化,存在計算效率瓶頸,并且在建模更復雜的序列數據(例如涉及長依賴性的情況)時存在困難。因此,繼續開發有原則和實用性的建模通用序列的方法仍然具有基本重要性。本論文提出了一種使用狀態空間模型進行深度序列建模的新方法,該方法具有理論基礎、計算效率高,并在各種數據模態和應用中取得了強大的結果。首先,我們引入了一類具有多種表示和屬性的模型,它們綜合了標準深度序列模型(如循環神經網絡和卷積神經網絡)的優勢。然而,我們表明計算這些模型可能具有挑戰性,并且開發了一類在現代硬件上非常快速的結構化狀態空間,無論是在長序列的擴展上還是在其他設置(如自回歸推斷)上。最后,我們提出了一種新穎的數學框架,用于逐步建模連續信號,它可以與狀態空間模型相結合,賦予它們具有原則性的狀態表示,并提高其對長程依賴關系的建模能力。總的來說,這種新的方法類為機器學習模型提供了有效且多功能的構建模塊,特別是在大規模處理通用序列數據方面具有重要意義。
在海量數據的時代,高效的機器學習算法變得至關重要。然而,許多常見的機器學習算法依賴于在大數據集上計算成本過高的子程序。通常,現有的技術會對數據進行子采樣或使用其他方法來提高計算效率,但這會以引入一些近似誤差為代價。這篇論文表明,往往只需用一種特殊的隨機化方法替代計算密集型的子程序,就能在幾乎不降低質量的情況下獲得足夠的效果。這篇論文的結果是基于自適應采樣文獻中的技術。第1章以一個特定的自適應采樣問題為引子:多臂老虎機中的最佳臂識別。我們首先提供了環境設定和最佳臂識別問題的正式描述。然后,我們介紹了一種名為“連續淘汰”的通用算法,用于解決最佳臂識別問題。在第2章,第3章和第4章,我們將把在第1章中開發的技術應用于不同的問題。在第2章,我們討論了如何將k-medoids聚類問題簡化為一系列的最佳臂識別問題。我們利用這一發現提出了一種基于連續淘汰的新算法,該算法在聚類質量上與先前的最新技術相當,但達到相同解的速度要快得多。在數據生成分布的一般假設下,我們的算法在樣本復雜性上實現了 O( n logn ) 的降低,其中 n 是數據集的大小。
在第3章中,我們分析了訓練基于樹的模型的問題。這類模型的大部分訓練時間都用在分割樹的每個節點上,即確定在哪個特征和相應的閾值處分割每個節點。我們展示了節點分割子程序可以簡化為一個最佳臂識別問題,并介紹了一種訓練樹的最新算法。我們的算法僅依賴于每個可能分割的相對質量,而不是顯式地依賴于訓練數據集的大小,并將數據集大小n的顯式依賴從常用的先前算法的O(n)降低到O(1)。我們的算法通常適用于許多基于樹的模型,如隨機森林和XGBoost。在第4章中,我們研究最大內積搜索問題。我們注意到,與k-medoids和節點分割問題一樣,最大內積搜索問題可以簡化為一個最佳臂識別問題。有了這個觀察,我們為高維數據集中的最大內積搜索問題提出了一個新穎的算法。在對數據的合理假設下,我們的算法將與數據集維數d的顯式比例從O(√d)降低到O(1)。我們的算法具有幾個優點:它不需要對數據進行預處理,能自然處理新增或刪除的數據點,并包含一個超參數來權衡準確性和效率。第5章以總結本論文的貢獻和未來工作的可能方向作為結論。
//searchworks.stanford.edu/view/14783548
長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。
//www.repository.cam.ac.uk/handle/1810/304385
其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。
模型必須能夠自我調整,以適應新環境。深度網絡在過去十年取得了巨大成功,特別是當訓練和測試數據來自相同的分布時。不幸的是,當訓練(源)與測試(目標)數據不同時,性能會受到影響,這種情況稱為域移位。模型需要自我更新以應對這些意外的自然干擾和對抗性擾動,如天氣變化、傳感器退化、對抗性攻擊等。如果我們有一些標記的目標數據,可以使用一些遷移學習方法,如微調和少樣本學習,以有監督的方式優化模型。然而,對目標標簽的要求對于大多數現實場景是不實際的。**本文專注于無監督學習方法,以將模型泛化到目標域。
本文研究了完全測試時自適應的設置,在不獲取目標標簽和源數據的情況下,將模型更新到不可控的目標數據分布。換句話說,模型在這個設置中只有它的參數和未標記的目標數據。其核心思想是利用測試時間優化目標,熵最小化,作為可學習模型的反饋機制,在測試時間內關閉循環。我們通過在線或離線的方式優化模型,以測量輸出熵的置信度。這種簡單有效的方法可以降低自然破壞和對抗性擾動圖像分類的泛化誤差。此外,語義分割模型的自適應特性可用于處理場景理解的動態尺度推理。通過對比學習和擴散模型,我們可以學習目標域特征并生成源風格的圖像,進一步提高動態環境下的識別性能。
//www2.eecs.berkeley.edu/Pubs/TechRpts/2022/EECS-2022-229.html
深度學習方法是最近計算機視覺快速發展的基礎。然而,這些方法往往需要昂貴的標記數據。特定于任務的模型,如分類器,并不是為了最大限度地學習一般的內部表示。此外,這些模型不能模擬數據生成過程來合成新樣本,也不能修改輸入樣本。無監督深度生成模型有可能避免這些問題。
然而,兩個主要的生成模型家族,生成對抗網絡(GAN)和變分自編碼器(VAE),都有各自的特點問題。基于GAN的模型在架構上相對復雜,有一個識別器網絡,但通常沒有編碼器來接受輸入。此外,GAN訓練通常是不穩定的,并且容易忽略訓練分配的部分(“模式崩潰”或“模式下降”)。另一方面,VAEs往往高估分布的某些區域的方差,導致生成的圖像模糊。
這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。
這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。
這項工作介紹和評估模型和技術,以大大減少上述問題,并生成銳利的圖像輸出與一個簡單的自動編碼器架構。這是通過兩個總體原則實現的。首先,一個合適的技術組合,從GAN模型被集成到最近引入的類似于VAE的對抗生成器-編碼器。第二,網絡的遞歸性質在幾個方面得到了利用。自動調制器代表了一類新的自動編碼器,其特征是使用隱含表示來調制解碼器層的統計信息。該網絡可以獲取多個圖像作為輸入,從中生成融合的合成樣本,輸出的一些尺度由一個輸入驅動,另一個尺度由另一個驅動,允許瞬時“風格混合”和其他新的應用。
最后,使用高斯過程框架,圖像編碼器-解碼器設置從單個圖像擴展到圖像序列,包括視頻和攝像機運行。為此,輔助圖像元數據在生成模型的潛在空間中以非參數先驗的形式被利用。這允許平滑和自由插值圖像序列。在此過程中,高斯過程和計算機視覺方法之間提供了一個優雅的連接,這意味著將兩者結合起來具有深遠的意義。
近年來,深度學習徹底改變了機器學習和計算機視覺。許多經典的計算機視覺任務(例如目標檢測和語義分割),傳統上非常具有挑戰性,現在可以使用監督深度學習技術來解決。雖然監督學習是一個強大的工具,當標簽數據是可用的,并考慮的任務有明確的輸出,這些條件并不總是滿足。在這種情況下,生成建模給出了一個很有前途的方法。與純粹的判別型模型相比,生成型模型可以處理不確定性,甚至在沒有標簽訓練數據的情況下也可以學習強大的模型。然而, 雖然目前的方法生成建模取得可喜的成果, 他們遭受兩個方面,限制他們的表現力: (i) 為圖像數據建模的一些最成功的方法不再使用優化算法來訓練,而是使用其動力學尚未被很好理解的算法,(ii) 生成模型往往受到輸出表示的內存需求的限制。我們在本文中解決了這兩個問題:在第一部分中,我們介紹了一個理論,它使我們能夠更好地理解生成式對抗網絡(GANs)的訓練動力學,這是生成式建模最有前途的方法之一。我們通過引入可解析理解的GAN訓練的最小示例問題來解決這個問題。隨后,我們逐漸增加了這些示例的復雜性。通過這樣做,我們對GANs的訓練動力學有了新的認識,并推出了新的正則化器,也適用于一般的GANs。新的正則化器使我們能夠——第一次——以百萬像素的分辨率訓練GAN,而不必逐漸增加訓練分布的分辨率。在本論文的第二部分,我們考慮生成模型的三維輸出表示和三維重建技術。通過將隱式表示法引入深度學習,我們能夠在不犧牲表現力的情況下將許多2D領域的技術擴展到3D領域。