亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在高風險環境中部署機器學習系統時,預測結果將直接影響從醫學診斷到基礎設施管理以及科學發現等關鍵決策,因此,對不確定性的可靠量化至關重要。本文圍繞概率預測開展研究,重點在于通過實現校準(calibration)來提升不確定性估計的可信度——即預測概率應與事件的經驗頻率保持一致,例如:置信度為90%的區間應有90%的概率覆蓋實際觀測結果。 我提出了貫穿整個模型生命周期的多種干預方法,用于提升模型的校準性能:包括在訓練階段設計優化目標以鼓勵校準、在后處理階段修正誤校準的方法,以及在部署階段于非平穩環境中自適應保持校準的在線技術。 論文第一部分聚焦于后驗重校準(post-hoc recalibration)。我提出了模塊化保序校準(modular conformal calibration)這一通用框架,它涵蓋并擴展了現有的后驗不確定性量化方法,如保序回歸(isotonic regression)保序預測(conformal prediction)。該框架明確了重校準策略的設計空間,并為使用這些策略重校準后的任意模型提供有限樣本下的校準保證。這一框架使實踐者能夠在計算開銷、概率解釋性、確定性行為與校準強度之間進行權衡。 第二部分關注訓練階段的校準策略,目標是在保持預測“銳度”(即預測結果的自信度與信息量)的同時增強模型的校準性。我提出了一類可微分的校準度量,可作為正則化目標嵌入到訓練過程中,使校準性與銳度得以聯合優化。這些目標函數覆蓋了許多用于回歸與分類任務的主流校準指標,這些指標此前往往僅在訓練后進行施加。該方法還支持任務定制的校準目標,使得模型的不確定性估計在統計上保持一致性,并能夠契合下游決策場景的實際需求。 第三部分探討了分布漂移(distribution shift)下的校準問題,這是現實部署中的核心挑戰之一。我研究了一個在線預測設置,其中數據可能隨時間演化或由對手策略生成。基于Blackwell可達性理論(Blackwell approachability theory),我提出了一種通用策略,可在最小假設下針對任意觀測序列實現校準保證。該框架支持多種校準概念,包括分布校準與決策校準,并提供基于oracle的方法與可計算的算法。我進一步提出了基于梯度的松弛算法,在擴大適用范圍的同時,部分放寬了理論保證。實驗證明,這些方法在保持校準預測的同時,對比專家預測器可獲得漸進無悔(vanishing regret)。 總的來說,本論文提出了一套系統化的、理論支撐的策略,用以提升概率模型在整個開發流程中的不確定性估計靈活性與可靠性。通過在模型生命周期的各階段強制實現多種形式的校準,本文為實際應用中高風險決策提供了穩健可信的模型支持。

付費5元查看完整內容

相關內容

博士論文是由攻讀博士學位的研究生所撰寫的學術論文。它要求作者在博士生導師的指導下,選擇自己能夠把握和駕馭的潛在的研究方向,開辟新的研究領域。由此可見,這就對作者提出了較高要求,它要求作者必須在本學科的專業領域具備大量的理論知識,并對所學專業的理論知識有相當深入的理解和思考,同時還要具有相當水平的獨立科學研究能力,能夠為在學科領域提出獨創性的見解和有價值的科研成果。因而,較之學士論文、碩士論文,博士論文具有更高的學術價值,對學科的發展具有重要的推動作用。

機器學習(ML)系統正日益部署在高風險領域中,在這些場景下,可靠性至關重要。隨著這些系統從研究原型走向真實世界的決策角色,它們識別并響應不確定性的能力變得尤為關鍵。本論文探討了不確定性估計如何提升機器學習的安全性與可信度,重點關注選擇性預測這一范式——在模型置信度較低時主動放棄預測。

我們首先展示,模型的訓練軌跡中蘊含著可用于不確定性估計的豐富信號,而無需修改模型架構或損失函數。通過集成訓練過程中的中間檢查點預測結果,我們提出了一種輕量級、事后(post-hoc)棄答機制,能夠識別不可靠預測。該方法可適用于分類、回歸和時間序列任務,可直接疊加在已有模型之上,避免了深度集成(deep ensembles)帶來的高額訓練成本,同時保留了其大部分效果。在多個選擇性預測基準任務上,該方法達到了當前最優性能,為那些重新訓練成本高昂或受限的場景提供了實用方案。 這種被動、事后的方法還天然滿足數據隱私這一可信 AI 的關鍵要求。由于僅需觀察訓練軌跡,我們的方法可與差分隱私(DP)等形式化隱私保障完全兼容。這一獨特優勢使我們能夠研究一個重要的權衡問題:隱私約束會如何影響模型估計自身不確定性的能力?我們發現,許多常規方法在 DP 噪聲下性能退化,產生不可靠的置信度評分;相比之下,我們基于軌跡的方法保持穩健。為公平評估這一權衡,我們提出了一個新框架,可隔離隱私對不確定性質量的影響,從而更有意義地比較隱私敏感場景下的選擇性預測方法。 這些結果引出了對選擇性預測性能理論極限的探討。我們提出了有限樣本下的選擇性分類差距分解(selective classification gap decomposition)——即模型精度–覆蓋率曲線偏離理想(oracle)曲線的分解,并識別出五類關鍵誤差來源:貝葉斯噪聲、近似誤差、排序誤差、統計波動和殘差項。該分解揭示了可以縮小差距的杠桿(如校準、模型容量、額外監督),并解釋了為什么單純的事后校準無法消除排序缺陷,從而激發了基于更可靠不確定性信號的預測重排序方法。

這一分析為診斷并修復模型的良性誤差來源提供了藍圖。然而,它假設模型的不確定性信號雖有缺陷,但仍然真實反映了其內部狀態。這促使我們進一步研究當不確定性信號被惡意篡改以誤導下游決策時會發生什么。我們展示了,排序和校準機制本身可能被對手操控,在特定區域或特定用戶群體中人為增加不確定性,從而在保持高預測性能的同時實現隱蔽的拒絕服務。這類攻擊直接利用了我們識別的誤差來源,且難以通過標準評估檢測。為此,我們提出防御方案,將校準審計與可驗證推理相結合,以驗證棄答是否源于真實的不確定性,從而保障其完整性。這一發現突顯了一個更廣泛的觀點:可信 ML 不僅依賴于高質量的不確定性估計,還必須防范其被操縱。 綜上所述,本論文系統研究了不確定性的估計、評估與防護路徑,推動構建更可靠的機器學習系統。最終,所得到的系統不僅能做出準確預測,還能在必要時果斷地說:“我不知道”。

付費5元查看完整內容

包括大型語言模型(LLMs)和擴散模型在內的大規模模型的快速發展,正在改變人工智能的格局,但其廣泛部署仍受計算效率、內存帶寬和資源利用等關鍵瓶頸的制約。本文系統性地研究了這些挑戰,并提出了多種新方法,在不同的大模型推理任務中優化推理性能,在速度、內存和計算需求之間實現平衡,同時不犧牲輸出質量。 對于 LLMs,一個核心瓶頸是自回歸解碼過程中的內存帶寬限制:順序生成 token 會因模型參數的重復傳輸而帶來大量開銷。為此,我們提出 Medusa 框架,通過增加并行解碼頭并采用基于樹的注意力機制,實現同時預測多個 token,從而減少 2.3–2.8× 的解碼步驟,在保持輸出質量的前提下顯著加速推理。 此外,我們還針對高效部署多個微調模型的問題,提出 BitDelta 方法,將微調模型的權重差(delta)壓縮為 1 位(single bit),在不降低性能的前提下將 GPU 內存占用減少超過 10×,從而支持高效的多租戶部署,實現定制化模型的更快、更經濟的服務。 除了面向硬件的優化,我們還探索了系統級的協同優化,以提升大模型推理的整體效率。ToolMaker 提出了一個閉環框架,由一個強大的 LLM 生成可復用的工具(如 Python 函數),再由更輕量的模型調用這些工具進行問題求解。這種在資源密集的工具創建與成本更低的工具使用之間的分工,有助于降低推理成本并提升模型的可擴展性。 在擴散模型領域,由于分辨率提升會顯著增加計算成本,我們提出 Distrifusion 分布式推理框架,利用擴散步驟間的時間一致性(temporal coherence),復用預計算的特征圖,并通過流水線機制減少通信開銷,從而在多 GPU 環境下實現最高 6.1× 的加速。進一步地,SVDQuant 提出針對擴散模型的 4 比特量化方法,能夠利用現代張量核心(tensor cores)顯著提升計算吞吐量,同時不降低圖像質量。 總體而言,這些工作針對不同模型架構與部署場景的關鍵瓶頸提出了系統性的解決方案,并已在工業界得到廣泛應用。

付費5元查看完整內容

機器學習有望在科學、工業和社會等眾多領域產生深遠影響。盡管當前的人工智能(AI)系統仍普遍依賴人類監督,未來的應用將越來越多地要求系統具備高度自治能力。要實現這一轉變,我們必須能夠信任這些日益龐大的模型的行為。為此,本論文圍繞三個關鍵研究方向展開:安全性、魯棒性與可解釋性。 我們首先聚焦于強化學習(Reinforcement Learning, RL)模仿學習(Imitation Learning, IL)中的安全問題。盡管學習得到的策略在性能上取得了顯著成果,但它們在訓練過程中的探索行為及測試階段環境的變化,常常會導致不安全的決策。為此,我們提出了一種基于模型預測控制(Model Predictive Control, MPC)的安全引導機制,可在用戶指定約束條件下,對基礎 RL 策略的動作進行修正。通過合理的優化建模與損失函數設計,我們從理論上證明了最終優化得到的基礎策略在最優點上具有可證明的安全性。 針對 IL 中獨有的因果混淆(causal confusion)問題,即觀測數據與專家行為之間存在虛假相關,進而可能在部署時引發不安全行為,我們引入結構因果模型(Structural Causal Models, SCMs)的工具來識別并屏蔽存在問題的觀測信息。與此前需依賴專家反饋或專家獎勵函數的做法不同,我們的方法僅需實驗者能對初始狀態進行干預這一更為現實的假設。 論文第二部分關注如何增強分類器對抗擾動下的魯棒性。分類器是眾多 AI 系統的核心組件,但實驗表明其對輸入中的微小擾動極為敏感。我們首先擴展了隨機平滑(randomized smoothing)方法的適用性,從傳統各向同性認證推廣至數據流形子空間的投影,從而在認證體積上獲得數量級的提升。隨后,我們從更基礎的層面重新審視魯棒性問題,提出了非對稱魯棒認證(asymmetric certification)框架。在該二分類場景下,我們僅要求模型在某一特定類別上具備認證魯棒性,符合現實中對抗者主要關注產生“假陰性”(false negatives)的實際需求。我們進一步引入一類特征凸(feature-convex)結構,從而實現高效、確定性、封閉形式的認證半徑計算。 論文的第三部分探討了模型可解釋性的兩個方面:一是大型語言模型(LLMs)如何決定向人類用戶推薦什么,二是如何構建結構上可解釋的學習模型。我們首先分析了對話式搜索引擎中 LLM 對消費產品排序的行為,結果表明,模型在優先考慮產品名稱、網站內容及輸入上下文位置方面存在顯著差異。最后,我們提出了一類新的可解釋模型——結構傳輸網絡(Structural Transport Nets),用于那些潛在表示具備數學結構的領域。通過學習一個到“鏡像代數結構”的雙射映射,我們能夠在潛在空間中執行滿足原始輸入空間代數規律的操作。實驗表明,遵守底層代數規律對于學習準確且自洽的表示操作至關重要。

付費5元查看完整內容

數學優化是一種廣泛應用于各領域的強大決策工具,其中混合整數優化(Mixed-Integer Optimization, MIO)在求解大規模問題中發揮著關鍵作用。然而,當約束條件或目標函數難以明確表達或設計時,優化模型常常面臨顯著挑戰。本文提出了一種結合約束學習的優化(Optimization with Constraint Learning, OCL)框架,融合機器學習(ML)技術以推斷并嵌入未知的約束與目標函數到MIO模型中。 本論文將OCL方法應用于人道主義援助的供應鏈優化,展示了如何將“食品可接受性”這一學習得到的約束條件融入模型,以確保受援者不僅喜歡食物,還能夠正確準備這些食品。此外,論文還通過兩個具有代表性的案例進一步證明了OCL框架的通用性:放射治療優化可解釋人工智能(XAI)。在放射治療場景中,OCL通過集成對輻射毒性風險的預測模型,實現了癌癥治療方案的個性化設計,在優化治療效果的同時最大程度降低患者風險。在XAI應用中,針對已擬合的機器學習模型,OCL框架可用于生成可操作的反事實解釋,滿足諸如接近性、多樣性與對環境不確定性的魯棒性等質量標準。 所提出的OCL框架在確保計算效率與全局最優性的同時,具有良好的可擴展性,為實踐者與研究人員提供了易于應用的工具。通過優化與機器學習的深度融合,本研究推動了數據驅動決策方法的發展,并為未來基于數據的優化研究奠定了理論與實踐基礎。

付費5元查看完整內容

對比學習最近已成為一種強大的無監督表示學習方法,在多個領域取得了令人印象深刻的實證成功。盡管這些方法在實踐中表現有效,但要全面理解它們的理論基礎仍然是一個重大挑戰。本論文旨在通過提供一個基于接近現實場景假設的原則性調查,彌合對比學習的實證成功與理論理解之間的鴻溝。我們引入了一個受譜圖理論啟發的新分析框架,證明了對比學習在隱式地對由數據分布定義的概念圖上執行譜聚類。我們表明,對比學習所學習的表示與圖的鄰接矩陣的特征函數一致,從而為下游線性分類任務的性能提供了可證明的保證。我們擴展了這一框架,正式刻畫了一個現象,即在對比學習表示上訓練的線性分類器可以成功地跨領域遷移。此外,我們還正式刻畫了模型架構的歸納偏置如何導致表示在不同下游任務中的性能差異。

高質量的數據表示可以作為各種實際機器學習應用的基礎,涵蓋從搜索到面向新任務和新領域的數據高效適應等多個方面。許多成功的表示學習算法在很大程度上依賴于監督學習,而監督學習需要對數據進行昂貴且耗時的標注 [Salakhutdinov 和 Hinton,2007]。

與昂貴且有限的標注數據相比,互聯網上存在大量豐富且廉價的未標注數據。無監督表示學習旨在從沒有預先存在標簽的數據中發現模式,并生成能夠捕捉原始數據本質特征的表示。這種方法為訓練可遷移的數據表示提供了有希望的路徑,這些表示可以有效地適應各種下游任務。

特別是,對比學習最近作為一種強大的從未標注數據中學習表示的方法出現。對比學習的核心思想是“正對”(positive pairs)的概念,即語義上相近的成對數據點,可以直接從未標注數據中構造,而無需人工標注。相應地,還有“負對”(negative pairs)的概念,即通常語義上無關的成對數據點。在計算機視覺領域,正對通常由兩個通過數據增強從同一原始圖像生成的圖像組成,而負對則由兩個獨立隨機采樣的圖像組成。給定正對和負對,對比學習通過鼓勵正對的表示更加接近,同時使負對的表示遠離來學習數據點的表示。 許多對比學習方法使用孿生網絡(Siamese Networks)[Bromley 等,1993] 來學習特征,其中兩個具有共享權重的神經網絡應用于正對中的兩個數據點,表示是神經網絡對原始輸入的輸出。SimCLR 的開創性工作 [Chen 等,2020b] 表明,利用孿生網絡結構的對比學習表示可以在下游分類任務中取得與監督學習競爭的線性探測準確率。一些后續工作 [Chen 和 He,2020,Grill 等,2020,Bardes 等,2021] 探索了不同的損失目標和正則化技術,旨在減少算法中一些看似隨意且不自然的方面,例如停止梯度操作(即在訓練過程中通過孿生網絡的一條分支停止梯度反向傳播)或大批量大小的必要性。然而,它們大多仍圍繞孿生網絡結構這一核心思想展開。

這些方法取得了令人印象深刻的實證成功,通常超過了完全監督模型的性能,而無需標注數據。此外,學習到的表示通常具有良好的結構,例如線性可分性,在這些表示上訓練的線性分類器能夠在下游分類問題上表現良好。這些方法的驚人簡單性和對比學習表示中編碼的結構似乎表明該方法利用了數據分布通過正對構造定義的一些內在屬性。然而,開發對這些自監督表示為何如此有效的全面理論理解仍然是一個重大挑戰。需要超越經典統計學習理論的新數學框架來全面解釋它們的表現,而對比學習中廣泛使用的深度神經網絡進一步增加了分析的復雜性。

先前的工作嘗試通過信息理論的視角解釋對比學習的成功 [Tsai 等,2020,Tosh 等,2021]。這一理論框架關注于通過學習的表示捕獲的信息。從直觀上講,在初始化時,神經網絡的輸出捕獲了數據點的隨機子集信息。在訓練過程中,表示將捕獲正對之間更多共享的信息,并丟棄那些特定于正對中某一數據點的信息。如果共享信息包含了大部分與下游任務相關的信息,那么最終學習到的表示也將捕獲這些信息,從而具備解決下游任務所需的足夠信息。然而,由于多個表示可以包含相同的信息,但具有非常不同的幾何結構,因此該框架缺乏保證,無法確保使用簡單(例如線性)模型高效地解決下游任務。

如果對數據做出更多假設,便能解決這一限制。一個相對較強的假設是條件獨立性設置,其中給定類別標簽,正對是條件獨立的。例如,Arora 等 [2019] 表明,在給定類別標簽的條件獨立性下,對比學習算法可以在下游線性分類任務中實現較小的誤差。一些后續工作(例如,Lee 等 [2020])將這一思想擴展到正對在某些潛在變量上條件獨立的設置,這些潛在變量可能具有比類別標簽更細粒度的含義。然而,在計算機視覺應用中的實際算法中,正對通常由同一圖像的兩個增強組成,因此它們是高度相關的。它們可能只有在條件化于非常復雜的隱藏變量(如原始自然圖像)時才獨立,這可能使得之前的結果無法有意義地應用。

本論文旨在在反映現實世界的較少限制假設下,對對比學習進行原則性的理論研究。本論文的一個關鍵貢獻是提出了一種新的對比損失——我們稱之為譜對比損失——它作為更廣泛使用的 InfoNCE 損失的代理,后者在理論上較難分析。我們的實驗證明,譜對比損失捕獲了標準對比損失的大部分性能,同時使我們能夠建立一個受譜圖理論啟發的分析框架。 第三章介紹了我們基于譜圖理論理解對比學習成功的一般理論框架。為了建立我們的理論框架,我們引入了一個群體層級的“正對圖”,該圖捕捉了對比學習管道中的正對結構。在這個圖中,節點對應于所有出現在正對中的數據點,邊表示哪些節點對實際上形成正對。通過將數據置于這個圖的上下文中,我們能夠利用一些圖論(特別是譜圖理論)中的思想和工具來分析對比學習。 我們的關鍵洞察是,認為對比學習可以被視為隱式地在正對圖上執行譜聚類。譜聚類 [Ng 等,2001] 是一種流行的聚類算法,具有悠久的歷史。其核心思想是,給定任何圖,可以對圖的拉普拉斯矩陣進行譜分解,并使用特征向量在圖中找到近似最優的聚類。運行譜聚類需要對整個拉普拉斯矩陣進行操作,當圖非常大時,這可能計算上非常昂貴。 在正對圖的背景下,圖中的節點數基本上是數據分布中所有數據點的數量,因此可能非常龐大。然而,幸運的是,我們的結果表明,存在一個損失函數,使得最小化該損失函數等同于隱式執行圖拉普拉斯矩陣的譜分解。這個損失函數在精神上與許多對比損失相似,并且可以通過正對和負對進行有效采樣,因此我們稱其為譜對比損失。 我們證明,通過最小化譜對比損失學習到的表示與圖的鄰接矩陣的特征向量對齊,從而繼承其聚類結構。在對正對圖中的聚類與下游任務類別對齊的溫和假設下,來自不同下游類別的數據的對比表示將是線性可分的。值得注意的是,我們的框架不需要依賴先前對比學習理論工作中所依賴的嚴格條件獨立性假設 [Arora 等,2019,Tosh 等,2021]。 我們分析了使用譜對比損失學習到的表示進行線性分類的性能。在對正對圖進行溫和擴展假設的情況下,我們證明,當表示維度超過圖中聚類的數量時,在線性分類器上訓練的表示可以以高精度恢復真實標簽。我們進一步表明,譜對比損失可以通過經驗數據成功最小化,只需多項式數量的未標注樣本。我們的有限樣本分析利用標準泛化界限,證明所需的未標注樣本數量與所選函數類的 Rademacher 復雜度成比例。 第四章基于這一框架,研究了對比學習在分布變化下的表現。特別是,我們研究了對比學習如何幫助解決無監督領域自適應問題,在該問題中,給定有標簽的源領域和未標注的目標領域(具有相同類別標簽),我們希望在目標領域實現高分類準確率。我們正式分析了“線性遷移性”這一經驗現象,即在源領域對比表示上訓練的線性分類器在目標領域上表現良好,其中該表示通過在源領域和目標領域的聯合數據集上進行對比學習訓練。事實上,這種簡單的方法已經被證明能夠實現與多個最先進的領域自適應算法 [Shen 等,2022b] 競爭的性能。 我們證明,線性遷移性是在跨領域關系的弱假設下產生的:即,同類別的跨領域點之間比不同類別的跨領域點之間更相關。直觀地說,這意味著,盡管源領域和目標領域可能存在顯著的分布差異,但類別之間的相對相似性在跨領域中得到了保留。在這個假設下,我們證明了在源領域表示上學到的線性分類器(使用一種新的預處理平均方法)可以在目標領域的分類任務中成功地表現。

我們的結果表明,對比表示不僅捕捉了類內結構,還捕捉了不同類別之間的相對幾何結構。這與先前關于無監督領域自適應的理論工作有所不同,后者通常要求更強的假設,例如有界密度比或顯式的源目標重疊 [Sugiyama 等,2007,Ben-David 等,2010,Zhang 等,2019,Zhao 等,2019a]。

為了支持我們的理論發現,我們提出了一種改進的線性評估方法,用于無監督領域自適應與對比表示。我們的方法通過直接對類內表示進行平均并應用預處理矩陣來學習線性分類器。我們在多個標準領域自適應基準數據集上驗證了該方法的有效性,證明其優于先前的最先進方法。

第五章研究了神經網絡模型架構在對比學習中的作用。我們不再將神經網絡視為黑箱函數逼近器,而是明確描述了架構的歸納偏置如何塑造學習到的表示。

我們引入了“最小可實現聚類”的概念,以捕捉架構所施加的約束。盡管正對圖可能展示了大量的自然聚類,但架構可能只能實現其中的一部分聚類。我們證明,對比學習只恢復那些與架構兼容的聚類。因此,低維的對比表示即使在整個正對圖中的聚類數量很大時,仍然可以在下游任務中取得成功。 我們在多個合成數據分布上實例化了我們的理論,證明了架構的歸納偏置可以顯著減少所需的表示維度。例如,在具有少量不變特征和大量虛假特征的超立方體數據分布上,我們證明,當下游標簽依賴于單一的不變維度時,線性對比表示就足夠了,而 ReLU 網絡則能夠處理更復雜的標簽函數。我們為其他架構提供了更多示例,包括 Lipschitz 連續函數和卷積網絡。在每種情況下,我們展示了對比學習的樣本復雜度與可實現聚類的數量成比例,而不是與自然聚類的總數成比例。

為了支持我們的理論,我們提出了一種實證方法來估計可實現聚類的數量,并將其應用于具有 ResNet-18 架構的 CIFAR-10 數據集。我們的實驗驗證了架構施加的約束導致可實現聚類的數量相對較小,這與我們的理論預測一致。

本論文的其余部分組織如下:第三章展示了我們的對比學習譜框架,包括群體層級損失的分析、有限樣本泛化界限和實驗證明。第四章將該框架擴展到領域自適應設置,正式刻畫了對比表示的線性遷移性,引入了改進的線性評估方法,并展示了其實證有效性。第五章分析了歸納偏置在對比學習中的作用,引入了最小可實現聚類的概念,并在合成數據分布上實例化了理論,為架構約束提供了實證支持。最后,第六章總結了論文內容并討論了未來的研究方向。

付費5元查看完整內容

因果機器學習 (Causal ML) 處理多種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大規模數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果機器學習方法中的不確定性。為了有效處理海量信息并預測復雜關系,可擴展性至關重要。隨著模型規模的擴大和靈活性增強,傳達未知信息變得愈發重要。我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性是在將機器學習模型擬合到有限數據集時產生的。解決這種不確定性可以預測一系列可能的因果效應,并隨著訓練樣本的增加而縮小范圍,從而有助于做出更明智的決策,并指出需要進一步理解的領域。結構不確定性則來自對因果結構的不精確認知,通常需要對數據生成過程或與世界的交互做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果機器學習方法。我們展示了在因果機器學習算法設計和應用中考慮可擴展性和不確定性的重要性,從而增強決策能力和知識獲取。我們的研究貢獻旨在推動因果機器學習領域的發展,并為未來研究奠定基礎。

因果機器學習 (CML) 涵蓋了多種任務,包括因果效應推斷、因果推理、因果結構發現以及因果表示學習。CML 為數據驅動算法提供了一種系統的方法,通過整合領域知識、表達建模假設的豐富語言,以及理解機器學習預測失敗原因的理論來增強其能力。本論文探討了適用于大規模數據集并處理復雜高維輸入輸出模式(如圖像、文本、時間序列和視頻)的可擴展 CML 方法中的不確定性。在大數據時代及復雜的現實世界問題中,可擴展性至關重要,因為它使 CML 算法能夠高效地處理和學習海量信息,同時建模預測復雜關系所需的上下文。

隨著模型規模的擴大和靈活性的提升,傳達未知信息變得越來越重要。挑戰在于將系統化的分析不確定性的方法應用到可擴展的方法中。解決不確定性對于做出更明智的決策以及識別我們需要學習的內容至關重要。基于這一點,我們研究了兩種主要的不確定性類型:統計不確定性和結構不確定性。 統計不確定性,通常稱為認知不確定性,出現在將機器學習模型擬合到有限數據集時。解決這種不確定性有助于預測一系列可能的因果效應,并隨著訓練樣本數量的增加而縮小范圍。這一數值范圍不僅能夠促進更明智的決策,還能指出我們需要進一步理解的狀態或個體。然而,統計不確定性需要以正確的世界模型為前提。此時,結構不確定性變得相關,因為它源于對問題中潛在因果結構的不精確認知。通常,緩解結構不確定性需要對數據生成過程或與世界的交互做出進一步假設。盡管如此,CML 仍可以基于額外的領域知識傳達因果關系的不確定性,從而更好地為決策提供信息。

在本論文中,我們開發了能夠有效應對統計和結構不確定性的創新性可擴展 CML 方法和技術。我們展示了在設計和應用 CML 算法時考慮可擴展性和不確定性的重要性,因為它們增強了模型的魯棒性和泛化能力。我們的貢獻旨在推動 CML 領域的發展,并為未來在該領域的研究奠定堅實基礎。

付費5元查看完整內容

因果機器學習(Causal ML) 處理各種任務,包括因果效應推斷、因果推理和因果結構發現。本論文探討了適用于大數據集和復雜高維輸入/輸出模式(如圖像、文本、時間序列和視頻)的因果ML方法中的不確定性。可擴展性對于高效處理大量信息和預測復雜關系至關重要。隨著模型靈活性的提升,傳達未知信息變得愈加重要。我們考察了兩種主要的不確定性類型:統計不確定性和結構不確定性。統計不確定性在擬合機器學習模型到有限數據集時產生,解決這一不確定性有助于預測一系列合理的因果效應,隨著訓練樣本的增加而縮小,從而促進更明智的決策并指示需要進一步理解的領域。結構不確定性則源于對因果結構的模糊認識,通常需要對數據生成過程或與世界的互動做出進一步假設。在本論文中,我們開發了能夠有效應對統計和結構不確定性的可擴展因果ML方法。我們展示了在因果ML算法設計和應用中考慮可擴展性和不確定性的重要性,提升決策能力和知識獲取。我們的貢獻旨在推動因果機器學習領域的發展,為未來研究奠定基礎。

付費5元查看完整內容

物理啟發的生成模型(如擴散模型)構成了一類強大的生成模型家族。該模型家族的優勢在于相對穩定的訓練過程和強大的容量。然而,仍有許多可能的改進空間。在本論文中,我們首先將深入探討擴散模型在訓練和采樣方面的改進技術。擴散模型的訓練目標在數據分布為多模態時呈現出較高的方差。為了解決這一問題,我們提出了一種訓練目標,它推廣了傳統的去噪得分匹配方法,顯著減少了訓練目標的方差。除此之外,我們還引入了一種將可學習的離散潛變量整合到連續擴散模型中的訓練框架。這些潛變量簡化了擴散模型復雜的噪聲到數據映射的學習過程。

另一方面,擴散模型的采樣過程通常涉及求解微分方程。為加速采樣過程,我們提出了一種新穎的采樣算法,結合了之前常見的ODE和SDE采樣器的優點,大幅提升了預訓練擴散模型的性能。此外,我們的研究探索了在有限樣本中引入互斥力以促進生成過程中的多樣性。 在物理啟發的生成模型領域,許多物理過程都可以用于開發生成模型。我們將介紹一類基于靜電理論的新生成模型家族,稱為泊松流生成模型(PFGM)。PFGM在采樣穩健性上表現出色,并與領先的擴散模型相媲美。其擴展版本PFGM++將擴散模型和PFGM置于同一框架下,并引入了新的、更優的模型。我們還將提出一種系統化的方法,將物理過程轉化為生成模型。

生成模型在近年來顯著改變了人們工作的、創作的和學習的方式。其突出應用包括ChatGPT [1]、文本到圖像模型 [2]-[4]、文本到3D模型 [5]、[6] 和文本到視頻模型 [7]、[8]。這些能力可以極大地激發創造力,并提高眾多領域的工作效率,包括教育、游戲產業、社交媒體和專業編輯軟件。生成模型的訓練基于這樣一個假設,即訓練數據是從未知的數據分布中采樣的 [9]。現代生成模型通常使用深度神經網絡來基于有限的訓練數據逼近復雜的數據分布,并通過從這些建模的分布中采樣來生成新的數據點。

在生成建模中使用的各種數據類型中,高維數據由于維度詛咒而面臨著顯著的挑戰。隨著維度的增加,數據空間的體積呈指數級擴展。這一現象使得在高維空間中用有限的訓練數據有效捕獲和建模數據分布變得困難。此外,感興趣的數據分布通常高度復雜且呈多模態,進一步增加了生成建模的難度。近年來,擴散模型 [10]–[12] 以及更廣泛的物理啟發生成模型 [13],在處理高維數據的生成任務中,展現了強大的框架并取得了令人印象深刻的結果。在擴散模型之前,主要的方法包括:(i)利用對抗訓練目標的生成對抗網絡(GANs [14]);(ii)使用最大似然目標訓練的模型,如PixelCNN [15] 和正規化流模型 [16]、[17];(iii)變分自編碼器(VAEs)[18]、[19] 以及(iv)基于能量的模型 [20]、[21]。然而,每種方法都有其自身的缺點:(i)可能導致訓練不穩定和生成樣本的多樣性低;(ii)需要特定的架構設計,可能限制模型的容量;(iii)需要多個神經網絡的仔細協調;(iv)訓練和采樣速度較慢。利用自然的物理過程作為編碼器將數據轉化為噪聲,擴散模型通過逆轉這些物理過程來執行生成任務。這種方法使它們繞過了早期生成模型的許多限制。

1.1 通過逆轉物理過程進行生成建模

基于熱力學的原理 [10],擴散模型涉及兩個對立的過程:一個前向過程將數據分布逐漸轉化為一個更簡單的先驗分布,另一個反向過程通過逐步去噪從該噪聲先驗分布中生成樣本。擴散模型中的前向過程是一個簡單的布朗運動,通過逐步增加高斯噪聲來降解數據。為了逆轉這一過程,只需學習一個時間依賴的向量場,即得分函數,并迭代求解一個微分方程 [22]。與GANs和VAEs不同,擴散模型的訓練不需要多個神經網絡之間的同步,從而使訓練過程更加穩定。此外,它們在架構設計上不受限,采用類似于神經網絡串聯的迭代過程,從而增強了整體容量。這種穩定性和增強的容量使擴散模型能夠有效擴展到大規模數據集。

盡管擴散模型具有諸多優勢,但它們仍面臨一些挑戰,包括在處理多模態數據時高方差的訓練過程,以及緩慢的迭代采樣過程。此外,獨立同分布(i.i.d.)的采樣過程往往會導致重復的樣本。這些問題強調了在復雜數據集上穩定和改進擴散模型訓練方法的必要性,并且需要新技術來加速采樣過程并提高小批量樣本的多樣性。此外,擴散模型只是眾多物理啟發生成模型之一。除布朗運動外,仍有許多物理過程尚未開發,可以用來構建生成模型。這引出了一個重要問題:我們能否發現其他物理啟發的生成模型,它們展示出更好的性能?在接下來的部分中,我們將簡要總結擴散模型的改進訓練和采樣技術,并討論我們開發其他物理啟發生成模型的研究,這些將在后續章節中詳細闡述。

1.1.1 擴散模型的改進訓練技術

擴散模型的訓練利用了一種擾動-去噪方法來估計向量場。其過程是先通過高斯噪聲擾動干凈的數據,然后網絡從這些擾動樣本中重構原始數據 [12]。然而,對于復雜的多模態數據,許多干凈的數據點可能被擾動為相似的噪聲樣本,導致訓練目標不明確并引發不穩定性。

在文獻 [23] 中,我們通過多個干凈數據點的加權求和來估計真實目標,精確地指示從擾動樣本到真實向量場的方向。該新穎的訓練目標推廣了傳統的單點估計方法,顯著減少了訓練目標中的方差。因此,在各種擴散模型變體中,樣本質量得到了提高,訓練過程更加穩定,訓練速度也得到了加快。

擴散模型面臨的另一個挑戰是,需要學習一個從單峰高斯分布到多峰數據分布的非線性且高度復雜的映射。這種復雜性增加了訓練的難度,并導致生成常微分方程(ODE)[24] 軌跡呈現強烈的曲率。為解決這一問題,我們在擴散模型中引入了離散潛變量。這些離散潛變量有助于捕獲數據分布中的不同模式,而擴散模型的任務則轉變為基于給定的離散潛變量捕獲每個模式內的連續變化。離散與連續變化的分離建模顯著簡化了模型復雜的噪聲到數據映射的學習過程。這一方法有效降低了擴散模型生成ODE的曲率,尤其是在較大的擴散時間下,整體訓練損失得到了減少。

1.1.2 擴散模型的改進采樣技術

在擴散模型的采樣過程中,求解微分方程通常涉及速度和質量之間的權衡。確定性采樣器(基于ODE的)[25]–[27] 速度快,但性能達到平臺期,而隨機采樣器(基于SDE的)[27]、[28] 樣本質量更好,但速度較慢。我們的分析將這種差異歸因于采樣誤差:ODE采樣器的離散化誤差較小,而SDE中的隨機性會收縮采樣過程中的累積誤差 [29]。

基于這些見解,在文獻 [29] 中,我們提出了一種名為Restart的新采樣算法,該算法結合了ODE和SDE的優點。該方法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。前向噪聲的引入增強了隨機性的收縮效應,而逆ODE過程的遵循則加快了采樣速度。這種將隨機性和確定性采樣過程分離的方法極為有效,Restart在標準基準(CIFAR-10和ImageNet-64)上超過了SDE和ODE采樣器的速度和質量,并在大規模文本到圖像的Stable Diffusion模型中展示了文本-圖像對齊、視覺質量和多樣性的卓越平衡。

傳統上,擴散模型從模型分布中生成獨立同分布的樣本。然而,在實際操作中,模型通常需要多次采樣以獲得一組多樣化的小批量樣本,這會帶來與采樣時間無關的成本。我們提出超越獨立樣本假設,以提高樣本的多樣性和效率。我們的方法引入了一種擴展的基于擴散的生成采樣方法,稱為粒子引導。在這種方法中,聯合粒子的時間演化勢通過在樣本(粒子)之間加入互斥力來強制多樣性。根據實驗結果,我們的框架在文本到圖像生成和分子構象生成等應用中提高了樣本的多樣性并減輕了記憶效應。

1.1.3 基于其他物理過程的生成模型

以擴散模型為顯著例子,物理啟發的生成模型包含一個前向過程,該過程將復雜的數據分布簡化為逐步的先驗分布,隨后通過一個反向過程(即采樣過程)逐步將這些先驗分布還原為原始數據分布。因此,為了定義新的物理啟發生成模型,必須確定一個合適的前向過程。該過程應自然地隨著時間簡化數據分布,并且是可逆的,同時其相關的向量場應該易于被神經網絡學習。 借助靜電學原理,我們為物理啟發的生成模型開辟了一條新路徑,并介紹了泊松流生成模型(Poisson Flow Generative Models, PFGM)[30] 及其擴展版本PFGM++ [31]。PFGM將數據解釋為增廣空間中的電荷。如圖1.1所示,當我們從數據支撐遠離足夠遠時,電荷分布坍縮為一個點電荷,電場在各個方向上呈現輻射狀。因此,可以證明這些電荷發出的電場線定義了數據分布和大半球上均勻分布之間的雙射。實驗結果表明,這一新模型家族在樣本質量、采樣速度和穩健性方面超越了擴散模型。此外,我們還探索了物理過程和生成模型之間的對偶性,旨在概念化和設計更多新的物理啟發生成模型 [13]。

1.2 論文摘要

本論文分為三個主題部分。下面簡要概述每個部分的內容。 第一部分 重點開發新技術,旨在穩定擴散模型的訓練,并在處理復雜的多模態數據集時,優化生成軌跡。

第三章 我們通過引入參考批次來解決擴散模型目標中的高方差問題,并使用參考批次計算加權條件得分,作為更穩定的訓練目標。我們展示了這一過程在具有挑戰性的中間階段中,通過減少訓練目標協方差(的跡)確實起到了幫助作用。本章基于文獻 [23]。

第四章 我們通過一個編碼器推斷可學習的離散潛變量,并對擴散模型和編碼器進行端到端訓練。離散潛變量通過降低擴散模型生成ODE的曲率,顯著簡化了其復雜的噪聲到數據映射的學習過程,并通過ODE采樣器提高了在各種數據集上的樣本質量。本章基于文獻 [32]。

第二部分 討論了加速擴散模型采樣過程的技術,以及通過施加樣本之間的互斥力來促進多樣性。所有討論的技術都不需要重新訓練,且可以直接應用于任何預訓練的擴散模型。

第五章 我們提出了一種名為Restart的新采樣算法,結合了先前ODE和SDE采樣器的優勢。Restart算法在附加的前向步驟中加入大量噪聲,并嚴格遵循逆ODE過程。實驗結果表明,Restart采樣器在速度和精度上均超過了先前的SDE和ODE采樣器。本章基于文獻 [29]。

第六章 我們提出了粒子引導,一種擴展的基于擴散的生成采樣方法,其中通過一個聯合粒子的時間演化勢來強制樣本多樣性。在條件圖像生成中,我們測試了該框架,并證明其在不影響質量的情況下增加了多樣性;在分子構象生成中,我們改進了相較于先前方法的中位誤差。本章基于文獻 [33]。

第三部分 探討了一類新型的生成模型,這些模型基于靜電理論,并與擴散模型在擴展視角下進行了統一。本部分還展望了通過物理過程構建生成模型的方法論。

第七章 我們介紹了一種新型生成模型——泊松流生成模型(PFGM),基于靜電理論。我們將數據點解釋為增廣空間中 z=0 超平面上的電荷,生成一個高維電場(泊松方程解的梯度)。我們證明了,如果這些電荷沿電場線向上流動,它們在 z=0 平面的初始分布會轉化為半徑為 r 的半球上的分布,并且在 r → ∞ 時變得均勻。我們展示了PFGM在圖像生成速度上提供了比先前最先進擴散模型更好的性能。本章基于文獻 [30]。

第八章 我們擴展了PFGM中使用的靜電理論,將擴散模型與PFGM統一起來。更有趣的是,在兩者之間的插值揭示了一個性能最優的新平衡點,達到了圖像生成的新標桿性能。我們為為什么PFGM和擴散模型都是次優解提供了理論解釋。本章基于文獻 [31]。

第九章 我們提出了一個統一的框架和算法,將物理過程轉化為平滑的密度流生成模型。此外,我們基于底層物理偏微分方程(PDE)的色散關系,提出了一種分類標準。這種理論方法可應用于各種物理PDE,從而發現新的生成模型家族。本章基于文獻 [13]。

第十章 我們總結了論文內容并討論了當前的局限性。

付費5元查看完整內容

現代機器學習模型的脆弱性引起了學術界和公眾的廣泛關注。在本論文中,我們將系統研究幾種機器學習模型的理解與改進,包括平滑模型和通用表征網絡。我們特別關注表征魯棒性的研究,將其定義為給定網絡在隱含空間中的“魯棒性”(或廣義上的可信屬性)。對于通用表征網絡,這對應于表征空間本身,而對于平滑模型,我們將網絡的logits視為目標空間。表征魯棒性是許多可信賴AI領域的基礎,例如公平性和魯棒性。

在本論文中,我們發現隨機平滑的可證魯棒性是以類別不公平性為代價的。我們進一步分析了改進基礎模型訓練過程的方法及其局限性。對于通用的非平滑表征模型,我們發現自監督對比學習與監督的鄰域成分分析之間存在聯系,這自然地使我們提出了一個可以實現更高準確性和魯棒性的通用框架。此外,我們意識到當前基礎表征模型的評估實踐涉及在各種現實任務上進行大量實驗,這既耗費計算資源又容易導致測試集泄漏。為此,我們提出了一種更輕量級、保護隱私且健全的評估框架,通過利用合成數據來評估視覺和語言模型。

**1.1 研究動機

深度神經網絡對人眼難以察覺的對抗性擾動的脆弱性,自從開創性工作[170, 7]發表以來,已經引起了機器學習領域廣泛的關注。這一問題在多個機器學習領域中都是一個重要的關注點,從計算機視覺[170]到語音識別[17],無不如此。特別是在安全關鍵的應用中,如自動駕駛汽車和監控系統,幾乎無法容忍任何錯誤決策。因此,深度神經網絡中對抗樣本的存在,促使了對魯棒性量化的研究,以及旨在增強這種魯棒性的訓練算法的設計[42, 47, 95]。在本論文中,我們旨在理解和改進現代機器學習模型的表征魯棒性。

**1.1.1 機器學習模型的表征魯棒性

表征魯棒性指的是神經網絡模型中隱含空間的可靠性。這一概念在機器學習中尤為重要,因為網絡的隱藏層應該從輸入數據中捕捉到復雜的模式。在本論文中,我們將表征魯棒性定義為這些隱藏表示在面對不同輸入或擾動時,能夠維持理想的可信屬性的能力。理想的可信屬性可能包括準確性、公平性、對抗性魯棒性等。對于一個通用的表征網絡 Φ(?)\Phi(\cdot)Φ(?),隱含空間的自然選擇是表征網絡的輸出空間。這些構建的空間通過表征學習被專門訓練用于編碼關于輸入數據的關鍵信息,使網絡能夠通過一個簡單的任務特定下游網絡執行分類、回歸或生成等各種任務。另一方面,在平滑模型的背景下,平滑濾波器應用于整個基礎網絡

。因此,我們將直接將網絡的

視為評估表征魯棒性的目標空間。在這種情況下,我們特別感興趣的是基礎網絡和平滑網絡之間的不同表現。 研究表征魯棒性對于推動機器學習領域的發展至關重要,原因有以下幾點。首先,正如將在論文的后續章節中討論的那樣,對每個組件(如表征網絡、平滑操作符等)的深入理解有助于我們更加謹慎和意識到這些操作可能產生的副作用。這種理解也將為改進這些網絡設計奠定基礎。其次,隨著機器學習社區逐漸將重點轉向任務無關的預訓練和任務特定的微調,魯棒的表征變得越來越重要。在安全關鍵的應用中,由于脆弱表征導致的錯誤預測可能會產生嚴重后果。從這個角度來看,表征魯棒性是許多可信賴AI領域的基礎,因為預訓練的表征網絡將對任何基于它的機器學習系統的整體可信賴性產生貢獻。通過研究和增強表征魯棒性,可以構建更具彈性的AI系統,并防止錯誤的傳播。

付費5元查看完整內容

本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。

我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。

支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。

付費5元查看完整內容
北京阿比特科技有限公司