深度神經網絡在過去十年中雖已在各類機器學習任務中展現出卓越性能,但其在資源受限且動態變化的現實環境中的部署仍面臨挑戰。大規模模型雖精度優異,但其計算需求往往難以滿足邊緣設備與實時應用的要求;輕量級模型雖效率占優,卻在動態域偏移場景下普遍存在魯棒性與泛化能力不足的問題。這一矛盾在移動醫療等隱私敏感、效率優先且可靠性要求嚴苛的應用中尤為突出。本論文提出TempT(時序一致性測試時自適應)方法——一種無需標注數據的測試時自適應(TTA)新范式,通過利用時序連貫性作為自監督信號,對連續輸入的模型預測施加平滑性約束。該方法通過抑制高頻波動,不僅提升了預測穩定性,更顯著增強了模型在未知環境中的性能與魯棒性。該技術在以表情識別、視頻目標檢測為代表的視頻學習任務中效果尤為顯著,因其能有效保持幀間一致性。進一步地,我們創新性地將拓撲數據分析(TDA)中的持續同調理論引入模型行為量化領域,通過分析網絡中間激活的拓撲特征,開發出選擇性自適應策略,使模型能自主判斷何時調整有利、何時維持不變。此外,基于時序一致性的新型正則化技術被提出,可同步提升模型泛化能力與域偏移魯棒性。在AffWild2、SHIFT和CIFAR100P等真實數據集上的實驗表明:TempT不僅性能超越現有TTA方法,更使輕量模型達到媲美大型架構的精度水平(如SHIFT數據集上mAP提升4.7%)。本研究彌合了域適應與自監督學習間的鴻溝,為受限環境下的深度學習提供了兼顧魯棒性、隱私保護與可擴展性的解決方案。
本論文提出了四種新方法,以提高機器學習模型在小樣本且高維度表格數據集上的泛化能力。表格數據(其中每一行代表一條記錄,每一列代表一個特征)在醫學、科學研究和金融等關鍵領域中廣泛存在。然而,由于數據采集的困難,這些領域往往面臨數據稀缺的問題,難以獲得大樣本量。同時,新型數據采集技術使得高維數據的獲取變得可能,從而導致特征數量遠遠超過樣本數量的數據集。數據稀缺和高維性對機器學習模型帶來了顯著挑戰,主要原因在于由于維數災難和樣本不足,模型更容易發生過擬合,無法充分刻畫數據的潛在分布。現有方法在這類場景下通常難以實現有效泛化,導致性能不盡如人意。因此,在小樣本且高維數據集上訓練模型需要專門設計的技術,以克服這些限制,并從有限數據中更高效地提取有用信息。 我們提出了兩種全新的以模型為中心的方法,以應對小樣本和高維數據下神經網絡的過擬合問題。我們的關鍵創新在于通過共享輔助網絡來約束模型參數,這些輔助網絡捕捉表格數據中潛在的關系,從而在一定程度上決定預測模型的參數,減少其自由度。首先,我們提出了 WPFS,這是一種參數高效的架構,通過權重預測網絡對模型參數實施硬參數共享。其次,我們提出了 GCondNet,該方法利用圖神經網絡(GNNs)實現對底層預測模型的軟參數共享。在應用于生物醫學表格數據集時,這兩種方法主要通過降低過擬合風險,實現了預測性能的提升。 盡管單獨依賴模型中心的方法較為常見,但結合數據中心方法往往能帶來額外的性能提升,尤其是在數據稀缺的任務中。為此,我們還提出了兩種新穎的數據增強方法,用于生成合成數據,以增加訓練集的規模和多樣性,從而捕捉到數據分布中更多的變異性。我們的關鍵創新在于將預訓練的表格分類器轉化為數據生成器,并以兩種新方式利用其預訓練信息。第一種方法 TabEBM 構建了專門的類別特定能量基模型(EBM),以近似類別條件分布,從而生成額外的訓練數據。第二種方法 TabMDA 則引入了上下文內子集劃分(ICS)技術,這種技術使得在預訓練的上下文分類器所學習的流形空間內進行標簽不變轉換,進而有效擴充了訓練數據集。兩種方法均具有通用性、快速性、無需額外訓練,并且可以應用于任何下游預測模型。它們均能顯著提升分類性能,尤其在小數據集上效果尤為明顯。 總體而言,本論文在機器學習領域開辟了新的方向,旨在減輕過擬合問題,并在表格數據的生成與增強方面取得突破。我們的技術在醫學、金融和科學研究等普遍面臨數據稀缺和高維性難題的領域具有直接應用價值。通過證明即便在有限數據條件下也能實現更高效的學習,這項工作為未來克服數據限制、推廣機器學習應用鋪平了道路。
近年來,深度學習(Deep Learning, DL)模型及其技術的迅猛發展,推動了其在多種任務與模態中的性能取得顯著進步。盡管模型整體能力持續增強,但我們對其內部推理過程的理解仍然有限,尤其是在面對系統性的不一致或錯誤——即邏輯或推理模式上的缺陷時。這類不一致性可能表現為輸出之間的自相矛盾、無法在相似任務間進行泛化,或在特定語境中得出錯誤結論。由于其可能源于模型內部過程的高度不透明、訓練數據中的偏差與不平衡,或任務本身的復雜性,檢測與衡量這類推理偏差本身就是一項挑戰。 在缺乏有效方法來檢測、量化與緩解這類錯誤的前提下,深度學習模型存在被部署時出現偏差、易被攻擊,或缺乏邏輯可靠性的重大風險。 本論文旨在針對上述問題,提出一系列適用于知識圖譜、自然語言與圖像任務中的推理型深度學習模型的創新方法。首先,本文提出了兩種技術,用于檢測和量化自然語言與圖像處理模型中因內部過程不透明所導致的預測不一致性。我們在設計的對抗性實驗設置中對多類模型進行系統評估,這些設置明確暴露模型的內部推理過程,從而使我們得以量化模型中的顯著推理偏差。 為緩解訓練數據中的偏見導致的不一致性,本文還提出了一種數據高效的采樣方法,以提升模型的公平性與性能;同時,提出一種合成數據集生成方法,用于在低資源場景下更嚴格地評估與提升模型的推理能力。 最后,論文還提出了兩種新穎技術,用于優化模型在自然語言與知識圖譜等復雜推理任務中的表現。這些方法不僅直接增強了模型的性能,還提升了推理過程的可解釋性與行為的忠實性。 總的來說,本論文通過系統地量化并緩解推理不一致性,構建了一個通用框架,以提升深度學習模型在各類任務與模態下的魯棒性、公平性與可解釋性。
機器學習模型通常在靜態環境中開發,其目標明確且數據集經過精心篩選。然而,實際部署時,這些系統與用戶的交互會同時影響模型學習與用戶行為。此類動態場景引發三大核心挑戰:個性化與非個性化訓練的權衡:數據聚合提升統計效率,但犧牲用戶個性化;用戶行為影響的量化方法:當算法決策以混淆標準評估的方式改變未來數據分布時,如何衡量系統效應;約束條件下的算法設計:突破傳感器限制、樣本稀缺性及隱私問題等系統約束,實現規模化有效個性化。本論文構建了理論模型以形式化聚合-個性化權衡關系,闡明有限數據下個性化提升性能的條件與機制;提出時序感知的觀測因果推斷框架,分離算法干預與混雜因子的效應;開發兼顧系統約束與隱私保護的可擴展算法。這些成果為理解用戶偏好對模型訓練與部署的雙向影響奠定基礎,揭示了學習算法如何與用戶偏好相互塑造的動態規律。在機器學習研究中,模型的構建、訓練與評估通常遵循靜態封閉范式——預設的損失函數、精心篩選的數據集以及嚴格的測試集驗證機制,推動了自然語言處理、計算機視覺等領域的重大突破。然而,這種受控實驗忽略了算法與人類用戶交互時產生的動態效應。實際應用中,機器學習系統的目標往往超越研究中常用的用戶無關性能指標。以推薦系統為例,為滿足用戶群體的多樣化偏好,系統必須提供個性化輸出,由此引發數據聚合與個性化的本質矛盾:聚合數據可提升整體數據可用性,增強模型泛化性能,但會犧牲個性化;個性化輸出能提高用戶滿意度,卻會減少單用戶有效樣本量,限制模型學習能力。盡管已有諸多方法試圖平衡這一矛盾,但何時以及如何權衡二者仍缺乏理論指導。機器學習模型對用戶行為和消費模式的反饋效應同樣未被充分認知。監管機構日益關注算法決策的社會影響量化(如推薦系統如何加劇信息繭房或誘導過度使用)。該問題本質上是因果推斷問題,但傳統觀測因果推斷方法在數字平臺場景中往往失效——用戶歷史交互數據會混淆算法決策與后續行為的因果關系。由于算法基于用戶歷史數據調整輸出,我們難以區分用戶行為變化究竟源于算法干預,還是既有偏好。隨機對照試驗(RCT)雖可解決此問題,但其依賴平臺合作且成本高昂,還存在倫理風險[Kramer et al., 2014]。針對這些挑戰,本論文構建了雙向影響理論模型:聚合-個性化權衡模型:揭示機器學習系統中平衡兩類目標的時機與機制;時序感知因果框架:破解用戶-算法反饋環的混雜效應,為監管者提供無需RCT的社會影響量化工具;約束條件算法創新:克服傳感器限制、樣本稀缺、隱私保護等實際障礙,確保個性化在復雜環境中有效落地。這些理論分析與算法創新共同構成了用戶偏好與機器學習系統雙向塑造的研究框架,為動態交互場景下的模型部署提供新范式。
經過十年的蓬勃發展,視頻理解領域的發展已到達一個關鍵節點,單純依賴海量數據和復雜架構已不再是應對所有場景的萬能解決方案。普遍存在的數據不平衡問題阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化(如長尾不平衡和擾動不平衡)時性能顯著下降。這一現實促使研究人員尋求替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則應運而生,旨在揭示觀察到的相關性背后的真實因果模式。本論文聚焦于語義視頻理解領域,探索因果建模在推動兩項基礎任務——視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)中的潛力。主要貢獻提出干預式視頻關系檢測方法(IVRD)針對VidVRD中關系長尾不平衡的問題,我們提出了一種名為IVRD的干預式視頻關系檢測方法。盡管尾部關系信息豐富,但由于其在數據集中稀缺,難以預測。具體而言,我們以分層方式構建了一組關系原型,迫使關系推理模塊專注于實體間動態交互的視覺內容,而非依賴對象與關系標簽之間的虛假相關性。通過引入因果推理,IVRD為在長尾不平衡情況下提升視頻理解提供了有前景的方向,使模型能夠更好地泛化到現實場景中,其中罕見或不頻繁的關系可能對場景的整體理解至關重要。提出視頻問答的不變基礎模型(IGV)我們提出了視頻問答的不變基礎模型(Invariant Grounding for VideoQA, IGV),這是一個模型無關的學習框架,旨在解決答案環境中虛假相關性帶來的負面影響。IGV通過定位問題關鍵(因果)場景來發現因果推理模式。具體而言,它利用因果場景與答案之間的關系在環境變化時保持不變的特性,并強調移除因果場景會導致回答問題失敗。通過定位這些關鍵場景,IGV迫使VideoQA模型專注于準確推理所需的視覺內容,同時屏蔽環境的負面影響,從而顯著提升骨干模型的推理能力。提出視頻問答的等變基礎模型(EIGV)為了進一步提升魯棒性和視覺可解釋性,我們在IGV的基礎上提出了等變基礎模型(Equivariant Grounding for VideoQA, EIGV)。EIGV額外引入了等變性,鼓勵回答過程對因果場景和問題的語義變化敏感。相比之下,不變基礎模型要求回答對環境場景的變化不敏感。這兩種正則化方法協同工作,區分因果場景與環境,同時通過呈現視覺-語言對齊提供更高的透明度。通過結合不變和等變基礎模型的優勢,EIGV為VideoQA創建了一個更魯棒且可解釋的框架。提出視頻問答的時空合理化方法(STR)我們發現了視頻問答的時空合理化方法(Spatio-Temporal Rationalization, STR),以解決長視頻和多對象樣本(即復雜VideoQA)的低準確率問題。由于當前的VideoQA實踐(包括預訓練模型,如SeVila [158])大多使用短視頻片段(約15秒)和少量實體(約2個)進行訓練,它們在復雜視頻(超過80秒和5個對象)上的遷移能力較差。其原因是長視頻不可避免地引入了大量冗余和虛假相關性,因為存在大量與問題無關的環境對象。針對這一挑戰,我們首先強調了建模問題關鍵時間點和空間對象的重要性,然后引入了時空合理化(STR)方法,利用可微分選擇模塊通過跨模態交互自適應地收集問題關鍵的時間點和對象。結合更合理的候選答案解碼策略,STR有效識別了與問題無關的幀和對象作為因果模式,從而提升了預測性能,尤其是在復雜場景中。局限性本論文的一個局限性在于對識別出的因果場景的評估。在整個研究中,我們依賴問答(QA)的整體性能作為發現因果場景質量的間接指標,其依據是更準確的因果場景定位可能提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,必須承認,基于因果場景的直接定量測量將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中尚未實現此類測量。因此,未來的研究將致力于建立一個專門針對因果場景的評估基準,涉及對支撐回答過程的視覺元素進行人工標注。這一舉措將有助于對因果場景發現進行更全面和嚴格的評估。總結我們的貢獻拓展了因果建模在語義視頻理解中的前沿,賦能AI系統掌握因果模式,并在具有挑戰性的視頻理解任務中提升性能。
多模態學習使神經網絡能夠處理和整合來自不同感知模態(如視覺、語言和聲音)的信息,在情感計算、醫療健康和高級多模態聊天機器人等應用中日益重要。盡管多模態學習具有廣闊的潛力,但仍面臨諸多挑戰,尤其是在數據效率方面。構建高質量的大規模多模態數據集的需求構成了巨大的障礙,限制了大規模多模態模型的可擴展性和可獲取性。 本論文研究了數據高效的深度多模態學習中的關鍵問題,重點關注不均衡的多模態數據選擇、多模態主動學習中的冷啟動問題,以及大型視覺-語言模型(VLMs)中的幻覺問題。 首先,我們分析了傳統主動學習策略的局限性,這些策略往往偏向于主導模態,導致模型在訓練過程中忽略較弱的模態,從而形成不平衡的多模態表示。為了解決這一問題,我們提出了一種梯度嵌入調制(gradient embedding modulation)方法,以確保數據選擇過程中對不同模態的公平性,從而提升模型對強模態和弱模態的均衡利用能力。 基于我們在熱啟動(warm-start)主動學習方面的研究,我們進一步研究了多模態主動學習中的冷啟動(cold-start)問題,即在沒有初始標注數據的情況下如何有效進行數據選擇。為此,我們提出了一種兩階段方法:
在從數據選擇擴展到訓練數據利用的研究中,我們進一步探討了大型視覺-語言模型(VLMs)中的幻覺(hallucination)問題,即模型在生成內容時產生與輸入圖像上下文不符的錯誤信息。我們研究了幻覺現象與視覺依賴性(visual dependence)之間的關系,揭示了某些特定 token 對幻覺的貢獻遠高于其他 token。基于這一發現,我們提出了一種訓練權重調整策略,根據 token 的視覺依賴性來調整訓練過程中的權重分配,從而在無需額外訓練數據或推理成本的情況下有效降低幻覺率。 本論文的貢獻在于推動數據高效的多模態學習,通過優化多模態數據選擇、解決冷啟動問題,以及減少大型視覺-語言模型中的幻覺,本研究為更實用、可擴展的多模態學習系統奠定了基礎,使其在降低數據和計算成本的同時提升模型性能。
在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。
本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。
總結來說,本論文的主要貢獻如下:
本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。
總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。
近年來,深度學習的進展在很大程度上得益于數據和計算資源的增加。盡管數據的豐富性使模型在某些領域表現良好,但在實際應用中(例如醫學領域),數據往往稀缺或難以收集。此外,也存在將大型數據集視為許多相關的小數據集的情境,其中一個小數據集相關任務的數據可能不充足。同時,人類智能通常只需少量樣本即可在新任務上表現出色,這強調了設計數據高效AI系統的重要性。本論文探討了應對這一挑戰的兩種策略:元學習和對稱性。
元學習將數據豐富的環境視為許多小型、獨立數據集的集合。每個小數據集代表一個不同的任務,但它們之間存在潛在的共享知識。利用這種共享知識可以設計出在相似領域中高效解決新任務的學習算法。相比之下,對稱性是一種直接的先驗知識。通過確保模型的預測在輸入發生任何變換后仍保持一致,這些模型可以提高樣本效率和泛化能力。
在后續章節中,我們提出了一些旨在提高深度學習系統數據效率的新技術和模型。首先,我們展示了基于條件神經過程(CNPs)的編碼器-解碼器風格的元學習方法的成功應用。其次,我們引入了一類新型的表達力強的元學習隨機過程模型,這些模型通過在函數空間中堆疊神經參數化的馬爾可夫轉移算子序列構建而成。最后,我們提出了群等變子采樣/上采樣層,以解決傳統子采樣/上采樣層中等變性的喪失問題。利用這些層可以構建端到端的等變模型,從而提升數據效率。
//ora.ox.ac.uk/objects/uuid:98de960f-f7eb-4437-8c37-174b82374b21
傳統的機器學習方法通常依賴于最大似然估計(MLE),因為它易于實現并且與KL散度最小化等價。然而,僅通過最大化似然訓練的模型通常缺乏在實際部署中所期望的某些特性,例如不確定性的量化、對分布外輸入的魯棒性或遵守隱私約束。隨著機器學習模型的廣泛部署,這些重要特性比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法往往難以在當今的大型模型和數據集上實現。 在本文中,我們提出了幾項貢獻,以提高超越最大似然方法的可行性。首先,我們在多個領域改進了貝葉斯機器學習。這使我們能夠恢復感興趣參數的完整后驗分布,而不僅僅是最大似然方法提供的點估計。其次,我們在序列任務中實現了新的訓練方案:強化學習和序列建模。在強化學習的情況下,這使我們能夠開發不泄露私人信息的獎勵最大化策略。在序列建模的情況下,我們實現了新的散度方法,從而改進了文本生成。 我們的貢獻使我們能夠將分布感知的方法擴展到多個領域,并實現最先進的結果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私感知算法,以及使用具有數十億參數的語言模型生成類人文本。
科學應用(如個性化(精準)醫學)需要因果機制的統計保證,然而在許多情況下,僅有復雜的觀察數據可用。這些數據通常具有復雜的底層交互。機器學習的最新進展使得建模這些系統成為可能,但其固有的偏見和黑箱特性給推斷帶來了挑戰。半參數方法能夠利用這些強大的非參數回歸過程,為數據生成過程中的有趣參數成分提供有效的統計分析。
本論文由三章組成。第一章總結了半參數和因果推斷的文獻,特別關注雙重穩健方法和條件獨立性測試。在第二章中,我們探討了平均部分效應的雙重穩健估計——線性模型中線性系數的推廣和因果效應的局部度量。這個框架涉及兩個插件擾動函數估計,并相互權衡其誤差。第一個擾動函數是條件期望函數,其估計要求可微分。我們建議將不必可微分的任意插件機器學習回歸與高斯核卷積,并證明在一系列核帶寬下,我們可以在對回歸均方誤差沒有漸近成本的情況下實現半參數效率界限。第二個擾動函數是預測變量的對數密度導數,稱為得分函數。這個得分函數不依賴于給定預測變量的響應的條件分布。得分估計僅在單變量情況下研究得較多。我們建議使用位置尺度模型將多變量得分估計問題減少到條件均值和方差估計加上單變量得分估計。這使得可以使用任意機器學習回歸。模擬結果證實了我們方法的理想特性,并在R包drape(雙重穩健平均部分效應)中提供了代碼,代碼可在//github.com/harveyklyne/drape獲得。
在第三章中,我們考慮在給定第三個連續變量Z的情況下測試兩個離散隨機變量X和Y的條件獨立性。條件獨立性測試構成了基于約束的因果結構學習的基礎,但已證明任何對所有原假設分布控制尺寸的測試在對抗任何備擇假設時都沒有檢驗力。因此,必須限制原假設空間,便于以機器學習方法的性能來做。以前的工作還對X和Y做了強結構假設。一個不做這些假設的雙重穩健方法是使用任意機器學習方法計算廣義協方差測量,將條件相關性的測試簡化為測試一個漸近高斯向量的均值是否為零。這個向量通常是高維的,天真的測試缺乏檢驗力。我們建議貪婪地合并底層離散變量的標簽,以最大化觀察到的條件相關性,從而以自適應方式揭示額外結構。我們的測試使用一種新穎的雙重引導校準。我們展示了一種以計算有效方式執行此過程的算法。模擬結果證實,在具有低維結構的高維設置中,我們能夠提高檢驗力,同時保持期望的尺寸控制。代碼在R包catci(CATegorical Conditional Independence)中提供,代碼可在
大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。
我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。
過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。
在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。
從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。