盡管深度神經網絡在過去十年中展現出卓越性能,但其在資源受限且動態變化的現實場景(如移動醫療)中的部署仍面臨重大挑戰。大型模型雖精度優異,卻難以滿足邊緣設備的實時性需求;輕量級模型雖計算高效,卻常因域偏移(domain shifts)導致魯棒性與泛化性下降。 本論文提出TempT(測試時時序一致性自適應),一種無需標注數據的測試時自適應(TTA)新范式。其核心創新包括:
時序相干性約束 * 將輸入序列的時序連貫性作為自監督信號,通過抑制預測結果的高頻波動,提升模型在未知環境中的穩定性與性能(如視頻表情識別、目標檢測等跨幀一致性關鍵任務)。 1. 拓撲數據分析引導
采用持續同調(Persistent Homology)量化網絡激活的拓撲特征,構建選擇性自適應策略,動態判斷何時調整模型參數可提升性能,何時可能引發退化。 1. 新型正則化方法
基于時序一致性設計正則項,顯著增強模型對域偏移的魯棒性。
在AffWild2、SHIFT和CIFAR100P等真實數據集上的實驗表明,TempT不僅超越現有TTA方法,更使輕量模型達到媲美大型架構的性能,同時滿足隱私保護與低算力需求。本研究彌合了域適應與自監督學習的鴻溝,為受限環境下的深度學習提供了可擴展解決方案。
語言模型(Language Models, LMs)在自然語言處理(NLP)任務中展現出了卓越的能力,然而要將其潛力充分釋放到具體應用中,仍面臨諸多挑戰。隨著模型規模與復雜度的不斷增長,如何高效且穩健地對其進行適配變得愈發困難。目前主流的方法通常是在帶標簽數據上進行微調(fine-tuning),但該范式往往難以有效利用大量可獲取的無標簽數據,容易在任務特定的小規模數據集上產生過擬合,并且伴隨著高昂的計算開銷。這些限制在現實世界中尤為突出——語言任務與領域的邊界常常是開放且動態變化的。 本論文圍繞如何將語言模型更有效地適配于下游任務,提出了一系列創新方法,旨在從后訓練(post-training)的視角解決模型適配過程中的關鍵難題。首先,我們研究了在標簽資源有限的情況下最大化無標簽數據利用的策略,目標是從無標簽數據中提取與任務相關的知識,以提升模型在特定任務上的表現,并實現更魯棒的任務對齊。相關研究促成了新型的持續預訓練(continued pre-training)技術,其性能優于現有的半監督學習方法。 接著,我們提出了一種新的參數高效微調方法,該方法顯著降低了微調語言模型所需的內存與時間成本,從而在保持競爭性性能的同時,使得微調過程更加高效與可行。此外,我們還改進了有監督微調策略,以增強模型的指令跟隨能力,尤其適用于學習資源受限的情境。這一改進使語言模型在各類 NLP 任務中表現更為出色,特別是在開放式生成任務中,進一步提升了其實用性與靈活性。 為了更好地理解與評估模型在特定下游任務上的適應能力,我們還構建了新的評測基準與評估方法。其中包括用于測試復雜認知能力(如多跳空間推理)的測評工具,提供了更全面、細致的評估維度。 通過在多種 NLP 任務上的廣泛實證評估,我們的研究表明:所提出的方法顯著提升了語言模型在多任務環境中的魯棒性、效率與泛化能力。本文提出的方法代表了邁向更強大、更高效語言模型的重要一步,也為實現通用人工智能(Artificial General Intelligence, AGI)帶來了切實進展。
近年來,大型語言模型(Large Language Models, LMs)的研究主要集中于擴大模型參數規模和訓練數據量,這雖然能顯著提升性能,卻也帶來了高昂的計算成本。此外,傳統的參數化語言模型本質上難以適應未知領域、編輯已學知識、保留長尾知識,并且容易泄露訓練語料中的隱私數據。本論文旨在探索在解決上述問題的同時擴展語言模型的新路徑。
首先,我們研究了具備檢索增強能力的語言模型,即語言模型通過外部數據存儲進行預測。我們提出了一種新穎的端到端訓練方法 Trime,該方法能夠聯合優化語言模型與檢索模型。實驗結果表明,Trime 能在不增加模型規模或計算預算的前提下,顯著提升語言模型的性能。此外,使用 Trime 訓練的檢索增強語言模型能有效適應此前未見的領域。
其次,我們聚焦于語言模型中的一個核心挑戰:編輯模型參數中存儲的知識。這是一個至關重要但尚未充分解決的問題,因為現實世界的信息是不斷變化的。我們調研了當前最先進的知識編輯方法,并發現現有的評估范式非常有限。為此,我們提出了一個新的基準測試集 MQuAKE,其中包含多跳問題,用于評估模型在知識更新后是否能正確推理出由新事實所引出的變化。實驗顯示,現有的知識編輯方法在這些多跳問題上表現不佳。我們進一步提出了一種簡單的檢索增強方案,將所有編輯后的事實外部存儲,性能遠超現有方法。
第三,我們探索了通過條件計算機制擴展語言模型以降低計算成本。我們重點研究了“專家混合”(Mixture-of-Experts, MoE)機制,這是一種廣泛應用的條件計算方法,適用于高效擴展語言模型。然而,訓練 MoE 的路由網絡面臨非可微、離散目標優化的難題。為此,我們提出了一種全可微的 MoE 架構 —— Lory,用于自回歸語言模型的預訓練。該架構基于兩個關鍵技術:(1)因果段路由策略,用于高效整合專家計算結果;(2)基于相似度的數據批處理方法,以提升專家的專精化能力。盡管采用了基于段的路由方式,Lory 模型在性能上仍能與采用基于 token 路由的最先進 MoE 模型競爭,同時還能體現出領域級的專精能力。
總體而言,我們的研究揭示了一種新的語言模型擴展范式,在根本上解決了現有模型的關鍵限制,并推動了更高效、更強大、更具適應性與可更新性的語言模型的發展。
機器學習模型通常在靜態環境中開發,其目標明確且數據集經過精心篩選。然而,實際部署時,這些系統與用戶的交互會同時影響模型學習與用戶行為。此類動態場景引發三大核心挑戰:個性化與非個性化訓練的權衡:數據聚合提升統計效率,但犧牲用戶個性化;用戶行為影響的量化方法:當算法決策以混淆標準評估的方式改變未來數據分布時,如何衡量系統效應;約束條件下的算法設計:突破傳感器限制、樣本稀缺性及隱私問題等系統約束,實現規模化有效個性化。本論文構建了理論模型以形式化聚合-個性化權衡關系,闡明有限數據下個性化提升性能的條件與機制;提出時序感知的觀測因果推斷框架,分離算法干預與混雜因子的效應;開發兼顧系統約束與隱私保護的可擴展算法。這些成果為理解用戶偏好對模型訓練與部署的雙向影響奠定基礎,揭示了學習算法如何與用戶偏好相互塑造的動態規律。在機器學習研究中,模型的構建、訓練與評估通常遵循靜態封閉范式——預設的損失函數、精心篩選的數據集以及嚴格的測試集驗證機制,推動了自然語言處理、計算機視覺等領域的重大突破。然而,這種受控實驗忽略了算法與人類用戶交互時產生的動態效應。實際應用中,機器學習系統的目標往往超越研究中常用的用戶無關性能指標。以推薦系統為例,為滿足用戶群體的多樣化偏好,系統必須提供個性化輸出,由此引發數據聚合與個性化的本質矛盾:聚合數據可提升整體數據可用性,增強模型泛化性能,但會犧牲個性化;個性化輸出能提高用戶滿意度,卻會減少單用戶有效樣本量,限制模型學習能力。盡管已有諸多方法試圖平衡這一矛盾,但何時以及如何權衡二者仍缺乏理論指導。機器學習模型對用戶行為和消費模式的反饋效應同樣未被充分認知。監管機構日益關注算法決策的社會影響量化(如推薦系統如何加劇信息繭房或誘導過度使用)。該問題本質上是因果推斷問題,但傳統觀測因果推斷方法在數字平臺場景中往往失效——用戶歷史交互數據會混淆算法決策與后續行為的因果關系。由于算法基于用戶歷史數據調整輸出,我們難以區分用戶行為變化究竟源于算法干預,還是既有偏好。隨機對照試驗(RCT)雖可解決此問題,但其依賴平臺合作且成本高昂,還存在倫理風險[Kramer et al., 2014]。針對這些挑戰,本論文構建了雙向影響理論模型:聚合-個性化權衡模型:揭示機器學習系統中平衡兩類目標的時機與機制;時序感知因果框架:破解用戶-算法反饋環的混雜效應,為監管者提供無需RCT的社會影響量化工具;約束條件算法創新:克服傳感器限制、樣本稀缺、隱私保護等實際障礙,確保個性化在復雜環境中有效落地。這些理論分析與算法創新共同構成了用戶偏好與機器學習系統雙向塑造的研究框架,為動態交互場景下的模型部署提供新范式。
經過十年的蓬勃發展,視頻理解領域的發展已到達一個關鍵節點,單純依賴海量數據和復雜架構已不再是應對所有場景的萬能解決方案。普遍存在的數據不平衡問題阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化(如長尾不平衡和擾動不平衡)時性能顯著下降。這一現實促使研究人員尋求替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則應運而生,旨在揭示觀察到的相關性背后的真實因果模式。本論文聚焦于語義視頻理解領域,探索因果建模在推動兩項基礎任務——視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)中的潛力。主要貢獻提出干預式視頻關系檢測方法(IVRD)針對VidVRD中關系長尾不平衡的問題,我們提出了一種名為IVRD的干預式視頻關系檢測方法。盡管尾部關系信息豐富,但由于其在數據集中稀缺,難以預測。具體而言,我們以分層方式構建了一組關系原型,迫使關系推理模塊專注于實體間動態交互的視覺內容,而非依賴對象與關系標簽之間的虛假相關性。通過引入因果推理,IVRD為在長尾不平衡情況下提升視頻理解提供了有前景的方向,使模型能夠更好地泛化到現實場景中,其中罕見或不頻繁的關系可能對場景的整體理解至關重要。提出視頻問答的不變基礎模型(IGV)我們提出了視頻問答的不變基礎模型(Invariant Grounding for VideoQA, IGV),這是一個模型無關的學習框架,旨在解決答案環境中虛假相關性帶來的負面影響。IGV通過定位問題關鍵(因果)場景來發現因果推理模式。具體而言,它利用因果場景與答案之間的關系在環境變化時保持不變的特性,并強調移除因果場景會導致回答問題失敗。通過定位這些關鍵場景,IGV迫使VideoQA模型專注于準確推理所需的視覺內容,同時屏蔽環境的負面影響,從而顯著提升骨干模型的推理能力。提出視頻問答的等變基礎模型(EIGV)為了進一步提升魯棒性和視覺可解釋性,我們在IGV的基礎上提出了等變基礎模型(Equivariant Grounding for VideoQA, EIGV)。EIGV額外引入了等變性,鼓勵回答過程對因果場景和問題的語義變化敏感。相比之下,不變基礎模型要求回答對環境場景的變化不敏感。這兩種正則化方法協同工作,區分因果場景與環境,同時通過呈現視覺-語言對齊提供更高的透明度。通過結合不變和等變基礎模型的優勢,EIGV為VideoQA創建了一個更魯棒且可解釋的框架。提出視頻問答的時空合理化方法(STR)我們發現了視頻問答的時空合理化方法(Spatio-Temporal Rationalization, STR),以解決長視頻和多對象樣本(即復雜VideoQA)的低準確率問題。由于當前的VideoQA實踐(包括預訓練模型,如SeVila [158])大多使用短視頻片段(約15秒)和少量實體(約2個)進行訓練,它們在復雜視頻(超過80秒和5個對象)上的遷移能力較差。其原因是長視頻不可避免地引入了大量冗余和虛假相關性,因為存在大量與問題無關的環境對象。針對這一挑戰,我們首先強調了建模問題關鍵時間點和空間對象的重要性,然后引入了時空合理化(STR)方法,利用可微分選擇模塊通過跨模態交互自適應地收集問題關鍵的時間點和對象。結合更合理的候選答案解碼策略,STR有效識別了與問題無關的幀和對象作為因果模式,從而提升了預測性能,尤其是在復雜場景中。局限性本論文的一個局限性在于對識別出的因果場景的評估。在整個研究中,我們依賴問答(QA)的整體性能作為發現因果場景質量的間接指標,其依據是更準確的因果場景定位可能提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,必須承認,基于因果場景的直接定量測量將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中尚未實現此類測量。因此,未來的研究將致力于建立一個專門針對因果場景的評估基準,涉及對支撐回答過程的視覺元素進行人工標注。這一舉措將有助于對因果場景發現進行更全面和嚴格的評估。總結我們的貢獻拓展了因果建模在語義視頻理解中的前沿,賦能AI系統掌握因果模式,并在具有挑戰性的視頻理解任務中提升性能。
在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。
本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。
總結來說,本論文的主要貢獻如下:
本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。
總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。
近年來,深度學習的進展在很大程度上得益于數據和計算資源的增加。盡管數據的豐富性使模型在某些領域表現良好,但在實際應用中(例如醫學領域),數據往往稀缺或難以收集。此外,也存在將大型數據集視為許多相關的小數據集的情境,其中一個小數據集相關任務的數據可能不充足。同時,人類智能通常只需少量樣本即可在新任務上表現出色,這強調了設計數據高效AI系統的重要性。本論文探討了應對這一挑戰的兩種策略:元學習和對稱性。
元學習將數據豐富的環境視為許多小型、獨立數據集的集合。每個小數據集代表一個不同的任務,但它們之間存在潛在的共享知識。利用這種共享知識可以設計出在相似領域中高效解決新任務的學習算法。相比之下,對稱性是一種直接的先驗知識。通過確保模型的預測在輸入發生任何變換后仍保持一致,這些模型可以提高樣本效率和泛化能力。
在后續章節中,我們提出了一些旨在提高深度學習系統數據效率的新技術和模型。首先,我們展示了基于條件神經過程(CNPs)的編碼器-解碼器風格的元學習方法的成功應用。其次,我們引入了一類新型的表達力強的元學習隨機過程模型,這些模型通過在函數空間中堆疊神經參數化的馬爾可夫轉移算子序列構建而成。最后,我們提出了群等變子采樣/上采樣層,以解決傳統子采樣/上采樣層中等變性的喪失問題。利用這些層可以構建端到端的等變模型,從而提升數據效率。
//ora.ox.ac.uk/objects/uuid:98de960f-f7eb-4437-8c37-174b82374b21
傳統的機器學習方法通常依賴于最大似然估計(MLE),因為它易于實現并且與KL散度最小化等價。然而,僅通過最大化似然訓練的模型通常缺乏在實際部署中所期望的某些特性,例如不確定性的量化、對分布外輸入的魯棒性或遵守隱私約束。隨著機器學習模型的廣泛部署,這些重要特性比以往任何時候都更加必要。不幸的是,能夠提供這些特性的方法往往難以在當今的大型模型和數據集上實現。 在本文中,我們提出了幾項貢獻,以提高超越最大似然方法的可行性。首先,我們在多個領域改進了貝葉斯機器學習。這使我們能夠恢復感興趣參數的完整后驗分布,而不僅僅是最大似然方法提供的點估計。其次,我們在序列任務中實現了新的訓練方案:強化學習和序列建模。在強化學習的情況下,這使我們能夠開發不泄露私人信息的獎勵最大化策略。在序列建模的情況下,我們實現了新的散度方法,從而改進了文本生成。 我們的貢獻使我們能夠將分布感知的方法擴展到多個領域,并實現最先進的結果,包括恢復因果圖的后驗分布、在模擬機器人任務中開發隱私感知算法,以及使用具有數十億參數的語言模型生成類人文本。
科學應用(如個性化(精準)醫學)需要因果機制的統計保證,然而在許多情況下,僅有復雜的觀察數據可用。這些數據通常具有復雜的底層交互。機器學習的最新進展使得建模這些系統成為可能,但其固有的偏見和黑箱特性給推斷帶來了挑戰。半參數方法能夠利用這些強大的非參數回歸過程,為數據生成過程中的有趣參數成分提供有效的統計分析。
本論文由三章組成。第一章總結了半參數和因果推斷的文獻,特別關注雙重穩健方法和條件獨立性測試。在第二章中,我們探討了平均部分效應的雙重穩健估計——線性模型中線性系數的推廣和因果效應的局部度量。這個框架涉及兩個插件擾動函數估計,并相互權衡其誤差。第一個擾動函數是條件期望函數,其估計要求可微分。我們建議將不必可微分的任意插件機器學習回歸與高斯核卷積,并證明在一系列核帶寬下,我們可以在對回歸均方誤差沒有漸近成本的情況下實現半參數效率界限。第二個擾動函數是預測變量的對數密度導數,稱為得分函數。這個得分函數不依賴于給定預測變量的響應的條件分布。得分估計僅在單變量情況下研究得較多。我們建議使用位置尺度模型將多變量得分估計問題減少到條件均值和方差估計加上單變量得分估計。這使得可以使用任意機器學習回歸。模擬結果證實了我們方法的理想特性,并在R包drape(雙重穩健平均部分效應)中提供了代碼,代碼可在//github.com/harveyklyne/drape獲得。
在第三章中,我們考慮在給定第三個連續變量Z的情況下測試兩個離散隨機變量X和Y的條件獨立性。條件獨立性測試構成了基于約束的因果結構學習的基礎,但已證明任何對所有原假設分布控制尺寸的測試在對抗任何備擇假設時都沒有檢驗力。因此,必須限制原假設空間,便于以機器學習方法的性能來做。以前的工作還對X和Y做了強結構假設。一個不做這些假設的雙重穩健方法是使用任意機器學習方法計算廣義協方差測量,將條件相關性的測試簡化為測試一個漸近高斯向量的均值是否為零。這個向量通常是高維的,天真的測試缺乏檢驗力。我們建議貪婪地合并底層離散變量的標簽,以最大化觀察到的條件相關性,從而以自適應方式揭示額外結構。我們的測試使用一種新穎的雙重引導校準。我們展示了一種以計算有效方式執行此過程的算法。模擬結果證實,在具有低維結構的高維設置中,我們能夠提高檢驗力,同時保持期望的尺寸控制。代碼在R包catci(CATegorical Conditional Independence)中提供,代碼可在
大型神經網絡在大數據集上的訓練已成為機器學習中的主導范式。這些系統依賴于其參數的最大似然點估計,無法表達模型的不確定性。這可能導致過于自信的預測,并且阻礙了深度學習模型在序列決策制定中的應用。本論文開發了可擴展的方法,使神經網絡具備模型不確定性。為了實現這一點,我們不是嘗試對抗深度學習領域的進展,而是借鑒該領域的思想,使概率方法更具可擴展性。具體來說,我們利用線性化的拉普拉斯近似方法,為預訓練的神經網絡配備了其切線線性模型提供的不確定性估計。這將神經網絡中的貝葉斯推斷問題轉變為共軛高斯線性模型中的貝葉斯推斷問題。然而,這種方法的成本仍然是網絡參數數量的立方或者觀測數量與輸出維度的乘積的立方。假設這兩者都不可行。我們通過使用隨機梯度下降(SGD)——深度學習的主力算法——來處理線性模型及其凸對偶:高斯過程中的后驗采樣來解決這種不可行性。通過這種方法,我們回到了線性化的神經網絡,發現線性化的拉普拉斯近似與現代深度學習實踐——即隨機優化、提前停止和歸一化層——在用于超參數學習時存在多個不兼容性。我們解決了這些問題,并構建了一個基于樣本的EM算法,用于線性化神經網絡的可擴展超參數學習。
我們將上述方法應用于使用ResNet50(2500萬參數)在Imagenet(120萬觀測和1000個輸出維度)上進行線性化神經網絡推斷。據我們所知,這是首次在這種真實世界規模的設置中進行貝葉斯推斷,而沒有假設網絡權重間某種程度的獨立性。此外,我們還將我們的方法應用于使用深度圖像先驗網絡獲得的3D斷層重建的不確定性估計,這也是首次。我們最后通過使用線性化的深度圖像先驗來適應性地選擇掃描角度序列,這些角度序列能夠在使用更少的輻射劑量的同時,產生更高質量的斷層重建圖像。
過去幾十年中,基于數據學習的程序迅速取代了基于人工設計規則的程序,成為計算機自動化的主導范式。我們在計算機視覺(Dosovitskiy等,2021年)、逆問題(Arridge等,2019年)、自然語言處理(Wang等,2024年)、信息檢索(Zhu等,2024年)、文本與圖像生成(Jiang等,2024年;Saharia等,2022年)、系統控制(Hu等,2022年)、科學發現(Collaboration等,2021年;Graczykowski等,2022年)以及計算機編程(Chen等,2021年)等領域看到了這一點。這些進步幾乎都是通過大規模深度學習(Henighan等,2020年)實現的。確實,有足夠的數據、足夠靈活的神經網絡和足夠的計算能力來訓練人工智能(AI),數據驅動的決策方法將主宰所有傳統計算機程序。
在深度學習革命之前,最優從數據學習的規則已經在貝葉斯概率框架中被規范化(Cox,1946年;Jaynes和Justice,1986年;Jeffreys,1939年;Stigler,1986年)。在這個框架下,我們將我們的知識或無知表示為概率分布。當我們觀察到新數據時,所獲得的信息被用來將這些先驗分布更新為熵較低的后驗分布(Gull,1988年;Skilling,1989年)。反過來,這些將作為未來推理的先驗。盡管概率方法被廣泛用于構建原始神經網絡系統(Hinton和van Camp,1993年;Salakhutdinov和Hinton,2009年),現代神經網絡方法依賴于將我們的信念表達為點估計而非概率分布。明確建模的不確定性的缺失使現代深度學習系統在遇到訓練數據覆蓋不足的情況時容易出現錯誤行為(Goddard,2023年;Weiser和Schweber,2023年)。此外,對于需要基于不確定性探索的決策任務,概率方法仍然是最先進的,例如自動化化學設計(Gómez-Bombarelli等,2018年)。
從貝葉斯的角度看,神經網絡可以被視為一個不妥協的模型選擇,對要學習的函數類幾乎沒有限制。個別權重的效果是不可解釋的,這阻止了為神經網絡參數設計有信息量的貝葉斯先驗。然而,這可能正是允許我們使用神經網絡以無法被人類可讀規則列表簡潔總結的方式解決任務的特征。例如,如何巧妙地維持對話或駕駛汽車。有了這個想法,解釋貝葉斯推斷和神經網絡之間看似不兼容的一種直觀方式是將前者視為通過每一個與數據一致的程度對一組先驗假設進行評分。現代神經網絡的問題在于,需要評分的假設太多了。特別是當與大數據集結合使用時,評分變得非常昂貴,這些數據集很可能被神經網絡參數空間的相對較小區域很好地擬合。換句話說,雖然最大似然學習很好地適應了現代大網絡和大數據的環境,但貝葉斯推斷卻做不到。 本論文旨在彌合貝葉斯方法和當代深度學習之間的差距。這一努力由Mackay(1992a)開創,他將貝葉斯推斷和線性模型中的超參數選擇(這也歸功于Gull(1989))擴展到神經網絡設置中,通過拉普拉斯近似,命名其方法類為證據框架。在過去的30年中,機器學習的方法發生了很大變化;所解決問題的規模和部署模型的規模增長了數個數量級,使得無法直接應用MacKay的方法,并為我提供了撰寫論文的題材。事實上,與Mackay(1992a)類似,本論文首先對線性模型和高斯過程領域做出貢獻,使用拉普拉斯近似使這些方法適用于神經網絡中的近似推斷,并最終將開發的貝葉斯神經網絡應用于高效數據獲取。因此,這篇論文或許最好被描述為對證據框架的現代解讀,使其可擴展到現代問題規模并適應現代深度學習架構。為了實現我們的目標,我們不會試圖從頭開始重建深度學習,使其固有地使用貝葉斯推斷,例如通過對我們不理解其效果的權重施加精巧手工制作的先驗。我認為這是徒勞的。相反,我們將利用在深度學習領域取得的巨大進步,并借鑒該領域的思想使貝葉斯方法更具可擴展性。例如,在第4章中,我們將使用隨機梯度下降——訓練神經網絡的事實標準方法——使線性模型和高斯過程中的貝葉斯推斷更具可擴展性。此外,在處理神經網絡時,我們將專注于事后推斷設置,在其中我們利用近似貝葉斯方法,為預訓練的神經網絡獲得不確定性估計。這將確保論文的貢獻與快速發展的深度學習領域保持兼容。
模型無關的特征重要性度量對于揭示不透明或“黑箱”機器學習模型的任務至關重要。這種模型在高風險決策環境(如醫療保健或銀行業)的激增,要求開發靈活且可信的方法來解決這個問題。由于沒有地面真實的特征重要性進行比較,各種競爭方法提供了不同的方法和/或理念,通常都聲稱自己更優越。最近一些最受歡迎的方法是從合作博弈論的工具進行適應,這些工具在獎勵或成本分享問題中被使用。在本文檔中,我們報告了這類特征重要性方法的最近進展。特別是,我們討論了一個使用Shapley值的“數據為中心”的群體(cohort)-基礎框架,用于模型不可知的局部特征重要性。我們提出了一個主要的重要性度量,并探討了更適合特定用例或數據環境的該方法的幾種適應。我們分析了這些方法的屬性和行為,并將它們應用于包括選民注冊和累犯數據在內的一系列合成和實際問題設置。然后,我們提出并討論了局部重要性聚合和特征重要性評估的新方法。