隨著自動化系統的發展,機器學習正日益融入決策過程,并在諸如簡歷篩選、投資組合配置、貸款風險評估和保險審批等應用中為人類決策者提供支持。在本論文中,我探討了將機器學習與決策過程結合時所面臨的各類挑戰,重點關注數據偏差、魯棒性、公平性、異構數據源以及面向決策的建模等問題。在每一章中,我從不同角度研究這些問題,并提出相應的定制算法加以解決。 論文的第一部分聚焦于面向決策的訓練,即在預測模型訓練過程中將最終決策結果納入優化目標。研究表明,端到端學習問題的最優解對應于能引導至貝葉斯最優行為的預測結果。 第二部分則轉向處理預測系統輸出對人類生活產生實際影響的情形,特別是與公平性相關的問題。關于公平性的第一章研究了集中式環境下的群體公平(Group Fairness),并提出了一種包含無偏梯度估計的公平性正則項。這一方法簡化了收斂速率和泛化誤差界的構建,為在群體公平至關重要的現實應用中提供了一種可擴展的保障手段。 另一個與人類相關的數據問題是,出于隱私考慮,這些數據通常無法集中傳輸至服務器。第二章在此基礎上,將公平學習方法擴展至聯邦學習環境,其中不同客戶端持有數據集的不同部分。基于函數追蹤機制,該章節提出了一種適用于全局層面的群體公平性正則項,可與現有多數聯邦學習算法結合使用,且在計算與通信開銷方面要求較低。 論文的最后一部分再次回到決策問題,提出了一種方法,用于在目標領域中整合來自不同(可能存在偏差的)參考分布的信息以做出決策。該方法通過在各個參考分布周圍構造最優傳輸球(Optimal Transport Balls),并對其交集進行優化,從而使決策者能夠在所有參考分布一致的最壞情況分布下做出魯棒決策。 關鍵詞:機器學習、優化、面向決策的學習、公平學習、分布式魯棒優化
本論文聚焦于序貫決策與自適應實驗設計中的基本挑戰,提出了具有堅實理論基礎的算法,并在樣本復雜度與實際性能上均取得了顯著提升。我們的研究貢獻主要分為兩個方面:用于學習的新型采樣機制,以及面向因果推斷的自適應方法。 第一個方面關注于提升學習效率的采樣策略,適用于不同問題場景。我們提出了多臂老虎機中的遷移學習算法,該算法能夠基于源任務與目標任務之間的觀測相似度,自適應地調整知識遷移程度,并提供理論保證,使得算法能夠在“完美遷移”與“從零學習”之間平滑過渡。我們還將偏好學習中的主動探索形式化為一個上下文對決老虎機問題,并基于再生核希爾伯特空間(RKHS)方法設計了具有多項式遺憾界的算法,其應用包括基于人類反饋的強化學習與直接偏好優化。
第二個方面著重于高效因果推斷的自適應實驗設計方法。我們提出了 截斷二階矩跟蹤(Clipped Second Moment Tracking) 算法,該算法在有限樣本遺憾上實現了指數級改進,將依賴從 O(√T) 降低至 O(log T),同時保持對問題參數的多項式依賴。我們還提出了 樂觀策略跟蹤(Optimistic Policy Tracking) 方法,該方法通過原則化的樂觀設計有效利用漸近最優的 增廣逆概率加權(AIPW)估計器,展示了如何將多臂老虎機理論中的方法成功遷移到因果推斷領域。 在整個研究中,我們強調了漸近性能與有限樣本性能之間的差距,并提出了既能提供理論保證又能帶來實際改進的算法方法。本論文的貢獻推動了序貫決策領域的最新進展,通過彌合理論與實踐的鴻溝,在包括臨床試驗、在線實驗以及人機交互等多個重要應用領域取得了突破。
物理系統的計算建模是科學計算的核心任務。機器學習方法可以擴展傳統的偏微分方程建模方法,并有潛力簡化建模過程,提高仿真準確性和性能。在本論文中,我們探討了使用神經網絡從數據中學習系統行為的方法。我們評估了作為仿真器使用時的性能-準確性權衡,并利用從中獲得的洞察,探討了將其應用于氣候模型中的子網格參數化學習的具體應用。對于這一任務,我們提出了兩種新穎的技術,通過調整架構以結合有利的歸納偏置,并通過增加訓練數據來鼓勵穩定性,從而提高所學參數化的準確性和穩定性。
機器學習有望在科學、工業和社會等眾多領域產生深遠影響。盡管當前的人工智能(AI)系統仍普遍依賴人類監督,未來的應用將越來越多地要求系統具備高度自治能力。要實現這一轉變,我們必須能夠信任這些日益龐大的模型的行為。為此,本論文圍繞三個關鍵研究方向展開:安全性、魯棒性與可解釋性。 我們首先聚焦于強化學習(Reinforcement Learning, RL)與模仿學習(Imitation Learning, IL)中的安全問題。盡管學習得到的策略在性能上取得了顯著成果,但它們在訓練過程中的探索行為及測試階段環境的變化,常常會導致不安全的決策。為此,我們提出了一種基于模型預測控制(Model Predictive Control, MPC)的安全引導機制,可在用戶指定約束條件下,對基礎 RL 策略的動作進行修正。通過合理的優化建模與損失函數設計,我們從理論上證明了最終優化得到的基礎策略在最優點上具有可證明的安全性。 針對 IL 中獨有的因果混淆(causal confusion)問題,即觀測數據與專家行為之間存在虛假相關,進而可能在部署時引發不安全行為,我們引入結構因果模型(Structural Causal Models, SCMs)的工具來識別并屏蔽存在問題的觀測信息。與此前需依賴專家反饋或專家獎勵函數的做法不同,我們的方法僅需實驗者能對初始狀態進行干預這一更為現實的假設。 論文第二部分關注如何增強分類器對抗擾動下的魯棒性。分類器是眾多 AI 系統的核心組件,但實驗表明其對輸入中的微小擾動極為敏感。我們首先擴展了隨機平滑(randomized smoothing)方法的適用性,從傳統各向同性認證推廣至數據流形子空間的投影,從而在認證體積上獲得數量級的提升。隨后,我們從更基礎的層面重新審視魯棒性問題,提出了非對稱魯棒認證(asymmetric certification)框架。在該二分類場景下,我們僅要求模型在某一特定類別上具備認證魯棒性,符合現實中對抗者主要關注產生“假陰性”(false negatives)的實際需求。我們進一步引入一類特征凸(feature-convex)結構,從而實現高效、確定性、封閉形式的認證半徑計算。 論文的第三部分探討了模型可解釋性的兩個方面:一是大型語言模型(LLMs)如何決定向人類用戶推薦什么,二是如何構建結構上可解釋的學習模型。我們首先分析了對話式搜索引擎中 LLM 對消費產品排序的行為,結果表明,模型在優先考慮產品名稱、網站內容及輸入上下文位置方面存在顯著差異。最后,我們提出了一類新的可解釋模型——結構傳輸網絡(Structural Transport Nets),用于那些潛在表示具備數學結構的領域。通過學習一個到“鏡像代數結構”的雙射映射,我們能夠在潛在空間中執行滿足原始輸入空間代數規律的操作。實驗表明,遵守底層代數規律對于學習準確且自洽的表示操作至關重要。
本論文旨在研究構建更高效且更強大模型的方法,重點聚焦于兩個方面:架構改進與優化方法。我們探討了一系列具有理論依據的架構修改,這些修改要么降低了計算成本,要么引入了有助于更高效模型利用的新特性。此外,我們還研究了現有的優化方法,以加深我們對神經網絡優化的理論理解,并使其更貼近實際應用,從而為未來構建更優的優化器提供更有依據的決策基礎。
在論文的第一部分,我們提出了三種對Transformer模型的增強,以應對處理長序列、提升數據效率和優化推理成本等關鍵挑戰。首先,我們提出了Landmark Attention機制,以提升處理長序列的效率,在我們的實驗中,該方法將推理成本顯著降低了一個大常數因子(達50倍)。通過在注意力機制中引入層級結構,Landmark Attention 能夠在推理階段處理任意長度的輸入,而不受訓練時序列長度的限制。接著,我們提出了DenseFormer架構,它允許后續層訪問前面所有層的輸出。得益于增強的信息流,DenseFormer 在保持與更深Transformer模型相同困惑度(perplexity)的同時,在內存效率和推理速度方面均優于基線模型。我們的實驗還揭示了信息流中意料之外的連貫模式,顯示出遠層激活被結構化重用的現象。最后,我們提出了CoTFormer以提升推理效率,其靈感來自大型語言模型中逐步推理的涌現能力。CoTFormer 通過對一個淺層模型的重復應用,實現了與更深模型相當的準確率。該方法雖然引入了額外計算開銷,但支持按token粒度靈活調整推理成本。我們的結果表明,在訓練自適應CoTFormer時,能在不損失精度的前提下,顯著減少計算成本,因其能自動將計算資源分配給最需要的token。
在論文的第二部分,我們聚焦于提升對神經網絡優化的理解,動因之一即源于在設計自適應CoTFormer優化方法時遇到的挑戰。我們構建了一個理論框架,用于研究參數擾動(parameter perturbation)以及屏蔽參數更新(masking parameter updates)對收斂性的影響。此外,我們通過理論分析與實證實驗,加深了對“大步長對于獲得更優模型至關重要”這一現象的理解。特別是,我們構造了一個受控實驗環境,使得小步長與大步長之間的差異可以被嚴格地觀測和驗證。
關鍵詞:語言模型、效率、優化、神經網絡、Transformers
將歸納邏輯程序設計(符號主義)與深度學習(聯結主義)相結合,已引起研究者廣泛關注,成為提升推理能力的一項新興研究方向。然而,目前的融合仍不完善,尤其體現在模型泛化能力差、學習效率低等問題上。在本論文中,我們旨在提升現有方法的泛化能力,以及學習能力與整體性能表現。此外,我們還計劃就大語言模型在歸納邏輯程序設計任務中的推理能力進行全面評估。
首先,為了提升現有基于邏輯的深度強化學習(DRL)算法的泛化能力,我們提出了一個新穎的框架,稱為 GALOIS。該框架能夠綜合層次結構和明確的因果邏輯,自動合成白盒程序。它采用程序草圖(program sketch)機制,并引入了一種新的基于草圖的編程語言,用于引導程序合成過程。基于此,GALOIS 實現了一種草圖驅動的程序合成方法,可生成具備可解釋性和良好泛化能力的白盒因果推理程序。在多個復雜決策任務上的全面評估表明,GALOIS 在學習能力、泛化能力、可解釋性以及跨任務知識遷移方面均優于主流強化學習方法及此前的最先進程序引導方法。
接下來,我們觀察到當前最先進的神經歸納邏輯程序設計(ILP)模型在訓練時需要大量的訓練迭代和樣本。此外,在處理需要復雜邏輯推理的任務時,這些模型在性能與泛化能力方面仍存在明顯不足。為此,我們提出了一個新的框架:失敗反思引導正則器(Failure Reflection Guided Regularizer, FRGR)。FRGR 能夠在模型訓練過程中動態識別并總結反復出現的錯誤模式;隨后,對未來訓練過程中再次犯下類似錯誤的行為給予懲罰。此機制促使模型避免重復性錯誤,從而加速模型收斂,并獲得更優且性能更強的解決方案。在多個關系推理與決策任務上的實驗結果表明,FRGR 在提升神經 ILP 模型的性能、泛化能力與學習效率方面具有顯著成效。
最后,盡管神經 ILP 求解器的性能已有提升,但近年來,研究者對大語言模型(LLMs)推理能力的興趣迅速上升。然而,已有工作中使用的文本與數值推理基準多數較為淺顯和簡單,僅憑在這些基準上的正向結果,尚不足以斷言 LLM 擁有強大的推理能力。近期研究表明,在基于強化學習的基準中,LLM 在需要常識性規劃的序列決策問題上表現較差。為此,我們在本研究中,基于 ILP 基準對多種最先進的大語言模型進行了深入推理能力評估。ILP 被廣泛認為是評估邏輯程序歸納/合成系統的代表性且具有挑戰性的基準,因為它要求模型能夠學習嚴謹的因果邏輯以實現在 IID(獨立同分布)與 OOD(分布外)測試樣本上的穩健推理。評估結果表明,與規模遠小于 LLM 的神經程序歸納系統相比,當前最先進的 LLM 在推理能力上表現明顯較弱——無論是采用自然語言提示還是真值矩陣提示,其性能與泛化能力均遠遜色于神經 ILP 系統。
通過代碼數據學習來解決軟件任務的編程工具在提升開發人員生產力方面展現了早期的潛力。然而,這些工具在魯棒性方面以及它們對軟件安全性和可靠性的最終影響上仍然存在顯著差距——這些問題甚至對經驗豐富的開發人員來說仍是挑戰。本論文旨在從安全性和可靠性的角度推動代碼機器學習領域的發展。我們提出了訓練機器學習模型的新技術,以使其具備強大的推理能力,能夠處理與安全性和可靠性相關的問題。 我們首先介紹了利用監督學習信號來增強程序分析的方法。作為這一方法的實例,我們提出使用模仿學習框架,從符號執行中學習一個有效且快速的模糊測試器。首先,符號執行專家為大量程序生成高質量輸入數據集。然后,利用該數據集訓練一個神經網絡模糊測試器,使其模仿專家的行為。訓練好的模糊測試器隨后被部署以測試新程序。
此外,我們研究了分布漂移問題,這是阻礙深度學習模型在現實場景中有效檢測漏洞的關鍵問題。分布漂移發生在訓練和評估所用的數據集與實際遇到的漏洞分布不一致時。為了解決這個問題,我們提出了一種兩階段的訓練方法。首先,模型在大量的合成漏洞上進行訓練,然后進一步在一個更接近實際漏洞分布的數據集上進行訓練。 最后,我們從兩個互補的角度探討了代碼生成中的安全性問題。我們不僅尋求改進生成安全代碼的能力,還研究了從對抗角度降低安全級別的可能性。為實現這些目標,我們提出了一個統一的微調框架,采用專門的優化目標,既優化安全性又保持模型生成功能性正確代碼的能力。
在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。
分布變遷仍然是成功和可靠部署機器學習(ML)系統的重大障礙。解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現;同樣重要的是,通過仔細實驗AI系統,理解它們在實際分布變遷下的失敗。本論文描述了我在構建可信賴和可靠的機器學習基礎方面的工作。調查的工作大致分為三個主要類別:(i)設計正式的、實用的真實世界分布變遷結構表征;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這種變遷;以及(iii)實驗現代ML系統,理解現實世界重尾和分布變遷的實際影響,包括平均情況和最壞情況。
第一部分描述了可擴展地認證深度神經網絡對對抗攻擊的穩健性的工作。所提出的方法可用于認證對測試樣本、訓練數據或更一般地對任何影響模型最終預測的輸入的攻擊的穩健性。在第二部分中,我們關注變遷的潛變量模型,借鑒因果關系和其他結構化編碼的概念。我們展示了這些模型如何通過環境/干預復雜性這一新視角,進行使用多種分布進行穩健深度學習的方法的正式分析。環境/干預復雜性是領域泛化和因果表示學習的核心統計測量,通過訓練分布數量和多樣性來量化誤差和/或結構化可識別性條件。最后,在第三部分中,我們廣泛探索了更好地理解和利用自然數據中的變化的方法,并展示了所得見解如何促進設計在現實世界中更加穩健和可靠的新方法。
預測算法通過其在未見測試數據上的表現來評估和重視。在經典的機器學習(ML)中,通常假設這些數據是相互獨立地從與訓練算法所用數據集相同的分布中抽取的(這被稱為IID假設)。然而,在現實世界中,這種情況幾乎從未滿足。IID假設作為一種有價值的抽象,用于研究如何高效且可靠地從數據中學習。然而,統計學家早已明白這一假設是一種過度簡化,現實世界的數據底層分布不斷發生變遷:例如,時間上的變遷、異質子群體間的變遷、因過去行為而引發的變遷等。由于現實與理想化的IID數據假設之間的這種差異,在分布內提供強泛化保證的算法(如經驗風險最小化[Vapnik, 1999])在現實世界中會出乎意料地失敗,通常伴隨著高置信度且無事先警告。特別是,盡管現代深度神經網絡在許多任務上實現了超人表現,但越來越多的證據表明,其令人難以置信的泛化能力主要限于測試數據與訓練數據非常相似的情況下。這些模型似乎依賴于數據的統計信息表示——出于尚未完全理解的原因——遠遠超越了對訓練數據的簡單記憶,但這些表示通常不能使其泛化到新領域或新任務。即使是對于看似微不足道的人類變化,這種情況也依然存在(Beery et al., 2018; Geirhos et al., 2018)。因此,現代最先進的生成和判別深度網絡在部署中是脆弱的,并且在出人意料的輕微分布變遷下容易出錯(Su et al., 2019; Recht et al., 2019)。
在考慮如何解決這一弱點時,人們可能會想象使得上述深度學習取得實際成功的方法最終也能解決這個問題。過去十年ML研究驚人速度的主要推動力是“基準測試方法”:通過對代表性基準數據集的一系列任務進行一致的、逐步的改進來推進。盡管這一策略的成功是不可否認的,但顯然它不足以實現真正穩健和可靠的ML未來。人工智能(AI)正在迅速部署到無數新的領域——并且只會變得更加普遍——但它尚不能被廣泛依賴,而意外失敗的潛在成本仍在增加。同時,在現實世界中引發這種失敗的變遷例子比比皆是:例如,自動駕駛汽車遇到的簡單景觀和/或天氣變化,或者用戶調整其行為以增加他們首選結果的可能性(Hardt et al., 2016)。更糟糕的是,AI越來越多地被用于安全關鍵環境,這在面對有意的對手時呈現出嚴重的安全漏洞(Sharif et al., 2016)。這種脆弱性仍然是進一步可信賴部署ML系統的重大障礙。
解決這些脆弱性的長期方案只能通過理解基準測試根本無法捕捉所有可能發生的變化而實現。但是,顯然對所有分布變遷的穩健性是不可行的。相反,我們必須首先設計精確、現實的真實世界分布變遷的數學定義:通過正式指定我們希望穩健應對的變遷的“威脅模型”,我們將能夠朝著正式的穩健性保證可靠地前進。同時,ML理論和實踐(特別是在深度學習中)之間經常存在不匹配,因此單單數學定義變遷是不夠的。我們還需要仔細實驗AI系統,以理解它們在實際中的失敗模式——只有通過這樣的實驗,我們才能理解和調和現實世界數據與我們的數學理解之間的差異。反過來,這將推動新型、更可靠且可解釋的ML方法的發展,對性能產生實際的下游益處。
本論文描述了通過結合這兩種核心方法,為可信賴和可靠的機器學習奠定基礎的進展。更具體地說,所調查的工作大致分為三大類:(i)設計正式的、實用的真實世界分布變遷結構表征,包括良性和對抗性的;(ii)利用這種結構開發證明正確且高效的學習算法,能夠穩健處理這些變遷;以及(iii)實驗現代ML系統,以理解分布變遷的實際影響,包括平均情況和最壞情況,以便未來的分析能夠更好地捕捉我們期望AI在未來遇到的困難類型。
本論文的第一部分描述了大規模認證深度神經網絡對抗攻擊穩健性的工作。第2章展示了如何將任何在高斯噪聲下分類良好的分類器轉變為對?2范數下的對抗擾動具有認證穩健性的新分類器。我們證明了使用高斯噪聲平滑在?2范數下的緊密穩健性保證,獲得了一個在ImageNet上在?2范數小于0.5 (=127/255) 的對抗擾動下具有49%認證top-1準確率的分類器。在第3章中,我們展示了如何使用所提出的方法來認證對更一般的攻擊的穩健性,例如對訓練數據的對抗性修改,或更一般地說,任何影響模型最終預測的輸入。
第二部分側重于變遷的潛變量模型,靈感來自因果關系和其他提出的真實世界變化的結構化編碼。我們展示了這些模型的重要性及其如何使使用多種分布進行穩健深度學習的方法的形式化分析成為可能。特別是,我們通過環境/干預復雜性這一新視角研究這些算法的行為——這是領域泛化和因果表示學習的核心統計測量,通過觀察的環境數量來量化誤差和/或潛在特征的可識別性。第4章在一個相當自然和一般的模型下,首次分析了為這些任務提出的各種目標下的分類。我們還在非線性領域中展示了這些方法的首個結果:除非測試數據與訓練分布足夠相似,否則這些方法可能會災難性地失敗。隨后在第5章中,我們提供了改進的分析以及更強的下界。第6章考慮了在線領域泛化的設置,首次正式量化了領域“插值”和“外推”之間的計算復雜性差距。
論文的最后一部分廣泛探索了更好地理解和利用自然數據中的變化的方法。首先,在第7章中,我們展示了預訓練特征足以生成比以前認為的更穩健的預測器。第8章描述了這一發現如何使得使用未標記的測試數據以證明神經網絡適時適應變遷,或給出(幾乎)有證明的非空的測試誤差界成為可能。接下來,第9章開發了一種穩健優化方法用于策略分類,使得雙重穩健預測能夠優雅地處理策略響應和用戶成本函數中的不可避免的不確定性。最后,第10章展示了離群值對神經網絡優化的顯著影響——這一結果為理解自然數據的重尾如何影響網絡行為提供了新的見解,并提出了神經網絡優化中各種現象起源的更一致的圖景。
隨著機器學習算法在高風險應用中不斷開發和部署,確保其可靠性已變得至關重要。本論文介紹了在機器學習中提高可靠性的算法進展,重點強調兩個關鍵維度:魯棒性和可解釋性。 本論文的第一部分側重于魯棒性,即保證算法在各種數據不確定性下仍能提供穩定和可預測的性能。我們研究了在不同數據不確定性來源下的學習魯棒性,包括基本的統計誤差以及數據噪聲和損壞。我們的研究揭示了這些不同來源如何相互作用并對數據驅動決策產生影響。我們引入了針對特定不確定性來源量身定制的新穎的分布魯棒優化方法。我們的研究結果表明,對一種來源的保護可能會增加對另一種來源的脆弱性。為了解決這個問題,我們開發了分布模糊集,能夠同時提供對所有來源的整體魯棒性。在每種情況下,我們證明了我們的新方法實現了“高效”的魯棒性,在平均性能與樣本外保證之間實現了最佳平衡。我們的新算法被應用于各種場景,包括訓練魯棒神經網絡,在這些場景中顯著優于現有基準。 本論文的第二部分探討了可解釋性,這是高風險環境下決策支持工具的一個關鍵屬性,要求算法能夠為其決策提供可理解的解釋。我們的工作在這一部分的動機來自于數據驅動的個性化患者治療——一種越來越受歡迎的機器學習應用。在這個強化學習問題中,可解釋性至關重要:醫生不能依賴于一個黑箱算法來開具治療方案。我們在理論上引入了學習連續狀態空間動態系統最簡潔離散表示的問題。在患者治療的背景下,這相當于基于患者治療過程中不斷變化的特征來確定治療組。令人驚訝的是,我們在理論上證明,僅從觀察到的歷史樣本路徑數據中就有可能學習到動態系統的最簡潔表示。隨后,我們開發了一種算法,MRL,能夠學習這種簡潔的表示,從而增強可解釋性和可操作性。
隨著機器學習系統逐漸成為我們日常生活的組成部分,尤其是基礎模型的顯著進步,我們必須評估它們的可信性、公平性,并探索改進這些關鍵方面的方法。本論文探討了機器學習模型性能、魯棒性和公平性的測量與提升。此外,我們還研究了這些系統在新應用領域的設計和部署,并將這些指標作為重要目標。
本論文旨在使機器學習在總體上變得更加可信和強大。第一個主題是評估機器學習模型的魯棒性和公平性及其改進策略。我們的方法結合了分布魯棒優化(DRO)和人類難以察覺的對抗攻擊,同時提高了模型的魯棒性和公平性。通過分析機器學習系統的魯棒性和公平性,我們直觀地將機器感知與人類感知更接近。除了魯棒性和公平性之外,我們還研究了梯度流方法,以緩解數據稀缺問題,并在少樣本學習環境中提高分類系統的性能。我們證明了梯度流方法能夠全局收斂,并且在下游遷移學習任務中展示了其生成有用數據樣本的能力。
最后,我們專注于機器學習算法在材料科學領域的創新應用。具體來說,我們設計了機器學習系統來加速分子模擬中罕見事件的采樣。與傳統采樣方法相比,我們的方法在速度上有顯著提高,同時對這些罕見事件的概率估計也更加魯棒。
在整個論文中,我們展示了機器學習在多個方面的改進,包括公平性和魯棒性。我們還展示了它在傳統應用如機械模擬中的強大能力。未來的工作將擴展這些系統,以應對更復雜和更高維度的挑戰。通過不斷的努力,本論文為開發更加可靠和強大的機器學習系統做出了貢獻。。