持續學習依然是機器學習領域的一項長期挑戰。成功實現持續學習需要不斷吸收新的知識,同時保留仍然有用的舊知識。在本論文中,我們提出了一種連貫的持續學習目標:在每個時間步受到計算資源限制的前提下,最大化無限時域平均回報。這一框架使我們能夠系統性地分析持續學習智能體的設計與評估,超越僅僅依賴準確率保持或可塑性等零散指標的方法。 論文的第一部分聚焦于基礎工具與理論視角的構建,包括:對智能體狀態的信息論建模、智能體容量的量化方法,以及持續學習中穩定性–可塑性權衡的形式化定義。第二部分則提出了多種新算法:一種用于緩解神經網絡可塑性退化的再生式正則化方法;Conformal Sympow——一種基于Transformer的模型,借助學習型門控與數據依賴旋轉機制,實現了高效的長上下文推理;以及一種以多樣性驅動的強化學習方法,使智能體具備對環境擾動的少樣本魯棒性。
綜上,這些工作有助于將持續學習確立為一個有原則、可操作的機器學習子領域,推動理論與實踐的融合。
將歸納邏輯程序設計(符號主義)與深度學習(聯結主義)相結合,已引起研究者廣泛關注,成為提升推理能力的一項新興研究方向。然而,目前的融合仍不完善,尤其體現在模型泛化能力差、學習效率低等問題上。在本論文中,我們旨在提升現有方法的泛化能力,以及學習能力與整體性能表現。此外,我們還計劃就大語言模型在歸納邏輯程序設計任務中的推理能力進行全面評估。
首先,為了提升現有基于邏輯的深度強化學習(DRL)算法的泛化能力,我們提出了一個新穎的框架,稱為 GALOIS。該框架能夠綜合層次結構和明確的因果邏輯,自動合成白盒程序。它采用程序草圖(program sketch)機制,并引入了一種新的基于草圖的編程語言,用于引導程序合成過程。基于此,GALOIS 實現了一種草圖驅動的程序合成方法,可生成具備可解釋性和良好泛化能力的白盒因果推理程序。在多個復雜決策任務上的全面評估表明,GALOIS 在學習能力、泛化能力、可解釋性以及跨任務知識遷移方面均優于主流強化學習方法及此前的最先進程序引導方法。
接下來,我們觀察到當前最先進的神經歸納邏輯程序設計(ILP)模型在訓練時需要大量的訓練迭代和樣本。此外,在處理需要復雜邏輯推理的任務時,這些模型在性能與泛化能力方面仍存在明顯不足。為此,我們提出了一個新的框架:失敗反思引導正則器(Failure Reflection Guided Regularizer, FRGR)。FRGR 能夠在模型訓練過程中動態識別并總結反復出現的錯誤模式;隨后,對未來訓練過程中再次犯下類似錯誤的行為給予懲罰。此機制促使模型避免重復性錯誤,從而加速模型收斂,并獲得更優且性能更強的解決方案。在多個關系推理與決策任務上的實驗結果表明,FRGR 在提升神經 ILP 模型的性能、泛化能力與學習效率方面具有顯著成效。
最后,盡管神經 ILP 求解器的性能已有提升,但近年來,研究者對大語言模型(LLMs)推理能力的興趣迅速上升。然而,已有工作中使用的文本與數值推理基準多數較為淺顯和簡單,僅憑在這些基準上的正向結果,尚不足以斷言 LLM 擁有強大的推理能力。近期研究表明,在基于強化學習的基準中,LLM 在需要常識性規劃的序列決策問題上表現較差。為此,我們在本研究中,基于 ILP 基準對多種最先進的大語言模型進行了深入推理能力評估。ILP 被廣泛認為是評估邏輯程序歸納/合成系統的代表性且具有挑戰性的基準,因為它要求模型能夠學習嚴謹的因果邏輯以實現在 IID(獨立同分布)與 OOD(分布外)測試樣本上的穩健推理。評估結果表明,與規模遠小于 LLM 的神經程序歸納系統相比,當前最先進的 LLM 在推理能力上表現明顯較弱——無論是采用自然語言提示還是真值矩陣提示,其性能與泛化能力均遠遜色于神經 ILP 系統。
深度神經網絡,尤其是大語言模型(LLMs),在廣泛的任務中展現了顯著的成功;然而,其訓練過程計算密集,需要大量的數據和計算資源。即使是對預訓練的LLMs進行特定任務的微調,也常常帶來顯著的計算成本。本論文從凸優化的視角出發,推進了對神經網絡的理論理解和實際優化。我們首先提出了一個基礎性結果:兩層ReLU網絡的正則化訓練問題可以重新表述為凸優化問題。這種凸優化公式化闡明了優化景觀,刻畫了所有全局最優解和Clarke穩定點,并將模型性能與超參數選擇解耦。借鑒壓縮感知中最稀疏線性模型的恢復,我們證明了過參數化神經網絡本質上學習能夠有效解釋數據的簡單模型,并通過在隨機生成數據集中觀察到的相變現象支持了這一結論,從而確立了其卓越的泛化能力。將強對偶性概念擴展到深層網絡,我們提出了一種并行架構,能夠在修改正則化的情況下實現全局最優訓練,同時也為標準架構中非零對偶間隙的存在提供了見解。通過將正則化ReLU網絡的訓練與NP難問題Max-Cut聯系起來,我們嚴格分析了訓練到全局最優的計算復雜度,得出了NP難證明,并為特定類型的數據集開發了高效的多項式時間近似算法。即使在缺乏顯式正則化的情況下,梯度流的隱式正則化也會驅動收斂到非凸最大間隔問題的全局最優解。我們通過利用隨機幾何代數對大語言模型(LLMs)進行微調,展示了凸優化的實際應用。我們進一步通過凸幾何和對偶視角分析了用于訓練兩層ReLU網絡的非凸次梯度流,表明其隱式偏差與凸正則化一致,并在對偶變量滿足特定條件時證明了其收斂到全局最優解。最后,我們提出了一種半定規劃(SDP)松弛方法,用于近似具有平方ReLU激活的兩層網絡中的Wasserstein梯度,確保在特定條件下的緊密松弛,并展示了其在貝葉斯推斷和COVID-19參數估計中的有效性。這些發現填補了關鍵的理論空白,并引入了具有深遠意義的創新方法,推動了我們對神經網絡訓練過程的理解。
隨著人工智能在醫學實踐中的逐步融合,對數據高效模型的需求變得尤為重要,特別是在醫學領域獲取大量標注數據集的高成本和復雜性背景下。本論文圍繞三個核心主題展開:
本論文提出了一些方法,用于從科學模擬器中學習數據的統計模型。由于其復雜性,科學模擬器的設計和運行成本較高。此外,求解反問題(即確定需要向模擬器提供哪些輸入,以輸出“匹配”實驗室中觀測到的模擬結果)通常是難以求解的。我們開發了生成模型,使我們能夠創建更多的合成數據或利用這些模擬器解決反問題。 第一個研究領域是基于模擬的推理 (Simulation-based Inference),該方法利用生成模型從輸出觀測中推斷輸入參數。主要貢獻如下:
第二個研究領域是將生成模型應用于提出穩定的晶體結構,以增強材料的性能,如用于電池和半導體技術。
在本論文中,我們專注于計算機視覺中的多任務學習。多任務學習的目標是同時訓練多個相關但不同的任務,并在每個任務上取得良好表現,實現任務間的雙向知識傳遞。我們旨在解決多任務學習中與偏差相關的現有挑戰,例如數據不足、類別偏移和任務不平衡等問題。以往的多任務學習方法通常需要來自所有任務的廣泛且完整的訓練數據,容易導致過擬合和模型性能不佳等問題。論文圍繞解決四個關鍵研究問題展開:
人工智能(AI)和機器學習(ML)已經改變了許多行業。在醫療保健領域,AI和ML促進了診斷工具的增強 [105],幫助識別患者數據模式,并支持外科手術操作。在交通領域,配備AI和ML的自動駕駛車輛通過提高安全性和效率來改變出行方式 [2]。在金融領域,AI驅動的算法在防范欺詐、風險管理和優化投資策略中發揮關鍵作用 [75]。這些技術所帶來的機會在各個領域提供了巨大的潛在收益,但需根據具體應用領域進行調整。 針對特定應用開發AI和ML技術面臨諸多挑戰,尤其是在數據處理方面。AI和ML技術通常假設訓練和測試數據來自相同的環境,例如交通領域中的同一時間、天氣和地理位置 [178]。然而,當這些技術遇到來自不同實驗的數據時,模型通常會失效,因為其泛化能力不佳。實際操作中,由于環境間存在固有的分布差異,處理不同環境的數據并非易事。在機器學習中,有四個相關研究領域專門處理不同環境下的分布偏移問題:遷移學習 [146]、領域泛化 [248]、元學習 [80]和多任務學習 [240]。 為了解決分布偏移,知識遷移在機器學習中作為一種理想策略逐漸興起 [146]。知識遷移首先從一個領域或模態中學習到有用的知識,然后將其應用到另一個不同但相關的領域。根據知識遷移的類型,我們將四個研究領域分為兩個分支: 1. 第一分支是單向知識遷移,包括遷移學習、領域泛化和元學習。這三種研究方向從源任務到目標任務進行單向知識遷移。在傳統遷移學習設置中,目標任務中的一些標注數據用于模型微調 [146, 248]。領域泛化 [248]利用單一或多個相關但不同的源領域數據訓練模型,并將學習到的模型泛化到任何分布不同的領域。元學習則從已知的訓練任務中學習元知識,并快速將其適應到未來的新任務。 1. 第二分支是雙向知識遷移,即多任務學習。與單向方法不同,多任務學習在任務之間進行雙向知識遷移,因為它將所有任務視為平等。為便于清晰直接的對比,我們在圖1中展示了這些研究領域。本文的研究范圍集中在多任務學習,其中一個領域或模態通常對應于一個單一任務。
1.2 多任務學習 多任務學習(MTL)的目標是通過挖掘任務間的共享知識來提升多個相關學習任務的整體性能。多任務學習相較于單任務學習的關鍵優勢在于它能夠在相關任務之間共享表示,這可以提高學習效率,并通過聯合學習任務的正則化效果提升模型在單個任務上的性能 [27, 240]。多任務學習已在自然語言處理 [31, 120, 148]、計算機視覺 [88, 122, 195]和強化學習 [49, 171]等多個領域成功應用。我們的研究重點是計算機視覺中的多任務學習。
隨著機器學習系統逐漸成為我們日常生活的組成部分,尤其是基礎模型的顯著進步,我們必須評估它們的可信性、公平性,并探索改進這些關鍵方面的方法。本論文探討了機器學習模型性能、魯棒性和公平性的測量與提升。此外,我們還研究了這些系統在新應用領域的設計和部署,并將這些指標作為重要目標。
本論文旨在使機器學習在總體上變得更加可信和強大。第一個主題是評估機器學習模型的魯棒性和公平性及其改進策略。我們的方法結合了分布魯棒優化(DRO)和人類難以察覺的對抗攻擊,同時提高了模型的魯棒性和公平性。通過分析機器學習系統的魯棒性和公平性,我們直觀地將機器感知與人類感知更接近。除了魯棒性和公平性之外,我們還研究了梯度流方法,以緩解數據稀缺問題,并在少樣本學習環境中提高分類系統的性能。我們證明了梯度流方法能夠全局收斂,并且在下游遷移學習任務中展示了其生成有用數據樣本的能力。
最后,我們專注于機器學習算法在材料科學領域的創新應用。具體來說,我們設計了機器學習系統來加速分子模擬中罕見事件的采樣。與傳統采樣方法相比,我們的方法在速度上有顯著提高,同時對這些罕見事件的概率估計也更加魯棒。
在整個論文中,我們展示了機器學習在多個方面的改進,包括公平性和魯棒性。我們還展示了它在傳統應用如機械模擬中的強大能力。未來的工作將擴展這些系統,以應對更復雜和更高維度的挑戰。通過不斷的努力,本論文為開發更加可靠和強大的機器學習系統做出了貢獻。。
開發值得決策者信任的機器學習模型對于在實踐中使用這些模型至關重要。算法透明性工具,如可解釋性和不確定性估計,能夠向決策者展示模型的可信度。在本論文中,我們首先探討了從業者在工業界如何使用可解釋性。通過一項訪談研究,我們發現,盡管工程師們越來越多地使用可解釋性方法來測試開發過程中的模型行為,但這些方法在外部利益相關者中采用的情況卻有限。為此,我們為特定決策環境開發了新穎的算法透明性方法,并通過人類主體實驗與真實決策者一起測試這些方法。
我們首先提出DIVINE,一種基于示例的解釋方法,它不僅找到對模型參數有影響的訓練點,而且這些點在輸入空間中具有多樣性。我們展示了我們的解釋如何提高決策者模擬模型決策邊界的能力。接下來,我們討論反事實潛在不確定性解釋(CLUE),這是一種特征重要性解釋方法,識別出如果擾動輸入特征,將會減少模型在給定輸入上的不確定性。我們展示了決策者如何使用我們的解釋來識別模型在未見輸入上的不確定性。 盡管每種方法本身都是成功的,我們更感興趣的是,了解在決策者利用某種形式的決策支持后,結果在何種環境下會有所改善,無論是算法透明性還是模型預測。我們提出了學習決策支持策略的問題,該策略針對給定的輸入,選擇為沒有先驗信息的決策者提供何種形式的支持。利用隨機上下文多臂強盜問題的技術,我們引入THREAD,一種在線算法,用于個性化每個決策者的決策支持策略。我們與真實用戶一起部署THREAD,展示了在線學習個性化策略的過程,并說明了在實踐中學習決策支持策略的細微差別。 我們以個性化決策支持的前景作為本論文的結論,這種支持形式可以包括基于決策者需求的算法透明性。
在機器學習領域,我們致力于開發能夠學習的算法,即在沒有被特別編程完成某項任務的情況下,積累關于如何完成任務的知識。在這篇論文中,我們從兩個不同的角度來探討學習:我們可以應用高效機器學習者的領域以及我們可以通過更有效地解決底層優化問題來改進學習的方式。機器學習方法通常非常依賴數據。雖然現代機器學習在解決實際問題方面取得了巨大成功,但這些成功案例主要局限于有大量相關領域數據可用的設置。元學習領域旨在通過創建“學會如何學習”的模型(即能夠在給出相對較少的示例時迅速適應新任務的模型)來開發具有改進的樣本效率的模型。在本論文中,我們關注使用超網絡進行任務適應的攤銷元學習者,這些學習者成本非常有效,只需通過超網絡進行一次前向傳播即可學會如何執行新任務。我們展示了這些攤銷元學習者可以以超出其在小樣本學習設置中的典型用途的新方式來利用。
我們針對攤銷元學習者開發了一種基于集合的中毒攻擊,這種攻擊讓我們能夠定制一組協同作用的輸入,用作適應新任務的訓練數據(即作為支持集)時,這些輸入能夠欺騙系統的學習算法。這樣共同制作的對抗性輸入可以協同操縱分類器,對于具有可微適應機制的攤銷學習者來說,這種輸入尤其容易計算。我們還在可解釋性領域利用攤銷學習者進行“數據集調試”,在此過程中,我們開發了一種稱為Meta-LOO的數據價值或樣本重要性策略,可用于檢測噪聲或分布外數據;或者將一組示例提煉到其最有用的元素。
從我們的第二個角度看,機器學習和優化是密切相關的;實際上,學習可以被表述為以模型參數為目標的訓練損失最小化問題——盡管實際上我們還需要我們的算法具有泛化能力,這不是更廣泛優化的關注點。選擇的優化策略影響了算法學習的速度以及找到的解決方案(即模型參數)的質量。通過研究優化,我們可以改善我們的模型的學習效果和速度。
在這篇論文中,我們采取了雙管齊下的方法來實現這一目標。首先,我們開發了一種在線超梯度基礎的超參數優化策略,通過支持廣泛的超參數同時保持可擴展性,改進了現有的最佳技術。值得注意的是,我們的方法支持優化算法的超參數,如學習率和動量,這是文獻中類似方法不支持的。其次,我們開發了一種適用于深度學習的非凸損失景觀的二階優化策略。我們的算法近似了一個鞍點是排斥而非吸引的鞍點自由版本的Hessian,以一種適用于深度學習問題的方式。
本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。
我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。
支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。
盡管在深度學習方面已經取得了巨大的實踐進展,但我們對是什么使深度學習工作得很好以及為什么這樣做缺乏清晰的理論理解。在本文中,我們采用“自然科學”的方法來構建深度學習的理論。我們首先確定在跨越各種不同背景的實際深度網絡中出現的各種經驗屬性。然后,我們討論了這些實證發現可以如何用來通知理論。具體而言,我們證明:(1)與監督學習相比,經過自監督學習訓練的先進深度網絡盡管過度參數化,但在特定條件下仍能實現有限的泛化差距。(2)具有相似性能和架構的模型通常會收斂到相似的內部表示,即使它們的訓練方法有很大的不同(例如:監督學習和自監督學習)(3)插值分類器服從一種分布泛化形式——它們從訓練分布中收斂到一種條件采樣器類型。(4)深度網絡的數據擴展特性對訓練數據集的結構和噪聲水平的變化具有魯棒性。
//dash.harvard.edu/handle/1/37372168
我們的發現強調,盡管缺乏最壞情況的保證,深度網絡隱含地以可預測的、結構化的方式運行,從而為未來的理論分析奠定了基礎。