獎勵函數在強化學習(Reinforcement Learning, RL)中具有核心地位,引導智能體實現最優決策。由于強化學習任務通常具備高度復雜性,因此需要精心設計的獎勵函數,既能有效驅動學習過程,又能避免引發意料之外的行為后果。有效的獎勵設計旨在提供有助于智能體快速收斂至最優行為策略的學習信號。設計獎勵的挑戰在于:如何使其與任務目標保持一致、激勵期望行為并抑制不良行為,這一過程本身就極具難度。 本論文深入探討了獎勵信號在強化學習中的關鍵作用,重點分析其對智能體行為及學習動態的影響,同時系統討論了如延遲、模糊或復雜獎勵信號所帶來的挑戰。在本研究中,我們從多個維度研究了獎勵塑形(Reward Shaping)的問題。 首先,我們從“教師/專家”視角出發(即“教師驅動”方式),研究如何設計信息豐富且可解釋的獎勵信號。在此場景中,專家掌握最優策略及其對應的價值函數,并據此設計獎勵信號,以加速智能體向最優策略的收斂過程。 其次,我們在教師驅動方法基礎上提出了一種新穎的自適應可解釋獎勵設計方法。在該方法中,專家會根據學習者當前的策略動態調整獎勵函數,從而確保學習方向的對齊與最優性進展。 最后,我們提出一種元學習(Meta-Learning)方法,使智能體能夠在沒有專家參與的情況下在線自我設計獎勵信號(即“智能體驅動”)。該方法綜合考慮了智能體的學習過程與探索行為,從而構建了一個自我改進的反饋機制,實現獎勵信號的自主生成與優化。
貝葉斯實驗設計(Bayesian Experimental Design, BED) 已成為一種優雅的形式化方法,用于理解在實驗代價不可忽視且高效設計至關重要的情境下,不同實驗設計的價值。值得注意的是,近年來,采用深度學習與深度強化學習(D(R)L)技術來獲取有效實驗設計的研究興趣日益增長。驅動這些技術參與的主要動機在于:它們有潛力在無需高昂測試時計算成本的情況下,提供高信息量的實驗設計。 盡管近年來關于 D(R)L 在 BED 中的探索顯示出良好的初步前景,但本文的一個核心觀察是:訓練性能良好的 BED 策略仍然極具挑戰性。具體來說,我們發現即便在中等規模的問題上,BED 智能體也需要大量樣本才能學到有效的策略。我們將這種學習困難歸因于:在自適應實驗過程中,隨著推理的推進,后驗信念空間的爆炸性增長,這使得泛化變得極為困難。如何設計能高效應對這種信念爆炸的智能體,迄今在 BED 文獻中鮮有涉及,而這正是本文的主要研究重點。 我們展示了 BED 文獻中常用的標準狀態表示和網絡架構選擇——例如全連接網絡、卷積架構和 Transformers——在面對信念爆炸時并不適合高效學習。為此,我們提出利用等變網絡(equivariant networks),以利用 BED 任務中固有的對稱性與結構。我們為離散信念狀態和連續信息集表示分別開發了專門的等變架構,并表明在這兩種場景中,這些網絡都顯著優于標準基線。值得注意的是,這些等變網絡還在測試時展現了對新的、更大規模 BED 域的穩健泛化能力——這是諸如 Transformers 等傳統架構所難以實現的。 我們的研究還揭示了 BED 等變性的一些結構性細節,可能為未來進一步提升樣本效率提供啟發。例如,除了全局等變性,我們還在更深的 BED 軌跡中觀察到豐富的子空間等變性。雖然我們的連續信息集模型并未直接利用這些更深層的子空間等變性,但我們展示了:在離散化信念空間的等變網絡中利用這些結構是直接可行的。 除 BED 場景之外,在論文的最后部分,我們還探討了如何訓練等變網絡,以在提供后驗預測不確定性時顯著提升樣本效率,相較以往的神經過程模型(Neural Process)。我們提出了圖 Transformer 神經過程(Graph Transformer Neural Process),作為一種針對平穩隨機過程的高效模型。實驗表明,它在樣本效率上遠超此前的神經過程模型,同時在測試時的分布偏移下也表現得更為穩健。 最后,我們概述了若干未來工作方向——其中最重要的包括:開發能同時保留全局等變性和離散模型所捕獲的更深子空間等變性的連續信息集網絡;克服連續 BED Q 函數景觀中的策略優化難題;以及開發更穩健的策略,用于在異質任務族之間攤銷 BED 策略。通過證明等變性在訓練高效 BED 策略中的重要性,本研究為將 BED 擴展到更復雜、更結構化的任務環境奠定了堅實基礎,在這些環境中,數據效率與泛化仍然是關鍵約束。
機器學習模型已廣泛應用于許多高風險領域,包括醫療保健和刑事司法。由于這些模型被用來做出重要決策,例如是否為客戶提供貸款,因此在采取行動之前量化不確定性至關重要。如果不這樣做,我們就可能采取不適當的行動,將錯誤的信任寄托在潛在有缺陷的模型估計上。因此,在本論文中,我們開發了針對不同領域的不確定性估計方法。首先,我們專注于理解政府干預對COVID-19傳播的影響。我們使用貝葉斯建模,這為在不確定性下的推理和決策提供了一個有原則的框架。具體而言,我們使用半機械化層次模型來提供干預效果大小的穩健估計。在這種情況下,模型參數和潛在變量具有語義意義,數據集較小,且準確推理是可行的,貝葉斯方法表現出色。接下來,我們將注意力轉向使用神經網絡的監督學習。與COVID-19模型不同,即使擁有大量計算資源,在這種設置下近似推理也是不準確的。此外,在這些黑箱模型中設置先驗是具有挑戰性的。為了取得進展,我們認為預測算法不必保持每個模型參數的分布,而是部分隨機網絡同樣有充分的理論支持。接著,我們開發了部分隨機貝葉斯神經網絡,利用未標記數據改進先驗預測分布。隨后,我們展示了貝葉斯建模如何與現代無監督學習方法有效結合,通過使用大型語言模型從結構化輸入中提取特征。這些特征可以輸入到貝葉斯模型中,以理解復雜現象并提供不確定性估計。總的來說,我們展示了多種不同的方法是獲得有用且適當不確定的預測所必需的,并提供了對貝葉斯方法在現代機器學習中應用的深入見解。
語言模型(Language Models, LMs)在自然語言處理(NLP)任務中展現出了卓越的能力,然而要將其潛力充分釋放到具體應用中,仍面臨諸多挑戰。隨著模型規模與復雜度的不斷增長,如何高效且穩健地對其進行適配變得愈發困難。目前主流的方法通常是在帶標簽數據上進行微調(fine-tuning),但該范式往往難以有效利用大量可獲取的無標簽數據,容易在任務特定的小規模數據集上產生過擬合,并且伴隨著高昂的計算開銷。這些限制在現實世界中尤為突出——語言任務與領域的邊界常常是開放且動態變化的。 本論文圍繞如何將語言模型更有效地適配于下游任務,提出了一系列創新方法,旨在從后訓練(post-training)的視角解決模型適配過程中的關鍵難題。首先,我們研究了在標簽資源有限的情況下最大化無標簽數據利用的策略,目標是從無標簽數據中提取與任務相關的知識,以提升模型在特定任務上的表現,并實現更魯棒的任務對齊。相關研究促成了新型的持續預訓練(continued pre-training)技術,其性能優于現有的半監督學習方法。 接著,我們提出了一種新的參數高效微調方法,該方法顯著降低了微調語言模型所需的內存與時間成本,從而在保持競爭性性能的同時,使得微調過程更加高效與可行。此外,我們還改進了有監督微調策略,以增強模型的指令跟隨能力,尤其適用于學習資源受限的情境。這一改進使語言模型在各類 NLP 任務中表現更為出色,特別是在開放式生成任務中,進一步提升了其實用性與靈活性。 為了更好地理解與評估模型在特定下游任務上的適應能力,我們還構建了新的評測基準與評估方法。其中包括用于測試復雜認知能力(如多跳空間推理)的測評工具,提供了更全面、細致的評估維度。 通過在多種 NLP 任務上的廣泛實證評估,我們的研究表明:所提出的方法顯著提升了語言模型在多任務環境中的魯棒性、效率與泛化能力。本文提出的方法代表了邁向更強大、更高效語言模型的重要一步,也為實現通用人工智能(Artificial General Intelligence, AGI)帶來了切實進展。
我們如何在物理世界中構建智能具身體智能體?此類智能體應能夠在面對前所未見的任務時自主完成目標,同時應對環境中的外部擾動,以及諸如光照變化、多樣的傳感器輸入、與其他智能體或物體的意外交互等因素的組合變化。 構建此類智能體的一個重要子目標,是開發能夠穩健泛化的模型——不僅能泛化到與訓練階段類似的任務分布,也能泛化到全新的、從未見過的任務分布。這一目標突破了標準機器學習方法的假設,即訓練分布與測試分布相同。為達成該目標,本論文將展示如何通過對每個任務的所有可能預測估計能量場景(energy landscape),并將準確預測分配較低能量的方式,來實現某些形式的泛化能力。 這種建模方法將預測過程形式化為能量場景中的搜索過程,從而能夠通過適應能量場景實現對新約束條件的零樣本(zero-shot)泛化。此外,這種方法還使我們能夠通過組合多個已學習的能量場景,以零樣本的方式泛化到全新任務分布。 本論文首先提出一套訓練能量場景的方法及其代數結構,從而實現能量場景的組合與發現。接著,我們展示了能量場景如何以多種方式進行組合,包括邏輯運算、概率分布、圖模型、約束表示以及層級結構組合等,使模型能夠在視覺、決策、多模態推理與科學計算等多個場景中實現高效泛化。 人工智能的一個重要目標是構建能夠在新環境中自主運行并完成眾多未見任務的具身智能體。要實現這一目標,智能體不僅需要在與訓練時任務分布相似的環境中運行,還需具備在預測時泛化到全新任務分布的能力。 近年來,機器學習技術在人工智能的諸多子領域,如計算機視覺和自然語言處理中取得了顯著進展。然而,這些方法普遍基于統計機器學習原理,默認訓練與預測分布相同。為了覆蓋具身智能體可能遭遇的各種情境,現有工作通常傾向于收集規模更大的訓練數據集。但這種方法并未解決泛化這一根本問題,也很難想象可以采集足夠的數據來涵蓋所有可能情境。 本論文提出一種通過建模任務預測空間中的能量場景(energy landscape)來提升機器學習泛化能力的方法。在該能量場景中,能夠成功完成任務的預測點被賦予較低能量,而其他點則具有較高能量(依據玻爾茲曼分布,這對應于“完成任務的可能性”)。從已學習模型中進行推理,即是在能量場中尋找低能量點的過程。 與直接學習一個策略函數生成預測不同,這種推理方式較少“編譯化”,因而速度較慢,需要額外的搜索過程來生成明確的預測。但正是這種搜索過程,賦予了預測過程顯著的靈活性,使得我們可以在預測階段動態調整過程以泛化到新的分布。 首先,這一搜索機制允許我們在測試時引入新的約束,只需將約束加入已有的能量場中,并優化目標為在新能量場中能量最低的預測點,從而在零樣本條件下實現對新約束的泛化。 其次,更進一步地,該能量建模方法允許我們以零樣本方式將多個已學習的能量場組合在一起,形成更復雜的能量場景。這種組合可以被視為模型間的“通信語言”,確保預測同時滿足每個組成能量函數中的約束。這使我們能夠通過指定所需組合的能量場,像編程一樣構建新系統。這一方法無需額外訓練或數據,因此也支持對前所未見任務的泛化。 我們將這種由簡單模型構建復雜系統的方法稱為組合建模(compositional modeling)。面對復雜的分布建模任務,借助組合建模,我們可以學習描述該分布中變量子集之間交互的能量場,并將其組合,進而建模整個復雜分布。這些子分布更簡單,所需參數更少、訓練數據更少。此外,只要每個子能量函數在其本地分布內表現良好,組合后的模型也可以對全局分布中的未見部分實現泛化(見圖1-1)。 組合建模還可有效捕捉自然界中廣泛存在的稀疏性與對稱性。例如,智能體與環境動態之間的稀疏交互可以通過各自獨立的能量場建模;而對稱性則可通過多個相同能量函數的實例來表示,如圖像中采用相同的子塊級模型進行平鋪,或在動力系統中為粒子對之間的雙邊交互應用同一能量函數。通過將此類結構融入模型中,我們能夠在有限數據下實現有效學習與對未見情境的泛化。 本論文將展示如何通過組合能量場來實現多種形式的組合建模。我們首先介紹如何實現邏輯組合,利用嵌套邏輯操作來構建集合(圖3-1);然后展示如何組合概率分布,實現如乘積、混合與逆分布等操作(圖3-4);接著展示如何組合圖模型(有向與無向),以組合輸入不同部分的概率分布(圖3-5);此外還包括將組合方法用于約束滿足問題(圖6-11)、實現層級組合(圖7-5),如將語言、視頻和動作模型組合實現層級規劃。 論文分為兩大部分: * 第一部分介紹如何學習與組合能量場; * 第二部分討論組合能量場在多個領域中的應用實踐。
全文結構如下: 1. 第2章:介紹學習能量場的方法,包括確定性預測與概率建模兩方面; 1. 第3章:提出一種能量場組合代數框架,用于實現邏輯操作、概率分布組合與圖模型等操作; 1. 第4章:介紹如何從無標簽輸入中挖掘可組合的能量場(適用于確定性與概率場景),并說明如何利用預訓練模型發現這些能量場; 1. 第5章:探討該方法在計算機視覺中的應用,包括組合建模對場景理解與領域適應的作用; 1. 第6章:探討該方法在機器人任務中的應用,包括規劃與約束求解; 1. 第7章:探討其在多模態預訓練基礎模型中的應用,如視覺問答與層級規劃; 1. 第8章:探討組合能量場在逆向材料設計與蛋白質合成中的應用; 1. 第9章:總結全文并討論局限性與未來研究方向。
強化學習(Reinforcement Learning)作為一種機器學習技術,已在解決復雜的序列決策問題中取得顯著進展。許多實際任務涉及多個智能體,并需要通過序列決策策略以達成共同目標,例如倉庫自動化、自動駕駛及游戲對抗等。為了為所有智能體學習合適的策略,這類問題可建模為多智能體系統,并通過多智能體強化學習(Multi-Agent Reinforcement Learning, MARL)進行求解。
然而,在多智能體場景下優化策略仍面臨諸多挑戰,主要原因在于智能體行為的復雜性以及環境動態的非平穩性。首先,在部分可觀測環境中,多智能體行為的復雜性顯著增加了策略優化的難度。此外,智能體行為的動態變化及其與其他智能體之間的交互會不斷改變環境狀態和智能體觀察結果,在開放環境下更為復雜。再者,現實中的多智能體任務往往需要在個體目標與整體目標之間實現權衡,這也進一步增加了決策制定的復雜度。 本博士論文旨在針對三類關鍵的多智能體研究問題提出解決方案,內容涵蓋從理論分析到實際應用。具體研究內容如下:
我們首先研究了在部分可觀測環境中學習高效策略的問題。我們關注的情境是:一組智能體在信息受限(無法觀測對手信息)的前提下與另一組智能體(即對手)展開對抗合作。為解決該問題,我們提出了一種新穎的多智能體分布式actor-critic算法,實現基于本地信息的對手建模。該方法中,actor維持一個“推測性對手模型”(speculative opponent model),利用自身的觀測、動作和獎勵來預測對手行為并據此決策。critic則建模策略的回報分布,從而評估actor表現并指導對手建模的訓練。大量實驗表明,在無對手數據的情況下,我們的方法依然能準確建模其行為,并在性能與收斂速度上優于現有基線方法。
其次,在某些環境中,智能體的隊友數量及其策略會隨著市場需求變化而動態變化,使得智能體必須能夠適應多種任務組合。針對這一挑戰,我們提出了一種基于強化學習的方法,使得控制智能體能夠在開放環境中與動態隊友展開協作。我們設計了一種“雙重團隊狀態推理模型”,以在部分可觀測條件下捕捉當前團隊狀態并輔助合理決策。針對隊友策略的多樣性,我們首先引入基于“中餐館過程”(Chinese Restaurant Process)的模型,將不同隊友策略歸類為多個簇,提升對當前團隊狀態的識別效率。隨后,采用異構圖注意力神經網絡(Heterogeneous Graph Attention Networks)學習團隊狀態的表示,進一步支持多變隊友數量與行為的建模。實驗結果表明,該方法在多種臨時協作任務中相較現有方法具有更快的收斂速度與更優的性能表現。 最后,在諸如路徑規劃、倉儲管理等現實任務中,決策者不僅要追求整體最優,還需兼顧各智能體之間的個體公平性。在此類多目標優化任務中,如何在學習效率與公平性之間實現平衡成為一大難題,尤其當前多數方法仍局限于仿真環境。為此,我們提出了一種創新性的多智能體強化學習方法,以實現個體目標與集體目標的協同優化。在多個合成與真實數據集上的實驗結果表明,該方法不僅優于現有的深度強化學習(DRL)方法,同時在優化速度上也明顯快于傳統啟發式算法,展示出在公平性與效率兼顧下的現實可用性。此方法為將“公平性”納入實際多智能體應用提供了有效路徑,推動了物流等行業中更公正、高效的智能決策系統發展。
綜上所述,本文圍繞多智能體決策制定中的三類核心研究問題展開,分別對應部分可觀測性、開放式環境以及個體-集體目標沖突等挑戰。針對這些問題,論文提出了三套創新的MARL方法,能夠在復雜環境下實現高效策略訓練與優化表現。此外,本文還在MARL關鍵模塊方面作出探索性設計,包括馬爾可夫決策過程(MDP)建模、策略網絡、訓練算法以及推理方法等。這些貢獻顯著提升了協作式MARL的性能與效率,樹立了新的性能基準。
在過去十年的繁榮發展之后,視頻理解的研究已到達一個關鍵的節點,單純依賴海量數據和復雜的架構已不再是適用于所有情況的萬能解決方案。數據不平衡的普遍存在阻礙了深度神經網絡(DNNs)有效學習潛在的因果機制,導致在遇到分布變化時(如長尾不平衡和擾動不平衡)性能顯著下降。這一現象促使研究者開始探索替代方法,以捕捉視頻數據中的因果模式。為了應對這些挑戰并提高DNNs的魯棒性,因果建模作為一種原則被提出,旨在發現觀察到的相關性背后的真實因果模式。
本文主要研究視頻語義理解領域,探索因果建模在推進兩個基礎任務中的潛力:視頻關系檢測(Video Relation Detection, VidVRD)和視頻問答(Video Question Answering, VideoQA)。
總結來說,本論文的主要貢獻如下:
本文的一個局限性在于對所識別因果場景的評估。在整個研究過程中,我們依賴于問題回答(QA)總體性能作為所發現因果場景質量的間接指標,基于這樣一個推理:更準確地定位因果場景可能會提供更豐富的問題-關系視覺線索,從而提升QA性能。然而,值得注意的是,基于因果場景的直接量化指標將提供更具說服力的見解。遺憾的是,由于缺乏人類級別的定位標注,當前工作中未能實現這種度量。因此,未來的研究將著力建立一個專門針對因果場景的評估基準,涉及對回答過程所依賴的視覺元素進行人類標注。這一舉措將有助于更全面和嚴格地評估因果場景的發現。
總之,本文的貢獻拓展了因果建模在視頻語義理解中的前沿應用,賦能AI系統掌握因果模式,并在應對視頻理解挑戰任務中提升性能。
大型多模態模型(LMMs)的研究已經成為深度學習領域的重點,展示了其在當代研究中的重要性。LMMs能夠處理來自不同模態的數據,通過利用互補信息來執行多種任務,從而提高預測能力。LMMs的學習過程分為兩個關鍵階段:計算密集的預訓練階段,旨在從大規模的噪聲數據中獲取通用表示;以及后續的微調階段,專注于將預訓練模型調整到特定任務上。傳統上,基礎LMMs的預訓練被認為是擁有豐富計算資源的研究實驗室的專屬特權。在本論文中,我們提出了一種用于高效預訓練基礎視覺-語言模型(VLMs)的新方法。這涉及通過專門的預訓練過程,利用現成的凍結大型語言模型(LLMs),從而減少對數據的需求。此外,我們引入了一種高效的VLM預訓練方法,減少模態投影中的冗余。通過我們的方法,訓練LLMs所需的數據量從1.29億實例大幅減少到400萬實例,并且相關的訓練成本可減少至1/10,而性能幾乎沒有顯著下降。此外,我們提出了一種簡單但強大的時序融合機制,用于將預訓練的圖像-語言模型適應下游的視頻任務。我們的視頻描述模型在沒有大量視頻-文本數據集預訓練的情況下,能夠達到與最新基準競爭的性能。除了在計算機視覺和自然語言處理中的多模態研究領域外,我們的研究還擴展到了生物信息學領域,通過研究蛋白質-RNA模型進行多模態學習。我們的研究結果表明,預訓練的蛋白質模型包含可與RNA共享的生物結構信息。鑒于實驗解析的RNA結構數量有限,我們的發現為蛋白質和RNA之間的遷移學習開啟了新的研究方向。最后,我們采用物理增強模擬來訓練T細胞-肽模型,表明在機器學習中整合這種模擬顯著提高了模型訓練效果,尤其是在標記數據有限的情況下。這凸顯了將模擬與機器學習結合的潛力,為推動生物領域LMMs的訓練提供了寶貴的策略。
在過去的十年中,深度學習研究取得了顯著進展,并在多個領域中取得了卓越的成就,包括圖像分類、圖像分割、動作識別和語言建模。盡管這些模型通過在大量特定領域的數據集上訓練,表現出了在特定任務中的優異性能,但當代的研究已經轉向開發能夠跨多種模態(如視覺、語言和音頻)解釋信息的模型。 此外,鑒于可以提升模型預測能力的潛力,近期的研究倡導訓練能夠無縫整合不同模態信息的模型。例如,在在線會議的背景下,向模型展示一個視頻可以通過同時考慮視覺內容(展示人類活動)和聽覺線索(捕捉會話動態)來提高摘要質量。這種互補模態的整合有助于做出更為準確的決策。 多模態學習的研究也致力于模擬人類從多種來源獲取知識的能力。通過促進類似于人類感知和認知功能的能力獲取,這些模型旨在突破單一模態的限制,展現出對信息感知和表達的整體理解。 計算機視覺和自然語言處理領域的蓬勃發展推動了多模態學習領域的顯著進展,特別是在視覺-語言模型的開發方面。當前的主流范式通常分為兩個階段: * 預訓練階段:這一初始階段通過利用大規模的網絡數據集進行模型的預訓練,使模型能夠獲取覆蓋視覺和語言領域的廣泛知識。這些通常被稱為“基礎模型”的預訓練模型,作為多模態數據中的復雜模式和表示的基礎。 * 微調階段:在預訓練之后,基礎模型會進行微調,以適應特定任務的需求。值得注意的是,在某些情況下,模型無需微調即可通過上下文學習生成預測。此階段在將模型的能力調整至任務特定需求方面起著關鍵作用。
在接下來的章節中,我們將深入探討這兩個訓練階段。本論文引入了一種新穎的模態投影模塊,并提出了一種新的學習范式,旨在提高視覺-語言模型預訓練的效率。此外,還將詳細闡述新型微調模塊,特別針對在訓練樣本有限的情況下,將預訓練的基礎模型適應于特定任務的挑戰。通過這些貢獻,本研究旨在推進對視覺-語言模型多模態學習的理解和效率提升。
優化算法是機器學習和統計推斷的基石。隨著大規模數據集的出現,計算挑戰日益增加,迫使人們追求更高效的算法。現代優化技術通常針對特定的機器學習問題進行定制,這些方法利用問題的獨特結構特征,使其比當前應用于這些問題的方法效率更高。另一個關鍵方面是理解所得到估計量的估計精度。在某些情況下,盡管在訓練集上實現精確優化可能不切實際,但某些簡單而有效的啟發式方法在適當的統計框架內可以表現出令人贊嘆的估計精度。 在本文中,我們從優化和統計的角度研究了幾種大規模算法。第2章和第3章研究了兩種針對結構約束的連續優化算法。第2章集中討論了具有圓柱形約束的無界約束的一種廣義Frank-Wolfe方法。第3章則研究了具有少量極點的多面體約束的類似坐標下降(CD)方法。這兩種方法由于對問題結構的敏感性而表現出最先進的性能。 第4章研究了一種帶有解釋器-響應對之間可能存在不匹配的線性回歸變體。我們研究了一種簡單且高效的啟發式方法,并在統計環境中對其估計誤差進行了嚴格分析。 第5章和第6章研究了兩種決策樹算法。第5章研究了最優決策樹的計算,并引入了一種新的分支定界方法,用于具有一般連續特征的最優決策樹。第6章則轉向在足夠雜質減少條件下對CART算法的分析。我們為滿足該條件的信號函數證明了嚴格的誤差界,并討論了一些滿足該條件的函數類。 第7章研究了一種具有形狀約束的密度估計問題。我們提出了一種立方-牛頓法框架用于計算,并研究了有限混合的逼近性質。
當前流行的機器學習范式涉及對每一個新任務使用靜態數據集訓練一個獨立模型。與之相反,人類會隨時間積累知識,終身學習范式旨在通過使系統能夠持續地從一系列任務中學習,并保留過去的知識以實現未來學習的高效性,來模擬這一過程。這種范式還提供了諸如避免定期模型訓練、潛在地減少計算和能源需求、以及促進環保的綠色人工智能等優勢。在現代機器學習中,盡管深度神經網絡功能強大,但面臨如災難性遺忘(在新任務學習中丟失先前任務的知識)和負面干擾(先前學到的知識阻礙新任務學習)等挑戰。這些問題源于穩定性-可塑性困境,這需要在保留過去知識(穩定性)與獲取新知識(可塑性)之間找到正確的平衡。高效的終身學習系統必須解決這一困境,以及其他考慮,如支持在線數據流、利用小型且固定的內存緩沖容量(如果有的話)和從未標記的數據流中學習。
在本文中,我們從生物學習過程和深度學習的最新進展中獲得靈感,以實現高效的終身學習系統。我們提出將歸納偏置注入數據驅動機器學習的三個主要組成部分:模型(架構與初始化)、訓練(目標與優化)和數據。本論文分為三個部分,每個部分對應以上一個組件。在第一部分中,我們探索了預訓練初始化的角色,揭示了它們與隨機初始化相比在減輕遺忘方面的隱性優勢。接下來,我們設計了一個參數高效的專家架構,該架構動態擴展學習容量以解決穩定性-可塑性困境。在第二部分中,我們展示了針對平坦極小值的顯式優化如何改善網絡穩定性,并引入了一個元學習目標以平衡穩定性與可塑性。第三部分深入探討了終身半監督學習,通過復習偽標記數據來解決穩定性-可塑性困境。我們以從終身學習的角度檢驗預訓練結束,展示通過將上述策略應用于模型的(持續)預訓練,如何增強其性能。
在過去的十年中,訓練硬件的進步和大數據集的可用性使得深度神經網絡在機器學習領域取得了顯著進展。這些網絡在許多自然語言處理和計算機視覺任務中達到或超過了人類水平的表現,例如機器翻譯(Lepikhin et al., 2021)、問答(Du et al., 2022; Chowdhery et al., 2023)、開放式對話生成(Ouyang et al., 2022)、對象檢測和圖像生成(Lu et al., 2023),這些評估是基于獨立同分布(i.i.d)的保留數據進行的。然而,當這些網絡應用于數據分布隨時間變化的現實情況時,它們的表現往往會變差(Lazaridou et al., 2021)。它們失敗的主要原因是當前的機器學習方法專注于孤立學習(Chen and Liu, 2018),即使用靜態數據集為每個新任務或一組相關任務訓練一個單獨的網絡。一種保持這些網絡更新的方法是每當新信息變得可用時就從頭開始重新訓練它們。然而,先前訓練所用的數據可能因隱私或存儲限制而只是暫時可用(Farquhar and Gal, 2018)。此外,重新訓練方法可能在計算上昂貴,數據效率低,且耗時長,尤其是對于大型網絡。例如,GPT-3(Brown et al., 2020),一個具有175B參數的自回歸語言模型,訓練了499B個標記,使用的計算量相當于3.14e23次浮點操作,如果在單個NVIDIA Tesla V100 GPU上訓練,將需要355年和460萬美元的成本。另一種方法是連續地隨著新信息的到來更新網絡。然而,深度神經網絡和一般的參數模型容易發生災難性遺忘(McCloskey and Cohen, 1989; Ratcliff, 1990; French, 1999)現象。在這種現象中,網絡在新信息被整合進系統時會忘記或覆蓋之前學到的知識。此外,這些網絡可能會經歷負面干擾(Pan and Yang, 2009; Weiss et al., 2016)現象,即先前學到的知識可能會妨礙新事物的有效學習,從而增加了數據需求。這兩種現象都源于穩定性-可塑性困境(Mermillod et al., 2013)。穩定性與保留過去的知識有關,可塑性與學習新知識有關。需要一種平衡,因為過多的穩定性會阻礙新知識的獲取,而過多的可塑性會導致忘記以前的知識。這一困境使得當前網絡難以更新其知識,并有效地適應新任務的增量學習。
與此相反,我們人類的學習方式則大不相同。我們通過在一生中獲取和更新知識來學習,保留以前學到的知識,并利用它來促進新概念和技能的有效學習。受到這種人類學習過程的啟發,終身學習(Thrun and Mitchell, 1995; Thrun, 1995; Chen and Liu, 2018)或增量學習(Solomonoff et al., 1989; Syed et al., 1999; Ruping, 2001)或永不停止的學習(Mitchell et al., 2018)或連續學習(Parisi et al., 2019)范式旨在開發能夠從持續的數據流中學習的系統,理想情況下保留過去的知識,用新信息更新它,并利用它進行后續學習。此外,研究人員也認識到終身學習能力對于實現人工通用智能的進展至關重要(Silver, 2011; Chen and Liu, 2018; Yogatama et al., 2019)。除了與生物學習相似之外,終身學習范式還有潛力通過消除過度模型重新訓練來減少能源浪費,并實現環保和可持續的綠色人工智能(Hazelwood et al., 2018; Strubell et al., 2019; Schwartz et al., 2020)。終身學習范式還與其他知識轉移相關的范式有關,如轉移學習(Pan and Yang, 2009)和多任務學習(Caruana, 1997)。與這兩個范式不同的是,終身學習范式更為通用;它假設對任務的順序訪問,旨在改善對先前任務的表現(理想情況下是積極的后向轉移或消極的遺忘)和新任務的表現(積極的前向轉移)。當前的轉移學習范式主要關注從以前的任務到新任務的單向知識轉移,即使這可能損害先前學到的任務的表現。另一方面,多任務學習假設同時訪問所有任務的數據,并通過使任務之間的知識共享來改善所有任務的表現。此外,即使在單任務學習設置中,神經網絡也顯示出經歷災難性遺忘的情況(Toneva et al., 2019),這突出了終身學習范式不僅限于多任務場景。即使是任務的概念在終身學習范式中也非常開放。例如,考慮一個終身COVID-19命名實體識別(NER)標記器。任務有三種不同的表現形式 - (i)分類任務,如實體塊、實體檢測、實體鏈接、共指解析和關系提取,(ii)針對2020、2021、2022、2023年COVID-19研究文章的不同領域的NER,(iii)針對COVID-19變種如COVID-Alpha、COVID-Beta、COVID-Omicron的演化類別的NER。這些表現形式對應于終身學習的三個突出場景:任務、領域和類別增量學習(Van de Ven and Tolias, 2019)。除了解決災難性遺忘之外,終身學習系統還有幾個其他目標(Biesialska et al., 2020)。人類能夠迅速從持續的對話中學習新信息,而不需要明確的主題邊界(Chen and Liu, 2018)。我們有選擇地保留過去的經驗在我們有限的記憶容量中以防止遺忘,并在需要時稀疏地回放它們(Ratcliff, 1990; McGaugh, 2000)。此外,我們經常從環境中以無監督的方式學習,而不是依賴于明確的監督(Aljundi, 2019)。相比之下,當前的終身學習系統(Biesialska et al., 2020)需要明確的任務邊界,它們依賴于大內存容量,因此數據效率低,且在計算上昂貴,因為它們需要對標記數據進行多次傳遞。為了更有效地模仿人類學習,有必要開發在更現實的假設下運行且在數據、記憶和計算上更高效的終身學習系統(Farquhar and Gal, 2018)。 在本論文中,我們的目標是設計高效的終身學習系統,這些系統可以減輕之前學到的知識的災難性遺忘,并通過在現實假設下運行來促進未來的學習。受到生物學習過程和深度學習的最新進展的啟發,我們提議將適當的歸納偏見注入數據驅動機器學習的三個主要組成部分:模型、訓練和數據。通過這樣做,我們還希望提高終身學習系統在數據、內存和計算需求方面的效率。
文獻中考慮的許多序列決策問題變體取決于反饋的類型和它們揭示的有關相關獎勵的信息量。之前的大多數工作都研究了行動的反饋揭示了與行動相關的獎勵的案例。然而,在許多領域,如眾包、醫療診斷和自適應資源分配,行動的反饋可能是薄弱的,即可能根本沒有揭示任何關于獎勵的信息。如果沒有任何關于獎勵的信息,就不可能了解哪種行動是最佳的。顯然,只有在問題結構是這樣的,即可以在不明確知道獎勵的情況下識別最佳行動的情況下,學習最佳行動才是可行的。本文的目標是研究一類問題,在不明確知道獎勵的情況下可以推斷出最優行動。研究了無監督順序選擇(USS),所選行動的回報/損失從未顯示,但問題結構適合于識別最優行動。本文還提出了一種名為審查半Bandits (CSB)的新設置,從一個行動中觀察到的獎勵取決于分配給它的資源數量。
本文的主要研究內容是USS問題。在USS問題中,無法從觀察到的反饋中推斷出與動作相關的損失。這種情況出現在許多現實應用中。例如,在醫療診斷中,患者的真實狀態可能不為人知;因此,測試的有效性無法得知。在眾包系統中,眾包工人的專業知識水平是未知的;因此,他們的工作質量是不可知的。在此類問題中,可以觀察到測試/工作者的預測,但由于缺乏真實值,無法確定其可靠性。通過比較不同動作得到的反饋,可以找到一類USS問題在滿足“弱支配”性質時的最優動作。針對該問題,本文提出了基于置信上界和Thompson采樣的性能最優算法。
本文提出一種稱為審查半bandits (CSB)的新設置,其中從行動中觀察到的反饋取決于分配的資源數量。如果沒有分配足夠的資源,反饋就會被“審查”。在CSB設置中,學習者在每一輪中在不同的活動(動作)之間分配資源,并從每個動作中接受審查損失作為反饋。目標是學習一種資源分配策略,使累計損失最小化。每個時間步長的損失取決于兩個未知參數,一個與動作有關,但與分配的資源無關,另一個取決于分配的資源數量。更具體地說,如果動作的資源分配超過一個恒定的(但未知的)閾值,該閾值可以取決于動作,則損失等于零。CSB模型可以應用于許多資源分配問題,如警察巡邏、交通規則和執行、偷獵控制、廣告預算分配、隨機網絡效用最大化等。
論文的最后一部分重點研究了多玩家多臂匪徒的分布式學習,以識別最優動作子集。這種設置是這樣的,獎勵只適用于那些只有一個玩家參與的行動。這些問題適用于無線ad hoc網絡和認知無線電中尋找最佳通信信道的問題。本文的貢獻是通過利用這些問題表現出的特定結構來解決上述序列決策問題。對于這些具有弱反饋的每個設置,開發了可證明的最優算法。最后,在合成數據集和真實數據集上驗證了它們在不同問題實例上的經驗性能。