人工智能領域最近見證了顯著的增長,導致開發了在各種領域表現出色的復雜深度學習模型。然而,這些發展帶來了關鍵問題。深度學習模型容易繼承并可能加劇其訓練數據中存在的偏見。此外,這些模型的復雜性導致缺乏透明度,這可能導致偏見未被發現。這最終可能阻礙這些模型的采用,因為缺乏信任。因此,培養本質上透明、可信和公平的人工智能系統至關重要。本論文通過探索深度學習的可解釋性和自解釋模型,為這一研究領域做出了貢獻。這些模型代表了向更透明系統的轉變,提供了與模型架構密切相關的解釋,揭示了它們的決策過程。因此,這種固有的透明性增強了我們的理解,從而提供了解決無意中學習偏見的機制。為了推進自解釋模型的發展,本論文進行了對當前方法的全面分析。它引入了一個旨在提高某個最先進模型解釋質量的新算法。此外,這項工作還提出了一種新的自解釋模型,通過學習的解碼器生成解釋,促進端到端訓練,并解決了解釋性和性能之間普遍存在的權衡問題。此外,為了增強這些模型的可及性和可持續性,本論文還介紹了一種通用方法,無需重新訓練即可將任何預訓練的黑盒模型轉化為自解釋模型。通過所提出的方法,這項研究識別并抵制了從數據中學習的人為因素—虛假相關性,進一步強調了透明模型的需求。此外,本論文的范圍還擴展到了大型語言模型的公平性維度,展示了這些模型加強社會偏見的傾向。這項研究的結果凸顯了所提方法的有效性,從而為創建不僅準確而且透明、公平和可靠的人工智能系統鋪平了道路,以促進人工智能技術的廣泛采用和信任。
深度學習模型在包括計算機視覺、自然語言生成和語音處理在內的許多環境中展示了令人印象深刻的能力。然而,這些模型的一個重要缺點是它們通常需要在大型數據集上進行訓練才能發揮最大效果。在醫學等領域,大型數據集并不總是可用的,因此需要數據高效的模型,即使在有限的數據環境中也能表現良好。受這一需求的啟發,本論文提出了四項對數據高效機器學習的貢獻:(1)分析和改進小樣本學習,我們研究了一種流行的小樣本學習算法(模型不可知元學習)并提供了關于它為何有效的見解,提出了一個提供了顯著計算優勢的簡化版本;(2)在小型臨床心電圖(ECG)數據集上改進監督學習,我們開發了一種新的ECG數據增強策略,有助于提高一系列預測問題的性能;(3)通過使用嵌套優化改進預訓練,引入了一種高效的基于梯度的算法,以共同優化模型參數和預訓練算法設計選擇;(4)為復雜的臨床時間序列開發了一種新的自監督學習流程,流程的設計受到現實世界臨床時間序列數據的多模態、多維性質的驅動。統一這些貢獻的是心血管醫學的應用領域,這是一個機器學習有潛力改善患者護理和結果的設置。 //dspace.mit.edu/handle/1721.1/153841
盡管深度學習取得了顯著的成就,但它仍是一個年輕的領域。就像許多科學學科的早期階段一樣,它的特點是發現新現象、臨時的設計決策以及缺乏統一和組合性的數學基礎。從實現反向傳播的復雜性,到不斷增長的神經網絡架構動物園,再到新的、尚未被充分理解的現象,如雙重下降、規模定律或上下文中學習,深度學習中很少有統一的原則。
本論文基于范疇論的語言,為深度學習開發了一種新的數學基礎。我們開發了一個新框架,這個框架是a) 端到端的,b) 統一的,并且c) 不僅僅是描述性的,而且是規范性的,意味著它適合在具有足夠特性的編程語言中直接實現。我們還系統化了許多現有的方法,將文獻中許多現有的構造和概念歸于同一體系下。 在第一部分,理論部分,我們識別并模型化了深度學習系統的兩個主要屬性:它們是參數化的和雙向的。我們擴展了之前定義的actegories和Para的構造來研究前者,并定義加權光學來研究后者。結合它們產生了參數化加權光學,一種人工神經網絡的范疇模型,以及更多:第一部分中的構造與許多其他類型的雙向過程,如貝葉斯更新、值迭代和博弈論有著密切的聯系。
第二部分證明了第一部分中的抽象,將它們應用于建模反向傳播、架構和監督學習。我們提供了一個透鏡理論公理化的微分,不僅覆蓋平滑空間,還包括布爾電路的離散設置。我們調研現有的,并開發新的神經網絡架構的范疇模型。我們形式化了優化器的概念,最后,將所有現有的概念結合起來,為監督學習提供了一個統一和組合性的框架。
近年來,預訓練的神經語言模型在各種自然語言理解和生成任務上取得了顯著的能力。然而,將這些模型擴展到包含數十億參數的趨勢,雖然增強了適應性和新出現的能力,但也因其龐大的規模帶來了顯著的部署挑戰。這些挑戰包括對模型存儲和實際部署的推理延遲的限制、任務適應所需的密集時間和計算成本,以及影響任務適應性的大量冗余參數的存在。受到這些挑戰的驅動,本論文旨在提高這些模型的參數效率,尋求最小化存儲需求、加速推理和適應,并增強泛化能力。
-- 在神經語言模型中提高參數利用率
雖然最近的研究發現預訓練神經語言模型中存在顯著的冗余,但參數冗余對模型泛化能力的影響在很大程度上仍未被深入探討。我們首先考察參數冗余與模型泛化能力之間的關系。觀察到移除冗余參數可以提高泛化能力,我們提出了一種用于微調的自適應優化算法,以提高冗余參數的利用率。實驗結果驗證了在各種下游任務上增加的泛化能力。
-- 神經語言模型中的模型壓縮
我們探索了模型壓縮方法,包括權重修剪和知識蒸餾,以減少模型存儲并加速推理。我們首先開發了一種可靠的迭代修剪方法,該方法考慮到訓練動態中的不確定性。然后,我們深入探討知識蒸餾領域,解決了常常阻礙學生表現的大教師-學生“知識差距”。為了解決這個問題,我們提供了兩種解決方案,通過選擇性地蒸餾與任務相關的知識來產生特定任務的學生。在需要學生跨多種任務適應性的情境中,我們提出通過結合迭代修剪和蒸餾來減少知識差距。我們的方法在相似的壓縮比率下顯著超過傳統的蒸餾方法。 -- 神經語言模型中高效的任務適應
雖然微調是實現下游任務滿意表現的一種重要適應方法,但它既計算密集又耗時。為了加速任務適應,我們研究了超網絡方法,該方法使用輔助超網絡基于少量示例迅速生成特定于任務的權重。我們通過利用內在權重結構作為歸納偏差,改進了權重生成方案,提高了超網絡訓練的樣本效率。與現有的超網絡方法相比,該方法在未見任務上顯示出優越的泛化性能。
//repository.gatech.edu/entities/publication/b2f1067e-2ee3-4b86-b565-1111a50b2cf5
人工智能系統開發具備高級推理能力是一個持續存在且長期的研究問題。傳統上,解決這一挑戰的主要策略涉及采用符號方法,其中知識通過符號明確表示,并通過明確編程的規則來實現。然而,隨著機器學習的出現,系統向能夠自主從數據中學習、需要最小人類指導的方向發生了范式轉移。鑒于這一轉變,近年來,越來越多的興趣和努力被投入到賦予神經網絡推理能力上,以彌合數據驅動學習與邏輯推理之間的差距。在這一背景下,神經算法推理(NAR)作為一個有希望的研究領域脫穎而出,旨在將算法的結構化和基于規則的推理與神經網絡的自適應學習能力整合起來,通常通過讓神經模型模仿經典算法來實現。在這篇論文中,我們對這一研究領域提供了理論和實踐上的貢獻。我們探索了神經網絡與熱帶代數之間的聯系,推導出與算法執行對齊的強大架構。此外,我們討論并展示了這樣的神經推理器學習和操縱復雜的算法和組合優化概念的能力,如強對偶性原理。最后,在我們的實證努力中,我們驗證了NAR網絡在不同實際場景中的實際用途。這包括任務多樣化,如規劃問題、大規模邊緣分類任務以及學習NP-hard組合問題的多項式時間近似算法。通過這一探索,我們旨在展示在機器學習模型中整合算法推理潛力。
//arxiv.org/abs/2402.13744 本論文旨在探索神經算法推理器的潛力,特別是關于它們學習執行經典算法的能力以及使用訓練有素的算法推理器作為相關下游任務的歸納先驗的有效性。 本論文的主要貢獻旨在解決這兩個研究問題,特別是在圖的背景下,鑒于許多感興趣的經典算法是為結構化數據開發和設計的(Cormen et al., 2009)。此外,我們將尋求從理論和實證的視角提供前述問題的證據。 為了解決關于經典算法可學習性的問題,我們提出了一個理論框架,將圖、神經網絡和熱帶代數(Landolfi et al., 2023)之間的聯系繪制出來。在這個設置中,將建立算法(特別是動態規劃算法)與神經網絡之間的等價性。我們還將展示如何基于這種聯系派生出適合學習算法的強大神經網絡架構。 跳出動態規劃算法的背景,我們提議通過對偶性學習算法(Numeroso et al., 2023),有效地展示我們如何借鑒與算法相關的各個領域的概念,如組合優化,以增強將算法推理編碼到神經網絡中的程度。這一貢獻也作為使用算法作為歸納先驗可以幫助更準確地解決標準機器學習任務的第一個實際示例。 在此基礎上,我們提出了兩個更多的貢獻:一個學習規劃問題一致性啟發式函數的算法推理器(Numeroso et al., 2022);以及一個關于將算法知識轉移到NP-hard組合優化問題的有效性的廣泛研究(Georgiev et al., 2023)。 此外,作為一個附加目標,本論文還努力作為神經算法推理世界的入門指南,特別是通過其第三章,為那些不熟悉NAR的人量身定做。
機器學習模型最終用于在現實世界中做出決策,其中的錯誤可能代價極高。我們對神經網絡及其訓練過程的理解仍然出奇地少,結果是,我們的模型脆弱,經常依賴于虛假特征,在微小的分布變化下泛化能力差。此外,這些模型往往無法忠實地表示其預測中的不確定性,進一步限制了它們的適用性。在這篇論文中,我展示了關于神經網絡損失表面、概率深度學習、不確定性估計以及對分布變化的魯棒性的研究成果。在這些工作中,我們旨在構建對模型、訓練程序及其局限性的基礎理解,并利用這種理解來開發實際有影響力、可解釋性強、魯棒性好且廣泛適用的方法和模型。
在過去幾年中,我們見證了深度學習多個領域的顯著進步。我們現在擁有可以超越人類水平下國際象棋的深度學習模型 [Silver et al. 2016],推進蛋白質折疊領域的神經網絡 [Jumper et al. 2021],能根據文本描述創建逼真圖像和視頻的生成模型 [Ramesh et al. 2021; Saharia et al. 2022],以及展現出通用智能跡象的語言模型 [OpenAI 2023; Bubeck et al. 2023]。不可避免地,我們也看到越來越多的深度學習模型應用于現實世界,如自動駕駛汽車、用于自動診斷的醫學成像模型,以及圍繞語言模型構建的個人助理和其他系統。
然而,這些系統仍存在重大局限性,使得它們的廣泛采用面臨挑戰。特別是,量化深度學習模型預測中的不確定性仍然具有挑戰性 [Guo et al. 2017; Kadavath et al. 2022; Minderer et al. 2021]。結果是,我們往往很難知道何時可以信任這些模型,何時應該依賴人類專家。另一個主要問題是,神經網絡經常依賴于捷徑特征,并在測試數據分布與訓練分布不同時泛化能力差 [Geirhos et al. 2018; Hendrycks and Dietterich 2019],這在大多數實際應用中都是如此。
到目前為止,我的大部分研究都是從高層次上理解深度學習。我相信,通過解構我們的模型和方法并理解各個部分,我們可以建立更好的直覺和機械性理解,了解它們是如何工作的。最終,這種理解通常會轉化為更好的模型、方法和訓練程序。在整篇論文中,我展示了幾個這種類型的工作示例。
本論文的其余部分安排如下。在第2章中,我介紹了神經網絡損失表面中最優解集合的結構。我還提出了基于對損失表面的觀察而激發的深度神經網絡改進訓練和快速集成的實用方法。在第3章中,我展示了貝葉斯神經網絡的廣泛闡述以及對泛化的概率視角。我還提出了改進深度神經網絡不確定性估計的實用方法。在第4章中,我報告了對貝葉斯神經網絡后驗分布的詳細科學研究結果,提出了許多挑戰傳統智慧的驚人觀察。特別是,我描述了導致貝葉斯神經網絡在分布偏移下表現不佳的確切機制,并提出了部分解決方案。在第5章中,我描述了我們在存在捷徑特征的情況下神經網絡的特征學習工作,以及減少對這些特征依賴的方法。最后,在第6章中我總結了這篇論文。
盡管生成模型具有令人振奮的潛力,但它們的有限可用性對于在現實世界應用中廣泛采用它們提出了重大挑戰。具體來說,現有方法往往會放大嵌入在其訓練數據中的有害社會偏見,并且通常無法準確反映生成的輸出中的主觀用戶規范,例如風格。此外,當處理具有獨特結構的數據分布時,如周期性,會存在明顯的性能差距,這限制了它們在圖像和文本數據之外的適用性。本論文考慮了所有這些方面,以幫助構建安全可靠的生成式人工智能系統,用于實際集成和部署。
首先,我們提出了一種方法論框架,以應對偏見減輕和可控性方面的挑戰。在經典的密度比估計(DRE)方法基礎上,我們開發了技術,用于糾正學習模型分布,使其表現出更與另一目標分布更緊密對齊的特征。這些貢獻不僅為DRE提供了一個新的理論框架,還提高了在各種下游任務上的性能,如領域自適應、數據增強和互信息估計等。接下來,我們介紹了這些方法在社會應用中的兩個真實應用。我們證明:(a)我們的重新加權生成建模框架成功減輕了數據集偏見,(b)更可控的模型可以更好地定制AI生成的音樂以適應個人偏好,并促進創造過程。最后,我們總結了通過將領域特定的歸納偏見納入無線通信的生成模型以及離散數據分布的生成模型中的新學習算法。
概率生成模型承諾為我們的社會帶來巨大的新機會。受大規模數據集和計算資源的可用性推動,最近的進展已經催生出可以自動完成開發者工作流中的代碼 [Che+21],根據自然語言指令合成高保真度圖像和視頻 [Ram+21; Ram+22; Rom+22; Yu+22; Ho+22; Sin+22],將風格轉移到錄制視頻的每一幀 [Ess+23],并個性化音樂表演以迎合我們的口味 [Don+23; Ago+23] 的機器。從通過協助數字內容創作增加數萬億美元的經濟價值到民主化訪問并降低創意工作的準入門檻,這個領域準備重新定義人工智能(AI)領域的可能性 [Bom+21; Elo+23]。
然而,這種興奮熱潮掩蓋了阻礙生成模型在實際應用中的實用性的新興瓶頸。盡管生成模型具有強大的能力,但它們仍然難以準確捕捉具有周期性(例如,醫學時間序列)和離散性(例如,分子生成的圖形)等特征的結構化數據分布。這極大地限制了它們在涉及圖像和文本數據以外的創意工作之外的實用性。此外,實際將這些模型集成到我們的創意循環中也面臨著重大挑戰,因為控制它們的輸出涉及復雜性 [Lou+20]。這是因為用于引導合成輸出的用戶指定的控制信號通常在數學或語言上很難表達,而是需要大量的帶標簽監督的注釋數據集或巧妙地導航可能的模型超參數組合爆炸 [Yu+22; Gal+22; Fen+23]。最后,這些模型可能存在安全風險,并在部署時產生意想不到的后果。因為生成模型的設計目標是捕捉數據分布,不幸的是,它們可能會在下游應用中放大訓練數據中存在的有害社會刻板印象 [Wei+21; CZB22]。這種重要的故障模式對最終用戶構成了重大安全風險,他們可能會接觸到或被濫用于令人不安的內容 [Jal+21; Bia+22; Ran+22]。因此,大型機構可能會猶豫是否開源這些模型,以及基于這些技術構建的產品可能會受到極大的限制。
在這種背景下,任何成功的方法來利用這些人工智能系統都必須滿足兩個基本標準。首先,它們必須生成高質量的內容,忠實于用戶的規范,無論控制信號是顯式的(比如風格)還是隱式的(比如社會價值觀念)。這種細粒度的控制將確保可靠且相關的輸出,使其適用于實際的現實世界應用。第二個要素是它們必須成功處理各種數據分布。這對于擴展這些模型的適用性到各種社會和技術領域將是至關重要的。
新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。
時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?
在大型標注數據集上訓練的強大機器學習(ML)模型,推動了自然語言處理和計算機視覺等領域的令人印象深刻的進步。反過來,這些發展導致了ML在醫療健康、電子商務和預測性維護等領域的有效應用。然而,獲得訓練高容量機器學習模型所需的標注數據集,往往是機器學習有前途應用的瓶頸。本文研究了獲取領域知識的替代途徑,并開發了從弱監督中學習的方法,即不完美的和間接的監督形式。我將介紹三種形式的弱監督:成對聯動反饋、程序化弱監督和成對多模態數據。這些形式的信息通常很容易大規模獲取,我開發的方法減少了——在某些情況下消除了——對點真實感注釋的需要。我首先研究了成對監督的效用。我介紹了一種新的約束聚類方法,它使用少量的成對約束來同時學習核和聚類數據。該方法在大量多樣的公開數據集上優于相關方法。接下來,將不完全成對監督引入程序化弱監督標簽模型。我根據經驗表明,僅一個弱成對反饋源就可以顯著提高下游性能。通過引入與弱標簽相協調的輸入分布建模方法,進一步研究了程序化數據標記方法。本文首先介紹了一個框架,在觀察到的弱標簽的基礎上聯合學習標簽和端模型,顯示了端模型在下游測試集上的性能比之前的工作有所改進。接下來,介紹一種融合生成式對抗網絡和程序化弱監督標簽模型的方法,以使兩者都受益,由標簽模型性能和數據生成質量衡量。在本文的最后一部分,我解決了程序性弱監督的一個核心挑戰:專家需要提供標簽規則。首先,介紹了一個交互式學習框架,幫助用戶發現弱監督源,以高效的方式捕獲應用領域領域專家的知識。然后,我通過直接從非結構化自然語言描述中學習來研究完全省去標記功能的機會。特別是,我研究了如何將生物醫學文本與圖像配對用于自監督視覺-語言處理,產生數據高效的表示并實現零樣本分類,而不需要專家定義文本或圖像的規則。這些工作提供了新的方法和框架,以在機器學習模型中更有效地編碼和使用專家領域知識,減少了因需要手工真實注釋而產生的瓶頸。
//www.ri.cmu.edu/publications/learning-with-diverse-forms-of-imperfect-and-indirect-supervision/
深度學習的發展導致了在各種應用領域的各種任務上的顯著性能提升,這些應用領域包括計算機視覺、自然語言處理、強化學習、生成模型,以及最近從圖結構數據中進行的關系學習。這一成功的主要原因是計算能力的提高,這允許深度和高度參數化的神經網絡架構,這些架構可以從原始數據中學習復雜的特征轉換。然而,深度神經網絡的高表示能力往往是以高模型復雜度為代價的,這指的是高參數化,以及與深度學習相關的內存和計算負擔。**在本文中,我依靠參數有效的神經算子,對數據的適當建模假設和網絡結構的歸納偏差,在幾個應用領域提出更簡單的神經網絡模型。**對于我工作的每個應用領域,我使用這些效率原則的組合來設計新穎的方法。首先,在醫學圖像處理的背景下,我觀察到空間對齊的神經圖像比自然圖像表現出更少的自由度,這證明使用低容量卷積算子是合理的。我通過應用參數高效的卷積變體來實現這一點。我展示了早期阿爾茨海默病預測的最先進結果,同時使用的參數減少了多達125倍,乘累加操作減少了17倍以上。對于設計用于識別受試者亞型的神經圖像的無監督方法也得出了類似的結論。其次,我著手緩解從零開始訓練參數高效的深度模型的挑戰。這可以減少在資源受限的"邊緣"設備上訓練深度模型的不可行性。所提方法基于一個簡化的網絡結構假設,即參數無關性,允許在組合多臂匪徒的背景下建模問題。該方法可以動態地,即在訓練期間,在遵循預定義的內存使用預算的同時,在超參數化模型中識別高性能緊湊的子網絡。這是通過將顯著性指標與每個神經元相關聯來實現的,然后用于驅動參數激活,類似于門控機制,同時學習參數。因此,深度神經網絡訓練和推理過程中的計算和內存負擔都顯著減少。最后,提出一種深度概率模型,用于學習動態圖中的無監督節點和社區嵌入。基于網絡固有的社團結構,引入了關于邊形成機制的結構歸納偏差。此外,我還假設節點和社區都是平滑的時間演化,其靈感來自于數據中缺乏破壞性事件。本文提出一種該方法的參數高效實現,在各種動態預測任務上優于最先進的圖卷積網絡。
在過去的幾十年里,機器學習在眾多人工智能應用中取得了長足的進步。然而,它的成功主要依賴于在一個封閉的環境中使用大量的離線數據訓練模型,然后在類似的測試環境中對它們進行評估。這意味著大多數機器學習模型無法在很少的觀察下快速適應新環境并在線學習新知識。相比之下,我們的人類大腦可以從在線感官輸入流中學習新的表示、概念和技能。**本文旨在使具有幾個核心能力的機器能夠在開放世界中學習新概念,而無需訪問大量精心策劃的標記數據。**具體來說,它解決了幾個關鍵問題,如使用有限的標記數據、增量數據、無標記數據以及不平衡和噪聲數據進行學習。本文提出的算法可以自然地與任何深度神經網絡相結合,并且與網絡架構無關。它們可以為各種開放世界條件提供更大的靈活性和魯棒性,使基于學習的方法適合部署在一般的基于智能體的智能系統中。
1.引言
**機器學習是人工智能領域的核心課題之一。由于許多智能行為不能簡單地由標準程序定義,而不是依靠人工設計的規則,本文使用機器學習來獲得函數逼近,給定許多輸入和輸出觀測。**今天,在機器學習的幫助下,我們的計算機可以識別我們的聲音和筆跡,記住我們的臉,標記我們的照片,翻譯不同的語言,在下棋和圍棋中擊敗我們,并在道路上安全駕駛汽車。就像阿蘭·圖靈在20世紀50年代設想的那樣,今天的計算機使用機器學習來“模擬”兒童的思維,這是一張逐漸充滿各種各樣的知識和表示的白紙。然而,機器的學習過程與兒童的學習過程仍有很大的差距。也許機器學習和人類學習之間最顯著的區別之一是能夠學習自然世界中稀缺數據的任務。如今的機器學習往往依賴于在一個封閉的世界環境中訓練模型,并在大量經過整理的數據中進行評估,然后在類似或相同的測試環境中進行評估。這意味著,與人類不同,標準的機器學習算法無法在很少的觀察下快速適應新環境并在線學習新知識。在本文中,我們將這種期望的能力稱為開放世界學習。 我們如何彌合人類和機器之間的這種明顯差距?我的論文旨在尋求解決方案,使機器能夠在一個開放的世界中學習新概念,而不需要獲取大量的策劃標簽。具體來說,它解決了開放世界學習框架下的幾個關鍵問題,如使用有限的標記數據、增量數據、無標記數據、不平衡和噪聲數據、在線和流數據進行學習,所有這些都是今天典型的機器學習管道中沒有考慮的。這些問題的最終解決方案將對我們所有人產生深遠的影響。首先,它將允許未來的智能體在飛行中學習:你未來的家庭機器人將適應你的房子,識別新家具,并學習使用新設備;你的增強現實眼鏡將通過你對世界的視角來學習,這些視角是你過去從未經歷過的;您的個人AI助理將適應您的偏好,并在與您的對話中學習新技能。此外,它將在許多工業應用中節省數百萬小時的工程、標簽和數據管理工作。最后,通過將我們的學習過程投射到計算框架中,這也將是探索理解人類智能的一個里程碑。
本文概述
**本文提出的貢獻,使機器能夠用很少的標記示例獲得新概念,并使它們對許多自然主義和開放世界條件更魯棒。**在過去,有幾種機器學習范式,如小樣本學習、持續學習、自監督學習等,它們都是由使機器學習在開放世界中更加靈活和自適應的大愿景所驅動的。第二章概述了這些課題的背景文獻。具體來說,本文首先討論了各種學習范式,這些范式鼓勵在與訓練不同的環境中進行測試時的學習,例如小樣本學習和持續學習,然后討論了另一個相關研究的思路,旨在從無標簽的示例中學習,例如自監督學習。 然而,這些學習范式通常只專注于一個特定的屬性,如域偏移量或標記數據點的數量。有時,這些性質是正交的,它們的解可以組合在一起,但通常提出的解決方案依賴于一些額外的不現實的假設。例如,標準的半監督學習利用未標記的數據來提高學習模型的質量;然而,它假設未標記的數據與標記的數據來自相同的分布,并且也屬于預定義的類別之一。在另一個例子中,標準的少樣本學習旨在用很少的數據點來學習新類別,但它假設數據點平均分布于在訓練期間從未見過的幾個新類別。或者,類不平衡問題通常假設類標簽是正確的,因此高訓練成本意味著數據點來自少數類。在這些示例中,假設學習環境的其他屬性的解決方案在同時存在多個問題的開放世界中部署時可能會崩潰。因此,本文的核心主題是尋求新的解決方案,以同時解決開放世界的多種特性,如有限的標記數據學習、輸出空間的增量增長、無標記、不平衡和有噪聲的數據。為了實現這一目標,我們不僅需要開發新的學習算法,還需要重新思考定義問題的學習范式。因此,論文的一部分,如第4章和第6章的部分,也旨在定義具有額外自然屬性的新的學習范式或基準。
**用有限的標記數據進行學習的文獻被廣泛稱為少樣本學習。然而,標準的少樣本學習在測試時只處理少量的新類。**在第3章中,我們關注的是增量少樣本學習的問題,模型需要識別訓練時多次出現的舊類別和測試時剛剛引入的新類別。令人驚訝的是,許多只專注于解決新類別的經典少樣本學習方法,實際上在處理結合新舊類別的更現實問題時受到了影響,可能是因為新舊類別的表示彼此不兼容。與直接使用新類樣本的某些特征向量作為分類器權重的傳統方法不同,本文提出的方法是基于連續優化的,通過平衡新舊類帶來的目標來求解權重,并在測試時達到更好的優化解。在整個增量學習新類別的過程中,現實世界的智能體通常會遇到更多的未標記樣本。在第4章中,我們又向前邁進了一步,將未標記數據引入到小樣本學習問題中。本文提出一種半監督少樣本學習的新學習范式,除了在每個學習片段中標記的數據點很少的約束外,還考慮未標記的樣本。本文工作是第一個同時解決半監督學習和少樣本學習的工作。它不僅減少了訓練和測試任務中對標記數據量的依賴,而且解決了干擾因素的問題,即不屬于任何已知類別的類別,因為在經典的半監督學習中不考慮這一問題。本文提出新的少樣本學習模型,可以規避分干擾類的影響,同時仍然設法利用來自未標記數據的有用信息。
**盡管小樣本學習取得了廣泛的成功,但情節通常是從精心策劃的數據集中采樣,而不是從自然世界的噪聲長尾分布中采樣。**我們在第4章中介紹的干擾物例子也可以被認為是一種噪聲訓練數據。在第5章中,我們將研究在標準機器學習環境下的不平衡和噪聲類標簽學習問題。雖然這兩個問題在自然學習環境中普遍發生,但傳統上,它們被分開研究,采用相互矛盾的補救方法。為了解決這一沖突,本文提出了一種數據驅動的示例權重機制,可以在統一的框架下直接應用于這兩個問題。該算法利用干凈和平衡的驗證集來校準訓練樣本權重。該模型還強調了一種同時聯合更新內層和外層循環參數的高效學習方法。少樣本學習通常伴隨著僵化的情景設置,這使得對新概念的持續增量獲取進行建模變得不自然。第6章提出了一種新的在線情境化小樣本學習范式。雖然我們在第3章中研究了新舊類別的組合,但之前的方法主要關注情節的概念,但知識從未隨著時間順序和增量增長。雖然已經有一些努力使這些情節更有順序,就像設置增量類學習一樣,但訓練和測試階段的分離仍然使評估變得繁重。現實世界的智能體不依賴偶發的停止,而是執行在線持續學習,在序列的每個時間步中產生一些輸出預測,通過自上而下的上下文信息流進行調制。新范式包含了許多自然主義屬性,如在線、增量、上下文化、少樣本和半監督,還開發了一個基于室內家庭圖像的新基準,模仿現實世界智能體的視覺輸入流。提出了一種新的模型——上下文原型記憶(context Prototypical Memory, CPM),成功地解決了在有限標記數據下的在線上下文類學習問題。
最后,在第7章中,我們研究了在不使用任何類別標簽的情況下,通過在線視覺輸入流動態學習表示和類別。在前幾章中,學習仍然主要由帶標簽的示例驅動:例如,在第6章中,只有當環境告訴智能體它是一個新類時,新的類別簇才會創建。在本章中,我們將介紹一種算法,該算法允許智能體同時從未標記的數據流中學習表示和類別。這可以被視為發展過程中的一個前階段,因為智能體可以首先通過在沒有標記數據的情況下學習表示和類別來探索環境,然后在一些示例的監督下進行。所提出的模型,在線無監督原型網絡,將用于概念學習的原型網絡與基于聚類的自監督表示學習相結合,并與僅使用在線數據流進行訓練的最先進的自監督視覺表示學習方法相比較。此外,該算法對不均衡分布也具有較強的魯棒性。
目錄內容: