人工智能系統開發具備高級推理能力是一個持續存在且長期的研究問題。傳統上,解決這一挑戰的主要策略涉及采用符號方法,其中知識通過符號明確表示,并通過明確編程的規則來實現。然而,隨著機器學習的出現,系統向能夠自主從數據中學習、需要最小人類指導的方向發生了范式轉移。鑒于這一轉變,近年來,越來越多的興趣和努力被投入到賦予神經網絡推理能力上,以彌合數據驅動學習與邏輯推理之間的差距。在這一背景下,神經算法推理(NAR)作為一個有希望的研究領域脫穎而出,旨在將算法的結構化和基于規則的推理與神經網絡的自適應學習能力整合起來,通常通過讓神經模型模仿經典算法來實現。在這篇論文中,我們對這一研究領域提供了理論和實踐上的貢獻。我們探索了神經網絡與熱帶代數之間的聯系,推導出與算法執行對齊的強大架構。此外,我們討論并展示了這樣的神經推理器學習和操縱復雜的算法和組合優化概念的能力,如強對偶性原理。最后,在我們的實證努力中,我們驗證了NAR網絡在不同實際場景中的實際用途。這包括任務多樣化,如規劃問題、大規模邊緣分類任務以及學習NP-hard組合問題的多項式時間近似算法。通過這一探索,我們旨在展示在機器學習模型中整合算法推理潛力。
//arxiv.org/abs/2402.13744 本論文旨在探索神經算法推理器的潛力,特別是關于它們學習執行經典算法的能力以及使用訓練有素的算法推理器作為相關下游任務的歸納先驗的有效性。 本論文的主要貢獻旨在解決這兩個研究問題,特別是在圖的背景下,鑒于許多感興趣的經典算法是為結構化數據開發和設計的(Cormen et al., 2009)。此外,我們將尋求從理論和實證的視角提供前述問題的證據。 為了解決關于經典算法可學習性的問題,我們提出了一個理論框架,將圖、神經網絡和熱帶代數(Landolfi et al., 2023)之間的聯系繪制出來。在這個設置中,將建立算法(特別是動態規劃算法)與神經網絡之間的等價性。我們還將展示如何基于這種聯系派生出適合學習算法的強大神經網絡架構。 跳出動態規劃算法的背景,我們提議通過對偶性學習算法(Numeroso et al., 2023),有效地展示我們如何借鑒與算法相關的各個領域的概念,如組合優化,以增強將算法推理編碼到神經網絡中的程度。這一貢獻也作為使用算法作為歸納先驗可以幫助更準確地解決標準機器學習任務的第一個實際示例。 在此基礎上,我們提出了兩個更多的貢獻:一個學習規劃問題一致性啟發式函數的算法推理器(Numeroso et al., 2022);以及一個關于將算法知識轉移到NP-hard組合優化問題的有效性的廣泛研究(Georgiev et al., 2023)。 此外,作為一個附加目標,本論文還努力作為神經算法推理世界的入門指南,特別是通過其第三章,為那些不熟悉NAR的人量身定做。
人工智能領域最近見證了顯著的增長,導致開發了在各種領域表現出色的復雜深度學習模型。然而,這些發展帶來了關鍵問題。深度學習模型容易繼承并可能加劇其訓練數據中存在的偏見。此外,這些模型的復雜性導致缺乏透明度,這可能導致偏見未被發現。這最終可能阻礙這些模型的采用,因為缺乏信任。因此,培養本質上透明、可信和公平的人工智能系統至關重要。本論文通過探索深度學習的可解釋性和自解釋模型,為這一研究領域做出了貢獻。這些模型代表了向更透明系統的轉變,提供了與模型架構密切相關的解釋,揭示了它們的決策過程。因此,這種固有的透明性增強了我們的理解,從而提供了解決無意中學習偏見的機制。為了推進自解釋模型的發展,本論文進行了對當前方法的全面分析。它引入了一個旨在提高某個最先進模型解釋質量的新算法。此外,這項工作還提出了一種新的自解釋模型,通過學習的解碼器生成解釋,促進端到端訓練,并解決了解釋性和性能之間普遍存在的權衡問題。此外,為了增強這些模型的可及性和可持續性,本論文還介紹了一種通用方法,無需重新訓練即可將任何預訓練的黑盒模型轉化為自解釋模型。通過所提出的方法,這項研究識別并抵制了從數據中學習的人為因素—虛假相關性,進一步強調了透明模型的需求。此外,本論文的范圍還擴展到了大型語言模型的公平性維度,展示了這些模型加強社會偏見的傾向。這項研究的結果凸顯了所提方法的有效性,從而為創建不僅準確而且透明、公平和可靠的人工智能系統鋪平了道路,以促進人工智能技術的廣泛采用和信任。
盡管深度學習取得了顯著的成就,但它仍是一個年輕的領域。就像許多科學學科的早期階段一樣,它的特點是發現新現象、臨時的設計決策以及缺乏統一和組合性的數學基礎。從實現反向傳播的復雜性,到不斷增長的神經網絡架構動物園,再到新的、尚未被充分理解的現象,如雙重下降、規模定律或上下文中學習,深度學習中很少有統一的原則。
本論文基于范疇論的語言,為深度學習開發了一種新的數學基礎。我們開發了一個新框架,這個框架是a) 端到端的,b) 統一的,并且c) 不僅僅是描述性的,而且是規范性的,意味著它適合在具有足夠特性的編程語言中直接實現。我們還系統化了許多現有的方法,將文獻中許多現有的構造和概念歸于同一體系下。 在第一部分,理論部分,我們識別并模型化了深度學習系統的兩個主要屬性:它們是參數化的和雙向的。我們擴展了之前定義的actegories和Para的構造來研究前者,并定義加權光學來研究后者。結合它們產生了參數化加權光學,一種人工神經網絡的范疇模型,以及更多:第一部分中的構造與許多其他類型的雙向過程,如貝葉斯更新、值迭代和博弈論有著密切的聯系。
第二部分證明了第一部分中的抽象,將它們應用于建模反向傳播、架構和監督學習。我們提供了一個透鏡理論公理化的微分,不僅覆蓋平滑空間,還包括布爾電路的離散設置。我們調研現有的,并開發新的神經網絡架構的范疇模型。我們形式化了優化器的概念,最后,將所有現有的概念結合起來,為監督學習提供了一個統一和組合性的框架。
近年來,預訓練的神經語言模型在各種自然語言理解和生成任務上取得了顯著的能力。然而,將這些模型擴展到包含數十億參數的趨勢,雖然增強了適應性和新出現的能力,但也因其龐大的規模帶來了顯著的部署挑戰。這些挑戰包括對模型存儲和實際部署的推理延遲的限制、任務適應所需的密集時間和計算成本,以及影響任務適應性的大量冗余參數的存在。受到這些挑戰的驅動,本論文旨在提高這些模型的參數效率,尋求最小化存儲需求、加速推理和適應,并增強泛化能力。
-- 在神經語言模型中提高參數利用率
雖然最近的研究發現預訓練神經語言模型中存在顯著的冗余,但參數冗余對模型泛化能力的影響在很大程度上仍未被深入探討。我們首先考察參數冗余與模型泛化能力之間的關系。觀察到移除冗余參數可以提高泛化能力,我們提出了一種用于微調的自適應優化算法,以提高冗余參數的利用率。實驗結果驗證了在各種下游任務上增加的泛化能力。
-- 神經語言模型中的模型壓縮
我們探索了模型壓縮方法,包括權重修剪和知識蒸餾,以減少模型存儲并加速推理。我們首先開發了一種可靠的迭代修剪方法,該方法考慮到訓練動態中的不確定性。然后,我們深入探討知識蒸餾領域,解決了常常阻礙學生表現的大教師-學生“知識差距”。為了解決這個問題,我們提供了兩種解決方案,通過選擇性地蒸餾與任務相關的知識來產生特定任務的學生。在需要學生跨多種任務適應性的情境中,我們提出通過結合迭代修剪和蒸餾來減少知識差距。我們的方法在相似的壓縮比率下顯著超過傳統的蒸餾方法。 -- 神經語言模型中高效的任務適應
雖然微調是實現下游任務滿意表現的一種重要適應方法,但它既計算密集又耗時。為了加速任務適應,我們研究了超網絡方法,該方法使用輔助超網絡基于少量示例迅速生成特定于任務的權重。我們通過利用內在權重結構作為歸納偏差,改進了權重生成方案,提高了超網絡訓練的樣本效率。與現有的超網絡方法相比,該方法在未見任務上顯示出優越的泛化性能。
//repository.gatech.edu/entities/publication/b2f1067e-2ee3-4b86-b565-1111a50b2cf5
在更廣泛的背景下,元學習關注的是一個智能體如何了解自己的學習過程,從而改進其學習過程。學習如何學習不僅對人類有益,而且也顯示出對改進機器學習方式的巨大好處。在機器學習的背景下,元學習使模型能夠通過選擇影響學習的適當元參數來改進其學習過程。具體到深度學習,元參數通常描述模型訓練的細節,但也可以包括模型本身的描述——即架構。元學習通常是以特定目標為導向的,例如嘗試改善泛化能力或從少數幾個例子中學習新概念的能力。元學習可以很強大,但它有一個主要缺點:通常計算成本高昂。如果能夠減輕這些成本,元學習將更容易被新的人工智能模型開發者訪問,使他們能夠實現更偉大的目標或節省資源。因此,我們研究的一個關鍵重點是顯著提高元學習的效率。我們發展了兩種方法:EvoGrad和PASHA,兩者在兩種常見場景中顯著提高了元學習效率。EvoGrad允許我們高效地優化大量可微分的元參數值,而PASHA則能夠高效地優化數量較少的任何類型的元參數。
//era.ed.ac.uk/handle/1842/41452 元學習是一個可以應用于解決各種問題的工具。最常見的應用是從少量例子中學習新概念(少樣本學習),但也存在其他應用。為了展示元學習在神經網絡背景下可以產生的實際影響,我們使用元學習作為兩個選定問題的新解決方案:更準確的不確定性量化(校準)和通用少樣本學習。這兩個都是實際重要的問題,通過使用元學習方法,我們可以獲得比使用現有方法獲得的更好的解決方案。校準對神經網絡的安全關鍵應用至關重要,而通用少樣本學習測試了模型在諸如識別、分割和關鍵點估計等多樣化任務上的少樣本學習能力的泛化能力。 更高效的算法以及新的應用使得元學習領域能夠對深度學習的更廣泛領域產生更顯著的影響,并有潛力解決之前過于具有挑戰性的問題。最終,這兩者都使我們能夠更好地利用人工智能呈現的機會。
智能軟件具有改變我們社會的潛力。它正在成為現實世界中許多系統的基石。然而,盡管機器學習模型在基準測試上表現出色,像神經網絡這樣的最新方法在遇到現實情境時經常失敗。由于神經網絡通常學習相關性而不是根據正確的信號和知識進行推理,它們在面對分布變化、意外破壞和最壞情況時會失敗。由于神經網絡是黑盒模型,用戶無法解釋或信任它們。為了在最關鍵的應用和系統中自信和負責任地部署機器學習,我們需要構建魯棒的模型。 在這篇論文中,我介紹了我們的魯棒機器學習系統的進展,通過緊密將上下文整合到算法中。上下文有兩個方面:自然數據的內在結構和來自領域知識的外在結構。兩者都至關重要:通過利用自然數據的內在結構,我的工作表明,我們甚至可以在最壞情況下創建魯棒的機器學習系統,這也是一項強有力的實證收益。通過整合外部知識,如任務之間的關聯和因果結構,我的框架可以指導模型使用正確的信號進行推理,為可控和可解釋的模型開啟新的機會。 這篇論文分為三個部分。在第一部分中,我旨在涵蓋三個使用內在結構作為約束以實現魯棒推理的工作。我介紹了我們的框架,該框架執行測試時優化以尊重自然約束,這些約束由自監督任務捕獲。我闡述了測試時優化如何改善分布外泛化和對抗性魯棒性。除了推理算法,我還展示了通過離散表示來改善分布外魯棒性的內在結構。 在論文的第二部分中,我詳細介紹了使用外部領域知識的工作。我首先介紹了如何利用來自外部領域知識的因果結構來提高領域泛化魯棒性。然后,我展示了多個任務和正則化目標的關聯如何幫助提高魯棒性。 在這篇論文的最后部分,我展示了關于值得信賴和可靠的基礎模型的三個工作,這是許多人工智能應用的基礎模型。我展示了一個利用上下文來保護、解釋和控制基礎模型的框架。
現代機器學習主要受到黑盒模型的驅動,這些模型提供了卓越的性能,但對于如何進行預測的透明度有限。對于需要了解模型如何做出決策的應用,以及協助模型調試和數據驅動的知識發現,我們需要可以回答有關影響模型行為的問題的工具。這就是可解釋機器學習(XML)的目標,這是一個子領域,它開發了從多個角度理解復雜模型的工具,包括特征重要性、概念歸因和數據估值。本文提供了對XML領域的幾個貢獻,主要思想分為三部分:(i)一個框架,使得可以統一分析許多當前的方法,包括它們與信息論和模型魯棒性的聯系;(ii)一系列技術,用于加速Shapley值的計算,這是幾種流行算法的基礎;以及(iii)一系列用于深度學習模型的特征選擇的方法,例如,在無監督和自適應的設置中。這些思想中的許多都是受到計算生物學和醫學應用的啟發,但它們也代表了在各種領域中都有用的基本工具和觀點。
在模型透明度的辯論中,傳統的觀點是我們面臨解釋性與準確性之間的權衡。1有些人辯稱這種權衡并不存在,聲稱我們可以使用“天生可解釋”的模型達到近乎最優的性能(Rudin, 2019);這對于簡單的表格數據集往往是正確的,但對于像圖像和語言這樣的復雜數據模態則較為罕見。在這里,我們采取了更為寬容的立場:鑒于黑盒模型目前提供了最佳的性能并且已經廣泛部署,我們探討是否有可能從任何模型中獲得足夠的見解。在這樣做的過程中,我們開發了一套在很大程度上對模型的內部機制持中立態度,或者說是模型不可知的工具集,因此即使在今天的最高性能的黑盒模型中也能正常運行。 這一目標也被可解釋機器學習(XML)子領域的許多工作所共享,并且近年來已經取得了顯著的進展。目前,XML工具已被用于了解新疾病的風險因素(Razavian等人,2020;Snider等人,2021),加速數學猜想的發現(Davies等人,2021),在有限的訓練數據標簽下識別蛋白質結合位點(Gligorijevi?等人,2021),審計有缺陷的醫學診斷系統(DeGrave等人,2021)以及從功能系統中獲得新的見解(Ting等人,2017;Sundararajan等人,2017)。這些早期的成功表明了這些工具的潛力,但在這些方法的底層理論以及使它們在實踐中高效的計算程序方面仍有進展空間。這篇論文介紹了我在博士期間進行的幾項工作,旨在解決這些挑戰。
這篇論文包含了我在博士期間完成的大部分項目,所有這些項目都與透明機器學習的核心主題相關。我們首先在第2章建立符號和幾個初步的概念。接下來,每一章都基于一篇第一作者的出版物,其中在某些情況下與共同第一作者共享。為了使它們在一個文檔中更具連貫性,對各個作品進行了修改,但這里沒有提供新的信息,這些論文也可以單獨閱讀。這些作品被組織成三個部分,如下所述。
**第一部分:XML的基礎 **我們首先討論一個統一了大部分文獻的觀點:許多現有的方法都基于一個解釋原則,即通過移除或量化從模型中移除特征的影響。我們描述了一個框架,在這個框架中,這些方法基于三個實現選擇而有所不同,我們為26個現有的算法確定了這些選擇(第3章)。基于這個觀點,我們對這些方法進行了統一分析,并找到了與信息理論、博弈論和認知心理學的聯系。然后,我們探索這些方法的魯棒性特性,并得出了描述它們對輸入和模型擾動的魯棒性的新結果(第4章)。 第二部分:Shapley值計算 接下來,我們探討XML中最廣泛使用的工具之一:Shapley值,一種博弈論信用分配技術。這些是最受歡迎的特征歸因方法之一,SHAP(Lundberg和Lee,2017)的基礎,以及一個著名的數據估值技術(Ghorbani和Zou,2019),但它們是臭名昭著的難以計算。有一系列方法來加速它們的計算(Chen等人,2022),我們在這里討論兩個:基于加權線性回歸的近似(第5章),和基于深度學習的攤銷優化的近似(第6章,第7章)。 第三部分:深度學習的特征選擇 最后,特征選擇為提供透明度的同時也降低了特征獲取成本提供了另一個方向。由于多次訓練不同特征集的模型的高昂成本,似乎很難與深度學習一起實施,但我們探討了如何使用可微分的層來阻止特征信息進入網絡(第8章)。然后,我們討論如何在自適應設置中應用這些思想,其中我們根據當前可用的信息為每個預測單獨選擇特征(第9章,第10章)。
隨著實用量子計算機的可能出現,人們開始研究其潛在的應用,特別是在人工智能的背景下。受到經典機器學習中深度神經網絡成功的激勵,人們普遍希望這種成功可以被轉化到所謂的量子變分算法或由經典機器學習啟發的量子神經網絡中。當前的深度學習算法主要是基于一系列啟示法開發的,這些啟示法通常缺乏嚴格的證明來證明其有效性。由于這些算法的不透明性,提供關于它們性能的明確保證仍然是一個巨大的挑戰。盡管這種復雜性延伸到深度學習的量子模擬,但越來越多的文獻已經識別出一套理論工具,以更好地了解為什么經典機器學習模型在現實任務中如此有效。我們使用這些工具來研究這些量子模擬,以部分解答在何時以及在什么條件下我們可以期望成功的問題。我們主要使用統計學習理論、量子力學、隨機矩陣理論和群論的工具來研究量子機器學習算法的可學習性。我們的發現表明,我們必須仔細考慮量子機器學習算法的設計,以達到合理的成功水平。事實上,我們的一些結果顯示,在量子機器學習中,隨機或無結構的方法容易遇到各種挑戰,包括與訓練性相關的問題或與最佳經典算法相比沒有顯著的優勢的問題。在整篇論文中,我們提供了幾個如何可能地向這些算法中引入結構來部分地解決這些問題的例子。此外,我們還探討了量子計算如何通知和加強經典機器學習的反向問題。我們研究了將酉矩陣納入經典神經網絡,這導致了這些酉神經網絡的更高效的設計。
新的學習算法提高了我們僅通過觀察單個事件的過去觀察來獲取知識的能力,使我們能從觀察幾個相關事件中學習。這種在時間序列中利用共享有用信息的能力正在引起時間序列預測實踐的范式轉變。然而,基于機器學習的預測仍面臨著一些迫切的挑戰,這些挑戰限制了其可用性、有用性以及可實現的現實世界的影響,包括人類的可解釋性、利用結構化信息的能力、泛化能力和計算成本。本論文通過彌合機器學習和經典統計預測方法之間的差距來解決這些挑戰。我們按照以下方式組織了論文。我們介紹了時間序列預測任務,并附帶了現代預測模型、它們的優化以及預測評價方法的簡要回顧。在接下來的章節中,我們通過三個案例研究來介紹我們的方法。首先,我們將時序分解分析啟發的可解釋性能力增強到最先進的神經預測算法中,并在短期電價預測任務中展示了其應用。其次,我們通過一種新穎的受小波啟發的算法,在長期預測設置中提高神經預測的泛化和計算效率,該算法按順序組裝其預測,強調具有不同頻率和尺度的組件。第三,我們通過增強神經預測架構,使用一種專門的概率混合物,能夠在其構造中融入聚合約束,來解決分層預測任務,這是一個具有線性聚合約束的回歸問題。我們的方法在每個考慮的領域中都提高了現有技術的最高水平。
時間序列預測問題涉及到許多領域,從金融和經濟到健康保健分析。隨著數據生成的增加,預測需求已從需要預測少量時間序列演變為預測數千甚至數百萬個時間序列。從數據中提取可推廣的統計模式一直是生成預測的最可靠方法。這就是為什么機器學習已經成為了這項任務最成功的方法之一。在大數據環境下,深度學習(LeCun等人,2015)因為其在最近的預測競賽中的成功(Makridakis等人,2020a;Makridakis等人,2021)而變得越來越受歡迎,其已經改變了現有的最高水平。深度學習的優點包括:1.預測準確性:全局模型同時適應相關時間序列的歷史數據,允許其在它們之間分享信息;這有助于訓練高參數化和靈活的模型,這通常會轉化為更準確的預測,這種技術被稱為交叉學習(Makridakis等人,2020a)。相比于經典方法,該模型能夠為幾乎沒有歷史數據的項目提供預測。2.預測流程的簡化:深度學習框架能夠自動化數據集的特征化,同時其表示具有更長的記憶。使用全局模型大大簡化了數據管道,并使過程更高效。雖然訓練時間比其他方法更長,但深度學習技術在數據特征化過程中能夠補償這一點,這通常非常快。已經嘗試了許多方法和想法進行預測,成功程度各不相同。不同的算法有其優點和缺點,復雜性不同,發展機會和挑戰也不同。機器學習有巨大的潛力來提升預測系統,然而一些限制阻礙了其采用,其中我們認為最主要的是缺乏可解釋性,處理大量數據或長期預測時的計算可擴展性。受到機器學習預測系統的可解釋性和計算成本限制的驅動,在這篇論文中,我們以以下問題為指導進行工作:能否將經濟計量學和統計創新結合起來,以提高基于機器學習的預測的可用性、有用性和現實世界的影響?
隨著機器學習模型在各種應用中的部署越來越頻繁,我們越來越需要更好地理解、交互和調節它們的行為。解釋性機器學習是一個致力于這一需求的研究領域,其主要焦點最初在滿足有利于揭示有關模型預測的可能有用信息的算法屬性的方法論發展。然而,批評也強調了需要更為嚴謹地評估這些方法在不同用戶的具體任務中的應用。在這篇論文中,我們對該領域的方法論和應用方面做出了我們個人的貢獻。在方法論上,我們提出了一種有效的算法,通過影響力大的訓練數據點提供關于模型行為的重要信息。然后,我們提出了一種理論框架,以理解模型在性能和公平性指標上的權衡。接下來,從應用驅動的角度,我們討論了一個評估框架,測試現有的圖像顯著性方法是否適用于實際的假相關檢測任務。最后,受到學術同行評審中實際問題的啟發,我們展示了我們對新的和現有的方法在幫助人類用戶進行文檔匹配任務方面的效用的發現。
在計算機視覺和自然語言處理等實踐領域表現出色的復雜機器學習模型,越來越多地被用來協助人類進行高風險的決策,如醫療、金融、法律和社會應用。這種加速的采用使得人類用戶越來越需要更好地理解、調節和與這些模型交互。解釋性機器學習是一個致力于這一需求的廣泛研究領域。許多文獻中的工作側重于方法論的發展:開發新的滿足各種技術目標的方法,可以有效地從一個黑盒機器學習模型中引出重要和有用的信息。然而,這些方法使用的各種技術目標與引出的信息的實際“重要性”或“有用性”沒有明確的聯系,這本質上依賴于用戶使用信息進行某些下游任務。因此,基于具體應用對開發的方法進行評估,對于完全閉環開發具有實用價值的新方法至關重要。在這篇論文中,我們提出了對這個領域的方法論和應用重點方面的個人貢獻。
抽象的知識深深根植于許多基于計算機的應用中。從數據中自動獲取知識是人工智能的一個重要研究方向。機器學習提供了相應的算法。其中一個研究領域專注于開發受生物啟發的學習算法。各自的機器學習方法基于神經學概念,因此它們可以系統地從數據中獲取知識并存儲它。可以歸類為深度學習模型的一類機器學習算法被稱為深度神經網絡(deep Neural Networks, DNNs)。DNNs由多個人工神經元組成,這些神經元按層排列,通過使用反向傳播算法進行訓練。這些深度學習方法在從高維數據中推理和存儲復雜知識方面表現出驚人的能力。
然而,DNN會受到一個問題的影響,即無法將新知識添加到現有的知識庫中。不斷積累知識的能力是促進進化的重要因素,因此是發展強大人工智能的先決條件。所謂的“災難性遺忘”(CF)效應導致DNN在對新數據分布進行幾次訓練迭代后,立即失去已經派生的知識。只有用過去和新數據的聯合數據分布進行昂貴的再訓練,才能抽象出整個新知識集。為了抵消這種影響,各種旨在緩解甚至解決CF問題的技術已經并且仍在開發中。這些已發表的CF回避研究通常暗示他們的方法對各種持續學習任務的有效性。本文的研究背景是基于深度學習方法的持續機器學習。第一部分是面向實際應用的評估協議的開發,該協議可以用于研究不同的機器學習模型對協同效應的抑制。在第二部分,綜合研究表明,在面向應用的需求下,所研究的模型都不能表現出令人滿意的持續學習效果。第三部分提出了一種新的深度學習模型——深度卷積高斯混合模型(deep Convolutional Gaussian Mixture Models, DCGMMs)。DCGMMs建立在無監督高斯混合模型(GMMs)的基礎上。GMM不能被認為是深度學習方法,它必須在訓練前以數據驅動的方式進行初始化。這些方面限制了GMM在持續學習場景中的使用。
本文提出的訓練過程使使用隨機梯度下降(SGD)(應用于DNN)來訓練GMMs成為可能。集成退火方案解決了數據驅動的初始化問題,這是GMM訓練的先決條件。實驗證明,新的訓練方法在不迭代其缺點的情況下,可以得到與傳統方法相當的結果。另一個創新是gmm以層的形式排列,這類似于DNN。將GMM轉換為層使其能夠與現有層類型相結合,從而構建深層體系結構,從而可以用較少的資源派生出更復雜的知識。在本工作的最后一部分,研究DCGMM模型的持續學習能力。為此,提出一種稱為高斯混合重放(GMR)的重放方法。GMR利用DCGMM的功能來描述數據樣本的生成和重現。與現有CF回避模型的比較表明,在面向應用的條件下,GMR可以取得類似的持續學習效果。總之,所提出的工作表明,確定的面向應用的需求仍然是“應用”持續學習研究方法的開放問題。此外,新的深度學習模型為許多其他研究領域提供了一個有趣的起點。