物理信息化機器學習(PIML)已成為科學機器學習研究的前沿,其主要動力是系統地將機器學習(ML)方法與通常以物理監督形式存在的先驗領域知識結合起來。不確定性量化(UQ)是許多科學用例中的一個重要目標,其中獲得可靠的機器學習模型預測和評估與之相關的潛在風險至關重要。在這篇論文中,我們在提高PIML的不確定性量化方面提出了三個關鍵領域的新方法。首先,我們提議通過在神經網絡的架構修改中顯式地融入物理先驗,以單調性約束的形式來量化不確定性。其次,我們展示了一個更通用的框架,用于量化PIML的不確定性,該框架與通用形式的物理監督(如偏微分方程和封閉形式方程)兼容。最后,我們研究了物理信息化神經網絡(PINNs)中基于物理的損失的限制,并開發了一個有效的采樣策略來緩解失敗模式。
人工智能領域最近見證了顯著的增長,導致開發了在各種領域表現出色的復雜深度學習模型。然而,這些發展帶來了關鍵問題。深度學習模型容易繼承并可能加劇其訓練數據中存在的偏見。此外,這些模型的復雜性導致缺乏透明度,這可能導致偏見未被發現。這最終可能阻礙這些模型的采用,因為缺乏信任。因此,培養本質上透明、可信和公平的人工智能系統至關重要。本論文通過探索深度學習的可解釋性和自解釋模型,為這一研究領域做出了貢獻。這些模型代表了向更透明系統的轉變,提供了與模型架構密切相關的解釋,揭示了它們的決策過程。因此,這種固有的透明性增強了我們的理解,從而提供了解決無意中學習偏見的機制。為了推進自解釋模型的發展,本論文進行了對當前方法的全面分析。它引入了一個旨在提高某個最先進模型解釋質量的新算法。此外,這項工作還提出了一種新的自解釋模型,通過學習的解碼器生成解釋,促進端到端訓練,并解決了解釋性和性能之間普遍存在的權衡問題。此外,為了增強這些模型的可及性和可持續性,本論文還介紹了一種通用方法,無需重新訓練即可將任何預訓練的黑盒模型轉化為自解釋模型。通過所提出的方法,這項研究識別并抵制了從數據中學習的人為因素—虛假相關性,進一步強調了透明模型的需求。此外,本論文的范圍還擴展到了大型語言模型的公平性維度,展示了這些模型加強社會偏見的傾向。這項研究的結果凸顯了所提方法的有效性,從而為創建不僅準確而且透明、公平和可靠的人工智能系統鋪平了道路,以促進人工智能技術的廣泛采用和信任。
本文探討了如何通過將模型與知識表示相結合,使得自然語言理解與生成受益于變換器模型(Transformers)。目前,訓練語言模型最普遍的范式是通過在大量原始文本數據上進行預訓練,并在下游任務上進行微調。盡管語言模型持續進步,特別是最近大型語言模型(LLMs)如ChatGPT的趨勢,似乎僅依靠文本數據所能達成的成就存在限制,研究應用并整合豐富的知識表示形式以提升模型性能是可取的。 語言建模最廣泛使用的知識形式是結構化知識,它以實體及其關系組成的三元組形式存在,通常是英語。本文超越了這種傳統方法,旨在解決幾個關鍵問題:
以結構化知識為基礎的知識增強。 我們首先探索將結構化知識整合進語言模型。實體的知識已顯示出對實體中心任務如實體鏈接和關系提取的好處,然而,大多數研究局限于單語環境。我們在兩個研究方向上擴展了以結構化知識,特別是實體為基礎的知識增強。 首先,我們研究實體的知識是否能夠有利于真實世界的假新聞檢測。我們假設嵌入在實體中的世界知識可以有助于評估新聞聲明的真實性。在不同數據集上評估各種知識整合方法顯示,當結合相關且最新的知識庫時,知識增強的語言模型改善了假新聞檢測。 第二個方向超越英語,專注于多語言實體。我們引入了EntityCS,其中我們首先從Wikipedia構建了一個代碼切換(CS)訓練語料庫,通過將英文中的實體切換到其他語言的對應實體。然后我們對這個語料庫進行預訓練的多語言模型進行中間訓練,用于聯合掩碼語言建模和實體預測。模型在實體中心下游任務上的后續微調一致地改善了零樣本跨語言傳遞能力,展示了整合多語言實體知識的好處。 從網絡文本中提取結構化知識。 我們繼續研究有效、忠實且穩健地從網絡文本中提取結構化知識。大多數現有的信息提取(IE)數據集局限于維基百科文章,而在這樣的豐富事實文本語料庫上訓練的模型應用于網絡上更嘈雜的文本時表現不佳。為應對這些挑戰,我們引入了WebIE,一個新的數據集,它以原始句子作為輸入,以結構化三元組作為輸出。WebIE通過引入負面示例并進行嚴格的人工標注,強調了數據質量。我們還提出了忠實的生成式信息提取管道。我們的實驗表明,通過實體規劃訓練和前綴字典解碼,在網上準確提取知識方面取得了改進。 超越結構化知識的知識增強。 為了解答我們的最后一個研究問題,我們研究了更廣泛意義上的知識(包括從模型的自我解釋中得出的參數化知識和通過數據增強從LLMs中提取的知識)對改善NLP任務的影響。 我們將應用擴展到多模態語言模型,并研究知識密集型的視覺問答(VQA)。我們引入了一種統一方法,用于微調多模態模型,以聯合生成答案和解釋。我們的實驗展示了答案準確性和解釋質量的提升。 最后,隨著LLMs在性能和規模上的持續進步,我們探索了從通用LLMs中提煉常識知識以惠及更小的任務特定模型的實用性。我們提示各種LLMs生成關于幾個挑戰性和稀缺的多語言常識數據集的多樣化示例。這種增強顯示了在微調較小模型上的一致改進,為訓練數據有限的情景提供了數據增強策略的新視角。
總結來說,本文探討了在自然語言理解和生成中知識增強的作用,覆蓋了廣泛的任務。我們發現,結合相關且最新的實體知識有助于假新聞檢測,并且針對實體中心任務的實體焦點代碼切換顯著增強了零樣本跨語言轉移。在有效且忠實地提取結構化知識方面,我們的研究發現,整合負面示例和使用實體規劃訓練顯著提高了性能。此外,我們確定了其他一般形式的知識,如參數化和提煉知識,增強了多模態和多語言知識密集型任務。這項研究展示了多樣化知識整合的實際好處,并激發了進一步探索這一方向的動機。
在更廣泛的背景下,元學習關注的是一個智能體如何了解自己的學習過程,從而改進其學習過程。學習如何學習不僅對人類有益,而且也顯示出對改進機器學習方式的巨大好處。在機器學習的背景下,元學習使模型能夠通過選擇影響學習的適當元參數來改進其學習過程。具體到深度學習,元參數通常描述模型訓練的細節,但也可以包括模型本身的描述——即架構。元學習通常是以特定目標為導向的,例如嘗試改善泛化能力或從少數幾個例子中學習新概念的能力。元學習可以很強大,但它有一個主要缺點:通常計算成本高昂。如果能夠減輕這些成本,元學習將更容易被新的人工智能模型開發者訪問,使他們能夠實現更偉大的目標或節省資源。因此,我們研究的一個關鍵重點是顯著提高元學習的效率。我們發展了兩種方法:EvoGrad和PASHA,兩者在兩種常見場景中顯著提高了元學習效率。EvoGrad允許我們高效地優化大量可微分的元參數值,而PASHA則能夠高效地優化數量較少的任何類型的元參數。
//era.ed.ac.uk/handle/1842/41452 元學習是一個可以應用于解決各種問題的工具。最常見的應用是從少量例子中學習新概念(少樣本學習),但也存在其他應用。為了展示元學習在神經網絡背景下可以產生的實際影響,我們使用元學習作為兩個選定問題的新解決方案:更準確的不確定性量化(校準)和通用少樣本學習。這兩個都是實際重要的問題,通過使用元學習方法,我們可以獲得比使用現有方法獲得的更好的解決方案。校準對神經網絡的安全關鍵應用至關重要,而通用少樣本學習測試了模型在諸如識別、分割和關鍵點估計等多樣化任務上的少樣本學習能力的泛化能力。 更高效的算法以及新的應用使得元學習領域能夠對深度學習的更廣泛領域產生更顯著的影響,并有潛力解決之前過于具有挑戰性的問題。最終,這兩者都使我們能夠更好地利用人工智能呈現的機會。
知識圖譜(KGs)已成為一種高效的知識組織和表示方式,通過存儲實體之間的底層關系來實現。最近,大量研究工作致力于KG嵌入,旨在將KG中的實體和關系映射到低維連續向量空間中,以便快速推理。KG嵌入模型已廣泛應用于KGs上的不同學習任務,例如,KG補全、多跳復雜推理和KG對齊。由于大多數結構化知識只在特定時間點或特定間隔內有效,因此許多大型KGs將時間信息加入三元事實中,以捕捉知識的時間動態,除了其多關系特性。最近,時間KGs的可用性催生了對能夠建模時間感知四元事實的新KG嵌入方法的需求。本文旨在深入研究時間KG表示學習和推理。我們的動機是通過提出新的時間KG嵌入方法,提高嵌入模型在時間KGs上的性能。
在這項工作中,我們將靜態KGs的三個基本學習任務擴展到時間KGs,即,時間KG補全、多跳時間KG推理和時間實體對齊。我們首先提出了三種新穎的時間KG嵌入模型,即ATiSE、TeRo、TGeomE,用于時間KG補全任務。具體來說,ATiSE使用多維加法時間序列分解來模擬實體/關系表示的時間演變,TeRo定義了實體嵌入在復數向量空間中隨時間的旋轉演變,而TGeomE通過來自多維幾何代數的多向量嵌入對時間KG進行四階張量分解,并考慮新的線性時間規則化。我們提出的時間KG補全模型在發布時實現了最新技術。為了解決多跳時間KG推理問題,我們從三個常見的時間KG基準中生成了三個時間查詢數據集,并提出了一個基于向量邏輯的時間查詢嵌入框架TFLEX。TFLEX是第一個能夠同時處理一階邏輯操作和時間邏輯操作,并在TKGs上回答多跳實體查詢和時間戳查詢的查詢嵌入框架。
最后,我們引入了基于圖神經網絡的兩個新的時間KG嵌入模型,TEA-GNN和TREA,用于時間KGs之間的實體對齊,并提出了三個新的時間KG數據集作為評估實體對齊方法的參考。TEA-GNN將時間戳視為實體間鏈接的關注特性,并使用時間感知的圖自注意力機制有效地將時間信息整合到圖神經網絡中。在TEA-GNN的基礎上,TREA具有更好的歸納學習能力來表示新出現的實體和時間戳,并在大規模時間KGs上具有更高的訓練效率。我們實證證明,所提出的TEA模型顯著優于現有的靜態實體對齊方法和面向時間KG補全的時間KG嵌入模型。總的來說,這篇論文通過引入新的任務、指標、數據集和模型,解決了時間KG嵌入的不同挑戰。實驗結果表明,我們提出的方法成功地將時間信息整合到KGs的表示學習模型中。
在過去的二十年中,數字技術的進步使得在廣泛領域內使用機器學習進行數據驅動的決策成為可能。最近的研究強調,使用機器學習進行決策需要因果推斷。具體來說,目的是學習治療(例如,決策、干預、行動)對感興趣單元(例如,患者、內容和客戶)的因果效應的異質性,以便能夠優化治療分配。這激發了因果機器學習的研究,它將機器學習與因果推斷結合起來,以改善治療效果估計并優化治療分配。這篇論文開發了用于數字健康、數字媒體和數字平臺領域中的個性化、推薦和目標定位的數據驅動決策相關的因果機器學習方法。 在第二章中,我們將因果樹和因果森林從異質性治療效果估計適應到個性化序列化治療決策估計。這些方法控制了非線性和隨時間變化的混雜因素,對于錯誤規范具有魯棒性,并解釋了哪些患者信息預測了治療效益。我們使用模擬研究以及對重癥監護病房真實世界數據的應用來評估我們的方法。我們的方法在優化長期結果方面優于最先進的基準和醫療實踐。我們的工作因此展示了因果機器學習在數字醫療保健中的價值。 在第三章中,我們提出了一個政策學習框架,用于指導數字出版商如何優化其分發渠道(例如,網站首頁、推特頁面、電子郵件通訊)上向用戶推薦的內容。我們展示了反事實政策是如何從歷史數據中非參數地識別出來的,以及最優政策如何選擇具有最大異質性治療效應的內容。我們提出了一個計算效率高的估算算法和工具,用于解釋哪些內容最適合推薦。通過與一家國際報紙的合作,我們展示了最優政策如何優于標準基準和編輯過去的決策。總體而言,我們的工作展示了因果機器學習如何改進內容推薦。
在第四章中,我們開發了一個框架,用于確保在針對客戶目標的異質性治療效應的機器學習預測中的公平性。受數字平臺面臨的現實世界約束的啟發,我們將問題定義為檢測機器學習模型是否存在偏見,如果存在,如何為新用戶最好地緩解它。我們提供了關于檢測的理論保證,并呈現了緩解的最優策略。我們使用來自全球旅行平臺 Booking.com 的大規模數據,實證展示了我們的框架。我們的框架為確保因果機器學習中的公平性提供了一條前進的道路。
總結來說,這篇論文展示了因果機器學習如何在數字化轉型的應用領域中進行評估和優化,以實現數據驅動的決策。我們的方法解決了實踐中算法決策常見的挑戰,即效率、可解釋性和公平性。因此,我們旨在促進因果機器學習在實踐和應用研究中的數據驅動決策的采用。
深度學習已經徹底改變了科學研究,并被用于在越來越復雜的場景中做出決策。隨著強大的能力的增長,對透明度和可解釋性的需求也在增長。可解釋人工智能領域旨在為AI系統的預測提供解釋。然而,AI可解釋性的最新進展遠未令人滿意。
例如,在計算機視覺中,最著名的事后解釋方法生成像素級的熱圖,覆蓋在輸入域上,旨在可視化圖像或視頻的單個像素的重要性。我們認為,這種密集的歸因圖對非專家用戶來說解釋性較差,因為解釋形成的領域——我們可能在熱圖中識別出形狀,但它們只是像素的斑點。事實上,輸入域更接近于數碼相機的原始數據,而不是人類用來交流的可解釋結構,例如物體或概念。
在這篇論文中,我們提出超越密集特征歸因,通過采用結構化內部表示作為更可解釋的解釋域。從概念上講,我們的方法將深度學習模型分為兩部分:感知步驟,輸入密集表示;推理步驟,學習執行手頭任務。兩者之間的接口是對應于明確定義的物體、實體和概念的結構化表示。這些表示作為解釋模型預測的可解釋域,使我們能夠朝著更有意義和信息豐富的解釋邁進。
提出的方法引入了幾個挑戰,比如如何獲得結構化表示,如何將它們用于下游任務,以及如何評估結果解釋。本論文包含的工作解決了這些問題,驗證了方法并為該領域提供了具體貢獻。在感知步驟中,我們探討了如何從密集表示中獲得結構化表示,無論是通過使用領域知識手動設計它們,還是通過無監督地從數據中學習它們。在推理步驟中,我們探討了如何將結構化表示用于從生物學到計算機視覺的下游任務,以及如何評估學到的表示。在解釋步驟中,我們探討了如何解釋在結構化域中運作的模型的預測,以及如何評估結果解釋。總的來說,我們希望這項工作能激發對可解釋AI的進一步研究,并幫助彌合高性能深度學習模型與現實世界應用中對透明度和可解釋性需求之間的差距。
人工智能系統在商業、科學和社會的各個領域得到了廣泛應用。特別是由于性能的快速提升,深度學習模型現在能夠在復雜場景中支持甚至取代人類專家。然而,強大的能力伴隨著巨大的責任,人工智能(AI)的日益普及引發了對透明度和可解釋性的增長需求。確實,使用高精度檢測癌癥很有用,但AI醫生必須能夠向患者解釋其診斷,并與其他醫生合作。同樣,一家公司可能開發了一個用于自動駕駛的杰出系統,但在公共道路上部署之前,需要說服監管機構其行為是安全且可預測的。 透明度、解釋和可解釋性是可解釋人工智能(XAI)的重點。盡管在理解深度學習模型和解釋其決策方面取得了重大進展,但XAI的最新狀態遠未令人滿意。例如,計算機視覺中最著名的解釋方法產生的熱圖被疊加到圖像或視頻上,以突出重要區域。我們稱之為密集特征歸因的這種可視化類型,對模型識別什么(紋理、部分、物體等)和如何推理(屬性、關系等)提供的洞察很少。我們將這種局限性歸因于解釋形成的領域。實際上,對于大多數深度學習模型,解釋域與輸入域相對應,它更接近于感官數據(例如原始像素),而不是人類用于推理和交流的可解釋結構(例如物體或概念)。 本論文的目標是超越密集特征歸因,轉而采用結構化表示作為更可解釋的解釋域。我們通過分離感知步驟(將密集輸入轉換為結構化表示)和推理步驟(使用結構化表示進行預測)來實現這一目標。這種分離使我們能夠就結構化表示解釋預測,這比密集輸入更具可解釋性。 在這個引言章節中,我們對我們的方法進行了背景闡述:第1.1節提供了可解釋人工智能的介紹,包括其概念和需求;第1.2節描述了表示方法,無論是密集的還是結構化的,在解釋深度學習模型中的作用。最后,第1.3節對提出的方法進行了正式闡述,并概述了本論文各章節中的發展情況。
現代機器學習主要受到黑盒模型的驅動,這些模型提供了卓越的性能,但對于如何進行預測的透明度有限。對于需要了解模型如何做出決策的應用,以及協助模型調試和數據驅動的知識發現,我們需要可以回答有關影響模型行為的問題的工具。這就是可解釋機器學習(XML)的目標,這是一個子領域,它開發了從多個角度理解復雜模型的工具,包括特征重要性、概念歸因和數據估值。本文提供了對XML領域的幾個貢獻,主要思想分為三部分:(i)一個框架,使得可以統一分析許多當前的方法,包括它們與信息論和模型魯棒性的聯系;(ii)一系列技術,用于加速Shapley值的計算,這是幾種流行算法的基礎;以及(iii)一系列用于深度學習模型的特征選擇的方法,例如,在無監督和自適應的設置中。這些思想中的許多都是受到計算生物學和醫學應用的啟發,但它們也代表了在各種領域中都有用的基本工具和觀點。
在模型透明度的辯論中,傳統的觀點是我們面臨解釋性與準確性之間的權衡。1有些人辯稱這種權衡并不存在,聲稱我們可以使用“天生可解釋”的模型達到近乎最優的性能(Rudin, 2019);這對于簡單的表格數據集往往是正確的,但對于像圖像和語言這樣的復雜數據模態則較為罕見。在這里,我們采取了更為寬容的立場:鑒于黑盒模型目前提供了最佳的性能并且已經廣泛部署,我們探討是否有可能從任何模型中獲得足夠的見解。在這樣做的過程中,我們開發了一套在很大程度上對模型的內部機制持中立態度,或者說是模型不可知的工具集,因此即使在今天的最高性能的黑盒模型中也能正常運行。 這一目標也被可解釋機器學習(XML)子領域的許多工作所共享,并且近年來已經取得了顯著的進展。目前,XML工具已被用于了解新疾病的風險因素(Razavian等人,2020;Snider等人,2021),加速數學猜想的發現(Davies等人,2021),在有限的訓練數據標簽下識別蛋白質結合位點(Gligorijevi?等人,2021),審計有缺陷的醫學診斷系統(DeGrave等人,2021)以及從功能系統中獲得新的見解(Ting等人,2017;Sundararajan等人,2017)。這些早期的成功表明了這些工具的潛力,但在這些方法的底層理論以及使它們在實踐中高效的計算程序方面仍有進展空間。這篇論文介紹了我在博士期間進行的幾項工作,旨在解決這些挑戰。
這篇論文包含了我在博士期間完成的大部分項目,所有這些項目都與透明機器學習的核心主題相關。我們首先在第2章建立符號和幾個初步的概念。接下來,每一章都基于一篇第一作者的出版物,其中在某些情況下與共同第一作者共享。為了使它們在一個文檔中更具連貫性,對各個作品進行了修改,但這里沒有提供新的信息,這些論文也可以單獨閱讀。這些作品被組織成三個部分,如下所述。
**第一部分:XML的基礎 **我們首先討論一個統一了大部分文獻的觀點:許多現有的方法都基于一個解釋原則,即通過移除或量化從模型中移除特征的影響。我們描述了一個框架,在這個框架中,這些方法基于三個實現選擇而有所不同,我們為26個現有的算法確定了這些選擇(第3章)。基于這個觀點,我們對這些方法進行了統一分析,并找到了與信息理論、博弈論和認知心理學的聯系。然后,我們探索這些方法的魯棒性特性,并得出了描述它們對輸入和模型擾動的魯棒性的新結果(第4章)。 第二部分:Shapley值計算 接下來,我們探討XML中最廣泛使用的工具之一:Shapley值,一種博弈論信用分配技術。這些是最受歡迎的特征歸因方法之一,SHAP(Lundberg和Lee,2017)的基礎,以及一個著名的數據估值技術(Ghorbani和Zou,2019),但它們是臭名昭著的難以計算。有一系列方法來加速它們的計算(Chen等人,2022),我們在這里討論兩個:基于加權線性回歸的近似(第5章),和基于深度學習的攤銷優化的近似(第6章,第7章)。 第三部分:深度學習的特征選擇 最后,特征選擇為提供透明度的同時也降低了特征獲取成本提供了另一個方向。由于多次訓練不同特征集的模型的高昂成本,似乎很難與深度學習一起實施,但我們探討了如何使用可微分的層來阻止特征信息進入網絡(第8章)。然后,我們討論如何在自適應設置中應用這些思想,其中我們根據當前可用的信息為每個預測單獨選擇特征(第9章,第10章)。
隨著機器學習模型在各種應用中的部署越來越頻繁,我們越來越需要更好地理解、交互和調節它們的行為。解釋性機器學習是一個致力于這一需求的研究領域,其主要焦點最初在滿足有利于揭示有關模型預測的可能有用信息的算法屬性的方法論發展。然而,批評也強調了需要更為嚴謹地評估這些方法在不同用戶的具體任務中的應用。在這篇論文中,我們對該領域的方法論和應用方面做出了我們個人的貢獻。在方法論上,我們提出了一種有效的算法,通過影響力大的訓練數據點提供關于模型行為的重要信息。然后,我們提出了一種理論框架,以理解模型在性能和公平性指標上的權衡。接下來,從應用驅動的角度,我們討論了一個評估框架,測試現有的圖像顯著性方法是否適用于實際的假相關檢測任務。最后,受到學術同行評審中實際問題的啟發,我們展示了我們對新的和現有的方法在幫助人類用戶進行文檔匹配任務方面的效用的發現。
在計算機視覺和自然語言處理等實踐領域表現出色的復雜機器學習模型,越來越多地被用來協助人類進行高風險的決策,如醫療、金融、法律和社會應用。這種加速的采用使得人類用戶越來越需要更好地理解、調節和與這些模型交互。解釋性機器學習是一個致力于這一需求的廣泛研究領域。許多文獻中的工作側重于方法論的發展:開發新的滿足各種技術目標的方法,可以有效地從一個黑盒機器學習模型中引出重要和有用的信息。然而,這些方法使用的各種技術目標與引出的信息的實際“重要性”或“有用性”沒有明確的聯系,這本質上依賴于用戶使用信息進行某些下游任務。因此,基于具體應用對開發的方法進行評估,對于完全閉環開發具有實用價值的新方法至關重要。在這篇論文中,我們提出了對這個領域的方法論和應用重點方面的個人貢獻。
抽象知識深植根于許多基于計算機的應用中。人工智能(AI)的一個重要研究領域是從數據中自動推導知識。機器學習提供了相應的算法。其中一個研究領域是生物啟發學習算法的開發。各自的機器學習方法都是基于神經學概念,因此它們可以系統地從數據中獲取知識并存儲它。一種可以歸類為深度學習模型的機器學習算法被稱為深度神經網絡(DNNs)。DNN由多層排列的多個人工神經元組成,通過反向傳播算法進行訓練。這些深度學習方法在從高維數據推斷和存儲復雜知識方面表現出驚人的能力。
然而,DNN會受到一個問題的影響,即無法將新知識添加到現有的知識庫中。不斷積累知識的能力是促進進化的重要因素,因此是發展強大人工智能的先決條件。所謂的“災難性遺忘”(CF)效應導致DNN在對新數據分布進行幾次訓練迭代后,立即失去已經派生的知識。只有用過去和新數據的聯合數據分布進行昂貴的再訓練,才能抽象出整個新知識集。為了抵消這種影響,各種旨在緩解甚至解決CF問題的技術已經并且仍在開發中。這些已發表的CF回避研究通常暗示他們的方法對各種持續學習任務的有效性。
本文的研究背景是基于深度學習方法的持續機器學習。第一部分是面向實際應用的評估協議的開發,該協議可以用于研究不同的機器學習模型對協同效應的抑制。在第二部分,綜合研究表明,在面向應用的需求下,所研究的模型都不能表現出令人滿意的持續學習效果。第三部分提出了一種新的深度學習模型——深度卷積高斯混合模型(deep Convolutional Gaussian Mixture Models, DCGMMs)。DCGMMs建立在無監督高斯混合模型(GMMs)的基礎上。gmm不能被認為是深度學習方法,它必須在訓練前以數據驅動的方式進行初始化。這些方面限制了gmm在持續學習場景中的使用。本文提出的訓練過程使使用隨機梯度下降(SGD)(應用于dnn)來訓練GMMs成為可能。集成退火方案解決了數據驅動的初始化問題,這是GMM訓練的先決條件。實驗證明,新的訓練方法在不迭代其缺點的情況下,可以得到與傳統方法相當的結果。另一個創新是GMM以層的形式排列,這類似于DNN。將GMM轉換為層使其能夠與現有層類型相結合,從而構建深層體系結構,從而可以用較少的資源派生出更復雜的知識。
在本工作的最后一部分,研究DCGMM模型的持續學習能力。為此,提出一種稱為高斯混合重放(GMR)的重放方法。GMR利用DCGMM的功能來描述數據樣本的生成和重現。與現有CF回避模型的比較表明,在面向應用的條件下,GMR可以取得類似的持續學習效果。總之,所提出的工作表明,確定的面向應用的需求仍然是“應用”持續學習研究方法的開放問題。此外,新的深度學習模型為許多其他研究領域提供了一個有趣的起點。
強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。
因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。
有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。
//dspace.mit.edu/handle/1721.1/138930