知識圖譜(KGs)已成為一種高效的知識組織和表示方式,通過存儲實體之間的底層關系來實現。最近,大量研究工作致力于KG嵌入,旨在將KG中的實體和關系映射到低維連續向量空間中,以便快速推理。KG嵌入模型已廣泛應用于KGs上的不同學習任務,例如,KG補全、多跳復雜推理和KG對齊。由于大多數結構化知識只在特定時間點或特定間隔內有效,因此許多大型KGs將時間信息加入三元事實中,以捕捉知識的時間動態,除了其多關系特性。最近,時間KGs的可用性催生了對能夠建模時間感知四元事實的新KG嵌入方法的需求。本文旨在深入研究時間KG表示學習和推理。我們的動機是通過提出新的時間KG嵌入方法,提高嵌入模型在時間KGs上的性能。
在這項工作中,我們將靜態KGs的三個基本學習任務擴展到時間KGs,即,時間KG補全、多跳時間KG推理和時間實體對齊。我們首先提出了三種新穎的時間KG嵌入模型,即ATiSE、TeRo、TGeomE,用于時間KG補全任務。具體來說,ATiSE使用多維加法時間序列分解來模擬實體/關系表示的時間演變,TeRo定義了實體嵌入在復數向量空間中隨時間的旋轉演變,而TGeomE通過來自多維幾何代數的多向量嵌入對時間KG進行四階張量分解,并考慮新的線性時間規則化。我們提出的時間KG補全模型在發布時實現了最新技術。為了解決多跳時間KG推理問題,我們從三個常見的時間KG基準中生成了三個時間查詢數據集,并提出了一個基于向量邏輯的時間查詢嵌入框架TFLEX。TFLEX是第一個能夠同時處理一階邏輯操作和時間邏輯操作,并在TKGs上回答多跳實體查詢和時間戳查詢的查詢嵌入框架。
最后,我們引入了基于圖神經網絡的兩個新的時間KG嵌入模型,TEA-GNN和TREA,用于時間KGs之間的實體對齊,并提出了三個新的時間KG數據集作為評估實體對齊方法的參考。TEA-GNN將時間戳視為實體間鏈接的關注特性,并使用時間感知的圖自注意力機制有效地將時間信息整合到圖神經網絡中。在TEA-GNN的基礎上,TREA具有更好的歸納學習能力來表示新出現的實體和時間戳,并在大規模時間KGs上具有更高的訓練效率。我們實證證明,所提出的TEA模型顯著優于現有的靜態實體對齊方法和面向時間KG補全的時間KG嵌入模型。總的來說,這篇論文通過引入新的任務、指標、數據集和模型,解決了時間KG嵌入的不同挑戰。實驗結果表明,我們提出的方法成功地將時間信息整合到KGs的表示學習模型中。
在更廣泛的背景下,元學習關注的是一個智能體如何了解自己的學習過程,從而改進其學習過程。學習如何學習不僅對人類有益,而且也顯示出對改進機器學習方式的巨大好處。在機器學習的背景下,元學習使模型能夠通過選擇影響學習的適當元參數來改進其學習過程。具體到深度學習,元參數通常描述模型訓練的細節,但也可以包括模型本身的描述——即架構。元學習通常是以特定目標為導向的,例如嘗試改善泛化能力或從少數幾個例子中學習新概念的能力。元學習可以很強大,但它有一個主要缺點:通常計算成本高昂。如果能夠減輕這些成本,元學習將更容易被新的人工智能模型開發者訪問,使他們能夠實現更偉大的目標或節省資源。因此,我們研究的一個關鍵重點是顯著提高元學習的效率。我們發展了兩種方法:EvoGrad和PASHA,兩者在兩種常見場景中顯著提高了元學習效率。EvoGrad允許我們高效地優化大量可微分的元參數值,而PASHA則能夠高效地優化數量較少的任何類型的元參數。
//era.ed.ac.uk/handle/1842/41452 元學習是一個可以應用于解決各種問題的工具。最常見的應用是從少量例子中學習新概念(少樣本學習),但也存在其他應用。為了展示元學習在神經網絡背景下可以產生的實際影響,我們使用元學習作為兩個選定問題的新解決方案:更準確的不確定性量化(校準)和通用少樣本學習。這兩個都是實際重要的問題,通過使用元學習方法,我們可以獲得比使用現有方法獲得的更好的解決方案。校準對神經網絡的安全關鍵應用至關重要,而通用少樣本學習測試了模型在諸如識別、分割和關鍵點估計等多樣化任務上的少樣本學習能力的泛化能力。 更高效的算法以及新的應用使得元學習領域能夠對深度學習的更廣泛領域產生更顯著的影響,并有潛力解決之前過于具有挑戰性的問題。最終,這兩者都使我們能夠更好地利用人工智能呈現的機會。
深度強化學習(RL)為訓練最優序列決策智能體提供了強大的方法。由于收集現實世界的交互可能帶來額外的成本和安全風險,通常的模擬到現實(sim2real)范式是在模擬器中進行訓練,隨后在現實世界中部署。然而,RL智能體容易過擬合于選定的模擬訓練環境,并且更糟的是,一旦智能體掌握了特定的模擬環境集合,學習就會結束。與此相反,現實世界是高度開放的——特征是不斷演變的環境和挑戰,使得這種RL方法不適用。僅在大量模擬環境空間中進行隨機化是不夠的,因為這需要做出任意的分布假設,隨著設計空間的增長,抽樣對于學習有用的特定環境實例的可能性組合上會變得越來越小。理想的學習過程應該自動調整訓練環境,以最大化智能體在開放式任務空間中的學習潛力,該任務空間與現實世界的復雜性相匹配或超越。本論文開發了一類稱為無監督環境設計(UED)的方法,旨在通過原則性的方法逐漸提高學習智能體的魯棒性和通用性,從而啟用這樣一個開放式過程。在給定的潛在開放式環境設計空間中,UED自動生成一個無限序列或課程表的訓練環境,這些環境位于學習智能體能力的前沿。通過廣泛的實證研究和基于最小最大后悔決策理論和博弈論的理論論證,本論文的發現顯示,UED自動課程可以產生顯著提升魯棒性和泛化能力的RL智能體,使其能夠應對以前未見的環境實例。這樣的自動課程是朝向開放式學習系統的有前途的路徑,這種系統接近通用智能——這是人工智能研究長期追求的目標——通過不斷生成并掌握自己設計的更多挑戰。
近年來,深度神經網絡(DNNs)在多種計算機視覺任務中取得了巨大進步,如圖像分類、對象檢測、語義分割等。然而,DNNs的重大成功是以大量密集標記的訓練圖像為代價的,這些訓練圖像的建立極其昂貴且耗時。一種繞開這種限制的方法是利用現有相關數據集(稱為“源域”)中的已標注圖像進行網絡訓練。不幸的是,在源域上訓練的DNNs在應用于“目標域”時往往會因為分布不匹配而導致性能急劇下降。在這種情況下,域間的遷移學習(或稱知識遷移)是可取且必要的。
在本論文中,我們探討了用于視覺識別的轉導性遷移學習,其中標記的源域數據和未標記的目標域數據的數據分布不同,而源任務和目標任務是相同的。更具體地,我們調查了三種代表性的轉導性遷移學習類型,包括域泛化、無監督域適應和無源無監督域適應。
在域泛化中,給定標記的源域數據,目標是學習一個泛化的視覺識別模型,該模型在未見過的目標域數據上表現良好。換句話說,域泛化旨在學習域不變特征(或可遷移特征),而無需在訓練中使用目標域數據。在本論文中,我們提出了一種新穎的域泛化方法,有效地在頻率空間隨機化源域圖像,鼓勵DNNs學習風格不變的視覺特征,以便在未見過的目標域中表現良好。
在無監督域適應中,給定標記的源域數據和未標記的目標域數據,目標是學習一個適應性的視覺識別模型,該模型在目標域數據上表現良好。與域泛化不同,在無監督域適應的遷移學習設置中,未標記的目標域數據在訓練期間是可訪問的。因此,無監督域適應主要關注于利用未標記的目標域數據來提高網絡性能。在本論文中,我們開發了四種新穎的無監督域適應技術,有效地將知識從標記的源域傳遞到未標記的目標域。更具體地,我們在未標記的目標域數據上設計了不同的無監督損失,以學習在目標域中表現良好的模型。 在無源無監督域適應中,給定一個源訓練模型和未標記的目標域數據,目標是適應源訓練模型以在未標記的目標域數據上表現良好。與無監督域適應不同,在無源無監督域適應的遷移學習設置中,標記的源域數據在訓練期間是不可訪問的,我們的目標是在不訪問源域數據的情況下適應源訓練模型以適應目標數據分布。在這樣的遷移學習設置下,唯一傳遞的信息是一個便攜的源訓練模型,這在很大程度上緩解了數據隱私、數據可攜帶性和數據傳輸效率的擔憂。為此,我們提出了一種新穎的無源無監督域適應方法,利用歷史源假設來彌補這種遷移學習設置中源域數據的缺失。 在各種視覺識別基準測試中的實驗結果表明,我們提出的遷移學習方法取得了卓越的性能,實現了跨不同域的DNNs的遷移。
深度學習已經徹底改變了科學研究,并被用于在越來越復雜的場景中做出決策。隨著強大的能力的增長,對透明度和可解釋性的需求也在增長。可解釋人工智能領域旨在為AI系統的預測提供解釋。然而,AI可解釋性的最新進展遠未令人滿意。
例如,在計算機視覺中,最著名的事后解釋方法生成像素級的熱圖,覆蓋在輸入域上,旨在可視化圖像或視頻的單個像素的重要性。我們認為,這種密集的歸因圖對非專家用戶來說解釋性較差,因為解釋形成的領域——我們可能在熱圖中識別出形狀,但它們只是像素的斑點。事實上,輸入域更接近于數碼相機的原始數據,而不是人類用來交流的可解釋結構,例如物體或概念。
在這篇論文中,我們提出超越密集特征歸因,通過采用結構化內部表示作為更可解釋的解釋域。從概念上講,我們的方法將深度學習模型分為兩部分:感知步驟,輸入密集表示;推理步驟,學習執行手頭任務。兩者之間的接口是對應于明確定義的物體、實體和概念的結構化表示。這些表示作為解釋模型預測的可解釋域,使我們能夠朝著更有意義和信息豐富的解釋邁進。
提出的方法引入了幾個挑戰,比如如何獲得結構化表示,如何將它們用于下游任務,以及如何評估結果解釋。本論文包含的工作解決了這些問題,驗證了方法并為該領域提供了具體貢獻。在感知步驟中,我們探討了如何從密集表示中獲得結構化表示,無論是通過使用領域知識手動設計它們,還是通過無監督地從數據中學習它們。在推理步驟中,我們探討了如何將結構化表示用于從生物學到計算機視覺的下游任務,以及如何評估學到的表示。在解釋步驟中,我們探討了如何解釋在結構化域中運作的模型的預測,以及如何評估結果解釋。總的來說,我們希望這項工作能激發對可解釋AI的進一步研究,并幫助彌合高性能深度學習模型與現實世界應用中對透明度和可解釋性需求之間的差距。
人工智能系統在商業、科學和社會的各個領域得到了廣泛應用。特別是由于性能的快速提升,深度學習模型現在能夠在復雜場景中支持甚至取代人類專家。然而,強大的能力伴隨著巨大的責任,人工智能(AI)的日益普及引發了對透明度和可解釋性的增長需求。確實,使用高精度檢測癌癥很有用,但AI醫生必須能夠向患者解釋其診斷,并與其他醫生合作。同樣,一家公司可能開發了一個用于自動駕駛的杰出系統,但在公共道路上部署之前,需要說服監管機構其行為是安全且可預測的。 透明度、解釋和可解釋性是可解釋人工智能(XAI)的重點。盡管在理解深度學習模型和解釋其決策方面取得了重大進展,但XAI的最新狀態遠未令人滿意。例如,計算機視覺中最著名的解釋方法產生的熱圖被疊加到圖像或視頻上,以突出重要區域。我們稱之為密集特征歸因的這種可視化類型,對模型識別什么(紋理、部分、物體等)和如何推理(屬性、關系等)提供的洞察很少。我們將這種局限性歸因于解釋形成的領域。實際上,對于大多數深度學習模型,解釋域與輸入域相對應,它更接近于感官數據(例如原始像素),而不是人類用于推理和交流的可解釋結構(例如物體或概念)。 本論文的目標是超越密集特征歸因,轉而采用結構化表示作為更可解釋的解釋域。我們通過分離感知步驟(將密集輸入轉換為結構化表示)和推理步驟(使用結構化表示進行預測)來實現這一目標。這種分離使我們能夠就結構化表示解釋預測,這比密集輸入更具可解釋性。 在這個引言章節中,我們對我們的方法進行了背景闡述:第1.1節提供了可解釋人工智能的介紹,包括其概念和需求;第1.2節描述了表示方法,無論是密集的還是結構化的,在解釋深度學習模型中的作用。最后,第1.3節對提出的方法進行了正式闡述,并概述了本論文各章節中的發展情況。
在機器學習(ML)中,一個關鍵的挑戰是設計能夠從圖中高效學習的模型。這些圖由帶有屬性的節點組成,并具有一個編碼它們關系的預定結構。圖表示學習(GRL)旨在將這兩個異質性源編碼為一個向量圖嵌入,以便進行下游任務。在這個領域,最優傳輸(OT)在將圖視為離散概率分布的意義上提供了有意義的比較。本論文通過OT的視角關注GRL,兩個概念都在專門章節中介紹。現代的有監督GRL主要依賴圖神經網絡(GNN),它通過兩個主要元素隱式地編碼圖拓撲:通過消息傳遞的節點特征嵌入和通過專門形式的池化的聚合。在這篇論文中,我們介紹了一個新的觀點,將距離一些可學習的圖模板的距離置于圖表示的核心。這種距離嵌入是通過OT距離構建的:融合Gromov-Wasserstein(FGW)距離,它通過解決一個軟圖匹配問題同時處理特征和結構的不相似性。我們假設FGW距離到一組模板圖的向量具有強大的區分能力,然后將其提供給一個非線性分類器進行最終預測。這種距離嵌入作為一個新的池化層,稱為TFGW,并可以利用現有的消息傳遞技術來促進有意義的特征表示,這是端到端學習的。我們在幾個圖分類任務上實證驗證了我們的說法,其中我們的方法在表達性和泛化能力方面都優于內核和GNN方法。本論文的另一個貢獻旨在使詞典學習(DL)適用于圖數據集分析,這是無監督表示學習的關鍵工具。DL解釋向量數據為幾個基本元素的線性組合,通過與單一環境空間相關的不相似性來評估學到的表示的質量。由于圖描述了它們自己的空間,我們提出了第一個適應于圖詞典學習(GDL)的線性方法,使用(F)GW作為數據擬合項。在我們的工作中,圖被建模為圖原子的凸組合,通過在線隨機算法估算。GDL通過一個新的上界完成,該上界可以用作FGW在嵌入空間中的快速近似。我們實證地顯示了我們的方法對于圖聚類、分類、完成以及在線圖子空間估計和跟蹤的興趣。最終,位于OT核心的質量保守性,在對比兩個圖的所有節點時強加了一個耦合,這在GRL中有特定的含義。通過FGW學習結構和特征表示對于由將圖建模為概率分布所誘導的節點相對重要性非常敏感。管理這一額外的自由度,正如我們所做的,通過在TFGW中增加最小的計算成本但對GDL增加顯著的模型復雜性來改進基于(F)GW的模型。因此,我們建議通過引入一種新的基于OT的差異,稱為半松弛(融合)Gromov-Wasserstein差異(sr(F)GW),來解決(F)GW中質量保守性約束的限制。srFGW提供了兩個圖之間的對應關系,同時在目標圖中尋找一個重新加權的子圖,與輸入的(F)GW距離最小。后者可以比(F)GW更有效地估計,并與專門用于圖分割的方法競爭,同時更具通用性。此外,估計一個srFGW“重心”引入了一個新的DL,其中圖被嵌入為單個圖原子的重新加權子圖。與其他基于DL的競爭者在各種無監督任務上競爭有利,同時計算速度明顯更快。
聚類是數據分析中的主要而又具有挑戰性的任務,旨在將相似的樣本劃分到同一組,而將不相似的樣本劃分到不同的組。近期,由于在無監督深度圖聚類方面的突破,傳統的卷積神經網絡(例如,自編碼器(AE))和圖卷積網絡(GCN)的結合已經達到了最先進的性能。其中,自編碼器提取節點屬性特征,而圖卷積網絡捕獲拓撲圖特征。然而,現有方法沒有充分利用來自特征嵌入和聚類分配的現有信息,從而限制了它們的性能。鑒于這一限制,本論文專注于無監督深度圖聚類中的自適應表示學習。主要工作涉及自適應嵌入\分配\圖表示學習,總結如下:
首先,我們提出了一種名為注意力驅動圖聚類網絡(AGCN)的新穎無監督深度圖聚類方法,以解決以下問題:現有工作(??)缺乏一種靈活的組合機制來自適應地融合來自自編碼器和圖卷積網絡的兩種特征,從而增強表示學習能力;以及(????)忽視了嵌入在不同層的多尺度信息,導致后續的聚類分配效果不佳。具體而言,AGCN主要包括兩個注意力驅動的特征融合模塊,即AGCN異質性融合模塊(AGCN-H)和AGCN尺度融合模塊(AGCN-S)。這兩個模塊都利用基于注意力的機制動態地測量相應特征的重要性。AGCN-H自適應地合并自編碼器特征和圖卷積網絡特征,而AGCN-S動態地連接不同層的多尺度特征。為了以無監督的方式進行訓練,我們設計了一個能夠直接產生聚類分配結果的統一學習框架。與現有的無監督深度圖聚類方法相比,我們的方法更為靈活和有效,因為它考慮了網絡中嵌入的豐富和有區分性的信息來自適應地學習嵌入表示。在常用的基準數據集上的大量定量和定性結果驗證了我們的AGCN始終超越最先進的方法。此外,我們還進行了一系列消融研究來驗證我們方法的效率和有效性。
然而,上述提出的模型在面對從自編碼器和圖卷積網絡學到的兩種概率分布時存在決策困境,即應選擇哪一種作為最終的聚類分配結果。據我們所知,這是先前的無監督深度圖聚類方法中普遍存在的一個未解決的問題。為了應對這一挑戰,我們提出了一種名為深度注意力引導的雙重自監督圖聚類(DAGC)的新方法。具體而言,我們設計了一個分布融合模塊,該模塊利用這兩種聚類分配來自適應地學習分配表示,從而獲得最終的聚類結果。為了更好地探索來自聚類分配的現有信息,我們開發了一個雙重自監督解決方案,包括一個帶有Kullback-Leibler散度損失的軟自監督策略和一個帶有偽監督損失的硬自監督策略來指導整個網絡訓練。在九個基準數據集上的定量和定性實驗和分析表明,我們的方法始終超越最先進的方法。此外,我們還提供了消融研究和可視化,以驗證DAGC網絡的有效性和優勢。
現有的基于GCN的圖聚類網絡在很大程度上依賴于預定義的圖。如果初始圖無法真實且精確地反映其在嵌入空間上的拓撲結構,這些網絡可能會失敗。為了解決上述問題,我們提出了一種新穎的嵌入引導的圖優化聚類網絡(EGRCNet),該網絡能夠自適應地使用學習到的嵌入來改進初始圖,從而實現更好的聚類性能。具體來說,我們首先利用普通自編碼器和圖卷積網絡模塊來自適應地整合節點屬性和拓撲結構信息,以學習潛在特征表示。接著,我們探索嵌入空間上的幾何結構信息來構造一個鄰接圖,然后開發一個圖融合架構,動態地將該圖與初始圖融合。最后,我們最小化多個派生分布之間的Jeffreys散度損失函數,以無監督的方式進行網絡訓練。在七個常用的基準數據集上的廣泛實驗表明,所提出的方法始終超越了幾種最先進的方法。
以下聲明突出了這些工作的重要性:在無監督的深圖聚類中進行自適應表示學習對于人工普適性智能至關重要,因為它使機器能夠在沒有人類注釋的情況下從數據中學習復雜的模式和關系。通過利用無監督的自適應表示學習技術,人工普適性智能系統可以發展其數據的內部表示能力,并適應新的環境、任務和情境。這種能力對于理解復雜和非結構化數據至關重要。最后但并非最不重要的是,無監督的自適應表示學習是向開發能夠像人類一樣進行研究和推斷的機器邁出的關鍵一步,為AI在從醫療保健到金融到娛樂的廣泛領域開辟了新的可能性。在未來,我們將繼續為人工普適性智能社區做出貢獻,繼續研究大規模數據集、先進的表示學習和高效的信息傳播。
稀疏深度神經網絡 (DNNs) 在許多數據和計算密集型應用中是一個重要的計算核心(例如,圖像分類、語音識別和語言處理)。這些核心中的稀疏性激發了許多稀疏DNN加速器的發展。然而,盡管已經有大量的提議,但還沒有一個系統的方法來理解、建模和開發各種稀疏DNN加速器。為了解決這些限制,這篇論文首先提出了一個稀疏性相關加速特性的分類法,以系統地理解稀疏DNN加速器的設計空間。基于這個分類法,它提出了Sparseloop,這是第一個用于稀疏DNN加速器的快速、準確和靈活評估的分析建模工具,使得在早期階段可以探索龐大和多樣的稀疏DNN加速器設計空間。在代表性的加速器設計和工作負載中,Sparseloop比周期級模擬實現了超過2000倍的建模速度,保持了相對的性能趨勢,并達到了≤ 8%的平均建模誤差。利用Sparseloop,這篇論文研究了設計空間,并提出了HighLight,一個高效且靈活的稀疏DNN加速器。具體來說,HighLight通過一個新的稀疏模式,稱為分層結構稀疏性,來加速DNNs,關鍵的洞見是我們可以通過分層地組合簡單的稀疏模式來高效地加速各種程度的稀疏性(包括密集型)。與現有的工作相比,HighLight在具有不同稀疏度的工作負載中實現了高達6.4倍的能量延遲乘積 (EDP) 改進,并且始終位于代表性DNNs的EDP-準確性帕累托前沿。
這篇論文提出了一些新穎的方法,用于解決深度神經網絡(DNNs)在3D理解和3D設置方面的魯棒性面臨的重要挑戰。我們的研究主要集中在兩個方面:3D數據和設置的對抗魯棒性以及DNNs在現實3D場景下的魯棒性。一個3D理解范式是將3D表示為一組3D點,并直接在這組點上學習函數。我們的第一個工作,AdvPC,解決了當前3D點云對抗攻擊的有限可遷移性和防御易用性問題。通過使用點云自動編碼器生成更具可遷移性的攻擊,AdvPC在3D點云攻擊可遷移性方面大幅領先于當前的最先進攻擊。此外,與ModelNet40數據集上的其他基準攻擊相比,AdvPC增加了破壞防御能力高達38%。另一個3D理解范式是對3D數據的多個圖像進行2D處理。第二項工作,MVTN,通過使用多視圖轉換網絡(MVTN)來學習最優視點,解決了選擇3D形狀識別視點的問題。它將MVTN與多視圖方法相結合,在標準基準ModelNet40、ShapeNet Core55和ScanObjectNN上取得了最先進的結果。MVTN還提高了對現實場景(如旋轉和遮擋)的魯棒性。
我們的第三項工作分析了二維深度神經網絡的語義魯棒性,通過將DNN全局行為可視化為語義映射并觀察一些DNNs的有趣行為,解決了DNNs對語義原語高度敏感的問題。此外,我們開發了一種自下而上的方法來檢測DNNs的魯棒區域,以實現可擴展的語義魯棒性分析和不同DNNs的基準測試。第四項工作SADA展示了DNNs在自主導航的安全關鍵應用方面缺乏魯棒性的問題,超出了簡單的分類設置。我們提出了一個通用框架(BBGAN),用于對受過訓練的代理進行黑盒對抗攻擊,涵蓋了對執行任務的代理環境的語義擾動。BBGAN經過訓練,可以生成在諸如物體檢測、自動駕駛和自主無人機競速等任務上始終欺騙受過訓練的代理的失敗案例。
//repository.kaust.edu.sa/handle/10754/691198
抽象知識深植根于許多基于計算機的應用中。人工智能(AI)的一個重要研究領域是從數據中自動推導知識。機器學習提供了相應的算法。其中一個研究領域是生物啟發學習算法的開發。各自的機器學習方法都是基于神經學概念,因此它們可以系統地從數據中獲取知識并存儲它。一種可以歸類為深度學習模型的機器學習算法被稱為深度神經網絡(DNNs)。DNN由多層排列的多個人工神經元組成,通過反向傳播算法進行訓練。這些深度學習方法在從高維數據推斷和存儲復雜知識方面表現出驚人的能力。
然而,DNN會受到一個問題的影響,即無法將新知識添加到現有的知識庫中。不斷積累知識的能力是促進進化的重要因素,因此是發展強大人工智能的先決條件。所謂的“災難性遺忘”(CF)效應導致DNN在對新數據分布進行幾次訓練迭代后,立即失去已經派生的知識。只有用過去和新數據的聯合數據分布進行昂貴的再訓練,才能抽象出整個新知識集。為了抵消這種影響,各種旨在緩解甚至解決CF問題的技術已經并且仍在開發中。這些已發表的CF回避研究通常暗示他們的方法對各種持續學習任務的有效性。
本文的研究背景是基于深度學習方法的持續機器學習。第一部分是面向實際應用的評估協議的開發,該協議可以用于研究不同的機器學習模型對協同效應的抑制。在第二部分,綜合研究表明,在面向應用的需求下,所研究的模型都不能表現出令人滿意的持續學習效果。第三部分提出了一種新的深度學習模型——深度卷積高斯混合模型(deep Convolutional Gaussian Mixture Models, DCGMMs)。DCGMMs建立在無監督高斯混合模型(GMMs)的基礎上。gmm不能被認為是深度學習方法,它必須在訓練前以數據驅動的方式進行初始化。這些方面限制了gmm在持續學習場景中的使用。本文提出的訓練過程使使用隨機梯度下降(SGD)(應用于dnn)來訓練GMMs成為可能。集成退火方案解決了數據驅動的初始化問題,這是GMM訓練的先決條件。實驗證明,新的訓練方法在不迭代其缺點的情況下,可以得到與傳統方法相當的結果。另一個創新是GMM以層的形式排列,這類似于DNN。將GMM轉換為層使其能夠與現有層類型相結合,從而構建深層體系結構,從而可以用較少的資源派生出更復雜的知識。
在本工作的最后一部分,研究DCGMM模型的持續學習能力。為此,提出一種稱為高斯混合重放(GMR)的重放方法。GMR利用DCGMM的功能來描述數據樣本的生成和重現。與現有CF回避模型的比較表明,在面向應用的條件下,GMR可以取得類似的持續學習效果。總之,所提出的工作表明,確定的面向應用的需求仍然是“應用”持續學習研究方法的開放問題。此外,新的深度學習模型為許多其他研究領域提供了一個有趣的起點。
機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。
本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習
第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。
第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。