亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

現代強化學習(Reinforcement Learning, RL)系統揭示了有關人類通用問題求解的一些深層規律。在那些能夠低成本模擬新數據的領域,這些系統能夠學習到遠超人類能力的序列決策策略。現實社會中存在許多問題,其解決同樣依賴這種能力,但這些問題往往處于無法低成本生成新數據的領域。在這種情境下,我們可以基于已有數據構建模擬器,但這些模擬器始終只能近似正確,并且在被查詢到其訓練分布之外時可能會出現嚴重錯誤。因此,我們訓練智能體所處的環境與希望其最終部署的真實世界環境之間必然會存在失配(misalignment)。應對這種失配正是零樣本強化學習(Zero-Shot Reinforcement Learning, Zero-Shot RL)的核心關注點——在這一問題設定中,智能體必須在完全沒有實踐機會的前提下,能夠泛化到一個新任務或新領域。 盡管在理想化場景下實現零樣本強化學習的方法已經取得了令人矚目的進展,但若要在真實世界中復現這些成果,仍需新的研究。本文認為,要實現這一目標,至少需要應對三類約束:其一是數據質量約束:真實世界的數據集往往規模有限且同質化嚴重;其二是可觀測性約束:在真實世界中,狀態、動態和獎勵通常只能被部分觀測到;其三是數據可用性約束:事先獲得數據的假設并不總是成立。 本文提出了一系列能夠在這些約束下執行零樣本強化學習的方法。通過一系列實證研究,我們揭示了現有方法的不足,并論證了所提出技術在彌補這些缺陷方面的合理性。我們相信,這些設計使我們更接近于能夠部署到現實世界、解決實際問題的強化學習方法。

付費5元查看完整內容

相關內容

近年來,機器學習領域廣泛采用大型基礎模型(foundation models)。盡管這些模型具有很強的表達能力,但在針對有限的領域特定數據集進行訓練時,仍容易出現過擬合。因此,在數據稀缺的場景下,借助更大但間接相關的數據集進行訓練以提取有用的表征,以及更一般意義上的“元學習”(meta-learning),已成為高效使用此類模型的關鍵。本論文從理論角度研究了元學習背后的基本假設,聚焦于兩個設置:

元監督學習(Meta-Supervised Learning)。已有研究分析了在多個回歸任務上學習固定表征的統計復雜度。然而,在實際應用中,包括 MAML 等主流梯度方法在內的大多數方法都會為每個任務微調(fine-tune)表征。因此,我們開展了首個關于基于微調的表征學習的理論研究。首先,我們對一類通用表征上的代表性訓練過程推導了樣本復雜度上界。其次,我們建立了“可微調表征”與“固定表征”之間的樣本復雜度差異,從而揭示了在哪些情形下微調更為優越。

元強化學習(Meta-Reinforcement Learning, Meta-RL)。在元強化學習中,任務之間存在多種共享結構的可能性,例如分層強化學習(HRL)中的“選項”(options)結構。但已有的 HRL 后悔值(regret)界分析往往假設分層結構已知。為彌補這一空白,我們構造了一種在滿足適當“覆蓋條件”下可被理論保證恢復的分層結構。進一步地,我們證明,在較弱假設下,該恢復的結構可以顯著提升下游任務的學習表現,使其后悔值優于最小最大策略(minimax)指數級別。這些覆蓋條件涵蓋了時間、狀態/動作的抽象等概念,表明我們的分析能夠捕捉 HRL 在實踐中的關鍵要素。

付費5元查看完整內容

圖是一種自然表示方式,適用于基于連接實體之間關系的系統。當考慮與感興趣的過程相關的目標函數時,會出現組合優化問題,這些問題通常具有挑戰性,因為解決方案空間的迅速增長。強化學習的試錯范式最近已經成為一種有前景的替代傳統方法,如精確算法和(元)啟發式算法,用于在化學、計算機科學和統計學等多種學科中發現更好的決策策略。盡管這些技術源自截然不同的領域,但它們具有顯著的共性。因此,我們著手將這些工作綜合在我們稱之為圖強化學習的統一視角中,將其解釋為圖問題的一種構造性決策方法。在介紹相關的技術背景后,我們回顧了這些研究工作,并沿著是否旨在優化給定過程的圖結構,或在固定圖結構下優化過程本身的結果這一分界線進行了評述。最后,我們討論了該領域面臨的共同挑戰和開放性研究問題。與其他綜述不同,本工作關注于非典型圖問題,對于這些問題,通常沒有已知的高效算法,而強化學習能夠提供高效且有效的解決方案。

圖是一個數學概念,用于形式化由關系(邊)連接的實體(節點)的系統。超越原始拓撲結構,圖中的節點和邊常常與屬性相關聯:例如,一個邊可以與距離度量的值相關聯(Barthélemy, 2011)。通過這樣的特性增強,圖成為了一種強大的形式主義,能夠表示各種系統。這種靈活性使得它們被廣泛應用于計算機科學、生物學和社會科學等多樣的領域(Newman, 2018)。這種類型的數學建模可以用來分析性地檢查網絡的結構和行為,構建預測模型和算法,并將它們應用于實際問題。除了描述在圖上發生的過程外,一個自然的問題是如何介入網絡以優化給定過程的結果。這類在離散結構上的組合優化問題通常具有挑戰性,因為解決方案空間的迅速增長。一個著名的例子是旅行商問題(TSP),它要求在一個完全連通的圖中找到一個哈密頓回路,使得路徑長度總和最小化。

近年來,機器學習(ML)開始作為解決組合優化問題的有價值工具而興起,研究人員預計其影響將是革命性的(Bengio et al., 2021; Cappart et al., 2021)。特別是,強化學習(RL)的范式已顯示出通過試錯發現能夠勝過傳統精確方法和(元)啟發式方法的算法的潛力。一個常見的模式是將感興趣的問題表達為一個馬爾可夫決策過程(MDP),在其中,一個代理逐步構建解決方案,并根據其優化目標函數的能力獲得獎勵。從MDP公式開始,可以透明地應用各種RL算法,這使得這種方法在可以解決的問題類型上非常靈活。與此同時,開始出現了使用RL解決圖組合優化問題的工作,涵蓋了從化學(You et al., 2018a),計算機科學(Valadarsky et al., 2017),經濟學(Darvariu et al., 2021b)到統計學(Zhu et al., 2020)等多種科學領域。

本綜述的目標是提出一個統一框架,我們稱之為圖強化學習(Graph RL),用于處理圖上的決策問題。我們將綜合可以在這個新興范式的背景下解釋的各種方法。我們將討論幾個組合優化問題,重點是那些通常不知道有效、高性能算法的非典型問題。事實上,最近的綜述關注的是應用RL解決典型問題的作品,我們使用“典型問題”這一術語來指代可能已經被研究了幾十年的問題。例如,僅關于解決上述TSP的研究就可以追溯到近70年前Dantzig等人的論文(1954),并且存在非常有效的算法可以最優地(Applegate et al., 2009)或近似地(Lin & Kernighan, 1973; Helsgaun, 2000)解決多達數千萬節點的實例。其他值得注意的典型問題包括最大獨立集(Ahn et al., 2020)、最大割(Khalil et al., 2017; Ahn et al., 2020)以及諸如車輛路徑問題(VRP)(Kool et al., 2019; Kim & Park, 2021)等路由問題。除了少數例外,盡管在這些基準問題上的工作對于推動基于ML方法的極限很重要,但目前它們還不能直接與成熟的、高度優化的啟發式和精確求解器競爭。因此,本文與其他綜述(Mazyavkina et al., 2021; Wang & Tang, 2021)和觀點(Bengio et al., 2021; Cappart et al., 2021)相輔相成,無論是在提出統一范式還是關注非典型問題方面。

本文的其余部分如下組織。在第2節中,我們提供了關于圖上的組合優化問題及其使用RL方法的相關技術背景。隨后,在第3節中,我們回顧了考慮優化圖結構的工作(即,從頭開始創建圖或修改現有圖)以使目標函數最大化。然后,在第4節中,我們綜述了在固定圖結構下優化過程的論文。第5節討論了在應用這些技術時面臨的常見挑戰,這些也可以視為未來工作中需要解決的重要研究問題,此外還總結了一些關鍵的應用領域。我們在第6節以圖強化學習作為解決圖上組合優化問題的統一范式的討論來結束本文。

圖結構優化在機器學習(ML)處理典型圖組合優化問題的工作中,一個共有的特點是它們通常不涉及對圖的拓撲結構進行改變。具體來說,需要在假設網絡結構保持固定的情況下找到解決方案。學習構建圖或修改其結構以優化給定目標函數的問題在ML文獻中相對較少關注。在這一部分,我們回顧了處理修改圖拓撲結構以優化感興趣的量的問題的工作,并使用強化學習(RL)來發現實施這一過程的策略。這是通過與環境的互動來執行的。

在高層次上,這類問題可以被表述為尋找滿足argmaxG∈G F(G)的圖G,其中G是要搜索的可能圖的集合,F如前所述,是目標函數。我們在圖2中示意了這一過程。精確的框架取決于問題,并可能涉及從一個空圖開始還是從一個現有的圖開始選擇,以及對圖的有效性如空間限制、非循環性或平面性施加約束。如圖3所示,動作空間的設計也可以變化。代理可能被允許進行邊的添加、移除和重連,或者這些操作的某種組合。 鑒于范圍的自然限制,我們只考慮那些(1)使用圖表示問題;(2)通過RL訓練策略進行結構優化的工作。讓我們簡要討論一下相關但不在討論范圍內的一系列工作。ML文獻中的幾項工作考慮了生成與提供的數據集具有類似屬性的圖。這通常使用深度生成模型執行,并可被視為經典圖生成模型的基于ML的替代方法,例如Barabási & Albert(1999)的模型。這些工作主要使用最終圖(即“成品”)的示例數據集,并不使用中間的,從某種意義上說,對應于生成過程本身的步驟。它們還需要大量相關的示例集合,這些可能并不總是可用的,具體取決于領域。

在這一領域,使用自回歸模型(如LSTM或GRU)的工作類似于MDP公式;例如添加邊的決策可以被視為序列中的一個標記,由模型學習。這一領域的一些值得注意的工作包括Li等人(2018)提出的技術,GraphRNN(You等人,2018b),以及圖重復注意網絡(Liao等人,2019)。其他類型的生成模型,如變分自編碼器和生成對抗網絡,也被用于生成分子(Kusner等人,2017; Guimaraes等人,2018; De Cao & Kipf, 2018; Jin等人,2018)。

本節的其余部分深入回顧了相關論文,按問題家族分組。我們涵蓋了旨在學習如何攻擊GNN、設計網絡結構、發現因果圖和構建分子圖的工作。考慮的論文根據其采用的技術和特點在表1中進行了總結。 在這項綜述中,我們討論了圖強化學習這一新興領域,這是一種通過試錯學習來解決圖上計算挑戰性優化問題的方法。我們特別關注那些尚未知曉高效算法的問題,以及傳統的啟發式和元啟發式算法通常無法提供滿意性能的問題。我們將這些工作分為兩類。第一類是圖結構優化,包括需要找到最優圖結構的問題,這在對抗性攻擊圖神經網絡、網絡設計、因果發現和分子優化等領域有顯著應用。第二類是圖過程優化,將圖結構視為固定不變,代理在離散的可能控制行動空間中進行搜索,以優化過程的結果。這包括網絡路由、游戲、傳播過程和圖搜索等問題。最后,我們討論了該領域面臨的主要挑戰,其解決可能具有非常重大的影響。

付費5元查看完整內容

語言是民主化土地和文化邊界的通道。在人工智能(AI)系統中,橋接不同語言之間的差距是最大的挑戰之一。目前AI系統的成功主要由監督學習范式所主導,其中基于梯度的學習算法(例如SGD、Adam)被設計用來優化復雜的高維平面。這些算法從通常為特定任務(如產品評論、情感分析)收集的統計觀察中學習。使用任務依賴樣本使學習過程變得繁瑣,因為它需要手動注釋數據。相反,如果沒有足夠的樣本來代表分布,深度學習模型往往因缺乏魯棒性而受到影響。由于隨機性的自然難題,數據收集過程中并非所有觀察集都被觀察到,從而在學習算法中創造了分布外(OOD)問題。

在尋找一種通用的任務不可知分布時,可以將跨多個領域的大量文本集合視為-標準自然文本分布(SNTD)。傳統自然語言處理(NLP)中遷移學習的一般想法是利用SNTD知識進行任何其他任務依賴訓練。學習SNTD,接著用較少量的注釋數據進行任務適應方法,已在各種監督NLP任務中取得了最先進(SOTA)結果。然而,每個任務的每種語言的注釋數據都是罕見的。

在語言模型中,有許多種分布差異。分布差異被編碼進語言模型的最常見方式之一是當模型用單語文本訓練并學習分離時。然后,這些語言模型產生的詞嵌入被用作預訓練的嵌入向量,以適應下游任務。我們提出對抗性訓練,將兩個單語分布投射到相同空間中,然后通過帶參數共享的增強微調提高模型的魯棒性。通過將單語言分布投射到相同的跨語言空間中,使語言分布相互了解。這些投射分布在潛在空間中在語義上相互了解。因此,當我們訓練一個分布時,另一個分布會自動適應訓練數據,使知識轉移(交換)變得更容易。此外,我們提出的新型自我訓練架構大幅提高了跨語言轉移。

接下來,我們關注聯合訓練的多語言語言模型,其中沒有主導的分布差異。在多語言模型中,我們更加關注下游任務的適應。我們發現,使用從預訓練語言模型中生成的偽增強數據的半監督學習可以大大提高下游任務的性能。最后,我們介紹了一種新穎的數據增強框架,它使用原始訓練數據的鄰近(相鄰)樣本,而不顯式使用任何平行文本語料庫或機器翻譯系統。我們提出的方法同時進行自我訓練、數據增強和無監督樣本選擇。它還為不同領域樣本提出了課程策略。通過對三種不同的跨語言任務進行廣泛的實驗,我們展示了我們所提方法的有效性。

雖然以上所有工作都集中在提高多語言任務適應性而無需監督,但我們進一步研究了添加少量樣本如何影響多語言任務適應性。為此,我們利用每種語言中少量的支持樣本,提出了一種推斷時轉導的最近鄰基方法,該方法利用查詢樣本的熵進行預測。我們展示了我們提出的方法在完全模型/完全頭部微調以及跨任務微調方面的性能優于其他方法。我們還展示了在完整推理預測的計算成本方面的顯著性能提升(37~x)。然而,隨著語言模型的增大,尤其是對于多任務,進行高效推理變得越來越困難。

聯合優化的多語言分布有助于將知識從資源豐富的語言轉移到資源較少的語言。在研究轉導最近鄰推理時,我們觀察到語言模型極易受到任務分布的影響。除非我們使用極大的語言模型(>100B),否則用于特定任務適應的模型不能用于其他任務。在這篇論文中,我們最終提出的方法解決了這個問題,通過多任務提示學習。 多任務提示學習可以通過同時對多個任務和領域進行泛化來幫助泛化,從而增強去除下游任務的分布差異的潛力。我們提出了一種半參數提示調整方法,用于多任務提示學習。我們提出方法的新穎組成部分是一個記憶庫,根據離散提示從中檢索記憶提示。我們在8個不同領域的31個不同任務上進行的廣泛實驗表明了我們所提方法的有效性。

本篇論文旨在探索語言模型在多種語言、任務和領域中的適應性。它從基本的多語言適應問題開始,從那里擴展到關于不同資源可用性的多種OOD案例,涉及多種語言、任務和領域。

付費5元查看完整內容

強化學習(RL)為基于學習的控制提供了一個形式化的框架。通過嘗試學習能優化用戶指定的獎勵函數的行為策略,RL方法已經能夠獲得新穎的決策策略,即使在動態非常復雜,所有可能結果的空間巨大(例如,機器人操作、芯片地板規劃)的情況下,這些策略也可以勝過最好的人類。但與標準機器學習(ML)在現實世界的應用相比,RL的適用性有限。為什么呢?RL的核心問題在于,它嚴重依賴于執行大量試錯的主動數據收集來學習策略。不幸的是,在現實世界中,主動數據收集通常非常昂貴(例如,進行藥物設計的實驗室實驗)和/或危險(例如,機器人在人們周圍操作),且準確的模擬器很難構建。總的來說,這意味著,盡管RL具有廣泛解鎖現實世界決策問題中的ML的潛力,但我們無法通過當前的RL技術實現這一潛力。

為了實現RL的這種潛力,在這篇論文中,我們開發了一個旨在使用靜態數據集經驗學習策略的替代范式。這種“數據集驅動”的范式擴大了RL在存在歷史數據集或可以通過特定領域策略收集的決策問題中的適用性。它還將現代有監督和無監督ML方法的可擴展性和可靠性帶入了RL。話雖如此,實例化這一范式是具有挑戰性的,因為它需要將從數據集中的靜態學習與RL的傳統主動性相協調,這導致了分布偏移、泛化和優化的挑戰。在理論上和實證上理解這些挑戰后,我們為應對這些挑戰開發了算法思想,并討論了幾種擴展,將這些思想轉化為實際方法,可以在大型和多樣化的數據集上訓練現代高容量神經網絡函數逼近器。最后,我們展示了這些技術如何使我們能夠為真實的機器人和視頻游戲預訓練通用策略,并實現快速高效的硬件加速器設計。

付費5元查看完整內容

受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。

付費5元查看完整內容

強化學習(Reinforcement Learning, RL)是一種訓練人工智能體自主與世界互動的方法。然而,在實踐中,強化學習仍然有局限性,禁止在許多現實世界環境中部署強化學習智能體。這是因為RL需要很長時間,通常需要人工監督,并產生在不熟悉的情況下可能表現出出乎意料的特殊智能體。本文的目標是使RL智能體在現實世界中部署時更加靈活、穩健和安全。我們開發具有快速適應能力的智能體,即能夠有效學習新任務的智能體。為此,我們使用元強化學習(Meta- RL),在這里我們不僅教智能體自主行動,而且教智能體自主學習。基于快速適應可以分為“任務推理”(理解任務)和“任務求解”(解決任務)的直覺,我們提出了四種新的元RL方法。我們假設這種分離可以簡化優化,從而提高性能,并且更適合下游任務。為了實現這一點,我們提出了一種基于上下文的方法,在這種方法中,智能體以表示其對任務的當前知識的上下文為條件。然后,智能體可以使用這一點來決定是進一步了解任務,還是嘗試解決它。在第5章中,我們使用確定性上下文,并確定這確實可以提高性能并充分捕獲任務。在接下來的章節中,我們將在上下文中引入貝葉斯推理,以實現在任務不確定性下的決策。通過結合元強化學習、基于上下文的學習和近似變分推理,開發了為單智能體設置(第6章)和多智能體設置(第7章)計算近似貝葉斯最優智能體的方法。最后,第8章解決了稀疏獎勵的元學習的挑戰,這是許多現實世界應用的重要設置。觀察到,如果獎勵稀疏,現有的元強化學習方法可能會完全失敗,并提出一種方法來克服這一問題,即鼓勵智能體在元訓練期間進行探索。我們以對當前發展背景下的工作的反思和對開放問題的討論來結束論文。綜上所述,本文的研究成果極大地推動了基于Meta-RL的快速適應領域的發展。本文開發的智能體可以比以前的任何方法更快地適應各種任務,并且可以為比以前可能的更復雜的任務分布計算近似貝葉斯最優策略。我們希望這有助于推動Meta-RL研究的發展,并從長遠來看,利用RL解決重要的現實世界挑戰。

《元強化學習》最新,70頁ppt

付費5元查看完整內容

自然語言理解是機器對人類語言進行語義解碼的任務。NLU允許用戶使用自然句子與機器進行交互,是任何自然語言處理(NLP)系統的基礎組件。盡管機器學習方法(尤其是深度學習)在NLU任務上取得了顯著的成就,但它們仍然嚴重依賴于大量的訓練數據來確保良好的性能,不能很好地泛化到訓練數據很少的語言和領域。對于互聯網上具有大量文本數據的高資源語言(如英語、中文),獲取或收集海量數據樣本相對容易。然而,許多其他語言的在線足跡很小(例如,互聯網上不到0.1%的數據資源是泰米爾語或烏爾都語)。這使得收集這些低資源語言的數據集變得更加困難。同樣,低資源領域(如罕見疾病)的數據集也比高資源領域(如新聞)的數據集更具有挑戰性,因為這些領域的數據資源和領域專家很少。為了讓機器更好地理解低資源語言和領域中的自然句子,有必要克服數據稀缺的挑戰,因為只有很少甚至沒有訓練樣本可用

跨語言和跨領域遷移學習方法已經被提出,從高資源語言和領域的大型訓練樣本中學習任務知識,并將其遷移到低資源語言和領域。然而,以往的方法未能有效地解決開發跨語言和跨領域系統的兩個主要挑戰,即:1)難以從低資源的目標語言(域)中學習良好的表示;2)由于語言(領域)之間的差異,任務知識很難從高資源源語言(領域)轉移到低資源目標語言(領域)。如何在深度學習框架下應對這些挑戰,需要進行新的研究。

在這篇論文中,我們專注于在深度學習框架中解決上述挑戰。首先,我們提出進一步細化跨語言的任務相關關鍵詞的表示。我們發現,通過只關注關鍵詞,低資源語言的表示可以很容易地得到很大的改進。其次,我們提出了一個用于跨語言自適應的Transformer ,發現建模部分語序而不是整個語序可以提高模型對語言語序差異和任務知識向低資源語言遷移的魯棒性。第三,我們提出在訓練前利用不同層次的領域相關語料庫和額外的數據掩蔽來進行跨領域適應,并發現更具挑戰性的訓練前可以更好地解決任務知識轉移中的領域差異問題。最后,我們引入了一個從粗到細的框架Coach,以及一個跨語言和跨領域的解析框架X2Parser。Coach將表示學習過程分解為粗粒度和細粒度特征學習,X2Parser將分層任務結構簡化為扁平化。我們觀察到,簡化任務結構使表示學習對于低資源語言和領域更有效。

總之,我們通過改進低資源表示學習和增強任務知識遷移中拓撲距離較遠的語言和領域的模型魯棒性,解決了自然語言學習中的數據稀缺問題。實驗表明,我們的模型能夠有效地適應低資源的目標語言和領域,并顯著優于之前的最先進的模型。

付費5元查看完整內容

強化學習(Reinforcement learning, RL)是一種學習復雜決策策略的通用而強大的解決方案,為游戲和機器人等多個領域的近期成功提供了關鍵的基礎。然而,許多最先進的算法需要大量的數據,計算成本很高,需要大量的數據才能成功。雖然這在某些情況下是可能的,例如在可用數據稀少的社會科學和醫療健康應用程序中,這自然會昂貴或不可行的。隨著人們對將RL應用到更廣泛的領域的興趣的激增,對其算法設計中涉及的數據的使用形成一種明智的觀點是勢在必行的。

因此,本文主要從結構的角度研究RL的數據效率。沿著這個方向發展自然需要我們理解算法何時以及為什么會成功;并在此基礎上進一步提高數據挖掘的數據效率。為此,本文首先從實證成功案例中汲取啟示。我們考慮了基于模擬的蒙特卡洛樹搜索(MCTS)在RL中的流行,以AlphaGo Zero的卓越成就為例,并探討了納入這一關鍵成分的數據效率。具體來說,我們研究了使用這種樹結構來估計值和描述相應數據復雜性的正確形式。這些結果進一步使我們能夠分析將MCTS與監督學習相結合的RL算法的數據復雜性,就像在AlphaGo Zero中所做的那樣。

有了更好的理解之后,下一步,我們改進了基于模擬的數據高效RL算法的算法設計,這些算法可以訪問生成模型。我們為有界空間和無界空間都提供了這樣的改進。我們的第一個貢獻是通過一個新穎的低秩表示Q函數的結構框架。提出的數據高效的RL算法利用低秩結構,通過一種新的矩陣估計技術,只查詢/模擬狀態-動作對的一個子集來執行偽探索。值得注意的是,這導致了數據復雜度的顯著(指數級)提高。說到我們對無界空間的努力,我們必須首先解決無界域引起的獨特的概念挑戰。受經典排隊系統的啟發,我們提出了一個適當的穩定性概念來量化策略的“好”。隨后,通過利用底層系統的穩定性結構,我們設計了高效、自適應的算法,采用改進的、高效的蒙特卡洛oracle,以良好的數據復雜度(對感興趣的參數是多項式)保證了所需的穩定性。總之,通過新的分析工具和結構框架,本文有助于數據高效的RL算法的設計和分析。

//dspace.mit.edu/handle/1721.1/138930

付費5元查看完整內容

人工神經網絡在解決特定剛性任務的分類問題時,通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體,努力擴展這種知識而不針對最初的任務,從而導致災難性的遺忘。

持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡,而不需要從頭開始再訓練。我們關注任務增量分類,即任務按順序到達,并由清晰的邊界劃分。我們的主要貢獻包括:

(1) 對持續學習技術的分類和廣泛的概述;

(2) 一個持續學習器穩定性-可塑性權衡的新框架;

(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。

考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集,我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響,以及任務呈現的順序,并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。

//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f

引言

近年來,據報道,機器學習模型在個人任務上表現出甚至超過人類水平的表現,如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻,但它們是在靜態模型無法適應其行為的情況下獲得的。因此,這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中,這種做法對于數據流來說很快就變得難以處理,或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證,它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生,但對保存這些知識來說并不是必要的,而且盡管人類可能會逐漸忘記舊的信息,但完全丟失以前的知識很少被證明是[3]。相比之下,人工神經網絡則不能以這種方式學習:在學習新概念時,它們會遭遇對舊概念的災難性遺忘。為了規避這一問題,人工神經網絡的研究主要集中在靜態任務上,通常通過重組數據來確保i.i.d.條件,并通過在多個時期重新訪問訓練數據來大幅提高性能。

持續學習研究從無窮無盡的數據流中學習的問題,其目標是逐步擴展已獲得的知識,并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如,不同的成像條件),也可以與不同的任務相關聯(例如,細粒度的分類問題)。持續學習也被稱為終身學習[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,順序學習[10],[11],[12]或增量學習[13],[14],[15],[16],[17],[18],[19]。主要的標準是學習過程的順序性質,只有一小部分輸入數據來自一個或幾個任務,一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時,之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果,即穩定性-可塑性困境,可塑性指的是整合新知識的能力,以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題,不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。

為了集中注意力,我們用兩種方式限制了我們的研究范圍。首先,我們只考慮任務增量設置,其中數據按順序分批到達,一個批對應一個任務,例如要學習的一組新類別。換句話說,我們假設對于一個給定的任務,所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能,反復洗刷以確保i.i.d.的條件。重要的是,無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘,舊任務的性能將顯著下降,除非采取特殊措施。這些措施在不同情況下的有效性,正是本文所要探討的。此外,任務增量學習將范圍限制為一個多頭配置,每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾,增加了可供選擇的輸出節點的數量。相反,我們假設已知一個給定的樣本屬于哪個任務。

其次,我們只關注分類問題,因為分類可以說是人工神經網絡最既定的任務之一,使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述,第7節討論了處理更一般設置的開放問題。

付費5元查看完整內容

近年來,零樣本學習(ZSL,zero-shot learning)已經在大量的任務中受到了廣泛的關注。大多數機器學習方法,均側重于那些訓練集中廣泛存在的樣本進行分類。但現實場景中,許多的任務需要對從未見過的樣本進行分類。零樣本學習是一種非常強大的學習范式,本篇綜述,首先,概述了零樣本學習,根據學習過程中使用到的數據模型,我們將其劃分為三種學習類型;第二,描述了零樣本學習過程中所采用的不同語義空間;第三,對現有零樣本學習方法進行了分類,并在每個類別下介紹了具有代表性的方法;第四,討論了零樣本學習的不同應用方向;最后,我們介紹了零樣本學習的未來研究方向。

付費5元查看完整內容
北京阿比特科技有限公司