亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

強化學習(RL)為基于學習的控制提供了一個形式化的框架。通過嘗試學習能優化用戶指定的獎勵函數的行為策略,RL方法已經能夠獲得新穎的決策策略,即使在動態非常復雜,所有可能結果的空間巨大(例如,機器人操作、芯片地板規劃)的情況下,這些策略也可以勝過最好的人類。但與標準機器學習(ML)在現實世界的應用相比,RL的適用性有限。為什么呢?RL的核心問題在于,它嚴重依賴于執行大量試錯的主動數據收集來學習策略。不幸的是,在現實世界中,主動數據收集通常非常昂貴(例如,進行藥物設計的實驗室實驗)和/或危險(例如,機器人在人們周圍操作),且準確的模擬器很難構建。總的來說,這意味著,盡管RL具有廣泛解鎖現實世界決策問題中的ML的潛力,但我們無法通過當前的RL技術實現這一潛力。

為了實現RL的這種潛力,在這篇論文中,我們開發了一個旨在使用靜態數據集經驗學習策略的替代范式。這種“數據集驅動”的范式擴大了RL在存在歷史數據集或可以通過特定領域策略收集的決策問題中的適用性。它還將現代有監督和無監督ML方法的可擴展性和可靠性帶入了RL。話雖如此,實例化這一范式是具有挑戰性的,因為它需要將從數據集中的靜態學習與RL的傳統主動性相協調,這導致了分布偏移、泛化和優化的挑戰。在理論上和實證上理解這些挑戰后,我們為應對這些挑戰開發了算法思想,并討論了幾種擴展,將這些思想轉化為實際方法,可以在大型和多樣化的數據集上訓練現代高容量神經網絡函數逼近器。最后,我們展示了這些技術如何使我們能夠為真實的機器人和視頻游戲預訓練通用策略,并實現快速高效的硬件加速器設計。

付費5元查看完整內容

相關內容

強化學習(RL)是機器學習的一個領域,與軟件代理應如何在環境中采取行動以最大化累積獎勵的概念有關。除了監督學習和非監督學習外,強化學習是三種基本的機器學習范式之一。 強化學習與監督學習的不同之處在于,不需要呈現帶標簽的輸入/輸出對,也不需要顯式糾正次優動作。相反,重點是在探索(未知領域)和利用(當前知識)之間找到平衡。 該環境通常以馬爾可夫決策過程(MDP)的形式陳述,因為針對這種情況的許多強化學習算法都使用動態編程技術。經典動態規劃方法和強化學習算法之間的主要區別在于,后者不假設MDP的確切數學模型,并且針對無法采用精確方法的大型MDP。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

決策制定無處不在,一些問題由于其序列性質變得特別具有挑戰性,即后續決策取決于早期決策。雖然人類一直在努力解決順序決策問題,但現代計算和機器學習技術是需要找到最優決策規則。一種流行的方法是強化學習(RL)視角,其中,代理通過基于其行動接收獎勵來學習最優決策規則。在存在多個學習代理的情況下,順序決策制定問題變成順序博弈。在這種設置下,學習目標從找到最優決策規則轉變為找到納什均衡,即沒有代理可以通過單方面切換到另一決策規則來增加他們的獎勵。為了處理問題的順序性質和其他學習代理的存在,多代理RL任務需要的數據比監督學習和單一代理RL任務更多。因此,樣本效率對多代理RL的成功至關重要。

在這篇論文中,我研究了序列博弈中學習的最基本問題:1.(下界)在序列博弈中找到納什均衡需要多少樣本,無論使用什么學習算法?2.(上界)如何設計具有嚴格樣本復雜性保證的(計算上)高效學習算法?當上界和下界相互匹配時,實現了(極小極大)最優學習。結果顯示,利用序列博弈的結構是實現最優學習的關鍵。在這篇論文中,我們研究了兩種類型的序列博弈的近乎最優學習:1.(馬爾科夫博弈)所有代理可以觀察到潛在的狀態(第2章),2.(廣泛形式博弈)不同的代理可以在給定相同狀態的情況下具有不同的觀察結果(第5章)。為了實現近乎最優學習,將引入一系列新穎的算法思想和分析工具,例如1.(自適應不確定性量化)對值函數估計進行尖銳的不確定性量化,以設計近乎最優的探索獎勵(第3章),2.(認證策略)對歷史策略進行非均勻和分階段的重新加權,以產生近似納什均衡策略(第4章),3.(平衡探索)根據子樹的大小實現博弈樹的最優探索(第6章),4.(對數分區函數重表述)將經典算法重新解釋為計算對數分區函數的梯度(第7章),這可能具有獨立的興趣。

付費5元查看完整內容

本論文旨在設計有效的方法,將已知結構融入機器學習模型中。結構的產生源于問題的形式化(例如,物理約束、聚合約束)或模型所需的屬性(能效、稀疏性、魯棒性)。在許多情況下,建模者對他們正在建模的系統有一定的了解,這必須以精確的方式進行加強。這對于提供充分的安全保證,或提高系統效率是必要的:用更少的數據訓練系統,或減少計算成本。本論文在各種設置中提供了方法,這些方法建立在連續的、受約束的優化和可微統計建模(也稱為深度學習)的兩個基礎領域之上。

論文的第一部分集中于設計和分析帶有凸約束的優化問題的高效算法。特別是,它關注Frank-Wolfe算法的兩個變體:第一個變體提出了一個快速的回溯線搜索算法,以自適應地設置全梯度設置中的步長;第二個變體提出了一個快速的隨機Frank-Wolfe算法,用于受約束的有限和問題。我還描述了對開源受約束優化軟件的貢獻。這篇論文的第二部分關注設計確切強制某些約束的深度學習模型:基于物理的約束,以及概率預測模型的聚合約束。這部分利用了雙層優化模型,并利用可微優化約束復雜神經網絡的輸出。我們證明,可以在復雜的非凸模型上強制執行復雜的非線性約束,包括概率模型。

這些例子展示了混合模型的威力,這些模型結合了數據驅動的學習,利用如深度神經網絡這樣的復雜非線性模型,并允許高效算法的經過深入研究的優化問題。這些混合模型幫助高度靈活的模型捕獲結構模式,有時甚至不需要任何數據訪問就能實現出色的性能。

近年來,機器學習模型在旨在匹配人類感知的領域(計算機視覺、音頻處理、自然語言)中取得了無數的成功。這些成功是通過理解如何利用模型輸入中的結構來實現的:圖片、聲音、文本、代碼,甚至分子的數字表示[1, 2, 3, 4]。為了在工程和科學中達到相似的成功水平,模型必須納入額外的結構性約束:模型的內部和輸出都應滿足某些關鍵屬性(例如,模型內部的稀疏或低秩權重,以及模型輸出的物理方程)。盡管優化領域長期以來一直關注如何實施這些約束,但將優化方法帶來的結構與數據驅動模型的靈活性結合起來的努力是非常近期的[5, 6]。這篇論文提出了新穎、高效的方法,將結構融入機器學習模型中,無論是在模型的內部(第一部分)還是在模型的輸出(第二部分)。我們認為這樣的混合系統將是為復雜的物理應用開發高性能系統的關鍵。機器學習中的結構性約束最近再次將Frank-Wolfe(FW)算法家族推到了聚光燈下。Frank-Wolfe算法允許對決策變量(例如,模型權重)施加凸約束,同時保持決策變量的稀疏表示。這篇論文的第一部分開發了新穎的Frank-Wolfe算法變體,以提高算法的實際速度。此外,我們還描述了我們的兩個開源優化庫:COPT和CHOP。在實際環境中部署決策制定系統時,系統必須執行物理約束:差異可能導致未定義的決策。例如,如果我們預測一個地區不同粒度的水庫的入水流量,不同級別的預測必須執行質量守恒;否則,會有未被計入的水量,破壞決策制定系統。這篇論文的第二部分考慮了將物理約束納入深度學習模型的問題,采用偏微分方程和分層質量守恒的形式。

付費5元查看完整內容

機器學習(ML)和人工智能(AI)在廣泛的領域實現了非凡的、超乎人類的性能:包括計算機視覺、自然語言處理、蛋白質折疊等等。直到最近,大多數的進步都是采取模型中心化的方法,主要關注于改善神經網絡架構(如卷積神經網絡、殘差網絡、變換器等)和訓練這些模型的優化程序(如批量標準化、dropout、神經結構搜索等)。相對來說,我們對用來訓練這些模型的數據的關注度較低,盡管眾所周知,機器學習對高質量數據的依賴可以用"垃圾進,垃圾出"這句話來精辟地概括。隨著對越來越大且更復雜的模型(如Nvidia和Microsoft的5300億參數的MT-NLG)的回報逐漸減小,研究人員開始認識到采取數據中心化方法的重要性,并開發了原理性的方法來研究這些模型的燃料:數據本身。數據中心視角不僅可以提高任務性能,還可以讓我們考慮到一些社會關鍵考慮因素,如數據隱私。在本論文中,我們將對機器學習數據管道中的幾個點進行深入分析:在模型訓練前、訓練中和訓練后。在模型訓練前,我們將探索數據選擇的問題:應該用哪些數據來訓練模型,我們應該期望我們的模型在何種類型的數據上工作?當我們進入模型訓練時,我們將把注意力轉向由我們的ML系統與其部署環境的交互可能導致的兩個問題。第一個問題是數據隱私:我們如何防止我們的模型泄露有關其訓練數據的敏感信息?第二個問題涉及一些被模型化的群體的動態性。特別是當我們的模型被用于做出具有社會影響力的決策(如自動貸款批準或推薦系統)時,模型本身可能會影響數據的分布,導致性能降低。最后,盡管我們在模型訓練前和訓練中遵循最佳實踐,但可能在訓練后我們希望對模型進行后處理,以移除某些訓練后的數據的影響。如何以計算效率高的方式實現這一點呢?本論文將涵蓋每一個先前問題的新穎解決方案,強調的是每一個提議的算法都有可證明的保證。通過將數學嚴謹性應用于具有挑戰性的現實問題,我們可以開發出既有效又可信賴的算法。

在過去的十年中,機器學習(ML)和人工智能(AI)研究已經取得了飛速的進步。到目前為止,大部分的研究都采用了模型中心化的方法:也就是說,數據集被視為已給定,研究人員不斷迭代應用于這些數據集以提取有用信息的模型。這種模式下有一套標準的假設。例如,數據通常假設是從固定概率分布中獨立同分布(i.i.d.)抽取的,此外還假設數據是固定的和給定的。通常還假設測試數據與訓練數據來自同一分布,即不存在分布漂移。而且,通常唯一衡量成功的指標是模型的性能(如預測任務的準確率)。盡管這種范式已經帶來了大量令人印象深刻的進步,但往往與數據科學家在實踐中面臨的情況相去甚遠。例如,收集和策劃一份高質量的訓練集通常比使用更復雜的模型架構帶來更大的收益。關于獨立同分布的假設,在現實中,數據分布可能由于各種因素而不斷變化,包括時間變化(如消費者偏好的季節性影響)和空間變化(如不同地理位置的醫院患者分布不同)。在某些情況下,我們的模型本身可能導致數據分布的變化,特別是如果該模型被用于做出具有社會影響力的決策。最后,最近的立法,如加利福尼亞消費者隱私法案和歐盟的通用數據保護法規,要求在設計AI模型過程中也要考慮消費者隱私。也就是說,隱私以及模型性能,都是必須考慮的關鍵指標。 所有這些重要的實踐問題都有一個共同的主題:它們更多地關聯到數據本身,而不是訓練在其上的模型。在這篇論文中,我們遵循這種數據中心的觀點,并為數據通過典型的ML管道可能出現的問題提出新穎的算法。我們特別強調可以為每個提出的算法提供的可證明的保證。

付費5元查看完整內容

受寬神經網絡(NNs)理論的啟發,核學習和特征學習近期作為兩個范式浮現出來,通過它們我們可以實際理解大規模深度學習系統的復雜行為。在文獻中,它們通常被描述為二分法的兩個對立面,各自具有優點和缺點:核學習與經過深入研究的機器學習技術(如核方法和高斯過程)建立聯系,而特征學習則承諾捕捉更多豐富而尚未解釋的,獨特于神經網絡的屬性。在這篇論文中,我們介紹了三項研究,研究結合了來自兩個角度的見解來研究神經網絡的性質,不僅強調它們的差異,而且強調共同點。我們首先回顧了有關深度學習理論的相關文獻,重點是寬神經網絡的研究。這為核學習和特征學習的討論提供了背景,基于此,我們繼續描述我們的貢獻。首先,我們研究了寬神經網絡集合與貝葉斯推斷之間的關系,利用核學習與高斯過程之間的聯系,并提出了一種修改,以解釋神經網絡函數在初始化時缺失的方差,從而使我們訓練過的深度集合具有貝葉斯解釋。接下來,我們結合核學習和特征學習來展示特征核的適用性,即通過最終層神經網絡特征的內積引導的核,作為知識蒸餾的目標,其中人們尋求使用強大的教師模型來提高弱學生模型的性能。最后,我們探討自監督學習中折疊特征和白化特征之間的差距,強調特征核中特征值的衰減率作為一項關鍵量,它彌合了這一差距,并影響下游泛化性能,特別是在標記數據稀缺的情況下。我們以討論我們的貢獻,包括局限性和未來展望,作為結論。

付費5元查看完整內容

強化學習(RL)是一種有希望的訓練智能體的框架,這些代理通過直接與環境互動來學習優化長期效用。創建可擴展到大規模狀態-行動空間的RL方法是確保RL系統在現實世界中部署的關鍵問題。然而,幾個挑戰限制了RL在大規模設置中的適用性。這些包括與探索、低樣本效率、計算不可行性、任務約束(如去中心化)有關的困難,以及關于在可能未見過的情況下的表現、泛化和穩健性等重要屬性的保證的缺乏。

這篇論文的動機是為了彌合上述的差距。我們提出了幾種原則性的算法和框架來研究和解決RL中的上述挑戰。所提出的方法覆蓋了廣泛的RL設置(單一和多代理系統(MAS),后者中的所有變化,預測和控制,基于模型和無模型的方法,基于價值和基于策略的方法)。在這項工作中,我們針對幾個不同的問題提出了首次的結果:例如,Bellman方程的張量化,這允許指數樣本效率的增益(第4章),MAS中由結構約束導致的可證明的次優性(第3章),合作MAS中的組合泛化結果(第5章),關于觀察偏移的泛化結果(第7章),在概率RL框架中學習確定性策略(第6章)。我們的算法明顯地提高了性能和樣本效率,并提高了可擴展性。此外,我們還闡述了在不同框架下代理的泛化方面。這些屬性都是通過使用幾種高級工具(例如,統計機器學習,狀態抽象,變分推斷,張量理論)來驅動的。總的來說,這篇論文的貢獻顯著推動了使RL代理準備好應用于大規模,真實世界應用的進程

付費5元查看完整內容

機器學習有潛力革新生物學和醫療保健領域,為科學家和臨床醫生提供新工具進行研究,并決定對患者的正確治療。然而,盡管最近的表示學習方法給人一種普遍的黑箱解決所有問題的印象,但研究表明這并非一般情況。盡管模型可以以黑箱方式表現良好,但它們往往存在泛化能力低和對分布偏移敏感的問題。這凸顯了需要開發出考慮到下游應用的方法,并定制以將問題的對稱性納入模型架構的需求。這些歸納偏差對于新數據的性能以及當數據分布發生變化時模型保持穩健至關重要。然而,構建好的模型只是解決方案的一半。為確保模型能夠很好地轉化為臨床應用,他們也需要以這個目標為出發點進行適當的評估。//www.research-collection.ethz.ch/handle/20.500.11850/602440在這篇論文中,我在深入研究生物學、醫學和機器學習交叉處的結構化數據類型的同時,解決了上述問題。在算法貢獻方面,我首先提出了一種新的非線性降維算法,旨在保留多尺度關系。基因組測序的成本降低和測序單個細胞的能力導致生命科學中高維數據呈指數級增長。這樣的數據不能被直觀地理解,因此降維方法,能夠捕捉到生物學中存在的嵌套關系,成為必要工具。其次,我開發了適用于存在不規則采樣數據的臨床應用的方法。傳統的機器學習模型需要將此類數據轉換為固定大小的表示,或者在應用之前對缺失值進行插值。我提出了兩種適用于不規則采樣數據的方法,不需要進行此類預處理步驟。第一種是一種新的從MALDI-TOF光譜中提取峰值的核函數,而第二種是一種可以通過將它們描述為觀察集合應用于不規則采樣時間序列的深度學習模型。第三,我提出了一種擴展圖神經網絡的方法,允許模型考慮全局信息,而不是只要求節點與它們的鄰居交換信息。圖是藥理學的一個重要數據結構,因為它們經常用于表示小分子。第三,我展示了對圖神經網絡的擴展,允許模型考慮全局信息,而不是僅僅要求節點僅與它們的鄰居交換信息。圖是藥理學的一個重要數據結構,因為它們經常用來表示小分子。為了解決對這類模型的適當評估,我進行了一項關于醫療時間序列模型的詳細研究,重點在于它們在嚴重感染早期預測任務中轉移到其他數據集的能力。此外,我展示了傳統的評估圖生成模型的方法對超參數的選擇高度敏感,這可能導致性能估計偏差。總結來說,我的論文解決了許多在機器學習、醫療保健和生物學交叉點的問題。它演示了如何通過引入更多(領域特定)知識來改進模型,以及在評估這些模型時應關注的地方。

付費5元查看完整內容

設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。

付費5元查看完整內容

長期以來,隨著數據處理系統的復雜性不斷增加,系統設計者一直在想象能夠根據環境線索進行自我配置和適應的系統(如數據庫、調度程序)。在這種情況下,強化學習(RL)方法從一開始就吸引了系統開發人員。他們承諾從原始反饋信號中獲取復雜的決策策略。盡管RL方法在概念上很流行,但在現實世界的數據處理系統中卻很少見到。最近,由于利用大型神經網絡(深度強化學習)取得了引人注目的成功,RL受到了爆炸性增長的關注。新興的機器學習框架和強大的硬件加速器催生了大量新的潛在應用。在本文中,我首先提出,為了高效地設計和執行深度RL算法,需要新穎的軟件抽象來適應通信密集和快速進化算法的獨特計算模式。我提出了一種將邏輯算法構造與本地和分布式執行語義解耦的體系結構。我將進一步介紹RLgraph,這是我對這個體系結構的概念驗證實現。在RLgraph中,算法開發人員可以通過組合邏輯組件構建高級數據流圖來探索新的設計。此數據流圖獨立于特定的后端框架或執行概念,只在以后通過分階段構建過程映射到執行語義。RLgraph支持高性能算法實現,同時保持快速原型的靈活性。

//www.repository.cam.ac.uk/handle/1810/304385

其次,我研究了系統本身中RL應用程序稀缺的原因。我認為,由于缺乏用于任務模型設計的工具來彌合系統和算法之間的差距,以及缺乏評估模型能力的共同標準,應用RL的進展受到了阻礙。在本文中,我介紹了應用RL中第一個用于增量模型設計的工具——Wield。Wield 提供了一小組原語,將系統接口和特定于部署的配置從表示中分離出來。運用的核心是一種新的指導性實驗協議,稱為漸進隨機化,它幫助從業者逐步評估非確定性的不同維度。我演示了如何使用和漸進的隨機化可以用來再現和評估之前的工作,并指導新RL應用程序的實現。

付費5元查看完整內容

傳統的機器學習范式在單個任務上訓練特定任務模型,已經在許多領域(如計算機視覺和自然語言處理)取得了最先進的性能。為了使機器學習模型具有更廣泛的適用性,遷移學習旨在適應從源任務中學習到的知識,以提高在其他目標任務中的表現。然而,現有的遷移學習范式還有待進一步研究,因此我們對其潛在的局限性、潛在的機制以及實現更智能遷移的解決方案的認識有限。特別是,當知識從一個不太相關的來源轉移時,可能會對目標性能造成負面影響,這種現象稱為負轉移。然而,負遷移的原因尚不明確,負遷移如何影響模型的泛化和樣本效率也不清楚。在這篇論文中,我們的目標是徹底描述和解決機器學習模型中的負遷移,我們仔細研究了流行的視覺和自然語言處理設置中的負遷移,收集了其原因的見解,并提出了提高泛化和樣本效率的解決方案。本文由三個部分組成。第一部分對當前遷移學習模型中的負遷移現象進行了系統的分析。我們在領域適應和多語言自然語言處理模型中正式描述了其條件,并證明任務沖突是負遷移的一個關鍵因素。在第二部分,我們提出了各種對齊方法,通過更好的對齊表示和梯度解決上述任務沖突,增強可轉移模型的泛化。最后,在第三部分,我們探索了有效樣本遷移學習算法,使用較少的訓練和/或校準數據來緩解負遷移。本文的主要貢獻包括對遷移學習中的負遷移問題提出了新的見解,提出了一系列實用的方法和算法,提高了模型的泛化和效率。

//www.lti.cs.cmu.edu/sites/default/files/wang%2C%20zirui%20-%20final%20thesis.pdf

付費5元查看完整內容
北京阿比特科技有限公司