亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

針對受不確定數據影響的決策問題,提出兩種數據驅動的不確定集學習方法。**在本演講的第一部分中,我們介紹平均魯棒優化(MRO),一種使用機器學習聚類在魯棒優化和Wasserstein分布式魯棒優化之間建立橋梁的通用框架。MRO基于聚類數據而不是直接基于觀測數據構建不確定性集合,從而顯著降低了問題規模。**展示了有限樣本的性能保證,并明確控制任何聚類過程引入的潛在悲觀情緒。在幾個數值例子上說明了所提出框架的好處,獲得了多個數量級的計算加速,對解決方案質量幾乎沒有影響。在演講的第二部分,我們將介紹一種在魯棒優化中自動重塑和調整不確定性集大小的學習技術。該方法依賴于將魯棒優化問題的解與定義不確定性集合的參數區分開來。該方法非常靈活,可以在保持易處理性的同時學習各種不確定性集。在LRO軟件包中實現了上述工作,該軟件包可以自然地表達受不確定數據影響的決策問題,并自動學習相應的魯棒優化公式。在投資組合優化、最優控制和庫存管理方面的數值實驗表明,該方法在樣本外性能和約束滿足保證方面優于傳統的魯棒優化方法。

Bartolomeo Stellato是普林斯頓大學運籌學和金融工程系的助理教授。Bartolomeo Stellato是普林斯頓大學電氣與計算機工程系、統計與機器學習中心以及機器人研究中心的副教授。我也是普林斯頓惠特曼學院的研究員。研究方向是數學優化、機器學習和最優控制。它專注于數據驅動的計算工具,以在高度動態和不確定的環境中做出決策。

//stellato.io/

付費5元查看完整內容

相關內容

在許多任務中,神經網絡和深度學習的預測能力目前都很出色。因此,這項技術被應用于各種各樣的應用中,在我們的日常生活中發揮著重要作用。因此,這項技術的潛在改進已經成為一個更加重要的話題。**在本文中,我們致力于改進深度學習模型的兩個重要方面;表示預測的不確定性以及對大量計算和資源的內在需求的能力。我們通過介紹和陳述本文要回答的兩個主要研究問題來開始這項工作。我們進一步為本文將使用的主要技術提供必要的背景知識。本文描述了神經網絡和貝葉斯神經網絡,即其參數(又稱權重和偏差)是隨機的,并由概率分布控制的神經網絡,而不是固定的,以及(變分)貝葉斯推理,一種根據觀測數據更新參數概率分布的方法。**通過剪枝(pruning)和量化(quantization)簡要介紹了神經網絡壓縮和量化(quantization),前者通過顯式設置為零來刪除不相關的參數和網絡的部分內容,后者以硬件友好的格式(如定點)表示網絡的權重和中間表示的數值。

**本文的第一部分描述了提高神經網絡不確定性估計能力的三個貢獻。前兩者圍繞著在我們觀察數據時,通過更好地逼近其參數的概率分布來提高變分貝葉斯神經網絡的不確定性質量。**本文提出一種簡單的方法,通過矩陣變量高斯分布在神經網絡權重之間引入線性依賴;它們是隨機矩陣上的分布,可以很容易地對每層中的輸入和輸出神經元之間的相關性進行建模,這種能力會導致性能的提高,正如我們實驗表明的那樣。提出了乘歸一化流,這是一個通用框架,引入了網絡參數之間的非線性依賴關系。這是通過結合輔助隨機變量和參數化雙射來實現的,以一種允許每層權重之間靈活的相關性,同時仍然是計算可處理的。實驗表明,與之前工作的簡單高斯變分近似相比,不確定性質量得到了提高。這部分的最后一個貢獻對應于功能神經過程,一個采用不同視角的模型;它不是假設概率分布并對神經網絡權值進行(變分)推理,而是采用隨機過程的建模框架,從而假設概率分布并對神經網絡的函數空間進行推理。這有一個額外的好處,即更容易的推理和更直觀的建模任務,因為它允許我們推理數據集中點之間的關系,通過引入一個“參考”點集,而不是不可解釋的神經網絡參數來實現。實驗表明,這種模型提供了更好的不確定性質量,同時保持了可比的預測性能。

**第二部分介紹了三種新的壓縮技術,它們可以讓我們學習更小、更快的神經網絡,從而減少所需的計算量和資源。**第一個貢獻對應于貝葉斯壓縮,這是一種變分貝葉斯推理過程,通過對網絡參數進行精心選擇的概率分布,可以通過聯合修剪和量化來揭示高性能和計算高效的架構。雖然這種方法可能導致高度壓縮的架構,但它缺乏對特定任務或問題進行修剪或量化的細粒度自適應。因此,其他兩項貢獻旨在分別處理剪枝和量化。第二個貢獻對應于一種新的L0范數優化方法,L0范數是神經網絡稀疏性的黃金標準。本文提出一種通用技術,通過適當數量的噪聲,可以對不可微L0范數進行基于梯度的優化。實驗表明,這種方法可以產生準確和高度稀疏的模型,同時它可以通過條件計算和適當的軟件進行稀疏訓練,這也可以促進更快的訓練。最后,為了最后的貢獻,我們采用類似的思想并引入松弛量化;基于梯度的優化過程,允許學習神經網絡,其中參數和激活位于(自適應)量化網格上。經驗表明,這允許在大規模任務中訓練準確的神經網絡,同時每權重和激活只需4位。最后,對研究問題進行了回答,同時討論了所提出方法的缺陷和缺點,并指出了有希望的研究方向。

付費5元查看完整內容

貝葉斯不確定性的量化是許多機器學習應用的關鍵元素。為此,開發了近似推理算法[176],以相對較低的成本執行推理。盡管最近將近似推理擴展到"大模型×大數據"機制取得了進展,但仍存在許多公開挑戰。例如,如何正確地量化復雜、不可識別的模型(如神經網絡)的參數不確定性?如何正確處理由缺失數據引起的不確定性,并以可擴展的方式進行學習/推理?此外,如何優化地收集新信息,使缺失數據的不確定性進一步減少,從而做出更好的決策?本文對這些研究問題提出了新的研究方向和新的技術貢獻。本文分為兩個部分(主題A和主題B)。在主題A中,我們考慮在監督學習設置下量化模型的不確定性。為了克服參數空間推理的一些困難,本文提出了一個新的研究方向,稱為函數空間近似推理。也就是說,通過將監督概率模型視為隨機過程(對函數的度量),我們現在可以通過另一類(更簡單的)隨機過程來近似預測函數的真實后驗。為函數空間推理提供了兩種不同的方法,并證明它們返回更好的不確定性估計,以及在復雜模型上改進的經驗性能。在主題B中,我們考慮了無監督學習環境下缺失數據不確定性的量化。本文提出一種基于深度生成模型的缺失數據不確定性量化新方法。它允許我們擺脫傳統方法的計算負擔,并執行準確和可擴展的缺失數據填補。此外,利用生成模型返回的不確定性估計,提出了一個信息論框架,用于高效、可擴展和個性化的主動信息獲取。這使我們能夠最大限度地減少缺失數據的不確定性,并根據新信息做出改進的決策。

付費5元查看完整內容

圖聚類是無監督學習中的一個基本問題,在計算機科學和分析現實世界數據中有著廣泛的應用。在許多實際應用中,我們發現聚類具有重要的高層結構。這在圖聚類算法的設計和分析中經常被忽視,因為這些算法對圖的結構做了強烈的簡化假設。本文討論了聚類結構是否可以有效學習的自然問題,并描述了四個用于學習圖和超圖中聚類結構的新算法結果。論文的第一部分對經典的譜聚類算法進行了研究,并對其性能進行了更嚴格的分析。這一結果解釋了為什么它在更弱、更自然的條件下工作,并有助于縮小譜聚類算法的理論保證與其優秀的經驗性能之間的差距。

論文的第二部分在前一部分的理論保證的基礎上,表明當底層圖的簇具有一定的結構時,少于k個特征向量的譜聚類能夠比使用k個特征向量的經典譜聚類產生更好的輸出,其中k是聚類的個數。本文首次討論和分析了少于k個特征向量的譜聚類的性能,并表明一般的聚類結構可以用譜方法學習。第三部分考慮使用局部算法高效地學習簇結構,其運行時間僅依賴于目標簇的大小,且與底層輸入圖無關。經典的局部聚類算法的目標是找到一個與圖其他部分稀疏連接的簇,本文的這一部分提出了一種局部聚類算法,它可以找到一對彼此緊密連接的簇。這一結果表明,即使在現實世界中普遍存在的大圖中,某些聚類結構也可以在局部環境中有效地學習。

論文的最后研究了超圖中密集連接聚類的學習問題。該算法基于一種新的熱擴散過程,擴展了最近在超圖譜理論方面的一系列工作。它允許在建模對象的高階關系的數據集中學習簇的結構,可以應用于有效分析在實踐中發生的許多復雜數據集。在不同領域的合成數據集和真實數據集上進行了廣泛的評估,包括圖像分類和分割、遷移網絡、合著網絡和自然語言處理。實驗結果表明,新提出的算法是實用、有效的,可以立即應用于實際數據的聚類結構學習。

付費5元查看完整內容

今天,機器學習正在從研究過渡到廣泛的部署。這一轉變需要能夠從異質數據集中學習的算法和能夠在復雜的多任務環境中運行的模型。那么,在為這種情況設計模型和算法時,我們是否有一套原則可以遵循?在這篇論文中,我們從概率的角度來探討這個問題,開發了一個聲明性的框架來表示、分析和解決不同的多任務學習問題,并考慮了多個案例研究,從多智能體游戲、多語言翻譯到聯合學習和個性化。

本論文中提出的觀點組織如下。首先,我們介紹我們的核心概率多任務建模框架。從學習任務的一般定義開始,我們展示了如何將多個相關的任務集合到一個聯合概率模型中并加以表示。然后,我們闡述了多任務環境中的不同概括概念,并展示了如何推導出實用的學習算法和一致的目標函數,從而利用概率學習和推理的技術實現某些類型的概括。接下來,我們通過多個具體的案例研究來說明我們提出的框架。我們的每一個案例研究都是獨立的,都集中在一個特定的領域,展示了我們框架的多功能性。我們不僅從概率的角度重新解釋了不同的問題,而且還開發了新的學習算法和推理技術,在每個考慮的領域中改進了當前的最先進技術。

付費5元查看完整內容

強化學習是人工智能中一個強大的工具,其中虛擬或物理代理學習優化他們的決策,以實現長期目標。在某些情況下,這種機器學習方法可以節省程序員的時間,超越現有的控制器,達到超人的性能,并不斷適應不斷變化的條件。這本書認為,這些成功表明強化學習可以成功地應用于許多不同的情況,包括機器人控制、股票交易、供應鏈優化和工廠控制。

然而,強化學習傳統上僅限于虛擬環境或模擬環境中的應用,在這些環境中已經提供了設置。此外,實驗可以完成幾乎無限次的嘗試無風險。在許多現實生活任務中,使用強化學習并不像(1)數據沒有正確的形式;(2)數據稀缺,(3)自動化在現實世界中有局限性。

因此,這本書是寫來幫助學者,領域專家,和數據愛好者一樣理解的基本原則,應用強化學習到現實世界的問題。這是通過將重點放在使用實際示例和將標準數據建模為所需的正確形式,然后應用基本智能體的過程來實現的。為了進一步幫助讀者獲得對這些方法的深入和接地氣的理解,本書展示了完整的手工計算示例,以及如何用代碼以更自動化的方式實現這一點。

對于對強化學習作為解決方案感興趣但不精通的決策者,本書在介紹和案例研究部分包括簡單的、非技術的例子。這些提供了強化學習的背景,以及在實踐中應用它的挑戰和風險。具體來說,這些部分闡述了強化學習和其他機器學習方法的區別,以及知名公司如何成功地使用這種方法解決他們的問題。

//www.morganclaypool.com/doi/abs/10.2200/S01170ED1V01Y202202AIM052

付費5元查看完整內容

這是一門關于在不確定情況下強化學習(RL)和順序決策的入門課程,重點在于理解理論基礎。我們研究如何使用動態規劃方法,如價值和策略迭代,來解決具有已知模型的順序決策問題,以及如何擴展這些方法,以解決模型未知的強化學習問題。其他主題包括(但不限于)RL中的函數近似、策略梯度方法、基于模型的RL以及平衡探索-利用權衡。本課程將以講座和閱讀古典及近期論文的方式傳授給學生。因為重點是理解基礎,你應該期望通過數學細節和證明。本課程的要求背景包括熟悉概率論和統計、微積分、線性代數、最優化和(有監督的)機器學習。

//amfarahmand.github.io/IntroRL/

目錄內容:

  • Introduction to Reinforcement Learning
  • Structural Properties of Markov Decision Processes (Part I)
  • Structural Properties of Markov Decision Processes (Part II)
  • Planning with a Known Model
  • Learning from a Stream of Data (Part I)
  • Learning from a Stream of Data (Part II)
  • Value Function Approximation (Part I)
  • Value Function Approximation (Part II)
  • Value Function Approximation (Part III)
  • Value Function Approximation (Part IV)
  • Policy Gradient Methods
  • Model-based RL
  • Presentations

強化學習入門筆記

這是多倫多大學計算機科學系于2021年春季教授的強化學習(RL)研究生課程介紹的講義。本課程是入門性的,因為它不需要預先接觸強化學習。然而,它不僅僅是算法的集合。相反,它試圖在RL中經常遇到的許多重要思想和概念背后建立數學直覺。在這些講義的過程中,我證明了很多基礎的,或者有時不那么基礎的,RL的結果。如果某個結果的證明過于復雜,我就證明一個簡化的版本。

強化學習(RL)既指一類問題,也指解決這類問題的一組計算方法。RL問題是指如何采取行動,使某些長期績效的概念得到最大化。RL問題,從它的定義來看,是關于一個實體的行為和交互,我們稱之為代理,與其周圍的環境,我們稱之為環境。這是一個非常普遍的目標。有人可能會說,解決AI問題等同于解決RL問題。強化學習也指解決RL問題的一套計算方法。一個代理需要做什么樣的計算才能確保它的行為能夠帶來良好的(甚至是最佳的)長期性能?實現這些的方法稱為RL方法。歷史上,在所有試圖解決RL問題的計算方法中,只有一個子集被稱為RL方法。例如Q-Learning這樣的方法(我們將在本課程中學習)是一種很好的RL方法,但是進化計算的方法,如遺傳算法,則不是。人們可以爭辯說,進化計算方法沒有太多的“學習”成分,或者它們不以個體生命的時間尺度行事,而是以世代的時間尺度行事。雖然這些是真正的區別,但這種劃分方式有些武斷。在本課堂講稿中,我們將重點放在“RL社區”中經常學習的方法上。

付費5元查看完整內容

//deepmind.com/learning-resources/-introduction-reinforcement-learning-david-silver

這個經典的10部分課程,由強化學習(RL)的驅David Silver教授,雖然錄制于2015年,但仍然是任何想要學習RL基礎的同學所必需的資源。

強化學習已經成為現代機器學習中一項強大的技術,它允許系統通過反復試驗進行學習。它已成功應用于許多領域,包括AlphaZero等系統,學會了掌握國際象棋、圍棋和Shogi游戲。

這門課程由DeepMind首席科學家、倫敦大學學院教授、AlphaZero的共同創始人David Silver教授共同向學生們介紹RL中使用的主要方法和技術。學生們還會發現薩頓和巴托的經典著作《強化學習:入門》(Reinforcement Learning: an Introduction)是一個很有幫助的書籍。

經典書《強化學習導論》

強化學習教父 Richard Sutton 的經典教材《Reinforcement Learning:An Introduction》第二版公布啦。本書分為三大部分,共十七章,機器之心對其簡介和框架做了扼要介紹,并附上了全書目錄、課程代碼與資料。下載《強化學習》PDF 請點擊文末「閱讀原文」。

原書籍地址:

當我們思考學習的本質時,首先映入腦海的想法很可能是通過與環境的交互進行學習。當一個嬰兒玩耍時,揮舞手臂,左顧右盼,旁邊沒有老師指導他,他與環境卻有著一種直接的感知連接。通過這種連接,他懂得了因果關系,行動帶來的結果,以及為了達成目標所需做的一切。人的一生中,這樣的交互成了我們關于環境和自身知識的主要來源。不管學習駕駛汽車,還是進行一場交談,實際上我們自始至終觀察著環境如何回應我們的所為,并通過自身行為影響當下情景。交互式學習幾乎是所有學習與智能理論的基石。

本書中我們提出了一種通過計算實現交互式學習的方法。我們沒有直接理論化人類或動物的學習方式,而是探索理想的學習環境,評估不同學習方法的有效性。即,我們站在人工智能研究者或工程師的角度來解決問題。我們探討了在解決科學或經濟問題方面表現突出的機器的設計,通過數學分析或計算實驗評估其設計。我們提出的這一方法稱之為強化學習。相較于其他機器學習方法,它更專注于交互之中的目標導向性學習。

付費5元查看完整內容

與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。

由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。

在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。

//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

付費5元查看完整內容
北京阿比特科技有限公司