亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

特定領域的建模先驗和專門組件對機器學習領域越來越重要。這些組件將我們作為人類的專業知識整合到模型中。我們在這篇論文中認為,優化方法提供了一套具有表現力的操作,應該成為機器學習從業者建模工具箱的一部分。

我們提出了兩種基于優化的建模的基礎方法。1)OptNet架構,該架構將優化問題整合為更大的端到端可訓練深度網絡中的各個層,以及2)輸入凸神經網絡(ICNN)架構,該架構有助于使基于能量的深度模型和結構化預測中的推理和學習變得更有吸引力。

然后,我們展示了如何使用OptNet方法:1)作為一種結合無模型和基于模型的強化學習的方式;2)用于top-k學習問題。最后,我們展示了如何區分錐體程序,并將cvxpy領域的特定語言轉化為可區分的優化層,使本論文中的方法能夠快速建立原型。

本論文文件的源代碼以開放源碼的形式在以下網站提供:

//github.com/bamos/thesis

付費5元查看完整內容

相關內容

“機器學習是近20多年興起的一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、算法復雜度理論等多門學科。機器學習理論主要是設計和分析一些讓 可以自動“ ”的算法。機器學習算法是一類從數據中自動分析獲得規律,并利用規律對未知數據進行預測的算法。因為學習算法中涉及了大量的統計學理論,機器學習與統計推斷學聯系尤為密切,也被稱為統計學習理論。算法設計方面,機器學習理論關注可以實現的,行之有效的學習算法。很多 問題屬于 ,所以部分的機器學習研究是開發容易處理的近似算法。” ——中文維基百科

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

現代深度強化學習(RL)算法,盡管處于人工智能能力的最前沿,但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下,深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題,在本論文中,我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比,元學習在特定的環境分布上進行學習,從這些環境中采樣特定的任務,并直接優化元學習器,以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布,元學習器可以調整自己的歸納偏見,使其能夠在測試時快速適應。

本論文的重點是設計元學習算法,利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法,利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此,在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中,本質上把學習算法的設計交給了體系結構。雖然概念簡單,但使用情景間記憶的元學習非常有效,仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。

論文的第一部分集中在“具身”類環境,其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分,我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先,我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史,其中多個智能體并行地在環境中行動。接下來,我們討論了一個通用的和強大的序列模型的使用片段間存儲器,門控transformer,展示了性能和數據效率的巨大改進。最后,我們開發了一種方法,可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲,目的是(1)使它們在研究社區中更廣泛地使用,(2)解鎖它們在實時和延遲受限的應用中使用,如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

隨著越來越多的優化和人工智能(AI)方法用于輔助高風險的現實生活決策,公平已經成為這些工具的設計者和用戶考慮的一個基本因素。本文研究的是制定、實現和引出公平的新途徑。第一章通過優化模型研究公平與效率的平衡。我們提出新的社會福利函數(SWFs)作為羅爾斯法則公平性和功利主義兩大著名標準的綜合衡量。然后,我們設計了一個程序,用混合整數/線性規劃模型順序地最大化這些SWFs,以找到社會最優解。該方法具有廣泛的資源分配應用的實際潛力,并在醫療保健提供和災害準備避難所分配的實際規模應用中得到了證明。第二章考慮了一個由公平機器學習驅動的優化任務。在開發公平的ML算法時,了解公平的計算代價與標準的不公平設置相比是很有用的。對于利用優化模型進行訓練的公平ML方法,專門的優化算法可能比通用求解器提供更好的計算性能。在本章中,我將探討支持向量機(SVM)的這個問題,并設計塊坐標下降型算法來訓練包含線性公平性約束的SVM。數值實驗表明,在訓練公平支持向量機方面,新的專門算法比現成的求解器更有效。

第三章探討了優化作為人工智能系統中基于福利的公平正式化的一般范式。與公平人工智能中常用的統計偏差指標相反,優化社會福利目標支持基于分配正義考慮的更廣泛的公平視角。我們提出了社會福利優化和人工智能,特別是機器學習之間的處理中和處理后的集成方案。我們以按揭貸款處理為動機,進行個案研究,以評估整合方案的有效性。接下來的兩章探討了以人為中心的觀點,以引出人們的公平偏好,即了解在不同的決策環境下人們認為什么是公平。第四章從揭示的偏好出發,研究了基于在線學習(OL)的一般偏好學習框架:學習者在變化的環境中通過相互作用學習代理的私人效用函數。通過設計一個新的凸損失函數,我們設計了一個靈活的OL框架,可以統一處理文獻中常見的損失函數,并支持各種在線凸優化算法。該框架在后悔性能和求解時間方面優于文獻中的其他OL算法。最后,第五章研究了資源順序配置過程中人們動態倫理判斷的建模和引出問題。我們利用馬爾可夫決策過程(MDP)模型來表示順序分配任務,其中國家獎勵捕獲了人們的道德偏好,從而人們的道德判斷通過政策獎勵反映出來。我們設計了一個偏好推理模型,它依賴于基于主動偏好的獎勵學習來推斷未知的獎勵函數。將該學習框架應用于Amazon Mechanical Turk的人-被試實驗,以理解人們在分配稀缺醫療資源的假設情景下的道德推理。

//www.cmu.edu/tepper/programs/phd/program/assets/dissertations/2022-operations-research-chen-violet-dissertation.pdf

付費5元查看完整內容

傳統的機器學習范式在單個任務上訓練特定任務模型,已經在許多領域(如計算機視覺和自然語言處理)取得了最先進的性能。為了使機器學習模型具有更廣泛的適用性,遷移學習旨在適應從源任務中學習到的知識,以提高在其他目標任務中的表現。然而,現有的遷移學習范式還有待進一步研究,因此我們對其潛在的局限性、潛在的機制以及實現更智能遷移的解決方案的認識有限。特別是,當知識從一個不太相關的來源轉移時,可能會對目標性能造成負面影響,這種現象稱為負轉移。然而,負遷移的原因尚不明確,負遷移如何影響模型的泛化和樣本效率也不清楚。在這篇論文中,我們的目標是徹底描述和解決機器學習模型中的負遷移,我們仔細研究了流行的視覺和自然語言處理設置中的負遷移,收集了其原因的見解,并提出了提高泛化和樣本效率的解決方案。本文由三個部分組成。第一部分對當前遷移學習模型中的負遷移現象進行了系統的分析。我們在領域適應和多語言自然語言處理模型中正式描述了其條件,并證明任務沖突是負遷移的一個關鍵因素。在第二部分,我們提出了各種對齊方法,通過更好的對齊表示和梯度解決上述任務沖突,增強可轉移模型的泛化。最后,在第三部分,我們探索了有效樣本遷移學習算法,使用較少的訓練和/或校準數據來緩解負遷移。本文的主要貢獻包括對遷移學習中的負遷移問題提出了新的見解,提出了一系列實用的方法和算法,提高了模型的泛化和效率。

//www.lti.cs.cmu.edu/sites/default/files/wang%2C%20zirui%20-%20final%20thesis.pdf

付費5元查看完整內容

Ronghang Hu (胡戎航)

胡戎航(Ronghang Hu)是Facebook人工智能研究(FAIR)的研究科學家。他的研究興趣包括視覺和語言推理和視覺感知。他于2020年在Trevor Darrell教授和Kate Saenko教授的指導下獲得UC Berkeley的計算機科學博士學位。2019年夏天和2017年夏天,他在FAIR做研究實習生,分別與Marcus Rohrbach博士和Ross Girshick博士一起工作。2015年獲得清華大學學士學位。2014年,他在中國科學院計算技術研究所進行研究實習,得到了山時光教授和王瑞平教授的指導。

//ronghanghu.com/

視覺與語言推理的結構化模型

視覺和語言任務(例如回答一個關于圖像的問題,為參考表達做基礎,或遵循自然語言指令在視覺環境中導航)需要對圖像和文本的兩種模式共同建模和推理。我們已經見證了視覺和語言推理的顯著進展,通常是通過在更大的數據集和更多計算資源的幫助下訓練的神經方法。然而,解決這些視覺和語言的任務就像用更多的參數建立模型,并在更多的數據上訓練它們一樣簡單嗎?如果不能,我們怎樣才能建立數據效率高、易于推廣的更好的推理模型呢?

這篇論文用視覺和語言推理的結構化模型為上述問題提供了答案——這些模型的架構考慮了人類語言、視覺場景和代理技能中的模式和規律。我們從表達式的基礎開始,我們在第二章中展示了通過考慮這些表達式中的組合結構,我們提出的組合模塊網絡(CMNs)可以實現更好的準確性和泛化。在第三章中,我們使用基于與問題推理步驟一致的動態組合模塊的端到端模塊網絡(N2NMNs)進一步解決了可視化的問題回答任務。在第四章中,我們擴展了模塊化推理的研究,提出了基于可解釋推理步驟的堆棧神經模塊網絡(SNMNs)。模塊化推理之外,我們也提出構建環境敏感的視覺表征與Language-Conditioned場景圖網絡(LCGNs)。第五章對于關系推理和解決問題的閱讀文本圖像的問答迭代pointer-augmented多通道變形金剛。在第六章,我們說明了嵌入任務也需要結構化模型,并在第7章中提出了說話者-跟隨者模型,其中說話者模型和跟隨者模型互為補充。在所有這些場景中,我們表明,通過考慮任務中的結構和輸入模式,我們的模型的執行和泛化明顯優于非結構化對應模型。

付費5元查看完整內容

與經典的監督學習不同,強化學習(RL)從根本上是交互式的: 一個自主的智能體必須學習如何在一個未知的、不確定的、可能是對抗的環境中表現,通過與環境的積極互動來收集有用的反饋,以提高其序列決策能力。RL代理還將干預環境: 代理做出決策,進而影響環境的進一步演化。

由于它的普遍性——大多數機器學習問題可以看作是特殊情況——RL很難。由于沒有直接的監督,RL的一個主要挑戰是如何探索未知的環境并有效地收集有用的反饋。在最近的RL成功案例中(如視頻游戲中的超人表現[Mnih et al., 2015]),我們注意到它們大多依賴于隨機探索策略,如“貪婪”。同樣的,策略梯度法如REINFORCE [Williams, 1992],通過向動作空間注入隨機性進行探索,希望隨機性能導致良好的動作序列,從而獲得高總回報。理論RL文獻已經開發出了更復雜的算法來進行有效的探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須根據底層系統的關鍵參數(如狀態和動作空間的維數)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法在大規模應用中的直接應用。總之,如果沒有進一步的假設,無論在實踐上還是在理論上,RL都是困難的。

在本文中,我們試圖通過引入額外的假設和信息源來獲得對RL問題的支持。本文的第一個貢獻是通過模仿學習來提高RL樣本的復雜度。通過利用專家的示范,模仿學習極大地簡化了探索的任務。在本論文中,我們考慮了兩種設置:一種是交互式模仿學習設置,即在訓練期間專家可以進行查詢;另一種是僅通過觀察進行模仿學習的設置,在這種設置中,我們只有一組由對專家狀態的觀察組成的演示(沒有記錄專家行為)。我們在理論和實踐中研究如何模仿專家,以減少樣本的復雜性相比,純RL方法。第二個貢獻來自于無模型的強化學習。具體來說,我們通過構建一個從策略評估到無后悔在線學習的總體約簡來研究策略評估,無后悔在線學習是一個活躍的研究領域,具有良好的理論基礎。這樣的約減創造了一個新的算法族,可以在生成過程的非常弱的假設下證明正確的策略評估。在此基礎上,對行動空間和參數空間兩種無模型勘探策略進行了理論和實證研究。這項工作的第三個貢獻來自基于模型的強化學習。我們提供了基于模型的RL方法和一般無模型的RL方法之間的第一個指數樣本復度分離。然后,我們提供了基于PAC模型的RL算法,可以同時實現對許多有趣的MDPs的采樣效率,如表列MDPs、因子MDPs、Lipschitz連續MDPs、低秩MDPs和線性二次控制。通過將最優控制、模型學習和模仿學習結合在一起,我們還提供了一個更實用的基于模型的RL框架,稱為雙重策略迭代(DPI)。此外,我們給出了一個通用的收斂分析,將現有的近似策略迭代理論推廣到DPI。DPI對最近成功的實用RL算法如ExIt和AlphaGo Zero進行了概括和提供了第一個理論基礎[Anthony et al., 2017, Silver et al., 2017],并為統一基于模型的RL方法和無模型的RL方法提供了一種理論健全和實踐高效的方法。

//www.ri.cmu.edu/publications/towards-generalization-and-efficiency-in-reinforcement-learning/

付費5元查看完整內容

CMU大神博士生Brandon Amos,馬上就要畢業了。博士期間,他在可微優化機器學習建模方向,發表了ICLR 一篇,ICML 三篇,NeurIPS 三篇,分析了可微優化機器學習建模的很多問題。近日,他將自己的博士論文也開放了出來,系統的講述了可微優化機器學習建模的方方面面。

博士論文簡介

我們提出了兩種基于優化建模的基本方法:

  1. OptNet體系結構,將優化問題作為單個層集成到更大的端到端可訓練深度網絡中,2)引入凸神經網絡(ICNN)結構,使基于深度能量和結構化預測模型的推理和學習更加容易。

然后,我們將展示如何使用OptNet方法,1)將無模型和基于模型的強化學習與可微最優控制相結合,2)針對top-k學習問題,我們展示了如何將cvxpy領域特定的語言轉換為可微優化層,從而實現本文方法的快速原型化。

付費5元查看完整內容
北京阿比特科技有限公司