亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

牛津Google等JAIR最新《自動強化學習AutoRL》綜述論文,值得關注!

強化學習(RL)和深度學習的結合帶來了一系列令人印象深刻的成就,許多人相信(深度)RL提供了一條通向一般有能力智能體的道路。然而,RL智能體的成功通常對訓練過程中的設計選擇高度敏感,這可能需要繁瑣且容易出錯的手動調優。這使得使用RL解決新問題具有挑戰性,也限制了它的全部潛力。在機器學習的許多其他領域,AutoML已經表明,自動化這樣的設計選擇是可能的,當AutoML應用于RL時,也產生了有希望的初步結果。然而,自動強化學習(AutoRL)不僅涉及AutoML的標準應用,還包括RL特有的額外挑戰,這自然產生了一套不同的方法。因此,AutoRL已經成為RL研究的一個重要領域,為從RNA設計到圍棋等游戲的各種應用提供了希望。考慮到RL中考慮的方法和環境的多樣性,許多研究在不同的子領域進行,從元學習到進化。在這項綜述中,我們尋求統一AutoML領域,提供一個共同的分類,詳細討論每個領域,并提出開放問題的興趣

//www.zhuanzhi.ai/paper/de9aef36d3d02e3e3ee193ad87077d58

引言

在過去的十年中,我們看到了一系列利用強化學習(RL, (Sutton & Barto, 2018))在各種領域(如游戲)訓練智能體的突破(Mnih et al., 2015; Berner et al., 2019; Silver et al., 2016; Vinyals et al., 2019)和機器人(OpenAI et al., 2018),在現實世界的應用中取得了成功(Bellemare et al., 2020; Nguyen et al., 2021; Degrave et al., 2022)。因此,研究界的興趣激增。然而,雖然RL取得了一些令人印象深刻的成就,但許多標題結果依賴于大量調優的實現,這些實現未能推廣到預期領域之外。事實上,RL算法已經被證明對深度神經網絡的超參數和架構非常敏感(Henderson et al., 2018; Andrychowicz et al., 2021; Engstrom et al., 2020),而有越來越多的額外設計選擇,如代理的目標(Hessel等人,2019年)和更新規則(Oh等人,2020年)。人工同時優化如此多的設計選擇是一件繁瑣、昂貴、甚至容易出錯的事情。自動化機器學習(AutoML, Hutter et al. (2019))在機器學習(ML)的其他領域也取得了顯著的成功。然而,這些方法在RL中還沒有產生顯著的影響,部分原因是RL應用具有典型的挑戰性,由于環境和算法的多樣性,以及RL問題的非平穩性。

這項綜述的目的是展示自動強化學習(AutoRL)領域,作為一套方法,在不同程度上自動化RL流程。AutoRL服務于解決各種各樣的挑戰: 一方面,RL算法的脆弱性阻礙了在新領域的應用,特別是在從業者缺乏大量資源來搜索最優配置的領域。在許多設置中,為一個完全看不見的問題手動查找甚至是中等強度的超參數集都可能是非常昂貴的。AutoRL已經被證明可以在這種情況下幫助解決重要問題,例如設計RNA (Runge et al.,2019年)。另一方面,對于那些受益于更多計算的人來說,增加算法的靈活性顯然可以提高性能(Xu et al.,2020; Zahavy et al.,2020; Jaderberg et al.,2017)。這已經在著名的AlphaGo智能體中得到了展示,它通過使用貝葉斯優化(BO)得到了顯著的改進(Chen et al., 2018)。早在20世紀80年代(Barto & Sutton, 1981),可被認為是AutoRL算法的方法就被證明是有效的。然而,近年來AutoML的流行導致了更先進技術的初步應用(Runge et al.,2019; Chiang et al., 2019)。與此同時,進化群體幾十年來一直在進化神經網絡及其權重(Stanley & Miikkulainen, 2002),其中的方法鼓舞了那些被證明對現代RL有效的方法(Jaderberg et al.,2017)。此外,最近元學習的流行導致了一系列尋求自動化RL過程的工作(Houthooft et al., 2018; Xu et al., 2018; Kirsch et al., 2020)。

在本文中,我們試圖提供這些方法的分類。在這樣做的過程中,我們希望通過思想的交叉碰撞,開辟出一系列未來的工作,同時也向RL研究人員介紹一套技術,以提高他們的算法的性能。我們相信AutoRL在幫助強化學習的潛在影響方面發揮了重要作用,無論是在開放式研究還是實際的現實應用中,這項綜述可以為那些希望利用其潛力的人形成一個起點。

此外,我們希望將對AutoML感興趣的研究人員更廣泛地吸引到AutoRL社區,因為AutoRL帶來了獨特的挑戰。特別是,RL存在非平穩性問題,因為agent所訓練的數據是當前策略函數。此外,AutoRL還包含針對RL問題的環境和算法設計。我們相信這些挑戰將需要重要的未來工作,因此概述了整個論文的開放問題。

我們的論文結構如下。在第2節中,我們描述了形式化AutoRL問題所需的背景和符號,然后形式化這個問題,并討論了評估它的各種方法。然后,我們簡要地總結了各種類型的RL算法,然后描述了AutoRL問題特有的非平穩性。在第3節中,我們討論了需要自動化的AutoRL問題的各種組件,包括環境、算法、它們的超參數和架構。在第4節中,我們提供了一個分類,并在該分類之后的子節中調研了當前的AutoRL方法。在第5節中,我們將討論各種公開可用的基準測試及其應用領域。最后,在第6節中,我們討論了AutoRL的未來方向。

付費5元查看完整內容

相關內容

來自牛津大學、弗萊堡大學、谷歌研究院等機構的十余位研究者撰文綜述 AutoRL。

強化學習 (RL) 與深度學習的結合帶來了一系列令人印象深刻的成果,許多人認為(深度)強化學習提供了通向通用智能體的途徑。然而,RL 智能體的成功通常對訓練過程中的設計選擇高度敏感,可能需要繁瑣且容易出錯的手動調整。這使得將 RL 用于新問題具有挑戰性,同時也限制了 RL 的全部潛力。

在機器學習的許多其他領域,AutoML 已經表明可以自動化此類設計選擇,并且在應用于 RL 時也產生了有希望的初步結果。然而,自動強化學習 (AutoRL) 不僅涉及 AutoML 的標準應用,還包括 RL 獨有的額外挑戰,這使得研究者自然而然地產生了一些不同的方法。

AutoRL 已成為 RL 研究的一個重要領域,為從 RNA 設計到圍棋等游戲的各種應用提供了希望。由于 RL 中考慮的方法和環境具有多樣性,因此許多研究都是在不同的子領域進行的。來自牛津大學、弗萊堡大學、谷歌研究院等機構的十余位研究者撰文試圖統一 AutoRL 領域,并提供了通用分類法,該研究詳細討論了每個領域并提出未來研究人員可能感興趣的問題。

付費5元查看完整內容

強化學習 (RL) 與深度學習的結合帶來了一系列令人印象深刻的壯舉,許多人認為(深度)強化學習提供了通向通用智能體的途徑。然而,RL 智能體的成功通常對訓練過程中的設計選擇高度敏感,這可能需要繁瑣且容易出錯的手動調整。這使得將 RL 用于新問題變得具有挑戰性,同時也限制了它的全部潛力。在機器學習的許多其他領域,AutoML 已經表明可以自動化此類設計選擇,并且在應用于 RL 時也產生了有希望的初步結果。然而,自動強化學習 (AutoRL) 不僅涉及 AutoML 的標準應用,還包括 RL 獨有的額外挑戰,這些挑戰自然會產生一組不同的方法。因此,AutoRL 已成為 RL 研究的一個重要領域,為從 RNA 設計到圍棋等游戲的各種應用提供了希望。鑒于 RL 中考慮的方法和環境的多樣性,許多研究都是在不同的子領域進行的,從元學習到進化。在本次調查中,我們尋求統一 AutoRL 領域,提供通用分類法,詳細討論每個領域并提出未來研究人員感興趣的開放問題

付費5元查看完整內容

摘要

人在環路是通過整合人類的知識和經驗,以最小的代價訓練出準確的預測模型。借助基于機器的方法,人類可以為機器學習應用提供訓練數據,直接完成一些流水線中計算機難以完成的任務。在本文中,我們從數據的角度對現有的關于人在環路的研究進行了綜述,并將其分為三大類: (1) 通過數據處理提高模型性能的工作,(2) 通過干預模型訓練提高模型性能的工作,(3) 系統獨立的人在環路的設計。通過以上分類,我們總結了該領域的主要方法,以及它們的技術優勢/弱點,并在自然語言處理、計算機視覺等方面進行了簡單的分類和討論。此外,我們提供了一些開放的挑戰和機會。本綜述旨在為人在環路提供一個高層次的總結,并激發感興趣的讀者考慮設計有效的人在環路解決方案的方法。

//arxiv.org/abs/2108.00941

引言

深度學習是人工智能的前沿,旨在更接近其主要目標——人工智能。深度學習已經在廣泛的應用中取得了巨大的成功,如自然語言處理、語音識別、醫療應用、計算機視覺和智能交通系統[1,2,3,4]。深度學習的巨大成功歸功于更大的模型[5]。這些模型的規模包含了數億個參數。這些數以億計的參數允許模型有更多的自由度,足以令人驚嘆的描述能力。

但是,大量的參數需要大量的標簽[6]的訓練數據。通過數據標注提高模型性能有兩個關鍵的挑戰。一方面,數據增長速度遠遠落后于模型參數的增長速度,數據增長主要阻礙了模型的進一步發展。另一方面,新任務的出現遠遠超過了數據更新的速度,對所有樣本進行注釋非常費力。為了應對這一挑戰,許多研究人員通過生成樣本來構建新的數據集,從而加快了模型迭代,降低了數據標注的成本[7,8,9,10,11]。此外,許多研究人員使用預訓練方法和遷移學習來解決這一挑戰[12,13,14,15,16],如transformer[17,18]、BERT[19]和GPT[20]。這些工作取得了令人難以置信的成果。

然而,生成的數據僅用作初始化模型的基礎數據。為了獲得高精度的可用模型,往往需要對具體數據進行標注和更新。因此,一些基于弱監督的工作被提出[21,22,23,24]。一些研究人員提出使用少樣本來促使模型從更少的樣本中學習[25,26,27]。在學習框架中集成先驗知識是處理稀疏數據的有效手段,因為學習者不需要從數據本身[28]中歸納知識。越來越多的研究人員開始嘗試將訓練前的知識納入他們的學習框架[29,30,31,32]。作為代理,人類有著豐富的先驗知識。如果機器可以學習人類的智慧和知識,它將有助于處理稀疏數據。特別是在臨床診斷和訓練數據缺乏等醫學領域[33,34,35,36]。

一些研究人員提出了一種名為“人在環路”(human-in- loop, HITL)的方法來解決這一挑戰,該方法主要通過將人類知識納入建模過程[37]來解決這些問題。如圖1所示,human-in-the-loop(即“human-in-the-loop”和“machine learning”)是機器學習領域一個活躍的研究課題,近十年來發表了大量的論文。

如圖2所示,傳統的機器學習算法一般由[38]三部分組成。第一個是數據預處理,第二個是數據建模,最后一個是開發人員修改現有流程以提高性能。我們都知道,機器學習模型的性能和結果是不可預測的,這就導致了很大程度的不確定性,在人機交互的哪個部分能帶來最好的學習效果。不同的研究者關注的是人工干預的不同部分。本文根據機器學習的處理方法對這些方法進行分類,分為數據預處理階段和模型修改和訓練階段。此外,更多的研究集中在獨立系統的設計上,以幫助完成模型的改進。因此,在本文中,我們首先從數據處理的角度討論了提高模型性能的工作。接下來,我們討論了通過干預模式訓練提高模型性能的工作。最后,討論了獨立于系統的“人在環路”的設計。

付費5元查看完整內容

深度學習已經在計算機視覺、自然語言理解、語音識別、信息檢索等領域掀起了一場革命。然而,隨著深度學習模型的不斷改進,其參數數量、延遲時間、訓練所需資源等都有了顯著增加。因此,關注模型的度量也變得很重要,而不僅僅是它的質量。我們提出深度學習中的效率問題,隨后對模型效率的五個核心領域(包括建模技術、基礎設施和硬件)以及其中的開創性工作進行了全面調研。我們還提供了一個基于實驗的指南和代碼,供從業者優化他們的模型訓練和部署。我們相信,這是在高效深度學習領域的第一次全面綜述,涵蓋了從建模技術到硬件支持的模型效率景觀。我們的希望是,這個綜述將為讀者提供心理模型和必要的理解,應用通用的效率技術,立即獲得顯著的改進,并促使他們的想法,進一步的研究和實驗,以實現額外的收益。

//www.zhuanzhi.ai/paper/0f8f07193a10367d2246a95c3c7785bb

引言

在過去的十年里,利用神經網絡進行深度學習一直是訓練新的機器學習模型的主要方法。它的崛起通常歸功于2012年的ImageNet競賽[45]。那一年,多倫多大學的一個團隊提交了一個深度卷積網絡(AlexNet[92],以首席開發人員Alex Krizhevsky的名字命名),其表現比排名第二的好41%。這一開創性工作的結果是,人們競相創造具有越來越多參數和復雜性的更深度網絡。一些模型架構,如VGGNet [141], Inception [146], ResNet[73]等,在隨后幾年的ImageNet競賽中連續打破了先前的記錄,同時它們的占用空間(模型大小,延遲等)也在增加。

這種效應在自然語言理解(NLU)中也得到了關注,其中主要基于注意力層的Transformer[154]體系結構刺激了通用語言編碼器(如BERT[47]、GPT-3[26]等)的開發。BERT在發布時擊敗了11個NLU基準測試。GPT-3還通過其API在行業的多個地方得到了應用。這些域之間的共同方面是模型占用空間的快速增長(參見圖1),以及與訓練和部署它們相關的成本。

深度學習研究一直專注于提高現有SOTA性能,圖像分類、文本分類等基準的逐步改進與網絡復雜度、參數數量、訓練網絡所需的訓練資源數量、預測延遲等的增加有關。例如,GPT-3包含1750億個參數,僅訓練一次迭代([26])就要花費數百萬美元。這排除了試驗/嘗試不同超參數組合的成本,這在計算上也是昂貴的。

雖然這些模型可以很好地執行它們所接受的任務,但它們可能不足以在現實世界中進行直接部署。在培訓或部署模型時,深度學習從業者可能面臨以下挑戰。

可持續的服務器端擴展: 訓練和部署大型深度學習模型的成本很高。雖然訓練可能是一次性成本(或者如果使用的是預先訓練的模型,則可能是免費的),但是部署并讓推理運行很長一段時間,在服務器端RAM、CPU等方面的消耗仍然是昂貴的。對于谷歌、Facebook、亞馬遜等機構來說,數據中心的碳足跡也是一個非常現實的問題,這些機構每年在數據中心的資本支出上都要花費數十億美元。

終端設備上部署: 某些深度學習應用程序需要在物聯網和智能設備上實時運行(模型推斷直接發生在設備上),原因有很多(隱私、連通性、響應性)。因此,必須為目標設備優化模型。

隱私和數據敏感性: 當用戶數據可能很敏感時,能夠使用盡可能少的數據進行訓練是至關重要的。因此,使用一小部分數據高效地訓練模型意味著所需的數據收集較少。

新的應用: 某些新的應用提供了新的約束(關于模型質量或足跡),現有的現成模型可能無法解決。

模型爆炸: 雖然一個單一的模型可能工作得很好,但為不同的應用在相同的基礎設施(托管)上訓練和/或部署多個模型可能會耗盡可用資源。

高效深度學習

圍繞上述挑戰的共同主題是效率。我們可以進一步細分如下:

推理效率: 這主要處理部署推理模型(計算給定輸入的模型輸出)的人會問的問題。型號小嗎?它快嗎,等等?更具體地說,模型有多少參數、磁盤大小、推斷期間的RAM消耗、推斷延遲等。

訓練效率: 這涉及到訓練模型的人會問的問題,比如模型需要多長時間來訓練?有多少設備?模型能適應內存嗎?等。它可能還包括這樣的問題,模型需要多少數據才能在給定的任務上實現期望的性能?

在本節中,我們將介紹mental模型來思考與高效深度學習相關的算法、技術和工具的集合。我們提出在五個主要領域構建它們,前四個集中在建模上,最后一個圍繞基礎設施和工具。

(1) 壓縮技術: 這些是用于優化模型架構的通用技術和算法,通常是通過壓縮層數。一個經典的例子是量化[82],它試圖壓縮一層的權矩陣,通過降低其精度(例如。(從32位浮點值到8位無符號整數),質量損失最小。

(2) 學習技術: 這些算法專注于不同的訓練模型(做出更少的預測錯誤,需要更少的數據,收斂更快等)。如果需要的話,通過削減參數的數量,可以將改進的質量轉換為更小的內存占用/更高效的模型。學習技術的一個例子是蒸餾[75],它通過學習模仿較大的模型來提高較小模型的準確性。

(3) 自動化: 這些是使用自動化改進給定模型的核心度量的工具。一個例子是超參數優化(HPO)[61],優化超參數有助于提高精度,然后可以用較少參數的模型進行交換。類似地,體系結構搜索[167]也屬于這一類,其中體系結構本身進行了調優,搜索有助于找到一個模型,該模型既優化了損耗/準確性,又優化了一些其他指標,如模型延遲、模型大小等。

(4) 高效架構: 這些是從頭開始設計的基本塊(卷積層、注意力等),是對之前使用的基線方法(分別是完全連接層和RNN)的重大飛躍。例如,卷積層引入了參數共享用于圖像分類,避免了為每個輸入像素學習單獨的權值,也使其對過擬合具有魯棒性。同樣,注意力層[21]解決了Seq2Seq模型中的信息瓶頸問題。這些架構可以直接用于提高效率。

(5) 基礎設施: 最后,我們還需要基礎設施和工具來幫助我們構建和利用有效的模型。這包括模型訓練框架,如Tensorflow[1]、PyTorch[119]等(以及部署高效模型所需的工具,如Tensorflow Lite (TFLite)、PyTorch Mobile等)。我們依賴于基礎設施和工具來利用高效模型的收益。例如,要獲得量化模型的規模和延遲改進,我們需要推理平臺支持量化模式下的常見神經網絡層。

付費5元查看完整內容

摘要

本文綜述了遷移學習在強化學習問題設置中的應用。RL已經成為序列決策問題的關鍵的解決方案。隨著RL在各個領域的快速發展。包括機器人技術和游戲,遷移學習是通過利用和遷移外部專業知識來促進學習過程來幫助RL的一項重要技術。在這篇綜述中,我們回顧了在RL領域中遷移學習的中心問題,提供了一個最先進技術的系統分類。我們分析他們的目標,方法,應用,以及在RL框架下這些遷移學習技術將是可接近的。本文從RL的角度探討了遷移學習與其他相關話題的關系,并探討了RL遷移學習的潛在挑戰和未來發展方向。

關鍵詞:遷移學習,強化學習,綜述,機器學習

介紹

強化學習(RL)被認為是解決連續決策任務的一種有效方法,在這種方法中,學習主體通過與環境相互作用,通過[1]來提高其性能。源于控制論并在計算機科學領域蓬勃發展的RL已被廣泛應用于學術界和工業界,以解決以前難以解決的任務。此外,隨著深度學習的快速發展,應用深度學習服務于學習任務的集成框架在近年來得到了廣泛的研究和發展。DL和RL的組合結構稱為深度強化學習[2](Deep Reinforcement Learning, DRL)。

DRL在機器人控制[3]、[4]、玩[5]游戲等領域取得了巨大的成功。在醫療保健系統[6]、電網[7]、智能交通系統[8]、[9]等領域也具有廣闊的應用前景。

在這些快速發展的同時,DRL也面臨著挑戰。在許多強化學習應用中,環境模型通常是未知的,只有收集到足夠的交互經驗,agent才能利用其對環境的知識來改進其性能。由于環境反饋的部分可觀察性、稀疏性或延遲性以及高維觀察和/或行動空間等問題,學習主體在沒有利用任何先驗知識的情況下尋找好的策略是非常耗時的。因此,遷移學習作為一種利用外部專業知識來加速學習過程的技術,在強化學習中成為一個重要的課題。

在監督學習(SL)領域[10]中,TL得到了廣泛的研究。與SL場景相比,由于MDP環境中涉及的組件更多,RL中的TL(尤其是DRL中的TL)通常更復雜。MDP的組件(知識來自何處)可能與知識轉移到何處不同。此外,專家知識也可以采取不同的形式,以不同的方式轉移,特別是在深度神經網絡的幫助下。隨著DRL的快速發展,以前總結用于RL的TL方法的努力沒有包括DRL的最新發展。注意到所有這些不同的角度和可能性,我們全面總結了在深度強化學習(TL in DRL)領域遷移學習的最新進展。我們將把它們分成不同的子主題,回顧每個主題的理論和應用,并找出它們之間的聯系。

本綜述的其余部分組織如下:在第2節中,我們介紹了強化學習的背景,關鍵的DRL算法,并帶來了這篇綜述中使用的重要術語。我們還簡要介紹了與TL不同但又緊密相關的相關研究領域(第2.3節)。

在第3節中,我們采用多種視角來評價TL方法,提供了對這些方法進行分類的不同方法(第3.1節),討論了遷移源和目標之間的潛在差異(第3.2節),并總結了評價TL有效性的常用指標(第3.3節)。

第4節詳細說明了DRL領域中最新的TL方法。特別是,所討論的內容主要是按照遷移知識的形式組織的,如成型的獎勵(4.1節)、先前的演示(4.2節)、專家策略(4.3節),或者按照轉移發生的方式組織的,如任務間映射(4.4節)、學習可轉移表示(4.5節和4.6節)等。我們在第5節討論了TL在DRL中的應用,并在第6節提供了一些值得研究的未來展望。

付費5元查看完整內容

深度學習算法已經在圖像分類方面取得了最先進的性能,甚至被用于安全關鍵應用,如生物識別系統和自動駕駛汽車。最近的研究表明,這些算法甚至可以超越人類的能力,很容易受到對抗性例子的攻擊。在計算機視覺中,與之相對的例子是惡意優化算法為欺騙分類器而產生的含有細微擾動的圖像。為了緩解這些漏洞,文獻中不斷提出了許多對策。然而,設計一種有效的防御機制已被證明是一項困難的任務,因為許多方法已經證明對自適應攻擊者無效。因此,這篇自包含的論文旨在為所有的讀者提供一篇關于圖像分類中對抗性機器學習的最新研究進展的綜述。本文介紹了新的對抗性攻擊和防御的分類方法,并討論了對抗性實例的存在性。此外,與現有的調查相比,它還提供了相關的指導,研究人員在設計和評估防御時應該考慮到這些指導。最后,在文獻綜述的基礎上,對未來的研究方向進行了展望。

//www.zhuanzhi.ai/paper/396e587564dc2922d222cd3ac7b84288

付費5元查看完整內容
北京阿比特科技有限公司