亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

自動機器學習(AutoML)的目的是使機器學習方法的應用盡可能不受人類干預。自ML誕生以來,這一直是許多研究和工程的目標。雖然在任何可能的應用上達到完全自動化的ML可能在幾十年內仍然遙不可及,但有實際的和基本的動機來推動這一領域的先進性。本論文的目的是圍繞這個多方面的問題建立一個正式的框架,為現有的方法設定基準,并探索新的方向。

在以前的工作中,AutoML通常是自動超參數優化(HPO)或模型選擇的同義詞,用于一個特定的學習問題,由一些訓練數據定義。最終的性能評估是在一個測試集上進行的,測試集的數據分布與訓練數據相同(i.i.d.假設)。在這個問題設置中,通常不考慮訓練和測試時間。

我們對AutoML問題的定義與這種簡化的設置有一些不同。其一,我們超越了 "單一任務 "的情況,將AutoML問題置于性質相似的一系列任務的更廣泛背景中。因此,我們將遷移學習的問題納入我們的設定中,其目標是將 "知識"從任務遷移到任務,無論是為了多任務學習還是領域適應。遷移學習可以通過各種形式的元學習來解決,利用感興趣的任務系列例子來 "元訓練"學習機器。其次,我們以一種更現實和實用的方式來定義學習任務:一個任務不僅包括一個數據集(分為訓練集和測試集),還包括一個評估指標,一個時間預算(用于訓練和測試),以及明確定義的計算資源(包括內存限制)。

為了以嚴格的方式制定AutoML問題,我們首先引入一個數學框架。(1)將所有涉及的算法分為三個層次(α、β和γ層次);(2)具體定義了任務的概念(尤其是在監督學習的環境下);(3)正式定義了HPO和元學習;(4)引入了一個任意時間的學習度量,不僅可以通過其準確性,而且可以通過其學習速度來評估學習算法,這在超參數優化(包括神經架構搜索)或元學習等環境下是至關重要的。這個數學框架統一了ML的不同子領域(如遷移學習、元學習、集合學習),使我們能夠系統地對方法進行分類,并為我們提供正式的工具來促進理論發展(如與 "無免費午餐 "定理的聯系)和未來的經驗研究。特別是,它作為我們組織的一系列挑戰的理論基礎。

事實上,我們用深度學習解決AutoML的主要方法是在自動深度學習(AutoDL)系列挑戰的背景下建立了一個廣泛的基準,該挑戰是與ChaLearn、Google和4Paradigm共同組織的。這些挑戰提供了一套基準的AutoML解決方案,其中有大約100個數據集(來自上述所有領域),其中一半以上作為公共數據集發布,以促進元學習的研究。挑戰平臺、起始工具包、數據集格式化工具包和所有獲勝的解決方案都是開源的。在這些挑戰結束時,我們進行了廣泛的挑戰后分析,發現 (1)獲勝的解決方案可以推廣到新的未見過的數據集,這驗證了在實現通用AutoML解決方案方面取得的進展;(2)盡管我們努力統一格式化所有數據集以鼓勵通用解決方案,但參與者為每種模式采用了特定的工作流程;(3)任何時候的學習都被成功解決,而不犧牲最終性能;(4)盡管一些解決方案比提供的基線有所改進,但它強烈影響了許多;(5)深度學習解決方案占主導地位,但神經架構搜索在規定的時間預算內不切實際。大多數解決方案依賴于固定架構的預訓練網絡,并進行了微調。消融研究揭示了元學習、集合和高效數據加載的重要性,而數據增強并不關鍵。所有的代碼和數據(包括挑戰后的分析數據)都可以在autodl.chalearn.org獲得。

除了引入AutoML問題的新的一般表述,設置和分析AutoDL挑戰,本論文的貢獻還包括:(1) 為我們向參與者提出的問題制定我們自己的解決方案。我們的工作GramNAS通過使用形式化的語法對神經架構進行編碼來解決神經架構搜索(NAS)問題。這為算法表示提供了一個非常穩健和通用的解決方案,并為從本質上分析算法的學習提供了可能:畢竟,算法的最終表示是其代碼(連同編譯器)。已經對兩種替代方法進行了實驗研究:一種是基于蒙特卡洛樹搜索(MCTS)的方法,一種是基于進化算法的方法。由于樹狀結構在形式化語法中非常自然地出現,蒙特卡洛樹搜索可以相當自然地用作搜索算法。MCTS GramNAS算法在CIFAR-10數據集上取得了最先進的性能(94%的準確性)。我們還在GramNAS框架上使用了AgEBO(貝葉斯優化的老化進化)算法來說明另一種方法。這最后一種算法本身就適合并行。在4個大型知名數據集的基準測試中,它擊敗了最先進的軟件包AutoGluon和AutoPytorch。GramNAS框架提供了對學習算法的理解和表述的見解。一個工具箱被開源,為新的應用制作定制的形式化語法,允許用戶重復使用常見的底層搜索策略。(2) 為未來的元學習挑戰打下基礎。AutoDL挑戰系列揭示了元學習對于成功解決AutoDL任務的重要性。然而,挑戰賽的設置并沒有評估元學習,因為元學習并沒有在挑戰賽的平臺上進行:參與者提交的代碼只是在幾個任務上進行獨立的訓練和測試。在一名實習生的帶領下,我們正在嘗試各種元學習挑戰協議。(3) 作出理論上的貢獻。在本論文的研究過程中,進入了幾個合作項目,以解決元學習和遷移學習的問題。我們在強化學習的背景下提出了元學習,并證明在某些條件下,隨機搜索的平均性能不能被超越。我們還對我們提出的LEAP網的超泛化能力進行了理論分析,證明當系統的擾動為加法時,LEAP網能夠實現超泛化。

1 背景和動機

機器學習(Bishop, 2006; Mitchell, 1997)利用數據的力量來自動構建(或學習)算法。它被用作解決現實世界問題的有力工具(尤其是在這個大數據時代),并且進一步達到某種形式的人工智能(AI)。作為機器學習的一個子領域,深度學習(LeCun等人,2015)在解決計算機視覺(He等人,2015;Krizhevsky等人,2012)、自然語言處理(Devlin等人,2018;Vaswani等人,2017)、語音識別(Graves等人,2013)以及基于特征的表格數據的更經典設置中表現出令人印象深刻的性能。然而,正如 "經典 "機器學習一樣,深度學習在模型選擇(如構建新的神經網絡架構)或調整超參數(如學習率、權重衰減、批量大小、過濾器大小)方面存在繁瑣的試錯過程。為了應對這個問題,自動機器學習(AutoML)(Hutter等人,2018)旨在將這種耗費資源的程序自動化,在沒有任何人工干預的情況下應用機器學習算法。這相當于以下目標(AutoML夢想):

  • 找到一種單一的算法來解決所有的學習問題。

有了這個總體目標,如果AutoML實現了,它將彌補數據科學家和機器學習專家的供需差距。

從歷史上看,無論是學術界還是私營部門,都為實現這一AutoML夢想做出了許多努力。在學術界,從2015年到2018年,AutoML挑戰賽(Guyon等人,2018)一直在組織,并與ICML和NeurIPS等頂級機器學習會議相配合,以激勵機器學習社區的AutoML研究。之前此類挑戰賽的獲勝方法(如Auto-sklearn(Feurer等人,2015))現在被廣泛用于研究和工業。最近,人們對神經架構搜索(NAS)的興趣已經爆發(Baker等人,2017;Cai等人,2018;Elsken等人,2019;Liu等人,2019a;Negrinho和Gordon,2017b;Zoph和Le,2016)。在工業方面,許多公司,如微軟(Fusi等人,2018)和谷歌正在開發AutoML解決方案。谷歌已經推出了他們自己的AutoML平臺(Cortes等人,2017),由NAS(Pham等人,2018;Real等人,2017,2020;Zoph和Le,2016)和元學習(Finn等人,2017,2019)驅動。在這篇論文中,我們從理論和經驗兩方面考慮如何應用AutoML來實現深度學習的自動化。由于AutoML是一個相對年輕的領域,這兩個方面的各種問題都有待解決。

理論預測正確地指出,當任務和/或算法之間沒有相似性時,沒有任何一種學習算法可以勝過所有其他的算法(Wolpert, 2001, 1996; Wolpert and Macready, 1997)。然而,在真實的應用場景中,某些學習算法在特定的領域中始終比其他算法更有效。例如,卷積神經網絡(Lecun等人,1998年)在圖像領域表現出驚人的學習能力(就訓練誤差和泛化誤差而言)(Krizhevsky等人,2012年),而其他學習算法則效果不佳。這對元概括問題提出了有趣的理論問題:是否可以根據算法在過去(訓練)任務中的表現,選擇在未來(測試)任務中表現良好的算法。這是我們將在本論文中涉及的一個問題。其他問題也值得理論研究,比如學習算法的準確性和速度之間的權衡,特別是當模型選擇和超參數優化(HPO)等耗時的算法作為學習過程的一部分被應用時。在神經架構搜索社區,一些方法甚至可以花費8000個GPU天(Zoph和Le,2016)。因此,我們希望我們的算法不僅能做出準確的預測,還能盡可能快地實現良好的準確性。因此,一個理想的AutoML算法應該能夠探索潛在的更好的(超)參數選擇,但也要利用已經很好的參數來更節儉地使用。這種探索-利用的權衡在AutoML中起著核心作用,我們將在本論文中對其進行闡述。

從實踐和經驗方面來看,我們將在一組不同的數據集上分析和測試現有的AutoML算法,以便進行比較和基準測試。我們將審查一個由大約100個數據集組成的資料庫,這些數據集是在本博士期間格式化的,并展示廣泛的基準測試結果。這些數據集涵蓋了諸如計算機視覺、自然語言處理、語音識別和基于特征的表格數據等應用領域。部分結果來自AutoDL挑戰(Liu等人,2021),這是我們在自動深度學習(AutoDL)領域組織的一系列比賽。這些AutoDL挑戰賽要解決的問題與前述的AutoML夢想是一致的,我們可以從圖1.1所示的AutoDL挑戰賽的數據流中看到。從圖中我們看到,所有類型(視頻、語音、文本等)的數據首先被統一格式化為基于張量的格式。然后,這些例子被傳遞給AutoDL的核心部分,該部分應用一種單一的學習算法,并試圖在評估指標方面使學習性能最大化。

圖1.1 AutoDL挑戰中的數據流。不同類型(視頻、語音、文本等)的數據首先被統一為基于張量的格式,然后傳遞給AutoDL的核心部分,該部分應用一種單一的學習算法,并試圖在評估指標方面使學習性能最大化。

由于我們意識到AutoDL這一目標的雄心和挑戰性,我們將這一挑戰分為幾個小的挑戰,每個挑戰涉及一個領域/模式。這些挑戰是AutoCV(圖像)、AutoCV2(圖像+視頻)、AutoNLP(文本)、AutoSpeech(音頻),最后是AutoDL(所有組合)。表1.1顯示了參與AutoDL挑戰的情況和一些基本事實。這些挑戰清楚地定義了什么是AutoDL問題,為社區提供了一個擁有100個數據集的開源基準測試平臺,并幫助推動該領域的最先進技術。

圖1.2 本論文期間組織的AutoDL挑戰系列的五項比賽。AutoCV(圖像)、AutoCV2(圖像+視頻)、AutoNLP(文本)、AutoSpeech(音頻)和AutoDL(全部合并)。

表1.1 關于AutoDL挑戰的基本事實。

沒有許多公司、機構和會議的幫助,我們無法實現這一目標。圖1.3列出了其中的一些合作。

圖1.3 本論文期間的合作。谷歌、4Paradigm和微軟提供技術支持和GPU積分。ChaLearn是領導組織AutoDL挑戰的非營利組織。挑戰賽的結果在與NeurIPS 2019、ECML PKDD 2019、ICLR 2020和ICML 2020等會議同地舉行的研討會上分享。

本論文的總體安排如下。

  • 第一章(本章)介紹了這項工作的背景和動機。

  • 第二章回顧了文獻中的最新進展。

  • 第三章明確了本工作的范圍,首先介紹了數學符號,然后定義了經驗問題,并提出了此后解決的科學問題。

  • 第四章介紹了AutoDL挑戰賽的設計、結果和挑戰賽后的分析。

  • 第五章介紹了我們在神經結構搜索(NAS)方面的工作。作為AutoDL與AutoML相比的一個主要特征,NAS旨在自動選擇深度學習模型的一個重要超參數:神經網絡架構。這個超參數與更多傳統的超參數不同,因為(1)它可以由任意長的字符串編碼,因此是離散的和無限的選擇;(2)它可以編碼很多人類的知識(這可能是促成深度學習成功的主要原因之一),而這些知識是很難自動化的。

  • 第六章介紹了元學習,這也是更經典的AutoML的一個重要組成部分。元學習,也被稱為學習學習,試圖從過去的學習任務中獲得知識,并提高未來任務的性能。我們為未來的元學習挑戰奠定了協議的基礎,并提出了基線解決方案。我們還提供了理論分析,說明當 "無免費午餐 "定理的假設不被滿足時,有前途的元學習是多么有用。

  • 最后,我們在第七章中以結論和教訓來總結我們的工作。

在附錄中,我們附上本論文過程中發表的一些論文。

付費5元查看完整內容

相關內容

自動深度學習

近期,南京大學周志華教授在《國家科學評論》(National Science Review, NSR)發表題為“Open-environment Machine Learning”的文章,對開放環境機器學習(簡稱Open ML)的研究內容進行了界定,并對相關進展進行了回顧總結。

傳統的機器學習研究通常假設在封閉的環境中,學習過程的重要因素保持不變。隨著機器學習的巨大成功,如今越來越多的實際任務,尤其是那些涉及到開放環境場景的任務,其中重要因素會發生變化,本文稱之為開放環境機器學習。顯然,機器學習從封閉環境向開放環境的轉變是一個巨大的挑戰。更具有挑戰性的是,在各種大數據任務中,數據通常是隨著時間的積累而積累的,就像流一樣,而很難像傳統研究那樣收集完所有的數據后訓練機器學習模型。本文簡要介紹了這一研究方向的一些進展,重點介紹了新類別、增量特征、變化的數據分布和不同的學習目標等方面的技術,并討論了一些理論問題。

機器學習在各種應用中取得了巨大的成功,特別是在監督學習任務,如分類和回歸。通常,在機器學習中,優化特定目標的預測模型是從由訓練示例組成的訓練數據集學習的,每個示例對應一個事件/對象。一個訓練示例由兩部分組成:描述事件/對象外觀的特征向量(或稱為實例),以及表示相應地面真實輸出的標簽。分類時,標簽表示訓練實例所屬的類;在回歸中,標簽是對應于實例的實值響應。這篇文章主要關注分類,盡管大多數討論也適用于回歸和其他機器學習任務。形式上,考慮從訓練數據集D = {(X 1, y1),…, (x m, ym)},其中x i∈x是特征空間x中的特征向量,yi∈Y是給定標簽集Y中的真值標簽。

值得注意的是,目前機器學習的成功案例大多涉及假設接近封閉環境場景的任務,其中學習過程的重要因素保持不變。例如,所有要預測的類標簽都是預先知道的,描述訓練/測試數據的特征永遠不會改變,所有數據都來自一個相同的分布,學習過程朝著一個不變的唯一目標優化。圖1說明了在封閉環境機器學習研究中假設的典型不變因素。封閉環境假設提供了一種簡化的抽象,使復雜的任務能夠以更容易的方式處理,導致機器學習技術的繁榮發展。隨著這些技術取得的巨大成就,如今,越來越多的超越封閉環境設置的具有挑戰性的任務出現在社區中,要求新一代的機器學習技術能夠處理學習過程中重要因素的變化。我們稱之為開放環境機器學習,簡稱開放學習或開放ML。請注意,“開放世界機器學習”這個名字是用來指帶有不可見類[1]或超出分布(OOD)數據[2]的機器學習。事實上,如果看不見的類是事先知道的,它并不超出封閉環境研究,如果看不見的類是未知的,它與“新興的新類”一節有關。OOD與“變化的數據分布”一節有關,盡管只關注不同的分布比隨時間變化的分布更簡單。

似乎有一個直接的解決方案:通過提前模擬可能的變化來人為地生成許多訓練樣本,然后將這些數據輸入強大的機器學習模型(如深度神經網絡)。然而,這樣的解決方案只適用于當用戶知道或者至少可以估計什么變化以及變化將如何發生時。不幸的是,在大多數實際任務中并非如此。當我們考慮到真正的大數據任務中的數據通常是隨著時間累積的,例如實例是一個接一個接收的,就像一個流一樣,這就變得更加具有挑戰性。我們不可能像傳統研究那樣在獲得所有數據后訓練機器學習模型;更合理的方法是根據新接收到的數據對訓練好的模型進行細化/更新。不幸的是,眾所周知,如果只使用新數據對訓練好的深度神經網絡進行精化,則可能會發生災難性遺忘[3],而基于存儲所有接收到的數據的頻繁重新訓練可能會導致難以承受的巨大計算和存儲成本。雖然有像[4]這樣的研究試圖幫助深度神經網絡抵抗遺忘,但通常需要對大量訓練數據進行多次掃描和離線訓練,對大流數據有嚴重的計算和存儲問題。盡管面臨巨大的挑戰,但最近在開放機器學習方面進行了大量的研究工作。本文簡要介紹了這一研究方向的一些進展,重點關注有關新興類別、遞減/增量特征、變化的數據分布和不同的學習目標的技術。本文還將討論一些理論問題

封閉環境機器學習中的典型變量

以森林病蟲害預測任務為例:

  1. 標記集合發生變化**。**隨著時間推移,可能會有新的病蟲類型出現。針對該類問題,典型應對思路包括:先通過異常檢測技術對潛在新類別進行識別,再進一步精化將其加入標記集合進行增量學習。

  2. 特征空間發生變化**。**森林部署的數據監測傳感器由于壽命有限,研究人員需要在其失效前加裝新的傳感器以保證有效的監測,這將導致特征空間發生變化。針對該類問題,典型應對思路包括:利用新舊特征共存時的數據學習特征之間映射關系,從而使舊模型在新空間也能發揮作用。

  3. 數據分布發生變化**。**夏季綠葉茂盛,而冬季葉萎雪積,直接利用舊分布上訓練出的模型可能無法在新任務上取得良好性能。針對該類問題,典型應對思路包括:利用滑窗或遺忘法降低歷史數據在學習目標中的權重,構建多個分類器并采用集成學習等手段緩解分布變化帶來的影響。

  4. 學習目標發生變化**。**隨著收集數據的增多以及模型準確率的提高,學習目標可能由追求更高的準確率變更為追求更低的耗電量。針對該類問題,典型應對思路包括:考察不同學習目標之間的相關性,將舊模型輸出作為基礎,復用相應模型以優化新的學習目標,實現學習目標的快速切換。

文章還對建立開放環境機器學習理論進行了探討并給出了初步框架。 作者認為,亟需研究能夠適應開放環境的機器學習理論與方法,這將為提升和保障人工智能系統的穩健性提供關鍵技術支撐。

付費5元查看完整內容

人類一生都在學習。他們從一系列的學習經驗中積累知識,記住基本概念,但不會忘記之前所學的知識。同樣,人工神經網絡也在努力學習。他們通常依賴于經過嚴格預處理的數據來學習特定問題的解決方案,如分類或回歸。特別是,如果接受新的訓練,他們會忘記過去的學習經驗。因此,人工神經網絡通常不能處理現實生活中的情況,比如自主機器人必須在線學習以適應新情況并克服新問題,而不忘記過去的學習經驗。持續學習(CL)是機器學習的一個分支,解決了這類問題。持續算法的設計目的是在不遺忘的學習經驗課程中積累和提高知識。在本論文中,我們提出探索具有重放過程的持續算法。重播過程集中了預演方法和生成重播方法。生成式再現是通過生成式模型來記憶過去的學習經驗。排練包括從過去的學習經驗中保存一組核心樣本,以便以后進行排練。回放過程使優化當前學習目標和過去學習目標之間的折衷成為可能,從而在任務設置序列中實現不遺忘的學習。我們表明它們是非常有前途的持續學習方法。值得注意的是,它們能夠用新的知識重新評價過去的數據,并從不同的學習經驗中對抗數據。我們展示了他們通過無監督學習、監督學習和強化學習任務持續學習的能力。

付費5元查看完整內容

在過去的幾年中,深度學習和醫學的交叉領域取得了快速的發展,特別是在醫學圖像的解譯方面。在本文中,我描述了三個關鍵方向,為醫學圖像解釋的深度學習技術的發展提出了挑戰和機遇。首先,我討論了專家級醫學圖像解譯算法的發展,重點是用于低標記醫學數據設置的遷移學習和自監督學習算法。其次,我討論了高質量數據集的設計和管理以及它們在推進算法發展中的作用,重點是使用有限的手動注釋的高質量標記。第三,我討論了真實世界的評估醫學圖像算法的研究,系統地分析了在臨床相關分布變化下的性能。總之,這篇論文總結了關鍵貢獻和見解,在這些方向與關鍵應用跨醫學專業。

//searchworks.stanford.edu/view/13876519

付費5元查看完整內容

深度學習已經在計算機視覺、自然語言理解、語音識別、信息檢索等領域掀起了一場革命。然而,隨著深度學習模型的不斷改進,其參數數量、延遲時間、訓練所需資源等都有了顯著增加。因此,關注模型的度量也變得很重要,而不僅僅是它的質量。我們提出深度學習中的效率問題,隨后對模型效率的五個核心領域(包括建模技術、基礎設施和硬件)以及其中的開創性工作進行了全面調研。我們還提供了一個基于實驗的指南和代碼,供從業者優化他們的模型訓練和部署。我們相信,這是在高效深度學習領域的第一次全面綜述,涵蓋了從建模技術到硬件支持的模型效率景觀。我們的希望是,這個綜述將為讀者提供心理模型和必要的理解,應用通用的效率技術,立即獲得顯著的改進,并促使他們的想法,進一步的研究和實驗,以實現額外的收益。

//www.zhuanzhi.ai/paper/0f8f07193a10367d2246a95c3c7785bb

引言

在過去的十年里,利用神經網絡進行深度學習一直是訓練新的機器學習模型的主要方法。它的崛起通常歸功于2012年的ImageNet競賽[45]。那一年,多倫多大學的一個團隊提交了一個深度卷積網絡(AlexNet[92],以首席開發人員Alex Krizhevsky的名字命名),其表現比排名第二的好41%。這一開創性工作的結果是,人們競相創造具有越來越多參數和復雜性的更深度網絡。一些模型架構,如VGGNet [141], Inception [146], ResNet[73]等,在隨后幾年的ImageNet競賽中連續打破了先前的記錄,同時它們的占用空間(模型大小,延遲等)也在增加。

這種效應在自然語言理解(NLU)中也得到了關注,其中主要基于注意力層的Transformer[154]體系結構刺激了通用語言編碼器(如BERT[47]、GPT-3[26]等)的開發。BERT在發布時擊敗了11個NLU基準測試。GPT-3還通過其API在行業的多個地方得到了應用。這些域之間的共同方面是模型占用空間的快速增長(參見圖1),以及與訓練和部署它們相關的成本。

深度學習研究一直專注于提高現有SOTA性能,圖像分類、文本分類等基準的逐步改進與網絡復雜度、參數數量、訓練網絡所需的訓練資源數量、預測延遲等的增加有關。例如,GPT-3包含1750億個參數,僅訓練一次迭代([26])就要花費數百萬美元。這排除了試驗/嘗試不同超參數組合的成本,這在計算上也是昂貴的。

雖然這些模型可以很好地執行它們所接受的任務,但它們可能不足以在現實世界中進行直接部署。在培訓或部署模型時,深度學習從業者可能面臨以下挑戰。

可持續的服務器端擴展: 訓練和部署大型深度學習模型的成本很高。雖然訓練可能是一次性成本(或者如果使用的是預先訓練的模型,則可能是免費的),但是部署并讓推理運行很長一段時間,在服務器端RAM、CPU等方面的消耗仍然是昂貴的。對于谷歌、Facebook、亞馬遜等機構來說,數據中心的碳足跡也是一個非常現實的問題,這些機構每年在數據中心的資本支出上都要花費數十億美元。

終端設備上部署: 某些深度學習應用程序需要在物聯網和智能設備上實時運行(模型推斷直接發生在設備上),原因有很多(隱私、連通性、響應性)。因此,必須為目標設備優化模型。

隱私和數據敏感性: 當用戶數據可能很敏感時,能夠使用盡可能少的數據進行訓練是至關重要的。因此,使用一小部分數據高效地訓練模型意味著所需的數據收集較少。

新的應用: 某些新的應用提供了新的約束(關于模型質量或足跡),現有的現成模型可能無法解決。

模型爆炸: 雖然一個單一的模型可能工作得很好,但為不同的應用在相同的基礎設施(托管)上訓練和/或部署多個模型可能會耗盡可用資源。

高效深度學習

圍繞上述挑戰的共同主題是效率。我們可以進一步細分如下:

推理效率: 這主要處理部署推理模型(計算給定輸入的模型輸出)的人會問的問題。型號小嗎?它快嗎,等等?更具體地說,模型有多少參數、磁盤大小、推斷期間的RAM消耗、推斷延遲等。

訓練效率: 這涉及到訓練模型的人會問的問題,比如模型需要多長時間來訓練?有多少設備?模型能適應內存嗎?等。它可能還包括這樣的問題,模型需要多少數據才能在給定的任務上實現期望的性能?

在本節中,我們將介紹mental模型來思考與高效深度學習相關的算法、技術和工具的集合。我們提出在五個主要領域構建它們,前四個集中在建模上,最后一個圍繞基礎設施和工具。

(1) 壓縮技術: 這些是用于優化模型架構的通用技術和算法,通常是通過壓縮層數。一個經典的例子是量化[82],它試圖壓縮一層的權矩陣,通過降低其精度(例如。(從32位浮點值到8位無符號整數),質量損失最小。

(2) 學習技術: 這些算法專注于不同的訓練模型(做出更少的預測錯誤,需要更少的數據,收斂更快等)。如果需要的話,通過削減參數的數量,可以將改進的質量轉換為更小的內存占用/更高效的模型。學習技術的一個例子是蒸餾[75],它通過學習模仿較大的模型來提高較小模型的準確性。

(3) 自動化: 這些是使用自動化改進給定模型的核心度量的工具。一個例子是超參數優化(HPO)[61],優化超參數有助于提高精度,然后可以用較少參數的模型進行交換。類似地,體系結構搜索[167]也屬于這一類,其中體系結構本身進行了調優,搜索有助于找到一個模型,該模型既優化了損耗/準確性,又優化了一些其他指標,如模型延遲、模型大小等。

(4) 高效架構: 這些是從頭開始設計的基本塊(卷積層、注意力等),是對之前使用的基線方法(分別是完全連接層和RNN)的重大飛躍。例如,卷積層引入了參數共享用于圖像分類,避免了為每個輸入像素學習單獨的權值,也使其對過擬合具有魯棒性。同樣,注意力層[21]解決了Seq2Seq模型中的信息瓶頸問題。這些架構可以直接用于提高效率。

(5) 基礎設施: 最后,我們還需要基礎設施和工具來幫助我們構建和利用有效的模型。這包括模型訓練框架,如Tensorflow[1]、PyTorch[119]等(以及部署高效模型所需的工具,如Tensorflow Lite (TFLite)、PyTorch Mobile等)。我們依賴于基礎設施和工具來利用高效模型的收益。例如,要獲得量化模型的規模和延遲改進,我們需要推理平臺支持量化模式下的常見神經網絡層。

付費5元查看完整內容

人工神經網絡在解決特定剛性任務的分類問題時,通過不同訓練階段的廣義學習行為獲取知識。由此產生的網絡類似于一個靜態的知識實體,努力擴展這種知識而不針對最初的任務,從而導致災難性的遺忘。

持續學習將這種范式轉變為可以在不同任務上持續積累知識的網絡,而不需要從頭開始再訓練。我們關注任務增量分類,即任務按順序到達,并由清晰的邊界劃分。我們的主要貢獻包括:

(1) 對持續學習技術的分類和廣泛的概述;

(2) 一個持續學習器穩定性-可塑性權衡的新框架;

(3) 對11種最先進的持續學習方法和4條基準進行綜合實驗比較。

考慮到微型Imagenet和大規模不平衡的非自然主義者以及一系列識別數據集,我們以經驗的方式在三個基準上仔細檢查方法的優缺點。我們研究了模型容量、權重衰減和衰減正則化的影響,以及任務呈現的順序,并從所需內存、計算時間和存儲空間等方面定性比較了各種方法。

//www.zhuanzhi.ai/paper/c90f25024b2c2364ce63299b4dc4677f

引言

近年來,據報道,機器學習模型在個人任務上表現出甚至超過人類水平的表現,如雅達利游戲[1]或物體識別[2]。雖然這些結果令人印象深刻,但它們是在靜態模型無法適應其行為的情況下獲得的。因此,這需要在每次有新數據可用時重新啟動訓練過程。在我們的動態世界中,這種做法對于數據流來說很快就變得難以處理,或者可能由于存儲限制或隱私問題而只能暫時可用。這就需要不斷適應和不斷學習的系統。人類的認知就是這樣一個系統的例證,它具有順序學習概念的傾向。通過觀察例子來重新審視舊的概念可能會發生,但對保存這些知識來說并不是必要的,而且盡管人類可能會逐漸忘記舊的信息,但完全丟失以前的知識很少被證明是[3]。相比之下,人工神經網絡則不能以這種方式學習:在學習新概念時,它們會遭遇對舊概念的災難性遺忘。為了規避這一問題,人工神經網絡的研究主要集中在靜態任務上,通常通過重組數據來確保i.i.d.條件,并通過在多個時期重新訪問訓練數據來大幅提高性能。

持續學習研究從無窮無盡的數據流中學習的問題,其目標是逐步擴展已獲得的知識,并將其用于未來[4]的學習。數據可以來自于變化的輸入域(例如,不同的成像條件),也可以與不同的任務相關聯(例如,細粒度的分類問題)。持續學習也被稱為終身學習[18]0,[18]1,[18]2,[18]3,[18]5,[18]4,順序學習[10],[11],[12]或增量學習[13],[14],[15],[16],[17],[18],[19]。主要的標準是學習過程的順序性質,只有一小部分輸入數據來自一個或幾個任務,一次可用。主要的挑戰是在不發生災難性遺忘的情況下進行學習:當添加新的任務或域時,之前學習的任務或域的性能不會隨著時間的推移而顯著下降。這是神經網絡中一個更普遍的問題[20]的直接結果,即穩定性-可塑性困境,可塑性指的是整合新知識的能力,以及在編碼時保持原有知識的穩定性。這是一個具有挑戰性的問題,不斷學習的進展使得現實世界的應用開始出現[21]、[22]、[23]。

為了集中注意力,我們用兩種方式限制了我們的研究范圍。首先,我們只考慮任務增量設置,其中數據按順序分批到達,一個批對應一個任務,例如要學習的一組新類別。換句話說,我們假設對于一個給定的任務,所有的數據都可以同時用于離線訓練。這使得對所有訓練數據進行多個時期的學習成為可能,反復洗刷以確保i.i.d.的條件。重要的是,無法訪問以前或將來任務的數據。在此設置中優化新任務將導致災難性的遺忘,舊任務的性能將顯著下降,除非采取特殊措施。這些措施在不同情況下的有效性,正是本文所要探討的。此外,任務增量學習將范圍限制為一個多頭配置,每個任務都有一個獨占的輸出層或頭。這與所有任務共享一個頭的更有挑戰性的類增量設置相反。這在學習中引入了額外的干擾,增加了可供選擇的輸出節點的數量。相反,我們假設已知一個給定的樣本屬于哪個任務。

其次,我們只關注分類問題,因為分類可以說是人工神經網絡最既定的任務之一,使用相對簡單、標準和易于理解的網絡體系結構具有良好的性能。第2節對設置進行了更詳細的描述,第7節討論了處理更一般設置的開放問題。

付費5元查看完整內容

深度神經網絡在擁有大量數據集和足夠的計算資源的情況下能夠取得巨大的成功。然而,他們快速學習新概念的能力相當有限。元學習是解決這一問題的一種方法,通過使網絡學會如何學習。令人興奮的深度元學習領域正在高速發展,但缺乏對當前技術的統一、深刻的概述。這項工作就是這樣。在為讀者提供理論基礎之后,我們研究和總結了主要的方法,這些方法被分為i)度量;ii)模型;和iii)基于優化的技術。此外,我們確定了主要的開放挑戰,如在異構基準上的性能評估,以及元學習計算成本的降低。

摘要:

近年來,深度學習技術在各種任務上取得了顯著的成功,包括游戲(Mnih et al., 2013; Silver et al., 2016),圖像識別(Krizhevsky et al., 2012; He et al., 2015)和機器翻譯(Wu et al., 2016)。盡管取得了這些進展,但仍有大量的挑戰有待解決,例如實現良好性能所需的大量數據和訓練。這些要求嚴重限制了深度神經網絡快速學習新概念的能力,這是人類智能的定義方面之一(Jankowski等人,2011;(Lake等,2017)。

元學習被認為是克服這一挑戰的一種策略(Naik and Mammone, 1992; Schmidhuber, 1987; Thrun, 1998)。其關鍵思想是元學習主體隨著時間的推移提高自己的學習能力,或者等價地說,學會學習。學習過程主要與任務(一組觀察)有關,并且發生在兩個不同的層次上:內部和外部。在內部層,一個新的任務被提出,代理試圖快速地從訓練觀察中學習相關的概念。這種快速的適應是通過在外部層次的早期任務中積累的知識來促進的。因此,內部層關注的是單個任務,而外部層關注的是多個任務。

從歷史上看,元學習這個術語的使用范圍很廣。從最廣泛的意義上說,它概括了所有利用之前的學習經驗以更快地學習新任務的系統(Vanschoren, 2018)。這個廣泛的概念包括更傳統的機器學習算法選擇和hyperparameter優化技術(Brazdil et al ., 2008)。然而,在這項工作中,我們專注于元學習領域的一個子集,該領域開發元學習程序來學習(深度)神經網絡的良好誘導偏差。1從今以后,我們使用術語深元學習指元學習的領域。

深度元學習領域正在快速發展,但它缺乏一個連貫、統一的概述,無法提供對關鍵技術的詳細洞察。Vanschoren(2018)對元學習技術進行了調查,其中元學習被廣泛使用,限制了對深度元學習技術的描述。此外,在調查發表后,深度元學習領域也出現了許多令人興奮的發展。Hospedales等人(2020)最近的一項調查采用了與我們相同的深度元學習概念,但目標是一個廣泛的概述,而忽略了各種技術的技術細節。

我們試圖通過提供當代深度元學習技術的詳細解釋來填補這一空白,使用統一的符號。此外,我們確定了當前的挑戰和未來工作的方向。更具體地說,我們覆蓋了監督和強化學習領域的現代技術,已經實現了最先進的性能,在該領域獲得了普及,并提出了新的想法。由于MAML (Finn et al., 2017)和相關技術對該領域的影響,我們給予了格外的關注。本研究可作為深度元學習領域的系統性介紹,并可作為該領域資深研究人員的參考資料。在整個過程中,我們將采用Vinyals(2017)所使用的分類法,該分類法確定了三種深度元學習方法:i)度量、ii)模型和iii)基于優化的元學習技術。

付費5元查看完整內容

邢波(卡內基梅隆大學機器學習系副主任)的這場talk是一場非常insightful的報告,這場報告的主要點是圍繞我們能不能像當年麥克斯韋統一電磁學一樣來只用幾個方程式就能統一現在眾多的ML/AI算法。最后給出了展望:進入這個ML/AI領域的人不必是專家,或者對這方面有豐富知識的人,他們可以從一個最簡單的equation開始,然后不斷的向上加東西,就像玩樂高一樣,然后創造出非常好的,有用的結果。

摘要: 在處理從數據實例、知識、約束、獎勵、對手到不斷增長的任務范圍內的終身相互作用的廣泛經驗中,當代ML/AI研究已經產生了數以千計的模型、學習范例、優化算法,更不用說無數的逼近啟發式、調優技巧、黑箱神諭,以及以上所有這些的組合。這些成果在推動該領域快速發展的同時,也使得對現有ML技術的全面掌握變得越來越困難,使ML/AI產品的標準化、可重復使用、可重復、可靠和可解釋的實踐以及進一步開發的成本變得非常高,如果可能的話。在這篇演講中,我們從損失、優化求解器和模型架構等方面,給出了一個簡單而系統的ML藍圖,為學習提供了一個統一的數學公式與所有的經驗和任務。該藍圖提供了對各種ML算法的整體理解,指導使用ML以可組合和機械的方式創建問題解決方案,以及用于理論分析的統一框架。

付費5元查看完整內容

研究人員已經花費了大量的時間來優化超參數和調整結構。我們能否減少開發深度學習算法的努力,讓研究人員更多地關注創新領域?在本教程中,我們鼓勵研究人員設計超參數范圍和可能的網絡架構組合,并將工作負載傳遞給機器。本教程將涵蓋自動機器學習中的重要概念,以及在計算機視覺中的應用。觀眾將能夠通過使用Jupiter Notebooks的動手部分來復制大規模的實驗。

付費5元查看完整內容
北京阿比特科技有限公司