【導讀】這本書對自動化機器學習(AutoML)的一般化方法進行了全面的闡述,并且收集了以這些方法為基礎的系統的描述和一系列關于自動化機器學習系統領域的挑戰。最近,機器學習在商業領域取得的成就和該領域的快速增長對機器學習產生了大量的需求,尤其是可以很容易地使用,并且不需要專家知識的機器學習方法。然而,當前許多表現優異的機器學習方法的大多都依賴人類專家去手動選擇適當的機器學習架構以及模型的超參數(深度學習架構或者更加傳統的機器學習方法)。為了克服這個問題,AutoML基于優化原理和機器學習本身去逐步實現機器學習的自動化。這本書可以為為研究人員和高年級學生提供一個進入這個快速發展的領域的切入點,同時也為打算在工作中使用AutoML的從業者提供參考。
第一部分 自動機器學習方法
每個機器學習系統都有超參數,而自動化機器學習最基本的任務就是自動設置這些超參數來優化性能。尤其是最近的深度神經網絡嚴重依賴對于神經網絡的結構、正則化和優化等超參數的選擇。自動優化超參數(HPO)有幾個重要的用例:?
第二部分 自動化機器學習系統
越來越多的非領域專家開始學習使用機器學習工具,他們需要非獨立的解決方案。機器學習社區通過開源代碼為這些用戶提供了大量復雜的學習算法和特征選擇方法,比如WEKA和mlr。這些開源包需要使用者做出兩種選擇:選擇一種學習算法,并通過設置超參數對其進行定制。然而想要一次性做出正確的選擇是非常具有挑戰性的,這使得許多用戶不得不通過算法的聲譽或直覺來進行選擇,并將超參數設置為默認值。當然,采用這種方法所獲得的性能要比最佳方法進行超參數設置差得多。
第三部分 自動化機器學習面臨的挑戰
直到十年之前,機器學習還是一門鮮為人知的學科。對于機器學習領域的科學家們來說,這是一個“賣方市場”:他們研究產出了大量的算法,并不斷地尋找新的有趣的數據集。大的互聯網公司積累了大量的數據,如谷歌,Facebook,微軟和亞馬遜已經上線了基于機器學習的應用,數據科學競賽也吸引了新一代的年輕科學家。如今,隨著開放性數據的增加,政府和企業不斷發掘機器學習的新的應用領域。然而,不幸的是機器學習并不是全自動的:依舊很難確定哪個算法一定適用于哪種問題和如何選擇超參數。完全自動化是一個無界的問題,因為總是有一些從未遇到過的新設置。AutoML面臨的挑戰包括但不限于:
深度學習在許多領域都取得了重大突破和進展。這是因為深度學習具有強大的自動表示能力。實踐證明,網絡結構的設計對數據的特征表示和最終的性能至關重要。為了獲得良好的數據特征表示,研究人員設計了各種復雜的網絡結構。然而,網絡架構的設計在很大程度上依賴于研究人員的先驗知識和經驗。因此,一個自然的想法是盡量減少人為的干預,讓算法自動設計網絡的架構。因此,這需要更深入到強大的智慧。
近年來,大量相關的神經結構搜索算法(NAS)已經出現。他們對NAS算法進行了各種改進,相關研究工作復雜而豐富。為了減少初學者進行NAS相關研究的難度,對NAS進行全面系統的調查是必不可少的。之前的相關調查開始主要從NAS的基本組成部分: 搜索空間、搜索策略和評估策略對現有工作進行分類。這種分類方法比較直觀,但是讀者很難把握中間的挑戰和標志性作品。因此,在本次調查中,我們提供了一個新的視角:首先概述最早的NAS算法的特點,總結這些早期NAS算法存在的問題,然后為后續的相關研究工作提供解決方案。并對這些作品進行了詳細而全面的分析、比較和總結。最后,提出了今后可能的研究方向。
概述
深度學習已經在機器翻譯[1-3]、圖像識別[4,6,7]和目標檢測[8-10]等許多領域展示了強大的學習能力。這主要是因為深度學習對非結構化數據具有強大的自動特征提取功能。深度學習已經將傳統的手工設計特征[13,14]轉變為自動提取[4,29,30]。這使得研究人員可以專注于神經結構的設計[11,12,19]。但是神經結構的設計很大程度上依賴于研究者的先驗知識和經驗,這使得初學者很難根據自己的實際需要對網絡結構進行合理的修改。此外,人類現有的先驗知識和固定的思維范式可能會在一定程度上限制新的網絡架構的發現。
因此,神經架構搜索(NAS)應運而生。NAS旨在通過使用有限的計算資源,以盡可能少的人工干預的自動化方式設計具有最佳性能的網絡架構。NAS- RL[11]和MetaQNN[12]的工作被認為是NAS的開創性工作。他們使用強化學習(RL)方法得到的網絡架構在圖像分類任務上達到了SOTA分類精度。說明自動化網絡架構設計思想是可行的。隨后,大規模演化[15]的工作再次驗證了這一想法的可行性,即利用演化學習來獲得類似的結果。然而,它們在各自的方法中消耗了數百天的GPU時間,甚至更多的計算資源。如此龐大的計算量對于普通研究者來說幾乎是災難性的。因此,如何減少計算量,加速網絡架構的搜索[18-20,48,49,52,84,105]就出現了大量的工作。與NAS的提高搜索效率,NAS也迅速應用領域的目標檢測(65、75、111、118),語義分割(63、64、120),對抗學習[53],建筑規模(114、122、124),多目標優化(39、115、125),platform-aware(28日34、103、117),數據增加(121、123)等等。另外,如何在性能和效率之間取得平衡也是需要考慮的問題[116,119]。盡管NAS相關的研究已經非常豐富,但是比較和復制NAS方法仍然很困難[127]。由于不同的NAS方法在搜索空間、超參數技巧等方面存在很多差異,一些工作也致力于為流行的NAS方法提供一個統一的評估平臺[78,126]。
隨著NAS相關研究的不斷深入和快速發展,一些之前被研究者所接受的方法被新的研究證明是不完善的。很快就有了改進的解決方案。例如,早期的NAS在架構搜索階段從無到有地訓練每個候選網絡架構,導致計算量激增[11,12]。ENAS[19]提出采用參數共享策略來加快架構搜索的進程。該策略避免了從頭訓練每個子網,但強制所有子網共享權值,從而大大減少了從大量候選網絡中獲得性能最佳子網的時間。由于ENAS在搜索效率上的優勢,權值共享策略很快得到了大量研究者的認可[23,53,54]。不久,新的研究發現,廣泛接受的權重分配策略很可能導致候選架構[24]的排名不準確。這將使NAS難以從大量候選架構中選擇最優的網絡架構,從而進一步降低最終搜索的網絡架構的性能。隨后DNA[21]將NAS的大搜索空間模塊化成塊,充分訓練候選架構以減少權值共享帶來的表示移位問題。此外,GDAS-NSAS[25]提出了一種基于新的搜索架構選擇(NSAS)損失函數來解決超網絡訓練過程中由于權值共享而導致的多模型遺忘問題。
在快速發展的NAS研究領域中,類似的研究線索十分普遍,基于挑戰和解決方案對NAS研究進行全面、系統的調研是非常有用的。以往的相關綜述主要根據NAS的基本組成部分: 搜索空間、搜索策略和評估策略對現有工作進行分類[26,27]。這種分類方法比較直觀,但不利于讀者捕捉研究線索。因此,在本次綜述查中,我們將首先總結早期NAS方法的特點和面臨的挑戰。基于這些挑戰,我們對現有研究進行了總結和分類,以便讀者能夠從挑戰和解決方案的角度進行一個全面和系統的概述。最后,我們將比較現有的研究成果,并提出未來可能的研究方向和一些想法。
高斯過程(GPs)為核機器的學習提供了一種有原則的、實用的、概率的方法。在過去的十年中,GPs在機器學習社區中得到了越來越多的關注,這本書提供了GPs在機器學習中理論和實踐方面長期需要的系統和統一的處理。該書是全面和獨立的,針對研究人員和學生在機器學習和應用統計學。
這本書處理監督學習問題的回歸和分類,并包括詳細的算法。提出了各種協方差(核)函數,并討論了它們的性質。從貝葉斯和經典的角度討論了模型選擇。討論了許多與其他著名技術的聯系,包括支持向量機、神經網絡、正則化網絡、相關向量機等。討論了包括學習曲線和PAC-Bayesian框架在內的理論問題,并討論了幾種用于大數據集學習的近似方法。這本書包含說明性的例子和練習,和代碼和數據集在網上是可得到的。附錄提供了數學背景和高斯馬爾可夫過程的討論。
書名: Hands-On Machine Learning with Scikit-Learn and TensorFlow
主要內容:
這本書分為兩個部分。
第一部分,機器學習的基礎知識,涵蓋以下主題:
第二部分,神經網絡和深度學習,包括以下主題:
第一部分主要基于 scikit-learn ,而第二部分則使用 TensorFlow 。 注意:不要太急于深入學習到核心知識:深度學習無疑是機器學習中最令人興奮的領域之 一,但是你應該首先掌握基礎知識。而且,大多數問題可以用較簡單的技術很好地解決(而 不需要深度學習),比如隨機森林和集成方法(我們會在第一部分進行討論)。如果你擁有 足夠的數據,計算能力和耐心,深度學習是最適合復雜的問題的,如圖像識別,語音識別或 自然語言處理。
本備忘單是機器學習手冊的濃縮版,包含了許多關于機器學習的經典方程和圖表,旨在幫助您快速回憶起機器學習中的知識和思想。
這個備忘單有兩個顯著的優點:
清晰的符號。數學公式使用了許多令人困惑的符號。例如,X可以是一個集合,一個隨機變量,或者一個矩陣。這是非常混亂的,使讀者很難理解數學公式的意義。本備忘單試圖規范符號的使用,所有符號都有明確的預先定義,請參見小節。
更少的思維跳躍。在許多機器學習的書籍中,作者省略了數學證明過程中的一些中間步驟,這可能會節省一些空間,但是會給讀者理解這個公式帶來困難,讀者會在中間迷失。
近幾年來,隨著機器學習的普及,機器學習系統的公平性問題引起了實際的道德、社會等問題。圖書《公平性與機器學習—局限與機遇》以公平性為核心問題來看待機器學習,提供了對當前機器學習實踐以及為實現公平而提出的技術修復方案的批判性思考。
社會、道德和機器學習自身等角度,介紹了目前機器學習中的公平性問題,如由于數據導致的偏置(bias)等問題。
圖書《Fairness and Machine Learning - Limitations and Opportunities》(《公平性與機器學習—局限與機遇》)以公平性為核心問題來看待機器學習,強調機器學習在道德方面的挑戰。作者希望該書盡可能地被廣泛閱讀,但在寫作時依然堅持著技術的嚴謹性。該書并沒有提供包羅萬象的對公平性完整的正式定義,也沒有提出一個快速解決社會對自動決策擔憂的修復方案。
解決機器學習公平性問題需要認真理解機器學習工具的局限性。該書提供了對當前機器學習實踐以及為實現公平而提出的技術修復方案的批判性思考。雖然這些問題都沒有簡單的答案,作者希望這本書能夠幫助讀者更深層次地理解如何構建負責任的機器學習系統。