欧美精品日韩精品国内精品-亚洲一区二区免费视频

主題： Towards Automatic Machine Learning Pipeline Design

簡介： 數據收集量的迅速增加，使決策的瓶頸迅速從缺乏數據轉向缺乏數據科學家，以幫助分析收集的數據。此外，用于數據分析的新潛在解決方案和方法的發布速度已經超過了人類數據科學家所能遵循的速度。同時，我們注意到數據科學家在分析過程中執行的許多任務都可以自動化。自動機器學習(AutoML)研究和解決方案試圖使部分甚至整個數據分析過程自動化。我們解決了自動化研究中的兩個挑戰: 首先，如何表示適合元學習的ML程序;第二，如何改進自動系統的評估，使之能夠比較各種方法，而不僅僅是預測。為此，我們設計并實現了一個ML程序框架，該框架提供了以標準方式描述ML程序所需的所有組件。該框架是可擴展的，框架的組件之間是解耦的，例如，該框架可以用來描述使用神經網絡的ML程序。我們為執行框架中描述的程序提供參考工具。我們還設計并實現了一個服務，一個元學習數據庫，它存儲由不同的自動化系統生成的執行ML程序的信息。

我們通過測量使用框架與執行直接調用底層庫的ML程序的計算開銷來評估框架。我們注意到框架的ML程序執行時間比不使用該框架的ML程序慢一個數量級，內存使用量是不使用該框架的ML程序的兩倍。通過比較使用我們的框架的10個不同的AutoML系統，我們展示了我們的框架評估AutoML系統的能力。結果表明，該框架既可以用來描述一組不同的ML程序，又可以用來明確地確定哪個自動化系統生成了最佳的ML程序。在許多情況下，生成的ML程序的性能優于由人類專家編寫的ML程序。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

不完全信息決策 · 信息論 ·

2020 年 6 月 24 日

[付費5元查看完整內容]【硬核書】不完全信息決策理論，467頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在復雜的以人為中心的系統中，每天的決策都具有決策相關信息不完全的特點。現有決策理論的主要問題是，它們沒有能力處理概率和事件不精確的情況。在這本書中，我們描述了一個新的理論的決策與不完全的信息。其目的是將決策分析和經濟行為的基礎從領域二價邏輯轉向領域模糊邏輯和Z約束，從行為決策的外部建模轉向組合狀態的框架。

這本書將有助于在模糊邏輯，決策科學，人工智能，數學經濟學，和計算經濟學的專業人員，學者，經理和研究生。

讀者:專業人士，學者，管理者和研究生在模糊邏輯，決策科學，人工智能，數學經濟學，和計算經濟學。

付費5元查看完整內容

神經架構搜索 · 綜述論文 ·

2020 年 6 月 5 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度學習在許多領域都取得了重大突破和進展。這是因為深度學習具有強大的自動表示能力。實踐證明，網絡結構的設計對數據的特征表示和最終的性能至關重要。為了獲得良好的數據特征表示，研究人員設計了各種復雜的網絡結構。然而，網絡架構的設計在很大程度上依賴于研究人員的先驗知識和經驗。因此，一個自然的想法是盡量減少人為的干預，讓算法自動設計網絡的架構。因此，這需要更深入到強大的智慧。

近年來,大量相關的神經結構搜索算法(NAS)已經出現。他們對NAS算法進行了各種改進，相關研究工作復雜而豐富。為了減少初學者進行NAS相關研究的難度，對NAS進行全面系統的調查是必不可少的。之前的相關調查開始主要從NAS的基本組成部分: 搜索空間、搜索策略和評估策略對現有工作進行分類。這種分類方法比較直觀，但是讀者很難把握中間的挑戰和標志性作品。因此，在本次調查中，我們提供了一個新的視角:首先概述最早的NAS算法的特點，總結這些早期NAS算法存在的問題，然后為后續的相關研究工作提供解決方案。并對這些作品進行了詳細而全面的分析、比較和總結。最后，提出了今后可能的研究方向。

概述

深度學習已經在機器翻譯[1-3]、圖像識別[4,6,7]和目標檢測[8-10]等許多領域展示了強大的學習能力。這主要是因為深度學習對非結構化數據具有強大的自動特征提取功能。深度學習已經將傳統的手工設計特征[13,14]轉變為自動提取[4,29,30]。這使得研究人員可以專注于神經結構的設計[11,12,19]。但是神經結構的設計很大程度上依賴于研究者的先驗知識和經驗，這使得初學者很難根據自己的實際需要對網絡結構進行合理的修改。此外，人類現有的先驗知識和固定的思維范式可能會在一定程度上限制新的網絡架構的發現。

因此，神經架構搜索(NAS)應運而生。NAS旨在通過使用有限的計算資源，以盡可能少的人工干預的自動化方式設計具有最佳性能的網絡架構。NAS- RL[11]和MetaQNN[12]的工作被認為是NAS的開創性工作。他們使用強化學習(RL)方法得到的網絡架構在圖像分類任務上達到了SOTA分類精度。說明自動化網絡架構設計思想是可行的。隨后，大規模演化[15]的工作再次驗證了這一想法的可行性，即利用演化學習來獲得類似的結果。然而，它們在各自的方法中消耗了數百天的GPU時間，甚至更多的計算資源。如此龐大的計算量對于普通研究者來說幾乎是災難性的。因此，如何減少計算量，加速網絡架構的搜索[18-20,48,49,52,84,105]就出現了大量的工作。與NAS的提高搜索效率,NAS也迅速應用領域的目標檢測(65、75、111、118),語義分割(63、64、120),對抗學習[53],建筑規模(114、122、124),多目標優化(39、115、125),platform-aware(28日34、103、117),數據增加(121、123)等等。另外，如何在性能和效率之間取得平衡也是需要考慮的問題[116,119]。盡管NAS相關的研究已經非常豐富，但是比較和復制NAS方法仍然很困難[127]。由于不同的NAS方法在搜索空間、超參數技巧等方面存在很多差異，一些工作也致力于為流行的NAS方法提供一個統一的評估平臺[78,126]。

隨著NAS相關研究的不斷深入和快速發展，一些之前被研究者所接受的方法被新的研究證明是不完善的。很快就有了改進的解決方案。例如，早期的NAS在架構搜索階段從無到有地訓練每個候選網絡架構，導致計算量激增[11,12]。ENAS[19]提出采用參數共享策略來加快架構搜索的進程。該策略避免了從頭訓練每個子網，但強制所有子網共享權值，從而大大減少了從大量候選網絡中獲得性能最佳子網的時間。由于ENAS在搜索效率上的優勢，權值共享策略很快得到了大量研究者的認可[23,53,54]。不久，新的研究發現，廣泛接受的權重分配策略很可能導致候選架構[24]的排名不準確。這將使NAS難以從大量候選架構中選擇最優的網絡架構，從而進一步降低最終搜索的網絡架構的性能。隨后DNA[21]將NAS的大搜索空間模塊化成塊，充分訓練候選架構以減少權值共享帶來的表示移位問題。此外，GDAS-NSAS[25]提出了一種基于新的搜索架構選擇(NSAS)損失函數來解決超網絡訓練過程中由于權值共享而導致的多模型遺忘問題。

在快速發展的NAS研究領域中，類似的研究線索十分普遍，基于挑戰和解決方案對NAS研究進行全面、系統的調研是非常有用的。以往的相關綜述主要根據NAS的基本組成部分: 搜索空間、搜索策略和評估策略對現有工作進行分類[26,27]。這種分類方法比較直觀，但不利于讀者捕捉研究線索。因此，在本次綜述查中，我們將首先總結早期NAS方法的特點和面臨的挑戰。基于這些挑戰，我們對現有研究進行了總結和分類，以便讀者能夠從挑戰和解決方案的角度進行一個全面和系統的概述。最后，我們將比較現有的研究成果，并提出未來可能的研究方向和一些想法。

付費5元查看完整內容

數據 · 數據倉庫 · IT書籍 ·

2020 年 3 月 11 日

[付費5元查看完整內容]【2020新書】如何構建數據團隊？:設計集成的技能、需求和解決方案，257頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

找到有合適技能的人。本書闡明了創建高效能數據集成團隊的最佳實踐，使您能夠理解計劃、設計和監視一次性遷移和日常集成系統的技能和需求、文檔和解決方案。

數據的增長是爆炸式的。隨著跨企業系統的多個信息源的不斷到達，將這些系統組合成一個單一的、內聚的、可記錄的單元變得比以往任何時候都更加重要。但是，與其他軟件規程相比，集成的方法有很大的不同，它要求能夠編寫代碼、協作并將復雜的業務規則分解為可伸縮的模型。

數據遷移和集成可能很復雜。在許多情況下，項目團隊將實際的遷移保留到項目的最后一個周末，任何問題都可能導致錯過最后期限，或者在最壞的情況下導致需要在部署后進行協調的數據損壞。本書詳細介紹了如何進行戰略規劃以避免這些最后時刻的風險，以及如何為未來的集成項目構建正確的解決方案。

你會學到什么

理解集成的“語言”，以及它們在優先級和所有權方面的關系
創建有價值的文檔，帶領您的團隊從發現到部署
研究當今市場上最重要的集成工具
監視您的錯誤日志，并查看輸出如何增加持續改進的周期
為整個企業提供有價值的集成解決方案

這本書是給誰看的

構建相應實踐的執行和集成團隊領導。它也適用于需要額外熟悉ETL工具、集成過程和相關項目可交付成果的集成架構師、開發人員和業務分析人員

付費5元查看完整內容

面向對象 · 代碼風格 ·

2020 年 1 月 26 日

[付費5元查看完整內容]【2020新書】對象風格設計指南，Object Design Style Guide，289頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

總結

對象是Java、Python、c#等語言的核心概念。應用對象設計的最佳實踐意味著您的代碼將易于讀、寫和維護。對象設計風格指南捕捉了幾十種創建高質量的OO代碼的技術，這些代碼可以經受住時間的考驗。這些例子都是非常熟悉的偽代碼，您可以將這些教學技術應用于任何OO語言，從c++到PHP。

對這項技術

編寫良好的OO代碼是閱讀、修改和調試的樂趣。通過掌握本書中介紹的對象設計的通用最佳實踐來提升您的編碼風格。這些清晰呈現的規則適用于任何OO語言，最大限度地提高代碼庫的清晰度和持久性，并提高您和您的團隊的生產力。

關于這本書

對象設計風格指南提供了幾十種編寫面向對象代碼的專業技術。在其中，經驗豐富的開發人員Matthias Noback列出了構造對象、定義方法、更改和公開狀態等方面的設計規則。所有示例都使用非常熟悉的偽代碼，因此您可以按照自己喜歡的語言進行學習。在您探索對象設計的重要場景和挑戰時，您將一個案例一個案例地研究，然后通過一個簡單的web應用程序演示不同類型的對象如何有效地協同工作。

里面有什么

廣泛對象的通用設計規則
測試對象的最佳實踐
常見對象類型的目錄
每個章節的練習來測試你的對象設計技能

付費5元查看完整內容

自動機器學習 · 機器學習 ·

2019 年 12 月 18 日

[付費5元查看完整內容]【開放書】《自動化機器學習：方法，系統與挑戰》，附223頁pdf下載

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

【導讀】這本書對自動化機器學習（AutoML）的一般化方法進行了全面的闡述，并且收集了以這些方法為基礎的系統的描述和一系列關于自動化機器學習系統領域的挑戰。最近，機器學習在商業領域取得的成就和該領域的快速增長對機器學習產生了大量的需求，尤其是可以很容易地使用，并且不需要專家知識的機器學習方法。然而，當前許多表現優異的機器學習方法的大多都依賴人類專家去手動選擇適當的機器學習架構以及模型的超參數（深度學習架構或者更加傳統的機器學習方法）。為了克服這個問題，AutoML基于優化原理和機器學習本身去逐步實現機器學習的自動化。這本書可以為為研究人員和高年級學生提供一個進入這個快速發展的領域的切入點，同時也為打算在工作中使用AutoML的從業者提供參考。

第一部分自動機器學習方法

每個機器學習系統都有超參數，而自動化機器學習最基本的任務就是自動設置這些超參數來優化性能。尤其是最近的深度神經網絡嚴重依賴對于神經網絡的結構、正則化和優化等超參數的選擇。自動優化超參數(HPO)有幾個重要的用例：?

減少機器學習應用過程中所需的人力。這在自動化機器學習（AutoML）的上下文中尤其重要。
提高機器學習算法的性能(根據實際問題調整算法);這已經在一些研究中對重要的機器學習基準方法產生了效果。
提高科學研究的再現性和公平性。自動化的HPO顯然比手工搜索更具可重復性。它使得不同的方法可以公平的比較，因為不同的方法只有在它們在相同級別的問題上調優時才能公平地進行比較。

第二部分自動化機器學習系統

越來越多的非領域專家開始學習使用機器學習工具，他們需要非獨立的解決方案。機器學習社區通過開源代碼為這些用戶提供了大量復雜的學習算法和特征選擇方法，比如WEKA和mlr。這些開源包需要使用者做出兩種選擇：選擇一種學習算法，并通過設置超參數對其進行定制。然而想要一次性做出正確的選擇是非常具有挑戰性的，這使得許多用戶不得不通過算法的聲譽或直覺來進行選擇，并將超參數設置為默認值。當然，采用這種方法所獲得的性能要比最佳方法進行超參數設置差得多。

第三部分自動化機器學習面臨的挑戰

直到十年之前，機器學習還是一門鮮為人知的學科。對于機器學習領域的科學家們來說，這是一個“賣方市場”:他們研究產出了大量的算法，并不斷地尋找新的有趣的數據集。大的互聯網公司積累了大量的數據，如谷歌，Facebook，微軟和亞馬遜已經上線了基于機器學習的應用，數據科學競賽也吸引了新一代的年輕科學家。如今，隨著開放性數據的增加，政府和企業不斷發掘機器學習的新的應用領域。然而，不幸的是機器學習并不是全自動的：依舊很難確定哪個算法一定適用于哪種問題和如何選擇超參數。完全自動化是一個無界的問題，因為總是有一些從未遇到過的新設置。AutoML面臨的挑戰包括但不限于：

監督學習問題（分類和回歸）
特征向量表示問題
數據集特征分布問題（訓練集，驗證集和測試集分布相同）
小于200兆字節的中型數據集
有限的計算資源

付費5元查看完整內容

機器學習 · 文獻綜述 ·

2019 年 10 月 13 日

[付費5元查看完整內容]自動機器學習：最新進展綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

AutoML: A Survey of the State-of-the-Art

深度學習已經滲透到我們生活的方方面面，給我們帶來了極大的便利。然而，針對某一特定任務構建高質量的深度學習系統的過程不僅耗時，而且需要大量的資源和人力，阻礙了深度學習在產業界和學術界的發展。為了緩解這一問題，越來越多的研究項目關注于自動化機器學習(AutoML)。在本文中，我們提供了一個全面的和最新的研究，在最先進的汽車。首先，根據機器學習的特點，詳細介紹了自動化技術。在此基礎上，總結了神經結構搜索(NAS)的研究現狀，這是目前自動化領域研究的熱點之一。我們還將NAS算法生成的模型與人工設計的模型進行了比較。最后，提出了有待進一步研究的幾個問題。

付費5元查看完整內容