來自卡內基梅隆大學機器人研究所Zhanghao博士論文,他師從著名的邢波教授!博士題目是機器學習并行可以是自適應的、可組合的和自動化的,不可錯過!
Zhang hao, 卡內基梅隆大學機器人研究所博士,導師是Eric Xing教授。畢業后將加入加州大學伯克利分校的RISE實驗室,做博士后。 //www.cs.cmu.edu/~hzhang2/
Machine Learning Parallelism Could Be Adaptive, Composable and Automated
近年來,機器學習(ML)領域的創新步伐加快,SysML的研究人員已經創建了在多個設備或計算節點上并行化ML訓練的算法和系統。隨著ML模型在結構上變得越來越復雜,許多系統都努力在各種模型上提供全面的性能。一般來說,根據從適當的分布策略映射到模型所需的知識數量和時間,ML的規模通常被低估了。將并行訓練系統應用到復雜的模型中,除了模型原型之外,還增加了重要的開發開銷,并且經常導致低于預期的性能。本文識別并解決并行ML技術和系統實現在可用性和性能方面的研究挑戰。
本文的第一部分提出了一個簡單的設計原則,自適應并行化,它根據特定的ML屬性將適當的并行化技術應用于模型構建塊(如層)。接下來,我們導出了一系列優化ML并行化不同方面的優化和實現。我們對它們進行了研究,并表明它們顯著提高了ML訓練在適用場景下對集群進行2-10倍的效率或可伸縮性。
為了推廣這種方法,本論文的第二部分將ML并行化為端到端優化問題,并尋求自動解決它,用于ML并行任務的兩種廣泛范例:單節點動態批處理和分布式ML并行。我們提出了有原則的表示來表示兩類ML并行性,以及可組合的系統架構,分別是Cavs和AutoDist。它們支持為不可見的模型快速組合并行化策略,提高并行化性能,并簡化并行ML編程。
在此基礎上,本文的第三部分提出了自動并行化框架AutoSync,用于自動優化數據并行分布訓練中的同步策略。AutoSync實現了“開框即用”的高性能——它在提議的表現方式所覆蓋的范圍內導航,并自動識別同步策略,這些同步策略的速度比現有手動優化的系統快1.2 - 1.6倍,降低了分布式ML的技術障礙,并幫助更大的用戶社區訪問它。本文所開發的技術和系統為分布式環境下大規模ML訓練的端到端編譯器系統的概念和原型實現提供了理論依據。
論文結構:
第一部分(第三章-第五章):通過自適應并行來理解和優化并行ML在各個方面的性能; 第二部分(第六章-第七章):開發ML并行的統一表示和可組合系統; 第三部分(第八章):自動化ML并行化
教機器理解人類語言文檔是人工智能領域最難以捉摸和長期存在的挑戰之一。本文探討了閱讀理解的問題:如何構建計算機系統來閱讀一篇文章并回答理解問題。一方面,我們認為閱讀理解是評估計算機系統理解人類語言能力的一項重要任務。另一方面,如果我們能夠構建高性能的閱讀理解系統,它們將成為問答和對話系統等應用的關鍵技術。
本文主要研究了基于深度神經網絡的閱讀理解模型。與傳統的稀疏的、手工設計的基于特征的模型相比,這些端到端神經模型被證明在學習豐富的語言現象方面更有效,并在很大程度上提高了所有現代閱讀理解基準的性能。
本文由兩部分組成。第一部分,我們的目標是涵蓋神經閱讀理解的本質,并介紹我們在構建有效的神經閱讀壓縮模型方面所做的努力,更重要的是了解神經閱讀理解模型實際學習了什么,以及解決當前任務需要多大的語言理解深度。我們還總結了該領域的最新進展,并討論了該領域未來的發展方向和有待解決的問題。
在本文的第二部分,我們探討了如何基于最近神經閱讀理解的成功構建實際應用。特別是,我們開創了兩個新的研究方向:1)如何將信息檢索技術與神經閱讀理解相結合,解決大規模開放領域的問題回答;和2)如何從現有的單輪、基于斯潘語言的閱讀理解模型中構建會話問答系統。我們在DRQA和COQA項目中實現了這些想法,并證明了這些方法的有效性。我們相信它們對未來的語言技術有著巨大的前景。
在生態學、流行病學和天文學等許多應用領域中,仿真模型被用來研究發生在自然界中的復雜現象。通常,這些模型的似然函數的分析形式要么是不可用的,要么是太昂貴而無法評估,從而使統計推斷復雜化。無概率推理(LFI)方法,如近似貝葉斯計算(ABC),基于用模型的正演模擬代替難以處理的似然評估,已成為對仿真模型進行推理的一種流行方法。然而,當前的LFI方法在計算和統計方面存在一些挑戰。特別是,標準的ABC算法需要大量的仿真,這使得它們在前向仿真代價昂貴的情況下不可行。
本文討論了計算代價高的模型的無概率推理。主要貢獻是基于高斯過程代理模型的LFI一致性框架。GP模型允許對仿真模型輸出的平滑假設進行編碼,以減少所需的仿真量。此外,由于模擬預算有限,所產生的基于模型的后驗逼近的不確定性可以被量化。我們提出貝葉斯實驗設計策略來選擇評估地點,以使計算成本最小化。順序設計(每次選擇一個模擬)和批處理策略(允許利用并行計算)都是推導出來的。除了LFI場景外,本文提出的方法也適用于可能性可以評估但代價昂貴的情況。
本質上,所提出的框架可以被視為概率數值方法的LFI對等物,如貝葉斯優化,用于優化昂貴的目標函數,貝葉斯求積,用于計算昂貴函數的積分。我們通過大量的經驗模擬證明了所提出的LFI方法的優點。文中還對所提算法進行了理論分析,并討論了它們與其他GP代理方法的關系。
近年來,深度學習徹底改變了機器學習和計算機視覺。許多經典的計算機視覺任務(例如目標檢測和語義分割),傳統上非常具有挑戰性,現在可以使用監督深度學習技術來解決。雖然監督學習是一個強大的工具,當標簽數據是可用的,并考慮的任務有明確的輸出,這些條件并不總是滿足。在這種情況下,生成建模給出了一個很有前途的方法。與純粹的判別型模型相比,生成型模型可以處理不確定性,甚至在沒有標簽訓練數據的情況下也可以學習強大的模型。然而, 雖然目前的方法生成建模取得可喜的成果, 他們遭受兩個方面,限制他們的表現力: (i) 為圖像數據建模的一些最成功的方法不再使用優化算法來訓練,而是使用其動力學尚未被很好理解的算法,(ii) 生成模型往往受到輸出表示的內存需求的限制。我們在本文中解決了這兩個問題:在第一部分中,我們介紹了一個理論,它使我們能夠更好地理解生成式對抗網絡(GANs)的訓練動力學,這是生成式建模最有前途的方法之一。我們通過引入可解析理解的GAN訓練的最小示例問題來解決這個問題。隨后,我們逐漸增加了這些示例的復雜性。通過這樣做,我們對GANs的訓練動力學有了新的認識,并推出了新的正則化器,也適用于一般的GANs。新的正則化器使我們能夠——第一次——以百萬像素的分辨率訓練GAN,而不必逐漸增加訓練分布的分辨率。在本論文的第二部分,我們考慮生成模型的三維輸出表示和三維重建技術。通過將隱式表示法引入深度學習,我們能夠在不犧牲表現力的情況下將許多2D領域的技術擴展到3D領域。
異步分布式計算系統的模型。基本概念的并發和同步,通信,可靠性,拓撲和電子約束,時間和空間的復雜性,和分布式算法。
使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。
凸優化作為一個數學問題已經被研究了一個多世紀,并在許多應用領域的實踐中應用了大約半個世紀,包括控制、金融、信號處理、數據挖掘和機器學習。本文主要研究凸優化的幾個問題,以及機器學習的具體應用。
在過去的20年里,基因組學、神經科學、經濟學和互聯網服務等許多領域產生了越來越多的大數據集,這些數據集有高維、大樣本,或者兩者兼之。這為我們從數據中檢索和推斷有價值的信息提供了前所未有的機會。同時,也對統計方法和計算算法提出了新的挑戰。一方面,我們希望建立一個合理的模型來捕獲所需的結構,并提高統計估計和推斷的質量。另一方面,面對越來越大的數據集,計算可能成為一個巨大的障礙,以得出有意義的結論。這篇論文站在兩個主題的交叉點,提出了統計方法來捕獲所需的數據結構,并尋求可擴展的方法來優化計算非常大的數據集。我們提出了一種可擴展的靈活框架,用于利用lasso/elastic-net解決大規模稀疏回歸問題; 提出了一種可伸縮的框架,用于在存在多個相關響應和其他細微差別(如缺失值)的情況下解決稀疏縮減秩回歸問題。分別在snpnet和multiSnpnet R包中以PLINK 2.0格式為基因組數據開發了優化的實現。這兩種方法在超大和超高維的英國生物樣本庫研究中得到了驗證,與傳統的預測建模方法相比有了顯著的改進。此外,我們考慮了一類不同的高維問題,異質因果效應的估計。與監督學習的設置不同,這類問題的主要挑戰在于,在歷史數據中,我們從未觀察到硬幣的另一面,因此我們無法獲得處理之間真正差異的基本真相。我們提出適應非參數統計學習方法,特別是梯度增強和多元自適應回歸樣條,以估計處理效果的預測器可用。實現被打包在一個R包causalLearning中。
論文題目:Acquiring Diverse Robot Skills via Maximum Entropy Deep Reinforcement Learning
作者:Tuomas Haarnoja
導師:Pieter Abbeel and Sergey Levine
網址:
//www2.eecs.berkeley.edu/Pubs/TechRpts/2018/EECS-2018-176.html
論文摘要:
在本文中,我們研究了最大熵框架如何提供有效的深度強化學習(deep reinforcement learning, deep RL)算法,以連貫性地解決任務并有效地進行樣本抽取。這個框架有幾個有趣的特性。首先,最優策略是隨機的,改進了搜索,防止了收斂到局部最優,特別是當目標是多模態的時候。其次,熵項提供了正則化,與確定性方法相比,具有更強的一致性和魯棒性。第三,最大熵策略是可組合的,即可以組合兩個或兩個以上的策略,并且所得到的策略對于組成任務獎勵的總和是近似最優的。第四,最大熵RL作為概率推理的觀點為構建能夠解決復雜和稀疏獎勵任務的分層策略提供了基礎。在第一部分中,我們將在此基礎上設計新的算法框架,從soft Q學習的學習表現力好的能量策略、對于 sodt actor-critic提供簡單和方便的方法,到溫度自動調整策略, 幾乎不需要hyperparameter調優,這是最重要的一個實際應用的調優hyperparameters可以非常昂貴。在第二部分中,我們將討論由最大熵策略固有的隨機特性所支持的擴展,包括組合性和層次學習。我們將演示所提出的算法在模擬和現實機器人操作和移動任務中的有效性。
主題: Towards Automatic Machine Learning Pipeline Design
簡介: 數據收集量的迅速增加,使決策的瓶頸迅速從缺乏數據轉向缺乏數據科學家,以幫助分析收集的數據。此外,用于數據分析的新潛在解決方案和方法的發布速度已經超過了人類數據科學家所能遵循的速度。同時,我們注意到數據科學家在分析過程中執行的許多任務都可以自動化。自動機器學習(AutoML)研究和解決方案試圖使部分甚至整個數據分析過程自動化。我們解決了自動化研究中的兩個挑戰: 首先,如何表示適合元學習的ML程序;第二,如何改進自動系統的評估,使之能夠比較各種方法,而不僅僅是預測。為此,我們設計并實現了一個ML程序框架,該框架提供了以標準方式描述ML程序所需的所有組件。該框架是可擴展的,框架的組件之間是解耦的,例如,該框架可以用來描述使用神經網絡的ML程序。我們為執行框架中描述的程序提供參考工具。我們還設計并實現了一個服務,一個元學習數據庫,它存儲由不同的自動化系統生成的執行ML程序的信息。
我們通過測量使用框架與執行直接調用底層庫的ML程序的計算開銷來評估框架。我們注意到框架的ML程序執行時間比不使用該框架的ML程序慢一個數量級,內存使用量是不使用該框架的ML程序的兩倍。 通過比較使用我們的框架的10個不同的AutoML系統,我們展示了我們的框架評估AutoML系統的能力。結果表明,該框架既可以用來描述一組不同的ML程序,又可以用來明確地確定哪個自動化系統生成了最佳的ML程序。在許多情況下,生成的ML程序的性能優于由人類專家編寫的ML程序。