題目: Learning@home: Crowdsourced Training of Large Neural Networks with Decentralized Mixture-of-Experts
摘要:
最近在深度學習方面的許多突破都是通過在海量數據集上訓練越來越大的模型實現的。然而,訓練這樣的模型可能會非常昂貴。例如,威震天在一個價值2500萬美元的GPU集群上訓練了83億參數的語言模型。因此,大多數研究人員無法負擔訓練最先進模型的費用并為其發展作出貢獻。假設,研究人員可以用志愿者提供的數千臺常規PC來眾包大型神經網絡的訓練。1萬臺價值2500美元的臺式機的原始計算能力使價值2500萬美元的服務器pod相形見絀,但是使用傳統的分布式訓練方法無法有效地利用這種能力。在這項工作中,我們提出了Learning@home:一種神經網絡訓練范式,用于處理數百萬連接不良的參與者。我們分析了該范例的性能、可靠性和架構約束,并將其與現有的分布式培訓技術進行了比較。
題目:
Con?dence-Aware Learning for Deep Neural Networks
簡介:
盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。
本文介紹了一階優化方法及其在機器學習中的應用。這不是一門關于機器學習的課程(特別是它不涉及建模和統計方面的考慮),它側重于使用和分析可以擴展到具有大量參數的大型數據集和模型的廉價方法。這些方法都是圍繞“梯度下降”的概念而變化的,因此梯度的計算起著主要的作用。本課程包括最優化問題的基本理論性質(特別是凸分析和一階微分學)、梯度下降法、隨機梯度法、自動微分、淺層和深層網絡。
題目
Keywords extraction with deep neural network model
關鍵詞
關鍵詞提取,自然語言處理,深度神經語言模型,人工智能
簡介
關鍵字可以表達文章或句子的主要內容。關鍵字提取是許多自然語言處理(NLP)應用程序中的關鍵問題,它可以提高許多NLP系統的性能。關鍵字提取的傳統方法基于機器學習或圖模型。這些方法的性能受功能選擇和手動定義的規則影響。近年來,隨著深度學習技術的出現,具有深度學習算法的自動學習功能可以提高許多任務的性能。在本文中,我們提出了一種用于關鍵字提取任務的深度神經網絡模型。我們在傳統LSTM模型的基礎上進行了兩個擴展。首先,為了更好地利用給定目標詞的歷史和后續上下文信息,我們提出了基于目標中心的LSTM模型(TC-LSTM),該模型通過考慮目標詞的上下文信息來學習對目標詞進行編碼。其次,在TC-LSTM模型的基礎上,我們應用了自我關注機制,這使我們的模型能夠專注于相關文本的信息部分。另外,我們還介紹了一種利用大規模偽訓練數據的兩階段訓練方法。實驗結果表明了我們方法的優勢,我們的模型擊敗了所有基準系統。而且,兩階段訓練方法對于提高模型的有效性也具有重要意義。
作者
Yu Zhang, Mingxiang Tuo, Qingyu Yin, Le Qi, Xuxiang Wang, Ting Liu
題目
二值神經網絡綜述,Binary Neural Networks: A Survey
關鍵詞
二進制神經網絡,深度學習,模型壓縮,網絡量化,模型加速
簡介
二進制神經網絡在很大程度上節省了存儲和計算成本,是一種在資源有限的設備上部署深度模型的有前途的技術。 然而,二值化不可避免地導致嚴重的信息丟失,甚至更糟的是,其不連續性給深度網絡的優化帶來了困難。 為了解決這些問題,近年來提出了多種算法,并取得了令人滿意的進展。 在本文中,我們對這些算法進行了全面的概述,主要分為直接進行二值化的本機解決方案,以及使用使量化誤差最小化,改善網絡損耗函數和減小梯度誤差等技術進行優化的解決方案。 我們還將研究二進制神經網絡的其他實用方面,例如硬件友好的設計和訓練技巧。 然后,我們對不同的任務進行了評估和討論,包括圖像分類,對象檢測和語義分割。 最后,展望了未來研究可能面臨的挑戰。
作者
Haotong Qina , Ruihao Gonga , Xianglong Liu?a,b, Xiao Baie , Jingkuan Songc , Nicu Sebe
主題: Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic
摘要: 深度強化學習(DRL)方法在經濟學中的應用已成倍增加。 DRL通過從強化學習(RL)和深度學習(DL)的廣泛功能來處理復雜的動態業務環境提供了廣闊的機遇。 DRL的特點是可伸縮性,它有可能結合經濟數據的噪聲和非線性模式應用于高維問題。在這項工作中,我們首先考慮對經濟學中各種應用中的DL,RL和深層RL方法進行簡要回顧,以提供對最新技術水平的深入了解。此外,研究了應用于經濟應用的DRL體系結構,以突出其復雜性,魯棒性,準確性,性能,計算任務,風險約束和獲利能力。調查結果表明,與傳統算法相比,DRL可以提供更好的性能和更高的精度,同時在存在風險參數和不確定性不斷增加的情況下面臨實際的經濟問題。
廣告系統的神經網絡通常從多種資源中獲取輸入,如查詢廣告相關性、廣告特征和用戶畫像。這些輸入被編碼成一個或多位熱的二進制特性,通常每個示例只有一小部分非零的特性值。在線廣告行業的深度學習模型可能有TB級的參數,這些參數既不適合GPU內存,也不適合計算節點上的CPU主內存。例如,一個贊助的在線廣告系統可以包含超過10^11個稀疏特征,使得神經網絡成為一個大約有10tb參數的大型模型。本文介紹了一種用于大規模深度學習ADS系統的分布式GPU分級參數服務器。我們提出了一種利用GPU高帶寬內存、CPU主存和SSD作為三層分層存儲的分層工作流。所有的神經網絡訓練計算都包含在GPU中。對真實數據的大量實驗證實了該系統的有效性和可擴展性。在MPI集群中,一個4節點的層次化GPU參數服務器可以比內存中150節點的分布式參數服務器多訓練2倍以上的模型。此外,我們提出的系統的性價比是MPI-cluster解決方案的4-9倍。
【導讀】圖機器學習Graph Machine Learning 是當下的研究熱點,受到學術界和工業界的關注。最近,螞蟻金服人工智能部在arXiv上公布了最新研發的圖機器學習系統-AGL論文-《AGL: a Scalable System for Industrial-purpose Graph Machine Learning》,該系統具有完整的GNNs訓練和推理功能,能夠處理十億節點和千億邊的圖數據處理,值得關注。
基于圖的機器學習已經成為強大的圖形數據學習工具。然而,由于圖數據固有的依賴性,工業社區很難利用圖神經網絡(GNNs)等技術來大規模地解決實際問題。因此,我們不能簡單地用經典的學習系統來訓練GNN,例如假設數據并行的參數服務器。現有系統將圖形數據存儲在內存中,以便在單機或遠程圖形存儲中進行快速訪問。主要的缺點有三方面。首先,由于內存容量或圖數據存儲與workers之間的帶寬的限制,它們無法進行擴展。其次,它們需要在沒有充分利用MapReduce等成熟基礎設施(這些基礎設施保證了良好的系統屬性)的情況下,對圖形存儲進行額外的開發。三是注重訓練,忽略了對圖的推理優化,使其成為一個非集成系統。
本文設計了一個可擴展的容錯集成系統AGL,該系統具有完整的GNNs訓練和推理功能。我們的系統設計遵循基于GNNs計算的消息傳遞方案。我們設計生成k-hop鄰居,即每個節點的信息完備子圖,并通過簡單地合并來自邊緣內鄰居的值和通過MapReduce將值傳播到邊緣外鄰居來進行推理。此外,k-hop鄰居包含每個節點的信息完備子圖,因此由于數據獨立性,我們只需在參數服務器上進行訓練。我們的AGL系統是在成熟的基礎設施上實現的,可以在14小時內完成一個2層圖注意力網絡在一個數十億節點、千億邊的圖上的訓練,并在1.2小時內完成推理。
近年來,機器學習在圖結構數據研究中的應用越來越受到工業界和學術界的重視。圖機器學習(縮寫為GML)不僅在傳統的圖挖掘的任務取得成功(例如,節點分類(b1, b2, b3, b4),鏈接屬性預測(b5)和圖屬性預測[b6, b7]), 也帶來了巨大的改善,其他領域的任務(例如,知識圖譜(b8、b9), NLP (b10), 計算機視覺(b11, b12),等等)。此外,越來越多的互聯網公司將GML技術應用于解決各種行業問題,并取得了巨大的成功(如推薦[b14, b14_2],營銷[liu2019graph],欺詐檢測[b15],貸款違約預測[b16]等)。
為了使用圖機器學習技術處理工業規模圖數據來解決實際問題,我們需要構建一個具有可擴展性、容錯性和全功能訓練/推理工作負載完整性的學習系統。然而,由于數據依賴性,圖機器學習任務的計算圖與傳統學習任務有著本質的區別。即在現有經典參數服務器框架[b22]中,假設數據是并行的,每個樣本的計算圖獨立于其他樣本,而圖學習任務中每個節點的計算圖依賴于k-hop 節點的鄰居。圖數據學習任務中的數據依賴性使得我們無法再將訓練樣本或推理樣本存儲在磁盤中,并通過管道進行訪問[b22]。相反,我們必須將圖形數據存儲在內存中,以實現快速的數據訪問。這使得我們不能簡單地基于現有的參數服務器框架為圖數據學習任務構建一個學習和推理系統,而現有的參數服務器框架只是簡單地在參數服務器中維護模型一致性,并在每個工作人員中并行處理數據。
一些公司努力為各種GML技術設計巧妙的系統架構。Facebook提出了PyTorch-BigGraph (PBG) [b17],這是一個大規模的網絡嵌入系統,旨在從多關系數據中產生無監督節點嵌入。然而,PBG并不適合大量的真實場景,在這些場景中,圖具有豐富的節點和邊緣屬性(稱為屬性圖)。最近,利用深度學習技術,圖神經網絡(GNN)能夠生成屬性圖的高質量表示,或者在帶標記節點或邊的屬性圖上構建端到端的監督模型,從而成為更通用的GML技術。例如,深度圖庫(Deep Graph Library, DGL) [b18]、PyTorch Geometric (PyG) [b24]和AliGraph [b19]已經被開發出來用于訓練大規模屬性圖上的圖神經網絡。其中,DGL和PyG被設計成一個單機系統,以處理內存中的工業規模的圖形,該系統基于一個巨大的機器,例如擁有2TB內存的AWS x1.32xlarge。作為一個分布式系統,AliGraph實現了分布式內存中的圖形存儲引擎,這需要在訓練GNN模型之前進行獨立部署。
表1:不同GML系統的圖規模
然而,真實的工業圖數據可能是巨大的。Facebook的社交圖包含超過20億個節點和超過1萬億個邊[b17, b20]。螞蟻金服的異構金融圖包含數十億個節點和數千億條具有豐富屬性信息的邊,阿里巴巴的電商圖也一樣。表1總結了由幾個當下的GML系統報告的圖規模。通過計算與這些節點和邊相關的特征,這種規模的圖形數據可能產生100 TB的數據。這些數據不能存儲在像DGL這樣的單一機器中。此外,圖數據存儲引擎存儲與節點和邊緣相關的圖數據和特性,Worker之間的通信可能非常龐大。例如,假設一個具有1000個節點和10000條邊的子圖的批處理,這可能會導致在圖存儲和worker之間通信1MB塊,如果我們不能在管道中訪問數據,這是無法容忍的。此外,這需要一個結構良好、帶寬足夠大的網絡。
總而言之,首先,現有的學習系統的工業設計需要圖形數據的內存存儲,要么是在無法處理實際工業規模的圖形數據的單個巨型機器中,要么是在定制的圖形存儲中,這會導致圖形存儲與workers之間的大量通信。這使得它們不能擴展到更大的圖形數據。其次,它們不能很好地利用傳統的基礎設施(如MapReduce或參數服務器)來實現容錯。第三,現有的框架大多注重圖學習模型的訓練,而忽略了系統的完整性,例如在部署圖機學習模型時,推理任務的優化。
考慮到這些問題,我們構建了AGL (Ant Graph machine Learning system),這是一個用于工業圖學習的集成系統。我們的系統設計的核心思想是基于基于圖神經網絡計算圖的消息傳遞(合并和傳播)方案。
在訓練圖神經網絡的階段,我們提出了構造k-hop鄰域的方法,該方法通過將鄰域內的邊合并,并將合并后的信息沿外邊傳播給鄰域,從而根據消息傳遞為計算每個節點的k-hop嵌入提供信息完備的子圖。將原始圖分解成極小的子圖,即k-hop鄰域,其優點是每個節點的計算圖又獨立于其他節點。這意味著我們仍然可以享受來自經典參數服務器框架的容錯特性和靈活的模型一致性,而無需額外維護圖數據存儲[b19]。
在圖神經網絡的推理階段,我們提出將一個訓練良好的K層圖神經網絡分割成K個切片和一個與預測模型相關的切片。對于切片,我們首先合并每個節點的內邊緣鄰居的第k層嵌入,然后將嵌入傳播到它們的外邊緣鄰居,k從1到k。
我們在訓練和推理中抽象出所有的消息傳遞方案,并簡單地使用MapReduce [dean2008mapreduce]實現它們。由于MapReduce和參數服務器都是在工業企業中作為基礎設施開發的,所以我們的圖機器學習任務系統仍然可以受益于容錯和可靠性等特性,即使是使用廉價且廣泛使用的普通機器。此外,與基于DGL和AliGraph等架構的推理相比,我們的推理實現最大限度地利用了每個節點的嵌入,從而顯著提高了推理作業。此外,我們還提出了一些技術來加速浮點運算在訓練過程中從模型級到操作級的運算。因此,與DGL/PyG相比,我們成功地在單機中加速了GNNs的訓練,并在實際產品場景中通過CPU集群實現了近乎線性的加速。
值得注意的是,AGL在處理6.23×10^9個節點、3.38×10^11條邊的圖時,可以在14小時內完成1.2×108個目標節點的2層GAT模型的訓練(7個epochs直到收斂,100個workers),僅用1.2小時完成對整個圖的推理。據我們所知,這是迄今為止最大的圖嵌入應用,并證明了我們的系統在實際工業場景中的高可伸縮性和效率。
圖1: AGL的系統架構
AGL的設計原則是基于基于GNNs計算的消息傳遞方案。也就是說,我們首先合并來自每個節點的內邊緣鄰居的所有信息,然后通過外邊緣將這些合并后的信息傳播到目標節點。我們反復將這一原理應用到訓練和推理過程中,開發了GraphFlat和GraphInfer。基本上,GraphFlat是在訓練過程中生成獨立的K-hop鄰域,而GraphInfer是在訓練良好的GNN模型下推斷節點的嵌入。
基于這種動機和設計原則,提出的AGL利用幾個強大的并行架構(如MapReduce和Parameter Server),用精心設計的分布式實現構建每個組件。因此,即使部署在具有相對較低計算能力和有限內存的集群上,AGL也可以獲得與一些最先進的系統相當的效率和更高的效率。此外,它還具有在具有數十億節點和千億邊的工業規模圖上執行全功能圖機器學習的能力。
題目: A Survey on Distributed Machine Learning
簡介: 在過去十年中,對人工智能的需求已顯著增長,并且這種增長得益于機器學習技術的進步以及利用硬件加速的能力,但是,為了提高預測質量并在復雜的應用程序中提供可行的機器學習解決方案,需要大量的訓練數據。盡管小型機器學習模型可以使用一定數量的數據進行訓練,但用于訓練較大模型(例如神經網絡)的輸入與參數數量成指數增長。由于處理訓練數據的需求已經超過了計算機器的計算能力的增長,因此急需在多個機器之間分配機器學習工作量,并將集中式的精力分配到分配的系統上。這些分布式系統提出了新的挑戰,最重要的是訓練過程的科學并行化和相關模型的創建。本文通過概述傳統的(集中的)機器學習方法,探討了分布式機器學習的挑戰和機遇,從而對當前的最新技術進行了廣泛的概述,并對現有的技術進行研究。
A Survey of Model Compression and Acceleration for Deep Neural Networks 深度卷積神經網絡(CNNs)最近在許多視覺識別任務中取得了巨大的成功。然而,現有的深度神經網絡模型在計算上是昂貴的和內存密集型的,這阻礙了它們在低內存資源的設備或有嚴格時間延遲要求的應用程序中的部署。因此,在不顯著降低模型性能的情況下,在深度網絡中進行模型壓縮和加速是一種自然的思路。在過去幾年中,這方面取得了巨大的進展。本文綜述了近年來發展起來的壓縮和加速CNNs模型的先進技術。這些技術大致分為四種方案: 參數剪枝和共享、低秩因子分解、傳輸/緊湊卷積過濾器和知識蒸餾。首先介紹參數修剪和共享的方法,然后介紹其他技術。對于每種方案,我們都提供了關于性能、相關應用程序、優點和缺點等方面的詳細分析。然后我們將討論一些最近比較成功的方法,例如,動態容量網絡和隨機深度網絡。然后,我們調查評估矩陣、用于評估模型性能的主要數據集和最近的基準測試工作。最后,對全文進行總結,并對今后的研究方向進行了展望。
Recent years have witnessed significant progresses in deep Reinforcement Learning (RL). Empowered with large scale neural networks, carefully designed architectures, novel training algorithms and massively parallel computing devices, researchers are able to attack many challenging RL problems. However, in machine learning, more training power comes with a potential risk of more overfitting. As deep RL techniques are being applied to critical problems such as healthcare and finance, it is important to understand the generalization behaviors of the trained agents. In this paper, we conduct a systematic study of standard RL agents and find that they could overfit in various ways. Moreover, overfitting could happen "robustly": commonly used techniques in RL that add stochasticity do not necessarily prevent or detect overfitting. In particular, the same agents and learning algorithms could have drastically different test performance, even when all of them achieve optimal rewards during training. The observations call for more principled and careful evaluation protocols in RL. We conclude with a general discussion on overfitting in RL and a study of the generalization behaviors from the perspective of inductive bias.