論文題目
數據科學中有關矩陣方法的文獻綜述:A LITERATURE SURVEY OF MATRIX METHODS FOR DATASCIENCE
論文摘要
高效的數值線性代數是所有科學和工業學科中許多應用的核心組成部分。通過這項調查,我們想說明,隨著數據和計算資源的可用性推動了許多新的發展,數字線性代數在支持和改進數據科學計算方面已經發揮并正在發揮關鍵作用。從數據中提取信息的研究已成為業務,工程,基礎研究甚至文化的主要驅動力。 在這里,我們將數據科學視為借鑒了機器學習,數據挖掘和許多其他數學領域(例如優化或統計)的要素。 此外,我們要指出,為了從數據中獲取信息,不一定意味著數據很大,但通常它們是這樣的。
論文作者
MARTIN STOLL
主題: Data Science: A Comprehensive Overview
摘要: 二十一世紀迎來了大數據時代和數據經濟時代,其中攜帶重要知識,見識和潛力的數據DNA已成為所有基于數據的生物的固有組成部分。對數據DNA及其有機體的適當理解依賴于數據科學及其基石分析的新領域。盡管人們爭論大數據是否僅僅是炒作和嗡嗡聲,并且數據科學還處于非常早期的階段,但是重大挑戰和機遇正在涌現,或者受到數據科學的研究,創新,業務,專業和教育的啟發。本文提供了有關數據科學基本方面的全面調查和教程:從數據分析到數據科學的演變,數據科學概念,數據科學時代的全景,數據創新的主要挑戰和方向,數據分析的性質,數據經濟中的新工業化和服務機會,數據教育的專業和能力以及數據科學的未來。除了提供豐富的觀察,教訓以及對數據科學和分析的思考之外,本文是本領域中第一篇全面概述的文章。
學
考慮到當今使用的各種大數據應用程序的復雜性,cpu密集型的數據處理任務已經變得至關重要。降低每個進程的CPU利用率對于提高應用程序的總體速度非常重要。
這本書將教你如何執行計算的并行執行,將它們分布在一臺機器的多個處理器上,從而提高大數據處理任務的整體性能。我們將討論同步和異步模型、共享內存和文件系統、各種進程之間的通信、同步等等。
你會學到什么
主題: A Survey of Methods for Model Compression in NLP
摘要: 近年來,基于Transformer的語言模型在神經機器翻譯,自然語言推理和許多其他自然語言理解任務方面取得了實質性進展。 通過語言建模損失的變體進行自我監督的預訓練意味著,在廣泛的語料庫上訓練的模型可以提高在一系列任務上的下游性能。 但是,高參數數量和大計算量意味著BERT和友人的生產部署仍然很困難。 值得慶幸的是,在過去的兩年中,已經開發出了多種技術來緩解疼痛并縮短預測時間。 特別是,本文重點介紹在基礎模型預訓練后應用的以下方法,以減少預測的計算成本:
主題: Comprehensive Review of Deep Reinforcement Learning Methods and Applicationsin Economic
摘要: 深度強化學習(DRL)方法在經濟學中的應用已成倍增加。 DRL通過從強化學習(RL)和深度學習(DL)的廣泛功能來處理復雜的動態業務環境提供了廣闊的機遇。 DRL的特點是可伸縮性,它有可能結合經濟數據的噪聲和非線性模式應用于高維問題。在這項工作中,我們首先考慮對經濟學中各種應用中的DL,RL和深層RL方法進行簡要回顧,以提供對最新技術水平的深入了解。此外,研究了應用于經濟應用的DRL體系結構,以突出其復雜性,魯棒性,準確性,性能,計算任務,風險約束和獲利能力。調查結果表明,與傳統算法相比,DRL可以提供更好的性能和更高的精度,同時在存在風險參數和不確定性不斷增加的情況下面臨實際的經濟問題。
題目: Data Science in Economics
摘要:
本文介紹了經濟學中數據科學的發展現狀,通過在數據科學中的一個新的分類應用和方法的研究進展。數據科學的研究進展分為三類:深度學習模型、集成模型和混合模型。應用領域包括股票市場、市場營銷、電子商務、企業銀行和加密貨幣。Prisma方法是一種系統的文獻綜述方法,用于保證調查的質量。結果表明,混合模型的發展趨勢為51%以上的文獻采用了混合模型。另一方面,我們發現基于RMSE精度度量的混合模型具有比其他算法更高的預測精度,然而這是預期的趨勢走向先進的深度學習模型。
主題: Hyper-Parameter Optimization: A Review of Algorithms and Applications
摘要: 自深度神經網絡發展以來,它們為人們的日常生活做出了巨大的貢獻。機器學習在日常生活的方方面面提供了比人類所能提供的更合理的建議。然而,盡管取得了這一成就,神經網絡的設計和訓練仍然具有挑戰性和不可預測的過程,這些過程被稱為煉金術。為了降低普通用戶的技術門檻,自動化超參數優化(HPO)已成為學術界和工業界的熱門話題。本文對高性能氧最基本的課題進行了綜述。第一節介紹了與模型訓練和結構有關的關鍵超參數,并討論了它們的重要性和定義取值范圍的方法。然后,重點研究了主要的優化算法及其適用性,包括它們的效率和精度,特別是對于深度學習網絡。本研究接下來回顧了HPO的主要服務和工具包,比較了它們對最新搜索算法的支持、與主要深度學習框架的可行性以及用戶設計的新模塊的可擴展性。本文總結了HPO應用于深度學習中存在的問題,優化算法的比較,以及在計算資源有限的情況下模型評估的突出方法。
題目: A Survey on Distributed Machine Learning
簡介: 在過去十年中,對人工智能的需求已顯著增長,并且這種增長得益于機器學習技術的進步以及利用硬件加速的能力,但是,為了提高預測質量并在復雜的應用程序中提供可行的機器學習解決方案,需要大量的訓練數據。盡管小型機器學習模型可以使用一定數量的數據進行訓練,但用于訓練較大模型(例如神經網絡)的輸入與參數數量成指數增長。由于處理訓練數據的需求已經超過了計算機器的計算能力的增長,因此急需在多個機器之間分配機器學習工作量,并將集中式的精力分配到分配的系統上。這些分布式系統提出了新的挑戰,最重要的是訓練過程的科學并行化和相關模型的創建。本文通過概述傳統的(集中的)機器學習方法,探討了分布式機器學習的挑戰和機遇,從而對當前的最新技術進行了廣泛的概述,并對現有的技術進行研究。
論文題目
機器學習在固體材料科學中的最新進展和應用,Recent advances and applications of machine learning in solidstate materials science
論文簡介
近年來進入材料科學工具箱的最令人興奮的工具之一是機器學習。這些統計方法已經證明能夠大大加快基礎和應用研究的速度。目前,我們正在見證一個爆炸性的工作,開發和應用機器學習的固態系統。我們對本課題的最新研究進行了全面的綜述和分析。作為起點,我們介紹了材料科學中的機器學習原理、算法、描述符和數據庫。我們繼續描述不同的機器學習方法,以發現穩定的材料并預測其晶體結構。然后我們討論了大量的定量結構-性質關系的研究,以及用機器學習代替第一性原理方法的各種方法。我們回顧了如何應用主動學習和基于代理的優化來改進rational設計過程和相關的應用實例。兩個主要的問題總是機器學習模型的可解釋性和從中獲得的物理理解。因此,我們考慮可解釋性的不同方面及其在材料科學中的重要性。最后,針對計算材料科學面臨的各種挑戰,提出了解決方案和未來的研究路徑。
論文作者
Jonathan Schmidt,Mário R. G. Marques,來自馬丁路德大學 物理研究所
題目: A Survey on Network Embedding
摘要: 網絡嵌入將網絡中的節點分配給低維表示,有效地保持了網絡結構。近年來,這一新興的網絡分析范式取得了很大的進展。本文首先對網絡嵌入方法進行了分類,然后回顧了網絡嵌入方法的發展現狀,并指出了其未來的研究方向。我們首先總結了網絡嵌入的動機。討論了經典的圖嵌入算法及其與網絡嵌入的關系。隨后,我們對大量的網絡嵌入方法進行了系統的綜述,包括結構和屬性保持的網絡嵌入方法、帶邊信息的網絡嵌入方法和先進的信息保持的網絡嵌入方法。此外,還綜述了幾種網絡嵌入的評價方法和一些有用的在線資源,包括網絡數據集和軟件。最后,我們討論了利用這些網絡嵌入方法構建有效系統的框架,并指出了一些潛在的未來方向。
作者簡介: Peng Cui,清華大學計算機科學與技術系媒體與網絡實驗室副教授。
Jian Pei,現任加拿大大數據科學研究主席(Tier 1)和西蒙弗雷澤大學(Simon Fraser University)計算科學學院教授。他還是統計與精算科學系、科學院和健康科學院的副院士。他是數據科學、大數據、數據挖掘和數據庫系統等領域的知名首席研究員。他的專長是為新的數據密集型應用開發高效的數據分析技術。他被公認為計算機械協會(ACM)的研究員,他為數據挖掘的基礎、方法和應用做出貢獻,并作為電氣與電子工程師協會(IEEE)的研究員,為他的數據挖掘和知識發現做出貢獻。
隨著大數據、深度學習在學術界和工業界的普及,人們越來越認識到數據對于科研和應用的重要性。雖然現在相關的工具和框架大大降低了構建數據應用的門檻,數據科學基礎對應用的構建依然起著核心的作用。本文介紹微軟研究院新版書籍《數據科學基礎》。
這本書介紹了數據科學的數學和算法基礎,包括機器學習,高維幾何,和大型網絡的分析。主題包括高維數據的反直覺性質,重要的線性代數技術,如奇異值分解,隨機漫步和馬爾科夫鏈理論,機器學習的基本原理和重要算法,聚類算法和分析,大型網絡的概率模型,表示學習包括主題建模和非負矩陣分解、小波和壓縮感知。發展了重要的概率技術,包括大數定律、尾不等式、隨機投影分析、機器學習中的泛化保證,以及用于分析大型隨機圖中的相變的矩方法。此外,還討論了矩陣規范和vc維等重要的結構和復雜性度量指標。這本書適合本科和研究生課程的設計和分析算法的數據。