題目
2019/2020之交的機器學習/深度學習技術概述
總覽
簡介
2020年已至!現在是時候迎接新的一年了,我們在全新的解決方案中注入了大量的機器學習知識。機器學習將繼續是我們做事和做事的核心。
那2019年呢?已經過了一年了!我們在自然語言處理(NLP)中看到的巨大發展震驚了我們。那一年是微調語言模型和框架的一年,例如Google的BERT和OpenAI的GPT-2(稍后將介紹所有這些!)。 我們最喜歡的2019年是社區對開源版本的擁抱。隨著越來越多的社區人士希望在2020年打入這一領域,他們進一步降低了機器學習的訪問障礙。這是您的全部志向和這一美妙的職業選擇!
因此,當我們準備迎接新的一年時,我們希望花些時間寫下這篇廣博而發人深省的文章。我們將以技術審查的方式審視2019年頂級的機器學習發展。我們還將研究2020年對不同機器學習領域的期望。
內容
主題: Data Science: A Comprehensive Overview
摘要: 二十一世紀迎來了大數據時代和數據經濟時代,其中攜帶重要知識,見識和潛力的數據DNA已成為所有基于數據的生物的固有組成部分。對數據DNA及其有機體的適當理解依賴于數據科學及其基石分析的新領域。盡管人們爭論大數據是否僅僅是炒作和嗡嗡聲,并且數據科學還處于非常早期的階段,但是重大挑戰和機遇正在涌現,或者受到數據科學的研究,創新,業務,專業和教育的啟發。本文提供了有關數據科學基本方面的全面調查和教程:從數據分析到數據科學的演變,數據科學概念,數據科學時代的全景,數據創新的主要挑戰和方向,數據分析的性質,數據經濟中的新工業化和服務機會,數據教育的專業和能力以及數據科學的未來。除了提供豐富的觀察,教訓以及對數據科學和分析的思考之外,本文是本領域中第一篇全面概述的文章。
學
題目: An Overview of Privacy in Machine Learning
序言: 在過去幾年中,谷歌、微軟和亞馬遜等供應商已經開始為客戶提供軟件接口,使他們能夠輕松地將機器學習任務嵌入到他們的應用程序中。總的來說,機構現在可以使用機器學習作為服務(MLaaS)引擎來外包復雜的任務,例如訓練分類器、執行預測、聚類等等。他們還可以讓其他人根據他們的數據查詢模型。當然,這種方法也可以在其他情況下使用(并且經常提倡使用),包括政府協作、公民科學項目和企業對企業的伙伴關系。然而,如果惡意用戶能夠恢復用于訓練這些模型的數據,那么由此導致的信息泄漏將會產生嚴重的問題。同樣,如果模型的內部參數被認為是專有信息,那么對模型的訪問不應該允許對手了解這些參數。在本文中,我們對這一領域的隱私挑戰進行了回顧,系統回顧了相關的研究文獻,并探討了可能的對策。具體地說,我們提供了大量關于機器學習和隱私相關概念的背景信息。然后,我們討論了可能的對抗模型和設置,涵蓋了與隱私和/或敏感信息泄漏有關的廣泛攻擊,并回顧了最近試圖防御此類攻擊的結果。最后,我們總結出一系列需要更多工作的開放問題,包括需要更好的評估、更有針對性的防御,以及研究與政策和數據保護工作的關系。
主題: Explainable Reinforcement Learning: A Survey
摘要: 可解釋的人工智能(XAI),即更透明和可解釋的AI模型的開發在過去幾年中獲得了越來越多的關注。這是由于這樣一個事實,即AI模型隨著其發展為功能強大且無處不在的工具而表現出一個有害的特征:性能與透明度之間的權衡。這說明了一個事實,即模型的內部工作越復雜,就越難以實現其預測或決策。但是,特別是考慮到系統像機器學習(ML)這樣的方法(強化學習(RL))在系統自動學習的情況下,顯然有必要了解其決策的根本原因。由于據我們所知,目前尚無人提供可解釋性強化學習(XRL)方法的概述的工作,因此本調查試圖解決這一差距。我們對問題進行了簡短的總結,重要術語的定義以及提議當前XRL方法的分類和評估。我們發現a)大多數XRL方法通過模仿和簡化一個復雜的模型而不是設計本質上簡單的模型來起作用,并且b)XRL(和XAI)方法通常忽略了方程的人為方面,而不考慮相關領域的研究像心理學或哲學。因此,需要跨學科的努力來使所生成的解釋適應(非專家)人類用戶,以便有效地在XRL和XAI領域中取得進步。
從這些令人興奮的課程中學習,讓自己沉浸在深度學習、強化學習、機器學習、計算機視覺和NLP中!!
主題: A Review on Deep Learning Techniques for Video Prediction
摘要: 預測,預期和推理未來結果的能力是智能決策系統的關鍵組成部分。鑒于深度學習在計算機視覺中的成功,基于深度學習的視頻預測已成為有前途的研究方向。視頻預測被定義為一種自我監督的學習任務,它代表了一個表示學習的合適框架,因為它展示了提取自然視頻中潛在模式的有意義的表示的潛在能力。視頻序列預測的深度學習方法。我們首先定義視頻預測的基礎知識,以及強制性的背景概念和最常用的數據集。接下來,我們會仔細分析根據擬議的分類法組織的現有視頻預測模型,突出顯示它們的貢獻及其在該領域的意義。數據集和方法的摘要均附有實驗結果,有助于在定量基礎上評估現有技術。通過得出一些一般性結論,確定開放研究挑戰并指出未來的研究方向來對本文進行總結。
Natural Language Processing (NLP) and especially natural language text analysis have seen great advances in recent times. Usage of deep learning in text processing has revolutionized the techniques for text processing and achieved remarkable results. Different deep learning architectures like CNN, LSTM, and very recent Transformer have been used to achieve state of the art results variety on NLP tasks. In this work, we survey a host of deep learning architectures for text classification tasks. The work is specifically concerned with the classification of Hindi text. The research in the classification of morphologically rich and low resource Hindi language written in Devanagari script has been limited due to the absence of large labeled corpus. In this work, we used translated versions of English data-sets to evaluate models based on CNN, LSTM and Attention. Multilingual pre-trained sentence embeddings based on BERT and LASER are also compared to evaluate their effectiveness for the Hindi language. The paper also serves as a tutorial for popular text classification techniques.
簡介:
當AI在著名的AlphaGo游戲中擊敗人類時,深度學習(DL)一戰成名,深度學習訓練和學習方法已被廣泛認可為“人性化”的機器。 企業AI平臺中的許多高級自動化功能是由機器學習(ML)和深度學習技術的快速增長而引起的。 深度學習的下一步是什么?
2019年的深度學習深入探討了DL在AI的許多方面(無論是NLP還是計算機視覺應用程序)“無處不在”。 逐步地,啟用了AI和DL的自動化系統,工具和解決方案正在滲透并接管所有業務部門-從營銷到客戶體驗,從虛擬現實到自然語言處理(NLP)-到處都有數字化影響。
深度學習的端到端加密引發了公眾對個人數據絕對隱私的需求的爭議。這種消費者需求與Facebook當前的AI研究工作產生直接沖突。 Facebook的AI研究人員需要“大量收集”個人數據來訓練學習算法。
Facebook意識到端到端加密的烏托邦概念確實是一個在研究世界中從大量個人數據中尋求答案的神話。為了將來的努力,研究人員現在正在認真考慮針對單個設備上的“數據”訓練算法,而不是大量收集個人數據。在這種情況下,Facebook工程師將直接在用戶手機上安裝內容審核算法,以繞過違反數據隱私的行為。
在一個有爭議的帖子中,該KD Nugget帖子的作者預測深度學習可能不是AI的未來。根據作者的說法,其背后的原因是,將來許多DL方法不僅會變得不合法,而且將變得完全非法。該帖子還暗示,未來的移動應用很可能沒有DL。
啟用DL的解決方案的另一個嚴重局限性在于,學習算法仍無法提供選擇的詳細原因,這可能會激起用戶盲目接受AI工具提供的決策。
《深度學習的未來預測》表明,在未來5至10年中,DL將通過每個軟件開發平臺實現民主化。 DL工具將成為開發人員工具包的標準組成部分。 納入標準DL庫的可重用DL組件將具有其先前模型的訓練特征,以加快學習速度。 隨著深度學習工具的自動化持續發展,該技術存在一種固有的風險,即技術會變得如此復雜,以至于普通開發人員會發現自己完全無知。
Graphical causal inference as pioneered by Judea Pearl arose from research on artificial intelligence (AI), and for a long time had little connection to the field of machine learning. This article discusses where links have been and should be established, introducing key concepts along the way. It argues that the hard open problems of machine learning and AI are intrinsically related to causality, and explains how the field is beginning to understand them.
In recent years, a specific machine learning method called deep learning has gained huge attraction, as it has obtained astonishing results in broad applications such as pattern recognition, speech recognition, computer vision, and natural language processing. Recent research has also been shown that deep learning techniques can be combined with reinforcement learning methods to learn useful representations for the problems with high dimensional raw data input. This chapter reviews the recent advances in deep reinforcement learning with a focus on the most used deep architectures such as autoencoders, convolutional neural networks and recurrent neural networks which have successfully been come together with the reinforcement learning framework.
Deep learning methods employ multiple processing layers to learn hierarchical representations of data, and have produced state-of-the-art results in many domains. Recently, a variety of model designs and methods have blossomed in the context of natural language processing (NLP). In this paper, we review significant deep learning related models and methods that have been employed for numerous NLP tasks and provide a walk-through of their evolution. We also summarize, compare and contrast the various models and put forward a detailed understanding of the past, present and future of deep learning in NLP.