在過去的十年里,我們見證了深度學習的無數驚人成功。盡管取得了許多成功,但我們可能正在再次攀登通脹預期的高峰。如果在過去,錯誤的解決方法是把計算能力扔到問題上,那么今天我們試著把數據扔進去。這種行為在少數大企業中引發了一場贏者通吃的數據爭奪戰,引發了人們對隱私和權力集中的擔憂。然而,我們知道一個事實,從更少的樣本中學習是可能的:人類表現出了比我們目前最先進的人工智能更好的泛化能力。為了達到這種需要的泛化能力,我們必須更好地了解學習是如何在深度神經網絡中發生的。現代機器學習的實踐已經超過了它的理論發展,深度學習模型具有當前機器學習理論無法預測的泛化能力。目前還沒有建立新的學習理論來處理這個問題。2015年Naftali Tishby和Noga Zaslavsky在瓶頸原理的信息理論概念基礎上發表了一篇開創性的學習理論。本文旨在研究利用信息瓶頸原理來解釋深度神經網絡的泛化能力的分散努力,并將它們整合到這個新的一般深度學習理論的綜合摘要中。
強化學習是一種學習范式,它關注的是如何控制一個系統,從而最大化一個表示長期目標的數值性能度量。強化學習與監督學習的區別在于,對于學習器的預測,只會給予部分反饋。此外,這些預測可能通過影響被控制系統的未來狀態而產生長期影響。因此,時間扮演著特殊的角色。強化學習的目標是發展有效的學習算法,以及了解算法的優點和局限性。強化學習之所以引起人們極大的興趣,是因為它可以用于解決大量的實際應用,從人工智能到運籌學或控制工程的問題。在這本書中,我們專注于那些建立在強大的動態規劃理論基礎上的強化學習算法。我們給出了一個相當全面的學習問題的目錄,描述了核心思想,關注大量的最先進的算法,然后討論了它們的理論性質和局限性。
?年前,在?公司和初創公司中,并沒有?量的深度學習科學家開發智能產品和服務。我們中年輕?(作者) 進?這個領域時,機器學習并沒有在報紙上獲得頭條新聞。我們的??根本不知道什么是機器學習,更不? 說為什么我們可能更喜歡機器學習,而不是從事醫學或法律職業。機器學習是??具有前瞻性的學科,在現 實世界的應?范圍很窄。而那些應?,例如語?識別和計算機視覺,需要?量的領域知識,以?于它們通常 被認為是完全獨?的領域,而機器學習對于這些領域來說只是?個小組件。因此,神經?絡——我們在本書 中關注的深度學習模型的前?,被認為是過時的?具。就在過去的五年?,深度學習給世界帶來了驚喜,推動了計算機視覺、?然語?處理、?動語?識別、強化 學習和統計建模等領域的快速發展。有了這些進步,我們現在可以制造?以往任何時候都更?主的汽?(不 過可能沒有?些公司試圖讓你相信的那么?主),可以?動起草普通郵件的智能回復系統,幫助?們從令? 壓抑的?收件箱中挖掘出來。在圍棋等棋類游戲中,軟件超越了世界上最優秀的?,這曾被認為是??年后 的事。這些?具已經對?業和社會產?了越來越?泛的影響,改變了電影的制作?式、疾病的診斷?式,并 在基礎科學中扮演著越來越重要的??——從天體物理學到?物學。
近年來,隨機矩陣理論(RMT)已經成為學習理論的前沿,作為一種工具來理解它的一些最重要的挑戰。從深度學習模型的泛化到優化算法的精確分析,RMT提供了易于分析的模型。
第一部分:介紹和經典隨機矩陣理論集合
本節介紹兩個經典的隨機矩陣理論集合,高斯正交集合和Wishart矩陣。通過數值實驗,我們將介紹隨機矩陣理論中一些最重要的分布,如半圓和馬爾欽科-帕斯圖,以及一些關鍵的概念,如通用性。 圖片
第2部分:隨機矩陣理論概論:斯蒂爾吉斯和R變換 本節介紹隨機矩陣理論中的一些核心證明技術: Stieltjes和R變換。
第3部分:數值算法分析 本節主要介紹隨機矩陣理論在數值算法分析中的應用。
第4部分:為什么深度學習有效? 本節討論深度神經網絡泛化的隨機矩陣理論模型。
主動學習是一種有監督的機器學習協議,其中學習算法從大量未標記數據中序列地請求選定數據點的標簽。這與被動學習形成了對比,被動學習是隨機獲取有標記的數據。主動學習的目標是產生一個高度精確的分類器,理想情況下使用的標簽要比被動學習達到同樣目的所需的隨機標記數據的數量少。這本書描述了我們對主動學習的理論益處的理解的最新進展,以及對設計有效的主動學習算法的啟示。文章的大部分內容都集中在一種特殊的方法上,即基于不同意見的主動學習,到目前為止,這種方法已經積累了大量的文獻。它還從文獻中簡要地考察了幾種可供選擇的方法。重點是關于一些一般算法的性能的定理,包括適當的嚴格證明。然而,本文的目的是教學,集中于說明基本思想的結果,而不是獲得最強或最普遍的已知定理。目標受眾包括機器學習和統計學領域的研究人員和高級研究生,他們有興趣更深入地了解主動學習理論最近和正在進行的發展。
近年來,深度學習已經成為機器學習和計算機視覺、自然語言處理等相關領域的中心范式。但是對這一努力的許多方面的數學理解仍然缺乏。訓練何時成功,速度有多快? 用了多少例子? 各種架構的優點和局限性是什么? 本書重點研究深度學習的理論方面。
在過去的二十年里,機器學習已經成為信息技術的支柱之一,并因此成為我們生活中相當核心(盡管通常是隱藏的)的一部分。隨著可用數據量的不斷增加,我們有充分的理由相信,智能數據分析將變得更加普遍,成為技術進步的必要因素。本章的目的是為讀者提供一個廣泛的應用的概述,這些應用的核心是一個機器學習問題,并給這一大堆問題帶來一定程度的秩序。在那之后,我們將討論一些來自統計和概率論的基本工具,因為它們構成了許多機器學習問題必須被表述成易于解決的語言。最后,我們將概述一套相當基本但有效的算法來解決一個重要的問題,即分類。更復雜的工具,更普遍的問題的討論和詳細的分析將在本書后面的部分。
本書是信息論領域中一本簡明易懂的教材。主要內容包括:熵、信源、信道容量、率失真、數據壓縮與編碼理論和復雜度理論等方面的介紹。
本書還對網絡信息論和假設檢驗等進行了介紹,并且以賽馬模型為出發點,將對證券市場研究納入了信息論的框架,從新的視角給投資組合的研究帶來了全新的投資理念和研究技巧。
本書適合作為電子工程、統計學以及電信方面的高年級本科生和研究生的信息論基礎教程教材,也可供研究人員和專業人士參考。
本書是一本簡明易懂的信息論教材。正如愛因斯坦所說:“凡事應該盡可能使其簡單到不能再簡單為止。''雖然我們沒有深人考證過該引語的來源(據說最初是在幸運蛋卷中發現的),但我們自始至終都將這種觀點貫穿到本書的寫作中。信息論中的確有這樣一些關鍵的思想和技巧,一旦掌握了它們、不僅使信息論的主題簡明,而且在處理新問題時提供重要的直覺。本書來自使用了十多年的信息論講義,原講義是信息論課程的高年級本科生和一年級研究生兩學期用的教材。本書打算作為通信理論.計算機科學和統計學專業學生學習信息論的教材。
信息論中有兩個簡明要點。第一,熵與互信息這樣的特殊量是為了解答基本問題而產生的。例如,熵是隨機變量的最小描述復雜度,互信息是度量在噪聲背景下的通信速率。另外,我們在以后還會提到,互信息相當于已知邊信息條件下財富雙倍的增長。第二,回答信息理論問邀的答案具有自然的代數結構。例如,熵具有鏈式法則,因而,謫和互信息也是相關的。因此,數據壓縮和通信中的問題得到廣泛的解釋。我們都有這樣的感受,當研究某個問題時,往往歷經大量的代數運算推理得到了結果,但此時沒有真正了解問題的全莪,最終是通過反復觀察結果,才對整個問題有完整、明確的認識。所以,對一個問題的全面理解,不是靠推理,而是靠對結果的觀察。要更具體地說明這一點,物理學中的牛頓三大定律和薛定諤波動方程也許是最合適的例子。誰曾預見過薛定諤波動方程后來會有如此令人敬畏的哲學解釋呢?
在本書中,我們常會在著眼于問題之前,先了解一下答案的性質。比如第2章中,我們定義熵、相對熵和互信息,研究它們之間的關系,再對這些關系作一點解釋·由此揭示如何融會貫通地使用各式各樣的方法解決實際問題。同理,我們順便探討熱力學第二定律的含義。熵總是增加嗎?答案既肯定也否定。這種結果會令專家感興趣,但初學者或i午認為這是必然的而不會深人考慮。
在實際教學中.教師往往會加人一自己的見解。事實上,尋找無人知道的證明或者有所創新的結果是一件很愉快的事情。如果有人將新的思想和已經證明的內容在課堂上講解給學生,那么不僅學生會積極反饋“對,對,對六而且會大大地提升教授該課程的樂崆我們正是這樣從研究本教材的許多新想法中獲得樂趣的。
本書加人的新素材實例包括信息論與博弈之間的關系,馬爾可夫鏈背景下熱力學第二定律的普遍性問題,信道容量定理的聯合典型性證明,赫夫曼碼的競爭最優性,以及關于最大熵譜密度估計的伯格(回定理的證明。科爾莫戈羅夫復雜度這一章也是本書的獨到之處。面將費希爾信息,互信息、中心極限定理以及布倫一閔可夫斯基不等式與熵冪不等式聯系在一起,也是我們引以為豪之處。令我們感到驚訝的是.關于行列式不等式的許多經典結論,當利用信息論不等式后會很容易得到證明。
自從香農的奠基性論文面世以來,盡管信息論已有了相當大的發展,但我們還是要努力強調它的連貫性。雖然香農創立信息論時受到通信理論中的問題啟發,然而我們認為信息論是一門獨立的學科,可應用于通信理論和統計學中。我們將信息論作為一個學科領域從通信理論、概率論和統計學的背景中獨立出來因為明顯不可能從這些學科中獲得難以理解的信息概念。由于本書中絕大多數結論以定理和證明的形式給出,所以,我們期望通過對這些定理的巧妙證明能說明這些結論的完美性。一般來講,我們在介紹問題之前先描述回題的解的性質,而這些很有的性質會使接下來的證明順理成章。
使用不等式串、中間不加任何文字、最后直接加以解釋,是我們在表述方式上的一項創新希望讀者學習我們所給的證明過程達到一定數量時,在沒有任何解釋的情況下就能理解其中的大部分步,并自己給出所需的解釋這些不等式串好比模擬到試題,讀者可以通過它們確認自己是否已掌握證明那些重要定理的必備知識。這些證明過程的自然流程是如此引人注目,以至于導致我們輕視了寫作技巧中的某條重要原則。由于沒有多余的話,因而突出了思路的邏輯性與主題思想u我們希望當讀者閱讀完本書后,能夠與我們共同分亨我們所推崇的,具有優美、簡潔和自然風格的信息論。
本書廣泛使用弱的典型序列的方法,此概念可以追溯到香農1948年的創造性工作,而它真正得到發展是在20世紀70年代初期。其中的主要思想就是所謂的漸近均分性(AEP),或許可以粗略地說成“幾乎一切事情都是等可能的"
第2章闡述了熵、相對熵和互信息之同的基本代數關系。漸近均分性是第3章重中之重的內容,這也使我們將隨機過程和數據壓縮的熵率分別放在第4章和第5章中論述。第6章介紹博弈,研究了數據壓縮的對偶性和財富的增長率。可作為對信息論進行理性思考基礎的科爾莫戈羅夫復雜度,擁有著巨大的成果,放在第14章中論述。我們的目標是尋找一個通用的最矩描述,而不是平均意義下的次佳描述。的確存在這樣的普遍性概念用來刻畫一個對象的復雜度。該章也論述了神奇數0,揭示數學上的不少奧秘,是圖靈機停止運轉概率的推廣。第7章論述信道容量定理。第8章敘述微分熵的必需知識,它們是將早期容量定理推廣到連續噪聲信道的基礎。基本的高斯信道容量問題在第9章中論述。第il章闡述信息論和統計學之間的關系,20世紀年代初期庫爾貝克首次對此進行了研究,此后相對被忽視。由于率失真理論比無噪聲數據壓縮理論需要更多的背景知識,因而將其放置在正文中比較靠后的第10章。
網絡信息理論是個大的主題,安排在第巧章,主要研究的是噪聲和干擾存在情形下的同時可達的信息流。有許多新的思想在網絡信息理論中開始活躍起來,其主要新要素有干擾和反饋第16章講述股票市場,這是第6章所討論的博弈的推廣,也再次表明了信息論和博弈之間的緊密聯系。第17章講述信息論中的不等式,我們借此一隅把散布于全書中的有趣不等式重新收攏在一個新的框架中,再加上一些關于隨機抽取子集熵率的有趣新不等式。集合和的體積的布倫一閔可夫斯基不等式,獨立隨機變量之和的有效方差的熵冪不等式以及費希爾信息不等式之間的美妙關系也將在此章中得到詳盡的闡述。
本書力求推理嚴密,因此對數學的要求相當高·要求讀者至少學過一學期的概率論課程且有扎實的數學背景,大致為本科高年級或研究生一年級水平。盡管如此,我們還是努力避免使用測度論。因為了解它只對第16章中的遍歷過程的AEP的證明過程起到簡化作用。這符合我們的觀點,那就是信息論基礎與技巧不同,后者才需要將所有推廣都寫進去。
本書的主體是第2,3,4,5,7,8,9,10,11和巧章,它們自成體系,讀懂了它們就可以對信息論有很好的理解。但在我們看來,第14章的科爾莫戈羅夫復雜度是深人理解信息論所需的必備知識。余下的幾章,從博弈到不等式.目的是使主題更加連貫和完美。
深度學習在實踐中的顯著成功,從理論的角度揭示了一些重大的驚喜。特別是,簡單的梯度方法很容易找到非凸優化問題的接近最優的解決方案,盡管在沒有任何明確的努力控制模型復雜性的情況下,這些方法提供了近乎完美的訓練數據,這些方法顯示了優秀的預測精度。我們推測這些現象背后有特定的原理: 過度參數化允許梯度方法找到插值解,這些方法隱含地施加正則化,過度參數化導致良性過擬合,也就是說,盡管過擬合訓練數據,但仍能準確預測。在這篇文章中,我們調查了統計學習理論的最新進展,它提供了在更簡單的設置中說明這些原則的例子。我們首先回顧經典的一致收斂結果以及為什么它們不能解釋深度學習方法的行為方面。我們在簡單的設置中給出隱式正則化的例子,在這些例子中,梯度方法可以得到完美匹配訓練數據的最小范數函數。然后我們回顧顯示良性過擬合的預測方法,關注二次損失的回歸問題。對于這些方法,我們可以將預測規則分解為一個用于預測的簡單組件和一個用于過擬合的尖狀組件,但在良好的設置下,不會損害預測精度。我們特別關注神經網絡的線性區域,其中網絡可以用一個線性模型來近似。在這種情況下,我們證明了梯度流的成功,并考慮了雙層網絡的良性過擬合,給出了精確的漸近分析,精確地證明了過參數化的影響。最后,我們強調了在將這些見解擴展到現實的深度學習設置中出現的關鍵挑戰。
當看到這些材料時,一個明顯的問題可能會出現:“為什么還要寫一本深度學習和自然語言處理的書呢?”一些優秀的論文已經出版,涵蓋了深度學習的理論和實踐方面,以及它在語言處理中的應用。然而,從我教授自然語言處理課程的經驗來看,我認為,盡管這些書的質量非常好,但大多數都不是針對最有可能的讀者。本書的目標讀者是那些在機器學習和自然語言處理之外的領域有經驗的人,并且他們的工作至少部分地依賴于對大量數據,特別是文本數據的自動化分析。這些專家可能包括社會科學家、政治科學家、生物醫學科學家,甚至是對機器學習接觸有限的計算機科學家和計算語言學家。
現有的深度學習和自然語言處理書籍通常分為兩大陣營。第一個陣營專注于深度學習的理論基礎。這對前面提到的讀者肯定是有用的,因為在使用工具之前應該了解它的理論方面。然而,這些書傾向于假設一個典型的機器學習研究者的背景,因此,我經常看到沒有這種背景的學生很快就迷失在這樣的材料中。為了緩解這個問題,目前存在的第二種類型的書集中在機器學習從業者;也就是說,如何使用深度學習軟件,而很少關注理論方面。我認為,關注實際方面同樣是必要的,但還不夠。考慮到深度學習框架和庫已經變得相當復雜,由于理論上的誤解而濫用它們的可能性很高。這個問題在我的課程中也很常見。
因此,本書旨在為自然語言處理的深度學習搭建理論和實踐的橋梁。我涵蓋了必要的理論背景,并假設讀者有最少的機器學習背景。我的目標是讓任何上過線性代數和微積分課程的人都能跟上理論材料。為了解決實際問題,本書包含了用于討論的較簡單算法的偽代碼,以及用于較復雜體系結構的實際Python代碼。任何上過Python編程課程的人都應該能夠理解這些代碼。讀完這本書后,我希望讀者能有必要的基礎,立即開始構建真實世界的、實用的自然語言處理系統,并通過閱讀有關這些主題的研究出版物來擴展他們的知識。
//clulab.cs.arizona.edu/gentlenlp/gentlenlp-book-05172020.pdf
機器學習是計算機科學中增長最快的領域之一,具有深遠的應用。本書的目的是介紹機器學習,以及它所提供的算法范例。本書對機器學習的基本原理和將這些原理轉化為實際算法的數學推導提供了理論解釋。在介紹了基礎知識之后,這本書涵蓋了以前教科書沒有涉及到的一系列廣泛的中心主題。這些包括討論學習的計算復雜性和凸性和穩定性的概念;重要的算法范例包括隨機梯度下降、神經網絡和結構化輸出學習;以及新興的理論概念,如PAC-Bayes方法和基于壓縮的界限。本文面向高級本科生或剛畢業的學生,使統計學、計算機科學、數學和工程學領域的學生和非專業讀者都能接觸到機器學習的基本原理和算法。
//www.cse.huji.ac.il/~shais/UnderstandingMachineLearning/index.html
概述
機器學習是指自動檢測數據中有意義的模式。在過去的幾十年里,它已經成為幾乎所有需要從大數據集中提取信息的任務的通用工具。我們被一種基于機器學習的技術包圍著:搜索引擎學習如何給我們帶來最好的結果(同時投放有利可圖的廣告),反垃圾郵件軟件學習如何過濾我們的電子郵件信息,信用卡交易被一種學習如何偵測欺詐的軟件保護著。數碼相機學會識別人臉,智能手機上的智能個人輔助應用學會識別語音指令。汽車配備了使用機器學習算法構建的事故預防系統。機器學習還廣泛應用于生物信息學、醫學和天文學等科學領域。
所有這些應用程序的一個共同特征是,與計算機的更傳統使用相比,在這些情況下,由于需要檢測的模式的復雜性,人類程序員無法提供關于這些任務應該如何執行的明確、詳細的規范。以智慧生物為例,我們的許多技能都是通過學習我們的經驗(而不是遵循給我們的明確指示)而獲得或改進的。機器學習工具關注的是賦予程序“學習”和適應的能力。
這本書的第一個目標是提供一個嚴格的,但易于遵循,介紹機器學習的主要概念: 什么是機器學習?
本書的第二個目標是介紹幾種關鍵的機器學習算法。我們選擇展示的算法一方面在實踐中得到了成功應用,另一方面提供了廣泛的不同的學習技術。此外,我們特別關注適合大規模學習的算法(又稱“大數據”),因為近年來,我們的世界變得越來越“數字化”,可用于學習的數據量也在急劇增加。因此,在許多應用中數據量大,計算時間是主要瓶頸。因此,我們明確地量化了學習給定概念所需的數據量和計算時間。
目錄:
Part I: Foundations
Part II: From Theory to Algorithms
Part III: Additional Learning Models
Part IV: Advanced Theory
Appendices