在許多任務中,神經網絡和深度學習的預測能力目前都很出色。因此,這項技術被應用于各種各樣的應用中,在我們的日常生活中發揮著重要作用。因此,這項技術的潛在改進已經成為一個更加重要的話題。**在本文中,我們致力于改進深度學習模型的兩個重要方面;表示預測的不確定性以及對大量計算和資源的內在需求的能力。我們通過介紹和陳述本文要回答的兩個主要研究問題來開始這項工作。我們進一步為本文將使用的主要技術提供必要的背景知識。本文描述了神經網絡和貝葉斯神經網絡,即其參數(又稱權重和偏差)是隨機的,并由概率分布控制的神經網絡,而不是固定的,以及(變分)貝葉斯推理,一種根據觀測數據更新參數概率分布的方法。**通過剪枝(pruning)和量化(quantization)簡要介紹了神經網絡壓縮和量化(quantization),前者通過顯式設置為零來刪除不相關的參數和網絡的部分內容,后者以硬件友好的格式(如定點)表示網絡的權重和中間表示的數值。
**本文的第一部分描述了提高神經網絡不確定性估計能力的三個貢獻。前兩者圍繞著在我們觀察數據時,通過更好地逼近其參數的概率分布來提高變分貝葉斯神經網絡的不確定性質量。**本文提出一種簡單的方法,通過矩陣變量高斯分布在神經網絡權重之間引入線性依賴;它們是隨機矩陣上的分布,可以很容易地對每層中的輸入和輸出神經元之間的相關性進行建模,這種能力會導致性能的提高,正如我們實驗表明的那樣。提出了乘歸一化流,這是一個通用框架,引入了網絡參數之間的非線性依賴關系。這是通過結合輔助隨機變量和參數化雙射來實現的,以一種允許每層權重之間靈活的相關性,同時仍然是計算可處理的。實驗表明,與之前工作的簡單高斯變分近似相比,不確定性質量得到了提高。這部分的最后一個貢獻對應于功能神經過程,一個采用不同視角的模型;它不是假設概率分布并對神經網絡權值進行(變分)推理,而是采用隨機過程的建模框架,從而假設概率分布并對神經網絡的函數空間進行推理。這有一個額外的好處,即更容易的推理和更直觀的建模任務,因為它允許我們推理數據集中點之間的關系,通過引入一個“參考”點集,而不是不可解釋的神經網絡參數來實現。實驗表明,這種模型提供了更好的不確定性質量,同時保持了可比的預測性能。
**第二部分介紹了三種新的壓縮技術,它們可以讓我們學習更小、更快的神經網絡,從而減少所需的計算量和資源。**第一個貢獻對應于貝葉斯壓縮,這是一種變分貝葉斯推理過程,通過對網絡參數進行精心選擇的概率分布,可以通過聯合修剪和量化來揭示高性能和計算高效的架構。雖然這種方法可能導致高度壓縮的架構,但它缺乏對特定任務或問題進行修剪或量化的細粒度自適應。因此,其他兩項貢獻旨在分別處理剪枝和量化。第二個貢獻對應于一種新的L0范數優化方法,L0范數是神經網絡稀疏性的黃金標準。本文提出一種通用技術,通過適當數量的噪聲,可以對不可微L0范數進行基于梯度的優化。實驗表明,這種方法可以產生準確和高度稀疏的模型,同時它可以通過條件計算和適當的軟件進行稀疏訓練,這也可以促進更快的訓練。最后,為了最后的貢獻,我們采用類似的思想并引入松弛量化;基于梯度的優化過程,允許學習神經網絡,其中參數和激活位于(自適應)量化網格上。經驗表明,這允許在大規模任務中訓練準確的神經網絡,同時每權重和激活只需4位。最后,對研究問題進行了回答,同時討論了所提出方法的缺陷和缺點,并指出了有希望的研究方向。
為什么在小數據集上訓練的具有大量參數的神經網絡仍然可以準確地對未見過的數據進行分類?這種"泛化之謎"已經成為深度學習中的一個核心問題。除了傳統的監督學習設置,深度學習的成功擴展到許多其他體制,在這些體制中,我們對泛化行為的理解甚至更加難以捉摸。本文從監督學習開始,最終目的是通過提出新的理論框架和實用工具,闡明深度神經網絡在生成式建模和自適應數據分析中的泛化性能。
//dataspace.princeton.edu/handle/88435/dsp01k35697481
首先,證明了有監督深度神經網絡的泛化界,建立在經驗觀察的基礎上,即在真實數據集上訓練的深度網絡的推理計算對噪聲具有高度的抵抗力。根據信息理論的原則,噪聲穩定性表明冗余和可壓縮性,我們提出了一種新的訓練網絡的簡潔壓縮,這導致了更好的泛化估計。建立了生成對抗網絡(GANs)的有限容量分析。該研究對GANs學習分布能力的局限性進行了深入的了解,并提供了經驗證據,表明著名的GANs方法確實會導致退化解決方案。盡管結果消極,但本文繼續展示了GANs的一個令人驚訝的積極用例:可以使用在相同訓練集上訓練的GAN模型生成的合成數據準確預測深度神經網絡分類器的測試性能。
最后,探討了深度學習模型在經過多年的數據重用后是否會過度擬合ImageNet等標準數據集的問題。我們提供了一個簡單的估計,Rip Van Winkle 's Razor,用于測量由于數據過度使用而導致的過擬合。它依賴于一個新的概念,即必須提供給一個熟悉該領域和相關數學的專家裁判的信息量,他在創建測試集的時候剛剛睡著(就像童話故事中那樣)。在許多ImageNet模型中,這種估計是非空的。
本文研究了輸入圖的結構與圖處理算法GPU (Graphical Processing Unit)并行化策略性能之間的關系。加速器,特別是圖形處理器(gpu),已經成為高性能計算(HPC)系統的主要組成部分。因此,分析、理解和預測GPU代碼性能的能力對于有效使用這些HPC系統至關重要。
//dare.uva.nl/search?identifier=8f5c7fda-858f-4fb6-855f-36520da0b62d
圖算法廣泛應用于許多科學領域,但如何將圖處理算法映射到gpu上卻鮮為人知。本文證明了輸入圖的結構對不同并行化策略的性能有顯著影響。用分析模型來預測圖的最佳并行化策略是不可行的。本文提出一個使用PageRank和廣度優先搜索(BFS)的案例研究,表明可以通過使用二叉決策樹(BDT)模型來預測給定圖的適當并行化策略來加快它們的性能。此外,我們制作了一個軟件流水線和測量數據集,其他人可以使用這些數據來重現或擴展我們的工作。
我們可以使用圖形處理單元(GPU)來提高圖處理的性能嗎?這個看似簡單的問題,正是本文工作的出發點。然而,在我們考慮這個問題之前,讓我們首先考慮一下其中的假設。為什么我們關心圖并處理它們?我們為什么關心GPU?為什么要把它們結合起來呢?圖是用于描述離散對象之間關系的靈活抽象,使其非常適合建模復雜的結構和/或關系。因此,圖被廣泛應用于不同的領域,如語言學、物理學、化學、生物學、生物信息學和社會科學。它們的實用性使圖成為科學和商業中許多計算問題的核心。隨著我們將更多流程和數據數字化,人們想要處理的圖形的數量和大小將繼續增長。Graph5001排名的增長和活躍就說明了這一點。在可預見的未來,對圖處理的需求可能會繼續增長。
圖處理在這方面并不是唯一的;每個領域對計算能力的需求都在增長。對處理能力不斷增長的需求帶來了GPU,在過去的15年里,它每美元提供的計算量最多。現代商用GPU的設計-具有大規模、細粒度的并行性和高帶寬內存-使它們非常適合作為加速器。現代GPU提供了比大多數傳統中央處理器(CPU)和通用多核(GPMCs)架構更好的計算吞吐量(按美元和/或瓦特計算)。對于增加的計算需求,無論是購買價格還是每瓦的計算量,它們都是最具成本效益的解決方案。TOP5002的排名清楚地表明了這一點,其中大多數超級計算機都具有GPU加速器。簡而言之,圖處理很重要,因為許多實際計算問題都依賴于它。GPU很重要,因為它們是滿足日益增長的計算能力需求的最具成本效益的方法,特別是對于大規模并行計算任務。理論上,圖處理應該從GPU加速中獲益良多,因為圖處理算法的特點是可以并行化的大量獨立操作和高內存強度[61]。然而,正如本杰明·布魯斯特所說:“理論上,理論和實踐沒有區別,而實踐卻有區別。”“[88]。
第2章概述了圖形、GPGPU編程和gpu上的圖形處理。為本文的后續討論提供必要的背景資料。最重要的是,本文更詳細地概述了現代GPU中存在的設計權衡,以及這些權衡如何限制我們對圖處理的實現選擇。第3章在第17頁討論了經驗計算機科學的再現性困難,重點是圖處理中的困難。本文介紹了發表在[89]中的軟件工具鏈,我們構建了該工具鏈,用于收集圖算法的性能數據,對這些結果進行數據分析,并根據經驗數據評估模型。在第4章中,我們將討論相鄰迭代可能的并行化策略,以及如何使用相鄰迭代來實現PageRank和BFS算法。我們使用第17頁第3章中的工具鏈來量化不同并行化策略對PageRank(發表在[92,93])和BFS(發表在[94])性能的影響。第5章第67頁介紹了我們基于進化計算的圖生成器,發表在[95]。我們構建這個生成器作為概念驗證,以為我們的實驗生成輸入圖。然而,由于工程時間的實際限制,我們最終放棄了這種方法,而選擇使用真實的數據集。第6章介紹了發表在[94]中的分析工作量模型,用于描述第41頁第4章中的并行化策略。這些分析模型不足以準確預測這些算法在GPU上的并行性能。在第7章中,我們展示了如何使用第3章中的工具鏈來創建二叉決策樹(BDT)模型,該模型可以讓我們預測給定輸入圖的算法的最佳實現,發表在[92,93]。此外,還證明了可以通過在遍歷期間使用BDT模型動態切換實現來加快BFS遍歷。第111頁的第8章分析了我們的BDT模型跨數據集和GPU架構的可移植性,發表在[90]中。分析表明,所提出實現的性能特征在GPU架構和數據集上基本穩定。
**本文共分為4個獨立章節,分別研究面向醫學圖像分割與重建的不確定性量化方法、面向生存分析的魯棒深度模型和新的灰盒對抗防御算法。**該論文結合了理論和實證結果,包含了醫療健康中的兩個應用,即醫學圖像分析和生存分析。**在第3章和Hu et al.[54]中,提出了一種新的醫學圖像分割的監督不確定性量化方法。利用多級標注的可變性作為"基礎真相"偶然不確定性的來源,并將其視為監督學習問題中的目標。**我們將這種基本事實的不確定性與概率U-Net[69]相結合,并在LIDC-IDRI肺結節CT數據集[5,6,20]和MICCAI2012前列腺MRI數據集[82]上進行測試。我們發現,我們能夠改進預測的不確定性估計。我們還發現可以提高樣本精度和樣本多樣性。**在第4章和Hu、Pezzotti和Welling[53]中,我們提出了一種新方法,可以準確評估醫學圖像重建模型的預測精度。**首先,通過將預測誤差分解為隨機誤差和系統誤差,證明當前方法估計的預測不確定性與預測誤差不高度相關,并表明前者等價于隨機誤差的方差。目前的方法通過修改模型結構和訓練損失來聯合估計真實目標和數據的不確定性,從而不必要地損害了性能。分別估計它們而不進行修改可以提高性能。接下來,建議分兩步估計目標標簽和預測誤差的大小。在一個大規模的MRI重建數據集[127]上展示了所提出方法,取得了比最先進的不確定性估計方法更好的結果。
**在第5章和Hu等人的[51]中,我們提出了一種基于transformer的魯棒生存模型,該模型估計了患者特異性生存分布。**我們的貢獻是雙重的。首先,到我們發表[51]為止,深度生存模型使用全連接或循環神經網絡,我們是第一個將Transformer[120]應用于生存分析的人。此外,我們使用序數回歸來優化隨時間推移的生存概率,并懲罰隨機的不協調對。其次,許多生存模型僅使用排序指標進行評估,如一致性指數[45]。本文還建議使用絕對誤差指標,來評估對被觀察對象的精確持續時間預測。在兩個公開的真實世界數據集上展示了所提出的模型,表明所提出模型的平均絕對誤差結果明顯優于當前模型,同時,在一致性指數下確定最佳模型是具有挑戰性的。
在第6章和Hu, Nalisnick, and Welling[52]中,我們提出了一種新的灰盒對抗防御算法,該算法可能用于一些安全敏感的應用。在對抗樣本的文獻中,白盒和黑盒攻擊受到了最多的關注。假定敵手對防御者的模型有完全(白色)或沒有(黑色)訪問權限。在本章中,我們關注同樣實用的灰框場景,攻擊者只掌握部分信息。我們的防御假設除了私鑰之外的一切都將被攻擊者使用。該框架使用離散化的Baker映射[34]進行圖像去噪和加密。對使用各種梯度制作的對抗性圖像(如FGSM [39], PGD[86])進行的廣泛測試表明,所提出的防御在CIFAR-10和CIFAR-100上取得了比最先進的灰盒防御在自然和對抗性精度方面都更好的結果。
**近年來,深度學習在許多領域得到了快速發展。這些成功啟發了在安全領域使用深度學習。**然而,當深度學習遇到安全性時,至少有兩個主要挑戰。首先,攻擊數據的可用性是個問題。在有限的攻擊數據下構建一個良好的模型是具有挑戰性的。其次,深度學習系統本身容易受到各種攻擊,這在使用深度學習提高計算機系統安全性時帶來了新的問題。為了解決第一個挑戰,本文展示了如何使用深度學習技術來提高有限或沒有攻擊數據的計算機系統的安全性。為了解決第二個挑戰,我們展示了如何保護深度學習系統的安全性和隱私性。 **具體而言,在本文的第一部分中,我們考慮了一個沒有攻擊數據的實際場景,即異常檢測。**本文提出了一種新的方法——重構誤差分布(RED),用于實時異常檢測。本文的關鍵見解是,計算機系統的正常行為可以通過時間深度學習模型捕獲。偏離正常行為表示異常。實驗表明,所提方法可以在電網控制器系統和通用云計算服務器中實時、高精度地檢測攻擊。論文的第二部分主要研究深度學習的安全與隱私保護問題。在機器學習即服務(MLaaS)系統中,可以通過一種精心設計的輸入,即敏感樣本,動態檢查云中的深度學習模型的完整性。在另一個場景中,例如邊緣-云系統中的分布式學習,我們證明了云中的攻擊者可以在攻擊者能力不斷減弱的情況下高保真地重構邊緣設備的輸入數據。本文還提出了一種新的防御方法來應對這些攻擊。 綜上所述,我們希望本文的工作能為利用深度學習提高安全性提供啟發,并有助于提高深度學習系統的安全性。
**深度神經網絡(dnn)在人工智能(AI)的廣泛應用中蓬勃發展。深度神經網絡的普遍采用可以歸因于其對不同任務的高度可定制性。**事實上,研究人員已經為不同的應用設計了DNNs的變種,例如,用于視覺識別的卷積神經網絡(CNNs)、用于圖像合成的生成對抗網絡(GANs)、用于時間序列處理的循環神經網絡(RNNs)等。所有這些變體都具有高度不同的網絡拓撲和訓練目標。
//dataspace.princeton.edu/handle/88435/dsp01zk51vm00t
盡管DNNs取得了成功,但人們越來越關注DNNs的效率。當前的DNN資源匱乏,為它們在資源有限的邊緣設備上部署設置了困難的障礙。然而,深度神經網絡應用的廣泛性增加了發現高效的不同變體深度神經網絡的難度。由于這種關鍵的多樣性,很難產生一種通用方法來獲得高效的DNN,并在不同的應用程序中具有令人滿意的性能。
本文通過一個簡單而直觀而有效的概念,解決了不同領域的深度神經網絡高效設計的挑戰:深度神經網絡本身是為不同的學習目標定制的,提高其效率的方法也應該是定制的。有了這個概念,本文提出設計高效CNN、GANs和RNN的方法。本文首先提出了一種CNN壓縮算法——類判別壓縮(CDC),與CNN的類判別訓練目標無縫契合,并在不損失精度的情況下為ImageNet上的ResNet50提供了1.8倍的加速。對CNN壓縮的通道剪枝進行了深入研究。在分類精度目標的驅動下,本文提出一種進化框架,以自動發現優于手動設計的可遷移剪枝函數。本文進一步研究了GAN圖像合成的另一種應用。GAN被訓練成合成真實的內容,從而提出了一種內容感知的GAN壓縮方法,將最先進的模型加速了11倍,而圖像質量損失可以忽略不計。最后,我們將研究擴展到系統設計領域,我們的目標是通過構建高效的RNN數據預取器來緩解內存墻。本文提出一種多架構協同設計策略,將最先進的神經預取器速度提高15倍,性能甚至更好。
貝葉斯不確定性的量化是許多機器學習應用的關鍵元素。為此,開發了近似推理算法[176],以相對較低的成本執行推理。盡管最近將近似推理擴展到"大模型×大數據"機制取得了進展,但仍存在許多公開挑戰。例如,如何正確地量化復雜、不可識別的模型(如神經網絡)的參數不確定性?如何正確處理由缺失數據引起的不確定性,并以可擴展的方式進行學習/推理?此外,如何優化地收集新信息,使缺失數據的不確定性進一步減少,從而做出更好的決策?本文對這些研究問題提出了新的研究方向和新的技術貢獻。本文分為兩個部分(主題A和主題B)。在主題A中,我們考慮在監督學習設置下量化模型的不確定性。為了克服參數空間推理的一些困難,本文提出了一個新的研究方向,稱為函數空間近似推理。也就是說,通過將監督概率模型視為隨機過程(對函數的度量),我們現在可以通過另一類(更簡單的)隨機過程來近似預測函數的真實后驗。為函數空間推理提供了兩種不同的方法,并證明它們返回更好的不確定性估計,以及在復雜模型上改進的經驗性能。在主題B中,我們考慮了無監督學習環境下缺失數據不確定性的量化。本文提出一種基于深度生成模型的缺失數據不確定性量化新方法。它允許我們擺脫傳統方法的計算負擔,并執行準確和可擴展的缺失數據填補。此外,利用生成模型返回的不確定性估計,提出了一個信息論框架,用于高效、可擴展和個性化的主動信息獲取。這使我們能夠最大限度地減少缺失數據的不確定性,并根據新信息做出改進的決策。
設計具有不確定性的深度學習模型,使其能夠在預測的同時提供合理的不確定性,一直是部分機器學習社區的目標。從業者也經常需要這樣的模型。最普遍和最明顯的方法是采用現有的深層架構,并嘗試將現有的貝葉斯技術應用于它們,例如,將神經網絡的權重作為貝葉斯框架中的隨機變量處理。本文試圖回答這個問題: 現有的神經網絡架構是獲得合理不確定性的最佳方式嗎?在本文的第一部分,我們提出了在對抗環境下貝葉斯神經網絡的不確定性行為的研究,這表明,雖然貝葉斯方法在數據分布附近的確定性網絡上有顯著的改進,但外推行為是不受歡迎的,因為標準神經網絡架構在結構上偏向于自信外推。基于此,我們探索了兩種標準深度學習架構的替代方案,試圖解決這一問題。首先,我們描述了一種新的膠囊網絡生成公式,它試圖通過對場景結構的強假設來將結構強加到學習任務中。然后,我們使用這個生成模型來檢查這些潛在的假設是否有用,并論證它們實際上存在重大缺陷。其次,我們探索了bilipschitz模型,這是一種解決深度神經網絡中確保先驗回歸這一更有限目標的體系結構。這些方法基于深度核學習,試圖通過使用最終分類層來控制神經網絡的行為,當與支持向量集的距離增加時,分類層會恢復到先驗值。為了在使用神經特征提取器的同時保持這一特性,我們為這些模型描述了一種新的“bilipschitz”正則化方案,該方案基于通過施加由可逆網絡上的工作激發的約束來防止特征崩潰。我們描述了這些模型的各種有用的應用,并分析了為什么這種正則化方案似乎仍然有效,即使它背后的原始動機不再成立,特別是在特征維度低于輸入的情況下。我們的結論是,雖然膠囊網絡可能不是一個有前途的方向,但本文最后部分討論的模型是未來研究的一個富有成果的領域,在許多應用中作為標準貝葉斯深度學習方法的一個有前途的潛在替代方案。
近年來,深度學習已經將自己定位為機器學習最有前途的方向之一。然而,深度神經網絡在不確定性估計、模型選擇、先驗知識的整合等方面存在許多不足。幸運的是,所有這些問題都可以在貝葉斯深度學習框架內克服,使用貝葉斯神經網絡、變分自編碼器或深度神經網絡高斯過程等模型。不幸的是,這需要使用近似推理過程和先驗分布的規范。在這篇論文中,我們展示了這些模型中先驗規范不僅僅是一個麻煩,而是一個寶貴的機會,可以將領域知識和歸納偏見加入到學習算法中,從而提升全新應用的性能。為此,我們對相關文獻進行了全面的回顧,并進一步貢獻了不同的原創研究成果。
具體地說,我們證明了變分自編碼器中的高斯過程先驗可以改進時間序列的表示學習,并允許對缺失數據進行有效的插補,同時還可以提供校準的不確定性估計。我們還表明,通過使用變分高斯-馬爾可夫過程,這是可能的,在沒有顯著的額外計算成本。此外,我們表明,在變分自編碼器中使用自組織映射作為結構歸納偏差,可以提高學習表示的可解釋性,并使有效的潛在聚類。這些聚類表示可以作為潛在時間序列模型的輸入,從而準確地預測未來的狀態。在貝葉斯神經網絡中,我們證明了常用的各向同性高斯先驗不僅會導致次優性能,而且在某些情況下還會產生所謂的冷后驗效應,即經過緩和的后驗比真正的貝葉斯后驗表現更好。相反,我們提出了具有重尾性和空間相關性的備選先驗,可以提高性能,緩解冷后驗效應。最后,當沒有先驗知識可用時,我們表明先驗分布可以在元學習環境中從相關任務中學習。在深度神經網絡高斯過程的情況下,我們表明元學習的均值函數和核函數的先驗改進預測性能和不確定性估計。
我們希望本文將為貝葉斯深度學習框架奠定基礎,在該框架中,先驗分布的選擇將被視為建模任務的關鍵部分,手工設計和元學習的先驗將在任務之間自由共享,以實現貝葉斯深度學習。
//www.research-collection.ethz.ch/handle/20.500.11850/523269
近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。
//compstat-lmu.github.io/seminar_nlp_ss20/
在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。
這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。
為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。
遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。
為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。
在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。
本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。