**訓練基于深度神經網絡的自動語音識別(ASR)模型通常需要數千小時的轉錄數據,將其限制在少數語言中。此外,目前最先進的聲學模型基于Transformer架構,該架構隨著序列長度的二次增長,阻礙了其對長序列的使用。本文旨在減少(a)數據和(b)開發最先進的ASR系統的計算需求,只有幾百小時或更少的轉錄數據。本文的第一部分著重于減少訓練這些模型所需的轉錄數據量。本文提出一種使用dropout進行不確定性感知半監督學習的方法。該方法為未標記數據的訓練產生了更好的假設。研究了兩種流行的自監督預訓練方法的域外和跨語言泛化:掩碼聲學建模和wav2vec 2.0。兩種預訓練方法都可以泛化到未見過的域,并明顯優于僅用監督數據訓練的模型。//infoscience.epfl.ch/record/297304?ln=en在第二部分中,專注于減少Transformer模型的計算需求,(a)通過設計高效的注意力計算形式,(b)通過減少注意力計算的輸入上下文長度。**本文首次提出"線性"注意力,使用注意力的核公式將自回歸transformer表示為遞歸神經網絡,并將序列長度的計算復雜度從二次降低到線性。提出"聚類"注意力,通過對輸入序列進行聚類并使用質心進行計算來近似自注意力。在給定的計算預算下,聚類注意力優于普通注意力。對于ASR,我們發現線性注意力導致詞錯誤率下降,而聚類在處理較短序列時引入了開銷。為解決這一限制,本文開發了一種方法,用均值池化對輸入進行隨機下采樣,以實現高效的wav2vec 2.0訓練。這使得在推理過程中可以在不同的壓縮因子下使用相同的模型。對wav2vec 2.0預訓練的隨機壓縮,能夠為轉錄數據有限的語言建立計算高效的ASR模型。
機器學習被廣泛應用于各種不同的學科,以開發感興趣的變量的預測模型。然而,構建這樣的解決方案是一個耗時且具有挑戰性的學科,需要經過高度訓練的數據科學家和領域專家。作為回應,自動化機器學習(AutoML)領域旨在通過自動化減少人工工作量并加快開發周期。由于超參數在機器學習算法中無處不在,以及調優的超參數配置可以對預測性能產生影響,超參數優化是AutoML的一個核心問題。最近,深度學習的興起推動了神經架構搜索(NAS),這是一個專注于自動化神經網絡設計的超參數優化問題的專門實例。對于大規模調優問題,網格搜索和隨機搜索等簡單的超參數優化方法在計算上是難以處理的。因此,本文的重點是開發高效和有原則的超參數優化和NAS方法。
**在回答以下問題方面取得了進展,目的是開發更高效和有效的自動化機器學習算法。**1. 超參數優化(a)我們如何有效地使用早期停止來加速超參數優化?(b)如何利用并行計算來執行超參數優化,同時在順序設置中訓練單個模型所需的時間?(c)對于多階段機器學習管道,我們如何利用搜索空間的結構來減少總計算成本?
鑒于這些問題,本文分為兩個部分。第一部分側重于通過解決1a, 1b和1c問題在高效超參數優化方面取得的進展。第二部分側重于通過解決問題2a, 2b和2c,在理解和改進神經架構搜索的權重共享方面取得的進展。
**自然語言生成(NLG)已經從深度學習技術的發展中取得了顯著的成功。隨著大規模的預訓練成為NLP中事實上的標準,大量的訓練數據和模型參數始終能夠在標準NLG任務中獲得最先進的性能。**雖然相當成功,但目前的NLG方法在幾個方面都是低效的,這阻礙了它們在更廣泛和實際的環境中的使用:(1)它們是標簽低效的-條件神經生成(例如機器翻譯)通常需要大量的注釋樣本來訓練,這限制了它們在低資源環境中的應用;(2)它們的參數效率不高——通常的做法是對預訓練的模型進行微調,使其適應下游任務,然而,這些模型可以擴展到數萬億的參數(Fedus等人,2021年),這將在服務大量任務時造成大量的內存占用;(3)最后,我們重點研究了趨勢模型類——檢索增強NLG模型的計算效率低下問題。它們從外部數據存儲中檢索以輔助生成,由于額外的計算,添加的數據存儲和檢索過程會引起不小的空間和時間成本。
**本文旨在對高效NLG的研究問題有更深入的理解,并利用這些見解來設計更好的方法。**具體來說,(1)在標簽效率方面,研究了無監督和半監督的條件生成,利用豐富的無標簽文本數據,從而減輕了對大量標注樣本的需求。所提出的方法在各種NLG任務上進行了驗證;(2)在參數效率方面,本文提出了一個統一的框架來連接參數高效的遷移學習,其中只需要更新少數參數,就可以使大型預訓練模型適應下游任務。所提出框架為這一方向提供了新的理解,以及為參數高效的NLG實例化最先進的方法;(3)對于檢索增強NLG的計算效率,我們設計了新的模型或后適應檢索組件,以壓縮數據存儲,減少檢索計算,并加快推理。 語言是人類交流的主要媒介。在人工智能中,語言是機器與人交流的主要接口之一,因此機器需要能夠理解并生成自然語言。本文重點研究后者,即自然語言生成。自然語言生成是最基本的范疇之一的任務在NLP,橫跨在機器翻譯(Bahdanau et al ., 2015),文本摘要(Rush et al ., 2015),對話生成(Sordoni et al ., 2015),數據描述(Novikova et al ., 2017),等等。隨著近年來深度學習在NLP領域的快速發展(Hochreiter and Schmidhuber, 1997;Bahdanau等人,2015;Vaswani et al., 2017),我們已經見證了這些任務的巨大進展。特別是大規模的自監督預訓練(Peters等人,2018;Devlin等人,2019a;)將NLG任務的性能提升到了一個新的水平(Lewis等人,2020a;Raffel等人,2020)。最近,越來越大的預訓練語言模型顯示出了將所有NLP任務作為生成任務處理的潛力,在適當的文本提示下實現有競爭力的零次或少次結果(Radford et al., 2019; Brown et al., 2020; Schick and Schütze, 2021c; Du et al., 2021; Liu et al., 2021a; Sanh et al., 2022)。盡管取得了巨大的成功,但目前的NLG方法在許多方面都是低效的,這阻止了它們在更廣泛的環境中使用。在本文中,我們考慮了以下三個方面的低效率。
標簽低效: 最先進的自然語言生成模型通常是深度編碼器-解碼器或僅解碼器的神經網絡,通常由自注意力transformer架構提供動力(Vaswani等人,2017)。這些模型以端到端的方式在具有交叉熵損失的并行示例上進行訓練。模型訓練需要大量的標注樣本才能達到合理的性能。例如,翻譯系統通常用數百萬個句子對進行訓練,以達到實際性能(Akhbardeh等人,2021);流行的文本摘要基準也由數十萬個并行示例組成(Hermann等人,2015;Narayan等人,2018)。然而,帶標簽的示例通常是稀缺資源——豐富的注釋只存在于某些領域。此外,目前大多數數據集都是以英語為中心的,而世界上有7000多種語言,這意味著大多數語言的任務標簽都不容易獲得。這對應用通用的深度NLG模型提出了挑戰。
**參數低效:**自監督預訓練技術已在各種NLP任務上取得了巨大成功(Peters等人,2018;Devlin等人,2019a;Liu等人,2019a;Yang等人,2019)。通常,模型首先只在自監督損失的情況下對原始文本進行預訓練,然后在帶有標記數據的下游任務上對預訓練模型進行微調。這樣的管道已經成為當今創建最先進的NLG系統的事實標準。在這個方向上,研究人員正在追求越來越強大的預訓練模型,這實際上在大多數情況下導致了更多的參數——越來越大的語言模型由數億到萬億參數組成(Brown et al., 2020;Fedus等人,2021;Rae等人,2021)。這樣,每個單獨的微調過程都會獲得巨大模型的不同副本,導致微調和推理時的參數利用率低下。當服務于大量任務時,這種參數低效會導致大量內存占用。
本文提出了一系列方法來提高自然語言生成的效率,從而可以在不顯著增加資源需求的情況下創建更好的NLG系統。首先描述了如何利用無標記樣本來幫助改善無監督或半監督文本生成(第一部分),然后提出了一個參數高效遷移學習(PETL)的統一框架和伴隨的最先進的PETL方法(第二部分)。PETL方法旨在微調凍結的大型模型的一小部分參數,以實現與完全微調相當的性能,從而提高參數效率。最后,我們關注通過減少數據存儲大小和加快檢索過程,在空間和時間上簡化檢索增強方法(第三部分)。
**深度神經網絡(DNN)在許多領域都提供了最先進的性能,但這一成功是以高計算和內存資源為代價的。**由于DNN推理在邊緣和云系統上都是一種流行的工作負載,因此迫切需要提高其能效。改進的效率使dnn能夠在更大范圍的目標市場中使用,并有助于提高性能,如果今天經常受到功率限制。本文采用軟硬件協同設計的方法,提高了不同硬件平臺上深度神經網絡推理的性能。我首先展示了一些降低DNN運行時成本的軟件優化技術。總的來說,我證明了模型大小可以減少34倍。不同風格的神經網絡壓縮技術的組合可以在縮小內存足跡方面提供成倍的收益。這些技術適用于在內存敏感的邊緣設備上運行DNN推理。利用運行時和依賴數據的特征信息,我開發了一種動態剪枝策略,其性能明顯優于現有的靜態剪枝方法。所提出的動態剪枝不僅減少了模型大小,而且減少了GPU的乘累加操作數量。我還介紹了一種新的量化機制,該機制被調整為適合模型參數的自然分布,這種方法減少了DNN推斷所需的位操作總數。然后,本文專注于使用自定義硬件加速DNN。構建了一個名為Tomato的框架,它在FPGA設備上生成多精度和多算法硬件加速器。軟硬件聯產流程從高層神經網絡描述中部署硬件加速器,利用FPGA器件的硬件可重構性支持靈活的每層量化策略。然后,我證明了自動生成的加速器在延遲和吞吐量方面比最接近的基于FPGA的競爭對手至少高出2到4倍。為ImageNet分類生成的加速器以每秒超過3000幀的速度運行,延遲僅為0.32ms,使其成為延遲關鍵、高吞吐量的云端推理的合適候選。最后,我展示了自動化機器學習技術如何通過硬件感知來改進,以為新興類型的神經網絡和新的學習問題設置產生高效的網絡架構。硬件感知的網絡架構搜索(NAS)能夠發現更節能的網絡架構,并在圖神經網絡等新興神經網絡類型上實現顯著的計算節省。在8個不同的圖數據集上與7個人工和NAS生成的基線相比,所提出的低精度圖網絡架構搜索提高了大小-精度的帕累托前沿。此外,我演示了硬件感知的NAS可以應用于多任務多設備少樣本學習場景。在具有各種硬件平臺和約束的流行的少樣本學習基準中,所提出的方法的性能明顯優于各種NAS和人工基準。在5路1樣本Mini-ImageNet分類任務上,所提方法在減少60%計算量的情況下,比最好的人工基線在準確率上提高了5.21%。
深度強化學習(RL)在各個領域取得了顯著的成功,包括在圍棋和國際象棋等游戲中的使用。最近,深度多智能體強化學習(MARL)引起了廣泛關注,因為大量現實世界的問題可以自然地在MARL環境中表示。例如,自主車輛與無人機或機器人編隊的協調控制需要多個智能體根據局部觀察采取行動并協調其行為。然而,單智能體深度強化學習和多智能體深度強化學習都面臨著一個共同的挑戰:數據效率低和訓練時間長。本文向解決該問題邁出了一步:如何使(多智能體)深度強化學習更有效,即如何使用更少的數據和減少訓練時間?本文從五個方面解決深度強化學習的訓練時間長和數據效率低的問題:(1)并行高通量訓練;(2)更好的表示學習;(3)遷移學習;(4)高效探索;(5)訓練智能體以利用外部知識。對于1),為了實現更高的強化學習訓練吞吐量,我們提出了一個快速強化學習訓練框架,該框架并行收集數據,而不犧牲強化學習算法的數據效率。對于2),研究了圖卷積網絡的使用,以捕獲MARL中常用的集中式批評器的排列不變性質。我們發現這可以導致更有效的學習。研究了一種以物體為中心的表示,將多智能體RL算法擴展到復雜的視覺環境。3)為了讓強化學習智能體利用經過訓練的智能體的"知識",本文提出了一個遷移學習框架,該框架允許學生模型利用多個教師模型的"知識"。我們發現這種遷移可以導致更快的學習。對于4),研究了協調的多智能體探索,這允許智能體協調它們的探索努力,并更快地學習。最后,對于5),本文提出了"知識詢問" (AFK),一個學習生成語言命令以查詢有意義的知識的智能體,以更有效地解決給定的任務。綜上所述,本文研究了提高深度強化學習數據效率和訓練時間的方法。我們相信,通過更短的訓練時間和更好的數據效率,(多智能體)深度強化學習可以應用于各種現實世界的問題,本文提出的方法使我們更接近這一目標。
深度學習推動了應用的爆炸式增長,然而訓練深度神經網絡通常需要昂貴的人工注釋。在這篇論文中,我們探索了在訓練深度神經網絡時避免大量依賴人工注釋示例的替代方案。具體來說,要么采用自監督方法來自動糾正自由獲得的數據標簽,要么完全放棄使用人工標簽,而是利用音頻和視覺信息的自然共生來學習視頻中的對象表示。越來越多的數字數據通常會提供噪聲標簽,這些標簽可以用來監督學習過程。傳統的數據預處理包括在訓練識別模型之前糾正/清理數據,但這可能需要大量的人工工作。我們考慮自動更正注釋噪聲,從而避免了昂貴的手動注釋的需要。我們構建和擴展了最近的突破,使用一致性損失(consistency loss)和空間記憶映射(space memory map)來提供靈活的實例級注冊,從而實現更大的泛化。進一步探索了多模態感覺流,利用模態冗余,即模態之間的重疊信息,為模型提供自監督。表示是通過利用不同的模式來學習的,而不使用任何人類注釋的標簽。我們將使用三個不同的應用程序演示此技術。
首先,我們自動管理一個大型音頻數據集VGG-Sound,使用視覺引導收集了超過200k的視頻,并在此基礎上進行訓練,生成最先進的音頻識別模型。其次,我們提出了一種改進和擴展最近聲源定位技術的方法,通過引入一種機制來挖掘硬樣本并自動將其添加到對比學習公式中。最后,與在一個特定領域執行的現有視聽同步任務不同,我們建議通過探索使用幾種基于transformer的體系結構來解決開放世界設置中的同步問題。通過這些模型,我們在具有挑戰性的語音數據集中獲得了最先進的結果,并在一般聲音數據集中顯示了出色的泛化效果。
近年來,自然語言處理的研究方法取得了一些突破。這些突破來源于兩個新的建模框架以及在計算和詞匯資源的可用性的改進。在這個研討會小冊子中,我們將回顧這些框架,以一種可以被視為現代自然語言處理開端的方法論開始:詞嵌入。我們將進一步討論將嵌入式集成到端到端可訓練方法中,即卷積神經網絡和遞歸神經網絡。這本小冊子的第二章將討論基于注意力的模型的影響,因為它們是最近大多數最先進的架構的基礎。因此,我們也將在本章中花很大一部分時間討論遷移學習方法在現代自然語言處理中的應用。最后一章將會是一個關于自然語言生成的說明性用例,用于評估最先進的模型的訓練前資源和基準任務/數據集。
//compstat-lmu.github.io/seminar_nlp_ss20/
在過去的幾十年里,人工智能技術的重要性和應用不斷得到關注。在當今時代,它已經與構成人類塑造環境的大部分環境密不可分。因此,商業、研究和開發、信息服務、工程、社會服務和醫學等無數部門已經不可逆轉地受到人工智能能力的影響。人工智能有三個主要領域組成了這項技術:語音識別、計算機視覺和自然語言處理(見Yeung (2020))。在這本書中,我們將仔細研究自然語言處理(NLP)的現代方法。
這本小冊子詳細介紹了用于自然語言處理的現代方法,如深度學習和遷移學習。此外,本研究亦會研究可用于訓練自然語言處理任務的資源,并會展示一個將自然語言處理應用于自然語言生成的用例。
為了分析和理解人類語言,自然語言處理程序需要從單詞和句子中提取信息。由于神經網絡和其他機器學習算法需要數字輸入來進行訓練,因此應用了使用密集向量表示單詞的詞嵌入。這些通常是通過有多個隱藏層的神經網絡學習的,深度神經網絡。為了解決容易的任務,可以應用簡單的結構神經網絡。為了克服這些簡單結構的局限性,采用了遞歸和卷積神經網絡。因此,遞歸神經網絡用于學習不需要預先定義最佳固定維數的序列的模型,卷積神經網絡用于句子分類。第二章簡要介紹了NLP中的深度學習。第三章將介紹現代自然語言處理的基礎和應用。在第四章和第五章中,將解釋和討論遞歸神經網絡和卷積神經網絡及其在自然語言處理中的應用。
遷移學習是每個任務或領域的學習模型的替代選擇。在這里,可以使用相關任務或領域的現有標記數據來訓練模型,并將其應用到感興趣的任務或領域。這種方法的優點是不需要在目標域中進行長時間的訓練,并且可以節省訓練模型的時間,同時仍然可以(在很大程度上)獲得更好的性能。遷移學習中使用的一個概念是注意力,它使解碼器能夠注意到整個輸入序列,或自注意,它允許一個Transformer 模型處理所有輸入單詞,并建模一個句子中所有單詞之間的關系,這使得快速建模一個句子中的長期依賴性成為可能。遷移學習的概念將在小冊子的第6章簡要介紹。第七章將通過ELMo、ULMFiT和GPT模型來描述遷移學習和LSTMs。第八章將詳細闡述注意力和自注意力的概念。第九章將遷移學習與自注意力相結合,介紹了BERT模型、GTP2模型和XLNet模型。
為NLP建模,需要資源。為了找到任務的最佳模型,可以使用基準測試。為了在基準實驗中比較不同的模型,需要諸如精確匹配、Fscore、困惑度或雙語評估替補學習或準確性等指標。小冊子的第十章簡要介紹了自然語言處理的資源及其使用方法。第11章將解釋不同的指標,深入了解基準數據集SQuAD、CoQa、GLUE和SuperGLUE、AQuA-Rat、SNLI和LAMBADA,以及可以找到資源的預訓練模型和數據庫,如“帶代碼的論文”和“大壞的NLP數據庫”。
在小冊子的最后一章中,介紹了生成性NLP處理自然語言生成,從而在人類語言中生成可理解的文本。因此,不同的算法將被描述,聊天機器人和圖像字幕將被展示,以說明應用的可能性。
本文對自然語言處理中各種方法的介紹是接下來討論的基礎。小冊子的各個章節將介紹現代的NLP方法,并提供了一個更詳細的討論,以及各種示例的潛力和限制。
由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。
這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度。
//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a
概述:
在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。
最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。
在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。
雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。