亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

大型語言模型(LLMs)通過擴展模型和數據大小顯示出越來越強的上下文學習能力。盡管取得了這些進展,LLM仍然無法解決算法推理問題。雖然為最終答案提供了一個基本原理,導致了多步推理問題的進一步改進,但Anil等人在2022年表明,即使是簡單的算法推理任務,如parity,也遠遠沒有解決。在這項工作中,我們確定并研究了成功地向LLMs教授算法推理的四個關鍵階段:(1)將算法制定為技能,(2)同時教授多種技能(技能積累),(3)教授如何組合技能(技能組合)以及(4)教授如何將技能用作工具。我們證明了通過上下文學習(我們稱之為算法提示)向LLM教授算法推理是可能的。我們在各種算術和定量推理任務上評估了我們的方法,并證明了與現有的提示技術相比,該方法在性能上有顯著提升。特別是,對于長奇偶校驗、加法、乘法和減法,與最佳可用基線相比,我們分別實現了大約10倍、9倍、5倍和2倍的誤差減少。

付費5元查看完整內容

相關內容

最近機器學習(ML),或“人工智能(AI)的第三波”的成功,是建立在優化和統計領域的計算方法,大規模訓練數據和計算能力的可用性,以及部分模仿人類認知功能(如卷積網絡)的基礎上的。然而,目前的機器學習技術在實際應用中可能非常低效,并且容易出現不完美的數據,例如,當數據有噪聲、無標記、不平衡或包含冗余、偏差、協變量偏移等時。另一方面,人類學習在規劃和選擇不同學習階段的訓練內容時更具戰略性和適應性。與在所有階段對相同數據的隨機小批次重復訓練的機器學習技術相比,人類學習在解決這些實際挑戰時,在效率和魯棒性方面表現出巨大優勢。因此,如何制定機器學習的戰略性“課程”成為彌合人類智能與機器智能之間鴻溝的重要挑戰。課程學習是一種基于人類學習策略的、適用于不同學習階段的數據選擇方法,即先選擇較容易的樣本,再逐步增加較難的樣本。然而,人類用于設計課程的培訓材料的特性不僅限于難度,還可以包括多樣性、一致性、代表性、激勵、對未來培訓的影響或效用等。在機器學習中,開發高效準確的得分函數來衡量這些屬性及其對最終/以后學習目標的貢獻是具有挑戰性的。此外,鑒于分數函數,課程策略如何規劃多個訓練階段并根據每個階段自適應地調整選擇標準仍然是一個公開的挑戰。課程學習的另一個主要挑戰是缺乏模型參數和課程聯合優化的原理和理論激勵公式。如果沒有這樣的公式,就很難將選擇標準和分數函數與課程學習的潛在目標聯系起來,例如,訓練進度,泛化表現等。因此,很難解釋一個課程何時以及為什么可以提高ML。而且,在開發課程學習算法時,需要針對不同的ML應用,專門設計不同學習階段的選擇標準的規劃和調度,例如半監督學習、集成學習等。為了實現一個實際有效的算法,研究是否以及如何將為特定應用開發的現有技術與課程結合起來也很重要。本文旨在解決上述關鍵挑戰。它由四部分組成。在第一部分中,我們介紹了幾個新的課程學習公式。例如,我們可以將人類的學習策略轉換為離散-連續優化,并在訓練過程中聯合優化模型和課程,如第2章和第5章所示。我們還可以從一個新的課程學習目標中推導出權重或分數的解析形式,如第3章和第4章所示。此外,我們在第6章討論了幾個潛在的公式,以供未來的研究。在第二部分中,我們將深入探討在課程學習中起著重要作用的分數函數設計。例如,所選數據的多樣性在減少冗余和鼓勵早期探索方面發揮著至關重要的作用。除了多樣性,我們主要關注第8章中一類新的得分函數,它基于樣本在整個歷史上的訓練動態,而不是其在特定步驟的瞬時反饋。與廣泛應用的瞬時分數相比,它們顯著減少了分數評估所需的額外計算,并且由于其可區分的動態模式,它們在分配信息量最大的訓練樣本方面更準確。在第三部分中,我們基于所開發的公式和分數函數構建了實用的課程學習算法。這些算法涵蓋了幾個重要的機器學習問題,包括監督學習、半監督學習、噪聲標簽學習、集成學習等。在每個問題的算法中,研究和比較了不同的規劃或調度策略,這些策略決定了選擇標準如何在不同的學習階段發生變化。通過詳細的實證分析和比較,驗證了所提出調度策略的有效性。為在每個問題上實現最先進的性能,研究了每個問題的課程和現有技術之間的相互作用,然后在算法設計中結合它們的優勢。在第四部分中,在每個應用問題的基準數據集上,評估了所提出的方法,并與各種強大的基線進行了廣泛的實驗比較。與設計的課程相結合的方法在所有應用中都持續提高了訓練效率和最終測試的準確性。值得注意的是,課程在不完美數據的更具有挑戰性的應用上表現出更顯著的優勢,如半監督學習和噪聲標簽學習。第18章總結了本文的主要貢獻。除了提出的公式、分數函數和課程學習的算法外,還強調了在工作中彌合差距并結合人類啟發式方法、理論公式和經驗算法的優勢的努力。此外,還列舉了未來工作中幾個潛在的研究方向,這些方向可以顯著拓展課程學習的現有方案和應用領域,并深入理解機器學習中的訓練動力學及其與人類教育和認知的聯系。

付費5元查看完整內容

**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。

**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。

付費5元查看完整內容

一個機器人要想在非結構化的室外環境中與人類高效合作,就必須將指令從操作者直觀的模態轉化為行動。機器人必須能夠像人類一樣感知世界,這樣機器人所采取的行動才能反映自然語言和人類感知的細微差別。傳統上,導航系統結合了個人感知、語言處理和規劃塊,這些塊通常是根據不同的性能規格單獨訓練的。它們使用限制性接口進行通信以簡化開發(即,具有離散屬性的點對象和有限的命令語言),但這也限制了一個模塊可以傳遞給另一個模塊的信息。

深度學習的巨大成功徹底改變了計算機視覺的傳統研究方向,如目標檢測和場景標記。視覺問答(VQA)將自然語言處理中的最先進技術與圖像理解聯系起來。符號基礎、多步驟推理和對空間關系的理解已經是這些系統的元素。這些元素統一在一個具有單一可微損失的架構中,消除了模塊之間定義良好接口的需要,并簡化了與之相伴的假設。我們介紹了一種將文本語言命令和靜態航空圖像轉換為適合規劃的成本圖的技術。我們建立在FiLM VQA架構的基礎上,對其進行調整以生成成本圖,并將其與修改后的可微分計劃損失(最大邊際計劃)結合起來使用Field D*計劃器。通過這種架構,我們向統一語言、感知和規劃到單一的端到端可訓練系統邁出了一步。

我們提出了一個源自CLEVR數據集的可擴展綜合基準測試,我們用它來研究算法在無偏倚環境中具有幾乎無限數據的理解能力。我們分析了該算法在這些數據上的表現,以了解其局限性,并提出未來的工作來解決其缺點。我們使用真實的航空圖像和合成命令提供混合數據集的結果。規劃算法通常具有高分支因子,并且不能很好地映射到近年來催化深度學習發展的GPU。我們精心選擇了Field D和Max Margin Planning,以在高度并行的架構上表現良好。我們引入了一個適用于多GPU數據并行訓練的Field D版本,它使用Bellman-Ford算法,與我們的cpu優化實現相比,性能幾乎提高了十倍。在團隊中工作的人之間的流暢互動取決于對任務、環境和語言微妙之處的共同理解。在這種情況下工作的機器人也必須這樣做。學習將命令和圖像轉換為具有可微分規劃損失的軌跡是捕捉和模仿人類行為的一種方法,也是實現機器人和人類無縫交互的一小步。

付費5元查看完整內容

INTERSPEECH 是由國際語音通訊協會 (International Speech Communication Association, ISCA) 創辦的語音信號處理領域頂級旗艦國際會議,9月18號開會!本教程部分將介紹自監督語音表示學習方法及其與相關研究領域的聯系。非常值得關注!

盡管深度學習模型已經徹底改變了語音和音頻處理領域,但它們為單個任務和應用場景構建了專門的模型。深度神經模型也阻礙了方言和標記數據有限的語言。自監督表示學習方法有望提供一個單一的通用模型,以造福于一系列任務和領域。他們最近在NLP和計算機視覺領域取得了成功,達到了新的性能水平,同時減少了許多下游場景所需的標簽。語音表示學習也在經歷著類似的發展,主要有三類: 生成、對比和預測。其他方法則依賴于多模態數據進行預訓練,將文本或視覺數據流與語音混合。雖然自監督語音表征仍是一個發展中的研究領域,但它與聲學詞嵌入和零詞匯資源學習密切相關。本教程部分將介紹自監督語音表示學習方法及其與相關研究領域的聯系。由于目前的許多方法只關注自動語音識別作為下游任務,我們將回顧最近對學習表示的基準測試的努力,以擴展這種表示在語音識別之外的應用。本教程的一個實踐部分將提供構建和評估語音表示模型的實用指導。

盡管有監督深度學習已經徹底改變了語音和音頻處理,但它仍然需要為個別任務和應用場景建立專門的模型。同樣,要將這種方法應用到只有有限標記數據的方言和語言中也很困難。自監督表示學習方法有望提供一個單一的通用模型,該模型將有益于各種任務和領域。這種方法已經在自然語言處理和計算機視覺領域取得了成功,實現了新的性能水平,同時減少了許多下游場景所需的標簽數量。語音表示學習在生成法、對比法和預測法這三大類中經歷著類似的進展。其他方法依賴于多模態數據進行預訓練,將文本或視覺數據流與語音混合。盡管自監督語音表示仍然是一個新興的研究領域,但它與聲學詞嵌入和零詞匯資源學習密切相關,這兩種方法已經活躍了多年的研究。本文介紹了自監督語音表示學習的方法及其與其他研究領域的聯系。由于目前許多方法只關注自動語音識別作為下游任務,我們回顧了最近對學習表示進行基準測試的努力,以擴展語音識別以外的應用。

在過去的十年中,深度學習方法通過性能的巨大飛躍徹底改變了語音處理,實現了各種現實應用。深度神經網絡的監督學習是這種轉換的基石,為富含標記數據[1]-[3]的場景提供了令人印象深刻的增益。矛盾的是,這種對監督學習的嚴重依賴限制了那些不能吸引同等水平標簽數據的語言和領域的進步。為了克服對標簽數據的需求,研究人員探索了使用非成對音頻數據的方法,以開辟新的工業語音用例和低資源語言[4]-[6]。受兒童如何通過聽力和與家庭和環境的互動來學習他們的第一語言的啟發,科學家試圖使用原始波形和頻譜信號來學習語音表示,這些表示捕獲低水平的聲學事件、詞匯知識,一直到句法和語義信息。這些習得的表示然后用于需要最少數量的標記數據[7]-[9]的目標下游應用程序。形式上,表示學習指的是提取潛在特征的算法,這些特征捕獲了觀察到的輸入[9]的潛在解釋因素。

表示學習方法通常被認為是無監督學習的例子,它指的是機器學習方法的家族,發現訓練樣本中自然發生的模式,沒有預先分配的標簽或分數[10]。術語“無監督”是用來區分這一類方法與“有監督”方法和“半監督”方法的區別。“有監督”方法為每個訓練樣本分配一個標簽,“半監督”方法利用少量帶標簽的訓練樣本來指導使用大量無標記樣本的學習。無監督學習技術的例子包括k-means聚類[11]、混合模型[12]、自動編碼器[13]和非負矩陣分解[14]。自監督學習(SSL)是無監督學習方法的一個快速發展的子類,這是一種利用從輸入數據本身提取的信息作為標簽來學習對下游任務有用的表示的技術。本文重點介紹自監督學習方法。

圖1概述了與下游應用程序相關的自監督表示學習。該框架分為兩個階段。在第一階段,我們使用SSL預訓練表示模型,也稱為上游模型或基礎模型。在第二階段,下游任務使用來自凍結模型的學習表示,或在監督階段[15]中微調整個預先訓練的模型。自動語音識別(ASR)和說話人識別(SID)是圖1中下游應用的例子。人們認為,學習過的語音表示應該是分離的、不變的和有層次的。由于口語話語所包含的信息要比相應的文本轉錄豐富得多。例如,說話人的身份、風格、情緒、周圍的噪音和溝通渠道的噪音——學習能把這些變化因素分離出來的表征是很重要的。此外,學習到的特征對背景噪聲和通信通道的變化的不變性確保了下游應用場景的穩定性。聲學、詞匯和語義級別的學習特征層次結構支持具有不同需求的應用程序。例如,說話人識別任務受益于低水平的聲學表征,而語音翻譯任務則需要輸入話語的語義表征。

由于SSL技術的普及,已經發表了關于該技術在一般[16]-[18]以及其在自然語言處理(NLP)[19] -[22]和計算機視覺(CV)[23]中的應用的評論。然而,這些概述都沒有關注用于語音處理的SSL。由于語音信號與圖像和文本輸入有很大的不同,許多理論和技術已經發展起來,以解決語音的獨特挑戰。一篇綜述討論了基于深度學習模型[24]的語音表示學習,但沒有討論自我監督學習的最新進展。這激發了對語音SSL的概述。本文的結構安排如下。第二節簡要回顧了語音表示學習的歷史,第三節回顧了當前的語音SSL模型。第四節調查SSL數據集和基準,并討論和比較來自不同工作的結果。第五節分析了成功的SSL方法,并對技術創新的重要性提出了見解。第VI節回顧了使用SSL的零資源下游任務。最后,第七部分對全文進行了總結,并提出了未來的研究方向。

圖2:根據arXiv上的首次發布日期或會議提交日期列出的模型的選擇,當這一點明顯先于前者時。這些模型分為生成型、對比型和預測型。此外,一些模型的特征是嵌入模型或多模態模型,盡管大多數模型只從語音學習幀級表示。有些模型混合使用生成和對比任務。例如,PASE和PASE+使用多任務設置,但發現生成任務對下游任務性能最重要[69]。

付費5元查看完整內容

最近的工作表明,離線強化學習(RL)可以被表述為一個序列建模問題(Chen et al., 2021; Janner et al., 2021),并通過類似于大規模語言建模的方法解決。然而,RL的任何實際實例還涉及到一個在線組件,其中在被動離線數據集上預訓練的策略通過與環境的特定任務交互進行微調。我們提出了在線決策Transformers (ODT),這是一種基于序列建模的RL算法,在一個統一的框架中融合了離線預訓練和在線微調。我們的框架使用序列級熵正則化器與自回歸建模目標相結合,用于樣本高效的探索和微調。根據經驗,我們表明,ODT在D4RL基準測試的絕對性能方面可以與最先進的技術相媲美,但在微調過程中獲得的收益要顯著得多。 //www.zhuanzhi.ai/paper/0463e71720c9b14b6391b5c6bbecd1c1

付費5元查看完整內容

【導讀】ACL-IJCNLP 2021是CCF A類會議,是人工智能領域自然語言處理( Natural Language Processing,NLP)方向最權威的國際會議。ACL2021計劃于今年8月1日-8月6日以線上會議形式召開. 最近字節跳動AI實驗室總監李磊重返學術界,進入加州大學圣巴巴拉分校擔任助理教授。他和王明軒給了關于預訓練時代機器翻譯的教程,非常值得關注!

預訓練是自然語言處理(NLP)[28,8,20]、計算機視覺(CV)[12,34]和自動語音識別(ASR)[3,6,24]的主導范式。通常,首先對模型進行大量未標記數據的預訓練,以捕獲豐富的輸入表示,然后通過提供上下文感知的輸入表示,或初始化下游模型的參數進行微調,將模型應用于下游任務。最近,自監督的預訓練和任務特定的微調范式終于完全達到了神經機器翻譯(NMT)[37,35,5]。

盡管取得了成功,但在NMT中引入一個通用的預訓練模型并非易事,而且不一定會產生有希望的結果,特別是對于資源豐富的環境。在幾個方面仍然存在獨特的挑戰。首先,大多數預訓練方法的目標不同于下游的NMT任務。例如,BERT[8]是一種流行的預訓練模型,其設計目的是僅使用一個轉換器編碼器進行語言理解,而NMT模型通常由一個編碼器和一個解碼器組成,以執行跨語言生成。這一差距使得運用NMT[30]的預訓練不夠可行。此外,機器翻譯本身就是一個多語言問題,但一般的NLP預訓練方法主要集中在英語語料庫上,如BERT和GPT。鑒于遷移學習在多語言機器翻譯中的成功,對NMT[7]進行多語言預訓練是非常有吸引力的。最后,語音翻譯近年來受到了廣泛的關注,而大多數的預訓練方法都側重于文本表示。如何利用預訓練的方法來提高口語翻譯水平成為一個新的挑戰。

本教程提供了一個充分利用神經機器翻譯的預訓練的全面指導。首先,我們將簡要介紹NMT的背景、預訓練的方法,并指出將預訓練應用于NMT的主要挑戰。在此基礎上,我們將著重分析預訓練在提高非語言教學績效中的作用,如何設計更好的預訓練模式來執行特定的非語言教學任務,以及如何更好地將預訓練模式整合到非語言教學系統中。在每一部分中,我們將提供例子,討論訓練技巧,并分析在應用預訓練時轉移了什么。

第一個主題是NMT的單語預訓練,這是研究最深入的領域之一。ELMo、GPT、MASS和BERT等單語文本表征具有優勢,顯著提高了各種自然語言處理任務的性能[25,8,28,30]。然而,NMT有幾個明顯的特點,如大的訓練數據(1000萬或更多)的可用性和基線NMT模型的高容量,這需要仔細設計預訓練。在這一部分,我們將介紹不同的預訓練方法,并分析它們在不同的機器翻譯場景(如無監督的NMT、低資源的NMT和富資源的NMT)中應用的最佳實踐[37,35]。我們將介紹使用各種策略對預訓練的模型進行微調的技術,如知識蒸餾和適配器[4,16]。

下一個話題是NMT的多語言預訓練。在此背景下,我們旨在緩解英語為中心的偏見,并建議可以建立不同語言的普遍表示,以改善大量多語言的NMT。在這部分中,我們將討論不同語言的一般表示,并分析知識如何跨語言遷移。這將有助于更好地設計多語言預訓練,特別是零樣本遷移到非英語語言對[15,27,7,26,13,17,19,23,18]。

本教程的最后一個技術部分是關于NMT的預訓練。特別地,我們關注于利用弱監督或無監督訓練數據來改進語音翻譯。在這一部分中,我們將討論在言語和文本中建立一個一般表示的可能性。并展示了文本或音頻預處理訓練如何引導NMT的文本生成[33,21,32,14,22,10,9,11,36]。

在本教程的最后,我們指出了在應用NMT預訓練時的最佳實踐。這些主題涵蓋了針對不同的NMT情景的各種預訓練方法。在本教程之后,觀眾將理解為什么NMT預訓練不同于其他任務,以及如何充分利用NMT預訓練。重要的是,我們將深入分析預訓練如何以及為什么在NMT中起作用,這將為未來設計特定的NMT預訓練范式提供啟發。

//sites.cs.ucsb.edu/~lilei/TALKS/2021-ACL/

報告嘉賓:

李磊,加州大學圣巴巴拉分校擔任助理教授,曾任字節跳動人工智能實驗室總監。本科博士分別畢業于上海交通大學和卡耐基梅隆大學計算機系。曾任加州大學伯克利分校作博士后研究員和百度美國深度學習實驗室少帥科學家。曾獲2012年美國計算機學會SIGKDD最佳博士論文第二名、2017年吳文俊人工智能技術發明二等獎、2017年CCF杰出演講者、2019年CCF青竹獎。在機器學習、數據挖掘和自然語言處理領域于國際頂級學術會議發表論文100余篇,擁有二十余項技術發明專利。擔任CCF自然語言處理專委委員和EMNLP, NeurIPS, AAAI, IJCAI, KDD等多個會議組委成員和領域主席。

王明軒,字節跳動人工智能實驗室資深研究員,博士畢業于中國科學院計算技術研究所,主要研究方向為機器翻譯。主導研發了火山翻譯系統,服務全球過億用戶,并多次帶領團隊在 WMT 機器翻譯評測中拿到過冠軍。在 ACL、EMNLP、NAACL 等相關領域發表論文 30 多篇。擔任CCF自然語言處理專委委員和國內外多個會議組委成員。

付費5元查看完整內容

原型驅動的文本生成使用非參數模型,該模型首先從句子庫中選擇“原型”,然后修改原型生成輸出文本。這些方法雖然有效,但測試時效率低下,因為需要對整個訓練語料庫進行存儲和索引。此外,現有的方法通常需要啟發式來確定在訓練時引用哪個原型。在本文中,我們提出了一種新的生成模型,它可以自動學習稀疏原型支持集,同時也可以獲得較強的語言建模性能。通過(1)在原型選擇分布上施加稀疏誘導先驗,(2)利用平攤變分推理學習原型檢索函數來實現。在實驗中,我們的模型優于以前的原型驅動的語言模型,同時實現了高達1000倍的內存減少,以及測試時1000倍的加速。更有趣的是,當我們改變原型選擇的稀疏性時,我們展示了學習的原型能夠在不同的粒度捕獲語義和語法,并且可以通過指定生成的原型來控制某些句子屬性。

//arxiv.org/abs/2006.16336

付費5元查看完整內容

UniLMv2:統一預訓練偽掩碼語言模型

UniLMv2: Pseudo-Masked Language Models for Unified Language Model Pre-Training

論文鏈接://www.zhuanzhi.ai/paper/a6628400809ab320e597b1d4d1fca177

基于大規模語料的預訓練語言模型在各種自然語言處理任務帶來了巨大的提升。受UniLMv1 ([NeurIPS-19]Unified Language Model Pre-training for Natural Language Understanding and Generation)的啟發,本篇論文提出“偽掩碼語言模型”(PMLM),可以同時對兩種不同的語言建模目標進行高效訓練,從而使其更好地適用于語言理解(如文本分類、自動問答)和語言生成(如文本摘要、問題生成)任務。

我們將語言模型預訓練目標分為三類。第一類依賴于自編碼語言建模(Autoencoding, AE)。例如在 BERT 中使用的掩碼語言建模(MLM)隨機的在文本序列中遮蓋一部分單詞,在 Transformer 的雙向編碼結果之上,對每個被遮蓋的單詞進行分別還原。第二類方法基于自回歸建模(Autoregressive, AR)。不同于 AE,目標單詞被依次預測,且依賴于先前的結果。第三類是我們提出的半自回歸語言建模(Partially Autoregressive, PAR),對短語級別進行依賴建模,從而避免了 AR可能帶來的過度局部依賴問題。

偽掩碼語言模型(PMLM)

在新提出的偽掩碼語言模型(PMLM)中,我們對 AE 以及 PAR 這兩個語言建模目標進行了融合。在共享模型參數的基礎上,盡可能對上下文的編碼結果進行了復用,以達到高效訓練的目的。通過構造合理的自注意力模型掩碼與位置編碼,PMLM 可以在一次計算中同時對兩種語言建模任務進行訓練,且無需進行上下文編碼的冗余計算。

在自動問答、復述判別、情感分類、文本摘要、問題生成等一系列任務上的測評,說明了這一方法的有效性。

付費5元查看完整內容

由于硬件資源有限,深度學習模型的訓練目標通常是在訓練和推理的時間和內存限制下最大化準確性。在這種情況下,我們研究了模型大小的影響,關注于計算受限的NLP任務的Transformer模型:自監督的預訓練和高資源機器翻譯。我們首先展示了,盡管較小的Transformer模型在每次迭代中執行得更快,但更廣、更深入的模型在顯著更少的步驟中收斂。此外,這種收斂速度通常超過了使用更大模型的額外計算開銷。因此,計算效率最高的訓練策略是反直覺地訓練非常大的模型,但在少量迭代后停止。

這導致了大型Transformer 模型的訓練效率和小型Transformer 模型的推理效率之間的明顯權衡。然而,我們表明大模型比小模型在壓縮技術(如量化和剪枝)方面更健壯。因此,一個人可以得到最好的兩個好處: 重壓縮,大模型比輕壓縮,小模型獲得更高的準確度

//www.zhuanzhi.ai/paper/4d7bcea8653fcc448137766511ec7d8a

概述:

在當前的深度學習范式中,使用更多的計算(例如,增加模型大小、數據集大小或訓練步驟)通常會導致更高的模型準確度(brock2018large;raffel2019exploring)。最近自監督預訓練的成功進一步論證了這種趨勢經模型。因此,計算資源日益成為提高模型準確度的關鍵制約因素。這個約束導致模型訓練的(通常是隱含的)目標是最大化計算效率:如何在固定的硬件和訓練時間下達到最高的模型準確度。

最大化計算效率需要重新考慮關于模型訓練的常見假設。特別是,有一個典型的隱式假設,即模型必須經過訓練直到收斂,這使得較大的模型在有限的計算預算下顯得不太可行。我們通過展示以收斂為代價來增加模型大小的機會來挑戰這一假設。具體地說,我們表明,訓練Transformer 模型的最快方法(vaswani2017attention)是大幅度增加模型大小,但很早停止訓練。

在我們的實驗中,我們改變了Transformer模型的寬度和深度,并在自監督的預訓練(RoBERTa (liu2019roberta)在Wikipedia和BookCorpus上訓練)和機器翻譯(WMT14英語→法語)上評估了它們的訓練時間和準確性。對于這些任務,我們首先展示了更大的模型比更小的模型在更少的梯度更新中收斂到更低的驗證錯誤(第3節)。此外,這種收斂速度的增加超過了使用更大模型所帶來的額外計算開銷——計算效率最高的模型是非常大的,并且遠遠不能收斂(例如,圖2,左)。我們還表明,收斂的加速主要是參數計數的函數,只有模型寬度、深度和批大小的微弱影響。

雖然較大的模型訓練速度更快,但它們也增加了推理的計算和內存需求。這種增加的成本在現實應用中尤其成問題,推理成本占訓練成本的主要比例(jouppi2017datacenter;crankshaw2017clipper;metz2017tpu)。然而,對于RoBERTa來說,這種明顯的權衡可以與壓縮相協調:與小型模型相比,大型模型在壓縮方面更加健壯(第4節)。因此,使用可比較的推理成本,大型重壓縮的模型優于小型輕壓縮的模型(例如,圖2,右)。

付費5元查看完整內容

題目: What Can Neural Networks Reason About?

摘 要:

神經網絡已經成功地完成了許多推理任務。從經驗上看,這些任務需要專門的網絡結構,例如,圖神經網絡(GNNs)在許多這樣的任務中表現良好,但較少結構的網絡會失敗。從理論上講,盡管網絡結構具有相同的表達能力,但人們對網絡結構為什么以及何時比其他網絡結構更能泛化的理解是有限的。本文通過研究網絡的計算結構與相關推理過程的算法結構之間的一致性,建立了一個描述網絡能很好學習哪些推理任務的框架。我們正式定義了這種算法對齊,并推導出一個隨更好的對齊而減小的樣本復雜度界。該框架為流行推理模型的經驗成功提供了一個解釋,并指出了它們的局限性。例如,我們通過一個強大的算法范例——動態規劃(DP)的鏡頭,將看似不同的推理任務,如直覺物理、可視化問題回答和最短路徑統一起來。我們證明了GNN與DP是一致的,因此可以解決這些問題。在一些推理任務中,我們的理論得到了實證結果的支持。

付費5元查看完整內容
北京阿比特科技有限公司