亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器閱讀理解(MRC)旨在教機器閱讀和理解人類語言,這是自然語言處理(NLP)的長期目標。隨著深度神經網絡的爆發和上下文語言模型(contextualized language models-CLM)的發展,MRC的研究經歷了兩個重大突破。作為一種現象,MRC和CLM對NLP社區有很大的影響。在本次調查中,我們提供了有關MRC的全面,比較性綜述,涵蓋了有關以下方面的總體研究主題:1)MRC和CLM的起源和發展,尤其著重于CLM的作用;2)MRC和CLM對NLP社區的影響;3)MRC的定義,數據集和評估;4)從人類認知過程的角度出發,從兩階段編碼器-解碼器解決架構的角度來看,一般的MRC架構和技術方法;5)以前的重點,新興的話題以及我們的經驗分析,其中我們特別關注在MRC研究的不同時期有效的方法。我們建議對這些主題進行全視圖分類和新的分類法。我們得出的主要觀點是:1)MRC促進了從語言處理到理解的進步;2)MRC系統的快速改進極大地受益于CLM的開發;3)MRC的主題正逐漸從淺的文本匹配轉變為認知推理。

本教程對機器閱讀理解進行了全面和比較的綜述,旨在訓練機器對真實數據的閱讀理解能力,這是人工智能的一個主要目標。討論涵蓋了背景、發展、影響、數據集、典型的和最先進的技術、經驗評估和最近的趨勢,特別關注最近的高級預先訓練的語言模型的作用。

付費5元查看完整內容

相關內容

包括微軟、CMU、Stanford在內的頂級人工智能專家和學者們正在研究更復雜的任務:讓機器像人類一樣閱讀文本,進而根據對該文本的理解來回答問題。這種閱讀理解就像是讓計算機來做我們高考英語的閱讀理解題。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

【導讀】ACL-IJCNLP 2021是CCF A類會議,是人工智能領域自然語言處理( Natural Language Processing,NLP)方向最權威的國際會議。ACL2021計劃于今年8月1日-8月6日以線上會議形式召開. 最近字節跳動AI實驗室總監李磊重返學術界,進入加州大學圣巴巴拉分校擔任助理教授。他和王明軒給了關于預訓練時代機器翻譯的教程,非常值得關注!

預訓練是自然語言處理(NLP)[28,8,20]、計算機視覺(CV)[12,34]和自動語音識別(ASR)[3,6,24]的主導范式。通常,首先對模型進行大量未標記數據的預訓練,以捕獲豐富的輸入表示,然后通過提供上下文感知的輸入表示,或初始化下游模型的參數進行微調,將模型應用于下游任務。最近,自監督的預訓練和任務特定的微調范式終于完全達到了神經機器翻譯(NMT)[37,35,5]。

盡管取得了成功,但在NMT中引入一個通用的預訓練模型并非易事,而且不一定會產生有希望的結果,特別是對于資源豐富的環境。在幾個方面仍然存在獨特的挑戰。首先,大多數預訓練方法的目標不同于下游的NMT任務。例如,BERT[8]是一種流行的預訓練模型,其設計目的是僅使用一個轉換器編碼器進行語言理解,而NMT模型通常由一個編碼器和一個解碼器組成,以執行跨語言生成。這一差距使得運用NMT[30]的預訓練不夠可行。此外,機器翻譯本身就是一個多語言問題,但一般的NLP預訓練方法主要集中在英語語料庫上,如BERT和GPT。鑒于遷移學習在多語言機器翻譯中的成功,對NMT[7]進行多語言預訓練是非常有吸引力的。最后,語音翻譯近年來受到了廣泛的關注,而大多數的預訓練方法都側重于文本表示。如何利用預訓練的方法來提高口語翻譯水平成為一個新的挑戰。

本教程提供了一個充分利用神經機器翻譯的預訓練的全面指導。首先,我們將簡要介紹NMT的背景、預訓練的方法,并指出將預訓練應用于NMT的主要挑戰。在此基礎上,我們將著重分析預訓練在提高非語言教學績效中的作用,如何設計更好的預訓練模式來執行特定的非語言教學任務,以及如何更好地將預訓練模式整合到非語言教學系統中。在每一部分中,我們將提供例子,討論訓練技巧,并分析在應用預訓練時轉移了什么。

第一個主題是NMT的單語預訓練,這是研究最深入的領域之一。ELMo、GPT、MASS和BERT等單語文本表征具有優勢,顯著提高了各種自然語言處理任務的性能[25,8,28,30]。然而,NMT有幾個明顯的特點,如大的訓練數據(1000萬或更多)的可用性和基線NMT模型的高容量,這需要仔細設計預訓練。在這一部分,我們將介紹不同的預訓練方法,并分析它們在不同的機器翻譯場景(如無監督的NMT、低資源的NMT和富資源的NMT)中應用的最佳實踐[37,35]。我們將介紹使用各種策略對預訓練的模型進行微調的技術,如知識蒸餾和適配器[4,16]。

下一個話題是NMT的多語言預訓練。在此背景下,我們旨在緩解英語為中心的偏見,并建議可以建立不同語言的普遍表示,以改善大量多語言的NMT。在這部分中,我們將討論不同語言的一般表示,并分析知識如何跨語言遷移。這將有助于更好地設計多語言預訓練,特別是零樣本遷移到非英語語言對[15,27,7,26,13,17,19,23,18]。

本教程的最后一個技術部分是關于NMT的預訓練。特別地,我們關注于利用弱監督或無監督訓練數據來改進語音翻譯。在這一部分中,我們將討論在言語和文本中建立一個一般表示的可能性。并展示了文本或音頻預處理訓練如何引導NMT的文本生成[33,21,32,14,22,10,9,11,36]。

在本教程的最后,我們指出了在應用NMT預訓練時的最佳實踐。這些主題涵蓋了針對不同的NMT情景的各種預訓練方法。在本教程之后,觀眾將理解為什么NMT預訓練不同于其他任務,以及如何充分利用NMT預訓練。重要的是,我們將深入分析預訓練如何以及為什么在NMT中起作用,這將為未來設計特定的NMT預訓練范式提供啟發。

//sites.cs.ucsb.edu/~lilei/TALKS/2021-ACL/

報告嘉賓:

李磊,加州大學圣巴巴拉分校擔任助理教授,曾任字節跳動人工智能實驗室總監。本科博士分別畢業于上海交通大學和卡耐基梅隆大學計算機系。曾任加州大學伯克利分校作博士后研究員和百度美國深度學習實驗室少帥科學家。曾獲2012年美國計算機學會SIGKDD最佳博士論文第二名、2017年吳文俊人工智能技術發明二等獎、2017年CCF杰出演講者、2019年CCF青竹獎。在機器學習、數據挖掘和自然語言處理領域于國際頂級學術會議發表論文100余篇,擁有二十余項技術發明專利。擔任CCF自然語言處理專委委員和EMNLP, NeurIPS, AAAI, IJCAI, KDD等多個會議組委成員和領域主席。

王明軒,字節跳動人工智能實驗室資深研究員,博士畢業于中國科學院計算技術研究所,主要研究方向為機器翻譯。主導研發了火山翻譯系統,服務全球過億用戶,并多次帶領團隊在 WMT 機器翻譯評測中拿到過冠軍。在 ACL、EMNLP、NAACL 等相關領域發表論文 30 多篇。擔任CCF自然語言處理專委委員和國內外多個會議組委成員。

付費5元查看完整內容

機器閱讀理解(MRC)旨在教會機器閱讀和理解人類語言,這是自然語言處理(NLP)的長期目標。隨著深度神經網絡的爆發和上下文語言模型(CLMs)的發展,MRC的研究經歷了兩個重大突破。MRC和CLM作為一種現象,對NLP社區產生了巨大的影響。本文從以下幾個方面對MRC進行了全面的比較研究:1)MRC和CLM的起源和發展,特別是CLM的作用;2) MRC和CLM對NLP社區的影響;3) MRC的定義、數據集和評價;(4)基于人類認知過程視角的兩階段譯碼解算體系結構視角下的通用MRC體系結構與技術方法;5)以往研究的亮點、新出現的課題以及我們的實證分析,其中我們特別關注了在MRC研究的不同時期的作用。針對這些主題,我們提出了一個全視圖分類和新的分類法。我們的主要觀點是:1)MRC促進了從語言處理到理解的進程;2) MRC系統的快速改進得益于CLMs的發展;3) MRC的主題逐漸從淺層的文本匹配轉向認知推理。

//www.zhuanzhi.ai/paper/4a9e5f961d514baf95a9ab3cae550262

付費5元查看完整內容

最近,自然語言處理領域的進步引發了adhoc搜索任務的復興。特別是,大型上下文化語言建模技術,如BERT,已經為排序模型配備了比以前的單詞袋(BoW)模型更深入的語言理解能力。將這些技術應用到新任務中是很棘手的,需要深度學習框架的知識,以及重要的腳本和數據分析。在這個搜索教程中,我們將從基本的檢索原則建立到最新的神經排序技術。我們提供古典(例如,BoW),現代(例如,排序學習)和當代(例如,BERT搜索排名和重新排名技術的背景。進一步,我們詳細說明并演示了如何以一種新的聲明式的實驗風格,以PyTerrier和OpenNIR搜索工具包為例,輕松地實驗性地將這些方法應用到新的搜索任務中。

本教程對參與者來說是交互式的;它被分成幾個部分,每個部分都是使用在谷歌協作平臺上運行的準備好的Jupyter進行解釋性演示和實踐活動。

在本教程結束時,學員將能夠輕松地訪問經典的倒排索引數據結構,構建聲明式檢索管道,并使用最先進的神經排序模型進行實驗。

付費5元查看完整內容

近年來,在大量原始文本上預先訓練的大型語言模型徹底改變了自然語言處理。現有的方法,基于因果或隱藏的語言模型的變化,現在為每一個NLP任務提供了事實上的方法。在這個演講中,我將討論最近在語言模型預訓練方面的工作,從ELMo、GPT和BERT到更近期的模型。我的目標是對總體趨勢進行廣泛的報道,但提供更多關于我們最近在Facebook AI和華盛頓大學開發的模型的細節。其中特別包括序列到序列模型的預訓練方法,如BART、mBART和MARGE,它們提供了一些迄今為止最普遍適用的方法。

付費5元查看完整內容

自然語言生成經過幾十年的發展,已經成為人工智能和自然語言處理的重要研究領域。最早的自然語言生成系統采用規則、模板的方法,設計各司其職的模塊進行文本生成,其中體現了很多專家設計的詞匯、語法、句法甚至語用的語言學知識。統計語言模型則從概率統計的角度提出了語言建模的新思路,將詞匯與上下文的依賴關系編碼在條件概率中。以深度學習模型為基本架構的現代語言生成模型絕大多數通過端到端訓練的方式,能更好地建模詞匯與上下文之間統計共現關系,顯著地提升了文本生成的性能。特別是以Transformer為基礎架構的預訓練語言生成模型,能夠較好地捕獲包括詞匯、語法、句法、語義等各層面的語言學知識,極大地推動了自然語言生成的進展,生成效果令人驚嘆。

? 自然語言生成(NLG)是自然語言處理的一個子領域

? 專注于構建系統,自動生成連貫和有用的書面或口頭文本供人類使用

? NLG系統已經在改變我們生活的世界……

付費5元查看完整內容

注意力是一種在廣泛的神經結構中使用的越來越流行的機制。由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們定義了用于自然語言處理的注意力體系結構的統一模型,重點介紹了用于文本數據的向量表示的體系結構。我們討論了以往工作的不同方面,注意力機制的可能用途,并描述了該領域的主要研究工作和公開挑戰。

//web.eecs.umich.edu/~justincj/slides/eecs498/FA2020/598_FA2020_lecture13.pdf

付費5元查看完整內容

機器閱讀理解(MRC)已經成為各種自然語言處理(NLP)應用(如問題回答和對話系統)的核心組件。在非平穩環境下,底層數據分布會隨時間變化,MRC模型需要在這種環境下學習,這就成為了一個實際的挑戰。一個典型的場景是域漂移,即不同的數據域一個接一個的出現,MRC模型需要在保持原有學習能力的同時適應新的域。為了應對這一挑戰,在本研究中,我們引入了MRC的持續域適應(CDA)任務。據我們所知,這是第一個關于MRC持續學習視角的研究。我們為CDA任務建立了兩個基準數據集,分別根據上下文類型和問題類型將現有的MRC集合重新組織到不同的域中。然后我們分析和觀察了CDA設置下MRC的災難性遺忘現象。為了解決CDA任務,我們提出了幾個基于BERT的持續學習MRC模型,這些模型使用基于規則的方法論或動態架構范式。我們分析了不同的連續學習MRC模型在CDA任務下的性能,表明所提出的基于動態架構的模型取得了最好的性能。

//arxiv.org/abs/2008.10874

付費5元查看完整內容

普林斯頓大學陳丹琦和 Facebook的Danqi Chen在ACL2020的tutorial-開放域問答

自然語言處理領域頂級會議 ACL 2020 將于 7 月 5 日至 10 日在線上舉行。本屆 ACL 共接收論文 779 篇,接收率 25.2%。

本教程提供了關于開放域問答(QA)方面前沿研究的全面概述,QA的任務是使用大量不同主題的文檔集合回答問題。我們將首先給出一個簡要的歷史背景,討論研究問題的基本設置和核心技術挑戰,然后描述具有共同評價指標和基準的現代數據集。然后,重點將轉向為開放領域QA提出的最新模型,包括兩階段檢索-讀者方法、密集檢索和端到端訓練,以及無檢索方法。最后,我們將介紹一些使用文本和大型知識庫的混合方法,并以一些重要的開放問題結束本教程。我們希望本教程不僅能幫助讀者獲得最新的知識,還能提供新的視角,以促進下一階段開放領域QA研究的進展。

付費5元查看完整內容

教程簡介: 最近AI對話技術的飛躍式發展,無疑與越來越復雜的深度學習算法有關,而深度學習算法所捕捉到的模式是由各種數據收集機制生成的。因此,本教程的目標是雙重的。首先,它旨在讓學術界熟悉基于統計學的對話系統算法設計的最新進展,其中包括開放性領域和基于任務的對話范例。本教程的重點是介紹對話系統端到端的學習機制,以及它們與更加常見的模塊系統之間的關聯。從理論上講,從數據中學習端到端可以為對話系統提供無縫的、空前的可移植性,有著非常廣闊的應用前景。從實踐的角度來看,該領域仍然存在大量的研究挑戰和機會:在本教程中,我們會分析理論和實踐之間的差異,并介紹當前端到端對話學習的主要優勢和實踐中的局限性。

目錄:

  • 理解數據(帶注釋和不帶注釋的)收集對AI對話系統的重要性。
  • 介紹最新的關于AI對話系統的數據收集范式。
  • 闡述大規模無結構的對話數據在對話系統預訓練方面的可用性。
  • 提供端到端數據驅動在AI對話學習模型的概述。
  • 討論數據和算法選擇之間的重要性。
  • 關于當前(任務導向)AI對話在實際操作中的一個行業視角。

下載鏈接: //pan.baidu.com/s/1qV4uQItQSZj0kWsXa4QgPg 提取碼: kk3v

付費5元查看完整內容
北京阿比特科技有限公司