亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

題目: A Survey of Neural Networks and Formal Languages

摘要:

這篇報告調查了各種最先進的神經網絡結構和形式語言之間的關系,例如喬姆斯基語言層次結構。特別令人感興趣的是神經結構通過學習特定語言的樣本來表示、識別和生成單詞的能力。

付費5元查看完整內容

相關內容

人工神經網絡(Artificial Neural Network,即ANN ),是20世紀80 年代以來人工智能領域興起的研究熱點。它從信息處理角度對人腦神經元網絡進行抽象, 建立某種簡單模型,按不同的連接方式組成不同的網絡。在工程與學術界也常直接簡稱為神經網絡或類神經網絡。神經網絡是一種運算模型,由大量的節點(或稱神經元)之間相互聯接構成。每個節點代表一種特定的輸出函數,稱為激勵函數(activation function)。每兩個節點間的連接都代表一個對于通過該連接信號的加權值,稱之為權重,這相當于人工神經網絡的記憶。網絡的輸出則依網絡的連接方式,權重值和激勵函數的不同而不同。而網絡自身通常都是對自然界某種算法或者函數的逼近,也可能是對一種邏輯策略的表達。 最近十多年來,人工神經網絡的研究工作不斷深入,已經取得了很大的進展,其在模式識別、智能機器人、自動控制、預測估計、生物、醫學、經濟等領域已成功地解決了許多現代計算機難以解決的實際問題,表現出了良好的智能特性。

第一章 判別式神經網絡 Discriminative Neural Networks

自2012年以來,深度神經網絡已經徹底改變了機器學習。盡管這項技術相對較老,但近年來在文字、聲音、圖像和視頻識別方面取得了令人矚目的進步。考慮到這些方法的利害關系,在數學和算法之間的銜接問題就出現了。在本文中,我將解釋這些網絡的結構以及它們的監督學習的關鍵概念。

1.1 算法和數學學習 Algorithmics and mathematics of learning 1.2 判別式神經網絡 Discriminative neural networks 1.3 神經網絡監督學習 Supervised learning of a neural network 1.4 神經網絡效率 The efficiency of neural networks

第二章 生成式神經網絡 Generative Neural Networks

在前一篇文章中,我們了解了如何以監督的方式訓練神經網絡。這使得有效地解決分類問題成為可能,例如圖像識別。也許更令人驚訝的是,這些神經網絡也以一種無人監督的方式被用來自動生成“虛擬”文本或圖像,這通常被稱為“深度偽造”。在第二篇文章中,我將把生成神經網絡的學習和最優運輸理論聯系起來。這個問題在18世紀由加斯帕德·蒙格提出,然后在20世紀中葉由列昂尼德·坎托羅維奇重新闡述。現在,它已經成為解決數據科學中重要問題的首選工具。

2.1 Generative neural networks 2.2 Unsupervised learning of generative networks 2.3 Monge’s optimal transport 2.4 The optimal transport of Kantorovitch 2.5 Adversarial networks

付費5元查看完整內容

題目: Natural Language Processing and Query Expansion

簡介:

大量知識資源的可用性刺激了開發和增強信息檢索技術的大量工作。用戶的信息需求以自然語言表達,成功的檢索很大程度上取決于預期目的的有效溝通。自然語言查詢包含多種語言功能,這些語言功能代表了預期的搜索目標。導致語義歧義和對查詢的誤解以及其他因素(例如,對搜索環境缺乏了解)的語言特征會影響用戶準確表示其信息需求的能力,這是由概念意圖差距造成的。后者直接影響返回的搜索結果的相關性,而這可能不會使用戶滿意,因此是影響信息檢索系統有效性的主要問題。我們討論的核心是通過手動或自動捕獲有意義的術語,短語甚至潛在的表示形式來識別表征查詢意圖及其豐富特征的重要組成部分,以手動或自動捕獲它們的預期含義。具體而言,我們討論了實現豐富化的技術,尤其是那些利用從文檔語料庫中的術語相關性的統計處理或從諸如本體之類的外部知識源中收集的信息的技術。我們提出了基于通用語言的查詢擴展框架的結構,并提出了基于模塊的分解,涵蓋了來自查詢處理,信息檢索,計算語言學和本體工程的主題問題。對于每個模塊,我們都會根據所使用的技術回顧分類和分析的文獻中的最新解決方案。

付費5元查看完整內容

題目: A Comprehensive Survey of Multilingual Neural Machine Translation

摘要: 本文綜述了近年來備受關注的多語言神經機器翻譯(MNMT)。由于翻譯知識的轉移(遷移學習),MNMT在提高翻譯質量方面發揮了重要作用。MNMT比統計機器翻譯更有前途,也更有趣,因為端到端建模和分布式表示為機器翻譯的研究開辟了新途徑。為了利用多語言并行語料庫來提高翻譯質量,人們提出了許多方法。但是,由于缺乏全面的綜述,很難確定哪些方法是有希望的,因此值得進一步探討。在這篇論文中,我們對現有的關于MNMT的文獻進行了深入的綜述。我們首先根據中心用例對各種方法進行分類,然后根據資源場景、基礎建模原則、核心問題和挑戰對它們進行進一步分類。只要有可能,我們就通過相互比較來解決幾種技術的優缺點。我們還討論了未來的方向,跨國公司的研究可能采取。本文的目標讀者既有初學者,也有專家。我們希望這篇論文能夠作為一個起點,同時也為那些對MNMT感興趣的研究人員和工程師提供新的思路。

付費5元查看完整內容

題目: Sum-product networks: A survey

摘要: 和積網絡是一種基于有根無環有向圖的概率模型,其中終端節點表示單變量概率分布,非終端節點表示概率函數的凸組合(加權和)和乘積。它們與概率圖形模型密切相關,特別是與具有多種上下文特定獨立性的貝葉斯網絡。它們的主要優點是可以根據數據建立可處理的模型,即,該模型可以根據圖中鏈接的數量及時地執行多個推理任務。它們有點類似于神經網絡,可以解決類似的問題,如圖像處理和自然語言理解。本文綜述了SPN的定義、數據推理和學習的主要算法、主要應用、軟件庫的簡要介紹,并與相關模型進行了比較。

付費5元查看完整內容

近年來,預訓練模型(PTMs)的出現將自然語言處理(NLP)帶入了一個新的時代。在這項綜述中,我們提供了一個全面的PTMs調研。首先簡要介紹了語言表示學習及其研究進展。然后,我們根據四種觀點對現有的PTMs進行了系統的分類。接下來,我們將描述如何將PTMs的知識應用于下游任務。最后,我們概述了未來PTMs研究的一些潛在方向。本調查旨在為理解、使用和開發各種NLP任務的PTMs提供實際指導。

1. 概述

隨著深度學習的發展,各種神經網絡被廣泛用于解決自然語言處理(NLP)任務,如卷積神經網絡(convolutional neural networks, CNNs)[75,80,45]、遞歸神經網絡(neural networks, RNNs)[160, 100]、基于圖的神經網絡(graphbased neural network, GNNs)[146, 161, 111]和注意力機制[6,171]等。這些神經模型的優點之一是能夠緩解特征工程問題。非神經NLP方法通常嚴重依賴于離散的手工特征,而神經方法通常使用低維和稠密的向量(又稱分布式表示)隱式地表示語言的語法或語義特征。這些表示是在特定的NLP任務中學習的。因此,神經方法使人們可以很容易地開發各種NLP系統。

盡管神經模型在NLP任務中取得了成功,但與計算機視覺(CV)領域相比,性能改進可能不那么顯著。主要原因是,當前用于大多數監督的NLP任務的數據集相當小(機器翻譯除外)。深度神經網絡通常具有大量的參數,使其對這些小的訓練數據過度擬合,在實際應用中泛化效果不佳。因此,許多NLP任務的早期神經模型相對較淺,通常只包含1 ~ 3個神經層。

最近大量的工作表明,在大型語料庫上的預訓練模型(PTMs)可以學習通用語言表示,這對后續的NLP任務是有益的,可以避免從零開始訓練新模型。隨著計算能力的發展,深層模型(即隨著訓練技能的不斷提高,PTMs的體系結構由淺向深推進。第一代PTM的目標是學習好的詞嵌入。由于下游任務不再需要這些模型本身,它們在計算效率方面通常非常膚淺,如Skip-Gram[116]和GloVe[120]。雖然這些預訓練的嵌入可以捕獲單詞的語義含義,但它們是上下文無關的,不能捕獲文本的高級概念,如語法結構、語義角色、回指等。第二代PTMs主要學習上下文詞嵌入,如CoVe[113]、ELMo[122]、OpenAI GPT[130]、BERT[32]等。這些學習過的編碼器仍然需要在上下文中通過下游任務來表示單詞。此外,還提出了各種預訓練的任務,以學習PTMs的不同目的。

這篇綜述的貢獻可以總結如下:

    1. 全面調研。我們為NLP提供了PTMs的全面回顧,包括背景知識、模型架構、預訓練任務、各種擴展、適應方法和應用。給出了典型模型的詳細描述,進行了必要的比較,總結了相應的算法。
    1. 新分類法。我們提出了一種基于自然語言處理的PTMs分類方法,該方法從四個不同的角度對現有的PTMs進行了分類:1)單詞表示的類型;2) PTMs架構;3)培訓前的任務類型;4)特定類型場景或輸入的擴展。
  • 3.資源豐富。我們在PTMs上收集了豐富的資源,包括開源系統、論文列表等。

    1. 未來的發展方向。我們討論并分析了現有PTMs的局限性。并提出未來可能的研究方向。

綜述的其余部分組織如下。第2節概述了PTMs的背景概念和常用符號。第3節簡要概述了PTMs,并澄清了PTMs的分類。第4節提供了PTMs的擴展。第5節討論如何將PTMs的知識遷移到下游任務。第6節給出了PTMs的相關資源,包括開源系統、論文列表等。第7節介紹了跨各種NLP任務的應用程序集合。第8節討論了當前的挑戰并提出了未來的方向。第9節對本文進行了總結。

2. 背景

2.1 語言表示學習

分布式表示的核心思想是用低維實值向量來描述文本的意義。而向量的每一個維度都沒有對應的意義,而整體則代表一個具體的概念。圖1說明了NLP的通用神經體系結構。詞嵌入有兩種:非上下文嵌入和上下文嵌入。它們之間的區別是,一個詞的嵌入是否根據它出現的上下文動態變化。

2.2 神經上下文編碼器

大部分的神經上下文編碼器可以分為三類:卷積模型、序列模型和基于圖的模型。圖2說明了這些模型的體系結構。

(1) 卷積模型。卷積模型采用單詞在輸入句中的嵌入,通過卷積運算將相鄰詞的局部信息聚合起來,從而獲取單詞的意義[80]。卷積模型通常易于訓練,能夠捕獲局部上下文信息。

(2 )序列模型。序列模型通常采用rns(如LSTM[60]和GRU[21])來捕獲單詞的上下文表示。在實踐中,雙向RNNs被用來收集單詞兩邊的信息,但其性能往往受到長期依賴問題的影響。

(3) 基于圖模型。與上述模型不同的是,基于圖的模型以單詞為節點,學習單詞之間具有預定義語言結構的上下文表示,如句法結構[146,161]或語義關系[111]。

2.3 為什么要預訓練?

隨著深度學習的發展,模型參數的數量迅速增加。需要更大的數據集來充分訓練模型參數并防止過度擬合。然而,對于大多數NLP任務來說,構建大規模的標記數據集是一個巨大的挑戰,因為注釋成本非常昂貴,特別是對于語法和語義相關的任務。

相比之下,大規模的未標記語料庫相對容易構建。為了利用巨大的未標記文本數據,我們可以首先從它們那里學習良好的表示,然后將這些表示用于其他任務。最近的研究表明,借助從大型無注釋語料庫的PTMs中提取的表示,許多NLP任務的性能都有顯著提高。

預訓練的好處可以總結如下:

  • 在大型文本語料庫上的預訓練可以學習通用語言表示并幫助完成后續任務。
  • 預訓練提供了更好的模型初始化,這通常會帶來更好的泛化性能,并加速對目標任務的收斂。
  • 預訓練可以看作是一種正則化,以避免小數據[39]的過擬合。

3. 預訓練語言模型分類

為了明確現有PTMs與NLP之間的關系,我們構建了PTMs的分類法,該分類法從不同的角度對現有PTMs進行了分類: (1) PTMs使用的單詞表示類型,(2) PTMs使用的主干網絡,(3) PTMs使用的預訓練任務類型,(4) 為特定類型的場景或輸入設計的PTMs。圖6顯示了分類以及一些相應的代表性PTMs。

此外,表1詳細區分了一些有代表性的PTMs。

4. 預訓練語言模型擴展

4.1 知識增強的PTMs

PTMs通常從通用的大型文本語料庫中學習通用語言表示,但缺乏領域特定的知識。將來自外部知識庫的領域知識整合到PTM中已被證明是有效的。外部知識范圍從語言學[87,78,123,178],語義[92],常識[48],事實[199,123,101,188,182],到具體領域的知識[54]。

4.2 多模態PTMS 由于PTMs在許多NLP任務上的成功,一些研究集中在獲得PTMs的跨模態版本上。這些模型中的絕大多數是為一般的視覺和語言特征編碼而設計的。這些模型是在一些巨大的跨模態數據語料庫上進行預訓練的,例如帶有口語單詞的視頻或帶有字幕的圖像,結合擴展的預訓練任務來充分利用多模態特征。VideoBERT[152]和CBT[151]是視頻和文本的聯合模型。為了獲得用于預訓練的視覺和語言標記序列,視頻分別由基于cnn的編碼器和現成的語音識別技術進行預處理。在處理后的數據上訓練一個變壓器編碼器,以學習下游任務(如視頻字幕)的視覺語言表示。此外,UniViLM[109]提出引入生成任務來進一步預訓練下游任務中使用的解碼器。

4.3 模型壓縮

  1. 下游任務應用

  1. PTM資源

  1. 應用

應用基準、機器翻譯、問答、情感分析、摘要、命名實體識別

  1. 未來方向

(1) PTMs的上界

目前,PTMs還沒有達到其上限。現有的PTMs大多可以通過更多的訓練步驟和更大的語料庫來進一步完善。

通過增加模型的深度可以進一步提高NLP的技術水平,如Megatron-LM144和Turing-NLG(170億個參數,78個隱藏尺寸為4256和28個注意頭的Transformer層)。

通用型PTM一直是我們學習語言固有的通用知識(甚至是世界知識)的追求,但此類PTM通常需要更深入的體系結構、更大的語料庫和更具挑戰性的訓練前任務,這又進一步導致了更高的訓練成本。然而,訓練大模型也是一個具有挑戰性的問題,需要更復雜、更高效的訓練技術,如分布式訓練、混合精度、梯度積累等。因此,更實際的方向是使用現有的硬件和軟件設計更有效的模型架構、自我監督的訓練前任務、優化器和訓練技能。ELECTRA[22]是這個方向的一個很好的解決方案。

(2) 面向任務的預訓練和模型壓縮

在實踐中,不同的下游任務需要不同的PTMs能力。PTMs與下游任務之間的差異通常表現在兩個方面:模型體系結構和數據分布。較大的差異可能導致PTMs的益處可能不明顯。盡管較大的PTM通常可以帶來更好的性能,但一個實際問題是如何在特殊場景(如低容量設備和低延遲應用程序)中利用這些巨大的PTM。因此,我們可以為下游任務精心設計特定的模型架構和預訓練任務,或者從現有的PTMs中提取部分特定于任務的知識。

此外,我們可以通過使用模型壓縮等技術,用通用的現有PTM來教他們,而不是從頭開始訓練面向任務的ptm(參見4.3節)。雖然在CV[17]中,針對CNNs的模型壓縮已經得到了廣泛的研究,但針對NLP的PTMs的模型壓縮才剛剛開始。Transformer 的全連接結構也使模型壓縮更具挑戰性。

(3) PTMs架構

Transformer已被證明是一種有效的預訓練體系結構。然而,Transformer 的主要限制是它的計算復雜度,它是輸入長度的平方。由于GPU內存的限制,目前大多數PTM不能處理512個標記以上的序列。打破這一限制需要改進Transformer的架構,比如Transformer- xl[27]。因此,為PTMs搜索更有效的模型體系結構對于捕獲更長期的上下文信息非常重要。

深度架構的設計具有挑戰性,我們可以從一些自動化方法中尋求幫助,如神經架構搜索(neural architecture search, NAS)[205]。

(4)超越微調的知識遷移

目前,將PTMs的知識傳遞給下游任務的主要方法是微調,但其缺點是參數效率低下:每個下游任務都有自己的微調參數。一種改進的解決方案是對原有PTMs的參數進行修正,并為特定的任務添加小的可調自適應模塊[149,61]。因此,我們可以使用一個共享的PTM來服務多個下游任務。事實上,從PTMs中挖掘知識可以更加靈活,如特征提取、知識提取[195]、數據擴充[185,84],利用PTMs作為外部知識[125]等。期望有更有效的方法。

(5) PTMs的可解釋性和可靠性

雖然PTM的性能令人印象深刻,但其深層的非線性架構使得決策過程高度不透明。

近年來,可解釋人工智能[4]已經成為人工智能領域的一個研究熱點。與用于圖像的CNN不同,由于Transformer的架構和語言的復雜性,解釋PTMs更加困難。人們做了大量的工作(見3.3節)來分析PTMs中包含的語言和世界知識,這有助于我們以某種程度的透明性理解這些PMTs。然而,許多模型分析工作依賴于注意力機制,注意力對可解釋性的有效性仍存在爭議[66,142]。

此外,隨著PTMs在生產系統中的廣泛應用,PTMs的可靠性也成為一個備受關注的問題。深層神經模型容易受到對抗性樣本的影響,這些例子可能會誤導模型,使其產生一個特定的錯誤預測,而這種預測會受到來自原始輸入的難以察覺的干擾。在CV中,對抗性攻擊和防御被廣泛研究。然而,由于語言的離散性,文本仍然面臨著挑戰。為文本生成對抗性樣本需要具備以下品質:(1)不易被人類法官察覺,但容易被神經模型誤導;(2)語法流利,語義與原輸入一致。Jin等人[71]用對抗性的例子成功地在文本分類和文本蘊涵方面攻擊了經過微調的BERT。Wallace等人[175]定義了通用的對抗觸發器,當將模型連接到任何輸入時,該觸發器可以誘導模型產生特定目的的預測。有些觸發器甚至會導致GPT-2模型生成帶有種族主義色彩的文本。對PTM進行對抗性攻擊的研究有助于我們了解它們的能力,從而充分暴露它們的弱點。Sun等人[155]的研究表明,BERT對拼寫錯誤并不敏感。此外,針對PTMs的對抗防御也很有前途,它提高了PTMs的魯棒性,使其對對抗攻擊免疫。

總的來說,作為許多NLP應用中的關鍵組件,PTMs的可解釋性和可靠性在很多方面還有待進一步的探索,這有助于我們理解PTMs是如何工作的,并為更好的使用和進一步的改進提供指導。

參考文獻:

Akbik et al. [2018] Alan Akbik, Duncan Blythe, and Roland Vollgraf. Contextual string embeddings for sequence labeling. In COLING, pages 1638–1649, 2018.

Alberti et al. [2019] Chris Alberti, Jeffrey Ling, Michael Collins, and David Reitter. Fusion of detected objects in text for visual question answering. In EMNLP-IJCNLP, pages 2131–2140, 2019.

Alsentzer et al. [2019] Emily Alsentzer, John R. Murphy, Willie Boag, Wei-Hung Weng, Di Jin, Tristan Naumann, and Matthew B. A. McDermott. Publicly available clinical BERT embeddings. arXiv preprint arXiv:1904.03323, 2019.

Arrieta et al. [2020] Alejandro Barredo Arrieta, Natalia Díaz-Rodríguez, Javier Del Ser, Adrien Bennetot, Siham Tabik, Alberto Barbado, Salvador García, Sergio Gil-López, Daniel Molina, Richard Benjamins, et al. Explainable artificial intelligence (xai): Concepts, taxonomies, opportunities and challenges toward responsible ai. Information Fusion, 58:82–115, 2020.

Baevski et al. [2019] Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, and Michael Auli.Cloze-driven pretraining of self-attention networks. In Kentaro Inui, Jing Jiang, Vincent Ng, and Xiaojun Wan, editors, EMNLP-IJCNLP, pages 5359–5368, 2019.

付費5元查看完整內容

題目: A Survey on Distributed Machine Learning

簡介: 在過去十年中,對人工智能的需求已顯著增長,并且這種增長得益于機器學習技術的進步以及利用硬件加速的能力,但是,為了提高預測質量并在復雜的應用程序中提供可行的機器學習解決方案,需要大量的訓練數據。盡管小型機器學習模型可以使用一定數量的數據進行訓練,但用于訓練較大模型(例如神經網絡)的輸入與參數數量成指數增長。由于處理訓練數據的需求已經超過了計算機器的計算能力的增長,因此急需在多個機器之間分配機器學習工作量,并將集中式的精力分配到分配的系統上。這些分布式系統提出了新的挑戰,最重要的是訓練過程的科學并行化和相關模型的創建。本文通過概述傳統的(集中的)機器學習方法,探討了分布式機器學習的挑戰和機遇,從而對當前的最新技術進行了廣泛的概述,并對現有的技術進行研究。

付費5元查看完整內容

題目: Neural Machine Translation: A Review

簡介: 機器翻譯(MT)是將書面文本從一種自然語言自動翻譯成另一種自然語言,近年來,機器翻譯領域經歷了一次重大的范式轉變。統計機器翻譯主要依賴于各種基于計數的模型,在過去幾十年中一直主導機器翻譯的研究,但現在它已在很大程度上被神經機器翻譯(NMT)所取代。在這項工作中,我們將追溯現代NMT架構的起源到詞和句子嵌入和早期的例子的編碼器-解碼器網絡家族。最后,我們將對該領域的最新趨勢進行調查。

付費5元查看完整內容

Deep learning has revolutionized many machine learning tasks in recent years, ranging from image classification and video processing to speech recognition and natural language understanding. The data in these tasks are typically represented in the Euclidean space. However, there is an increasing number of applications where data are generated from non-Euclidean domains and are represented as graphs with complex relationships and interdependency between objects. The complexity of graph data has imposed significant challenges on existing machine learning algorithms. Recently, many studies on extending deep learning approaches for graph data have emerged. In this survey, we provide a comprehensive overview of graph neural networks (GNNs) in data mining and machine learning fields. We propose a new taxonomy to divide the state-of-the-art graph neural networks into different categories. With a focus on graph convolutional networks, we review alternative architectures that have recently been developed; these learning paradigms include graph attention networks, graph autoencoders, graph generative networks, and graph spatial-temporal networks. We further discuss the applications of graph neural networks across various domains and summarize the open source codes and benchmarks of the existing algorithms on different learning tasks. Finally, we propose potential research directions in this fast-growing field.

北京阿比特科技有限公司