句法依存分析是自然語言處理中的一項重要任務。無監督依存解析旨在從沒有正確解析樹注釋的句子中學習依存解析器。盡管無監督解析很困難,但它是一個有趣的研究方向,因為它能夠利用幾乎無限的無注釋文本數據。它也為其他低資源解析的研究提供了基礎。在本文中,我們調查了現有的無監督依賴解析方法,確定了兩大類方法,并討論了最近的趨勢。我們希望我們的調查能夠為研究者提供一些啟示,并有助于今后對這一課題的研究。
知識圖譜是關于實體及其關系的集合,是非常有用資源。然而,由于知識圖通常是不完備的,所以進行知識圖補全或鏈接預測是有用的,即預測一個不在知識圖譜中的關系是否可能是真的。本文綜述了用于知識圖譜完成的實體和關系嵌入模型,總結了在標準基準數據集上最新的實驗結果,并指出了未來可能的研究方向。
當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。
//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c
概述:
隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。
盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。
除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。
在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。
在海量大數據的幫助下,深度學習在許多領域都取得了顯著的成功。但是,數據標簽的質量是一個問題,因為在許多現實場景中缺乏高質量的標簽。由于帶噪標簽嚴重降低了深度神經網絡的泛化性能,從帶噪標簽中學習(魯棒訓練)已成為現代深度學習應用的一項重要任務。在這個綜述中,我們首先從監督學習的角度來描述標簽噪聲的學習問題。接下來,我們提供了對46種最先進的魯棒訓練方法的全面回顧,所有這些方法根據其方法上的差異被歸類為7組,然后系統地比較用于評價其優越性的6種屬性。然后,總結了常用的評價方法,包括公共噪聲數據集和評價指標。最后,我們提出了幾個有前景的研究方向,可以作為未來研究的指導。
語義表示是自然語言處理的基礎,我們需要將原始文本數據中的有用信息轉換為計算機能夠理解的語義表示,才能實現各種自然語言處理應用。表示學習旨在從大規模數據中自動學習數據的語義特征表示,并支持機器學習進一步用于數據訓練和預測。以深度學習為代表的表示學習技術,能夠靈活地建立對大規模文本、音頻、圖像、視頻等無結構數據的語義表示,顯著提升語音識別、圖像處理和自然語言處理的性能,近年來引發了人工智能的新浪潮。本書是第一本完整介紹自然語言處理表示學習技術的著作。書中全面介紹了表示學習技術在自然語言處理領域的最新進展,對相關理論、方法和應用進行了深入介紹,并展望了未來的重要研究方向。
本書全面介紹了自然語言處理表示學習技術的理論、方法和應用,內容包括三大部分:第一部分介紹了單詞、短語、句子和文檔等不同粒度語言單元的表示學習技術;第二部分介紹了與自然語言密切相關的世界知識、語言知識、復雜網絡和跨模態數據的表示學習技術;第三部分整理了相關開放資源與工具,并探討了面向自然語言處理的表示學習技術面臨的重要挑戰和未來研究方向。本書對于自然語言處理和人工智能基礎研究具有一定的參考意義,既適合專業人士了解自然語言處理和表示學習的前沿熱點,也適合機器學習、信息檢索、數據挖掘、社會網絡分析、語義Web等其他相關領域學者和學生作為參考讀物。
現實網絡由多種相互作用、不斷進化的實體組成,而現有的研究大多將其簡單地描述為特定的靜態網絡,而沒有考慮動態網絡的演化趨勢。近年來,動態網絡的特性跟蹤研究取得了重大進展,利用網絡中實體和鏈接的變化來設計網絡嵌入技術。與被廣泛提出的靜態網絡嵌入方法相比,動態網絡嵌入努力將節點編碼為低維密集表示,有效地保持了網絡結構和時間動態,有利于處理各種下游機器學習任務。本文對動態網絡嵌入問題進行了系統的研究,重點介紹了動態網絡嵌入的基本概念,首次對現有的動態網絡嵌入技術進行了分類,包括基于矩陣分解的、基于躍格的、基于自動編碼器的、基于神經網絡的等嵌入方法。此外,我們仔細總結了常用的數據集和各種各樣的后續任務,動態網絡嵌入可以受益。在此基礎上,提出了動態嵌入模型、大規模動態網絡、異構動態網絡、動態屬性網絡、面向任務的動態網絡嵌入以及更多的嵌入空間等現有算法面臨的挑戰,并提出了未來可能的研究方向。
當前自然語言處理的一個問題是處理低資源的語言,這些語言缺乏有用的訓練屬性,如受監督的數據、母語使用者或專家的數量等。這篇綜述論文簡明地總結了過去在解決這一問題上取得的突破性成就,并分析了未來研究方向的整體背景下的潛在改進。
隨著web技術的發展,多模態或多視圖數據已經成為大數據的主要流,每個模態/視圖編碼數據對象的單個屬性。不同的模態往往是相輔相成的。這就引起了人們對融合多模態特征空間來綜合表征數據對象的研究。大多數現有的先進技術集中于如何融合來自多模態空間的能量或信息,以提供比單一模態的同行更優越的性能。最近,深度神經網絡展示了一種強大的架構,可以很好地捕捉高維多媒體數據的非線性分布,對多模態數據自然也是如此。大量的實證研究證明了深多模態方法的優勢,從本質上深化了多模態深特征空間的融合。在這篇文章中,我們提供了從淺到深空間的多模態數據分析領域的現有狀態的實質性概述。在整個調查過程中,我們進一步指出,該領域的關鍵要素是多模式空間的協作、對抗性競爭和融合。最后,我們就這一領域未來的一些方向分享我們的觀點。
隨著高計算設備的發展,深度神經網絡(DNNs)近年來在人工智能(AI)領域得到了廣泛的應用。然而,之前的研究表明,DNN在經過策略性修改的樣本(稱為對抗性樣本)面前是脆弱的。這些樣本是由一些不易察覺的擾動產生的,但可以欺騙DNN做出錯誤的預測。受圖像DNNs中生成對抗性示例的流行啟發,近年來出現了針對文本應用的攻擊DNNs的研究工作。然而,現有的圖像擾動方法不能直接應用于文本,因為文本數據是離散的。在這篇文章中,我們回顧了針對這一差異的研究工作,并產生了關于DNN的電子對抗實例。我們對這些作品進行了全面的收集、選擇、總結、討論和分析,涵蓋了所有相關的信息,使文章自成一體。最后,在文獻回顧的基礎上,我們提出了進一步的討論和建議。