題目: Natural Language Processing and Query Expansion
簡介:
大量知識資源的可用性刺激了開發和增強信息檢索技術的大量工作。用戶的信息需求以自然語言表達,成功的檢索很大程度上取決于預期目的的有效溝通。自然語言查詢包含多種語言功能,這些語言功能代表了預期的搜索目標。導致語義歧義和對查詢的誤解以及其他因素(例如,對搜索環境缺乏了解)的語言特征會影響用戶準確表示其信息需求的能力,這是由概念意圖差距造成的。后者直接影響返回的搜索結果的相關性,而這可能不會使用戶滿意,因此是影響信息檢索系統有效性的主要問題。我們討論的核心是通過手動或自動捕獲有意義的術語,短語甚至潛在的表示形式來識別表征查詢意圖及其豐富特征的重要組成部分,以手動或自動捕獲它們的預期含義。具體而言,我們討論了實現豐富化的技術,尤其是那些利用從文檔語料庫中的術語相關性的統計處理或從諸如本體之類的外部知識源中收集的信息的技術。我們提出了基于通用語言的查詢擴展框架的結構,并提出了基于模塊的分解,涵蓋了來自查詢處理,信息檢索,計算語言學和本體工程的主題問題。對于每個模塊,我們都會根據所使用的技術回顧分類和分析的文獻中的最新解決方案。
題目: A Survey on Transfer Learning in Natural Language Processing
摘要:
深度學習模型通常需要大量數據。 但是,這些大型數據集并非總是可以實現的。這在許多具有挑戰性的NLP任務中很常見。例如,考慮使用神經機器翻譯,在這種情況下,特別對于低資源語言而言,可能無法整理如此大的數據集。深度學習模型的另一個局限性是對巨大計算資源的需求。這些障礙促使研究人員質疑使用大型訓練模型進行知識遷移的可能性。隨著許多大型模型的出現,對遷移學習的需求正在增加。在此調查中,我們介紹了NLP領域中最新的遷移學習進展。我們還提供了分類法,用于分類文獻中的不同遷移學習方法。
題目: Attention in Natural Language Processing
摘要:
注意力是一種越來越受歡迎的機制,在廣泛的神經結構中使用。該機制本身以各種格式實現。然而,由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們為自然語言處理中的注意力架構定義了一個統一的模型,重點是那些設計用來處理文本數據的向量表示的模型。根據四個維度提出了注意力模型的分類:輸入的表示、兼容性函數、分布函數和輸入和輸出的多樣性。然后展示了如何在注意力模型中利用先驗信息的例子,并討論了該領域正在進行的研究工作和面臨的挑戰。
題目: Hierarchical Knowledge Graphs: A Novel Information Representation for Exploratory Search Tasks
簡介: 在探索性搜索任務中,除了信息檢索之外,信息表示是有意義的重要因素。在本文中,我們探索了知識圖的多層擴展,即層次知識圖(HKG),它將層次化和網絡可視化結合為統一的數據表示形式,作為支持探索性搜索工具。我們將描述我們的算法,以構建可視化效果,分析結果以定量地展示與網絡的性能奇偶性以及相對于層次結構的性能優勢,并從交互日志,interviews和thinkalouds的數據綜合到測試平臺數據集上,以證明統一的分層結構+ HKG中的網絡結構。除了上述研究,我們還對精度和召回率對兩種不同的探索性搜索任務的層次知識圖的性能進行了其他混合方法分析。雖然定量數據顯示精確度和召回率對用戶性能和用戶工作量的影響有限,但定性數據與事后統計分析相結合提供了證據,表明探索性搜索任務的類型(例如學習與調查)可能會受到精確度和召回影響。此外,我們的定性分析發現用戶無法感知所提取信息的質量差異。我們討論了結果的含義,并分析了在實驗任務中對探索性搜索性能產生更大影響的其他因素。
題目: Natural Language Processing Advancements By Deep Learning: A Survey
摘要: 自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。算力的最新發展和語言大數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本綜述對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們并進一步分析和比較不同的方法和最先進的模型。
簡介: 在許多將數據表示為圖形的領域中,學習圖形之間的相似性度量標準被認為是一個關鍵問題,它可以進一步促進各種學習任務,例如分類,聚類和相似性搜索。 最近,人們對深度圖相似性學習越來越感興趣,其中的主要思想是學習一種深度學習模型,該模型將輸入圖映射到目標空間,以使目標空間中的距離近似于輸入空間中的結構距離。 在這里,我們提供對深度圖相似性學習的現有文獻的全面回顧。 我們為方法和應用提出了系統的分類法。 最后,我們討論該問題的挑戰和未來方向。
在特征空間上學習足夠的相似性度量可以顯著確定機器學習方法的性能。從數據自動學習此類度量是相似性學習的主要目的。相似度/度量學習是指學習一種功能以測量對象之間的距離或相似度,這是許多機器學習問題(例如分類,聚類,排名等)中的關鍵步驟。例如,在k最近鄰(kNN)中分類[25],需要一個度量來測量數據點之間的距離并識別最近的鄰居;在許多聚類算法中,數據點之間的相似性度量用于確定聚類。盡管有一些通用度量標準(例如歐幾里得距離)可用于獲取表示為矢量的對象之間的相似性度量,但是這些度量標準通常無法捕獲正在研究的數據的特定特征,尤其是對于結構化數據。因此,找到或學習一種度量以測量特定任務中涉及的數據點的相似性至關重要。
簡介: 人們在閱讀文章時,可以識別關鍵思想,作出總結,并建立文章中的聯系以及對其他需要理解的內容等方面都做得很出色。深度學習的最新進展使計算機系統可以實現類似的功能。用于自然語言處理的深度學習可教您將深度學習方法應用于自然語言處理(NLP),以有效地解釋和使用文章。在這本書中,NLP專家Stephan Raaijmakers提煉了他對這個快速發展的領域中最新技術發展的研究。通過詳細的說明和豐富的代碼示例,您將探索最具挑戰性的NLP問題,并學習如何通過深度學習解決它們!
自然語言處理是教計算機解釋和處理人類語言的科學。最近,隨著深度學習的應用,NLP技術已躍升至令人興奮的新水平。這些突破包括模式識別,從上下文中進行推斷以及確定情感語調,從根本上改善了現代日常便利性,例如網絡搜索,以及與語音助手的交互。他們也在改變商業世界!
目錄:
1深度NLP學習
2 深度學習和語言:基礎知識
3文字嵌入
4文字相似度
5序列NLP和記憶
6NLP的6種情景記憶
7注意力機制
8多任務學習
附錄
附錄A:NLP
附錄B:矩陣代數
附錄C:超參數估計和分類器性能評估
論文摘要:
圖無處不在,從引文和社交網絡到知識圖譜(KGs)。它們是最富表現力的數據結構之一,已被用于建模各種問題。知識圖譜是圖中事實的結構化表示,其中節點表示實體,邊表示實體之間的關系。最近的研究已經開發出幾種大型知識圖譜;例如DBpedia、YAGO、NELL和Freebase。然而,它們都是稀疏的,每個實體只有很少的事實。例如,每個實體只包含1.34個事實。在論文的第一部分,我們提出了緩解這一問題的三個解決方案:(1)KG規范化,即(2)關聯提取,它涉及到從非結構化文本中提取實體之間的語義關系的自動化過程;(3)鏈接預測,它包括基于KG中的已知事實推斷缺失的事實。KG的規范化,我們建議CESI(規范化使用嵌入和邊信息),一個新穎的方法執行規范化學習嵌入開放KG。KG嵌入的方法擴展了最新進展將相關NP和關系詞信息原則的方式。對于關系提取,我們提出了一種遠程監督神經關系提取方法,該方法利用KGs中的附加邊信息來改進關系提取。最后,對于鏈路預測,我們提出了擴展ConvE的InteractE,這是一種基于卷積神經網絡的鏈路預測方法,通過三個關鍵思想:特征置換、新穎的特征重塑和循環卷積來增加特征交互的次數。通過對多個數據集的大量實驗,驗證了所提方法的有效性。
傳統的神經網絡如卷積網絡和遞歸神經網絡在處理歐幾里得數據時受到限制。然而,在自然語言處理(NLP)中圖形是很突出的。最近,圖卷積網絡(Graph Convolutional Networks, GCNs)被提出來解決這一缺點,并成功地應用于多個問題。在論文的第二部分,我們利用GCNs來解決文檔時間戳問題,它是文檔檢索和摘要等任務的重要組成部分。
為此,我們提出利用GCNs聯合開發文檔語法和時態圖結構的NeuralDater,以獲得該問題的最新性能。提出了一種靈活的基于圖卷積的詞嵌入學習方法——SynGCN,該方法利用詞的依賴上下文而不是線性上下文來學習更有意義的詞嵌入。在論文的第三部分,我們討論了現有GCN模型的兩個局限性,即(1)標準的鄰域聚合方案對影響目標節點表示的節點數量沒有限制。這導致了中心節點的噪聲表示,中心節點在幾個躍點中幾乎覆蓋了整個圖。為了解決這個缺點,我們提出了ConfGCN(基于信任的GCN),它通過估計信任來確定聚合過程中一個節點對另一個節點的重要性,從而限制其影響鄰居。(2)現有的GCN模型大多局限于處理無向圖。然而,更一般和更普遍的一類圖是關系圖,其中每條邊都有與之關聯的標簽和方向。現有的處理此類圖的方法存在參數過多的問題,并且僅限于學習節點的表示。我們提出了一種新的圖卷積框架CompGCN,它將實體和關系共同嵌入到一個關系圖中。CompGCN是參數有效的,并且可以根據關系的數量進行擴展。它利用了來自KG嵌入技術的各種實體-關系組合操作,并在節點分類、鏈接預測和圖分類任務上取得了明顯的優勢結果。
主題: Deep Natural Language Processing for Search Systems
簡介: 搜索引擎處理豐富的自然語言數據,如用戶查詢和記錄。提高搜索質量需要有效地處理和理解這類信息,通常使用自然語言處理技術。作為搜索系統中的代表性數據格式,查詢或記錄數據被表示為單詞序列。在傳統方法中,理解這樣的序列信息通常是一項非常重要的任務,面臨著來自數據稀疏性和數據泛化的挑戰。深度學習模型提供了一個有效提取有代表性的相關信息的機會,從而更好地理解復雜的語義和潛在的搜索意圖。近年來,深度學習在各種自然語言處理任務中取得了顯著的進步,顯示出其在促進搜索系統方面的巨大潛力。
然而,開發搜索系統中自然語言處理的深度學習模型不可避免地需要滿足復雜的搜索引擎生態系統的要求。例如,一些系統需要頻繁的模型更新,所以冗長的模型訓練時間是不容許的。此外,低服務延遲約束禁止使用復雜模型。如何以相對較低的復雜度保持模型質量是深度學習從業者面臨的持續挑戰。
在本教程中,作者總結了當前在搜索系統中自然語言處理的深度學習工作,首先概述了搜索系統和搜索中的自然語言處理,然后介紹了自然語言處理的深度學習的基本概念,并介紹了如何將深度自然語言處理應用于搜索系統的實踐。本教程全面概述了通過端到端搜索系統在上述組件中應用深度自然語言處理技術。除了傳統的搜索引擎,還包括一些高級搜索系統的用例,如對話搜索和面向任務的聊天機器人。我們還強調了幾個重要的未來趨勢,比如通過查詢生成與用戶交互,以及減少延遲以滿足行業標準。