文本排序的目標是生成一個有序的文本列表,這些文本從語料庫中檢索,以響應針對特定任務的查詢。雖然最常見的文本排序是搜索,但是在許多自然語言處理應用程序中也可以找到該任務的實例。本書提供了一個關于文本排序與被稱為transformer的神經網絡結構的概述,其中BERT是最著名的例子。毫不夸張地說,transformer和自我監督預訓練的結合已經徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排序的上下文中,這些模型跨許多領域、任務和設置產生高質量的結果。
在這本書中,我們為希望更好地理解如何將transformer應用到文本排序問題的從業者和希望從事這一領域工作的研究人員提供了現有工作的綜合。我們涵蓋了廣泛的現代技術,分為兩個高級類別:transformer模型,在多階段排序架構中執行重新排序,以及學習了試圖直接執行排序的密集表示。有許多屬于第一類的例子,包括基于相關性分類、從文本的多個部分收集證據、語料庫分析和序列到序列模型的方法。雖然第二類方法還沒有得到很好的研究,但使用transformer的表示學習是一個新興的、令人興奮的方向,必將吸引更多的關注。在我們的書中有兩個主題:處理長文檔的技術(超出了NLP中使用的典型逐句處理方法)和處理效率(結果質量)和效率(查詢延遲)之間權衡的技術。
盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經得到了相對較好的理解,并代表了成熟的技術。然而,還有許多有待解決的研究問題,因此,除了為預先訓練的transformer文本排序奠定基礎外,本書還試圖預測該領域的發展方向。
引言
文本排序的目標是生成一個有序的文本列表,這些文本從語料庫中檢索,以響應針對特定任務的查詢。最常見的文本排序是搜索,搜索引擎(也稱為檢索系統)根據用戶查詢的估計相關性生成一個文本排序列表(網頁、科學論文、新聞文章、tweet等)。在這種情況下,相關文本是那些“關于”用戶請求的主題并滿足用戶信息需求的文本。信息檢索(IR)的研究人員稱之為臨時檢索問題。
使用關鍵字搜索,也稱為關鍵字查詢(例如,在web上),用戶通常在搜索框(例如,在瀏覽器中)中鍵入一些查詢詞,然后返回包含排序文本表示的結果。這些結果被稱為排名列表,點擊列表,點擊量,排序文本的表示通常包括標題、相關元數據、文本本身的摘要(例如,突出顯示用戶查詢詞的keyword -context摘要),以及到原始數據源的鏈接。雖然有很多關于文本排序問題的例子(參見1.1節),但是這種特殊的場景是普遍存在的,而且無疑是所有讀者都熟悉的。
該綜述提供了一種稱為Transformer的神經網絡結構的文本排序的概述,其中最著名的例子是谷歌的發明,即BERT(來自Transformers的雙向編碼器表示)[Devlin et al., 2019]。毫無夸張地說,BERT已經徹底改變了自然語言處理(NLP)和信息檢索(IR)以及更廣泛的人類語言技術(HLT)等領域,這是一個包羅萬象的術語,包括處理、分析和使用(人類)語言數據的技術。在文本排序方面,BERT提供的結果在質量上無疑比之前的結果更好。
計算機能有效地處理人類語言嗎?如果這很難,為什么?如果這是可能的,怎么做?這本書向讀者介紹計算語言學和自動自然語言處理的迷人科學,它結合了語言學和人工智能。這本書的主要部分致力于解釋語言處理器的內部工作,語言處理器是一個軟件模塊,負責將自然語言輸入翻譯成傳統人工智能應用程序直接可用的表示,反之亦然,負責將它們的答案翻譯成人類語言。這本書的整體重點是精心闡述的,盡管——由于許多歷史原因——在文獻中被稱為意義文本理論的計算語言學模型中迄今鮮為人知。為了便于比較,還詳細考慮了其他模型和形式。這本書主要面向對西班牙語自然語言處理技術的應用感興趣的研究人員和學生。特別地,書中給出的大多數例子都涉及西班牙語材料——這是本書區別于其他自然語言處理書籍的一個特點。然而,我們的主要闡述是足夠普遍的,適用于廣泛的語言。具體來說,考慮到這本書的許多讀者將以西班牙語為母語。為他們提供了一些關于英語術語的評論,以及一本關于書中使用的技術術語的英-西班牙語簡短詞典。不過,閱讀這本英文書會幫助說西班牙語的讀者熟悉有關該主題的科學文獻中使用的風格和術語。
介紹
文本排序的目標是生成一個有序的文本列表,這些文本從語料庫中檢索,以響應針對特定任務的查詢。雖然最常見的文本排序是搜索,但是在許多自然語言處理應用程序中也可以找到該任務的實例。本書提供了一個關于文本排序與被稱為transformer的神經網絡結構的概述,其中BERT是最著名的例子。毫不夸張地說,transformer和自我監督預訓練的結合已經徹底改變了自然語言處理(NLP)、信息檢索(IR)等領域。在文本排序的上下文中,這些模型跨許多領域、任務和設置產生高質量的結果。
在這本書中,我們為希望更好地理解如何將transformer應用到文本排序問題的從業者和希望從事這一領域工作的研究人員提供了現有工作的綜合。我們涵蓋了廣泛的現代技術,分為兩個高級類別:transformer模型,在多階段排序架構中執行重新排序,以及學習了試圖直接執行排序的密集表示。有許多屬于第一類的例子,包括基于相關性分類、從文本的多個部分收集證據、語料庫分析和序列到序列模型的方法。雖然第二類方法還沒有得到很好的研究,但使用transformer的表示學習是一個新興的、令人興奮的方向,必將吸引更多的關注。在我們的書中有兩個主題:處理長文檔的技術(超出了NLP中使用的典型逐句處理方法)和處理效率(結果質量)和效率(查詢延遲)之間權衡的技術。
盡管transformer架構和預訓練技術是最近的創新,但它們如何應用于文本排序的許多方面已經得到了相對較好的理解,并代表了成熟的技術。然而,還有許多有待解決的研究問題,因此,除了為預先訓練的transformer文本排序奠定基礎外,本書還試圖預測該領域的發展方向。
目錄
部分內容概覽
當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。
//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c
概述:
隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。
盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。
除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。
在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。
簡介:
為了提供對機器閱讀理解(MRC)中現有任務和模型的調查,本報告回顧:1)一些具有代表性的簡單推理和復雜推理MRC任務的數據集收集和性能評估; 2)用于開發基于神經網絡的MRC模型的體系結構設計,注意機制和提高性能的方法; 3)最近提出了一些轉移學習方法,以將外部語料庫中包含的文本樣式知識合并到MRC模型的神經網絡中; 4)最近提出的一些知識庫編碼方法,用于將外部知識庫中包含的圖形樣式知識合并到MRC模型的神經網絡中。 此外,根據已經取得的成就和仍然存在的不足,本報告還提出了一些尚待進一步研究的問題。
目錄:
機器閱讀理解(MRC)要求機器閱讀上下文并根據其對上下文的理解回答一組相關問題。作為自然語言處理(NLP)中具有挑戰性的領域,MRC吸引了人工智能界的關注。近年來,許多MRC任務已經建立,以促進該領域的探索和創新。這些任務在數據集收集和性能評估方面差異很大,但是在此報告中,根據所需推理過程的復雜性,它們大致分為兩類:
書名: Deep Learning for Search
簡介:
深度學習搜索是一本實用的書,關于如何使用(深度)神經網絡來幫助建立有效的搜索引擎。這本書研究了一個搜索引擎的幾個組成部分,提供了關于它們如何工作的見解以及如何在每個環境中使用神經網絡的指導。重點介紹了基于實例的實用搜索和深度學習技術,其中大部分都有代碼。同時,在適當的地方提供相關研究論文的參考資料,以鼓勵閱讀更多的書籍,加深對特定主題的知識。
讀完這本書,將對搜索引擎的主要挑戰有所理解,它們是如何被普遍解決的以及深度學習可以做些什么來幫助。并且將對幾種不同的深度學習技術以及它們在搜索環境中的適用范圍有一個理解,將很好地了解Lucene和Deeplearning4j庫。
這本書主要分為3個部分:
第1部分介紹了搜索、機器學習和深度學習的基本概念。第一章介紹了應用深度學習技術來搜索問題的原理,涉及了信息檢索中最常見的方法。第2章給出了如何使用神經網絡模型從數據中生成同義詞來提高搜索引擎效率的第一個例子。
第2部分討論了可以通過深度神經網絡更好地解決的常見搜索引擎任務。第3章介紹了使用遞歸神經網絡來生成用戶輸入的查詢。第四章在深度神經網絡的幫助下,在用戶輸入查詢時提供更好的建議。第5章重點介紹了排序模型:尤其是如何使用詞嵌入提供更相關的搜索結果。第6章討論了文檔嵌入在排序函數和內容重新編碼上下文中的使用。
第3部分將介紹更復雜的場景,如深度學習機器翻譯和圖像搜索。第7章通過基于神經網絡的方法為你的搜索引擎提供多語言能力來指導你。第8章討論了基于內容的圖像集合的搜索,并使用了深度學習模型。第9章討論了與生產相關的主題,如微調深度學習模型和處理不斷輸入的數據流。
作者簡介:
Tommaso Teofili是一名軟件工程師,他對開源機器學習充滿熱情。作為Apache軟件基金會的成員,他為許多開放源碼項目做出了貢獻,從信息檢索到自然語言處理和機器翻譯等主題。他目前在Adobe工作,開發搜索和索引基礎結構組件,并研究自然語言處理、信息檢索和深度學習等領域。他曾在各種會議上發表過搜索和機器學習方面的演講,包括BerlinBuzzwords、計算科學國際會議、ApacheCon、EclipseCon等。
論文題目: Knowledge-based Conversational Search
摘要:
允許對數字存儲信息進行直觀和全面訪問的對話接口仍然是一個目標。在這篇論文中,分析了對話搜索系統的需求,并提出了一些具體的解決方案來自動化這些系統應該支持的基本組件和任務,從而為對話搜索系統的設計奠定了基礎。我們描述了幾個相互依賴的研究,這些研究分析了更高級的對話搜索系統的設計需求,該系統能夠支持復雜的類人對話交互,并提供對巨大知識庫的訪問。在前兩章的研究中,重點分析了信息搜索對話中常見的結構,從領域獨立的話語功能關系和領域特定的隱含語義關系兩方面分析了重復模式。結果顯示,問題回答是特定信息訪問的關鍵組成部分之一,但它不是會話搜索系統應該支持的對話交互的唯一類型。在第三章的研究中,提出了一種新穎的方法來解決復雜的問題。在最后的研究章節中,將注意力轉向了另一種交互模式,稱之為對話瀏覽,在這種模式中,會話系統與問題回答不同,在對話交互過程中起著更積極的作用。結果表明,由于詞匯量不匹配問題,該方法可以幫助用戶發現僅使用問題回答無法檢索的相關條目。
論文作者:
Svitlana Vakulenko是阿姆斯特丹大學博士,研究范圍是自然語言處理、對話系統、問答、對話搜索。
論文下載鏈接: //svakulenk0.github.io/pdfs/Conversational_Search_in_Structure__PhD_Thesis_Vakulenko_.pdf
ppt下載鏈接:
題目: 人工智能之信息檢索與推薦
簡介: 信息檢索和推薦屬于人工智能應用最成功的幾個領域。幾乎所有的互聯網產品都包含搜索和推薦功能,用于解決通用的信息獲取需求以及提供個性化服務。AMiner發布的《人工智能之信息檢索與推薦》報告,分別從技術、人才等角度來介紹信息檢索和推薦。
報告目錄: