長期以來,用于開發工業規模搜索引擎的機器學習技術一直是大多數領域及其在線產品的重要組成部分。搜索相關性算法是電子商務、流媒體服務和社交網絡等不同領域產品的關鍵組成部分。在本教程中,我們計劃介紹這種大規模的搜索排名系統,特別關注該領域的深度學習技術。我們計劃涵蓋的主題如下:(1)搜索排名系統在實踐中的概述,包括流行的技術,如頁面排名算法和BM25;(2)介紹搜索排序的序列模型和語言模型;(3)該領域的知識蒸餾方法。對于前面提到的每一節課,我們計劃先做一個介紹性的演講,然后再復習一個實際操作的教程,以真正地鉆研概念。我們計劃通過演示、案例研究和實踐示例來涵蓋基本概念,包括最新的深度學習方法,這些方法在生成最相關的搜索結果方面取得了最先進的結果。此外,我們計劃展示這些方法在python中的示例實現,利用各種開放源碼的機器學習庫以及真實的工業數據或開放源碼數據。
相關性排序是信息檢索(Information Retrieval, IR)的核心問題,在網絡搜索引擎等許多應用中起著至關重要的作用。給定一個查詢和一組候選文本文檔,使用一個排名函數通過生成分數來確定文檔相對于查詢的相關度。早期的排序方法專注于查詢和web文檔之間的文本匹配,如BM25[7],向量空間模型[1]等。然而,隨著網絡信息的巨大增長,越來越多的自然語言格式的查詢以及更多的維度特征(包括時間和空間維度)對現有的排名解決方案提出了挑戰。近年來,深度學習方法在許多機器學習排名應用中表現出了巨大的成功,包括DSSM [3], CDSSM [8], DeepRank[6]等。
在本教程中,我們將概述搜索排名的實踐,并演示各種經典和流行的排名算法,以幫助讀者理解搜索相關性算法及其在現實世界中的應用。本教程大綱如下:搜索相關性排名介紹:在這一環節中,我們將概述信息檢索[9]中的排名問題。回顧了排序函數的一些早期工作,并簡要介紹了各種排序函數模型的歷史。我們選擇了一些關鍵的算法來使用真實數據解釋和演示它們的排名表現。我們介紹了幾個關鍵的性能指標來評估排名和在線指標。我們的實踐課程涵蓋了經典排名函數的實現。基于注意力的搜索相關性模型:在這一環節中,我們將概述序列模型的發展,然后討論注意力機制。我們還將介紹Transformer架構,以及如何在搜索排名系統的上下文中利用其中一些架構。具體內容如下: (1) 我們介紹了序列模型(如RNN和LSTM)是什么,訓練它們時所做的假設是什么,它們更適合于搜索排名系統的哪種數據集。(2)注意力/自注意力: 我們解釋一般注意力機制。(3) Transformer:與上述兩點類似,我們以真實的搜索排序和自然語言處理任務為背景來解釋和激發Transformer架構。(4) 操作會話封面訓練:注意力/Transformer模型。知識蒸餾的搜索相關性: 在這一環節,我們提供了一個介紹的深度結構化語義模型(DSSM)[3],已廣泛采用在工業中,其質量和高效的架構。我們還介紹了最近的NLP突破,BERT[2]在對查詢文檔對進行評分方面明顯優于DSSM及其變體。然而,我們表明,它的Transformer交叉層同時是昂貴的,因此它不允許離線預計算文檔。為了連接兩者,我們將我們提出的知識蒸餾[5]從教師BERT模型分享到學生模型。新的學習方法明顯勝過傳統的DSMM模型,從點擊中學習。在實踐環節中,聽眾接受了關于在開源數據集上搜索相關性的知識提煉的培訓。提供的代碼示例用于訓練雙塔學生模型,測試數據集用于聽眾體驗教師和學生模型之間的度量差異。
在我們的社會中,多模態數據的日益流行導致了對機器的需求增加,以全面地理解這些數據。然而,渴望研究此類數據的數據科學家和機器學習工程師面臨著從現有教程中融合知識的挑戰,這些教程通常單獨處理每個模態。根據我們在新加坡政府對多模態城市問題反饋進行分類的經驗,我們進行了一個手工教程,以希望將機器學習應用于多模態數據。 2021年,作為新加坡政府國家人工智能戰略計劃的一部分,新加坡政府技術機構(GovTech)的數據科學和人工智能部門(DSAID)構建了一個反饋分析引擎[1],根據市政問題反饋,該引擎可以預測:
(1)用戶反饋的案例類型,以便從反饋中提取相關信息,以及 (2)能最有效地處理這個問題的機構。
該引擎由基于歷史數據的深度學習建立的分類模型組成,實現了良好的準確性,可以部署在OneService聊天機器人[2]中。創建這個引擎的最大挑戰之一是處理多模態反饋數據,這些數據包括: (1)文本:對問題的描述, (2)地理位置:問題發生的位置,以及 (3) 圖片:補充文字描述的圖片。
由于通過移動設備捕捉和傳輸圖像的便捷性,多模態數據,尤其是圖文并茂的數據在我們的社會中越來越普遍。除了社交媒體,這類數據在私營和公共部門也都在增長。企業和政府開發了更多、更好的應用程序,這些應用允許人們提交內容(例如,投訴、贊美、建議、技術支持請求、求助電話、產品評論),而不僅僅是文本形式,還附帶圖片,這樣接收者就可以更好地了解手頭的問題。隨著這類數據的增加,對機器整體理解文本和圖像以幫助人類做出決定的需求也在增加。這反過來又導致了對數據科學家和機器學習工程師的需求增加,他們知道如何構建可以做到這一點的模型。然而,大多數與此問題相關的現有教程分別處理文本和圖像,因為它們傳統上來自不同的領域。對于試圖解決此類問題的初級數據科學家(甚至一些中級數據科學家)和機器學習工程師來說,融合來自這些不同教程的知識是一個挑戰。我們希望通過本教程幫助他們克服這些挑戰。
在本教程中,我們教參與者如何使用Transformer[3]對包含文本和圖像的多模態數據進行分****類。它的目標受眾是對神經網絡有一定的了解,并且能夠輕松地編寫代碼。
(1) 文本分類:使用BERT[4]訓練文本分類模型 (2) 文本和圖像分類(v1):使用BERT和ResNet-50[5]訓練文本和圖像分類模型 (3) 文本與圖像分類(v2):使用Align before Fuse (ALBEF)[6]訓練文本與圖像分類模型
推薦系統是現代消費者網絡應用程序的基本組成部分,它試圖預測用戶的偏好,以更好地服務于相關商品。因此,作為推薦系統輸入的高質量用戶和項目表示對于個性化推薦至關重要。為了構造這些用戶和項目表示,自監督圖嵌入已經成為一種原則性的方法,用于嵌入關系數據,如用戶社交圖、用戶成員關系圖、用戶-項目參與關系圖和其他異構圖。在本教程中,我們討論了自監督圖嵌入的不同方法家族。在每個家庭,我們概述了各種技術,他們的優點和缺點,并闡述最新的工作。最后,我們演示了如何在現代工業規模的深度學習推薦系統中有效地利用由此產生的大型嵌入表來提高候選對象的檢索和排名。 //ahelk.github.io/talks/kdd22.html
Introduction and Motivation Homogenous Graph Embeddings Heterogeneous Graph Embeddings Graph Neural Networks Recommender System Applications
信息檢索的核心是從大規模資源中識別出相關信息,并以排序列表的形式返回,以響應用戶的信息需求。近年來,隨著深度學習的興起,這一領域得到了極大的發展,神經信息檢索(NeuIR)成為一個熱門話題,尤其是預訓練方法范式(PTMs)。預訓練模型具有復雜的預訓練目標和龐大的模型規模,可以從海量文本數據中學習通用語言表示,這有利于IR的排序任務。由于已經有大量的工作致力于PTMs在IR中的應用,我們認為現在是總結現狀,學習現有方法,并獲得一些對未來發展的見解的時候了。本文綜述了信息檢索系統中檢索分量、重排序分量和其他分量的PTMs應用情況。此外,我們還介紹了專門為IR設計的PTMs,并總結了可用的數據集和基準排行榜。此外,我們討論了一些開放的挑戰和展望了一些有前途的方向,希望為未來的研究激發更多關于這些主題的工作。
導論
信息檢索(IR)是許多實際應用中的一項基本任務,例如數字圖書館、Web搜索、問題回答系統等等。信息檢索的核心是從大量的信息收集中識別出與用戶信息需求相關的信息資源(如查詢或問題)。由于可能有各種相關資源,返回的結果通常是根據文檔與信息需求的相關性程度排列的文檔列表。這種排序特性使其不同于其他任務,研究人員已經投入了大量的精力來開發各種IR排序模型。
在過去的幾十年中,人們提出并研究了許多不同的排序模型,包括向量空間模型(Salton et al., 1975),概率模型(Robertson and Jones, 1976b),以及學習排序(LTR)模型(Li, 2011)。這些方法已經成功地應用于許多不同的IR應用中,例如谷歌這樣的網絡搜索引擎,今日頭條這樣的新聞推薦系統,Quora這樣的社區問答平臺等等。近年來,各種各樣的神經排序模型被提出,促使了一個名為NeuIR(即神經信息檢索)的熱門話題。與以往依賴手工構造特征和統計方法的非神經模型不同,神經排序模型可以自動從數據中學習低維連續向量(即潛在表示)作為排序特征,從而避免了復雜的特征工程。盡管神經模型在IR中取得了成功,但一個主要的性能瓶頸在于大規模、高質量和標記的數據集的可用性,因為深度神經模型通常有大量的參數需要學習。
近年來,預訓練方法(PTMs)帶來了一場風暴,并推動了自然語言處理(NLP)的范式轉變(Qiu et al., 2020)。其思想是首先通過自監督訓練目標在大規模語料庫中對模型進行預訓練,然后對預訓練模型進行微調,以實現最先進的性能。正如最近的工作所證明的那樣(Peters等人,2018b;Howard和Ruder, 2018),這些預先訓練的模型能夠捕獲相當數量的詞匯知識和事實知識,這對下游任務是有益的,可以避免從頭學習這些知識。此外,隨著計算能力的增加和Transformer架構的出現(Vaswani et al., 2017),我們可以進一步將預訓練模型的參數規模從百萬級提升到十億級(例如BERT (Devlin et al., 2018)和GPT-3 (Brown et al., 2020b)),甚至萬億級(例如,SwitchTransformers (Fedus et al ., 2021))。這兩個特性都是在IR中對模型進行排序所需要的特性。目前,預訓練的模型在具有自監督建模目標的大型文本語料庫上進行預訓練,能夠更好地理解查詢和文檔語義背后的意圖。另一方面,具有深度堆疊變換器的大規模預訓練模型具有足夠的建模能力來學習查詢和文檔之間的復雜關聯模式。由于這些潛在的好處,加上預期在IR中使用PTMs也可以取得類似的成功,我們已經見證了在IR中利用PTMs 的研究興趣的爆炸性增長(Croft et al., 2009; Manning et al., 2005)。注意,在這個綜述中,我們關注的是文本檢索中的PTMs,這是IR的核心。對基于內容的圖像檢索(Dubey, 2020)或多模態檢索中PTMs感興趣的讀者可以參考(Fei et al., 2021)。
到目前為止,已有大量的研究致力于PTMs在IR中的應用。在學術上,研究者對PTMs在IR中的應用進行了各種創新和創新。例如,早期的嘗試試圖將從預訓練模型中學習到的知識直接遷移到排序模型中,并取得了一些顯著的成果(Nogueira and Cho, 2019; Dai and Callan, 2019b)。更近期的工作提出通過改變模型架構來推廣現有的預訓練模型(MacAvaney et al., 2020; Khattab and Zaharia, 2020; Gao and Callan, 2021a)或考慮新的預訓練目標(Chang et al., 2019; Ma et al., 2021b; Ma et al., 2021c),較好地滿足IR的要求。與此同時,在行業中,谷歌2019年10月的博客文章和Bing 2019年11月的博客文章都表明,預訓練的排序模型(例如,基于BERT的模型)可以更好地理解查詢意圖,并在實際的搜索系統中提供更有用的結果。此外,看看今天的排行榜,我們可以看到,大多數排名靠前的方法都是基于PTMs構建的,只要看看這些提交的名稱。考慮到在IR中關于PTMs的研究越來越多,我們認為現在是時候調查現狀,學習現有方法,并為未來的發展獲得一些見解。
本次綜述的結構安排如下。我們將首先在第2節提供IR的系統概述。在此之后,我們在第3至5節中分別回顧了應用于檢索組件、重新排序組件和其他組件的PTMs的工作。第六部分,我們介紹了為IR量身定做的新型PTMs的設計工作。我們還在第7部分總結了可用的大型數據集和流行的基準排行榜。最后,我們在第8節對本文進行了總結,并提出了一些未來研究的方向。
【導讀】ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)是世界數據挖掘領域的最高級別的學術會議,由 ACM 的數據挖掘及知識發現專委會(SIGKDD)主辦,被中國計算機協會推薦為 A 類會議。自 1995 年以來,KDD 已經連續舉辦了26屆,今年將于2021年8月14日至18日舉辦,今年的會議主辦地在新加坡。
來自 Adelaide大學的研究人員在KDD2021上將給出關于可解釋深度異常檢測的教程,非常值得關注!
異常檢測可以為許多安全關鍵或具有商業意義的現實世界應用提供重要的洞察,如極端氣候事件檢測、機械故障檢測、恐怖主義檢測、欺詐檢測、惡意URL檢測,僅舉幾例。由于這個意義,它已經被廣泛研究了幾十年,有許多淺顯的方法被提出。然而,這些方法面臨著各種數據復雜性的挑戰,如高維性、數據相關性、數據異構性等。近年來,深度學習在解決這些復雜性方面取得了巨大的成功,在廣泛的應用中,但由于異常的一些獨特特征,例如稀罕性、異質性、無界性、以及收集大規模異常數據的高昂成本。因此,針對異常檢測的深度學習技術進行了大量的研究。這些研究表明,在解決淺層異常檢測方法在不同應用環境中失敗的一些主要挑戰方面取得了巨大成功。
在本教程中,我們旨在全面回顧基于深度學習的異常檢測和解釋的進展。首先介紹了12類最先進的深度異常檢測方法的關鍵直覺、目標函數、基本假設和優缺點。異常解釋通常與異常檢測一樣重要,這對于深度檢測模型——“黑箱”模型尤其如此,因此我們也介紹了一些用于為深度檢測模型提供異常解釋的原則方法。與許多其他數據挖掘任務相比,深度異常檢測的探索要少得多。我們旨在通過本教程積極推動其在算法、理論和評估方面的發展。
本教程將是關于無監督學習和強化學習的交叉。隨著自然語言處理中基于語言模型的預訓練和計算機視覺中的對比學習的出現,無監督學習(UL)在過去幾年中真正得到了發展。在這些領域中,無監督預訓練的一些主要優勢是在下游有監督學習任務中出現的數據效率。在如何將這些技術應用于強化學習和機器人方面,社區中有很多人感興趣。考慮到問題的連續決策性質,RL和機器人技術比被動地從互聯網上的圖像和文本中學習面臨更大的挑戰,它可能不會那么簡單。本教程將涵蓋如何在強化學習中應用和使用無監督學習的基本模塊,希望人們可以帶回最新的最先進的技術和實踐的知識,以及在這個具有挑戰性和有趣的交叉領域的廣泛的未來可能性和研究方向。
人們對利用強化學習(RL)用于信息檢索(IR)應用(包括搜索、推薦和廣告)非常感興趣。僅僅在2020年,術語“強化學習”就在ACM SIGIR發表的60多篇不同的論文中被提到。據報道,谷歌和阿里巴巴等互聯網公司已經開始從他們基于RL的搜索和推薦引擎中獲得競爭優勢。這個全天教程為沒有或很少有RL經驗的IR研究者和實踐者提供了在實際操作設置中學習現代RL基礎知識的機會。此外,還將介紹和討論RL在IR系統中的一些代表性應用。通過參加本教程,學員將獲得現代RL概念和標準算法(如REINFORCE和DQN)的良好知識。這些知識將幫助他們更好地理解一些最新的涉及RL的IR出版物,以及他們使用RL技術和工具來解決自己實際的IR問題。
目錄內容:
Intro RL Basics Multi-armed Bandits Tabular Q-Learning Deep Q-Learning IR applications using DQN Policy Gradient (REINFORCE) IR applications using REINFORCE Actor-Critic IR applications using Actor-Critic Recent developments & outlook for research
臺灣交通大學的Jen-Tzung Chien教授在WSDN 2020會議上通過教程《Deep Bayesian Data Mining》介紹了深度貝葉斯數據挖掘的相關知識,涵蓋了貝葉斯學習、深度序列學習、深度貝葉斯挖掘和學習等內容。
Jen-Tzung Chien教授在WSDM 2020的教程《Deep Bayesian Data Mining》(《深度貝葉斯數據挖掘》)介紹了面向自然語言的深度貝葉斯挖掘和學習,包括了它的基礎知識和進展,以及它無處不在的應用,這些應用包括語音識別、文檔摘要、文本分類、文本分割、信息抽取、圖像描述生成、句子生成、對話控制、情感分類、推薦系統、自動問答和機器翻譯等。
從傳統上,“深度學習”被認為是一個學習過程,過程中的推斷和優化都使用基于實數的判別模型。然而,從大量語料中提取出的詞匯、句子、實體、行為和文檔的“語義結構”在數學邏輯或計算機程序中可能不能很好地被這種方式表達或正確地優化。自然語言的離散或連續潛在變量模型中的“分布函數”可能不能被正確分解或估計。
該教程介紹了統計模型和神經網絡的基礎,并聚焦于一系列先進的貝葉斯模型和深度模型,包括層次狄利克雷過程、中國餐館過程、遞歸神經網絡、長短期記憶網絡、序列到序列模型、變分自編碼器、生成式對抗網絡、策略神經網絡等。教程還介紹了增強的先驗/后驗表示。教程展示了這些模型是如何連接的,以及它們為什么適用于自然語言中面向符號和復雜模式的各種應用程序。
變分推斷和采樣被提出解決解決復雜模型的優化問題。詞和句子的嵌入、聚類和聯合聚類被語言和語義約束合并。針對深度貝葉斯挖掘、搜索、學習和理解中的不同問題,一系列的案例研究、任務和應用被提出。最后,教程指出一些未來研究的方向和展望。教程旨在向初學者介紹深度貝葉斯學習中的主要主題,激發和解釋它對數據挖掘和自然語言理解正在浮現的重要性,并提出一種結合不同的機器學習工作的新的綜合方法。
教程的內容大致如下:
完整教程下載
請關注專知公眾號(點擊上方藍色專知關注) 后臺回復“DBDM20” 就可以獲取完整教程PDF的下載鏈接~
教程部分內容如下所示:
參考鏈接:
//chien.cm.nctu.edu.tw/home/wsdm-tutorial/
-END- 專 · 知
專知,專業可信的人工智能知識分發,讓認知協作更快更好!歡迎注冊登錄專知www.zhuanzhi.ai,獲取更多AI知識資料!
歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業干貨知識教程視頻資料和與專家交流咨詢!
請加專知小助手微信(掃一掃如下二維碼添加),獲取專知VIP會員碼,加入專知人工智能主題群,咨詢技術商務合作~
點擊“閱讀原文”,了解注冊使用專知
主題: Deep Natural Language Processing for Search Systems
簡介: 搜索引擎處理豐富的自然語言數據,如用戶查詢和記錄。提高搜索質量需要有效地處理和理解這類信息,通常使用自然語言處理技術。作為搜索系統中的代表性數據格式,查詢或記錄數據被表示為單詞序列。在傳統方法中,理解這樣的序列信息通常是一項非常重要的任務,面臨著來自數據稀疏性和數據泛化的挑戰。深度學習模型提供了一個有效提取有代表性的相關信息的機會,從而更好地理解復雜的語義和潛在的搜索意圖。近年來,深度學習在各種自然語言處理任務中取得了顯著的進步,顯示出其在促進搜索系統方面的巨大潛力。
然而,開發搜索系統中自然語言處理的深度學習模型不可避免地需要滿足復雜的搜索引擎生態系統的要求。例如,一些系統需要頻繁的模型更新,所以冗長的模型訓練時間是不容許的。此外,低服務延遲約束禁止使用復雜模型。如何以相對較低的復雜度保持模型質量是深度學習從業者面臨的持續挑戰。
在本教程中,作者總結了當前在搜索系統中自然語言處理的深度學習工作,首先概述了搜索系統和搜索中的自然語言處理,然后介紹了自然語言處理的深度學習的基本概念,并介紹了如何將深度自然語言處理應用于搜索系統的實踐。本教程全面概述了通過端到端搜索系統在上述組件中應用深度自然語言處理技術。除了傳統的搜索引擎,還包括一些高級搜索系統的用例,如對話搜索和面向任務的聊天機器人。我們還強調了幾個重要的未來趨勢,比如通過查詢生成與用戶交互,以及減少延遲以滿足行業標準。