主題: Learning Colour Representations of Search Queries
摘要: 圖像搜索引擎依賴于適當設計的排名功能,這些功能可以捕獲內容語義的各個方面以及歷史上的流行。在這項工作中,我們考慮了色彩在相關性匹配過程中的作用。觀察到很大一部分用戶查詢具有與之相關的固有顏色,這促使我們開展工作。雖然某些查詢包含明確的顏色提及(例如“黑色汽車”和“黃色雛菊”),但其他查詢卻包含隱式的顏色概念(例如“天空”和“草”)。此外,顏色的基礎查詢不是到單一顏色的映射,而是顏色空間中的分布。例如,對“樹”的搜索往往會在綠色和棕色之間形成雙峰分布。我們利用歷史點擊數據為搜索查詢生成顏色表示,并提出一種遞歸神經網絡架構,將看不見的查詢編碼到顏色空間中。我們還展示了如何從印象日志中的交叉模式相關性排序器中學習該嵌入,在印象日志中單擊了結果圖像的子集。我們證明了查詢圖像顏色距離功能的使用可改善排名性能,該性能通過用戶對點擊圖像和跳過圖像的偏好來衡量。
主題: Exploring Deep Learning for Search
摘要: 本書作者Tommaso Teofili著重介紹了他的著作《深度學習搜索》三章。 書中介紹了神經搜索如何通過自動執行以前手動完成的工作來節省用戶時間并提高搜索效率以及如何通過循環神經網絡(RNN)向搜索引擎添加文本生成功能來擴展搜索網絡。 在最后一章中,深入研究了如何使用卷積神經網絡(CNN)為圖像編制索引,并使它們可按其內容進行搜索。 借助這份以激光為重點的指南,讀者將掌握通過深度學習改善搜索的基礎知識。
題目: Natural Language Processing and Query Expansion
簡介:
大量知識資源的可用性刺激了開發和增強信息檢索技術的大量工作。用戶的信息需求以自然語言表達,成功的檢索很大程度上取決于預期目的的有效溝通。自然語言查詢包含多種語言功能,這些語言功能代表了預期的搜索目標。導致語義歧義和對查詢的誤解以及其他因素(例如,對搜索環境缺乏了解)的語言特征會影響用戶準確表示其信息需求的能力,這是由概念意圖差距造成的。后者直接影響返回的搜索結果的相關性,而這可能不會使用戶滿意,因此是影響信息檢索系統有效性的主要問題。我們討論的核心是通過手動或自動捕獲有意義的術語,短語甚至潛在的表示形式來識別表征查詢意圖及其豐富特征的重要組成部分,以手動或自動捕獲它們的預期含義。具體而言,我們討論了實現豐富化的技術,尤其是那些利用從文檔語料庫中的術語相關性的統計處理或從諸如本體之類的外部知識源中收集的信息的技術。我們提出了基于通用語言的查詢擴展框架的結構,并提出了基于模塊的分解,涵蓋了來自查詢處理,信息檢索,計算語言學和本體工程的主題問題。對于每個模塊,我們都會根據所使用的技術回顧分類和分析的文獻中的最新解決方案。
主題: Learning Term Discrimination
摘要: 文檔索引是有效信息檢索(IR)的關鍵組件。經過諸如詞干和停用詞刪除之類的預處理步驟之后,文檔索引通常會存儲term-frequencies(tf)。與tf(僅反映一個術語在文檔中的重要性)一起,傳統的IR模型使用諸如反文檔頻率(idf)之類的術語區分值(TDV)在檢索過程中偏向于區分性術語。在這項工作中,我們建議使用淺層神經網絡學習TDV,以進行文檔索引,該淺層神經網絡可以近似TF-IDF和BM25等傳統的IR排名功能。我們的建議在nDCG和召回方面均優于傳統方法,即使很少有帶有正標簽的查詢文檔對作為學習數據。我們學到的TDV用于過濾區分度為零的詞匯,不僅可以顯著降低倒排索引的內存占用量,而且可以加快檢索過程(BM25的速度提高了3倍),而不會降低檢索質量。
題目: Learning Representations For Images With Hierarchical Labels
摘要:
圖像分類已經得到了廣泛的研究,但是除了傳統的圖像標簽對之外,在使用非常規的外部指導來訓練這些模型方面的工作還很有限。在本文中,我們提出了一組利用類標簽引起的語義層次信息的方法。在論文的第一部分,我們將標簽層次知識注入到任意的分類器中,并通過實驗證明,將這些外部語義信息與圖像的視覺語義相結合,可以提高整體性能。在這個方向上更進一步,我們使用自然語言中流行的基于保留順序的嵌入模型來更明確地建模標簽-標簽和標簽-圖像的交互,并將它們裁剪到計算機視覺領域來執行圖像分類。盡管在本質上與之相反,在新提出的、真實世界的ETH昆蟲學收集圖像數據集上,注入層次信息的CNN分類器和基于嵌入的模型都優于不可知層次的模型。
隨著網絡新聞的爆炸式增長,個性化的新聞推薦對于網絡新聞平臺幫助用戶發現感興趣的信息變得越來越重要。現有的新聞推薦方法通過從新聞內容和用戶與新聞的直接交互(如點擊)中構建精確的新聞表示和用戶表示來實現個性化,而忽略了用戶與新聞之間的高階關聯。**本文提出了一種新聞推薦方法,通過對用戶和新聞之間的關系進行圖形化建模,增強用戶和新聞之間的表示學習。**在我們的方法中,用戶和新聞都被看作是歷史用戶點擊行為構造的二部圖中的節點。對于新聞表示,首先利用transformer架構構建新聞語義表示。然后通過一個圖注意力網絡將其與圖中相鄰新聞信息相結合。對于用戶表示,我們不僅表示來自其歷史上單擊的新聞的用戶,而且還仔細地將其鄰居用戶的表示合并到圖中。在大型真實數據集上的改進性能驗證了我們所提方法的有效性。
題目:
Transfer Learning in Visual and Relational Reasoning
簡介:
遷移學習已成為計算機視覺和自然語言處理中的事實上的標準,尤其是在缺少標簽數據的地方。通過使用預先訓練的模型和微調,可以顯著提高準確性。在視覺推理任務(例如圖像問答)中,傳遞學習更加復雜。除了遷移識別視覺特征的功能外,我們還希望遷移系統的推理能力。而且,對于視頻數據,時間推理增加了另一個維度。在這項工作中,我們將遷移學習的這些獨特方面形式化,并提出了一種視覺推理的理論框架,以完善的CLEVR和COGdatasets為例。此外,我們引入了一種新的,端到端的微分遞歸模型(SAMNet),該模型在兩個數據集上的傳輸學習中均顯示了最新的準確性和更好的性能。改進的SAMNet性能源于其將抽象的多步推理與序列的長度解耦的能力及其選擇性的關注能力,使其僅能存儲與問題相關的信息外部存儲器中的對象。
目錄:
簡介: 主導圖神經網絡(GNN)完全依賴圖連接,已經存在幾個嚴重的性能問題,例如,過度平滑問題。此外,由于內存限制了節點之間的批處理,因此固定連接的特性會阻止圖形內的并行化,這對于大型數據輸入至關重要。在本文中,引入一種新的圖神經網絡,即GRAPH-BERT(基于圖的BERT),該網絡僅基于注意力機制而無需任何圖卷積或聚合算法。本文在局部上下文中使用采樣的無連接子圖訓練GRAPH-BERT。此外,如果有任何監督的標簽信息或某些面向應用的目標,則可以使用其他最新的輸出層對預訓練的GRAPH-BERT模型進行微調。我們已經在多個基準圖數據集上測試了GRAPH-BERT的有效性。在預訓練的GRAPH-BERT具有節點屬性重構和結構恢復任務的基礎上,我們進一步針對節點分類和圖聚類任務進一步調整GRAPH-BERT。
書名: Deep Learning for Search
簡介:
深度學習搜索是一本實用的書,關于如何使用(深度)神經網絡來幫助建立有效的搜索引擎。這本書研究了一個搜索引擎的幾個組成部分,提供了關于它們如何工作的見解以及如何在每個環境中使用神經網絡的指導。重點介紹了基于實例的實用搜索和深度學習技術,其中大部分都有代碼。同時,在適當的地方提供相關研究論文的參考資料,以鼓勵閱讀更多的書籍,加深對特定主題的知識。
讀完這本書,將對搜索引擎的主要挑戰有所理解,它們是如何被普遍解決的以及深度學習可以做些什么來幫助。并且將對幾種不同的深度學習技術以及它們在搜索環境中的適用范圍有一個理解,將很好地了解Lucene和Deeplearning4j庫。
這本書主要分為3個部分:
第1部分介紹了搜索、機器學習和深度學習的基本概念。第一章介紹了應用深度學習技術來搜索問題的原理,涉及了信息檢索中最常見的方法。第2章給出了如何使用神經網絡模型從數據中生成同義詞來提高搜索引擎效率的第一個例子。
第2部分討論了可以通過深度神經網絡更好地解決的常見搜索引擎任務。第3章介紹了使用遞歸神經網絡來生成用戶輸入的查詢。第四章在深度神經網絡的幫助下,在用戶輸入查詢時提供更好的建議。第5章重點介紹了排序模型:尤其是如何使用詞嵌入提供更相關的搜索結果。第6章討論了文檔嵌入在排序函數和內容重新編碼上下文中的使用。
第3部分將介紹更復雜的場景,如深度學習機器翻譯和圖像搜索。第7章通過基于神經網絡的方法為你的搜索引擎提供多語言能力來指導你。第8章討論了基于內容的圖像集合的搜索,并使用了深度學習模型。第9章討論了與生產相關的主題,如微調深度學習模型和處理不斷輸入的數據流。
作者簡介:
Tommaso Teofili是一名軟件工程師,他對開源機器學習充滿熱情。作為Apache軟件基金會的成員,他為許多開放源碼項目做出了貢獻,從信息檢索到自然語言處理和機器翻譯等主題。他目前在Adobe工作,開發搜索和索引基礎結構組件,并研究自然語言處理、信息檢索和深度學習等領域。他曾在各種會議上發表過搜索和機器學習方面的演講,包括BerlinBuzzwords、計算科學國際會議、ApacheCon、EclipseCon等。
簡介: 人們在閱讀文章時,可以識別關鍵思想,作出總結,并建立文章中的聯系以及對其他需要理解的內容等方面都做得很出色。深度學習的最新進展使計算機系統可以實現類似的功能。用于自然語言處理的深度學習可教您將深度學習方法應用于自然語言處理(NLP),以有效地解釋和使用文章。在這本書中,NLP專家Stephan Raaijmakers提煉了他對這個快速發展的領域中最新技術發展的研究。通過詳細的說明和豐富的代碼示例,您將探索最具挑戰性的NLP問題,并學習如何通過深度學習解決它們!
自然語言處理是教計算機解釋和處理人類語言的科學。最近,隨著深度學習的應用,NLP技術已躍升至令人興奮的新水平。這些突破包括模式識別,從上下文中進行推斷以及確定情感語調,從根本上改善了現代日常便利性,例如網絡搜索,以及與語音助手的交互。他們也在改變商業世界!
目錄:
1深度NLP學習
2 深度學習和語言:基礎知識
3文字嵌入
4文字相似度
5序列NLP和記憶
6NLP的6種情景記憶
7注意力機制
8多任務學習
附錄
附錄A:NLP
附錄B:矩陣代數
附錄C:超參數估計和分類器性能評估