互聯多模態信息源的日益可用性推動了推薦系統的新概率模型的開發,該模型利用關系數據中的上下文。因此,我們尋求整合上下文信息,以預測用戶的信息需求。在這篇論文中,我們關注一組將上下文信息建模到因子化模型的技術,特別是使用隱式反饋(如事件計數)的模型。此外,我們提出了這些模型的分析工具,提高了我們尋找合適超參數的能力。為了將計數(例如,頁面中的點擊次數)建模為隱式用戶反饋,我們選擇使用泊松分解作為構建塊。然后,我們開發了兩個泊松分解模型,其中包括社會網絡、項目文本內容和作為上下文信息的周期時間事件,并將其合并到一個聯合矩陣和張量分解模型中(第3章和第4章)。我們開發了一個聯合層次遞歸神經網絡和一個時間點過程模型來解決多會話推薦的問題,我們觀察項目的序列分組到會話序列中,并創建了一個能夠提供itens推薦和下一次會話時間預測的模型(第5章)。我們利用并開發了一種基于先驗預測分布的方法,該方法允許我們設置泊松因子分解模型的超參數,而不需要將模型與數據擬合,(第6章)這里的一個相關結果是泊松因子分解模型中潛在空間維度的一個封閉形式方程。一般來說,我們將這項工作定位為在推薦系統的背景下利用多關系和計數數據作為上下文信息的信號的概率建模的貢獻,貢獻范圍包括模型設計、分析和超參數選擇。
在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。
本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。
我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。
隨著機器學習模型越來越多地用于做出涉及人類的重大決策,重要的是,這些模型不能因為種族和性別等受保護的屬性而歧視。然而,模型持有人并不是受到歧視性模型傷害的首當其沖的人,因此模型持有人修復歧視性模型的自然動機很少。因此,如果其他實體也能發現或減輕這些模型中的不公平行為,將對社會有益。只需要對模型進行查詢訪問的黑盒方法非常適合這個目的,因為它們可以在不知道模型的全部細節的情況下執行。
在這篇論文中,我考慮了三種不同形式的不公平,并提出了解決它們的黑盒方法。第一個是代理使用,模型的某些組件是受保護屬性的代理。其次是個體公平性的缺乏,這使模型不應該做出任意決定的直覺觀念形式化。最后,模型的訓練集可能不具有代表性,這可能導致模型對不同的保護組表現出不同程度的準確性。對于這些行為中的每一個,我提出使用一個或多個方法來幫助檢測模型中的此類行為或確保缺乏此類行為。這些方法只需要對模型的黑箱訪問,即使模型持有者不合作,它們也能有效地使用。我對這些方法的理論和實驗分析證明了它們在這種情況下的有效性,表明它們是有用的技術工具,可以支持對歧視的有效回應。
概率圖建模(PGM)提供了一個框架,以設計一個可解釋的生成過程的數據和表達不確定性的未知數。這使得PGM對于理解數據背后的現象和決策非常有用。在可解釋推理是關鍵的領域內,PGM取得了巨大的成功,例如市場營銷、醫學、神經科學和社會科學。然而,PGM往往缺乏靈活性,這阻礙了它在建模大規模高維復雜數據和執行需要靈活性的任務(例如在視覺和語言應用程序中)時的使用。
深度學習(DL)是另一個從數據中建模和學習的框架,近年來取得了巨大的成功。DL功能強大,具有很大的靈活性,但缺乏PGM的可解釋性和校準性。
本文研究了深度概率圖建模(DPGM)。DPGM通過利用DL使PGM更加靈活。DPGM帶來了從數據中學習的新方法,這些方法展示了PGM和DL的優點。
我們在PGM中使用DL來構建具有可解釋潛在結構的靈活模型。我們提出一系列模型擴展指數族主成分分析(EF-PCA),使用神經網絡提高預測性能,同時加強潛在因素的可解釋性。我們引入的另一個模型類支持在建模順序數據時考慮長期依賴關系,這在使用純DL或PGM方法時是一個挑戰。該序列數據模型類已成功應用于語言建模、情感分析的無監督文檔表示學習、會話建模和醫院再入院預測的患者表示學習。最后,DPGM成功地解決了概率主題模型的幾個突出問題。
在PGM中利用DL也帶來了學習復雜數據的新算法。例如,我們開發了熵正則化對抗學習,這是一種與PGM中使用的傳統最大似然方法不同的學習范式。從DL的角度來看,熵正則化對抗學習為生成式對抗網絡長期存在的模式崩潰問題提供了一種解決方案。
在21世紀,人們與技術互動的方式發生了重大變化,自然語言生成(NLG)發揮著核心作用。智能手機和智能家居設備的用戶現在希望他們的設備能夠了解他們的處境,并在交互中產生自然的語言輸出。本文從人類溝通的三個方面來確定如何讓機器聽起來像人類——風格、內容和結構。本文提供了深度學習的解決方案來控制這些變量在神經文本生成。我首先概述了可以操縱的各種模塊,以進行有效的可控文本生成。我提供了一種使用反向翻譯進行樣式轉換的新穎解決方案,并引入了兩個新任務,將來自非結構化文檔的信息利用到生成過程中。我還為句子排序任務提供了一種新的優雅設計,以學習有效的文檔結構。最后,我提供了一個關于可控制文本生成應用的倫理考慮的討論。提出的工作,我計劃:(I) 提供對各種可控文本生成技術的經驗理解,(ii) 提供對樣式的計算理解并構建有用的樣式表示,(iii) 設計有效的內容基礎生成方式,以及(iv) 探索可控文本生成的更廣泛影響。
向量嵌入模型是現代機器學習知識表示和推理方法的基石。這些方法旨在通過在低維向量空間中學習概念和其他領域對象的表示,將語義問題轉化為幾何問題。本著這種精神,這項工作提倡基于密度和區域的表示學習。將領域元素作為幾何對象嵌入到單點之外,使我們能夠自然地表示廣度和一詞多義,進行不對稱比較,回答復雜的查詢,并在標記數據稀缺時提供強烈的歸納偏見。我們提出了一個使用高斯密度的詞表示模型,實現了概念之間的不對稱隱含判斷,以及一個基于軸對齊超矩形表示(盒)格的加權傳遞關系和多元離散數據的概率模型。我們將探討這些嵌入方法在不同的稀疏性、邊緣權值、相關性和獨立結構的適用性,以及表示的擴展和不同的優化策略。我們從理論上研究了盒格的表示能力,并提出了擴展模型來解決在建模困難的分布和圖方面的不足。
本篇推薦來自CMU-LTI的小姐姐Zhuyun Dai博士論文《Neural Matching and Importance Learning in Information Retrieval》,是信息檢索領域值得關注的最新工作。
作者介紹:
Zhuyun Dai
卡內基梅隆大學語言技術學院(LTI)的博士生。研究方向是提升當今信息檢索系統的語言理解能力,構建下一代信息助理系統,幫助人們無縫地獲取世界上的知識。
//www.cs.cmu.edu/~zhuyund/index.html
信息檢索中的神經匹配與重要性學習
地址:
在50-60年的時間里,信息檢索(IR)系統依賴于詞匯袋方法。盡管詞包檢索有一些長期存在的限制,但解決這些問題的嘗試大多是不成功的。最近,神經網絡為自然語言建模提供了一種新的范式。這篇論文的目的是結合IR的觀點和神經網絡的關鍵優勢,以帶來更深入的語言理解IR。
本論文的第一部分主要研究如何匹配查詢和文檔。 最先進的排序器以前依賴于精確的詞匯匹配,這導致了眾所周知的詞匯不匹配問題。本文開發了將軟匹配引入相關性排序的神經模型。利用分布式文本表示,我們的模型可以對每個查詢詞和每個文檔詞進行軟匹配。由于軟匹配信號有噪聲,本文提出了一種新的核池技術,該技術根據軟匹配對相關性的貢獻對軟匹配進行分組。本文還研究了預訓練好的模型參數是否可以改善低資源域,以及模型架構在非文本檢索任務中是否可重用。我們的方法比以前最先進的排名系統有很大的優勢。
本論文的第二部分主要研究如何表示查詢和文檔。一個典型的搜索引擎使用頻率統計來確定單詞的權重,但是頻繁的單詞對文本的意義不一定是必要的。本論文開發的神經網絡,以估計詞的重要性,基于如何相互作用的語言語境。開發了一種弱監督方法,允許在沒有任何人工注釋的情況下訓練我們的模型。我們的模型可以離線運行,在不影響效率的前提下顯著提高了第一階段的檢索。
總之,本文提出了一種新的神經檢索范式,克服了傳統檢索模型在匹配和重要性加權方面的局限性。在神經相關性排序、深度檢索模型和深度文檔理解等方面提出了一些有前景的方法。
地址:
在這篇論文中,我們討論了協同過濾和排名的一些最新進展。第一章簡要介紹了協同過濾與排名的歷史與現狀;第二章首先討論了圖信息的點態協同過濾問題,以及我們提出的新方法如何對深度圖信息進行編碼,這有助于現有的四種圖信息協同過濾算法;第三章介紹了協同排序的配對方法,以及如何將算法加速到接近線性的時間復雜度;第4章是關于新的列表方法的協作排名,以及如何更好的選擇列表方法的損失顯式和隱式反饋超過點和兩兩損失;第5章是關于我們提出的新的正則化技術——隨機共享嵌入(SSE),以及它在6個不同的任務(包括推薦和自然語言處理)中的理論有效性和經驗有效性;第6章是我們如何在SSE的幫助下,為最先進的序列推薦模型引入個性化,這對于防止我們的個性化模型對訓練數據的過度擬合起到了重要的作用;第7章,我們總結了目前所取得的成果,并展望了未來的發展方向;第八章是所有章節的附錄。