亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

題目:

Mining Implicit Relevance Feedback from User Behavior for Web Question Answering

簡介:

訓練和刷新用于多語言商業搜索引擎的Web級問答系統通常需要大量的數據。一個想法是從搜索引擎日志中記錄的用戶行為從而挖掘隱式相關性。以前所有有關挖掘隱式相關性的著作都將反饋的目標指定為Web文檔的相關性。由于QA任務中的幾個獨特特性,現有的Web文檔用戶行為模型無法應用于推斷段落相關性。在本文中,我們進行了第一項研究,以探索用戶行為與段落之間的相關性,并提出了一種挖掘Web QA訓練數據的方法。我們對四個測試數據集進行了廣泛的實驗,結果表明,在沒有人標記的數據中,我們的方法顯著提高了段落排名的準確性。實際上,已證明這項工作有效地降低了全球商業搜索引擎中質量檢查服務的人工標記成本,尤其是對于資源較少的語言。

付費5元查看完整內容

相關內容

摘要:社交網絡上的意識形態分類任務有很廣闊的應用場景,也面臨著一些挑戰。本文從推特獲取了數據,并擬用圖嵌入模型解決此問題。主流的圖嵌入模型研究僅關注規模小而稀疏,并且標簽豐富的數據集,比如學術網絡數據。而在真實應用場景中,存在規模更大且連接稠密,但是標簽稀疏的數據,比如社交網絡數據。這種大而稠密的數據使得主流嵌入模型效率很低,并且非常容易產生過擬合現象。另外,真實數據具有不完全性和異質性的特點,給圖嵌入模型帶來極大的挑戰。能夠解決此類問題的模型,理論上可以推廣到任意的真實社交網絡數據。本文提出了一種多任務多關系的嵌入模型,利用多種關系類型作為補充來處理規模大而標簽稀疏的圖數據,進一步提出了可以使得本模型能在特征缺失的情況下使用不完整的特征進行學習的方法。針對規模大而關系異質的問題,本文首先采用多關系的圖卷積網絡對特征進行編碼;同時為了解決缺失特征的問題,當特征不完整時,將缺失部分的特征視作可訓練的參數。然后采用多任務解碼器,讓多個任務互相協助,從而解決標簽稀疏的問題。作者采集整理了真實的推特數據并且進行了意識形態分類,實驗表明TIMME模型優于其他最先進的模型。

本文的代碼和數據都已經公布,歡迎讀者推廣應用于其他真實社交網絡數據的用戶分類問題。

付費5元查看完整內容

主題: Graph Neural Networks with Continual Learning for Fake News Detection from Social Media

摘要: 盡管已經花費大量精力進行事實核查,但假新聞在社交媒體上的普遍使用對司法,公眾信任以及我們整個社會都產生了深遠影響,仍然是一個嚴重的問題。在這項工作中,我們專注于基于傳播的虛假新聞檢測,因為最近的研究表明,虛假新聞和真實新聞在網絡上的傳播方式不同。具體來說,考慮到圖神經網絡(GNN)處理非歐氏數據的能力,我們使用GNN區分社交媒體上的假新聞和真實新聞的傳播方式。具體來說,我們集中在兩個問題上:(1)在不依賴任何文本信息(例如推文內容,回復和用戶描述)的情況下,GNN如何準確地識別假新聞?眾所周知,機器學習模型容易受到對抗性攻擊,而避免依賴于基于文本的功能會使模型不易受到高級假新聞造假者的操縱。 (2)如何處理看不見的新數據?換句話說,在給定的數據集上訓練的GNN如何在新的且可能完全不同的數據集上執行?如果性能不能令人滿意,我們如何解決該問題而又不從頭開始對整個數據重新訓練模型,而隨著數據量的增長,這在實踐中將變得過高地昂貴?我們在具有數千個帶有標簽新聞的兩個數據集上研究了上述問題,我們的結果表明:(1)GNN確實可以實現可比或更高的性能,而無需任何文本信息即可達到最新方法。 (2)在給定的數據集上訓練的GNN在新的,看不見的數據上可能表現不佳,并且直接增量訓練無法解決問題-在以前的將GNN用于偽造新聞檢測的工作中,尚未解決此問題。為了解決該問題,我們提出了一種方法,該方法通過使用持續學習中的技術逐步訓練GNN,從而在現有數據集和新數據集上均達到平衡的性能。

付費5元查看完整內容

題目:

Mining Anomalies using Static and Dynamic Graphs

簡介:

在許多情況下,例如安全性,醫療保健,財務和網絡,異常檢測,即稀有或異常模式是一個緊迫的問題。審查欺詐和網絡入侵攻擊之類的異常編碼可疑,欺詐或惡意行為,不僅影響人們做出次優的決策,而且穩定地削弱了他們對業務的信任。這樣,檢測正在進行的異常并警告即將發生的異常的算法對企業和最終用戶都具有很大的影響。本文通過開發可利用連接性和時間信息來檢測異常行為或事件的原理化,可擴展算法,來考慮異常檢測問題。這些方法對于大型動態復雜數據集很有用,這些數據集具有很強的關系和時間特性,多個實體相互交互,并且會隨著時間而發展。如今,此類數據集是在多種多樣的環境中生成的,其示例范圍從電子商務日志到在線社交網絡再到物聯網。 論文的前半部分著重于圖形中的異常檢測,在這些圖中,只有靜態連接信息是已知的。給定一個圖和一些標記的頂點,我們如何推斷其余頂點的標記?例如,我們如何從一小組手動標記的誠實和偽造帳戶中發現Amazon或Facebook上的所有偽造用戶帳戶?與現有文獻相比,我們的工作利用了現實世界圖中的三個關鍵屬性,即頂點和邊類型的異質性,偏度分布和高階結構,可以產生更準確的頂點標記。所提出的算法具有封閉形式的解決方案,嚴格的收斂性保證,可以使用稀疏矩陣運算有效地實現,并且可以隨圖形大小線性縮放。 本文的后半部分著重于從連接結構隨時間變化的數據中挖掘異常。在許多情況下,尤其是與安全和衛生保健有關的情況,新發現或預期的異常的價值在于當下,而不是不久的將來。因此,給定一個隨時間變化的圖表(顯式圖或隱式圖),我們如何才能近乎實時地檢測異常或事件,甚至可能在它們發生之前提早發出警報?我們的算法可以通過僅存儲到目前為止所看到的圖形的簡短摘要并且不需要監督,就可以實時檢測異常圖形的足跡,例如密集子圖的突然出現或消失以及橋邊。我們還展示了如何以在線方式從時間序列數據推斷狀態轉換圖,并使用它來提前警告用戶標記的異常,例如不利的醫療條件。在整個論文中,著重強調的算法不僅(a)在實踐中有效,而且(b)高效,可以在幾秒鐘內在普通筆記本電腦上處理數百萬條邊緣,并且(c)有原則可以進行嚴格的推理,從而為推理,檢測或利用數據相關的見解提供理論上的保證。我們證明了我們的算法在從社交網絡和電子商務到安全和醫療保健的一系列應用中的功效。

付費5元查看完整內容

個性化文檔推薦系統的目標是為用戶提供一個快速的快捷方式來訪問他們接下來可能想要訪問的文檔,通常還會解釋推薦文檔的原因。以前的工作探討了不同領域更好的推薦和解釋的各種方法。但是,很少有人仔細研究用戶對文檔推薦場景中的推薦項的反應。我們在最大的云文檔平臺office.com上對用戶的交互行為進行了大規模的日志研究,并給出了可解釋的建議。我們的分析揭示了許多因素,包括顯示位置、文件類型、作者、最后訪問的最近時間,以及最重要的,與用戶是否會識別或打開推薦文檔相關的推薦說明。另外,我們專門針對解釋進行了在線實驗,考察不同解釋對用戶行為的影響。我們的分析表明,這些建議可以幫助用戶更快地訪問他們的文檔,但有時用戶會錯過某個建議,并求助于其他更復雜的方法來打開文檔。我們的結果提供了改進解釋的機會,更廣泛地說,提供和解釋文檔建議的系統的設計也提供了改進的機會。

付費5元查看完整內容

知識圖譜補全(KGC)任務的目的是自動推斷知識圖譜(KG)中缺失的事實信息。在本文中,我們采用了一個新的視角,旨在利用豐富的用戶-項目交互數據(簡稱用戶交互數據)來改進KGC任務。我們的工作靈感來自于許多KG實體對應于應用程序系統中的在線項目的觀察。然而,這兩種數據源具有非常不同的內在特性,使用簡單的融合策略可能會影響原始的性能。

為了解決這一挑戰,我們提出了一種利用KGC任務的用戶交互數據的新穎的對抗性學習方法。我們的生成器是與用戶交互數據隔離的,用于提高鑒別器的性能。鑒別器將從用戶交互數據中學習到的有用信息作為輸入,逐步增強評價能力,以識別生成器生成的虛假樣本。為了發現用戶的隱式實體偏好,我們設計了一種基于圖神經網絡的協同學習算法,該算法將與鑒別器共同優化。這種方法可以有效地緩解KGC任務的數據異構性和語義復雜性問題。在三個真實數據集上的大量實驗證明了我們的方法在KGC任務上的有效性。

付費5元查看完整內容
北京阿比特科技有限公司