情感在發現網絡虛假新聞中扮演著重要的角色。在利用情感信號時,現有的方法主要是利用發布者所傳達的新聞內容的情感(即發布者情感)。然而,虛假新聞往往是為了喚起人們的高喚醒或激活人們的情緒,像病毒一樣傳播,因此,新聞評論引起的群眾情緒(即社會情緒)是不可忽視的。此外,還需要探索出版者情緒與社會情緒(即雙重情緒)之間是否存在關系,以及雙重情緒如何在假新聞中出現。在本文中,我們提出了雙重情感特征來挖掘雙重情感及其之間的關系,用于虛假新聞的檢測。我們設計了一個通用的范例,將它插入到任何現有的檢測器作為增強。在三個真實數據集上的實驗結果表明了該特征的有效性。
隨著深度學習的成功,基于圖神經網絡(GNN)的方法[8,12,30]已經證明了它們在分類節點標簽方面的有效性。大多數GNN模型采用消息傳遞策略[7]:每個節點從其鄰域聚合特征,然后將具有非線性激活的分層映射函數應用于聚合信息。這樣,GNN可以在其模型中利用圖結構和節點特征信息。
然而,這些神經模型的預測缺乏透明性,人們難以理解[36],而這對于與安全和道德相關的關鍵決策應用至關重要[5]。此外,圖拓撲、節點特征和映射矩陣的耦合導致復雜的預測機制,無法充分利用數據中的先驗知識。例如,已有研究表明,標簽傳播法采用上述同質性假設來表示的基于結構的先驗,在圖卷積網絡(GCN)[12]中沒有充分使用[15,31]。
作為證據,最近的研究提出通過添加正則化[31]或操縱圖過濾器[15,25]將標簽傳播機制納入GCN。他們的實驗結果表明,通過強調這種基于結構的先驗知識可以改善GCN。然而,這些方法具有三個主要缺點:(1)其模型的主體仍然是GNN,并阻止它們進行更可解釋的預測;(2)它們是單一模型而不是框架,因此與其他高級GNN架構不兼容;(3)他們忽略了另一個重要的先驗知識,即基于特征的先驗知識,這意味著節點的標簽完全由其自身的特征確定。
為了解決這些問題,我們提出了一個有效的知識蒸餾框架,以將任意預訓練的GNN教師模型的知識注入精心設計的學生模型中。學生模型是通過兩個簡單的預測機制構建的,即標簽傳播和特征轉換,它們自然分別保留了基于結構和基于特征的先驗知識。具體來說,我們將學生模型設計為參數化標簽傳播和基于特征的2層感知機(MLP)的可訓練組合。另一方面,已有研究表明,教師模型的知識在于其軟預測[9]。通過模擬教師模型預測的軟標簽,我們的學生模型能夠進一步利用預訓練的GNN中的知識。因此,學習的學生模型具有更可解釋的預測過程,并且可以利用GNN和基于結構/特征的先驗知識。我們的框架概述如圖1所示。 圖片
圖1:我們的知識蒸餾框架的示意圖。學生模型的兩種簡單預測機制可確保充分利用基于結構/功能的先驗知識。在知識蒸餾過程中,將提取GNN教師中的知識并將其注入學生。因此,學生可以超越其相應的老師,得到更有效和可解釋的預測。
我們在五個公共基準數據集上進行了實驗,并采用了幾種流行的GNN模型,包括GCN[12]、GAT[30]、SAGE[8]、APPNP[13]、SGC[33]和最新的深層GCN模型GCNII[4]作為教師模型。實驗結果表明,就分類精度而言,學生模型的表現優于其相應的教師模型1.4%-4.7%。值得注意的是,我們也將框架應用于GLP[15],它通過操縱圖過濾器來統一GCN和標簽傳播。結果,我們仍然可以獲得1.5%-2.3%的相對改進,這表明了我們框架的潛在兼容性。此外,我們通過探究參數化標簽傳播與特征轉換之間的可學習平衡參數以及標簽傳播中每個節點的可學習置信度得分,來研究學生模型的可解釋性。總而言之,改進是一致,并且更重要的是,它具有更好的可解釋性。
本文的貢獻總結如下:
股票趨勢預測是以預測股票的未來趨勢為目的的,是投資者尋求股票市場利潤最大化的關鍵。近年來,許多事件驅動的方法利用新聞、社交媒體和討論板中提取的事件來預測股票走勢。然而,現有的事件驅動方法存在兩個主要缺陷:1) 忽略了由股票相關屬性區分的事件信息的影響; 2)忽略其他相關股票的事件信息的影響。在本文中,我們提出了一個關系事件驅動的股票趨勢預測(REST)框架,以解決現有方法的不足。為了彌補第一個不足,我們提出建立股票上下文模型,并學習事件信息對不同上下文下的股票的影響。為了解決第二個缺點,我們構造了一個股票圖并設計了一個新的傳播層來傳播相關股票的事件信息的影響。在真實世界數據上的實驗研究證明了我們的REST框架的有效性。投資模擬的結果表明,我們的框架可以獲得比基線更高的投資回報。
零樣本學習(Zero-shot Learning, ZSL)是一種針對從未出現在訓練數據中的類別進行預測的學習方法,目前已成為研究熱點。實現ZSL的關鍵是利用類的先驗知識,構建類之間的語義關系,并使學習到的模型(例如,特性)能夠從訓練類(例如,可見類)轉移到不可見類。然而,現有方法所采用的先驗相對有限,語義不完全。本文通過基于本體的知識表示和語義嵌入,探索更豐富和更具競爭性的先驗知識,為ZSL的類間關系建模。同時,為了解決可見類和不可見類之間的數據不平衡問題,我們提出了帶有生成式對抗網絡(GANs)的生成式ZSL框架。我們的主要發現包括: (i)一個本體增強的ZSL框架,可以應用于不同的領域,如圖像分類(IMGC)和知識圖譜補全(KGC); (ii)利用來自不同領域的多個零樣本數據集進行綜合評估,我們的方法往往比最先進的模型獲得更好的性能。特別是,在IMGC的四個代表性的ZSL基線上,基于本體的類語義優于之前的預測,例如,在兩個示例數據集上,類的詞嵌入在標準ZSL中的平均精度為12.4點(見圖4)。
//www.zhuanzhi.ai/paper/455f8ab60b8550b4318debc0acebe2d3
圖卷積網絡(GCNs)在推薦方面表現出巨大的潛力。這歸功于他們通過利用來自高階鄰居的協作信號來學習良好的用戶和項目嵌入的能力。與其他GCN模型一樣,基于GCN的推薦模型也存在著臭名昭著的過平滑問題——當疊加更多層時,節點嵌入變得更加相似,最終無法區分,導致性能下降。最近提出的LightGCN和LR-GCN在一定程度上緩解了這一問題,但是我們認為他們忽略了推薦中出現過平滑問題的一個重要因素,即在圖卷積操作中,用戶的嵌入學習也可以涉及到與用戶沒有共同興趣的高階鄰域用戶。因此,多層圖卷積會使不同興趣的用戶具有相似的嵌入性。在本文中,我們提出了一種新的興趣感知消息傳遞GCN (IMP-GCN)推薦模型,該模型在子圖中進行高階圖卷積。子圖由具有相似興趣的用戶及其交互項組成。為了形成子圖,我們設計了一個無監督的子圖生成模塊,該模塊利用用戶特征和圖結構來有效識別具有共同興趣的用戶。為此,我們的模型可以避免將高階鄰域的負面信息傳播到嵌入學習中。在三個大規模基準數據集上的實驗結果表明,我們的模型可以通過疊加更多的層來獲得性能的提高,顯著優于目前最先進的基于GCN的推薦模型。
大數據分析的一個關鍵挑戰是如何收集大量(標記)數據。眾包旨在通過聚合和估算來自廣泛的客戶/用戶的高質量數據(如文本的情感標簽)來解決這一挑戰。現有的眾包研究集中于設計新的方法來提高來自不可靠/嘈雜客戶端的聚合數據質量。然而,迄今為止,這種眾包系統的安全方面仍未得到充分的探索。我們的目標是在這項工作中填補這一缺口。具體來說,我們表明眾包很容易受到數據中毒攻擊,即惡意客戶端提供精心制作的數據來破壞聚合數據。我們將我們所提議的數據中毒攻擊規劃為一個優化問題,使聚合數據的錯誤最大化。我們在一個合成的和兩個真實的基準數據集上的評估結果表明,所提出的攻擊可以顯著地增加聚合數據的估計誤差。我們還提出了兩種防御來減少惡意客戶端的影響。我們的實證結果表明,所提出的防御方法可以顯著降低數據中毒攻擊的估計誤差。
//www.zhuanzhi.ai/paper/d25992f7a7df3ee1468f244f05a8ba03
多標簽文本分類涉及到從標簽集中為每個給定文檔分配其最相關標簽的問題。通常,給定文檔的元數據和標簽的層次結構在實際應用是可用的。然而,現有的研究大多只關注于文本信息的建模,也有少數嘗試使用元數據或層次信號,但沒有同時使用它們。在本文中,我們通過在一個大的標簽層次結構(例如,有成千上萬個標簽)中形式化元數據感知文本分類的問題來彌補這一差距。為了解決這個問題,我們提出了MATCH解決方案——一個利用元數據和層次結構信息的端到端框架。為了整合元數據,我們預先訓練文本和元數據在同一空間的嵌入,并利用完全連接的注意力來捕捉它們之間的相互關系。為了充分利用標簽層次結構,我們提出了不同的方法來規整每個子標簽的參數和輸出概率。在兩個具有大規模標簽層次的大規模文本數據集上進行的大量實驗證明了在最先進的深度學習基線上匹配的有效性。
分類法是一種層次結構的知識圖譜,在機器智能中起著至關重要的作用。分類法擴展任務旨在為現有分類法中的新術語找到一個位置,以捕獲世界上正在出現的知識,并保持分類法的動態更新。以往的分類法擴展解決方案忽略了層次結構所帶來的有價值的信息,只評估了增加的一條邊的正確性,從而將問題降級為節點對評分或小路徑分類。在本文中,我們提出了層次擴展框架(HEF),充分利用層次結構的特性,最大限度地提高擴展分類的一致性。HEF在多個方面利用了分類法的層次結構: (i) HEF利用包含相關節點最多的子樹作為自監督數據,對親兄弟關系進行完整的比較; (ii) HEF采用一致性建模模塊,通過整合hypernymy關系檢測和多個樹獨占特征來評估分類子樹的一致性; iii) HEF引入了位置選擇的擬合得分,明確評價路徑選擇和水平選擇,并充分利用親代關系交換信息進行消歧和自我修正。大量的實驗表明,通過更好地利用層次結構和優化分類法的一致性,HEF在三個基準數據集上的準確率平均提高了46.7%,平均倒數排名提高了32.3%。
//www.zhuanzhi.ai/paper/adeba9959c7b75259d5b83a0e99d79e2
藥物相互作用預測是醫療保健機器學習領域的一項重要任務。在本文中,我們提出了一種全新的框架,利用多視角圖對比表示學習來完成藥物相互作用預測。我們不僅關注藥物分子圖,還關注藥物交互關系圖,從多個視角來建模藥物相互作用關系。針對藥物分子圖,我們使用基于化學鍵的消息傳遞機制來聚合信息和基于注意力機制的圖池化層來提取低層藥物分子表示;針對藥物交互關系圖和得到的低層藥物分子表示,我們使用圖卷積編碼器來聚合兩部分信息。此外,我們還提出了一種新穎的圖對比學習組件來平衡兩個視角中包含的信息。在真實數據集上進行的綜合性實驗表明我們的方法優于當前的其他方法。
//www.zhuanzhi.ai/paper/60e34925ef83710eaad29b0e40d124c9
知識圖譜補全(KGC)任務的目的是自動推斷知識圖譜(KG)中缺失的事實信息。在本文中,我們采用了一個新的視角,旨在利用豐富的用戶-項目交互數據(簡稱用戶交互數據)來改進KGC任務。我們的工作靈感來自于許多KG實體對應于應用程序系統中的在線項目的觀察。然而,這兩種數據源具有非常不同的內在特性,使用簡單的融合策略可能會影響原始的性能。
為了解決這一挑戰,我們提出了一種利用KGC任務的用戶交互數據的新穎的對抗性學習方法。我們的生成器是與用戶交互數據隔離的,用于提高鑒別器的性能。鑒別器將從用戶交互數據中學習到的有用信息作為輸入,逐步增強評價能力,以識別生成器生成的虛假樣本。為了發現用戶的隱式實體偏好,我們設計了一種基于圖神經網絡的協同學習算法,該算法將與鑒別器共同優化。這種方法可以有效地緩解KGC任務的數據異構性和語義復雜性問題。在三個真實數據集上的大量實驗證明了我們的方法在KGC任務上的有效性。