圖神經網絡最近的成功極大地促進了分子性質的預測,促進了藥物發現等活動。現有的深度神經網絡方法通常對每個屬性都需要大量的訓練數據集,在實驗數據量有限的情況下(特別是新的分子屬性)會影響其性能,這在實際情況中是常見的。為此,我們提出了Meta-MGNN,一種新穎的預測少樣本分子性質的模型。Meta-MGNN應用分子圖神經網絡學習分子表示,建立元學習框架優化模型。為了挖掘未標記的分子信息,解決不同分子屬性的任務異質性,Meta-MGNN進一步將分子結構、基于屬性的自監督模塊和自關注任務權重整合到Meta-MGNN框架中,強化了整個學習模型。在兩個公共多屬性數據集上進行的大量實驗表明,Meta-MGNN優于各種最先進的方法。
城市流量預測從許多方面使得智慧城市的建設受益,例如交通管理和風險評估。但是關鍵先決條件是對城市的細粒度動態有足夠的掌握。因此,與之前的工作僅限于粗粒度數據不同,這篇論文中將城市流量預測的范圍擴展到細粒度,這帶來了一些具體挑戰:1)在細粒度數據中觀察到的網格間的轉移動態使預測變得更加復雜,需要在全局范圍內捕獲網格單元之間的空間依賴性;2)單獨學習外部因素(例如天氣)對大量網格單元的影響是非常具有挑戰性的。為了解決這兩個挑戰,本文中提出了時空關系網(STRN)來預測細粒度的城市流量。首先,骨干網用于學習每個網格單元的高級表示,第二,文中還提出了一個全局關系模塊(GloNet),與現有方法相比,該模塊可以更有效地捕獲全局空間依賴性。第三,模型中設計了一個元學習器,它將外部因素和土地功能(例如POI密度)作為輸入以產生元知識并提高模型性能。論文提出的模型在兩個現實世界的數據集進行了充足的實驗。結果表明,與最新方法相比,STRN減少了7.1%到11.5%的誤差,而使用了更少的參數。
在推薦系統中,當用戶-物品交互數據稀疏時,常用社會關系來提高推薦質量。大多數現有的社交推薦模型都是利用成對關系來挖掘潛在的用戶偏好。然而,現實生活中用戶之間的互動非常復雜,用戶關系可以是高階的。超圖提供了一種自然的方式來建模復雜的高階關系,而它在改善社會推薦方面的潛力還有待開發。在本文中,我們填補了這一空白,提出了一種利用高階用戶關系增強社交推薦的多通道超圖卷積網絡。技術上,網絡中的每個通道通過超圖卷積編碼一個描述常見高階用戶關系模式的超圖。通過聚合通過多種渠道學習到的嵌入,我們獲得了全面的用戶表示,從而產生推薦結果。然而,聚合操作也可能掩蓋不同類型高階連接信息的固有特征。為了彌補累積損失,我們創新性地將自監督學習融入到超圖卷積網絡的訓練中,以獲取具有層次互信息最大化的連通信息。在多個真實數據集上的實驗結果表明,該模型優于SOTA方法,消融研究驗證了多通道設置和自監督任務的有效性。我們的模型的實現可以通過//github.com/Coder-Yu/RecQ獲得。
雙曲空間提供了豐富的設置來學習具有優越屬性的嵌入,這些屬性在計算機視覺、自然語言處理和計算生物學等領域得到了利用。最近,有人提出了幾種雙曲線方法來學習推薦設置中的用戶和項目的魯棒表示。但是,這些方法不能捕獲推薦領域中通常存在的高階關系。另一方面,圖卷積神經網絡(GCNs)則擅長通過對局部表示應用多層聚合來捕獲更高階的信息。在本文中,我們提出了一個用于協同過濾的雙曲線GCN模型,以一種新穎的方式將這些框架結合起來。我們證明了我們的模型可以在邊緣損失的情況下有效學習,并證明了雙曲空間在邊緣設置下具有理想的性質。在測試時,我們的模型使用雙曲距離來進行推理,雙曲距離保留了學習空間的結構。我們對三個公共基準進行了廣泛的實證分析,并與一組大型基線進行比較。我們的方法實現了非常具有競爭力的結果,并超過領先的基線,包括歐幾里德GCN對等物。我們進一步研究了雙曲線嵌入的性質,并表明它們對數據提供了有意義的見解。該工作的完整代碼可以在這里://github.com/layer6ai-labs/HGCF。
點擊率(CTR)預測在推薦系統和在線廣告中起著至關重要的作用。這些應用程序中使用的數據是多字段類別數據,其中每個特征屬于一個字段。字段信息被證明是重要的,在他們的模型中有一些考慮字段的工作。在本文中,我們提出了一種新的方法來有效和高效地建模場信息。該方法是對FwFM的直接改進,被稱為場矩陣分解機(FmFM,或FM2)。在FmFM框架下,我們對FM和FwFM提出了新的解釋,并與FFM進行了比較。除了對交叉項進行修剪外,我們的模型還支持特定領域的可變維度的嵌入向量,這是一種軟修剪。在保持模型性能的同時,我們還提出了一種有效的最小化維數的方法。FmFM模型還可以通過緩存中間向量來進一步優化,它只需要數千次浮點運算(FLOPs)就可以做出預測。實驗結果表明,該算法的性能優于復雜的FFM算法。FmFM模型的性能也可以與DNN模型相媲美,DNN模型在運行時需要更多FLOPs 。
//www.zhuanzhi.ai/paper/39df3ac3e3acb641f86294a4d6acb39f
圖卷積網絡(GCNs)在推薦方面表現出巨大的潛力。這歸功于他們通過利用來自高階鄰居的協作信號來學習良好的用戶和項目嵌入的能力。與其他GCN模型一樣,基于GCN的推薦模型也存在著臭名昭著的過平滑問題——當疊加更多層時,節點嵌入變得更加相似,最終無法區分,導致性能下降。最近提出的LightGCN和LR-GCN在一定程度上緩解了這一問題,但是我們認為他們忽略了推薦中出現過平滑問題的一個重要因素,即在圖卷積操作中,用戶的嵌入學習也可以涉及到與用戶沒有共同興趣的高階鄰域用戶。因此,多層圖卷積會使不同興趣的用戶具有相似的嵌入性。在本文中,我們提出了一種新的興趣感知消息傳遞GCN (IMP-GCN)推薦模型,該模型在子圖中進行高階圖卷積。子圖由具有相似興趣的用戶及其交互項組成。為了形成子圖,我們設計了一個無監督的子圖生成模塊,該模塊利用用戶特征和圖結構來有效識別具有共同興趣的用戶。為此,我們的模型可以避免將高階鄰域的負面信息傳播到嵌入學習中。在三個大規模基準數據集上的實驗結果表明,我們的模型可以通過疊加更多的層來獲得性能的提高,顯著優于目前最先進的基于GCN的推薦模型。
推薦系統作為人工智能的一個重要應用,是最普遍的計算機輔助系統之一,幫助用戶找到潛在的興趣項目。近年來,人工智能應用的公平性問題引起了研究人員的廣泛關注。這些方法大多假定實例獨立,并設計復雜的模型來消除敏感信息,以促進公平。然而,推薦系統與這些方法有很大的不同,因為用戶和商品自然形成一個用戶-商品二部圖,并且在圖結構中相互協作。在本文中,我們提出了一種新的基于圖的技術來保證任何推薦模型的公平性。這里的公平性要求指的是在用戶建模過程中不暴露敏感特性集。具體來說,給定任何推薦模型的原始嵌入,我們學習一組過濾器,這些過濾器將每個用戶和每個物品的原始嵌入轉換為一個基于敏感特征集的過濾嵌入空間。對于每個用戶,這種轉換是在以用戶為中心的圖的對抗學習下實現的,以便在過濾后的用戶嵌入和該用戶的子圖結構之間模糊每個敏感特征。最后,大量的實驗結果清楚地表明了我們所提出的模型在公平推薦方面的有效性。
圖神經網絡(GNNs)最近在圖學習方面取得了重大進展。盡管GNN具有豐富的表示能力,但對于大規模的社會建模應用來說,GNN的開發仍然相對不足。在線社交平臺中普遍存在的一種應用是好友推薦:平臺向用戶推薦其他候選用戶,以提高用戶的聯系性、留存率和參與度。然而,在大型社交平臺上建模這樣的用戶-用戶互動帶來了獨特的挑戰: 這些圖表通常有重尾度分布,其中很大一部分用戶是不活躍的,并且結構和參與信息有限。此外,用戶與不同的功能進行交互,與不同的組進行交流,并具有多方面的交互模式。我們研究了用于好友推薦的GNN應用,就我們所知,為這項任務提供了GNN設計的首次研究。為了充分利用平臺內異構用戶行為的豐富知識,我們將好友推薦設計為具有多模式用戶特征和鏈接傳播特征的多層面好友排名。我們提出了一個神經結構,GraFRank,它是精心設計的,從多種用戶特征形態和用戶-用戶交互中學習表達用戶表示。具體而言,GraFRank通過模態特定的鄰居聚合器處理模態同質性的異質性,并通過交叉模態關注學習非線性模態相關性。我們在兩個數百萬用戶的社交網絡數據集上進行了實驗,這些數據集來自領先和廣泛流行的移動社交平臺Snapchat,在候選檢索(30%的MRR)和排名(20%的MRR)任務上,GraFRank的表現優于一些最先進的方法。此外,我們的定性分析表明,低活躍度和低級別用戶的關鍵人群獲得了顯著收益。
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
多元序列學習的本質是如何提取數據中的相關性。這些數據集,如重癥監護病房的每小時醫療記錄和多頻語音時間序列,通常不僅在個別成分中表現出強烈的序列依賴性(“邊緣”記憶),而且在橫剖面依賴性中也表現出不可忽略的記憶(“聯合”記憶)。由于聯合分布演化的多元復雜性是數據生成過程的基礎,我們采用數據驅動的方法,構建了一種新的循環網絡結構,稱為記憶門控循環網絡(mGRN),門顯式地調節兩種不同類型的記憶:邊緣記憶和聯合記憶。通過對一系列公共數據集的綜合模擬研究和經驗實驗的結合,我們表明我們提出的mGRN架構始終優于針對多元時間序列的最先進架構。
//www.zhuanzhi.ai/paper/4236df35ff33a6911c4913ac13bb78e0
由于二部圖在各種應用領域中得到了廣泛的應用,因此嵌入二部圖引起了人們的廣泛關注。以往的方法大多采用基于隨機行走或基于重構的目標,對學習局部圖結構是典型的有效方法。但是,二部圖的全局性質,包括同構節點的社區結構和異構節點的遠程依賴關系,并沒有很好地保存下來。在本文中,我們提出了一種稱為BiGI的二部圖嵌入,通過引入一個新的局部-全局信息目標來捕獲這種全局性質。具體來說,BiGI首先生成一個由兩個原型表示組成的全局表示。然后BiGI通過提出的子級注意機制將采樣的邊緣編碼為局部表示。BiGI通過最大化局部表示和全局表示之間的互信息,使二部圖中的節點具有全局相關性。我們的模型在各種基準數據集上評估top-K推薦和鏈接預測任務。大量的實驗證明BiGI在最先進的基線上實現了一致和顯著的改進。詳細的分析驗證了二部圖全局性質建模的有效性。