亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

實際系統往往由大量類型各異、彼此交互的組件構成.當前大多數工作將其建模為同質信息網絡,并未對網絡中不同類型的對象及鏈接加以區分.近年來,越來越多的研究者將這些互聯數據建模為由不同類型節點和邊構成的異質信息網絡,并利用網絡中全面的結構信息和豐富的語義信息進行更精準的知識發現.隨著大數據時代的到來,異質信息網絡自然融合異構多源數據的優勢使其成為解決大數據多樣性的重要途徑.因此,異質信息網絡分析迅速成為數據挖掘研究和產業應用的熱點.本文對異質信息網絡分析與應用進行了全面綜述. 除介紹異質信息網絡領域的基本概念外,重點聚焦基于元路徑的數據挖掘方法、異質信息網絡的表示學習技術和實際應用三個方面的最新研究進展,并對未來的發展方向進行了展望.

付費5元查看完整內容

相關內容

摘要: 知識圖譜以圖結構表示豐富靈活的語義,描述客觀世界的事物及其關系,在應用領域得到了廣泛的關注。事件知識圖譜聚焦動態事件及其間的順承、時序和因果關系,并以結構化的圖形式表示,對海量數據更高效地管理。尤其是對動態事件信息和事件邏輯關系的挖掘,對認識客觀世界發展規律,助力領域多種智能應用有著重要的意義。本文系統闡述事件知識圖譜的構建技術,包括事件知識表示、事件知識抽取、事件關系抽取,并介紹事件知識圖譜在領域的典型應用,最后介紹現階段的挑戰與研究展望。

付費5元查看完整內容

【導讀】異構網絡表示學習Heterogeneous Network Representation Learning是當前自數據挖掘以及其他應用的研究熱點,在眾多任務中具有重要的應用。近日,UIUC韓家煒等學者發布了異構網絡表示學習的綜述大全,共15頁pdf115篇參考文獻,從背景知識到當前代表性HNE模型和應用研究挑戰等,是最新可參考絕好的異構網絡表示學習模型的文獻。

由于現實世界中的對象及其交互通常是多模態和多類型的,所以異構網絡被廣泛地用作傳統同構網絡(圖)的一個更強大、更現實和更通用的超類。與此同時,表示學習(representation learning,又稱嵌入)最近得到了深入的研究,并被證明對各種網絡挖掘和分析任務都是有效的。由于已有大量的異構網絡嵌入(HNE)算法,但沒有專門的調研綜述,作為這項工作的第一個貢獻,我們率先提供了一個統一的范式,對各種現有的HNE算法的優點進行系統的分類和分析。此外,現有的HNE算法雖然大多被認為是通用的,但通常是在不同的數據集上進行評估。由于HNE在應用上的天然優勢,這種間接的比較在很大程度上阻礙了任務性能的改善,特別是考慮到從真實世界的應用數據構建異構網絡的各種可能的方法。因此,作為第二項貢獻,我們創建了四個基準數據集,這些數據集具有不同來源的尺度、結構、屬性/標簽可用性等不同屬性,以全面評估HNE算法。作為第三個貢獻,我們對十種流行的HNE算法的實現進行了細致的重構和修改,并創建了友好的接口,并在多個任務和實驗設置上對它們進行了全方位的比較。

1.概述

網絡和圖形構成了一種規范的、普遍存在的交互對象建模范式,已經引起了各個科學領域的重要研究關注[59、30、24、3、89、87]。然而,現實世界的對象和交互通常是多模態和多類型的(例如,作者、論文、場所和出版物網絡中的術語[69,65];基于位置的社交網絡中的用戶、地點、類別和gps坐標[101,91,94];以及生物醫學網絡中的基因、蛋白質、疾病和物種[38,14])。為了捕獲和利用這種節點和鏈路的異構性,異構網絡被提出并廣泛應用于許多真實的網絡挖掘場景中,如基于元路徑的相似度搜索[70、64、92]、節點分類和聚類[18、20、11]、知識庫補全[68、48、103]和推薦[23、106、31]。

與此同時,目前對圖數據的研究主要集中在表示學習(圖數據嵌入)方面,特別是在神經網絡算法的先行者們展示了前所未有的有效而高效的圖數據挖掘的經驗證據之后[25,4,13]。他們的目標是將圖數據(如節點[49、72、26、77、37、28、9、75]、鏈接[107、1、50、96]和子圖[47、93、97、45])轉換為嵌入空間中的低維分布向量,在嵌入空間中保留圖的拓撲信息(如高階鄰近性[5、76、105、34]和結構[55、102、42、17])。這樣的嵌入向量可以被各種下游的機器學習算法直接執行[58,39,10]。

在異構網絡與圖嵌入的交叉點上,異構網絡嵌入(HNE)近年來也得到了較多的研究關注[8、85、108、16、66、67、27、22、90、35、104、57、52、99、7、98、32、83、95、82、41]。由于HNE的應用優勢,許多算法在不同的應用領域分別被開發出來,如搜索和推薦[23,63,6,89]。此外,由于知識庫(KBs)也屬于異構網絡的一般范疇,許多KB嵌入算法可以與HNE算法相比較[81、3、40、68、88、15、48、79、60]。

不幸的是,不同的HNE算法是在學術界和工業界完全不同的社區開發的。無論是在概念上還是在實驗中,都沒有對其進行系統全面的分析。事實上,由于缺乏基準平臺(有現成的數據集和基線),研究人員往往傾向于構建自己的數據集,并重新實現一些最流行的(有時是過時的)比較算法,這使得公平的性能評估和明確的改進屬性變得極其困難。

只需考慮圖1中發布數據小例子。較早的HNE算法如metapath2vec [16])是在作者、論文和場所節點類型為(a)的異構網絡上發展起來的,但是可以像(b)那樣用大量的術語和主題作為附加節點來豐富論文,這使得基于隨機游走的淺嵌入算法效果不佳,而傾向于R-GCN[57]這樣的基于鄰域聚合的深度圖神經網絡。此外,還可以進一步加入術語嵌入等節點屬性和研究領域等標簽,使其只適用于半監督歸納學習算法,這可能會帶來更大的偏差[104、82、33、54]。最后,通常很難清楚地將性能收益歸因于技術新穎性和數據調整之間的關系。

在這項工作中,我們首先制定了一個統一而靈活的數學范式,概括了所有的HNE算法,便于理解每個模型的關鍵優點(第2節)。特別地,基于對現有模型(以及可能的未來模型)進行清晰分類和總結的統一分類,我們提出了網絡平滑度的一般目標函數,并將所有現有的模型重新組織成統一的范式,同時突出其獨特的新穎貢獻(第3節)。我們認為該范式將有助于指導未來新型HNE算法的發展,同時促進它們與現有算法的概念對比。

作為第二個貢獻,我們通過詳盡的數據收集、清理、分析和整理(第4節),特意準備了四個基準的異構網絡數據集,具有規模、結構、屬性/標簽可用性等多種屬性。這些不同的數據集,以及一系列不同的網絡挖掘任務和評估指標,構成了未來HNE算法的系統而全面的基準資源。

作為第三個貢獻,許多現有的HNE算法(包括一些非常流行的算法)要么沒有一個靈活的實現(例如,硬編碼的節點和邊緣類型、固定的元路徑集等),要么不能擴展到更大的網絡(例如,在訓練期間的高內存需求),這給新的研究增加了很多負擔(例如,,在正確的重新實現中需要大量的工程工作)。為此,我們選擇了10種流行的HNE算法,在這些算法中,我們仔細地重構和擴展了原始作者的實現,并為我們準備好的數據集的插件輸入應用了額外的接口(第5節)。基于這些易于使用和有效的實現,我們對算法進行了全面的經驗評估,并報告了它們的基準性能。實證結果在提供了與第3節的概念分析相一致的不同模型的優點的同時,也為我們的基準平臺的使用提供了范例,以供今后對HNE的研究參考。

本文的其余部分組織如下。第2節首先介紹我們提出的通用HNE范式。隨后,第3節對我們調查中的代表性模型進行了概念上的分類和分析。然后,我們在第4節中提供了我們準備好的基準數據集,并進行了深入的分析。在第5節中,我們對10種常用的HNE算法進行了系統而全面的實證研究,對HNE的發展現狀進行了評價。第六部分是對未來HNE平臺使用和研究的展望。

異構網絡示例

算法分類

Proximity-Preserving Methods

如前所述,網絡嵌入的一個基本目標是捕獲網絡拓撲信息。這可以通過在節點之間保留不同類型的鄰近性來實現。在HNE中,有兩類主要的接近性保護方法:基于隨機步法的方法(靈感來自DeepWalk[49])和基于一階/二階接近性的方法(靈感來自LINE[72])。

Message-Passing Methods

網絡中的每個節點都可以將屬性信息表示為特征向量xu。消息傳遞方法的目標是通過聚合來自u鄰居的信息來學習基于xu的節點嵌入eu。在最近的研究中,圖神經網絡(GNNs)[37]被廣泛用于促進這種聚合/消息傳遞過程。

Relation-Learning方法

異類網絡中的每條邊都可以看作是一個三元組(u, l, v),由兩個節點u, v∈v和一個邊緣類型l∈TE(即。,實體和關系,用KG表示)。關系學習方法的目標是學習一個評分函數sl(u, v),該函數對任意三元組求值并輸出一個標量來度量該三元組的可接受性。這種思想在KB嵌入中被廣泛采用。由于已經有關于KB嵌入算法的調查[81],我們在這里只討論最流行的方法,并強調它們與HNE的聯系。

基準

未來方向

在這項工作中,我們對各種現有的HNE算法進行了全面的調研,并提供了基準數據集和基線實現,以方便今后在這方面的研究。盡管HNE已經在各種下游任務中表現出了強大的性能,但它仍處于起步階段,面臨著許多尚未解決的挑戰。為了總結這項工作并啟發未來的研究,我們現在簡要地討論一下當前HNE的局限性和幾個可能值得研究的具體方向。

超越同質性。如式(1)所述,目前的HNE算法主要關注網絡同質性作用。由于最近對同構網絡的研究,研究位置和結構嵌入的組合,探索如何將這種設計原則和范式推廣到HNE將是很有趣的。特別是在異構網絡中,節點的相對位置和結構角色都可以在不同的元路徑或元圖下測量,這自然更具有信息性和多樣性。然而,這樣的考慮也帶來了更困難的計算挑戰。

超越準確性。大多數,如果不是全部,現有的研究主要集中在對不同的下游任務的準確性。進一步研究HNE的效率和可擴展性(用于大規模網絡)、時間適應性(用于動態演化網絡)、魯棒性(用于對抗攻擊)、可解釋性、不確定性、公平性等將是非常有趣的。

超越節點嵌入。圖級和子圖級嵌入在同構網絡上得到了廣泛的研究,但在異構網絡上卻很少有研究。雖然諸如HIN2Vec[22]等現有的工作都在研究元路徑的嵌入以改進節點的嵌入,但是圖和子圖級嵌入在異構網絡環境中的直接應用仍然處于萌芽狀態。

回顧KB嵌入。KB嵌入與其他HNE類型的區別主要在于節點和鏈接類型的數量不同。直接將KB嵌入到異構網絡中不能考慮具有豐富語義的元路徑,而將HNE直接應用到KB中由于元路徑的數量呈指數增長而不現實。然而,研究這兩組方法(以及兩種類型的數據)之間的交集仍然很有趣。例如,我們如何將異構網絡上的元路徑和HNE在KB上嵌入轉換的思想與更多的語義感知轉換結合起來?我們如何設計基于截斷隨機游走的方法來包含高階關系的知識庫嵌入?

異構上下文建模。異構網絡主要模擬不同類型的節點和鏈接。然而,現在的網絡常常與豐富的內容相關聯,這些內容提供了節點、鏈接和子網的上下文。因此,如何通過多模態內容和結構的集成來對多方面環境下的異構交互進行建模可能是一個具有挑戰性但值得研究的領域。

理解局限性。雖然HNE(以及許多神經表示學習模型)已經在各個領域顯示出了強大的性能,但值得了解其潛在的局限性。例如,與傳統的網絡挖掘方法(例如,路徑計數、子圖匹配、非神經或線性傳播)相比,現代HNE算法何時能更好地工作?我們怎樣才能把兩個世界的優點結合起來呢?此外,雖然對同構網絡數據的神經網絡背后的數學機制(如平滑、低通濾波、不變和等變變換)進行了深入的研究,通過統一現有的HNE模型,本工作也旨在激發對HNE的能力和局限性的進一步理論研究。

付費5元查看完整內容

題目: 數據標注研究綜述

摘 要: 數據標注是大部分人工智能算法得以有效運行的關鍵環節.數據標注越準確、標注的數據量越大,算法的性能就越好.數據標注行業的發展帶動了中國許多城市和城鎮的就業,促使中國逐漸成為世界數據標注的中心.闡述 了數據標注的發展概況,包括起源、應用場景、分類和任務;列舉了目前常用的標注數據集、開源的數據標注工具 和商業數據標注平臺;提出了標注中的角色、標準和流程等數據標注規范;給出了一個情感分析場景中的數據標注 實例;描述各類主流的標注質量評估算法及其特點,并對比它們優缺點;最后,從任務、工具、數據標注質量和安全性 這 4 個方面對數據標注的研究方向和發展趨勢進行了展望.

關鍵詞: 數據標注;人工智能;眾包;大數據

付費5元查看完整內容

報告主題:網絡表示學習

報告摘要:數據特征的有效表示是機器學習任務中最為關鍵環節之一。網絡數據(如社交網絡、信息網絡等)作為普適而廣泛的數據呈現形式,對它的高效表示學習是近年來數據挖掘和機器學習領域的研究熱點之一。本報告將重點圍繞如下內容展開:(1)網絡表示學習的基本概念;(2)幾類新型網絡表示學習方法,包括:網絡Tag表示、域自適應表示、基于網絡劃分的表示以及內存自適應的表示方法等。

嘉賓簡介:宋國杰,北京大學信息科學技術學院副教授。研究方向包括:網絡大數據分析、機器學習&數據挖掘、社會網絡分析和智能交通系統。主持了包括國家高技術研究發展計劃(863計劃)、國家科技支撐計劃、國家自然科學基金等縱向課題10多項;主持了國際(內)科研機構合作課題、企業橫向合作課題等20余項。國家級精品課程主講教師,兩度獲得北京大學教學成果一等獎(2012、2009)。在包括國際頂級期刊TKDE、TPDS、TITS以及國際頂級會議KDD、IJCAI、AAAI等發表論文100余篇,是多個國際頂級會議(KDD、WWW、AAAI、IJCAI等)的程序委員。申請國家發明專利10項,軟件著作權3項。研究成果獲“2012年度中國公路學會科學技術獎一等獎”、“2012年度山西省科學技術獎二等獎”和“2013年度中國公路學會科學技術獎一等獎”。

付費5元查看完整內容

題目:異質信息網絡的表示學習與應用

摘要:當前的社會網絡分析主要針對同質網絡(即網絡中結點類型相同),但是現實世界中的網絡化數據通常包含不同類型的對象,并且對象之間的關聯表示不同的語義關系。構建異質信息網絡(即包含不同類型的結點或邊的網絡)可以包含更加完整的對象之間的關聯信息,因此分析這類網絡有希望挖掘更加準確的模式。表示學習能夠自動抽取對象的隱含特征,為后續機器學習服務,成為近期的研究熱點。本報告將系統介紹異質信息網絡的表示學習方法,包括隨機游走等淺層模型方法和神經網絡等深層模型方法。報告也將介紹異質網絡表示學習在實際問題上的應用。

個人簡介:北京郵電大學計算機學院教授、博士研究生導師、智能通信軟件與多媒體北京市重點實驗室副主任。主要研究方向: 數據挖掘、機器學習、人工智能和演化計算。近五年來,作為第一作者或通信作者發表高水平學術論文50余篇,英文專著一部,包括數據挖掘領域的頂級期刊和會議IEEE TKDE、ACM TIST、KDD、AAAI、IJCAI、WWW等,相關研究成果應用于阿里巴巴、騰訊、華為等公司。獲得ADMA2011/AMDA2018國際會議最佳論文獎、CCF-騰訊犀牛鳥基金及項目優秀獎,并指導學生獲得頂尖國際數據挖掘競賽IJCAI Contest 2015 全球冠軍。獲得北京市高等學校青年英才和師德先鋒等稱號。

付費5元查看完整內容
北京阿比特科技有限公司