大數據和大計算的興起給數字生活的許多領域帶來了現代神經網絡,這要歸功于構建與現實世界相適應的大型模型相對容易。Transformers的成功和對海量數據的自監督預訓練讓一些人相信,只要我們有數據和計算資源,深度神經網絡幾乎可以做任何事情。然而,情況可能并非如此。雖然神經網絡可以快速地利用表面統計,但它們在推廣到新的組合上卻失敗得很糟糕。目前的神經網絡并不執行刻意推理——即從上下文數據中有意地推導出新知識的能力。本教程回顧了最近的發展,將神經網絡的能力擴展到從數據“學習推理”,其中的任務是確定數據是否包含一個結論。這種能力開辟了新的途徑,通過使用自然語言進行任意查詢,從數據中生成見解,而不需要預先定義一組狹義的任務。
本教程由三個主要部分組成。A部分涵蓋了學習-推理框架,解釋了神經網絡如何通過綁定、注意力和動態計算圖等自然操作作為推理的強大支柱。我們還將展示神經網絡如何學習執行組合算法。第二部分將更詳細地介紹神經網絡如何在非結構化和結構化數據上進行推理,以及跨多種模態。將解釋集合、關系、圖和時間的推理。C部分回顧了更高級的主題,包括帶有外部記憶的神經網絡,學習用有限的標簽進行推理,以及用心智理論進行遞歸推理。我們將特別關注神經記憶作為支持實體、關系甚至神經程序推理的基本機制。如有可能,將提供文本理解和視覺問答方面的個案研究。
摘要
作為一種比傳統機器學習方法更有效的訓練框架,元學習獲得了廣泛的歡迎。然而,在多模態任務等復雜任務分布中,其泛化能力尚未得到深入研究。近年來,基于多模態的元學習出現了一些研究。本綜述從方法論和應用方面提供了基于多模態的元學習景觀的全面概述。我們首先對元學習和多模態的定義進行了形式化的界定,并提出了這一新興領域的研究挑戰,如何豐富少樣本或零樣本情況下的輸入,以及如何將模型泛化到新的任務中。然后我們提出了一個新的分類系統,系統地討論了結合多模態任務的典型元學習算法。我們對相關論文的貢獻進行了調研,并對其進行了分類總結。最后,提出了該領域的研究方向。
//www.zhuanzhi.ai/paper/3cf8fdad89ed44f7ea803ce6e0ab21b5
引言
深度學習方法在語音、語言和視覺領域取得了顯著進展[1,2,3]。然而,這些方法的性能嚴重依賴于大量標記數據的可用性,而在大多數應用中,獲取這些數據可能不切實際或成本高昂。僅使用有限的標記數據往往會導致過擬合問題,導致泛化到新數據[4]或完全不同的分布的不確定性。另一方面,人類學習過程中使用的“學會學習”機制[5]使我們能夠從很少的樣本[6]中快速學習新的概念。已有證據表明,通過結合先驗知識和情境,人類可以在有限情景下獲得多個先驗任務的經驗,在有限情景下,習得的抽象經驗被一般化,以提高未來對新概念的學習表現。受此啟發,提出了一種名為元學習(meta-learning)的計算范式[7,8],用來模擬人類學習廣義任務經驗的能力,旨在讓機器從類似任務中獲取先驗知識,并快速適應新任務。通過在動態選擇中提取跨領域任務目標,元學習過程比傳統機器學習模型更具數據效率[9,10]。
由于元學習能夠泛化到新的任務,我們的目的是了解元學習如何發揮作用,當任務更復雜時,例如,數據源不再是單模態的,或原始模態中的數據是有限的。最近的研究集中在將元學習框架應用于復雜任務的分配上[11,12],但僅限于單一的模態。特別是,在多個應用[7]、學習優化步驟[13]的先驗知識、數據嵌入[14,15]或模型結構[16]的多任務和單任務場景中,元學習已經被證明是成功的。然而,在異構任務模態下,如何巧妙地利用元學習給研究人員帶來了獨特的挑戰。要在額外模態的幫助下從這些任務中學習新概念,示例應該以成對或多種方式提供,其中每個示例包含同一概念的兩個或多個項目,但在不同的模態。
首先在圖像分類的零樣本學習(ZSL) /廣義零樣本學習(GSZL)領域探討了不同模態的異質特征。語義模式被認為在模型訓練中提供強大的先驗知識和輔助視覺模式。為了更好地將知識從可見的類遷移到不可見的類,基于元的算法被廣泛引入來捕獲配對模態之間的屬性關系。然而,訓練過程大多將一個模態視為主要模態,并通過添加另一個模態來利用額外的信息。它不涉及在真實的復雜情景中對多種模態的分析,如未配對的模態、缺失的模態以及模態之間的關聯。因此,一些研究進一步將元學習方法應用于由其他模態構成的任務。具體來說,當不同任務的模態來自不同的數據分布,或者不同任務的模態被遺漏或不平衡時,通過充分利用元學習背景下的多模態數據,可以將不同模式的優勢整合到問題中,從而提高績效。另一方面,元學習本身的訓練框架有助于提高原多模態學習者在新任務中的泛化能力。雖然對這兩個概念的跨學科研究聽起來很有前景,但目前的研究大多將元學習算法和多模態學習算法分開進行總結,導致多模態與元學習結合的研究存在差距。
最后,我們希望在本次綜述中對基于多模態的元學習算法進行系統而全面的研究。我們旨在為不同的方法提供直觀的解釋,并有助于:
識別將元學習算法應用于多模態任務的挑戰; 提出一個新的分類,并為每個類別提供深刻的分析; 總結解決不同挑戰的具體貢獻,包括其方法和與其他方法的區別; 強調當前的研究趨勢和未來可能的方向。
本綜述的其余部分組織如下。在第二節中,我們首先對元學習和多模態的定義進行了形式化界定,然后給出了基于多模態的元學習挑戰的總體范式。然后我們在第3節提出了一個基于元學習算法可以學習的先驗知識的新分類。我們分別在第4節、第5節和第6節對如何使原始元學習方法適應多模態數據的相關研究進行了考察,在第7節對這些工作進行了總結。最后,我們總結了目前的研究趨勢在第8節和可能的方向,未來的工作在第9節。
目前的機器學習由深度神經網絡驅動,擅長從大量數據和訓練信號中提取預測模式。在過去的七年中,在將這種能力擴展到推理領域方面有了穩步的發展——從現有的知識庫中有意地推導出新的知識的能力。本教程提供了一個有組織的知識體系,涵蓋了圍繞機器學習推理的最新發展,重點是可微分神經網絡架構。我們想要回答的主要問題是,我們是否能學會從數據中進行推理,就像我們學會使用神經網絡進行預測一樣?在本教程中,我們將展示如何通過使用動態神經網絡實現這一點,動態神經網絡的計算圖是由給定的數據和查詢動態組成的。這里的查詢是任意的,例如,在語言形式中。數據和域具有跨越空間和時間的結構,也就是說,數據元素通過關系或隱式或顯式地相互鏈接。涵蓋的主題分為兩部分:理論和應用。理論部分包括推理的雙系統解釋、神經記憶、非結構集和超結構圖的推理以及神經符號整合。應用部分包括機器閱讀理解中的神經推理、視覺問答和組合推理。
第一部分:理論(180分鐘)
本部分進一步分為六個子主題:概念、雙過程理論、神經記憶、對集合的推理、對圖的推理和神經符號的整合。
第1講:神經機器推理的概念(30分鐘)
在這一部分中,我們將回顧學習和推理的關鍵概念,以及這兩種智能是如何相互作用的。特別地,我們將從學習推理的正式框架開始,其中的任務是確定數據是否包含結論[23]。然后,我們展示了如何在這個框架下重新構建問題回答和大多數有監督的機器學習任務。然后,我們將解釋現代神經網絡如何在這個框架中作為學習和推理的基礎機制。其中一個關鍵因素是注意力,這在最近的工作中有所體現。我們還討論了推理如何也可以被視為條件計算的實例,其中計算圖是由查詢與可用數據動態共同決定的。這種方法的一種極端形式是程序合成,即從數據上下文中的查詢自動生成一個謂詞鏈接的程序,程序的執行將提供答案。
**第2講:雙推理系統(30分鐘) **
我們將簡要回顧一個已建立的人類推理框架,即雙過程理論[11],或者通俗地稱為快與慢思維[22]。近年來,這個話題在人工智能領域非常重要,例如,在諾貝爾獎得主卡尼曼和圖靈獎得主約書亞·本吉奧出席的AAAI 2019小組討論中所討論的。特別是,快速思考過程,也被稱為系統1,通常是并行的、反應的和特定領域的,它相當于目前大多數深度學習模型。另一方面,緩慢的思考過程,也被稱為系統2,是順序的、審慎的和領域不可知的。我們將解釋系統2如何在核心推理形式中發揮作用,包括構成推理、關系推理、時間推理和因果推理。最后,我們將討論系統1和系統2是如何相互作用的。
**第三講:神經記憶(30分鐘) **
在這一部分中,我們將討論推理過程中最重要的一個方面:記憶[12]——一種允許我們記憶、檢索、操縱信息和模擬看不見的場景的心理能力。我們將涵蓋三個不同的概念,這對高階推理至關重要:實體的內存,關系的內存和程序的內存。實體的神經記憶已經被廣泛研究,這屬于記憶增強神經網絡(memory - augmented Neural Networks)的范疇[18,47,49]。很少有人研究,但對高階推理極其重要的是關系記憶,它允許我們顯式地存儲、檢索和操縱在長謂詞鏈接過程[24]中已知的和新形成的關系。我們將描述如何使用張量[28,42,45]或圖[37]來實現關系記憶。在這些模型中,注意力是利用關系建模的常見操作。最后,我們將解釋最近一個被稱為程序存儲器的強大概念是如何對條件計算和自動神經程序合成(推理背后的潛在計算過程)至關重要的。本部分介紹了兩種程序存儲器的方法:模塊化神經網絡[2]和存儲程序存儲器[27]。
第4講: 非結構化集的推理(30分鐘)
最近許多涉及神經推理的工作都可以表述為在非結構集上進行推理。在這些設置中,我們有一組查詢詞,以及知識庫中的一組項目(可以是文本中的單詞,也可以是圖像中提取的視覺特征)。推理的任務是構建一個序列的過程,在這兩個集合中的項目被迭代處理并以組合的方式相互作用。這可能是一個迭代條件作用過程[39],也可能是構成和注意力的循環模式[17,21]。
第五講: 圖推理(30分鐘)
關系結構已經被證明對推理至關重要[15,50],這些結構可以方便地用圖[5]表示。這導致了圖推理,當推理由圖上的操作構成或支持時,就會發生圖推理。在這一部分,我們將解釋圖神經網絡如何作為關系推理的基礎主干,無論是在空間還是在時間[6]。我們將涵蓋基本概念,包括節點嵌入、關系網絡[43]和消息傳遞;以及諸如查詢條件圖構造[29]和圖動力學[38]等高級主題。
第6講:混合神經符號推理(30分鐘)
不與符號方法[14]的聯系,神經推理理論是不完整的。這是因為符號方法很容易用于高級邏輯推理,這在許多NLP和數學推理問題中非常重要。此外,符號方法似乎更自然地處理重要問題,如系統泛化,純神經網絡還不是很有效[3,13]。在這個混合神經-符號推理的子主題中,我們將涵蓋最近的工作,包括神經模塊網絡[19,53]和邏輯模型和神經網絡的集成[14]。
參考文獻: [1]Ralph Abboud, Ismail Ilkan Ceylan, and Thomas Lukasiewicz. Learning to reason: Leveraging neural networks for approximate dnf counting. AAAI, 2020. [2]Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and Dan Klein. Neural module networks. In CVPR, pages 39–48, 2016. [3]Dzmitry Bahdanau, Shikhar Murty, Michael Noukhovitch, Thien Huu Nguyen, Harm de Vries, and Aaron Courville. Systematic generalization: what is required and can it be learned? ICLR, 2019. [4]Yunsheng Bai, Derek Xu, Alex Wang, Ken Gu, Xueqing Wu, Agustin Marinovic, Christopher Ro, Yizhou Sun, and Wei Wang. Fast detection of maximum common subgraph via deep q-learning. arXiv preprint arXiv:2002.03129, 2020.
來自華為的研究人員在KDD2021上將給出關于反事實解釋與XAI的教程,非常值得關注!
深度學習在許多領域都顯示出了強大的性能,但其黑箱特性阻礙了其進一步的應用。作為回應,可解釋人工智能應運而生,旨在解釋深度學習模型的預測和行為。在眾多的解釋方法中,反事實解釋被認為是最好的解釋方法之一,因為它與人類的認知過程相似:通過構建對比情境來進行解釋,人類可以認知地展示差異來解釋其背后的機制。
在本教程中,我們將介紹反事實解釋的認知概念和特點,反事實解釋的計算形式,主流方法,以及在不同解釋設置下的各種適應。此外,我們將展示幾個流行研究領域的反事實解釋的典型用例。最后,根據實踐,我們概述了反事實解釋的潛在應用,如數據增強或對話系統。我們希望本教程能幫助參與者對反事實解釋有一個大致的了解。
//sites.google.com/view/kdd-2021-counterfactual
反事實思維是人類理解世界的基本方式之一,因此,用反事實來解釋機器學習和深度學習模型成為近年來的流行[4]。一個反事實的解釋描述了一種因果情況,其形式為:“如果X沒有發生,Y就不會發生”[20]。Judea pearl 將反事實定義為對“如果發生了什么”問題[15]的概率回答。反事實陳述是尋找特征值的最小變化,以便它可以將預測變成期望的輸出。對于黑箱人工智能模型,反事實解釋通常是通過從數據集中檢索數據樣本或通過擾動原始輸入的特征生成樣本,使這些數據樣本的模型輸出與原始輸出相矛盾來獲得。由于計算和應用以及反事實解釋都與數據挖掘或數據處理密切相關,我們認為反事實解釋符合數據挖掘社區的興趣,因此值得在本教程中介紹。
【導讀】ACM SIGKDD(國際數據挖掘與知識發現大會,簡稱 KDD)是世界數據挖掘領域的最高級別的學術會議,由 ACM 的數據挖掘及知識發現專委會(SIGKDD)主辦,被中國計算機協會推薦為 A 類會議。自 1995 年以來,KDD 已經連續舉辦了26屆,今年將于2021年8月14日至18日舉辦,今年的會議主辦地在新加坡。
來自 Adelaide大學的研究人員在KDD2021上將給出關于可解釋深度異常檢測的教程,非常值得關注!
異常檢測可以為許多安全關鍵或具有商業意義的現實世界應用提供重要的洞察,如極端氣候事件檢測、機械故障檢測、恐怖主義檢測、欺詐檢測、惡意URL檢測,僅舉幾例。由于這個意義,它已經被廣泛研究了幾十年,有許多淺顯的方法被提出。然而,這些方法面臨著各種數據復雜性的挑戰,如高維性、數據相關性、數據異構性等。近年來,深度學習在解決這些復雜性方面取得了巨大的成功,在廣泛的應用中,但由于異常的一些獨特特征,例如稀罕性、異質性、無界性、以及收集大規模異常數據的高昂成本。因此,針對異常檢測的深度學習技術進行了大量的研究。這些研究表明,在解決淺層異常檢測方法在不同應用環境中失敗的一些主要挑戰方面取得了巨大成功。
在本教程中,我們旨在全面回顧基于深度學習的異常檢測和解釋的進展。首先介紹了12類最先進的深度異常檢測方法的關鍵直覺、目標函數、基本假設和優缺點。異常解釋通常與異常檢測一樣重要,這對于深度檢測模型——“黑箱”模型尤其如此,因此我們也介紹了一些用于為深度檢測模型提供異常解釋的原則方法。與許多其他數據挖掘任務相比,深度異常檢測的探索要少得多。我們旨在通過本教程積極推動其在算法、理論和評估方面的發展。
本教程針對的是對幫助機器理解自然語言文本的人工智能技術感興趣的研究人員和從業者,特別是文本中描述的真實世界事件。這些方法包括提取關于一個事件的主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將為讀者提供一個系統的介紹 (i) 事件的知識表示,(ii) 自動提取、概念化和預測事件及其關系的各種方法,(iii) 事件過程和屬性的歸納,和(iv) 廣泛的NLU和常識性理解任務。我們將通過概述這一領域中出現的研究問題來結束本教程。
//cogcomp.seas.upenn.edu/page/tutorial.202108/
人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘述預測得益于學習事件的因果關系,從而預測故事接下來會發生什么;機器理解文檔可能包括理解影響股市的事件、描述自然現象或識別疾病表型。事實上,事件理解在諸如開放領域問答、意圖預測、時間軸構建和文本摘要等任務中也有廣泛的重要應用。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件的關系,它描述了事件的隸屬關系、共參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及到它的參與者、粒度、位置和時間。
在本教程中,我們將全面回顧文獻中關于以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了引入用于事件抽取的部分標簽和無監督學習方法外,我們還將討論最近用于從文本中抽取多面事件-事件關系的約束學習和結構化推理方法。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠距離監督方法如何幫助解決時間和因果常識對事件的理解,以及如何運用它們來構建大規模的事件知識庫。參與者將了解這個主題的最新趨勢和新出現的挑戰,代表性工具和學習資源,以獲得即用模型,以及相關模型和技術如何使最終使用NLU應用程序受益。
目錄內容:
智能需要記憶。沒有記憶,人類就無法完成各種重要的任務,比如讀小說、玩游戲或解決數學問題。機器學習的最終目標是開發出像人類一樣自動學習和行動的智能系統,因此機器的記憶構建是必然的。人工神經網絡通過權值將計算單元連接起來,對大腦中的神經元和突觸進行建模,這是一種典型的類似于記憶結構的機器學習算法。他們的后代擁有更復雜的建模技術(即深度學習),已經成功地應用于許多實際問題,并證明了記憶在機器系統學習過程中的重要性。近年來,深度學習中記憶建模的研究主要圍繞外部記憶結構展開,受到計算圖靈模型和生物神經元系統的啟發。注意力機制的產生是為了支持外部記憶的獲取和保留操作。盡管缺乏理論基礎,這些方法已經顯示出幫助機器系統達到更高智能水平的希望。本文的目的是提高對深度學習中記憶和注意力的認識。它的貢獻包括: (i) 呈現記憶分類的集合,(ii)構建支持多個控制和記憶單元的新的記憶增強神經網絡(MANN), (iii)通過序列生成模型中的記憶引入可變性,(iv)在基于槽的記憶網絡中尋找最佳的寫操作以最大限度地提高記憶能力;(v)通過神經網絡的一種新型外部存儲器——神經存儲程序存儲器來模擬通用圖靈機。
目錄內容: 1 Introduction 2 Taxonomy for Memory in RNNs 3 Memory-augmented Neural Networks 4 Memory Models for Multiple Processes 5 Variational Memory in Generative Models 6 Optimal Writing Memory 7 Neural Stored-Program Memory 8 Conclusions
在這篇論文中,我們介紹了神經網絡的幾種記憶類型,特別是遞歸神經網絡(RNNs)。我們強調記憶作為RNN的外部存儲的概念,其中rnn可以學習讀寫外部記憶,以支持其工作記憶(第2章)。我們回顧了解決訓練RNN困難的進展,如門控和注意機制,特別是基于槽的MANN,這是本文第三章提出的新模型的主要內容。我們的主要貢獻有四方面。首先, 我們MANN作為一個多進程多視點模型來處理復雜的問題,如sequence-to-sequence映射和多視角序列學習(第四章)。我們進一步擴展MANNs作為離散序列的模型生成會話數據可變性和一致性要求(第5章)。我們也解釋到內存中最后,我們介紹了一類新的MANN,它遵循存儲程序存儲原理,可以通過切換控制器的程序來執行不同的功能。
在監督模式下訓練的深度模型在各種任務上都取得了顯著的成功。在標記樣本有限的情況下,自監督學習(self-supervised learning, SSL)成為利用大量未標記樣本的新范式。SSL在自然語言和圖像學習任務中已經取得了很好的效果。最近,利用圖神經網絡(GNNs)將這種成功擴展到圖數據的趨勢。
在本綜述論文中,我們提供了使用SSL訓練GNN的不同方法的統一回顧。具體來說,我們將SSL方法分為對比模型和預測模型。
在這兩類中,我們都為方法提供了一個統一的框架,以及這些方法在框架下的每個組件中的不同之處。我們對GNNs SSL方法的統一處理揭示了各種方法的異同,為開發新的方法和算法奠定了基礎。我們還總結了不同的SSL設置和每個設置中使用的相應數據集。為了促進方法開發和實證比較,我們為GNNs中的SSL開發了一個標準化測試床,包括通用基線方法、數據集和評估指標的實現。
//www.zhuanzhi.ai/paper/794d1d27363c4987efd37c67ec710a18
引言
深度模型以一些數據作為輸入,并訓練輸出期望的預測。訓練深度模型的一種常用方法是使用有監督的模式,在這種模式中有足夠的輸入數據和標簽對。
然而,由于需要大量的標簽,監督訓練在許多現實場景中變得不適用,標簽是昂貴的,有限的,甚至是不可用的。
在這種情況下,自監督學習(SSL)支持在未標記數據上訓練深度模型,消除了對過多注釋標簽的需要。當沒有標記數據可用時,SSL可以作為一種從未標記數據本身學習表示的方法。當可用的標記數據數量有限時,來自未標記數據的SSL可以用作預訓練過程,在此過程之后,標記數據被用來為下游任務微調預訓練的深度模型,或者作為輔助訓練任務,有助于任務的執行。
最近,SSL在數據恢復任務中表現出了良好的性能,如圖像超分辨率[1]、圖像去噪[2,3,4]和單細胞分析[5]。它在語言序列[6,7,8]、圖像[9,10,11,12]、帶有序列模型的圖[13,14]等不同數據類型的表示學習方面也取得了顯著進展。這些方法的核心思想是定義前置訓練任務,以捕獲和利用輸入數據的不同維度之間的依賴關系,如空間維度、時間維度或通道維度,具有魯棒性和平滑性。Doersch等人以圖像域為例,Noroozi和Favaro[16],以及[17]等人設計了不同的前置任務來訓練卷積神經網絡(CNNs)從一幅圖像中捕捉不同作物之間的關系。Chen等人的[10]和Grill等人的[18]訓練CNN捕捉圖像的不同增強之間的依賴關系。
根據訓練任務的設計,SSL方法可以分為兩類;即對比模型和預測模型。這兩個類別之間的主要區別是對比模型需要數據-數據對來進行訓練,而預測模型需要數據-標簽對,其中標簽是自生成的,如圖1所示。對比模型通常利用自監督來學習數據表示或對下游任務進行預訓練。有了這些數據-數據對,對比模型就能區分出正面對和負面對。另一方面,預測模型是在監督的方式下訓練的,其中標簽是根據輸入數據的某些屬性或選擇數據的某些部分生成的。預測模型通常由一個編碼器和一個或多個預測頭組成。當應用于表示學習或預訓練方法時,預測模型的預測頭在下游任務中被刪除。
在圖數據分析中,SSL可能非常重要,它可以利用大量未標記的圖,如分子圖[19,20]。隨著圖神經網絡的快速發展[21,22,23,24,25,26,27],圖神經網絡的基本組成[28,29,30,31,32,33]等相關領域[34,35]得到了深入的研究,并取得了長足的進展。相比之下,在GNNs上應用SSL仍然是一個新興領域。由于數據結構的相似性,很多GNN的SSL方法都受到了圖像領域方法的啟發,如DGI[36]和圖自動編碼器[37]。然而,由于圖結構數據的唯一性,在GNN上應用SSL時存在幾個關鍵的挑戰。為了獲得良好的圖表示并進行有效的預訓練,自監督模型可以從圖的節點屬性和結構拓撲中獲取必要的信息。對于對比模型來說,由于自監督學習的GPU內存問題并不是圖形的主要關注點,關鍵的挑戰在于如何獲得良好的圖形視圖以及針對不同模型和數據集的圖形編碼器的選擇。對于預測模型,至關重要的是應該生成什么標簽,以便了解非平凡的表示,以捕獲節點屬性和圖結構中的信息。
為了促進方法論的發展和促進實證比較,我們回顧GNN的SSL方法,并為對比和預測方法提供了統一的觀點。我們對這一問題的統一處理,可以揭示現有方法的異同,啟發新的方法。我們還提供了一個標準化的測試,作為一個方便和靈活的開源平臺,用于進行實證比較。我們將本次綜述論文總結如下:
我們提供關于圖神經網絡SSL方法的徹底和最新的回顧。據我們所知,我們的綜述查首次回顧了關于圖數據的SSL。
我們將GNN現有的對比學習方法與一般框架統一起來。具體來說,我們從互信息的角度統一對比目標。從這個新的觀點來看,不同的對比學習方式可以看作是進行三種轉換來獲得觀點。我們回顧了理論和實證研究,并提供見解來指導框架中每個組成部分的選擇。
我們將SSL方法與自生成標簽進行分類和統一,作為預測學習方法,并通過不同的標簽獲取方式來闡明它們之間的聯系和區別。
我們總結了常用的SSL任務設置以及不同設置下常用的各類數據集,為未來方法的發展奠定了基礎。
我們開發了一個用于在GNN上應用SSL的標準化測試平臺,包括通用基準方法和基準的實現,為未來的方法提供了方便和靈活的定制。
注意力是一種在廣泛的神經結構中使用的越來越流行的機制。由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們定義了用于自然語言處理的注意力體系結構的統一模型,重點介紹了用于文本數據的向量表示的體系結構。我們討論了以往工作的不同方面,注意力機制的可能用途,并描述了該領域的主要研究工作和公開挑戰。
//web.eecs.umich.edu/~justincj/slides/eecs498/FA2020/598_FA2020_lecture13.pdf
不確定性的概念在機器學習中是非常重要的,并且構成了現代機器學習方法論的一個關鍵元素。近年來,由于機器學習與實際應用的相關性越來越大,它的重要性也越來越大,其中許多應用都伴隨著安全要求。在這方面,機器學習學者們發現了新的問題和挑戰,需要新的方法發展。事實上,長期以來,不確定性幾乎被視為標準概率和概率預測的同義詞,而最近的研究已經超越了傳統的方法,也利用了更一般的形式主義和不確定性計算。例如,不確定性的不同來源和類型之間的區別,例如任意不確定性和認知不確定性,在許多機器學習應用中被證明是有用的。講習班將特別注意這方面的最新發展。
綜述論文:
不確定性的概念在機器學習中是非常重要的,并且構成了機器學習方法的一個關鍵元素。按照統計傳統,不確定性長期以來幾乎被視為標準概率和概率預測的同義詞。然而,由于機器學習與實際應用和安全要求等相關問題的相關性穩步上升,機器學習學者最近發現了新的問題和挑戰,而這些問題可能需要新的方法發展。特別地,這包括區分(至少)兩種不同類型的不確定性的重要性,通常被稱為任意的和認知的。在這篇論文中,我們提供了機器學習中的不確定性主題的介紹,以及到目前為止在處理一般不確定性方面的嘗試的概述,并特別將這種區別形式化。
臺灣交通大學的Jen-Tzung Chien教授在WSDN 2020會議上通過教程《Deep Bayesian Data Mining》介紹了深度貝葉斯數據挖掘的相關知識,涵蓋了貝葉斯學習、深度序列學習、深度貝葉斯挖掘和學習等內容。
Jen-Tzung Chien教授在WSDM 2020的教程《Deep Bayesian Data Mining》(《深度貝葉斯數據挖掘》)介紹了面向自然語言的深度貝葉斯挖掘和學習,包括了它的基礎知識和進展,以及它無處不在的應用,這些應用包括語音識別、文檔摘要、文本分類、文本分割、信息抽取、圖像描述生成、句子生成、對話控制、情感分類、推薦系統、自動問答和機器翻譯等。
從傳統上,“深度學習”被認為是一個學習過程,過程中的推斷和優化都使用基于實數的判別模型。然而,從大量語料中提取出的詞匯、句子、實體、行為和文檔的“語義結構”在數學邏輯或計算機程序中可能不能很好地被這種方式表達或正確地優化。自然語言的離散或連續潛在變量模型中的“分布函數”可能不能被正確分解或估計。
該教程介紹了統計模型和神經網絡的基礎,并聚焦于一系列先進的貝葉斯模型和深度模型,包括層次狄利克雷過程、中國餐館過程、遞歸神經網絡、長短期記憶網絡、序列到序列模型、變分自編碼器、生成式對抗網絡、策略神經網絡等。教程還介紹了增強的先驗/后驗表示。教程展示了這些模型是如何連接的,以及它們為什么適用于自然語言中面向符號和復雜模式的各種應用程序。
變分推斷和采樣被提出解決解決復雜模型的優化問題。詞和句子的嵌入、聚類和聯合聚類被語言和語義約束合并。針對深度貝葉斯挖掘、搜索、學習和理解中的不同問題,一系列的案例研究、任務和應用被提出。最后,教程指出一些未來研究的方向和展望。教程旨在向初學者介紹深度貝葉斯學習中的主要主題,激發和解釋它對數據挖掘和自然語言理解正在浮現的重要性,并提出一種結合不同的機器學習工作的新的綜合方法。
教程的內容大致如下:
完整教程下載
請關注專知公眾號(點擊上方藍色專知關注) 后臺回復“DBDM20” 就可以獲取完整教程PDF的下載鏈接~
教程部分內容如下所示:
參考鏈接:
//chien.cm.nctu.edu.tw/home/wsdm-tutorial/
-END- 專 · 知
專知,專業可信的人工智能知識分發,讓認知協作更快更好!歡迎注冊登錄專知www.zhuanzhi.ai,獲取更多AI知識資料!
歡迎微信掃一掃加入專知人工智能知識星球群,獲取最新AI專業干貨知識教程視頻資料和與專家交流咨詢!
請加專知小助手微信(掃一掃如下二維碼添加),獲取專知VIP會員碼,加入專知人工智能主題群,咨詢技術商務合作~
點擊“閱讀原文”,了解注冊使用專知