隨著幾何深度學習、生成建模的最新進展以及大規模生物數據集的可用性,分子圖形和幾何生成建模已經成為科學發現的一個高度有前景的方向,例如藥物設計。這些生成方法使得有效的化學空間探索和潛在藥物候選物生成成為可能。然而,通過將分子表示為2D圖形或3D幾何體,存在著許多既基礎又具有挑戰性的問題,用于建模這些不規則且復雜的關聯數據分布。在本教程中,我們將向參與者介紹這一領域的最新重要發展,涵蓋重要主題,包括2D分子圖生成、3D分子幾何生成、2D圖到3D幾何生成以及有條件的3D分子幾何生成。我們還包括抗體生成,特別考慮了大尺寸抗體分子。對于每個主題,我們將概述潛在問題特征,總結主要挑戰,呈現代表性方法的統一觀點,并強調未來研究方向和潛在影響。我們預計這個教程將吸引廣泛的研究人員和從業者參與。
講者:
一個子圖是通過使用給定圖的頂點和邊的子集構造的。存在許多圖屬性對于子圖是遺傳的。因此,不同社區的研究人員對研究眾多的子圖問題,除了普通的圖問題,給予了很大的關注。在研究子圖問題時提出了許多算法,其中一個常見的方法是通過提取給定圖的模式和結構。由于某些類型的圖的結構復雜,為了提高現有框架的整體性能,最近在處理各種子圖問題時采用了機器學習技術。在本文中,我們對使用機器學習方法解決的五個著名的子圖問題進行了全面的回顧。它們是子圖同構(計數和匹配)、最大公共子圖、社區檢測和社區搜索問題。我們概述了每種提出的方法,并檢查了其設計和性能。我們還探索了每個問題的非學習算法,并進行了簡要的討論。然后,我們建議在這個領域一些有希望的研究方向,希望可以使用類似的策略來解決相關的子圖問題。由于近年來采用機器學習技術有了巨大的增長,我們相信這次調查將為相關的研究社區提供一個很好的參考點。
教導機器對文本進行推理一直是自然語言處理(NLP)的長期目標。為此,研究人員設計了一系列復雜的推理任務,涉及組合推理、知識檢索、基礎理解、常識推理等多個方面。
構建能執行所需類型推理的系統的標準選擇是在特定下游任務上對語言模型(LM)進行微調或提示。然而,最近的研究表明,這種簡單的方法往往容易出現問題,這些模型的推理能力僅限于表面層面,即僅僅利用數據模式。因此,通過技術手段增強LM的魯棒性和有效性成為一個活躍的研究領域。
本教程概述了標準預訓練語言模型在復雜推理任務中的失敗之處。隨后,本教程回顧了近期有前景的解決這些任務的方法。具體而言,我們關注以下幾種明確考慮問題結構的方法:(1)知識增強方法,在微調或預訓練過程中將知識加入模型;(2)少樣本提示方法,有效地指導模型按照指令進行推理;(3)神經符號方法,生成明確的中間表示;以及(4)基于理由的方法,這是神經符號方法中最受歡迎的形式之一,用于將輸入的子集作為對個體模型預測的解釋。
通過探索這些不同方法,研究人員旨在克服標準微調和提示方法的局限性,開發出能夠更有效地進行文本推理的模型。本教程概述了這些領域的當前研究現狀,重點介紹了最新進展和未來研究的有前景的方向。
講者:
大規模文本語料庫上的模型預訓練已經被證明在NLP領域的各種下游應用中非常有效。在圖挖掘領域,也可以類比預訓練圖模型在大規模圖上,以期望從中獲益于下游圖應用,這也被一些最近的研究所探索。然而,現有的研究從未研究過在具有豐富文本信息的大型異構圖(也就是大型圖譜語料庫)上預訓練文本加圖模型,然后在具有不同圖模式的不同相關下游應用上對模型進行微調。為了解決這個問題,我們提出了一個在大型圖譜語料庫上進行圖感知語言模型預訓練(GaLM)的框架,該框架結合了大型語言模型和圖神經網絡,并在下游應用上提供了各種微調方法。我們在亞馬遜的真實內部數據集和大型公共數據集上進行了廣泛的實驗。全面的實證結果和深入的分析證明了我們提出的方法的有效性,以及我們從中學到的經驗。
這本開放獲取的書籍討論了超圖計算的理論和方法。許多數據之間的底層關系可以用圖表來表示,例如在計算機視覺、分子化學、分子生物學等領域。在過去的十年中,人們開發了基于圖的學習和神經網絡方法來處理這類數據,它們特別適合處理關系學習任務。然而,在許多實際問題中,我們關心的對象之間的關系比兩兩之間的關系更復雜。簡單地將復雜的關系壓縮為兩兩的關系必然會導致信息的丟失,這些信息對于學習任務來說可以預期是有價值的。超圖作為圖的一種延伸,已經顯示出與圖相比在建模復雜關系方面的優越性能。近年來,超圖相關的AI方法的研究越來越受到歡迎,這些方法已經被用于計算機視覺、社交媒體分析等。我們將這些嘗試總結為一種新的計算范式,稱之為超圖計算,其目標是使用超圖來表述數據底層的高階關聯,然后針對不同的應用在超圖上進行語義計算。這本書的內容包括超圖計算范式、超圖建模、超圖結構演化、超圖神經網絡以及超圖計算在不同領域的應用。我們在這本書中進一步總結了超圖計算的近期成就和未來的發展方向。
//link.springer.com/book/10.1007/978-981-99-0185-2
平面非結構化點的輪廓和形狀重建是一個基本問題,在許多應用中引起了幾十年的研究興趣。涉及的方面包括處理開放、尖銳、多重和非流形輪廓、運行時間和可證明性,以及擴展到3D表面重建的潛力,這導致了許多不同的算法。眾多的重構方法,其優點和重點各不相同,這使得用戶很難為其特定的問題選擇合適的算法。在本教程中,我們詳細介紹了接近圖、基于圖的算法、具有采樣保證的算法。然后,我們展示了針對特定問題類別的算法,例如從噪聲、異常值或尖角重建。評估的示例將展示其結果如何指導用戶為其輸入數據選擇適當的算法。作為一個特殊的應用程序,我們展示了從草圖中重建的線,這些線可以彼此相交。點狀圖案的形狀表征將作為一個與邊界重建密切相關的附加字段顯示出來。
圖是一種普遍存在的數據類型,出現在許多現實世界的應用中,包括社會網絡分析、建議和財務安全。盡管這很重要,但幾十年的研究已經發展出了豐富的計算模型來挖掘圖表。盡管它很繁榮,但最近對潛在的算法歧視的擔憂有所增長。圖上的算法公平性是一個有吸引力但又具有挑戰性的研究課題,它旨在減輕圖挖掘過程中引入或放大的偏差。第一個挑戰對應于理論挑戰,圖數據的非IID性質不僅可能使許多現有公平機器學習研究背后的基本假設失效,而且還可能基于節點之間的相互關聯而不是現有公平機器學習中的公平定義引入新的公平定義。第二個挑戰是關于算法方面的,目的是理解如何在模型準確性和公平性之間取得平衡。本教程旨在(1) 全面回顧最先進的技術,以加強圖的算法公平,(2) 啟發開放的挑戰和未來的方向。我們相信本教程可以使數據挖掘、人工智能和社會科學領域的研究人員和從業者受益。 //jiank2.web.illinois.edu/tutorial/kdd22/algofair_on_graphs.html
Introduction
Background and motivations * Problem definitions and settings * Key challenges * Part I: Group Fairness on Graphs
Fair graph ranking * Fair graph clustering * Fair graph embedding * Part II: Individual Fairness on Graphs
Optimization-based method * Ranking-based method * Part III: Other Fairness on Graphs
Counterfactual fairness * Degree-related fairness * Part IV: Beyond Fairness on Graphs
Related problems * Explainability * Accountability * Robustness * Part V: Future Trends
Fairness on dynamic graphs * Benchmark and evaluation metrics * Fairness vs. other social aspects
對結構化數據進行少樣本學習可能是在現實生活中部署AI模型的基本要求。在經典的監督ML設置中,我們可以獲得大量的標有標簽的樣本,這在現實環境中通常不是這樣——一些例子是生化、健康、社會或天氣環境。其中許多可以用圖形表示,因此結構在設計能夠成功處理這些場景的方法時也扮演著關鍵角色。因此,充分利用少數可用的標簽并使我們的模型能夠利用這些信息通常是很重要的,以便獲得與通過數據需求方法獲得的相同好的表示。該演講展示了兩件工作,從不同的角度解決了這個問題:場景圖生成中新穎合成的圖密度感知損失(Knyazev et al., 2020)和消息傳遞神經過程(Cangea & Day et al., 2020)。
//catalinacangea.netlify.app/talk/roaidays_nov21/
能夠解釋機器學習模型的預測在醫療診斷或自主系統等關鍵應用中是很重要的。深度非線性ML模型的興起,在預測方面取得了巨大的進展。然而,我們不希望如此高的準確性以犧牲可解釋性為代價。結果,可解釋AI (XAI)領域出現了,并產生了一系列能夠解釋復雜和多樣化的ML模型的方法。
在本教程中,我們結構化地概述了在深度神經網絡(DNNs)的背景下為XAI提出的基本方法。特別地,我們提出了這些方法的動機,它們的優點/缺點和它們的理論基礎。我們還展示了如何擴展和應用它們,使它們在現實場景中發揮最大的作用。
本教程針對的是核心和應用的ML研究人員。核心機器學習研究人員可能會有興趣了解不同解釋方法之間的聯系,以及廣泛的開放問題集,特別是如何將XAI擴展到新的ML算法。應用ML研究人員可能會發現,理解標準驗證程序背后的強大假設是很有趣的,以及為什么可解釋性對進一步驗證他們的模型是有用的。他們可能還會發現新的工具來分析他們的數據并從中提取見解。參與者將受益于技術背景(計算機科學或工程)和基本的ML訓練。
目錄內容:
Part 1: Introduction to XAI (WS) 可解釋人工智能
Part 2: Methods for Explaining DNNs (GM) 可解釋深度神經網絡方法
Part 3: Implementation, Theory, Evaluation, Extensions (GM) 實現,理論、評價
Part 4: Applications (WS) 應用