業界和學界對知識圖譜的關注主要集中于兩大領域,分別是知識圖譜的構建和知識圖譜的應用。前者聚焦于通過對結構化、非結構化數據的整合,實現統一形式的數據存儲;后者則著眼于通過算法對海量知識圖譜數據進行學習與挖掘,從而推理出新的知識,服務于具體行業應用。知識圖譜推理在其中發揮了重要作用,被譽為知識圖譜領域的皇冠。
CS224W圖機器學習課程講述了《知識圖譜推理》最新進展PPT。
這門課程是斯坦福大學計算機科學系開設的 2021 春季課程,共分 10 節完成,每周一節。首節課程開始于 2021 年 3 月 30 日。
課程主頁://web.stanford.edu/class/cs520/
課程概況
知識圖譜逐漸成為互聯網上組織世界結構化知識的有力抽象化方式,它能夠捕捉企業間關鍵實體之間的關系,并整合來自多個數據源的信息。知識圖譜還開始在機器學習和自然語言處理領域發揮重要作用,它不僅可以納入世界知識作為所提取知識的目標知識表征,還能用來解釋學習到的內容。
然而,有關知識圖譜的專門課程相對較少。不過,對此感興趣的讀者不用著急,斯坦福春季課程 CS520《知識圖譜》目前已經結束,并放出了全部授課視頻。
斯坦福 CS520《知識圖譜》課程聚集了知識圖譜不同分支的研究者和業界從業者。它將展示 AI、數據庫系統以及 HCI 的最新研究與以知識圖譜為中心的集成智能系統的協同發展。
這門課程的組織者是:Vinay K. Chaudhri、Naren Chittar 和 Michael Genesereth。
其中 Vinay K. Chaudhri 是斯坦福國際研究院(SRI International)人工智能中心主管。研究方向是大型知識庫系統的科學研究與工程開發,涉及知識表征和推理、問答、知識獲取和創新應用。他在 SRI 參與的 CALO 項目促進了蘋果 SIRI 的開發。在斯坦福大學,他講授「知識圖譜和推理」課程,還是期刊《應用本體論》(Applied Ontology)和《人工智能雜志》的編委會成員。Chaudhri 博士的專長是智能文檔、知識工程、邏輯教育和問答。
Naren Chittar 是數學科學、機器學習、搜索和推薦系統領域的專家。他創辦的大規模趨勢預測和 AI 支持虛擬智能體 Minhash 被 Salesforce 收購。Naren Chittar 擁有多項推薦系統、圖像搜索、圖像質量和語音識別領域的專利,并發表了大量論文。
Michael Genesereth 是斯坦福大學計算機科學系教授、斯坦福大學法學院客座教授。他在 MIT 獲得物理學理學學士,并在哈佛大學獲得應用數學博士學位。Genesereth 最著名的工作是計算邏輯及其在企業管理、計算法和全局游戲策略中的應用。他既是 Teknowledge、CommerceNet、Mergent Systems 和 Symbium 的創始人之一,也是斯坦福邏輯研究組(Stanford Logic Group)負責人、斯坦福法律信息中心 CodeX 的創始人和研究主管。
課程內容:
每節課程的主要內容和授課講師具體如下:
Class 1:什么是知識圖譜?
Class 2:What are some Knowledge Graph data models?
Class 3:How to design the schema of a Knowledge Graph?
Class 4:How to create a Knowledge Graph from Data?
Class 5:How to create a Knowledge Graph from Text?
Class 6:What are some inference algorithms for Knowledge Graphs?
Class 7:How do users interact with a Knowledge Graph?
Class 8:How to evolve a Knowledge Graph?
Class 9:What are some high value use cases of Knowledge Graphs?
Class 10:How are Knowledge Graphs related to AI?
相比CNN、RNN等成熟技術而言,GNN還處于探索階段,Graph之于GNN,不如圖像之于CNN、自然語言之于RNN那樣理所當然。即便有Graph數據,如何使用GNN沒有可遵循的固定模式,更沒有沉淀下來的類似卷積一樣的算子可直接調用。GNN的有效性需要更多的場景去驗證,而每一個場景都需要開發者的深入理解,開發者有能力處理Graph數據和編寫之上的深度學習模型。有了百花齊放的應用場景做鋪墊,才有可能抽象出共性的GNN算子和算法,再將這些相對成熟的能力賦給使用者,GNN才會真正的推廣開來。出于這些考慮,比起開發一個成熟算法供用戶使用,平臺當前階段會更側重提供API給開發者,讓開發者有能力貼近自己的場景去實現GNN。
另一方面,工業場景中的Graph數據十分復雜,而且數據量巨大。平臺不能脫離場景而獨立存在,必須以業務為驅動,才最可能孵化出有實際價值的產品。以阿里巴巴的電商推薦場景為例,每天的產生的圖數據多達幾百TB,而且高度異構(多種類型的頂點、多種類型的邊),頂點和邊具有豐富的屬性,諸如商品的名稱、類目、價格區間,甚至是其關聯的圖像、視頻等,這些屬性以明文存在而非已經向量化好的結構化信息。以這樣的數據為輸入,如何高效的進行GNN訓練是一個非常有挑戰的問題。如果使用數據預處理、預訓練等手段把Graph數據結構化、向量化,會耗費大量的計算資源、存儲資源和人力成本。真正對GNN開發者友好的平臺,應該是端到端的,在一套IDE里,用戶既可以操作復雜的Graph數據,又可以將數據與深度神經網絡對接,自由編寫上層模型。平臺提供簡單靈活的接口,滿足GNN高速發展所需的可擴展性與生態的兼容性,和針對復雜的分布式環境的大規模與穩定性。
Graph-Learn(GL,原AliGraph) 是面向大規模圖神經網絡的研發和應用而設計的一款分布式框架, 它從實際問題出發,提煉和抽象了一套適合于當下圖神經網絡模型的編程范式, 并已經成功應用在阿里巴巴內部的諸如搜索推薦、網絡安全、知識圖譜等眾多場景。
斯坦福CS224W《圖機器學習》2021課程開始了!Jure Leskovec大牛主講,附課程PPT下載
圖機器學習講述關于《圖神經網絡GNN高級主題》最新課程。
近年來,一些研究人員致力于把神經網絡模型遷移到圖數據這類非歐空間數據上,提出了圖神經網絡(GNN)模型,成功應用在半監督節點分類、圖分類、推薦系統、交通預測、知識推理等任務中。本課程講述了圖神經網絡的高級主題:
圖神經網絡局限性
位置感知圖神經網絡
身份感知圖神經網絡
圖神經網絡魯棒性
問答(QA)是自然語言處理中最早的核心問題之一,并且在許多現實世界的應用(例如搜索引擎和個人助理)中發揮了重要作用。開放域問答在最近幾年重獲關注,它通常基于大量非結構化文檔的收集,旨在自動回答人類以自然語言形式提出的問題。
//web.stanford.edu/class/cs224n/index.html#schedule
近年來,知識圖譜(KG)的構建和應用得到了快速的發展。大量的KGs,如Freebase、DBpedia、YAGO和NELL,已經被創建并成功地應用于許多實際應用中,從語義解析和命名實體消歧到信息提取和問答。KG是由實體(節點)和關系(不同類型的邊)組成的多關系圖。每條邊都表示為形式(頭實體、關系、尾實體)的三個部分,也稱為事實,表示兩個實體通過特定的關系連接在一起,例如(AlfredHitchcock, DirectorOf, Psycho)。雖然在表示結構化數據方面很有效,但是這類三元組的底層符號特性通常使KGs很難操作。
為了解決這個問題,提出了一種新的研究方向——知識圖譜嵌入。關鍵思想是嵌入KG的組件,包括將實體和關系轉化為連續的向量空間,從而簡化操作,同時保留KG的原有的結構。那些實體和關系嵌入能進一步應用于各種任務中,如KG補全、關系提取、實體分類和實體解析。
圖機器學習講述關于《圖神經網絡理論》最新課程。
圖網絡(GNNs)的新變體層出不窮,但是卻鮮有對圖網絡框架的理論分析。Kipf在2017年提出的GCN中,曾從圖上的譜分析的角度給出了GCN的理論基礎;近期也有日本研究者從圖信號處理的角度,表明GNNs只是一個低頻濾波器(arxiv.org/abs/1905.09550)。而本文嘗試從圖同構的角度出發,以Weisfeiler-Lehman Isomorphism Test (WL test)為基礎,給出了GNNs表征能力的精彩理論分析,具體的貢獻總結如下:
作者表明,在區別不同圖結構時,GNNs最多只能取得和 WL test 一樣效果,即,GNNs表征能力的上限是WL test;
作者也給出了構建GNNs的條件,滿足這些條件后,GNNs的表征能力和 WL test一樣強;
給出了GCN和GraphSAGE等傳統圖網絡框架不能區分的網絡結構;
建立了一個簡單的框架GIN,并在理論上證明了其表征能力和 WL test一樣強。
總結起來,全文需要回答兩個關鍵性的問題:
【導讀】本文為大家帶來了一份斯坦福大學的最新課程CS224W——圖機器學習,主講人是斯坦福大牛Jure Leskovec,他是斯坦福大學計算機學院的副教授,也是圖表示學習方法 node2vec 和 GraphSAGE 作者之一。
近年來,圖神經網絡(GNN)成為網絡表示學習和分析的熱點研究問題,其特點是將以神經網絡為代表深度學習技術用于網絡結構的建模與計算。圖神經網絡能夠考慮網絡中的節點、邊及其附帶的標簽、屬性和文本等信息,能夠更好地利用網絡結構進行精細建模和深度推理,已經被廣泛用于自然語言處理、社會網絡分析、推薦系統等領域。這個課程應該是近年來第一次全面總結圖機器學習相關的課程,課程設置非常新穎也非常全面,包括近年來火熱的圖神經網絡的局限和應用等等,課程全部的PPT 也已經放到網頁上,希望做這方面研究的童鞋多多學習!
原始鏈接: //web.stanford.edu/class/cs224w/
1 課程介紹
網絡是建模復雜的社會、技術和生物系統的基本工具。結合在線社交網絡的出現和生物科學中大規模數據的可用性,本課程著重分析大規模網絡,這些大型網絡提供了一些計算、算法和建模方面的挑戰。通過研究學生潛在的網絡結構和相互聯系,向他們介紹機器學習技術和數據挖掘工具,這些工具有助于揭示社會、技術和自然世界的真知灼見。
復雜數據可以表示為對象之間的關系圖。這種網絡是模擬社會、技術和生物系統的基本工具。本課程著重于大量圖的分析所特有的計算、算法和建模挑戰。通過研究基礎圖結構及其特征,向學生介紹機器學習技術和數據挖掘工具,有助于揭示對各種網絡的見解。
主題包括: 表示學習和圖神經網絡;萬維網的算法;知識圖推理;影響力最大化;疾病爆發檢測,社會網絡分析。
2 講師介紹
Jurij Leskovec
主講人是圖網絡領域的大牛Jure Leskovec,是斯坦福大學計算機學院的副教授,也是圖表示學習方法 node2vec 和 GraphSAGE 作者之一。在谷歌學術搜索(Google Scholar)上,Jure擁有接近4.5萬的論文引用數量,H指數為84。
Leskovec的研究重點是對大型社會和信息網絡進行分析和建模,以研究跨社會,技術和自然世界的現象。他專注于網絡結構、網絡演化、信息傳播、影響和病毒在網絡上的傳播的統計建模。他所研究的問題是由大規模數據、網絡和其他在線媒體引起的。他也致力于文本挖掘和機器學習的應用。
個人主頁:
3 課程目錄
4 課程材料預覽
Graph Representation Learning by William L. Hamilton Networks, Crowds, and Markets: Reasoning About a Highly Connected World by David Easley and Jon Kleinberg Network Science by Albert-László Barabási
計算機科學正在發展,以利用新的硬件,如GPU、TPUs、CPU和大型商品集群。許多子領域,如機器學習和優化,已經調整了它們的算法來處理這樣的集群。
課程主題包括分布式和并行算法: 優化、數值線性代數、機器學習、圖分析、流式算法,以及其他在商用集群中難以擴展的問題。該類將重點分析程序,并使用Apache Spark和TensorFlow實現一些程序。
本課程將分為兩部分: 首先,介紹并行算法的基礎知識和在單多核機器上的運行時分析。其次,我們將介紹在集群機器上運行的分布式算法。
地址: //stanford.edu/~rezab/dao/
主講:
Reza Zadeh是斯坦福大學計算與數學工程學院的客座教授,同時也是Matroid公司的CEO。他的主要工作集中于機器學習理論與應用,分布式計算,以及離散數學。
課程目錄: