人類的視覺系統證明,用極少的樣本就可以學習新的類別;人類不需要一百萬個樣本就能學會區分野外的有毒蘑菇和可食用蘑菇。可以說,這種能力來自于看到了數百萬個其他類別,并將學習到的表現形式轉化為新的類別。本報告將正式介紹機器學習與熱力學之間的聯系,以描述遷移學習中學習表征的質量。我們將討論諸如速率、畸變和分類損失等信息理論泛函如何位于一個凸的,所謂的平衡曲面上。我們規定了在約束條件下穿越該表面的動態過程,例如,一個調制速率和失真以保持分類損失不變的等分類過程。我們將演示這些過程如何完全控制從源數據集到目標數據集的傳輸,并保證最終模型的性能。
圖神經網絡(GNNs)是針對圖信號的信息處理體系結構。它們已經被開發出來,并在本課程中作為卷積神經網絡(CNNs)的推廣來介紹,它被用來在時間和空間上處理信號。這句話聽起來可能有些奇怪,這取決于你對神經網絡(NNs)和深度學習的了解程度。CNN不就是NN的特例嗎?GNN不也是這樣嗎?從嚴格意義上說,它們是存在的,但我們這門課的重點是涉及高維信號的大規模問題。在這些設置中,神經網絡無法伸縮。CNN為信號在時間和空間上提供可擴展的學習。GNNS支持圖信號的可擴展學習。
在本課程中,我們將在學習單特征和多特征GNN之前,介紹圖卷積濾波器和圖濾波器組。我們還將介紹相關的架構,如經常性的GNN。特別的重點將放在研究GNN的排列的等方差和圖變形的穩定性。這些特性提供了一個解釋的措施,可以觀察到的良好性能的GNNs經驗。我們還將在大量節點的極限范圍內研究GNN,以解釋不同節點數量的網絡間GNN的可遷移性。
Lecture 1: Machine Learning on Graphs 圖機器學習
圖神經網絡(GNNs)是一種具有廣泛適用性和非常有趣的特性的工具。可以用它們做很多事情,也有很多東西需要學習。在第一節課中,我們將回顧本課程的目標并解釋為什么我們應該關注GNN。我們還提供了未來的預覽。我們討論了在可擴展學習中利用結構的重要性,以及卷積是如何在歐幾里得空間中實現這一點的。我們進一步解釋如何將卷積推廣到圖,以及隨后將卷積神經網絡推廣到圖(卷積)神經網絡。
1.1 – Graph Neural Networks 圖神經網絡
在這門課程中,我希望我們能夠共同完成兩個目標。您將學習如何在實際應用程序中使用GNNs。也就是說,您將開發使用圖神經網絡在圖上表述機器學習問題的能力。你將學會訓練他們。你將學會評估它們。但你也會學到,你不能盲目地使用它們。你將學習到解釋他們良好的實證表現的基本原理。這些知識將允許您確定GNN適用或不適用的情況。
1.2 Machine Learning on Graphs: The Why 圖機器學習
我們關心GNN是因為它們使機器能夠在圖上學習。但我們為什么要關注圖機器學習呢?我們在這里詳述圖機器學習的原因。它為什么有趣?我們為什么要關心這個?我們關心的原因很簡單:因為圖表在信息處理中無處不在。
1.3 – Machine Learning on Graphs: The How
在討論了原因之后,我們來處理如何做。我們如何在圖上進行機器學習?這個問題的答案很簡單:我們應該使用神經網絡。我們應該這樣做,因為我們有豐富的經驗和理論證據證明神經網絡的價值。理解這些證據是本課程的目標之一。但在我們準備這么做之前,有一個潛在的阻礙因素:神經網絡必須利用結構來實現可擴展。
來自深度學習數學夏季學校2020的第二節課:深度神經網絡,介紹了深度學習歷史、神經網絡等知識點。
來自深度學習數學夏季學校2020的第一節課:深度學習即統計學習,介紹了深度學習與統計學習一系列的關系知識點。
來自DeepMind研究人員Feryal Behbahani, Matt Hoffman 和 Bobak Shahriari講解的強化學習教程。
專注于識別和解決應用中出現的凸優化問題。凸集、函數和優化問題。凸分析基礎。最小二乘、線性和二次規劃、半定規劃、極大極小、極值體積等問題。最優性條件,對偶理論,備選定理,及應用。內點法。應用于信號處理,統計和機器學習,控制和機械工程,數字和模擬電路設計,和金融。
人類的視覺系統證明,用極少的樣本就可以學習新的類別;人類不需要一百萬個樣本就能學會區分野外的有毒蘑菇和可食用蘑菇。可以說,這種能力來自于看到了數百萬個其他類別,并將學習到的表現形式轉化為新的類別。本報告將正式介紹機器學習與熱力學之間的聯系,以描述遷移學習中學習表征的質量。我們將討論諸如速率、畸變和分類損失等信息理論泛函如何位于一個凸的,所謂的平衡曲面上。我們規定了在約束條件下穿越該表面的動態過程,例如,一個調制速率和失真以保持分類損失不變的等分類過程。我們將演示這些過程如何完全控制從源數據集到目標數據集的傳輸,并保證最終模型的性能。
【導讀】如何進一步理解貝葉斯分類器以及與互信息分類器的區別是機器學習中的重要基礎知識。涉及到的基礎問題一是處理不平衡數據背后的數學原理是什么。二是如何驗證貝葉斯大腦猜想。本章給出了初步研究進展。
美籍華人學者周紹康(Chow,C.K.)1957年開創式將貝葉斯方法引入模式識別研究中,其它重要學術貢獻還有:融合拒識智能決策于分類問題中與共同提出“周-劉”樹的方法。這些都是創造知識的經典范例。本人正是受益于他1970年研究工作并擴展為不同拒識閾值(T_r1≠T_r2)情況下導出新的理論公式,更具一般性和圖解釋性(第13,14,16頁)。目前教科書中通常是以單交叉點圖(第14頁中圖)示意二值分類。其中三個定理擴充了機器學習與信息理論方面的基礎知識。第一定理給出了不平衡數據下貝葉斯分類器將失效的證明。第二定理給出了代價矩陣中獨立參數個數。這是參數可辨識性(即關于模型參數能否被惟一確定性質)研究內容。定理證明中應用了復合函數中獨立參數個數上界是其中最小尺寸參數集的維數,可以理解為木桶原理中的短板決定木桶容量。該方式證明有利于延伸到對多類分類代價矩陣中獨立參數個數的理解。第三定理給出了第二章中第3作業的解答。應用修正互信息定義不僅可以簡單地解決問題,在非拒識情況下與原始互信息定義等價。它是否會引入其它問題還值得讀者思考。
如果將貝葉斯分類與互信息分類視為兩種不同數學原理,如第5章中第13頁,代表了兩種不同驅動力機制(力學方式思考)。要理解第44頁中給出的例題為回答上面兩個基礎問題很有意義。處理不平衡數據要求小類樣本被多數正確識別(第1章中第38頁)。例題數值結果表明貝葉斯分類器是失效的。這樣一個反例即可以推翻貝葉斯為大腦統一理論的猜想。例題的重要發現是熵原理支撐了“物以稀為貴”這樣的分類決策(第54-55頁)。另一方面我們要理解證實某數學原理為統一理論則必須要窮舉。這通常是無法做到的。本人建議應用“猜想(conjecture)”的說法(如第1章第33頁)。這部分仍然需要讀者質疑”。對于大數據下的不平衡數據學習,對應代價敏感學習我們首次提出了代價缺失學習(即沒有代價方面信息)。雖然已經有其它的代價缺失學習方法(如AUC, 幾何平均等),但是只有互信息分類器能夠處理拒識學習(第57頁)。建議要思考這個“獨門絕技”方法的內涵。信息論不僅能夠深化解釋性,而且還為發展新的工具提供原理性的方法。
第30,43頁: 解釋為什么在拒識分類中應用代價矩陣會有解釋不一致性問題。這里以二值分類為例,會存在兩組參數是代表了同一個分類器。而第一組對應了誤差代價固定且相同,只是拒識代價不同。第二組對應了拒識代價固定且相同,只是誤差代價不同。這種現象被稱為解釋不一致性。由此會在應用中產生混亂的解釋結果。而應用拒識閾值可以獲得唯一解釋性。
第32頁: 希望同學們明白知識創新并非只是“高大上”的產物,只要是有心人,是可以預期獲得的。由張曉晚博士發展的的拒識分類ROC曲線(第32頁中右圖)就是這樣的實例。這是可以進入機器學習教科書中嶄新基礎知識。已有研究是應用三維方式描述拒識情況。而二維ROC曲線不僅常規應用,而且解釋性更直接與簡單(相關點給出的斜率計算公式解釋與獨立參數個數的解釋)。要理解對于同一個ROC曲線,左右圖是有關聯的。左圖只是右圖中拒識率為零的特殊情況。另一方面,左圖ROC曲線中黑點位置應該位于右圖ROC兩個黑點之間的曲線中(滿足第13頁中不等式關系)。為避免數據構成的ROC經驗曲線導出代價矩陣中有負值情況,應用中采用ROC凸包曲線(ROCCH,第49頁)常規方法。
第45,52頁: 應用互信息分類器可以根據數據分布獲得拒識閾值方面的信息。考慮到拒識分類常規應用中人們習慣應用代價矩陣。我們提出了代價矩陣計算方法,并保證解釋一致性。該方法提出了兩步計算方式。第一步是應用互信息分類器對數據按照非拒識分類計算,計算結果可以唯一確定一個代價參數。第二步 是應用互信息分類器對數據按照拒識分類計算,獲得拒識閾值具體值兩個(T_r1與T_r2)。根據第13頁中拒識閾值與代價參數之間的關系,以及其中四個代價參數已知(見第45頁),可以唯一確定剩余兩個固定代價參數。由此確保代價矩陣是唯一結果,實現了解釋一致性。
作業:
在第32頁左圖中,當類別趨于極端不平衡情況時,貝葉斯分類器會位于ROC曲線中的什么位置?互信息分類器結果會怎樣?
討論題:第54頁中是基于“物以稀為貴”語義的分類討論,有否應用中會與此相反?這時應該建議什么樣的學習目標?
思考題(第58頁):拒識分類是人類決策中的重要智能方式之一。你會怎樣找出優化方式的拒識閾值?人們一般是這樣給出嗎?
【導讀】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美國紐約舉辦。遷移學習近年來受到了非常大的關注,今年AAAI也有很多相關論文,這場Tutorial全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,還討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示,是一個非常全面的遷移表示學習總結,講者最后也介紹了其未來發展趨勢,值得研究者關注和收藏。
遷移表示學習最新進展
Recent Advances in Transferable Representation Learning
Tutorial 目標
本教程針對有興趣將深度學習技術應用于跨域決策任務的AI研究人員和從業人員。這些任務包括涉及多語言和跨語言自然語言處理,特定領域知識以及不同數據模式的任務。本教程將為聽眾提供以下方面的整體觀點:(i)針對未標記的文本,多關系和多媒體數據的多種表示學習方法;(ii)在有限的監督下跨多種表示對齊和遷移知識的技術;以及(iii)在自然語言理解,知識庫和計算生物學中使用這些技術的大量AI應用程序。我們將通過概述該領域未來的研究方向來結束本教程。觀眾不需要有特定的背景知識。
概述
許多人工智能任務需要跨域決策。例如,許多NLP任務涉及跨多種語言的預測,其中可以將不同的語言視為不同的域;在人工智能輔助的生物醫學研究中,藥物副作用的預測常常與蛋白質和有機體相互作用的建模并行進行。為了支持機器學習模型來解決這種跨域任務,必須提取不同域中數據組件的特征和關系,并在統一的表示方案中捕獲它們之間的關聯。為了滿足這一需求,表示學習的最新進展往往涉及到將不同域的未標記數據映射到共享嵌入空間。這樣,跨域的知識遷移可以通過向量搭配或變換來實現。這種可遷移的表現形式在涉及跨域決策的一系列人工智能應用中取得了成功。然而,這一領域的前沿研究面臨兩大挑戰。一是在學習資源很少的情況下如何有效地從特定領域中提取特性。另一個是在最少的監督下精確地對齊和傳遞知識,因為連接不同域的對齊信息常常是不充分和有噪聲的。
在本教程中,我們將全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,我們還將討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示。我們還將比較域內嵌入算法和跨域對齊算法的改進和聯合學習過程。此外,我們將討論如何利用獲得的可遷移表征來解決低資源和無標簽的學習任務。參會者將了解本主題的最新趨勢和挑戰,了解代表性工具和學習資源以獲取即用型模型,以及相關的模型和技術如何有益于現實世界AI應用程序。
講者介紹
Muhao Chen目前是美國賓夕法尼亞大學研究生院博士后。他于2019年在加州大學洛杉磯分校獲得了計算機科學博士學位。Muhao從事過機器學習和NLP方面的各種課題。他最近的研究也將相關技術應用于計算生物學。更多信息請訪問//muhaochen.github.io。
Kai-Wei Chang是加州大學洛杉磯分校計算機科學系的助理教授。他的研究興趣包括為大型復雜數據設計魯棒的機器學習方法,以及為社會公益應用程序構建語言處理模型。其他信息請訪問
Dan Roth是賓夕法尼亞大學CIS的Eduardo D. Glandt Distinguished Professor,也是AAAS、ACM、AAAI和ACL的Fellow。Roth因在自然語言理解建模、機器學習和推理方面的重大概念和理論進展而被認可。更多信息可以參考: /.