隨著機器學習系統逐漸成為我們日常生活的組成部分,尤其是基礎模型的顯著進步,我們必須評估它們的可信性、公平性,并探索改進這些關鍵方面的方法。本論文探討了機器學習模型性能、魯棒性和公平性的測量與提升。此外,我們還研究了這些系統在新應用領域的設計和部署,并將這些指標作為重要目標。
本論文旨在使機器學習在總體上變得更加可信和強大。第一個主題是評估機器學習模型的魯棒性和公平性及其改進策略。我們的方法結合了分布魯棒優化(DRO)和人類難以察覺的對抗攻擊,同時提高了模型的魯棒性和公平性。通過分析機器學習系統的魯棒性和公平性,我們直觀地將機器感知與人類感知更接近。除了魯棒性和公平性之外,我們還研究了梯度流方法,以緩解數據稀缺問題,并在少樣本學習環境中提高分類系統的性能。我們證明了梯度流方法能夠全局收斂,并且在下游遷移學習任務中展示了其生成有用數據樣本的能力。
最后,我們專注于機器學習算法在材料科學領域的創新應用。具體來說,我們設計了機器學習系統來加速分子模擬中罕見事件的采樣。與傳統采樣方法相比,我們的方法在速度上有顯著提高,同時對這些罕見事件的概率估計也更加魯棒。
在整個論文中,我們展示了機器學習在多個方面的改進,包括公平性和魯棒性。我們還展示了它在傳統應用如機械模擬中的強大能力。未來的工作將擴展這些系統,以應對更復雜和更高維度的挑戰。通過不斷的努力,本論文為開發更加可靠和強大的機器學習系統做出了貢獻。。
生成建模已經成為人工智能的一個熱門應用。然而,當生成模型被錯誤指定,或當生成模型估計器被修改以遵守差分隱私等隱私概念時,模型性能可能會受到負面影響。在本論文中,我們通過展示四項不同的研究,探討了模型錯誤指定和差分隱私下的生成建模。
我們首先介紹了生成建模的相關工作。隨后,我們深入探討了在模型錯誤指定和差分隱私挑戰下研究生成建模的必要性。
作為初步貢獻,我們考慮了用于密度估計的生成建模。處理模型錯誤指定的一種方法是放寬模型假設。我們展示了這一方法在非參數模型中也具有幫助作用。具體而言,我們研究了一種最近提出的非參數準貝葉斯密度估計器,并發現其強模型假設是有限數據集下表現不佳的原因。我們提出了一種自回歸擴展,放寬模型假設,以允許先驗特征依賴關系。
接下來,我們考慮了用于缺失值填補的生成建模。在將當前深度生成填補方法分類為Rubin [1976]引入的不可忽略缺失模型類之后,我們擴展了變分自編碼器的公式,使其根據深度生成建模文獻中尚未研究過的不可忽略缺失模型類進行分解。這些模型顯式地對缺失機制進行建模,以防止在缺失值非隨機情況下的模型錯誤指定。
然后,本論文集中于提高差分隱私下的合成數據生成。為此,我們提出了對差分隱私合成數據樣本進行差分隱私重要性采樣的方法。我們觀察到,生成模型越好,重要性采樣的幫助越大。接著,我們通過考慮差分隱私擴散模型,進一步提高數據生成質量。我們識別了顯著提高DP圖像生成器性能的訓練策略。 我們在論文的最后進行了討論,包括對所展示工作的貢獻和局限性,并提出了未來工作的潛在方向。
在過去的十年里,經典機器學習與現代機器學習之間的差距不斷擴大。現代學習的預測性能不可比擬地更好,但更容易對經典學習進行分析,并保證其安全性、效率、公平性等特性。在本論文中,我探討了通過審慎和戰略性地結合經典技術,是否有可能將這些期望的特性恢復到現代機器學習中。我將經典與現代學習的結合歸納為兩種高級策略:(1)封裝,即通過經典分析技術從現代的、不透明的模型中提取可靠的性能保證,或(2)替換,即從經典的基礎構建現代模型的某些組件,以提高整體的效率、可處理性和/或表達能力。這些努力在機器學習的多個領域帶來了新的進展。本論文的最重要貢獻涉及元分析,這是一種結構化的問答形式,作為循證醫學的基礎。經典元分析技術基于隨機對照試驗,其因果效度受到信任;相比之下,現代回歸模型是在大型觀察性數據庫上訓練的,其因果效度不被信任。我展示了如何在不犧牲效度的情況下將不可信的數據納入元分析中。這涉及對完全共形預測的基本改進,這些改進具有普遍的意義。在一個更聚焦的醫療保健應用中,我推廣了經典的、手工設計的心率變異性統計,使其能夠通過監督學習進行微調,成為深度神經網絡的一部分,從而生成更準確的、生理學知情的模型。我還提出了一些可以在未來機器學習模型和算法中使用的基礎計算原語。第一個是一種算法,可以在O(log T)的并行時間內(近似)運行T步非線性RNN。該算法的關鍵創新在于通過一種證明一致的局部、可并行修正方案,用深度上的非線性替代時間上的非線性。通過這種方式,經典線性動態系統(也稱為狀態空間模型)可以堆疊起來形成快速的非線性序列模型。另一個新的計算原語是在所有正交多項式序列集合上進行基于梯度的優化。這種優化形式與信號處理和優化中的許多不同問題都有聯系。最后,我提出了基于學習理論和優化中廣泛使用的幾何邊界概念的公平性標準,以規避計算的不可處理性。
這篇論文探討了自動化推理和大型語言模型(LLMs),通過創新算法研究如何提高這兩個領域的效率和有效性。論文由三個主要部分組成,每一部分都關注人工智能的不同但相互關聯的方面。 在第一部分,論文深入探討了自動化推理領域,該領域通過計算方法模仿人類的邏輯推理。研究解決了該領域中的重大挑戰,特別是隨著問題復雜性的增加,計算需求呈指數級增長的情況。值得注意的是,這一部分強調了可滿足性模理論(SMT)方面的進展,重點是提高在復雜性增加時的解決效率。論文通過探索理論組合、代數數據類型和序列,貢獻了更高效的推理框架。
轉到第二部分,焦點轉向LLMs,它們在各種應用中變得至關重要,從內容生成到企業決策支持。盡管LLMs功能強大,但由于巨大的計算資源需求和用戶提示的多樣性,實現這些模型的高效部署仍是一個挑戰。這部分論文提出了新穎的算法和服務基礎設施,旨在優化LLMs的性能,特別是在減少延遲和提高實時應用吞吐量方面。創新如FlexGen和S-LoRA被引入,旨在使LLMs在個人計算設備上更加可用,并提供個性化的高吞吐量服務。這一部分還介紹了虛擬令牌計數器(VTC),一種新穎的公平調度算法,確保在高需求的LLM推理環境中公平分配資源,解決服務公平性的問題。
論文的第三部分將前兩部分橋接起來,展示了將形式驗證和代碼生成與LLMs集成的初步結果。該集成旨在利用兩個領域的優勢,創建更強大和多功能的AI系統。
引言
本論文展示了實現自動推理和大型語言模型(LLM)系統高效算法的幾種方法。本章將首先描述這兩個領域中的問題及其效率挑戰,然后概述論文中提出的研究貢獻。
1.1 問題與動機
1.1.1 符號推理與神經網絡
人工智能研究傳統上遵循兩種主要范式:符號推理和神經網絡。符號推理,也稱為符號AI,利用邏輯和知識表示來解決問題。這種方法在需要顯式規則和推理的任務中表現出色,但在處理復雜的非結構化數據時可能會遇到困難。相反,神經網絡則松散地受到大腦結構的啟發,擅長模式識別和從大量數據中學習。然而,神經網絡在推理過程中可能不透明,導致其可解釋性較差。隨著研究的進展,越來越多的研究集中在結合這兩種方法,利用符號推理和神經網絡的優勢,開發更強大和多功能的AI系統。為了充分利用每種方法的優勢,運行它們需要高效的算法和系統。在本論文中,我們首先分別關注加速自動推理的技術(第一部分)和加速大型語言模型推理的技術(第二部分)。然后,在第三部分中,我們展示了利用兩者力量的初步結果。 1.1.2 自動化推理與效率挑戰
自動化推理通過計算方法模擬人類邏輯推理的挑戰。該領域致力于開發能夠自動分析和操作邏輯表達式等形式化表示的算法。這種能力遠遠超出簡單計算,允許計算機處理具有復雜邏輯結構的問題。 自動化推理的應用領域與其解決的問題一樣多樣。在軟件和硬件設計中,自動化推理工具用于確保電路的正確性。通過分析組件之間的邏輯關系,這些工具可以識別設計中的潛在錯誤和邏輯不一致,防止在開發過程中出現昂貴的錯誤。同樣,自動化推理在形式驗證中也起著關鍵作用,這是一種通過數學證明關鍵系統中不存在錯誤的技術。在這里,自動化推理工具仔細分析系統的規范和行為,確保其遵循所需屬性,消除意外故障的可能性。 自動化推理的關鍵挑戰之一是解決時間問題。隨著所處理問題復雜性的增加,找到解決方案所需的計算資源可能呈指數級增長。這在可滿足性模理論(SMT)領域尤為突出,在該領域中,任務是確定給定的一階邏輯公式相對于背景理論(如線性算術或位向量)是否可滿足。SMT問題的解決時間可能高度可變,取決于具體理論、公式的復雜性以及底層SMT求解器的性能。自動化推理研究人員在開發更高效的算法和啟發式方法以應對這一挑戰方面取得了顯著進展,但該領域中許多問題的固有復雜性意味著解決時間仍然是一個關鍵考慮因素。
1.1.3 大型語言模型與服務挑戰
基礎模型,特別是大型語言模型(LLM),已成為各種應用的核心,徹底改變了各行業中任務的處理和執行方式。除了它們的功能外,LLMs已演變為廣泛使用的服務,受到從個人用戶到大型企業的多樣化客戶的采用。這種廣泛的應用在多個領域中尤為明顯,從個人助手和創意內容生成到高級企業數據分析和決策支持。盡管LLMs具有巨大的力量和能力,但關鍵在于利用它們的潛力來增強人類生活和生產力。 盡管大型語言模型(LLM)提供了引人注目的能力,但將其有效部署于實際應用中仍存在顯著挑戰。主要障礙在于硬件資源限制。LLMs由于其復雜的架構和龐大的參數空間,在推理過程中需要大量計算資源。此外,用戶提示的不確定性破壞了傳統的優化技術。與具有控制格式的訓練數據不同,用戶提示在長度和復雜性上可能有很大差異。此外,由于LLM生成的迭代性質,實現實時應用的低延遲和高吞吐量變得困難。與單步任務不同,LLM可能需要多次來回交流才能完成一個響應。這些因素需要開發專門的服務基礎設施和新穎的調度算法,以優化LLM性能并提供無縫的用戶體驗。
1.2 我們的方法
1.2.1 走向高效且具表現力的SMT求解
可滿足性模理論(SMT)求解在自動化推理中是一種強大的技術,專門解決結合命題邏輯和背景理論的問題。與只處理真假命題的經典命題邏輯不同,SMT結合了可判定的一階邏輯理論,如算術或等式約束。這允許對涉及整數、實數或特定數據結構的問題進行推理。SMT求解器通過系統地探索搜索空間,在指定的理論下評估公式的真值。由于將邏輯與這些理論相結合的內在復雜性,高效的求解算法和專門的決策過程對于解決現實世界的SMT問題至關重要。可滿足性模理論(SMT)求解的最新技術不斷發展,重點是提高效率和處理日益復雜的問題。盡管已經取得了令人矚目的進展,但對于高度復雜的SMT問題實現可處理的解決時間仍然是一個活躍的研究領域。 本論文的第一部分涵蓋了這一范圍內的三個研究課題,包括更好地理解和提高理論組合的效率以及利用代數數據類型和序列的兩種特定理論。在第二章中,我們對SMT中禮貌組合的研究做出了兩項貢獻。首先是一個困難結果,通過展示一個禮貌理論但不是強禮貌的例子,揭示了禮貌和強禮貌之間的區別。第二項貢獻是對禮貌組合方法的優化,借鑒了Nelson-Oppen方法。我們展示了在某些條件下,可以減少禮貌組合所需的枚舉安排的復雜性。在第三章中,我們研究了數據類型理論,并證明其是強禮貌的,展示了如何使用禮貌組合將其與其他任意不相交的理論相結合。在第四章中,我們介紹了一種用于推理向量的序列理論。與使用現有的數組理論相比,新的序列理論更具表現力,并且推理速度更快。
1.2.2 走向高效且公平的LLM服務
LLM的一個不可避免的方面是使其能夠被各個領域的更多用戶訪問。擴大訪問的目的是賦能各類個人和組織,使他們能夠利用這些強大的工具滿足其獨特的應用和需求。本論文的第二部分探討了如何提高LLM對所有用戶的可訪問性。自2022年底LLM在日常生活中被廣泛使用以來,對更易于訪問的LLM的需求不斷增長,這包括:(1)能夠在個人計算機上運行LLM,(2)訪問個性化服務,以及(3)需要公平的資源分配以防止重度用戶的壟斷。
第五章(FlexGen)旨在解決第一個需求:在個人計算機上運行LLM。由于高計算和內存需求,傳統上只能通過多個高級加速器實現,在內存有限的設備上運行LLM需要卸載,除了傳統的模型壓縮優化外。盡管激進的卸載會嚴重影響推理延遲,但FlexGen受到對批處理延遲不敏感任務的需求的驅動。它開始研究在有限資源下的高吞吐量LLM推理。它聚合了GPU、CPU和磁盤的內存和計算資源,并展示了如何在給定設置中獲得最佳的卸載策略。我們的方法也是第一個提出使用4位量化KV緩存的,這與卸載策略相結合,使吞吐量比以前的方法高出100倍。
第六章(S-LoRA)旨在解決第二個需求:個性化LLM服務。低秩適應(LoRA)技術可以提供高效的、任務特定的適應,從一個基礎模型中創建許多適配器,以實現成本效益高的個性化服務。LoRA適配器通過將適配器與模型參數合并來提供服務,這使得單個適配器的低延遲成為可能,但在同時服務多個適配器時會降低整體吞吐量。S-LoRA探索了LoRA適配器的可擴展服務,通過更好的內存管理、為異構批處理定制的CUDA內核和新穎的張量并行策略,實現了高吞吐量的多適配器服務。與之前的引擎相比,S-LoRA的吞吐量提高了4倍,服務的適配器數量增加了幾個數量級。
第七章(VTC)旨在解決第三個需求:公平地為用戶服務。LLM推理服務在高需求下處理各種請求。為了保持公平,大多數主要服務實施請求速率限制,防止任何單個客戶端壟斷隊列。然而,這種基本的公平方法在容量可用時可能導致服務未充分利用和客戶體驗不佳。我們展示了如何將傳統網絡和操作系統中的公平排隊概念應用于LLM服務領域,達到令牌粒度的公平性。我們定義了LLM服務中的公平性問題,并提出了虛擬令牌計數器(VTC)算法,這是一種具有理論保證的新型公平調度算法。廣泛的評估展示了VTC在保持公平性方面的有效性,與傳統方法相比,為更加公平高效的LLM服務系統鋪平了道路。
開發值得決策者信任的機器學習模型對于在實踐中使用這些模型至關重要。算法透明性工具,如可解釋性和不確定性估計,能夠向決策者展示模型的可信度。在本論文中,我們首先探討了從業者在工業界如何使用可解釋性。通過一項訪談研究,我們發現,盡管工程師們越來越多地使用可解釋性方法來測試開發過程中的模型行為,但這些方法在外部利益相關者中采用的情況卻有限。為此,我們為特定決策環境開發了新穎的算法透明性方法,并通過人類主體實驗與真實決策者一起測試這些方法。
我們首先提出DIVINE,一種基于示例的解釋方法,它不僅找到對模型參數有影響的訓練點,而且這些點在輸入空間中具有多樣性。我們展示了我們的解釋如何提高決策者模擬模型決策邊界的能力。接下來,我們討論反事實潛在不確定性解釋(CLUE),這是一種特征重要性解釋方法,識別出如果擾動輸入特征,將會減少模型在給定輸入上的不確定性。我們展示了決策者如何使用我們的解釋來識別模型在未見輸入上的不確定性。 盡管每種方法本身都是成功的,我們更感興趣的是,了解在決策者利用某種形式的決策支持后,結果在何種環境下會有所改善,無論是算法透明性還是模型預測。我們提出了學習決策支持策略的問題,該策略針對給定的輸入,選擇為沒有先驗信息的決策者提供何種形式的支持。利用隨機上下文多臂強盜問題的技術,我們引入THREAD,一種在線算法,用于個性化每個決策者的決策支持策略。我們與真實用戶一起部署THREAD,展示了在線學習個性化策略的過程,并說明了在實踐中學習決策支持策略的細微差別。 我們以個性化決策支持的前景作為本論文的結論,這種支持形式可以包括基于決策者需求的算法透明性。
在機器學習領域,我們致力于開發能夠學習的算法,即在沒有被特別編程完成某項任務的情況下,積累關于如何完成任務的知識。在這篇論文中,我們從兩個不同的角度來探討學習:我們可以應用高效機器學習者的領域以及我們可以通過更有效地解決底層優化問題來改進學習的方式。機器學習方法通常非常依賴數據。雖然現代機器學習在解決實際問題方面取得了巨大成功,但這些成功案例主要局限于有大量相關領域數據可用的設置。元學習領域旨在通過創建“學會如何學習”的模型(即能夠在給出相對較少的示例時迅速適應新任務的模型)來開發具有改進的樣本效率的模型。在本論文中,我們關注使用超網絡進行任務適應的攤銷元學習者,這些學習者成本非常有效,只需通過超網絡進行一次前向傳播即可學會如何執行新任務。我們展示了這些攤銷元學習者可以以超出其在小樣本學習設置中的典型用途的新方式來利用。
我們針對攤銷元學習者開發了一種基于集合的中毒攻擊,這種攻擊讓我們能夠定制一組協同作用的輸入,用作適應新任務的訓練數據(即作為支持集)時,這些輸入能夠欺騙系統的學習算法。這樣共同制作的對抗性輸入可以協同操縱分類器,對于具有可微適應機制的攤銷學習者來說,這種輸入尤其容易計算。我們還在可解釋性領域利用攤銷學習者進行“數據集調試”,在此過程中,我們開發了一種稱為Meta-LOO的數據價值或樣本重要性策略,可用于檢測噪聲或分布外數據;或者將一組示例提煉到其最有用的元素。
從我們的第二個角度看,機器學習和優化是密切相關的;實際上,學習可以被表述為以模型參數為目標的訓練損失最小化問題——盡管實際上我們還需要我們的算法具有泛化能力,這不是更廣泛優化的關注點。選擇的優化策略影響了算法學習的速度以及找到的解決方案(即模型參數)的質量。通過研究優化,我們可以改善我們的模型的學習效果和速度。
在這篇論文中,我們采取了雙管齊下的方法來實現這一目標。首先,我們開發了一種在線超梯度基礎的超參數優化策略,通過支持廣泛的超參數同時保持可擴展性,改進了現有的最佳技術。值得注意的是,我們的方法支持優化算法的超參數,如學習率和動量,這是文獻中類似方法不支持的。其次,我們開發了一種適用于深度學習的非凸損失景觀的二階優化策略。我們的算法近似了一個鞍點是排斥而非吸引的鞍點自由版本的Hessian,以一種適用于深度學習問題的方式。
本論文的核心目標是通過提高深度學習模型的標簽和訓練效率來增強深度學習的實用性。為此,我們研究了基于信息論原理的數據子集選擇技術,特別是主動學習和主動采樣。主動學習提高了標簽效率,而主動采樣提高了訓練效率。監督式深度學習模型通常需要大量的帶標簽數據進行訓練。標簽獲取可能既昂貴又耗時,且訓練大型模型資源密集型,這限制了其在學術研究和“大科技”公司之外的應用。深度學習中現有的數據子集選擇方法通常依賴于啟發式方法或缺乏一個原理化的信息論基礎。相比之下,本論文檢查了數據子集選擇的幾種目標及其在深度學習中的應用,力求采用一種由信息論啟發的更原理化的方法。
我們首先在單次前向傳播的深度神經網絡中區分了認知不確定性和隨機不確定性,這提供了有用的直覺和洞見,關于不同形式的不確定性及其對數據子集選擇的相關性。然后,我們提出并研究了在(貝葉斯)深度學習中進行主動學習和數據子集選擇的各種方法。最后,我們將各種現有和提出的方法與在權重或預測空間中信息量的近似聯系起來。
支撐這項工作的是一個原理化且實用的信息論量符號,包括隨機變量和觀察到的結果。這篇論文展示了從統一視角出發工作的好處,并強調了我們的貢獻對深度學習實際應用潛在影響的可能性。
《分布式機器學習模式》是一本關于將機器學習從個人電腦擴展到大規模分布式集群的實用指南。分布式機器學習系統允許開發人員處理非常大的數據集,跨多個集群進行操作,利用自動化工具,以及獲得硬件加速的好處。本書揭示了應對擴展機器學習系統的挑戰的最佳實踐技巧和內部竅門。 在《分布式機器學習模式》中,您將學到如何: * 應用分布式系統模式來構建可擴展和可靠的機器學習項目 * 構建具有數據攝取、分布式訓練、模型服務等的ML流水線 * 使用Kubernetes、TensorFlow、Kubeflow和Argo Workflows自動化ML任務 * 在不同模式和方法之間進行權衡 * 管理和監控大規模機器學習工作負載
本書旨在將已建立的分布式系統模式應用于機器學習項目,同時探討專門為機器學習創建的新的前沿模式。這本書堅實地扎根于現實世界,演示了如何使用基于TensorFlow、Kubernetes、Kubeflow和Argo Workflows的示例來應用這些模式。通過實際項目和清晰的DevOps技術,您可以輕松啟動、管理和監控云原生的分布式機器學習流水線。 作者Yuan Tang是Argo和Kubeflow的項目負責人,也是TensorFlow和XGBoost的維護者,以及眾多開源項目的作者。 本書適合熟悉機器學習基礎、Bash、Python和Docker的數據分析師和工程師。 《分布式機器學習模式》包括以下內容: * 基本概念和背景 * 分布式機器學習系統的模式 * 構建分布式機器學習工作流程 * 項目概述和系統架構 * 相關技術概述 * 完整實現
這本書被評論為對處理分布式環境中的機器學習問題的深入指南,對分布式機器學習從業者來說是一本非常有價值的書籍。它提供了關于分布式訓練思想、問題和解決方案的詳細介紹,以及在TensorFlow、Kubernetes、Kubeflow和Argo Workflows基礎上實現分布式模型訓練和推理的全面項目。
幾何機器學習和基于圖的機器學習是當前最熱門的研究課題之一。在過去的一年中,該領域的研究發展迅猛。在本文中,幾何深度學習先驅 Michael Bronstein 和 Petar Veli?kovi? 合作,采訪了多位杰出的領域專家,總結了該領域過去一年中的研究亮點,并對該方向在 2022 年的發展趨勢進行了展望。
本文編譯自//towardsdatascience.com/predictions-and-hopes-for-geometric-graph-ml-in-2022-aa3b8b79f5cc#0b34
作者:Michael Bronstein 牛津大學DeepMind人工智能教授、Twitter圖機器學習負責人
編譯:熊宇軒
01
要點概述
幾何在機器學習中變得越來越重要。 微分幾何和同源場為機器學習研究引入了新的思想,包括利用了對稱性和類似于圖中的曲率的新等變圖神經網絡(GNN)架構,以及在深度學習模型中理解和利用不確定性。
消息傳遞仍然是 GNN 的主導范式。 在 2020 年,研究社區意識到了了消息傳遞 GNN 的不足之處,并尋求這種范式之外的更具表現力的架構。2021 年,很明顯,消息傳遞仍然占據主導地位,因為有的研究工作表明,將 GNN 應用于子圖可以獲得更好的表達能力。
微分方程催生了新的 GNN 架構。NeuralODE 的趨勢擴展到了圖機器學習領域。一些工作說明了如何將 GNN 模型形式化定義為連續微分方程的離散形式。在短期內,這些工作將催生新的可以規避 GNN 中的常見問題(如過平滑和過壓縮)的架構。從長遠來看,我們可能會更好地理解 GNN 的工作原理,以及如何使它們更具表現力和可解釋性。
信號處理、神經科學和物理學領域的舊思想煥發了新生。 許多研究者認為,圖信號處理重新點燃了最近對圖機器學習的興趣,并為該領域提供了第一套分析工具(例如,廣義傅里葉變換和圖卷積)。表征理論等其它經典信號處理和物理學中的基本技術已經在2021年取得了一些重要進展,并仍有很大的潛力。
為復雜系統建模不僅需要圖。 2021 年的諾貝爾物理學獎授予 Giorgio Parisi,以表彰他對復雜系統的研究。雖然,這樣的系統通常可以被基本地抽象為圖。但我們有時必須考慮非成對關系和動態行為等更復雜的結構。2021 年的多項工作討論了動態關系系統,并展示了如何將 GNN 擴展到高階結構(如傳統上在代數拓撲領域處理的細胞和單純復雜結構)。我們可能會看到機器學習更多地采用該領域的其它思想。
在圖機器學習領域中,推理、公理化和泛化的問題仍然是重要的有待解決的問題。 在這一年中,我們看到了受算法推理啟發的 GNN 架構的持續進步,以及在圖結構任務上更魯棒的與分布外泛化(OOD)相關的工作。如今,我們有了與廣義 Bellman-Ford 算法顯式一致的知識圖譜推理器,以及利用分布偏移的顯式因果模型的圖分類器。可以說,這些都是未來具有廣闊前景的更魯棒、更通用的 GNN 的發展方向。在2022年,這其中許多的課題可能將取得很大的進展。
圖在強化學習中越來越流行,但可能還有很大的探索空間。 也許并不令人意外的是,強化學習中存在許多有關圖和對稱性的問題(通常在強化學習智能體的結構中,或在對環境的表征中)。2021 年,有一些研究方向試圖利用這種結構,并取得了不同程度的成功。我們現在對如何在強化學習中利用這些對稱性有了更好的理解(包括在多智能體系統中)。然而,將智能體建模為圖似乎不需要嚴格地使用圖結構。盡管如此,我們相信,圖和幾何賦能的強化學習在 2022 年具有廣闊的發展前景。
AlphaFold 2 是幾何機器學習領域的重要成果,也是結構生物學領域的范式轉變。 20 世紀 70 年代,諾貝爾化學獎得主 Christian Anfinsen 提出了預測蛋白質三維折疊結構的可能性。這是一項非常困難的計算任務,是結構生物學領域的「圣杯」。2021年,DeepMind 的 AlphaFold 2 打破了該問題之前的記錄,取得了讓領域專家們信服的準確率,并得到了廣泛的應用。AlphaFold 2 的核心正是一個基于等變注意力機制的幾何架構。
GNN 及其與 Transformer 模型的融合助力了藥物研發和設計。 實際上,GNN 的起源可以追溯到 20 世紀 90 年代的計算化學工作。因此,分子圖的分析是最流行的 GNN 應用之一,也就不足為奇了。2021 年,這一領域取得了持續的顯著進展,涌現出了數十個新架構和幾項超越對比基準的成果。將 Transformer 應用于圖數據也取得了巨大的成功,它有望模擬 Transformer 架構在自然語言處理領域成功的關鍵之處:能夠跨任務泛化的大型預訓練模型。
人工智能主導的藥物發現技術越來越多地使用了幾何和圖機器學習。 AlphaFold 2 和分子圖神經網絡的成功讓人類距離通過人工智能設計新藥的夢想更近了一步。Alphabet 的新公司 Isomorphic Labs 標志著工業界「壓寶」于這項技術。然而,為了實現這類夢想,對分子間的相互作用建模是必須解決的重要前沿課題。
基于圖的方法也助力了量子機器學習。 對于機器學習領域的大多數專家來說,量子機器學習仍然是一個神器的小眾方向,但隨著量子計算硬件的逐漸普及,它很快就成為了現實。Alphabet X 最近的工作顯示了圖結構歸納偏置在量子機器學習架構中的優勢,他們結合了這兩個貌似不相關的領域。從長遠來看,由于量子物理系統通常擁有豐富而深奧的群對稱性,我們可以將這種性質用于量子結構設計,幾何可能會扮演更重要的角色。
2021 年,幾何和基于圖的機器學習方法出現在一系列備受矚目的應用中
**
**
02
幾何在機器學習中的重要性與日俱增
如果我們必須選擇一個詞,它在 2021 年遍布圖表示學習的幾乎每個領域,毫無疑問,「幾何」一詞將是首選。
Melanie Weber:
「在過去的一年里,我們看到許多經典的幾何思想以新的方式在圖機器學習領域中得以應用」——Melanie Weber,牛津大學數學研究所 Hooke 研究員
Melanie 認為:值得注意的例子包括利用對稱性更高效地學習模型,最優傳輸相關概念的應用,或在表示學習中使用微分幾何中的曲率概念。
最近,人們對理解關系型數據的幾何特性和利用這些信息學習良好的(歐氏或非歐)表征產生了濃厚的興趣[1]。這催生了許多對特定幾何編碼的 GNN 架構。值得注意的例子是雙曲 GNN 模型[2],該模型于 2019 年底作為學習層次化數據的高效表征的工具被首次提出。在過去的一年里,出現了大量的新模型和架構,它們能夠更高效地學習雙曲表征,或者能捕獲更復雜的幾何特征[3, 4]。此外,還有一類工作利用了等變性和對稱性等幾何信息[5]。
圖注:今年,在圖神經網絡領域,我們看到了幾何技術的激增。例如,等變信息傳遞在小分子性質預測、蛋白質折疊等生化應用中起到了關鍵作用。
Melanie 進一步研究了微分幾何,指出它在 2022 年存在許多潛在的應用方向:離散微分幾何(研究圖或單純復形等離散結構的幾何)已被用于分析 GNN。離散曲率概念是表征離散結構局部和整體幾何性質的重要工具。Topping 等人在論文「Understanding over-squashing and bottlenecks on graphs via curvature」中提出了曲率在圖機器學習中的一種重要應用[6],在圖重連的背景下研究離散 Ricci 曲率,作者提出了一種新的方法來緩解 GNN 中的過壓縮效應。未來,離散曲率很可能與圖機器學習中的其它結構和拓撲問題聯系在一起。
Melanie 希望這些課題將在 2022 年繼續影響該領域,被應用于更多的圖機器學習任務。這可能會推動計算方面的進步,從而減輕實現非歐算法的計算挑戰,傳統的針對歐式數據設計的工具很難勝任這些工作。此外,離散曲率等幾何工具的計算成本很高,因此很難將它們集成到大規模應用中。計算技術的進步或專用程序庫的發展可以使相關從業者更容易使用這些幾何思想。
Pim de Haan:
「圖神經網絡設計者越來越重視圖豐富的對稱結構。」——Pim de Haan,阿姆斯特丹大學博士生
傳統上,GNN 采用具有置換不變性的消息傳遞方式,后來的工作利用群與表示理論構造節點置換群表示之間的等變映射。最近,類比于流形的局部對稱性(稱為度規對稱性),我們開始研究由同構子圖產生的圖的局部對稱性。我們發現應該用對稱理論而不是群分析某些圖中的問題,將對稱性整合到神經網絡架構中可以提高某些圖機器學習任務(例如,分子預測)的性能。
圖注:圖機器學習研究者利用圖中豐富的對稱結構。
Pim 預測道:在新的一年里,我希望看到范疇論成為一種廣泛應用于神經網絡的設計語言。這將給我們提供一種形式化的語言來討論和利用比以前更復雜的對稱。特別是,我很高興看到它被用于處理圖的局部和近似對稱,結合點云的幾何和組合結構,并幫助我們研究因果圖的對稱性。”
Francesco Di Giovanni:
「盡管圖是不可微的,但是許多在流形分析中被成功應用的思想正逐漸出現在 GNN 領域中。」——Francesco Di Giovanni,Twitter 機器學習研究員
Francesco 對偏微分方程方法特別感興趣,這種方法最初被用于研究曲面,Francesco 等人用它來處理圖像。他們探索了「圖重連」的思路,「圖重連」指的是對底層鄰接關系的修改,它屬于對幾何流方法的拓展。此外,他們還利用基于邊的曲率的新概念來研究 GNN 中的過壓縮問題,并提出了一種圖重連方法。對于保持和破壞對稱形式的分子,幾何也被認為是將 GNN 應用于分子的關鍵因素。
Francesco 認為,這個領域的研究剛剛興起。圖重連技術將可能在解決消息傳遞的一些主要缺陷方面發揮作用,這些缺陷包括在異類數據集上的性能和處理長距離依賴關系。我們希望能很快彌平在圖上的卷積和流形上的卷積之間的概念上的較大差異,這可能會導致下一代 GNN 的出現。最后,Francesco 很高興看到幾何變分方法進一步揭示了 GNN 內在的動力學,并希望能夠提供更有原則的方法來設計新的 GNN 架構、比較現有的架構。
圖注:Ricci 曲率、幾何流等微分幾何領域的概念被用于圖機器學習,改進 GNN 中的信息流。
Aasa Feragen:
**
**
「人們希望通過微分幾何等數學理論為那些精確的公式中存在非線性幾何的問題給出有理有據的解決方案。」——Aasa Feragen,哥本哈根大學助理教授
Aasa 認為,微分幾何在理解和利用深度學習模型的不確定性方面發揮著基礎性的作用。例如,使用模型不確定性生成數據的幾何表示,揭示在標準歐式表征下仍然十分模糊的生物信息。另一個例子是,利用由局部有向數據編碼的黎曼幾何對結構化的大腦連接的不確定性進行量化。
幾何模型通常用于經過深度預處理的數據,揭示其幾何結構。數據通常是根據原始數據估計的,而原始數據存在誤差和不確定性。Aasa 希望 2022 年有更多工作開始評估原始數據的不確定性對我們直接處理的數據的影響,以及這種不確定性應該如何傳播到模型上。Aasa 希望能夠將測量誤差納入對非歐數據的分析,努力打破統計和深度學習之間的鴻溝。
03
消息傳遞仍然是 GNN 的主導范式
Haggai Maron:
「我希望子圖 GNN 以及相應的重構猜想這一研究方向在新的一年里成果豐碩。」——Haggai Maron,英偉達研究科學家
由于等價于 Weisfeiler-Lehman 測試,圖機器學習領域遭遇到了消息傳遞范式的根本限制。Michael Brostein 在 2021 年預測道:想要繼續發展圖機器學習,就需要脫離 2020 年及之前在占據主導地位的消息傳遞機制。如今,這一預測在一定程度上得以實現。然而,盡管 2021 年已經出現了一些表達能力更強的 GNN 架構,但其中大多數仍然停留在消息傳遞機制的范圍內。
最近,一些研究者使用子圖來提高 GNN 的表達能力。Haggai Maron 曾指出:「子圖 GNN」底層的想法是將圖表示為其子結構的集合,在 Kelly 和 Ulam 在上世紀 60 年代有關圖重建猜想的工作就可以發現這一主題。如今,同樣的思想被用來構造富有表達能力的 GNN,而 GNN 的相關工作反過來又催生了新的、更精細的重構猜想。
04
微分方程催生了新的 GNN 架構
圖注:2021 年,一些研究工作通過離散擴散偏微分方程推導圖神經網絡。
Pierre Vandergheynst:
「這提出了一種新的觀點,讓我們可以使用 GNN 為下游機器學習任務提取有意義的信息,并將關注焦點從支撐信息的域轉移到使用圖作為針對信號的計算的支撐。」——Pierre Vandergheynst,洛桑聯邦理工學院
通過用微分方程表示的物理系統動力學重新構建圖上的學習,是 2021 年的另一個趨勢。正如常微分方程是理解殘差神經網絡的強大工具一樣(「Neural ODEs」被評為 NeurIPS 2019 的最佳論文),偏微分方程可以在圖上建立信息傳播的模型。我們可以通過迭代的數值計算求解這樣的偏微分方程,從而恢復出許多標準的 GNN 架構。此時,我們將圖看作對連續對象的離散化表示:
Pierre 認為,在 2022 年,使用圖作為針對給定數據集執行局部連貫的計算、交換信息的機制,并且關注數據的整體屬性,將成為一種新的趨勢。這將在無監督、零樣本學習領域激發人們的興趣。
05
信號處理、神經科學和物理學領域的舊觀點煥發新生
許多現代的 GNN 方法都起源于信號處理領域。圖信號處理(GSP)之父 Pierre Vandergheynst 從這個角度為圖機器學習方法的發展提供了一個有趣的視角:
圖信號處理對數字信號處理的擴展體現在兩個方面:(1)推廣了支撐信息的域。傳統的數字信號處理定義在低維歐式空間上,圖信號處理將其定義在了復雜得多、但是結構化的對象上。我們可以用圖(例如,網絡、網格曲面)來表示這些對象。(2)使用圖(某種最近鄰),從而拋開結構化域,直接處理一些數據集,表示樣本之間的相似性。這背后的思想是,標簽域繼承了一些可以使用圖定義并通過適當轉換捕獲的規律。因此,圖可以支撐整個數據集上的局部計算。GNN 中的一些有趣的思路可以追溯到這些早先的動機,2021 年有一些亮點工作延續了這一趨勢。 **
**
Pierre Vandergheynst:
「經典線性變換(例如,傅里葉變換、小波變換)提給出了一個具有某些數學特性(例如,平滑信號具有低頻傅里葉系數,分段平滑信號具有稀疏、局部的小波稀疏)的通用潛空間」——Pierre Vandergheynst,洛桑聯邦理工學院
過去,研究者們通過構建線性變換來揭示信號的特性。物理學家在設計基于群作用的不同對稱的等價變換方面尤為領先。這些群作用包括,仿射群上的小波變換、Weyl-Heisenberg 群的線性時頻分析等。關于數學物理中相干態領域的工作提出了一種通用的解決方法:通過使用群表示對函數進行參數化,從而構建某種線性變換。2021 年,一些出色的論文進一步引入了非線性和可學習的參數化函數,賦予了 GNN 對稱性,使它們在物理或化學問題中大放異彩:
圖注:群表示是一種信號處理和物理學領域的傳統工具,使我們可以推導出可以應用于流形的坐標無關的深度學習架構。
Pierre 認為,由于某些應用需求、適應性和可解釋性之間權衡(結構化變換域適應性較差但可解釋性很強,GNN 可以在二者之間取得很好的平衡),構建結構化潛空間的趨勢將會在 2022 年得以延續。
在傳統上,神經科學與信號處理密切相關。事實上,我們通過分析大腦傳遞的電信號來了解動物如何感知其周圍的世界。
Kim Stachenfeld:
「我的研究背景是計算神經科學,我首次在研究中用到圖是因為我希望表示任何動物如何學習結構。」——Kim Stachenfeld,DeepMind 研究科學家
我們可以通過圖這種數學對象來分析任何動物如何表示通過獨立的經驗片段獲取的相關概念,并將其拼接成一個全局連貫的、集成的知識體系。
2021 年,一些研究將神經網絡的局部操作和底層或內在的集合表征相結合。例如,一些有關 GNN 中不變性的工作使 GNN 可以利用圖結構以外的幾何和對稱性。此外,使用圖拉普拉斯特征向量作為圖 Transformer 的位置編碼,使 GNN 可以在不受其約束的條件下,利用關于內在、低維幾何性質的信息。
Kim 對 GNN 在神經科學和更廣闊的領域中的應用感到十分興奮,尤其是在超大規模真實數據上的應用。例如,使用 GNN 預測交通狀況、對復雜物理動力學進行仿真、解決超大規模圖上的問題。將 GNN 用于神經數據分析的工作也紛紛涌現。這些問題對現實世界產生影響,它們要求模型能夠高效擴展并泛化,同時仍然能夠捕獲真正的復雜的動力學。GNN 的優化目標是對結構和表達能力的平衡。
06
對復雜系統建模不僅需要圖
Tina Eliassi-Rad:
「2021 年諾貝爾物理學獎授予了對復雜系統的研究。從根本上說,復雜系統是由實體及其之間的交互組成的。復雜系統通常被表示為復雜網絡,而這為圖機器學習提供了動力。」——Tina Eliassi-Rad,東北大學教授
隨著圖機器學習逐漸成熟,我們需要仔細分析以不同形式體現的系統依賴(例如,子集、時間、空間),通用的數學表征(圖、單純復形、超圖),它們的底層假設。沒有完美的方法可以表示一個復雜系統,檢驗來襲一個系統的數據集時所作的建模決策可能并不一定能遷移到另一個系統上,甚至不能遷移到來自同一系統的另一個數據集上。然而,考慮與我們選擇的數學表示法相關的系統依賴,為圖機器學習指出了新的研究機會。
Pierre Vandergheynst:
圖并不能為所有的復雜系統提供適當的模型,我們需要圖之外的方式。2021 年,一些優秀的論文提出了通過圖的泛化獲取的新的結構化信息域。使用單純復形和代數拓撲的其它思想來構建新的神經網絡在理論和實踐上對 GNN 進行了提升。這一趨勢在 2022 年會延續下去,我們會深入研究通過代數拓撲或微分幾何提供的大量結構化數學對象。
圖注:將圖拓展到胞腔復形或單純復形,可以傳遞更復雜的拓撲消息,從而產生超越 WL 測試表達能力的 GNN 架構。
Cristian Bodanr:
「我們很可能會看到采用更奇特的數學對象,這些數學對象迄今為止還鮮為探索。我相信這些拓撲方法降維分析和理解 GNN 提供一套新的數學工具。」——Cristian Bodnar,劍橋大學博士
Cristian Bodnar 熱衷于代數研究拓撲和圖機器學習之間的聯系。在過去的一年中,單純復形和胞腔復形上的卷積和消息傳遞模型解決了許多 GNN 的缺陷(例如,檢測特定的子結構、捕獲長距離和高階交互、處理高階特征、跳出 WL 測試的層次)。他們在分子相關的問題、軌跡預測和分類等任務中取得了目前最優的結果。
2022 年,Cristian 預計這些方法將會擴展到令人激動的新應用上,例如:計算代數拓撲、鏈接預測、計算機圖形學,等。
Rose Yu:
「我對圖機器學習在學習時空動力學中扮演的角色感到十分興奮。」——Rose Yu,UCSD 助理教授
時空圖是一種重要的復雜網絡系統,它的結構會隨著時間演變。Rose 認為,COVID-19 預測、交通預測、軌跡建模等應用需要捕獲高度結構化的時序數據的復雜動力學。圖機器學習有能力捕獲時間序列、空間依賴之間的交互,以及動力學中的相關性。
2022 年,我們樂見時間序列和動態系統中的思想與圖機器學習融合。希望這些思想將催生新的模型設計、訓練算法,幫助我們更好地理解復雜動態系統的內在機制。圖神經網絡具有置換對稱性(不變性或等變性),對稱性發現是圖表示學習領域中一個被忽視的重要問題。但這種全局對稱性可能從根本上被限制,有一些優秀的工作將圖神經網絡推廣到置換之外的對稱群和局部對稱中。我們希望看到更多關于圖神經網絡對稱性的研究。
參考文獻: [1] M. Bogu?á et al., Network geometry (2021) Nature Reviews Physics 3:114–135. [2] Q. Liu, M. Nickel, D. Kiela, Hyperbolic Graph Neural Networks (2019) NeurIPS. [3] M. Law. Ultrahyperbolic Neural Networks (2021) NeurIPS. [4] Y. Zhang et al., Lorentzian Graph Convolutional Networks (2021) WWW. [5] V. G. Satorras, E. Hoogeboom, M. Welling, E(n) equivariant graph neural networks (2021) ICML.
本博士論文包含了對統計因果模型領域的幾個貢獻。統計因果模型是嵌入因果假設的統計模型,允許對受外部操縱(干預)影響的隨機系統的行為進行推斷和推理。本文在因果效應估計、因果結構學習和分布魯棒(非分布廣義)預測方法等方面進行了深入的研究。我們提出了新的和一致的線性和非線性因果效應估計工具變量設置,采用數據依賴的均方預測誤差正則化。我們提出的估計量顯示,在某些情況下,均方誤差比標準和最先進的估計量都有所改善。我們表明,最近對分布穩健預測方法的研究與計量經濟學中經過充分研究的估計量有關。由此證明了一般k類估計具有分布魯棒性。此外,我們提出了一個關于干預誘發分布的分布穩健性的一般框架。在這個框架中,我們推導了分布魯棒預測方法可識別的充分條件,并給出了一些不可能的結果,證明了這些條件的必要性。提出了一種新的結構學習方法,適用于以有向樹為因果圖的加性噪聲模型。我們證明了消失可辨識性設置中的一致性,并提供了一種方法來檢驗具有漸近家族誤差控制的子結構假設,該方法在選擇后仍然有效。最后,我們提出了學習非線性時間序列模型總結圖的啟發式思想。
深度學習最近變得非常流行,因為它在許多復雜的數據驅動應用程序中取得了令人難以置信的成功,比如圖像分類和語音識別。數據庫社區多年來一直致力于數據驅動的應用,因此應該在支持這一新浪潮方面發揮帶頭作用。然而,數據庫和深度學習在技術和應用方面是不同的。在本文中,我們討論了這兩個領域交叉的研究問題。特別地,我們從數據庫的角度討論了對深度學習系統的可能改進,并分析了可能從深度學習技術中受益的數據庫應用。