亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

圖學習在各種應用場景中發揮著關鍵作用,并且由于其在建模由圖結構數據表示的復雜數據關系方面的有效性,已經獲得了顯著的關注,這些應用場景包括社交網絡分析到推薦系統。實際上,現實世界中的圖數據通常隨著時間展現出動態性,節點屬性和邊結構的變化導致了嚴重的圖數據分布偏移問題。這個問題由分布偏移的多樣性和復雜性加劇,這些偏移可以顯著影響圖學習方法在降低的泛化和適應能力方面的性能,提出了一個對其有效性構成實質挑戰的重大問題。在這篇綜述中,我們提供了一個全面的回顧和總結,涵蓋了解決圖學習背景下分布偏移問題的最新方法、策略和見解。具體而言,根據在推斷階段分布的可觀測性和在訓練階段充分監督信息的可用性,我們將現有的圖學習方法分類為幾個基本場景,包括圖域適應學習、圖離群分布學習和圖持續學習。對于每個場景,都提出了詳細的分類法,包括對存在的分布偏移圖學習進展的具體描述和討論。此外,我們還討論了在分布偏移下圖學習的潛在應用和未來方向,通過系統分析這一領域的當前狀態。這篇綜述旨在為處理圖分布偏移的有效圖學習算法的開發提供一般指導,并激發在這一領域的未來研究和進展。

圖結構數據在各種真實世界應用領域無處不在,包括社交網絡[1]、[2]、[3]、[4]、[5]、生物網絡[6]、[7]、[8]、[9]、道路網絡[10]、[11]、[12]以及計算機網絡[13]、[14]、[15]。在這些多樣化的領域中,通過邊緣復雜交織的節點之間的復雜關系蘊含著實體、圖結構和整體圖數據模式中的寶貴信息。在這種情況下,圖學習[16]技術應運而生,以更好地分析和理解各種圖類型,為廣泛的圖相關任務提供了有希望的推理能力,涵蓋了藥物發現[8]、[17]、知識圖探索[18]、[19]、社交網絡分析[20]、[21]、推薦系統[22]、[23]和物理運動預測[24]等。

盡管流行的圖學習方法取得了成功,但圖數據中分布偏移的存在對當前方法的能力構成了實質性的限制[25]。這是由于真實世界圖數據的動態和演化性質。例如,社交網絡隨著新用戶的加入和關系的變化而演化,導致節點特征和邊連接的顯著變化,從而使得圖學習模型在推薦系統或趨勢分析上的性能下降[26]。在金融網絡中,實體(如股票、商品或機構)之間的關系會因市場趨勢、經濟政策或全球事件而變化[27]、[28]。一個在歷史市場數據上訓練的圖學習模型可能在實體之間的關系發生變化時表現不佳。在生物學中,代表蛋白質、基因或生態系統中物種相互作用的網絡可能因突變、環境壓力或疾病爆發而改變[29]。預測疾病傳播或基因相互作用的模型必須適應這些變化。此外,交通系統(如道路網絡、航空交通或公共交通系統)由于城市發展、旅行模式的變化或基礎設施修改等因素而經歷變化。這些變化影響了用于優化路線、預測擁堵或規劃新基礎設施的模型[30]。在節點、邊緣和不同圖中觀察到的圖數據的統計分布的這些變化,大大復雜化了圖學習過程,為有效模型部署和在真實世界場景中的應用帶來挑戰。

為此,在這項工作中,我們的重點是在分布偏移的情況下進行圖學習,具體指的是圖數據概率分布的差異可能涵蓋圖組件的所有方面,包括節點特征、圖結構和標簽分布。因此,圖學習模型在測試階段遇到了在以前未見過的圖數據分布上實現精確泛化的困難。

近年來,越來越多的興趣集中于探索分布偏移下圖學習的范式[31]、[3]、[4]、[32]、[25]、[33]、[34]、[35]、[36]、[37]、[38]、[39]、[40],以使模型能夠在靜態和動態場景中理解圖數據的復雜場景、對象和概念。具體而言,圖數據分布偏移場景可以基于測試階段的分布是否可觀測以及可用的監督信息是否充分來分類。因此,它們可以分為三個主要類別,如圖1所示:

觀察到的偏移:已知測試階段數據,可變監督,其中可能展示出與訓練階段不同的潛在未知分布偏移的觀察到的測試階段圖數據,可用的監督可能充分或不充分

未觀察到的偏移:未知測試階段數據,限制性監督,其中未觀察到的測試階段圖數據分布具有多種多樣的偏移類型,可用的監督通常傾向于不充分

順序時間偏移:時間依賴的,未觀察到的數據,其中未觀察到的測試階段圖數據分布隨時間動態地順序到達。

基于這三種類型的圖數據分布偏移場景,在這項工作中,我們進行了全面的回顧,并提供了現有圖學習方法的系統分類,這些方法應對圖數據中的分布偏移學習挑戰。具體來說,當前的圖學習方法也可以分為三個類別,每個類別對應于特定的分布偏移場景:

圖域適應學習,旨在將圖學習模型從訓練(源)域傳遞到測試(目標)域,并要求它們在具有不同圖數據分布的目標域上表現出熟練的性能[31]、[41]、[42]、[3]、[43]、[4]。→ 觀察到的偏移。

圖離群分布學習,旨在使圖學習模型能夠有效地學習與訓練數據分布不同的測試圖數據和訓練中未見的潛在新類別[44]、[25],使模型具有良好的泛化能力。→ 未觀察到的偏移。

圖持續學習,旨在使圖學習模型能夠在圖數據分布發生變化時吸收新信息,同時精煉現有知識并應對新出現的和以前未見過的任務[45]、[46]。→ 順序時間偏移。

因此,在這篇綜述中,我們的目標是提供對圖數據分布偏移的深入理解,并探討解決分布偏移挑戰的各種圖學習模型和方法。我們將檢查與分布偏移下圖學習相關的關鍵概念、關鍵挑戰、以前的限制和評估協議。此外,我們將討論潛在的現實世界應用并突出這一研究領域內有希望的未來方向。據我們所知,這是第一篇關于圖學習與一般分布偏移場景的全面綜述。盡管如此,我們的工作與幾項專注于圖分布偏移特定方面的先前研究建立聯系也是值得的:Li等[25]回顧了圖離群分布泛化方法,而Yang等[44]回顧了圖離群分布檢測方法,分別是在未觀察到的圖數據偏移場景下的兩種離群分布任務。Yuan等[45]和Febrinanto等[46]在順序時間圖數據偏移場景下回顧了圖持續學習方法和基準測試。相比之下,我們的重點明顯放在更廣泛的分布偏移下圖學習的視角上。這包括更廣泛和更新鮮的方法回顧,以提供更全面的研究路線圖。

我們預見這篇綜述將成為對分布偏移下圖學習感興趣的研究人員和實踐者的重要資源,提供對最新發展和未來研究努力的見解,并促進在模型選擇、架構設計和評估策略領域的知情決策,以持續發展圖學習模型,為學術和工業應用帶來潛在好處。 總結來說,這項綜述工作的核心貢獻可以如下呈現

廣泛的圖分布偏移場景。據我們所知,這是圖學習領域第一篇涵蓋廣泛圖分布偏移場景的綜述工作,有助于深入理解和分析處理多樣化和復雜的圖數據分布偏移案例。

全面的回顧和分類法。我們提供了一個系統的分類法,涵蓋了存在各種分布偏移的現有圖學習進展。這個分類法包括三個關鍵類別:用于可觀察偏移的圖域適應學習,具有已知測試階段圖的;用于未觀察到的偏移的圖離群分布學習,具有未知測試階段圖的;以及用于順序時間偏移的圖持續學習,具有隨時間演化的圖的。

突出實際應用和未來方向。我們強調了圖學習在解決分布偏移方面的實際用途,涵蓋了從科學發現到個性化日常生活推薦的應用。此外,我們確定了幾個有希望的未來研究方向,意圖激勵和推動這一研究領域的進步。

分類與框架

圖3總結了分布偏移下圖學習的一般分類法及本文回顧的相關方法。分類法圍繞著偏移場景和分布偏移下圖學習算法的設計細節展開。首先,根據解釋的偏移場景,分布偏移下的圖學習方法可以被分類為三個類別:圖域適應、離群分布圖學習和持續圖學習。我們進一步考慮不同方法的設計細節,并以層次化的方式對它們進行分類,以便于理解和比較分析。

圖域適應學習的分類法

域適應解決了由于不同域之間數據分布的差異導致模型性能下降的問題,旨在提高模型在目標域上的泛化能力。域適應方法可以進一步分為三種類型:半監督、無監督和測試時圖轉換。 半監督域適應。這些方法側重于使用源域的標記數據以及源域和目標域的未標記數據訓練模型,旨在確保在目標域上的強大性能。 無監督域適應。這些方法專注于在沒有目標域標記數據的情況下進行模型轉移。核心思想是通過特征對齊減少源域和目標域之間的特征分布差異,從而提高模型對目標域的泛化能力。 測試時圖轉換(適應)。這些方法圍繞著在測試期間調整目標域的圖數據以匹配目標域的特性,增強模型對目標域的適應性。

圖離群分布學習的分類法

離群分布(OOD)圖學習解決了從與訓練期間看到的特征不同的圖中學習的挑戰。OOD圖學習可以進一步分為三種類型:圖離群分布泛化、圖離群分布檢測和開放世界圖學習。 圖離群分布泛化。這種類型的OOD圖學習側重于開發能夠很好泛化到具有與訓練中看到的不同特征的圖的模型。目標是確保當面對來自以前未見過的分布的圖時,模型的性能仍然令人滿意。 圖離群分布檢測。在這個場景中,重點是識別或檢測屬于離群分布類別的圖。目標是設計能夠標記或區分與訓練數據分布顯著偏離的圖的模型,可能表明新的或不熟悉的圖模式。 開放世界圖學習。開放世界圖學習處理的是在可能的圖類別集合事先未知的情況下進行學習的挑戰。這意味著模型不僅需要適應新的圖類別,還需要做出將數據分類到已知類別或識別數據屬于新類別的決策。

圖持續學習的分類法

持續圖學習解決了從隨時間到達并持續演化的圖數據流中獲取知識的挑戰。持續圖學習的方法可以進一步分為四個類別:架構方法、正則化方法、復習方法和混合方法。 架構方法。這些方法側重于修改網絡的特定架構、激活函數或算法層,以解決新任務并防止忘記之前的任務。 正則化方法。這些方法通過向損失函數添加正則化項來鞏固學到的知識,限制神經權重的更新方向,以免損害先前任務的性能。 復習方法。這些方法維護一個記憶緩沖區,保存先前任務的信息,并在學習新任務時重播它以減輕災難性遺忘。 混合方法。這些方法結合了多種持續學習方法,以利用多種方法的優勢并提高模型的性能。

在這項工作中,我們對分布變化下圖學習的前沿方法和方法進行了深入的回顧和綜合。基于分布的可觀察性和監督信息的可用性,我們將圖學習方法分為圖域自適應學習、圖分布外學習和圖持續學習,其中每種方法都有詳細的分類和對當前進展的討論。全面的分析,以及對潛在應用和未來研究方向的重點討論,不僅為最先進的方法提供了清晰的路線圖,而且還有助于闡明具有多樣化和復雜分布變化的圖學習技術的有效發展。

付費5元查看完整內容

相關內容

圖是一種自然表示方式,適用于基于連接實體之間關系的系統。當考慮與感興趣的過程相關的目標函數時,會出現組合優化問題,這些問題通常具有挑戰性,因為解決方案空間的迅速增長。強化學習的試錯范式最近已經成為一種有前景的替代傳統方法,如精確算法和(元)啟發式算法,用于在化學、計算機科學和統計學等多種學科中發現更好的決策策略。盡管這些技術源自截然不同的領域,但它們具有顯著的共性。因此,我們著手將這些工作綜合在我們稱之為圖強化學習的統一視角中,將其解釋為圖問題的一種構造性決策方法。在介紹相關的技術背景后,我們回顧了這些研究工作,并沿著是否旨在優化給定過程的圖結構,或在固定圖結構下優化過程本身的結果這一分界線進行了評述。最后,我們討論了該領域面臨的共同挑戰和開放性研究問題。與其他綜述不同,本工作關注于非典型圖問題,對于這些問題,通常沒有已知的高效算法,而強化學習能夠提供高效且有效的解決方案。

圖是一個數學概念,用于形式化由關系(邊)連接的實體(節點)的系統。超越原始拓撲結構,圖中的節點和邊常常與屬性相關聯:例如,一個邊可以與距離度量的值相關聯(Barthélemy, 2011)。通過這樣的特性增強,圖成為了一種強大的形式主義,能夠表示各種系統。這種靈活性使得它們被廣泛應用于計算機科學、生物學和社會科學等多樣的領域(Newman, 2018)。這種類型的數學建模可以用來分析性地檢查網絡的結構和行為,構建預測模型和算法,并將它們應用于實際問題。除了描述在圖上發生的過程外,一個自然的問題是如何介入網絡以優化給定過程的結果。這類在離散結構上的組合優化問題通常具有挑戰性,因為解決方案空間的迅速增長。一個著名的例子是旅行商問題(TSP),它要求在一個完全連通的圖中找到一個哈密頓回路,使得路徑長度總和最小化。

近年來,機器學習(ML)開始作為解決組合優化問題的有價值工具而興起,研究人員預計其影響將是革命性的(Bengio et al., 2021; Cappart et al., 2021)。特別是,強化學習(RL)的范式已顯示出通過試錯發現能夠勝過傳統精確方法和(元)啟發式方法的算法的潛力。一個常見的模式是將感興趣的問題表達為一個馬爾可夫決策過程(MDP),在其中,一個代理逐步構建解決方案,并根據其優化目標函數的能力獲得獎勵。從MDP公式開始,可以透明地應用各種RL算法,這使得這種方法在可以解決的問題類型上非常靈活。與此同時,開始出現了使用RL解決圖組合優化問題的工作,涵蓋了從化學(You et al., 2018a),計算機科學(Valadarsky et al., 2017),經濟學(Darvariu et al., 2021b)到統計學(Zhu et al., 2020)等多種科學領域。

本綜述的目標是提出一個統一框架,我們稱之為圖強化學習(Graph RL),用于處理圖上的決策問題。我們將綜合可以在這個新興范式的背景下解釋的各種方法。我們將討論幾個組合優化問題,重點是那些通常不知道有效、高性能算法的非典型問題。事實上,最近的綜述關注的是應用RL解決典型問題的作品,我們使用“典型問題”這一術語來指代可能已經被研究了幾十年的問題。例如,僅關于解決上述TSP的研究就可以追溯到近70年前Dantzig等人的論文(1954),并且存在非常有效的算法可以最優地(Applegate et al., 2009)或近似地(Lin & Kernighan, 1973; Helsgaun, 2000)解決多達數千萬節點的實例。其他值得注意的典型問題包括最大獨立集(Ahn et al., 2020)、最大割(Khalil et al., 2017; Ahn et al., 2020)以及諸如車輛路徑問題(VRP)(Kool et al., 2019; Kim & Park, 2021)等路由問題。除了少數例外,盡管在這些基準問題上的工作對于推動基于ML方法的極限很重要,但目前它們還不能直接與成熟的、高度優化的啟發式和精確求解器競爭。因此,本文與其他綜述(Mazyavkina et al., 2021; Wang & Tang, 2021)和觀點(Bengio et al., 2021; Cappart et al., 2021)相輔相成,無論是在提出統一范式還是關注非典型問題方面。

本文的其余部分如下組織。在第2節中,我們提供了關于圖上的組合優化問題及其使用RL方法的相關技術背景。隨后,在第3節中,我們回顧了考慮優化圖結構的工作(即,從頭開始創建圖或修改現有圖)以使目標函數最大化。然后,在第4節中,我們綜述了在固定圖結構下優化過程的論文。第5節討論了在應用這些技術時面臨的常見挑戰,這些也可以視為未來工作中需要解決的重要研究問題,此外還總結了一些關鍵的應用領域。我們在第6節以圖強化學習作為解決圖上組合優化問題的統一范式的討論來結束本文。

圖結構優化在機器學習(ML)處理典型圖組合優化問題的工作中,一個共有的特點是它們通常不涉及對圖的拓撲結構進行改變。具體來說,需要在假設網絡結構保持固定的情況下找到解決方案。學習構建圖或修改其結構以優化給定目標函數的問題在ML文獻中相對較少關注。在這一部分,我們回顧了處理修改圖拓撲結構以優化感興趣的量的問題的工作,并使用強化學習(RL)來發現實施這一過程的策略。這是通過與環境的互動來執行的。

在高層次上,這類問題可以被表述為尋找滿足argmaxG∈G F(G)的圖G,其中G是要搜索的可能圖的集合,F如前所述,是目標函數。我們在圖2中示意了這一過程。精確的框架取決于問題,并可能涉及從一個空圖開始還是從一個現有的圖開始選擇,以及對圖的有效性如空間限制、非循環性或平面性施加約束。如圖3所示,動作空間的設計也可以變化。代理可能被允許進行邊的添加、移除和重連,或者這些操作的某種組合。 鑒于范圍的自然限制,我們只考慮那些(1)使用圖表示問題;(2)通過RL訓練策略進行結構優化的工作。讓我們簡要討論一下相關但不在討論范圍內的一系列工作。ML文獻中的幾項工作考慮了生成與提供的數據集具有類似屬性的圖。這通常使用深度生成模型執行,并可被視為經典圖生成模型的基于ML的替代方法,例如Barabási & Albert(1999)的模型。這些工作主要使用最終圖(即“成品”)的示例數據集,并不使用中間的,從某種意義上說,對應于生成過程本身的步驟。它們還需要大量相關的示例集合,這些可能并不總是可用的,具體取決于領域。

在這一領域,使用自回歸模型(如LSTM或GRU)的工作類似于MDP公式;例如添加邊的決策可以被視為序列中的一個標記,由模型學習。這一領域的一些值得注意的工作包括Li等人(2018)提出的技術,GraphRNN(You等人,2018b),以及圖重復注意網絡(Liao等人,2019)。其他類型的生成模型,如變分自編碼器和生成對抗網絡,也被用于生成分子(Kusner等人,2017; Guimaraes等人,2018; De Cao & Kipf, 2018; Jin等人,2018)。

本節的其余部分深入回顧了相關論文,按問題家族分組。我們涵蓋了旨在學習如何攻擊GNN、設計網絡結構、發現因果圖和構建分子圖的工作。考慮的論文根據其采用的技術和特點在表1中進行了總結。 在這項綜述中,我們討論了圖強化學習這一新興領域,這是一種通過試錯學習來解決圖上計算挑戰性優化問題的方法。我們特別關注那些尚未知曉高效算法的問題,以及傳統的啟發式和元啟發式算法通常無法提供滿意性能的問題。我們將這些工作分為兩類。第一類是圖結構優化,包括需要找到最優圖結構的問題,這在對抗性攻擊圖神經網絡、網絡設計、因果發現和分子優化等領域有顯著應用。第二類是圖過程優化,將圖結構視為固定不變,代理在離散的可能控制行動空間中進行搜索,以優化過程的結果。這包括網絡路由、游戲、傳播過程和圖搜索等問題。最后,我們討論了該領域面臨的主要挑戰,其解決可能具有非常重大的影響。

付費5元查看完整內容

多標簽學習是一個迅速發展的研究領域,旨在從單個輸入數據點預測多個標簽。在大數據時代,涉及多標簽分類(MLC)或排名的任務提出了重大而復雜的挑戰,在多個領域吸引了相當多的注意力。MLC固有的困難包括處理高維數據、解決標簽相關性和處理部分標簽,傳統方法在這些方面效果不佳。近年來,采用深度學習(DL)技術來更有效地解決MLC中的這些挑戰的嘗試顯著增加。值得注意的是,有一個增長中的努力旨在利用DL的強大學習能力,以改進對標簽依賴性及MLC中其他挑戰的建模。 然而,值得注意的是,專門針對多標簽學習的DL的綜合研究相對有限。因此,這項綜述旨在徹底回顧DL在多標簽學習中的最新進展,以及MLC中開放研究問題的總結。 該綜述整合了DL在MLC中的現有研究努力,包括深度神經網絡、變換器(Transformer)、自編碼器、卷積和循環架構。最后,該研究提出了現有方法的比較分析,以提供有洞察力的觀察,并激發該領域未來研究方向的思考。

在許多實際應用中,一個對象可能同時與多個標簽關聯,這類問題被認為是多標簽學習(MLL)【1】。MLL是標準單標簽學習范式的擴展,在這個范式中,通常有一個有限的潛在標簽集,這些標簽可以應用于多標簽數據(MLD)的實例。基本目標是同時預測給定單個輸入的輸出向量,這意味著它可以解決更復雜的決策問題。這與單標簽分類相對,單標簽分類中每個實例只與一個標簽關聯。在多標簽任務的上下文中,一個實例通常與一組標簽相關聯,構成稱為相關標簽(活動標簽)的不同組合,而與實例未鏈接的標簽被稱為不相關標簽。相關和不相關標簽都表示為一個二進制向量,其大小與MLD中標簽的總數對齊。根據目標的不同,MLL中存在兩個主要任務:多標簽分類(MLC)和多標簽排名(MLR)【2】。MLC是主要的學習任務,涉及學習一個模型,該模型輸出一個標簽集的二分劃分,將其分為與查詢實例相關和不相關的標簽。另一方面,MLR關注于學習一個模型,該模型輸出類標簽的排序,根據它們對查詢實例的相關性進行排序。

盡管MLC應用傳統上集中在文本分析、多媒體和生物學上,但它們的重要性正在逐漸增長,涵蓋了多個領域,如文檔分類【3】【4】【5】、醫療保健【6】【7】【8】、環境建模【9】【10】、情感識別【11】【12】、商業【13】【14】、社交媒體【15】【16】【17】等。許多其他要求嚴格的應用,如視頻注釋、網頁分類和語言建模,也可以從被構建為MLC任務中獲益,這涉及到數百、數千甚至數百萬的標簽。如此廣泛的標簽空間提出了研究挑戰,例如與數據稀疏性和可擴展性相關的問題。MLC還包含額外的復雜性,包括建模標簽相關性【18】【19】、不平衡標簽【20】和噪聲標簽【21】。傳統的MLC方法,如問題轉換和算法適配【22】【23】,在解決這些挑戰時表現出次優性能。

除了傳統方法外,深度學習(DL)技術在解決MLC挑戰中越來越受歡迎。深度學習的強大學習能力特別適用于解決MLC挑戰,這通過它們在解決單標簽分類任務中的顯著成功得到了證明。目前,MLC中的一個主要趨勢是廣泛地結合DL技術,即使是對于更具挑戰性的問題,如極端MLC【24】【25】【26】、不平衡MLC【27】【28】、弱監督MLC【29】【30】【31】和缺失標簽的MLC【32】【33】。有效地利用DL的強大學習能力對于更好地理解和建模標簽相關性至關重要,從而使DL能夠有效地解決MLC問題。一些研究表明,專門設計用于捕獲標簽依賴性的MLC方法通常展示出更優越的預測性能【34】【19】。本文對現有文獻進行了簡要回顧,旨在識別一系列基于DL的技術用于MLC問題,以激發對MLC的創新DL基方法的進一步探索。已有一些關于MLC傳統方法的綜述,如在【35】【23】【36】中引用的那些。此外,還有一些綜述包含了傳統方法和DL方法【37】【38】,但這些綜述對MLC的DL方法的覆蓋有限,并且集中在特定領域。然而,本文獨特地關注于一系列DL架構,包括循環和卷積網絡、變換器、自編碼器和混合模型,用于解決多個領域中的MLC挑戰。在圖1中,我們提出了一個包含傳統方法和DL方法的多標簽學習方法的分類。

本文的主要貢獻可以概括如下

據作者所知,本綜述是第一個全面覆蓋用于解決MLC任務的DL方法的,涵蓋了多種領域和數據模態,包括文本、音樂、圖像和視頻。

提供了一個關于多個公開可用數據集上最新DL方法的綜合總結(表I、II和III),簡要概述了每種DL方法并進行了深刻的討論。因此,本綜述為讀者提供了最先進的方法。

我們提供了當前面臨MLC領域挑戰的簡要描述。此外,我們還總結了在MLC中使用的多標簽數據集,以及評估這些數據集特性所用的屬性定義。 最后,本文提供了一項涉及各種DL技術的現有方法的比較研究,并調查了每種方法的優缺點(表V)。它提供了可以指導選擇合適技術和在未來研究中開發更好DL方法的見解。 本文的后續部分組織如下。 第II部分介紹多標簽學習的基本概念。第III部分介紹了研究方法論,重點是數據來源和搜索策略、選擇標準以及出版物的統計趨勢。第IV部分是本綜述的主要部分,討論了解決MLC挑戰的各種DL方法。第V部分關注MLC中的開放性挑戰和數據集。第VI部分提供了解決方案的比較分析,包括優勢和局限。最后,第VII部分給出了本文的結論。

近年來,DL(深度學習)的進步顯著豐富了MLC(多標簽分類)的領域景觀。DL架構在生成輸入特征和輸出空間的嵌入表示方面發揮了關鍵作用。DL的強大學習能力在各個領域的MLC任務中得到了廣泛應用,例如圖像、文本、音樂和視頻。用于MLC的最常用DL方法包括深度神經網絡、卷積、循環、自編碼器和變壓器架構,以及混合模型。有效地利用這些DL方法的優勢對于解決MLC中的標簽依賴性和其他挑戰至關重要。本節提供了這些突出DL方法在MLC中的應用概覽,并對每種技術進行了專門針對MLC的詳細考察。

付費5元查看完整內容

為了應對現實世界的動態變化,智能體需要在其生命周期中增量地獲取、更新、積累和利用知識。這種能力被稱為持續學習,為人工智能系統自適應發展提供了基礎

在一般意義上,持續學習明顯受到災難性遺忘的限制,學習新任務通常會導致舊任務的性能急劇下降。除此之外,近年來出現了越來越多的進展,在很大程度上擴展了持續學習的理解和應用。人們對這一方向日益增長和廣泛的興趣表明了它的現實意義和復雜性。本文對持續學習進行了全面的調研,試圖在基本設置、理論基礎、代表性方法和實際應用之間建立聯系。基于現有的理論和實證結果,將持續學習的一般目標總結為:在資源效率的背景下,確保適當的穩定性-可塑性權衡,以及充分的任務內/任務間泛化能力。提供了最先進的和詳細的分類法,廣泛分析了有代表性的策略如何解決持續學習,以及它們如何適應各種應用中的特定挑戰。通過對持續學習當前趨勢、跨方向前景和與神經科學的跨學科聯系的深入討論,相信這種整體的視角可以極大地促進該領域和其他領域的后續探索。

1. 引言

學習是智能系統適應環境的基礎。為了應對外界的變化,進化使人類和其他生物具有很強的適應性,能夠不斷地獲取、更新、積累和利用知識[148]、[227]、[322]。自然,我們期望人工智能(AI)系統以類似的方式適應。這激發了持續學習的研究,其中典型的設置是逐一學習一系列內容,并表現得就像同時觀察到的一樣(圖1,a)。這些內容可以是新技能、舊技能的新示例、不同的環境、不同的背景等,并包含特定的現實挑戰[322],[413]。由于內容是在一生中逐步提供的,因此在許多文獻中,持續學習也被稱為增量學習或終身學習,但沒有嚴格的區分[70],[227]。

與傳統的基于靜態數據分布的機器學習模型不同,持續學習的特點是從動態數據分布中學習。**一個主要的挑戰被稱為災難性遺忘[291],[292],對新分布的適應通常會導致捕獲舊分布的能力大大降低。**這種困境是學習可塑性和記憶穩定性權衡的一個方面:前者過多會干擾后者,反之亦然。除了簡單地平衡這兩方面的“比例”外,持續學習的理想解決方案應該獲得強大的泛化能力,以適應任務內部和任務之間的分布差異(圖1,b)。作為一個樸素的基線,重新訓練所有舊的訓練樣本(如果允許)可以輕松解決上述挑戰,但會產生巨大的計算和存儲開銷(以及潛在的隱私問題)。事實上,持續學習的主要目的是確保模型更新的資源效率,最好接近只學習新的訓練樣本。

**許多努力致力于解決上述挑戰,可以在概念上分為五組(圖1,c):**參考舊模型添加正則化項(基于正則化的方法);逼近和恢復舊數據分布(基于回放的方法);顯式操作優化程序(基于優化的方法);學習魯棒和良好泛化的表示(基于表示的方法);以及使用正確設計的體系結構構建任務自適應參數(基于體系結構的方法)。該分類法擴展了常用分類法的最新進展,并為每個類別提供了細化的子方向。總結了這些方法是如何實現所提出的一般目標的,并對其理論基礎和典型實現進行了廣泛的分析。特別是,這些方法是緊密聯系的,例如正則化和重放最終糾正優化中的梯度方向,并且具有高度的協同性,例如,重放的效果可以通過從舊模型中提取知識來提高。 現實應用對持續學習提出了特殊的挑戰,可以分為場景復雜性和任務特異性。對于前者,例如,在訓練和測試中可能缺少任務oracle(即執行哪個任務),訓練樣本可能是小批量甚至一次引入的。由于數據標記的成本和稀缺性,持續學習需要在少樣本、半監督甚至無監督的場景中有效。對于后者,雖然目前的進展主要集中在視覺分類,但其他視覺領域(如目標檢測、語義分割和圖像生成)以及其他相關領域(如強化學習(RL)、自然語言處理(NLP)和倫理考慮)正在受到越來越多的關注,其機遇和挑戰。

**考慮到持續學習的興趣顯著增長,我們相信這項最新和全面的調研可以為后續的工作提供一個整體的視角。**盡管有一些關于持續學習的早期調研,覆蓋面相對較廣[70],[322],但近年來的重要進展并未被納入其中。相比之下,最新的調研通常只整理持續學習的局部方面,關于其生物學基礎[148],[156],[186],[227],視覺分類的專門設置[85],[283],[289],[346],以及NLP[37],[206]或RL[214]中的擴展。據我們所知,這是第一個系統總結持續學習的最新進展的調研。基于這些優勢,我們就當前趨勢、跨方向前景(如擴散模型、大規模預訓練、視覺轉換器、具體AI、神經壓縮等)以及與神經科學的跨學科聯系,深入討論了持續學習。

主要貢獻包括:

(1) 對持續學習進行了最新而全面的綜述,以連接理論、方法和應用的進步;

(2) 根據現有的理論和實證結果,總結了持續學習的一般目標,并對具有代表性的策略進行了詳細的分類; (3) 將現實應用的特殊挑戰分為場景復雜性和任務特殊性,并廣泛分析了持續學習策略如何適應這些挑戰; (4)深入探討了當前研究趨勢和發展方向,以期為相關領域后續工作提供參考本文的組織如下: 在第2節中,我們介紹了持續學習的設置,包括其基本公式,典型場景和評估指標。在第3節中,我們總結了一些針對其一般目標的持續學習的理論努力。在第4節中,我們對具有代表性的策略進行了最新的和詳細的分類,分析了它們的動機和典型的實現。在第5節和第6節中,我們描述了這些策略如何適應場景復雜性和任務特異性的現實挑戰。在第7節中,我們提供了當前趨勢的討論,交叉方向的前景和神經科學的跨學科聯系。

在本節中,我們詳細介紹了代表性持續學習方法的分類(參見圖3和圖1,c),并廣泛分析了它們的主要動機、典型實現和經驗屬性。

Regularization-based 方法

該方向的特點是添加顯式正則項來平衡新舊任務,這通常需要存儲舊模型的凍結副本以供參考(見圖4)。根據正則化的目標,這類方法可以分為兩類。

Replay-based 方法

將近似和恢復舊數據分布的方法分組到這個方向(見圖5)。根據回放的內容,這些方法可以進一步分為三個子方向,每個子方向都有自己的挑戰。

Optimization-based 方法

持續學習不僅可以通過向損失函數添加額外的項(例如正則化和重放)來實現,還可以通過顯式地設計和操作優化程序來實現。

Representation-based 方法

將創建和利用持續學習表示優勢的方法歸為這一類。除了早期通過元訓練[185]獲得稀疏表示的工作外,最近的工作試圖結合自監督學習(SSL)[125]、[281]、[335]和大規模預訓練[295]、[380]、[456]的優勢,以改進初始化和持續學習中的表示。請注意,這兩種策略密切相關,因為預訓練數據通常數量巨大且沒有明確的標簽,而SSL本身的性能主要通過對(一系列)下游任務進行微調來評估。下面,我們將討論具有代表性的子方向。

Architecture-based 方法

上述策略主要集中在學習所有具有共享參數集的增量任務(即單個模型和一個參數空間),這是導致任務間干擾的主要原因。相反,構造特定于任務的參數可以顯式地解決這個問題。以往的工作通常根據網絡體系結構是否固定,將該方向分為參數隔離和動態體系結構。本文專注于實現特定任務參數的方式,將上述概念擴展到參數分配、模型分解和模塊化網絡(圖8)。

付費5元查看完整內容

圖在表示關系數據(如化合物、蛋白質和社交網絡)方面具有卓越的能力。因此,圖級學習以一組圖作為輸入,已應用于許多任務,包括比較、回歸、分類等。傳統的圖學習方法往往依賴于手工設計的特征,如子結構。但是,雖然這些方法受益于良好的可解釋性,但它們往往遭受計算瓶頸,因為它們不能繞過圖同構問題。相反,深度學習通過自動提取特征并將圖解碼為低維表示,幫助圖級學習適應不斷增長的圖規模。**因此,這些深度圖學習方法取得了許多成功。然而,沒有一個全面的調研來回顧從傳統學習到深度學習方法的圖級學習。本文填補了這一空白,并將具有代表性的算法框架化為一個系統的分類,包括傳統學習、圖級深度神經網絡、圖級圖神經網絡和圖池化。為了確保一個徹底的全面的綜述,從四個不同的分支的開發方法之間的演變,交互和交流也被檢查。**接下來簡要回顧基準數據集、評估指標和常見的下游應用。該調研總結了13個必要研究的未來方向,這些研究將有助于克服這一蓬勃發展的領域面臨的挑戰。

//arxiv.org/abs/2301.05860

1. 引言

對圖結構數據的研究始于18世紀的哥尼斯堡橋問題,即:“我們如何在哥尼斯堡市的7座橋中設計一條每座橋只穿過一次的路徑?”1741年,Euler將7座橋梁建模成一個圖,并證明在沒有重復路徑[1]的情況下,該圖是不能完全遍歷的。在圖中,節點表示橋梁之間的連接點,而邊表示橋梁本身。**從那時起,圖結構數據已經成為建模和探索世界不可或缺的一部分。在大量與圖相關的文獻中,圖級學習引起了相當大的關注。圖級學習是對由圖組成的數據集的分析。**例如,圖同構問題,即兩個成對圖是否同構的問題,自1942年首次提出以來吸引了大量的研究[2]-[4][5]。進一步,在2016年[6]提出一個擬多項式時間解之前,圖同構被認為是NP-immediate的候選對象。還研究了其他有重要價值的應用。例如,Wang et al.[7]采用分子圖,其中節點表示原子,邊表示化學鍵,并執行圖回歸作為預測分子特性的一種方法,以幫助發現更經濟的晶體。在另一項研究中,基于一系列蛋白質圖的圖生成任務用于生成具有特定功能的蛋白質圖,以支持藥物發現[8]。同樣,基于腦圖的圖分類具有將神經系統疾病的腦結構與健康個體[9]的腦結構區分開來的潛力。

**傳統的圖級學習主要依賴手工設計的特征來區分圖。然而,盡管手工特征賦予了傳統方法良好的可解釋性,但它們通常具有較高的計算復雜度,這是阻礙其部署的主要障礙。**該方法的復雜性在于:(1)大規模圖數據中手工特征通常過于稀疏;(2)大多數依賴于這些手工特征的圖級學習算法通常涉及圖同構問題。例如,一些傳統的圖分類方法是根據從圖數據集中分解出的一系列子結構對圖進行分類的,其主要問題是判斷是否存在同構子結構。然而,深度學習技術已經開啟了圖級學習的新時代。通過這些方法,可以以端到端的方式自動學習圖的非線性和特定任務的特征,這為最先進的性能帶來了新的基準。此外,深度神經網絡學習的高維表示可以支持不斷增長的圖數據規模。美中不足的是,深度學習的黑箱性質導致可信性下降,因此一個新的趨勢是通過傳統技術開發可靠的神經網絡。

**此外,要理解跨越傳統和深度學習的各種圖級學習技術,需要全面回顧大量的圖級學習文獻。有一些關于學習圖結構數據的調研。**然而,這些評論有兩個主要缺點。首先,現有的研究大多集中在探索單個圖中的節點/邊/子結構的文章,如網絡嵌入[10]、社區檢測[11]、[12]、異常檢測[13]和圖神經網絡[14]、[15];圖級學習被視為占用分段或更少部分的副產品。圖1說明了單個圖上的圖學習和圖級別學習之間的差異。其次,僅從單一角度研究圖級學習,如圖核[16]或圖池[17]。因此,這些調研并不全面,因為它們忽略了不同圖級學習技術之間的相互作用。據我們所知,這是對圖級學習的第一次全面調查,涵蓋了傳統方法和基于深度學習的技術。詳盡地描述了圖級學習不同時期的主流技術(見圖2),并進一步討論了它們之間的演變、相互作用和交流。因此,本調研的貢獻包括: * 全面的分類法:本文提出了圖級學習技術的全面分類法。具體來說,該分類涵蓋了通過傳統和深度學習方法進行的圖級學習。 * 深度回顧:總結了四類具有代表性的算法,進行了比較,并討論了現有方法的貢獻和局限性。 * 豐富的資源:這份調研為讀者提供了豐富的圖級學習資源,包括最先進算法的信息,不同領域的基準數據集,不同圖級學習任務的公平評估指標,以及實際的下游應用。本文的存儲庫可在 * 未來方向:本文確定了圖級學習領域的13個重要未來方向。

圖2:四種主流技術下的圖級學習時間線。

**本節提供圖級學習技術的分類。**它的類別包括傳統學習,圖級深度神經網絡(GL-DNNs),圖級圖神經網絡(GL-GNNs)和圖池化。圖3中的分類樹描述了圖級學習的這四個分支,并突出了所選算法。接下來簡要介紹每一類。 A. 傳統的學習:

在深度學習技術取得巨大成功之前,傳統的學習形式曾經是圖級學習的主流。傳統的學習方法大多依賴手工特征來描述圖,如隨機游走序列[16]。給定確定性的圖描述,使用現成的機器學習模型以非端到端的方式執行下游任務,如圖分類。即使在今天,傳統方法也比深度學習技術具有一些優勢,例如更好的可解釋性和更好的建模不規則結構的能力。出于這些原因,傳統方法仍然為圖級學習社區提供了有價值的見解。

B.圖級深度神經網絡(GL-DNNs):

傳統方法不僅僅包括經典方法。它們還包括對深度學習技術的初步探索,如RNN、CNN和CapsNet。這三種類型的深度神經網絡最初并不是為了學習像圖這樣的非歐氏數據而設計的。因此,GL-DNNs的一個重要問題是如何使這些深度神經網絡學習大小不一且鄰域結構不規則的圖結構數據。

C.圖級圖神經網絡(GL-GNNs):

GL-GNNs使用專門為圖結構數據提出的圖卷積操作作為執行圖級學習的主干。大多數GL-GNN使用圖卷積MPNNs框架,因為它們簡單,易于理解,并且具有線性復雜度。GL-GNNs凝聚了圖級學習最豐富的成果。此外,一些從業者將基于MPNN的GL-GNN的優勢與其他技術,特別是傳統學習技術相結合,以提高圖級學習。

D .圖池化:

圖池化是一種縮小圖規模的技術,通過將一系列節點壓縮為一個超級節點來產生圖的緊湊表示。例如,圖池化可以通過求和或平均操作將圖的所有節點嵌入全局聚合到一個最終超級節點中。同時,圖池化可以逐層減小圖的大小。這種多層縮小過程傾向于在每一層聚集同一層次結構(例如,社區)中的節點。

付費5元查看完整內容

機器學習是實現人工智能的重要技術手段之一,在計算機視覺、自然語言處理、搜索引擎與推薦系統等領域有著重要應用.現有的機器學習方法往往注重數據中的相關關系而忽視其中的因果關系,而隨著應用需求的提高,其弊端也逐漸開始顯現,在可解釋性、可遷移性、魯棒性和公平性等方面面臨一系列亟待解決的問題.為了解決這些問題,研究者們開始重新審視因果關系建模的必要性,相關方法也成為近期的研究熱點之一.在此對近年來在機器學習領域中應用因果技術和思想解決實際問題的工作進行整理和總結,梳理出這一新興研究方向的發展脈絡.首先對與機器學習緊密相關的因果理論做簡要介紹;然后以機器學習中的不同問題需求為劃分依據對各工作進行分類介紹,從求解思路和技術手段的視角闡釋其區別與聯系;最后對因果機器學習的現狀進行總結,并對未來發展趨勢做出預測和展望.

地址://crad.ict.ac.cn/CN/10.7544/issn1000-1239.202110780

0. 引言

機器學習是一門研究如何設計算法、利用數據 使機器在特定任務上取得更優表現的學科,其中以 深度學習[1] 為代表的相關技術已成為人們研究實現 人工智能方法的重要手段之一.至今機器學習研究已 經取得大量令人矚目的成就:在圖像分類任務上的 識別準確率超過人類水平[2] ;能夠生成人類無法輕易 識別的逼真圖像[3] 和文本[4] ;在圍棋項目中擊敗人類 頂尖棋手[5] ;蛋白質結構預測結果媲美真實實驗結 果 [6] 等.目前機器學習在計算機視覺、自然語言處理、 搜索引擎與推薦系統等領域發揮著不可替代的作用, 相關應用涉及互聯網、安防、醫療、交通和金融等眾 多行業,對社會發展起到了有力的促進作用. 盡管機器學習研究獲得了一系列豐碩的成果, 其自身的問題卻隨著應用需求的提高而日益凸顯.機 器學習模型往往在給出預測結果的同時不會解釋其 中的理由,以至于其行為難以被人理解[7] ;同時機器 學習模型還十分脆弱,在輸入數據受到擾動時可能 完全改變其預測結果,即使這些擾動在人看來是難以 察覺的[8] ;機器學習模型還容易產生歧視行為,對不 同性別或種族的人群給予不同的預測傾向,即使這 些敏感特征不應當成為決策的原因[9] .這些問題嚴重 限制了機器學習在實際應用中發揮進一步的作用.造成這一系列問題的一個關鍵原因是對因果關 系的忽視.因果關系,指的是 2 個事物之間,改變一 者將會影響另一者的關系.然而其與相關關系有所不 同,即使 2 個事物之間存在相關關系,也未必意味著 它們之間存在因果關系.例如圖像中草地與牛由于常 在一起出現而存在正相關關系,然而兩者之間卻沒 有必然的因果關系,單純將草地改為沙地并不會改 變圖像中物體為牛的本質.機器學習的問題在于其模 型的訓練過程僅僅是在建模輸入與輸出變量之間的 相關關系,例如一個識別圖像中物體類別的機器學 習模型容易將沙地上的牛識別為駱駝,是因為訓練 數據中的牛一般出現在草地上而沙地上更常見的是 駱駝.這種具備統計意義上的相關性卻不符合客觀的 因果規律的情況也被稱為偽相關(spurious correlation). 偽相關問題的存在對只考慮相關性的機器學習模型 帶來了災難性的影響:利用偽相關特征進行推斷的 過程與人的理解不相符,引發可解釋性問題;在偽相 關特征發生變化時模型預測結果會隨之改變從而導 致預測錯誤,引發可遷移性和魯棒性問題;如果偽相 關特征恰好是性別和膚色等敏感特征,則模型決策 還會受到敏感特征的影響,引發公平性問題.忽視因 果關系導致的這些問題限制了機器學習在高風險領 域及各類社會決策中的應用.圖靈獎得主 Bengio 指出, 除非機器學習能夠超越模式識別并對因果有更多的 認識,否則無法發揮全部的潛力,也不會帶來真正的 人工智能革命.因此,因果關系的建模對機器學習是 必要的,需求也是十分迫切的. **因果理論即是描述、判別和度量因果關系的理 論,由統計學發展而來.長期以來,由于缺乏描述因果 關系的數學語言,因果理論在統計學中的發展十分 緩慢.**直到 20 世紀末因果模型被提出后,相關研究才 開始蓬勃興起,為自然科學和社會科學領域提供了 重要的數據分析手段,同時也使得在機器學習中應 用因果相關的技術和思想成為可能.圖靈獎得 主 Pearl 將這一發展歷程稱為“因果革命” [10] ,并列舉了 因果革命將為機器學習帶來的 7 個方面的幫助[11] . 本文將在機器學習中引入因果技術和思想的研究方 向稱為因果機器學習(causal machine learning).目前機 器學習領域正處于因果革命的起步階段,研究者們 逐漸認識到了因果關系建模的必要性和緊迫性,而 因果機器學習的跨領域交叉特點卻限制了其自身的 前進步伐.本文希望通過對因果理論和因果機器學習 前沿進展的介紹,為相關研究者掃清障礙,促進因果 機器學習方向的快速發展.目前針對因果本身的研究 已有相關綜述文獻 [12?14],內容主要涵蓋因果發現 和因果效應估計的相關方法,但很少涉及在機器學習任務上的應用.綜述文獻 [15?16] 詳細地介紹了因 果理論對機器學習發展的指導作用,著重闡述現有 機器學習方法的缺陷和因果理論將如何發揮作用, 但缺少對這一方向最前沿工作進展的整理和介紹, 而這正是本文重點介紹的內容.

1 因果理論簡介

因果理論發展至今已成為統計學中的一個重要 分支,具有獨有的概念、描述語言和方法體系.對于 因果關系的理解也已經不再僅停留在哲學概念的層 面,而是有著明確的數學語言表述和清晰的判定準 則.當前廣泛被認可和使用的因果模型有 2 種:潛在 結果框架(potential outcome framework)和結構因果模 型(structural causal model, SCM).Splawa-Neyman 等 人 [17] 和 Rubin[18] 提出的潛在結果框架又被稱為魯賓 因果模型(Rubin causal model, RCM),主要研究 2 個 變量的平均因果效應問題;Pearl[19] 提出的結構因果 模型使用圖結構建模一組變量關系,除了效應估計 也會關注結構發現問題.RCM 與 SCM 對因果的理解 一致,均描述為改變一個變量是否能夠影響另一個 變量,這也是本文所考慮的因果范疇.兩者的主要區 別在于表述方法不同,RCM 更加簡潔直白,相關研究 更為豐富;而 SCM 表達能力更強,更擅長描述復雜 的問題.雖然目前依然存在對因果的其他不同理解, 這些理解通常不被視為真正的因果,例如格蘭杰因 果(Granger causality) [20] 描述的是引入一個變量是否 對另一個變量的預測有促進作用,本質上仍是一種 相關關系. 本節將對因果相關概念以及 RCM 與 SCM 的相 關理論和技術進行簡要介紹.由于本文關注的主要內 容是因果機器學習而不是因果本身,本節將側重于 介紹機器學習中所使用的因果的概念和思想,而不 會過多關注因果領域自身的前沿研究.

**2 因果機器學習相關工作介紹 **

近年來隨著因果理論和技術的成熟,機器學習 領域開始借助因果相關技術和思想解決自身的問題, 這一研究方向逐漸受到研究者越來越多的關注.至今,因果問題被認為是機器學習領域亟待解決的重要問 題,已成為當下研究的前沿熱點之一.機器學習可以 從因果技術和思想中獲得多個方面的益處.首先,因 果理論是一種針對數據中規律的普適分析工具,借 助因果圖等語言可以對研究的問題做出細致的分析, 有利于對機器學習模型的目標進行形式化以及對問 題假設的表述.其次,因果推斷提供了消除混雜因素 以及進行中介分析的手段,對于機器學習任務中需 要準確評估因果效應及區分直接與間接效應的場景 有十分重要的應用價值.再者,反事實作為因果中的 重要概念,也是人在思考求解問題時的常用手段,對 于機器學習模型的構建和問題的分析求解有一定的 指導意義. 本節將對近年來因果機器學習的相關工作進行 整理介紹,涉及應用領域包括計算機視覺、自然語言 處理、搜索引擎和推薦系統等.按照所解決問題的類 型進行劃分,因果機器學習主要包括以下內容:可解 釋性問題主要研究如何對已有機器學習模型的運作 機制進行解釋;可遷移性問題主要研究如何將模型 在特定訓練數據上學到的規律遷移到新的特定環境; 魯棒性問題主要研究尋找普適存在的規律使模型能 夠應對各種未知的環境;公平性問題主要研究公平 性度量指標并設計算法避免歧視;反事實評估問題 主要研究如何在存在數據缺失的場景中進行反事實 學習.這些問題與因果理論的關系如圖 4 所示,下面 針對這些問題分別展開介紹.

**2.1 可解釋性問題 **

機器學習模型會根據給定輸入計算得到對應的 輸出,但一般不會給出關于“為什么會得到此輸出” 的解釋.然而這種解釋有助于人們理解模型的運作機 制,合理的解釋能夠使結果更具有說服力.因此近年 來涌現出許多致力于為現有模型提供解釋方法的工 作,為模型的診斷分析提供了有效手段[39] .解釋的核 心在于“模型得到此輸出,是因為輸入具有什么樣的 特征”,這本質上是在探討在此模型參與過程中輸入 特征與輸出結果之間的因果關系,例如估計特征對 輸出變量的因果效應強度. 由于機器學習模型對輸入數據的處理過程是一 個獨立而完整的過程,輸入與輸出變量之間一般不 會受到混雜因素的影響,因此即使不使用因果術語 也可以對任務進行描述.這體現為早期的模型解釋方 法并不強調因果,少數強調因果的方法也并不一定依賴因果術語.因果理論的引入為可解釋性問題領域 帶來的貢獻主要有 2 個方面:一是在基于歸因分析 的解釋方法中建模特征內部的因果關系;二是引入 一類新的解釋方法即基于反事實的解釋.基于歸因分 析和基于反事實的解釋構成了當前最主要的 2 大類 模型解釋方法如表 1 所示,以下分別展開介紹.

2.2 可遷移性問題

機器學習研究通常會在一個給定的訓練數據集 上訓練模型,然后在同數據分布的驗證集或測試集 上進行測試,這種情況下模型的表現稱為分布內泛 化(in-distribution generalization).在一般的應用場景中, 機器學習模型會部署在特定數據環境中,并使用該 環境中產生的數據進行模型訓練,其性能表現可以用分布內泛化能力來度量.然而在一些場景中,目標 環境中的標注數據難以獲取,因此更多的訓練數據 只能由相似的替代環境提供.例如訓練自動駕駛的智 能體時由于風險過高不能直接在真實道路上行駛收 集數據,而只能以模擬系統中所獲取的數據為主進 行訓練.這種場景下的機器學習任務又稱為域適應 (domain adaptation),屬于遷移學習(transfer learning) 的范疇,即將源域(source domain)中所學到知識遷移 至目標域(target domain).這里的域(domain)和環境 (environment)的含義相同,可以由產生數據的不同概 率分布來描述,下文將沿用文獻中各自的習慣稱呼, 不再對這 2 個概念進行區分. 在可遷移性問題中,因果理論的主要價值在于 提供了清晰的描述語言和分析工具,使研究者能夠 更準確地判斷可遷移和不可遷移的成分,有助于設 計針對不同場景的解決方案.因果推斷中關注的效應 估計問題本質上是在研究改變特定環境作用機制而 保持其他機制不變的影響,這與遷移學習中域的改 變的假設相符,即目標域和源域相比繼承了部分不 變的機制可以直接遷移,而剩余部分改變的機制則 需要進行適應.因此在因果理論的指導下,遷移學習 中的關鍵問題就是建模并識別變與不變的機制.目前 因果遷移學習一般假設輸入 與輸出 之間有直接 因果關系,重點關注無混雜因素情況下變量的因果 方向和不變機制,如表 2 所示,以下介紹相關工作

2.3 魯棒性問題

遷移學習允許模型獲得目標環境的少量數據以 進行適應學習,然而在一些高風險場景中,可能需要 機器學習模型在完全陌生的環境中也能正常工作, 如醫療、法律、金融及交通等.以自動駕駛為例,即使 有大量的真實道路行駛數據,自動駕駛智能體仍會 面臨各種突發情況,這些情況可能無法被預見但仍 需要被正確處理.這類任務無法提供目標環境下的訓 練數據 ,此時模型的表現稱為分布外泛化(out-ofdistribution generalization).如果模型具有良好的分布 外泛化能力,則稱其具有魯棒性(robustness). X Y P ′ (X, Y) P(X, Y) Y X P ′ (X|Y) = P(X|Y) 這類問題在未引入因果術語的情況下就已經展 開了廣泛的研究.如分布魯棒性研究[79-81] 考慮當數據 分布改變在一定幅度之內時如何學習得到魯棒的模 型,常見思路是對訓練樣本做加權處理;對抗魯棒性 研究[8,82-83] 考慮當樣本受到小幅度擾動時模型不應當 改變輸出結果,常見思路是將對抗攻擊樣本加入訓 練.這類研究常常忽略變量間的因果結構,面臨的主 要問題是很難決定數據分布或者樣本的擾動幅度大 小和度量準則,這就使得研究中所做的假設很難符 合真實場景,極大地限制了在實際中的應用.因果理 論的引入為建模變量間的結構提供了可能,同時其 蘊含的“機制不變性”原理為魯棒性問題提供了更合 理的假設,因為真實數據往往是從遵循物理規律不 變的現實世界中采集獲得.例如針對輸入為 、輸出 為 的預測問題,不考慮結構的分布魯棒性方法會假 設未知環境 應當與真實環境 的差異較 小,如限制聯合分布的 KL 散度小于一定閾值;而考 慮結構的因果方法則通常會假設機制不變,例如當 是 的因時假設 ,在因果關系成立的 情況下后者通常是更合理的. 一些從偽相關特征入手研究魯棒性問題的工作 雖然未使用因果術語,實際上已經引入了因果結構 的假設.這些工作針對的往往是已知的偽相關特征, 如圖像分類任務中的背景、文本同義句判斷 SNLI 數 據集中的單條文本[84]、重復問題檢測 QuaraQP 數據 集中的樣本頻率[85] 等.在實際場景中針對這些偽相關 特征進行偏差去除(debias),以避免其分布發生變化 時影響模型表現.這類工作隱含的假設是偽相關特征 與目標預測變量沒有因果關系.一種直接的解決方法 是調整訓練數據的權重,使得偽相關特征不再與預 測變量相關[85] .還有一類方法會單獨訓練一個僅使用 偽相關特征預測的模型,然后將其與主模型融合在 一起再次訓練,完成后僅保留主模型[86-87] .然而由于實 際應用中通常很難預先確定偽相關特征,這類工作 在解決魯棒性問題上具有明顯的局限性. 因果理論的引入對于解決魯棒性問題提供了新 的思路,主要的優勢在于對變量結構的建模和更合 理的假設.這類方法包括反事實數據增強(counterfactual data augmentation)、因果效應校準和不變性學 習.如表 3 所示 ,反事實數據增強考慮從數據入手消 除偽相關關系,因果效應校準通過調整偏差特征的 作用來減輕偏差,不變性學習通過改變建模方式學 習不變的因果機制,以下分別展開介紹.

2.4 公平性問題

機器學習中的公平性(fairness)指的是,對于特 定的敏感特征如性別、年齡、種族等,不同的取值不 應該影響某些任務中機器學習模型的預測結果,如 貸款發放、法律判決、招生招聘等.公平性對于機器 學習在社會決策中的應用是十分重要的考慮因素, 與因果有密切的關系,直觀上體現為敏感特征不應 成為預測結果的因變量.模型中存在的不公平常常由 偽相關特征問題導致,因此公平性也可以視為針對 敏感特征的魯棒性,但有著自己獨有的術語和研究 體系.下面首先介紹一下公平性的基本概念,然后介 紹因果理論在公平性問題中的應用. A X Y f Y? = f(A, X) f(A, X) = f(X) 公平性的定義和度量指標目前十分多樣化,并 沒有完全統一確定,不同的定義所反映的問題也有 所不同,甚至可能是相互不兼容的[139] .為便于表述, 記敏感特征為 ,其他觀測特征為 ,真實輸出結果 為 ,模型為 ,模型預測結果為 (本節所用 符號與前文無關).早期公平性問題的相關工作并沒 有考慮因果,最簡單直白的方式是在決策時避免使 用敏感特征[140] ,即 .然而這一方案顯然 是不夠的,因為其他特征中也可能會包含敏感特征 的信息.因此一般會考慮個體級別的公平性或者群體 級別的公平性的度量,并設計方法實現.個體公平性 (individual fairness)通常會限制相似的個體之間應該 P(Y?|A = 0) = P(Y?|A = 1) P (Y?|A = 0, Y = 1) = P(Y?|A = 1, Y = 1) F P(Y?|A = 0, F) = P(Y?|A = 1, F) 有相似的預測結果[141] ,難點在于相似性指標的設計. 群體公平性(group fairness)會定義不同的群體并設置 度量指標使得各個群體之間差異盡可能小,一種思 路是人群平等(demographic parity) [142] ,希望在不同敏 感特征取值的群體中預測結果的分布一致 ,即 ; 另 一 種 思 路 是 機 會 均 等 (equality of opportunity) [143] ,希望在那些本該有機會 的人群所獲得的機會不受敏感特征的影響 ,即 ;還有一種思路是條件 公平(conditional fairness) [144] ,希望在任意公平變量 條 件下不同敏感特征群體的結果一致,即 .這些定義并不考慮特征內部的依賴關系, 對模型的決策機制也沒有區分性,在更細致的公平 性分析中難以滿足要求.因果理論的引入為公平性研 究起到了極大的推動作用,許多概念必須借助因果 的語言才能表達,如表 4 所示:

2.5 反事實評估問題

反事實評估(counterfactual evaluation)指的是機 器學習模型的優化目標本身是反事實的,這通常出 現在使用有偏差的標注數據訓練得到無偏模型的情 景,例如基于點擊數據的檢索和推薦系統學習任 務.由于任務本身需要反事實術語進行表述,因果理 論對這類問題的建模和研究起到了關鍵性的作用, 如表 5 所示:

3 總結與展望

本文介紹了因果相關的概念、模型和方法,并著 重對因果機器學習在各類問題上的前沿研究工作展 開詳細介紹,包括可解釋性問題、可遷移性問題、魯 棒性問題、公平性問題和反事實評估問題等.從現有 的應用方式來看,因果理論對于機器學習的幫助在 不同的問題上具有不同的表現,包括建模數據內部 結構、表達不變性假設、引入反事實概念和提供效 應估計手段等,這在缺少因果術語和方法的時代是 難以實現的.有了因果理論的幫助,機器學習甚至可 以探討過去無法討論的問題,如干預和反事實操作 下的預測問題. 對于可解釋性、公平性和反事實評估問題,因果 理論和方法已成為描述和求解問題所不可缺少的一 部分,且應用方式也漸趨成熟.這是由于對特征的重 要程度的估計、對模型公平性的度量和對反事實策 略效用的評估均屬于因果效應估計的范疇,問題本 身需要使用因果的術語才能得到清晰且完整的表達, 因果推斷的相關方法自然也可以用于問題的求解.可 以預見,未來這些問題將繼續作為因果理論和方法 的重要應用場景,伴隨因果推斷技術的發展,向著更 加準確和高效的目標前進. 對于可遷移性和魯棒性問題,目前所采用的因 果相關方法大多還處于較淺的層次,有待深入挖掘 探索.在這些問題上,因果推斷的相關技術不易直接 得到應用,這是由于這類問題的目標不再是單純估 計因果效應或者發現因果結構,而是需要識別跨環 境不變的機制.這對于因果而言是一項全新的任務, 需要研究新的方法來求解.在機器學習尤其是深度學 習中,這項任務的主要難點在于數據的高維復雜性. 對于圖像和文本等數據而言,其顯式特征高度耦合, 難以從中提取出有效的因果變量,阻礙了效應估計 和結構發現等后續分析手段.目前所采用的反因果遷 移、反事實數據增強和因果效應校準等手段大多只 能針對可觀測的已知變量進行處理,適用范圍受到 很大限制.相對地,不變性學習有能力處理未知的偽 相關特征并識別因果特征,具有良好的發展前景.然 而目前的不變性學習方法也存在局限性,主要在于 對數據做了較強的因果結構假設,一方面數據可能 無法滿足假設而又缺少驗證假設的手段,另一方面 需要為滿足不同假設的數據設計不同的方法而缺乏 通用性.因此,未來在這些方向上都值得開展研究.一 種思路是繼續針對具體任務做出不同的因果結構假 設,并設計對應的學習算法,這就需要構建成體系的 解決方案并配備驗證假設的手段;另一種思路是從 數據本身出發,推斷和發現潛在的因果結構,這就需要研究全新的方法來突破由數據的高維復雜性帶來 的障礙. 從因果機器學習的研究進展來看,機器學習領 域的因果革命將大有可為.不可否認,當前正處于因 果革命的起步階段,由于現實問題存在極高的復雜 性,這一革命的歷程也將曲折而艱辛,需要更多的研 究和支持.希望更多的研究者能夠加入到因果機器學 習的研究中來,共同創造和見證因果革命的新時代.

付費5元查看完整內容

機器學習和數據挖掘中的許多重要問題,如知識庫推理、個性化實體推薦、科學假設生成等,都可以歸結為圖數據結構上的學習和推理。這些問題代表了推進圖學習的令人興奮的機會,但也帶來了重大挑戰。由于圖通常是稀疏的,并且由模式定義,因此它們通常不能完全捕獲數據中潛在的復雜關系。將圖與豐富的輔助文本模態相結合的模型具有更高的表達潛力,但聯合處理這些不同的模態——即稀疏的結構化關系和密集的非結構化文本——并不是直接的。

本文考慮了通過結合結構和文本來改進圖學習的重要問題。論文的第一部分考慮了關系知識表示和推理任務,展示了預訓練上下文語言模型在為圖結構知識庫增加新的深度和豐富度方面的巨大潛力。論文的第二部分超越了知識庫,通過對文檔交互和內容進行聯合建模,改進信息檢索和推薦系統中出現的圖學習任務。所提出的方法在單模態和跨模態基線上不斷提高準確性,這表明,通過適當選擇的歸納偏差和仔細的模型設計,可以充分利用結構和文本的獨特互補方面。

//deepblue.lib.umich.edu/handle/2027.42/174515

付費5元查看完整內容

圖學習旨在學習現實世界中常見的復雜節點關系和圖的拓撲結構,如社交網絡、學術網絡和電子商務網絡等。這些關系使得圖數據與傳統的表格數據不同,其中節點依賴于非歐氏空間,包含了豐富的信息。圖學習從圖論發展到圖數據挖掘,現在被賦予表示學習的能力,使其在各種場景中取得了出色的性能,甚至包括文本、圖像、化學和生物。由于在現實世界中的廣泛應用前景,圖學習已經成為機器學習中一個熱門且有前景的領域**。**

近年來,已有成千上萬的研究成果被提出用于解決圖學習中的各種問題,引起了學術界越來越多的關注,因此對已有的有價值的研究成果進行綜述變得至關重要。盡管一些研究人員已經注意到這種現象,并完成了關于圖學習的令人印象深刻的調研。然而,由于圖學習的快速擴展,它們未能以更合乎邏輯的方式將相關目標、方法和應用聯系起來,并涵蓋當前豐富的場景和具有挑戰性的問題。

1. 引言

圖學習旨在對圖進行建模,圖是一種廣泛存在于真實場景中的非歐氏數據,與以往機器學習中的數據結構有很大不同,如社交網絡[1]、[2]、[3],學術網絡[4]、[5]、[6],電子商務網絡[7]、[8]、[9],企業知識圖譜[10]、[11]、[12]等。挖掘圖中節點間復雜連接關系和拓撲結構中蘊含的豐富信息,對于圖上的許多任務和應用具有重要意義。此外,傳統應用也可以轉換為圖數據(如計算機視覺[13]、[14]、[15]、語言模型[16]、[17]、[18]、物理[19]、[20]和化學[21]、[22])。重點假設不同實體之間存在許多未直接觀察到的潛在聯系。這使得圖學習不僅是一種處理自然圖結構的方法,而且是一種思考各種問題的方式。

由于圖學習具有廣闊的應用前景,因此在國內外引起了廣泛的關注。盡管之前關于圖的理論工作幫助人們理解圖上的各種字符,并提供了基本的分析框架。這些工作通常集中在較小的模擬圖上,這限制了它們在真實場景中的應用,特別是當圖上存在復雜的關系和結構時。

盡管在這一領域已經有了一些顯著而詳細的調查。目前還缺乏一個綜合的、將相關的目標、方法和應用聯系起來,形成一個有機的、邏輯的綜述。此外,每年在頂級會議上都有數百篇關于圖學習的研究,并且數量還在高速增長。由于其發展迅速,缺乏涵蓋最新趨勢和挑戰的全面調研。 圖2按時間順序展示了有影響力的圖學習方法。這些方法主要分為3類(圖挖掘方法、圖表示方法和深度圖學習方法)。在圖學習早期,大多數方法集中于圖的字符[1]或利用圖的結構信息在小圖[25]、[26]上完成一些下游任務。圖表示學習目前占據主流地位,可歸納為圖嵌入方法和圖神經網絡方法兩大類。這兩類方法都旨在學習節點、邊或圖的語義表示。前者直接優化嵌入,可以減少圖結構信息的損失;后者利用深度神經網絡,在圖上建模信息傳遞過程。

如圖3所示,在本綜述中,我們從圖學習目標的角度提供了一個直觀的分類法。根據圖的元素(即節點、邊和圖結構)對以前對圖的工作進行排序。基于這種邏輯,綜述了圖上的相關方法和任務。展示了圖學習在現實世界中的各種應用上的出色性能。最后,提出了圖學習的發展趨勢和挑戰,以期進一步推動該領域的研究。

本綜述的主要貢獻總結如下。

  • 提供了一個新的分類法,以調查以前關于數據、模型和任務的研究。
  • 總結了當前圖學習在現實世界中的應用。
  • 提出了圖學習的當前趨勢和挑戰。

本文的其余部分組織如下。第2節從數據、模型和任務3個角度,基于節點、邊和圖結構對已有工作進行了直觀的分類。第3節展示了用于圖學習的主要方法和當前的研究趨勢。第四部分總結了該方法在實際中的應用。第5節提出了當今圖學習面臨的挑戰。

2 方法

在本節中,我們將當前的模型分為兩大類(即傳統模型和圖神經網絡)。傳統模型可以進一步分為3類(即矩陣分解模型、基于隨機游走的模型和基于自編碼器的模型)。首先回顧了傳統模型,其中一些仍然活躍或與GNN相結合,并給出了當前模型的許多啟示。在大多數場景下,與傳統模型相比,GNN表現出更高的表達能力和出色的性能。本文將GNN歸納為兩個方面。

3 應用

介紹當前圖學習在現實世界中的主要應用,包括傳統的機器學習場景,如推薦系統、自然語言處理、計算機視覺和金融科技,以及科學場景中的新興應用,如化學、生物、物理和數學。最后,總結了圖學習中流行的數據集。

付費5元查看完整內容

生成模型作為統計建模的一個重要家族,其目標是通過生成新實例來學習觀察到的數據分布。隨著神經網絡的興起,深度生成模型,如變分自編碼器(vais)和生成對抗網絡(GANs),在二維圖像合成方面取得了巨大的進展。近年來,由于三維數據與我們的物理世界更接近,在實踐中具有巨大的潛力,研究者們將研究的重點從二維空間轉向了三維空間。然而,與2D圖像不同的是,2D圖像本質上擁有高效的表示(即像素網格),表示3D數據可能面臨更多的挑戰。具體地說,我們希望理想的3D表示能夠足夠詳細地建模形狀和外觀,并且能夠高效地建模高分辨率數據,速度快,內存成本低。然而,現有的三維表示方法,如點云、網格和最近的神經場,通常不能同時滿足上述要求。在本文中,我們從算法和更重要的表示兩方面對3D生成的發展進行了全面的回顧,包括3D形狀生成和3D感知圖像合成。我們希望我們的討論可以幫助社區跟蹤這一領域的發展,并進一步激發一些創新的想法來推進這一具有挑戰性的任務。

//www.zhuanzhi.ai/paper/494ecc28feabb3aeaade6da6523b430f

概述

深度學習[1]的快速發展顯著推進了計算機視覺領域的許多任務,如視覺物體識別[2]、[3]、物體檢測[4]、[5]、[6]、圖像渲染[7]、[8]、[9]等,并在許多方面促進了我們的日常生活,如自動駕駛[10]、[11]、生物研究[12]、智能創造[13]、[14]。在所有類型的技術中,生成建模[15],[16],[17]在數據分析和機器學習中扮演著重要的角色。與直接對輸入進行預測的判別模型不同,生成模型旨在通過創建新實例來再現數據分布。為此,需要對數據進行全面的描述。例如,一個檢測模型可以忽略與任務無關的信息(例如,顏色)而不犧牲性能,但是生成模型被期望管理圖像的每一個細節(例如,對象排列以及每個對象的紋理),以獲得令人滿意的生成。從這個角度來看,學習生成模型通常更具挑戰性,但促進了一系列應用[14],[18],[19],[20]。

在過去的幾年里,深度生成模型[15],[16],[17]在2D圖像合成中取得了不可思議的成功[14],[21],[22]。盡管公式不同,變分自編碼器(vais)[16]、自回歸模型(ARs)[23]、歸一化流(NFs)[24]、生成對抗網絡(GANs)[15]和最新的擴散概率模型(DPMs)[17]都能夠將潛在變量轉換為高質量圖像。然而,如今二維空間中的學習生成模型已經不能滿足一些現實應用的需求,因為我們的物理世界實際上位于3D空間之下。以電影行業為例,我們希望設計3D數字資產,而不是簡單地生產2D圖像,帶來沉浸式的體驗。現有的內容創建管道通常需要大量的專業知識和人力,這可能是耗時和昂貴的。在研究如何自動生成3D數據a1方面,已經進行了許多開拓性的嘗試[25],[26],[27],[28],[29],[30],但這類研究仍處于早期階段。

2D生成和3D生成之間的一個關鍵區別是數據格式。具體來說,二維圖像可以自然地表示為像素值的數組,神經網絡[2]、[3]可以方便地處理這些像素值。相反,有許多3D表示來描述一個3D實例,如點云[31],[32],網格[33],[34],體素網格[35],[36],多平面圖像[37],隱式神經表示[9]等。每種表示都有其優點和局限性。例如,網格緊湊地表示3D形狀,但由于數據結構不規則,神經網絡很難分析和生成。相比之下,體素網格有規律地位于三維空間中,與標準卷積神經網絡工作良好,但體素網格消耗內存,難以表示高分辨率3D場景。因此,選擇合適的表示形式對于3D內容生成至關重要。

鑒于3D生成模型的快速發展,文中對該領域進行了全面的綜述,以幫助社區跟蹤其發展。我們想提到的是,在文獻中已經有一些調查研究生成模型[38],[39],3D視覺[40],[41],[42],[43],以及3D結構[44]和面孔[45]的生成,但仍然缺少對3D生成的全面回顧。如前所述,要完成這樣一項具有挑戰性的任務,有許多候選算法(如vais和GANs)和表示(如點云和隱式神經表示)可供選擇。這個調查有助于理清不同類型的生成模型如何適用于不同的表示。我們將本文的其余部分組織如下。第二節闡明了這項綜述的范圍。第三節介紹了3D生成任務的基本原理,包括各種生成模型的公式和流行的3D表示。第4和第5節分別總結了現有的3D形狀生成方法和3D感知圖像合成方法。第6節討論了3D生成模型的下游應用。第7節提供了3D生成領域的未來工作。

本綜述范圍

在本研究中,我們重點研究訓練網絡對目標三維樣本的數據分布進行建模的方法,并支持三維表示合成的采樣。我們還包括基于某些輸入(如圖像、部分點云或文本句子)預測條件概率分布的方法。請注意,這些條件生成方法旨在合成尊重輸入的3D表示,同時保持生成多樣性。這與經典的三維重建方法形成對比,后者建立從輸入到目標三維表示的一對一映射。我們建議讀者參考[40]、[46]對這些方法的綜述。雖然我們的綜述包括生成3D表示的方法,但我們沒有完全覆蓋神經渲染方法,[40]和[47]中已經詳細討論過。該綜述是對現有的生成模型[38],[39],[44]的調查的補充。

基礎模型

生成式模型旨在以一種無監督的方式了解實際的數據分布,通過嘗試從給定的信息中生成盡可能真實的數據,從而捕獲更多的細節并顯示出更多的創造力。具體來說,首先需要生成模型來總結輸入數據的分布,然后利用生成模型在給定的數據分布中創建或合成樣本。一般來說,生成模型可以分為兩大類。一種是基于似然的模型,包括變分自編碼器(ves)[16],歸一化流(N-Flows)[24],擴散模型(DDPMs)[17]和基于能量的模型(EBMs)[48],這些模型是通過最大化給定數據的似然來學習的。另一種是無似然模型,包括生成對抗網絡(GANs)[15],它建立在兩名玩家的最小最大博弈之上,以尋找納什均衡。下面,我們將簡要回顧不同類型的生成模型。圖1顯示了每個生成模型的一般概念。

計算機視覺和計算機圖形社區已經開發了各種3D場景表示,包括體素網格、點云、網格和神經場。這些表示在三維形狀生成和三維感知圖像合成任務中表現出各自的優點和缺點。例如,與結構良好的2D圖像相比,大多數3D表示都不是常規格式,不能用標準cnn直接處理。3D體素網格通常是規則的,這使得它能夠很好地與3D卷積網絡一起工作。然而,體素網格往往消耗內存,因此難以表示高分辨率的形狀。神經場理論上支持高分辨率形狀建模,但訓練過程中對隱式表示的有效監督是一個有待解決的問題。

三維形狀生成

目前,大多數三維形狀生成方法都是訓練深度神經網絡來獲取三維形狀的分布。與2D圖像相比,3D形狀有許多類型的表示,如體素網格、點云、網格和神經場。這些表示方法在三維形狀生成任務中各有優缺點。評估3D表示是否能與深度生成模型很好地工作,可以考慮很多方面,包括網絡處理表示的容易程度,允許高效生成高質量和復雜的3D形狀,以及生成模型獲取監督信號的成本。表1總結了三維形狀生成的代表性方法。

三維感知圖像生成

三維感知圖像生成的目標是在合成圖像時顯式地控制相機的視點。基于二維gan的模型[217],[218],[219],[220],[221]通過發現與視點軌跡相對應的潛在空間方向來實現這一目標。盡管它們提供了令人印象深刻的結果,但在潛在空間中找到一個合理的方向并不容易,通常不能支持渲染視點的完全控制。本研究的重點是為三維圖像合成明確生成三維表示的工作。與直接用形狀訓練的3D形狀生成方法相比,大多數3D感知的圖像生成方法都是通過可微神經渲染的圖像來監督的,因為通常沒有高質量和大規模的可渲染的3D表示數據集來訓練生成模型。由于缺乏可渲染的3D表示,自動編碼器架構在此任務中很少使用。大多數方法采用生成對抗模型,從潛在空間中提取潛在向量并將其解碼為目標表示。

6 應用

3D生成模型的興起使許多有前途的應用成為可能,如圖12所示。在本節中,我們將討論3D生成模型在編輯、重建和表示學習方面的應用。

7 未來的工作

3D生成模型的發展非常迅速,但在將其用于下游應用程序(如游戲、模擬和增強/虛擬現實)之前,仍有許多挑戰需要克服。在這里,我們討論了3D生成模型的未來發展方向。

通用性:大多數現有的3D生成模型都是在簡單的對象級數據集上進行訓練的,例如,用于3D形狀生成的ShapeNet和用于3D感知圖像合成的FFHQ。我們認為,將3D生成模型擴展到更大程度的通用性是未來研究的一個富有成效的方向。它的通用性包括生成通用對象(如ImageNet或Microsoft CoCo)、動態對象或場景以及大規模場景。與其專注于單一類別,不如學習一種通用的3D生成模型,用于各種類別,如DALL-E2和Imagen[257],[258]和無限3D場景[259],這是非常有趣的。

可控性:3D生成模型的可控性落后于2D生成模型。理想情況下,用戶應該能夠通過用戶友好的輸入控制3D生成過程,包括但不限于語言、草圖和程序。此外,我們認為物理特性的可控性應該進一步研究,包括照明,材料,甚至動力學。

效率:許多3D生成模型需要在多個高端gpu上進行3-10天的訓練,并且在推理過程中速度較慢。我們認為,提高三維生成模型的訓練效率是必要的,而提高推理效率對于下游應用至關重要。

訓練穩定性:3D生成模型的訓練,特別是3D感知的圖像合成模型,通常更容易發生模式崩潰。一種可能的解釋是,物理上有意義的因素的分布,例如相機姿勢和渲染參數,可能與真實圖像不匹配。因此,研究生成模型的訓練穩定性就顯得尤為重要。

付費5元查看完整內容

以圖為中心的人工智能(Graph AI)在建模自然界中普遍存在的交互系統方面取得了顯著的成功,從生物動力學系統到粒子物理。數據的日益異構性需要可以結合多種歸納偏差的圖神經架構。然而,結合來自不同來源的數據是具有挑戰性的,因為適當的歸納偏差可能因數據形態而異。多模態學習方法融合多種數據模式,同時利用跨模態依賴來解決這一挑戰。在這里,我們調研了140項關于以圖為中心的人工智能的研究,并意識到越來越多的數據類型使用圖匯集在一起,并輸入到復雜的多模態模型中。這些模型分為以圖像、語言和知識為基礎的多模態學習。在此基礎上,我們提出了一個多模態圖學習的算法藍圖。通過適當地選擇四個不同的組件,該藍圖可以將處理多模態數據的最先進的架構進行分組。這一努力可以為高度復雜的現實世界問題的復雜多模態架構的標準化設計鋪平道路。

基于圖結構數據的大型深度學習對生物、化學、物理和社會科學的突破做出了貢獻[1-7]。在許多成功的應用中,圖神經網絡[8]根據預定的傳播方案學習圖組件的表示。這些學習后的表示可以用于半監督學習[9]中的標簽預測,用于無監督學習的結構重構,如鏈接預測[10],以及圖的設計和生成問題[11,12]。關于模型輸入,圖學習方法已被用于對數據集進行建模,其中圖結構由節點、邊和上下文信息明確給出。這些上下文信息對應于圖屬性(即節點和邊屬性)。它來自定義圖類型的單一來源(例如,包含文章數據的引文網絡或包含化學鍵信息的分子網絡)。

對現實問題建模通常需要考慮來自多種類型來源(例如圖像、聲音、文本、化學反應等)的相同實體數據測量多****模態學習探索了如何從不同分布中采樣的數據組合來執行[13]預測。盡管它在單模態方法無法學習的許多應用中取得了巨大成功[14-16],但多模態學習遇到了限制其性能的關鍵挑戰[17]。具體來說,已觀察到多模態模型往往傾向于部分關注一部分模態,而忽略其余的模態,這種現象被稱為模態坍縮[18]。此外,與常見的所有模態都可用的假設相反,噪聲的存在或資源的限制可能會導致模態缺失[19,20]。上述問題在不同來源的數據(如生物序列、物理模擬和圖像)合并的情況下很容易遇到,如圖1所示。

**圖1 圖為中心的多模態學習。**左邊顯示的是本次調研中涉及的不同數據模態。右邊顯示的是多模態圖學習用于取得進展的各個領域中的代表性任務。本文簡要概述了多模態圖學習(MGL)在這些模式中的應用,并介紹了MGL的藍圖。在許多應用中,不同模態之間的依賴關系可以表達一種固有的網絡結構,阻礙使用簡單模態融合方法[21]的ad hoc方法的性能。最近的進展表明,圖學習模型在多模態數據上的推理是成功的[22,23]。將模態依賴考慮為圖邊并通過學習網絡結構上的表示,可以更準確地捕獲它們[24,25]。特別是,在生物學和化學中,經常假設表示分子網絡、蛋白質相互作用網絡和蛋白質序列的圖結構,這推動了基于圖的多模態方法的應用[26-28]。多模態學習和圖學習聯系的文獻描述了通過合并在下游任務中的單模態組件處理多模態數據的架構,或利用不同模態之間的相關性的更復雜的機制。我們將這些方法組合在一個藍圖下,我們稱之為多模態圖學習(MGL),在這個藍圖下,我們可以以統一的多模態方式表達現有的方法,并為新架構的設計鋪平道路。如圖1所示,MGL考慮了不同的輸入源,從計算機視覺、語言處理到物理、化學和生物。此外,基于提出的公式,揭示了三種主要的建模圖類型:1)圖像密集圖(IIG)用于圖像和視頻推理相關的任務(見第3節),2)語言密集圖(LIG)用于序列處理任務(見第4節),最后3)知識密集圖(KIG)用于物理、化學和生物任務(見第5節)。

圖神經網絡多模態學習

深度學習為多模態學習創造了廣泛的融合方法[13,29]。例如,循環神經網絡(RNN)和卷積神經網絡(CNN)架構已經成功地結合在一起,在視頻描述問題中融合聲音和圖像表示[30,31]。最近,生成模型也被證明對于語言密集的[32]和基于物理的多模態數據[33]都非常準確。這種模型基于編碼器-解碼器框架,其中在編碼器中,組合的體系結構同時進行訓練(每個專門用于一種模態),而解碼器負責聚合來自單一體系結構的信息。注意力機制也顯著影響了用于數據融合的深度學習模型。通過在模型中加入注意力權重,可以學習不同模式重要性的優先級。Up-Down模型[34]利用了一組用于圖像標題和視覺問題回答(VQA)的注意層組合。VQA-Machine[35]使用共同注意機制層來生成圖像和問題的重要排序。最后,深度強化學習(RL)成功地解決了多模態學習問題。例如,在視頻字幕任務中,基于強化學習的模型PickNet[36]依次選擇信息量最大的視頻幀。在視覺對話任務中,視覺和文本信息的結合激發了可以處理多模態數據的強化學習方法的設計[37,38]。通常,數據集中模態之間的復雜關系可以產生一個網絡結構。圖神經網絡(gnn)為探索和利用多模態數據收集中可能出現的固有網絡拓撲提供了一種表達力強且靈活的工具包。基于圖的多模態學習是一個令人興奮的新興領域,它將多模態學習與圖神經網絡的最新進展相結合,在圖像、文本、物理和許多其他應用領域取得進展[22 - 25,39]。圖學習模型的使用可以發生在(1)探索連接多模態數據的網絡拓撲或(2)利用已經存在的拓撲來實現不同模式之間的數據融合。例如,在[25]中,作者提出了一個多模態圖學習框架,用于融合神經成像數據與生物標志物和認知測試數據,用于疾病預測。在[39]中,一個圖多模態網絡被建議用于解決VQA問題,其中兩個模型從圖像和文本生成以對象為中心的圖,另一個模型匹配生成的圖并學習有用的表示。在[23]中,圖融合網絡是一個層次圖網絡,它探索單模態和多模態交互。

以圖為中心的多模態學習

圖神經網絡用于多模態學習由于其靈活地檢測數據模態之間的交互作用而受到關注。通過圖學習融合不同形態的信息,需要網絡拓撲結構的構建和圖上推理算法的應用。我們提出了一種端到端的方法,在給定多模態輸入數據集合的情況下產生輸出表示。我們將這種方法稱為多模態圖學習(MGL)。MGL可以看作是一個藍圖,由四個以端到端方式連接的學習組件組成。在圖2a中,我們強調了處理多模態數據的傳統單模態架構組合與建議的一體化多模態架構之間的區別。

圖2 多模態圖學習藍圖概述。a,多模態學習的標準方法包括組合不同的單模態架構,每個架構針對不同的數據模態進行優化。b、相反,MGL框架中的一體化多模態架構考慮了端到端模型中每個數據模態的歸納偏差,從而實現了更具表現力的數據融合。c、MGL四個組件的路線圖。即將實體識別、拓撲揭示、信息傳播和表示混合學習組件集成到一體化多模態藍圖中。

面向圖像的多模態圖學習**

圖像密集圖(IIGs)是多模態圖,其中節點表示視覺特征,邊緣表示特征之間的空間聯系。圖像中的結構學習包含了IIGs的構建。為了了解這種結構,模型在IIGs上學習,通過修改GNN架構來編碼與圖像預測任務相關的歸納偏差,并融合CNNs和GNN。CNN編碼與圖像相關的幾何先驗:平移不變性和尺度分離[42]。平移不變性描述了CNN的輸出如何不改變依賴于輸入圖像的移位,并通過共享權值的卷積濾波器實現。尺度分離描述了如何可能跨尺度分解特征之間的長期相互作用,專注于較小的局部相互作用,然后可以傳播到課程尺度。池化層在CNNs中跟隨卷積層實現尺度分離[42]。GNN可以模擬任意形狀的遠程依賴關系,這對圖像相關任務[43]很重要,如圖像分割[44,45],圖像恢復[46,47],或人體物體交互[48,49]。在本節中,我們將重點介紹MGL在圖像任務中的應用,以簡要概述用于構建IIGs的方法,并創建模型以了解IIGs。我們根據方法的相似性將任務分成兩類: 視覺理解和視覺推理。

圖3 多模態圖學習藍圖在圖像中的應用。a,用于圖像理解的模態識別,其中節點代表SLIC分割算法生成的聚集的感興趣區域或超像素。b,圖像去噪的拓撲發現,圖像補丁(節點)連接到其他非局部相似的補丁。c,創建兩個圖的人機交互中的拓撲揭示。以人類為中心的圖將身體各部分映射到它們的解剖鄰居,并通過相互作用將身體各部分相對于圖像中其他物體的距離連接起來。d,人-物體交互中的信息傳播,其中空間條件圖修改消息傳遞,以合并強制圖像中對象的相對方向的邊緣特征[50]。

面向語言的多模態圖學習**

隨著生成上下文語言嵌入的能力,語言模型已經廣泛地重塑了自然語言[7]的分析。除了單詞,語言的結構還存在于句子(語法樹、依賴解析)、段落(句子到句子的關系)和文檔(段落到段落的關系)等層面[71]。transformer是一種流行的語言模型[72],它可以捕獲這種結構,但對計算和數據有嚴格的要求。MGL方法通過在模型中注入語言結構來緩解這些問題。具體來說,這些方法依賴于語言密集型圖(LIGs),顯式或隱式圖中節點表示由語言依賴關系鏈接的語義特征。本節概述構建和學習LIGs的MGL方法。

自然科學中的多模態圖學習

除了語言建模和計算機視覺領域,圖越來越多地應用于自然科學。我們稱這些圖為知識密集型圖(KIGs),因為它們對與特定應用領域相關的結構領域知識進行編碼。在下一節中,我們將重點介紹MGL在自然科學,特別是物理、化學和生物學中最普遍的應用。我們描述了MGL方法如何將與特定任務相關的歸納偏差納入到KIG建模中。

多模態圖學習在自然科學中的應用。a、物理相互作用中的信息傳播,其中,由于粒子間的相互作用和其他力,物理信息神經消息傳遞用于更新系統中粒子的狀態。b,分子推理中的信息傳播,使用全局注意機制來模擬兩個分子中原子之間的潛在相互作用,以預測兩個分子是否會發生反應。c,蛋白質建模中的拓撲發現,使用多尺度圖表示將蛋白質的一級、二級和三級結構與分子超像素中總結的高級蛋白質基序集成,以表示蛋白質[27]。這種強大的拓撲結構為蛋白質-配體結合親和力預測等任務提供了更好的預測。

付費5元查看完整內容

近年來,深度學習已經徹底改變了許多機器學習任務,從圖像分類和視頻處理到語音識別和自然語言理解。這些任務中的數據通常用歐幾里得空間表示。然而,越來越多的應用從非歐幾里得域生成數據,并表示為對象之間具有復雜關系和相互依賴關系的圖。圖數據的復雜性給現有的機器學習算法帶來了巨大的挑戰。近年來,許多關于圖數據擴展深度學習方法的研究已經出現。在八報告中,提供了一個簡明的圖神經網絡(GNNs)在數據挖掘和機器學習領域的概述。我們提出了一種新的分類方法,將最先進的圖神經網絡分為四類,即遞歸圖神經網絡、卷積圖神經網絡、圖自編碼器和時空圖神經網絡。我們進一步討論了圖神經網絡在各個領域的應用,并總結了圖神經網絡的開源代碼、基準數據集和模型評估。最后,我們提出了這一快速發展領域的潛在研究方向。

付費5元查看完整內容
北京阿比特科技有限公司