青青国产成人久久激情91,精品亚洲高清一区二区三区电影,韩国女主播一区二区三区网站

基礎模型如ChatGPT和GPT-4由于其新興的能力，如少量提示、多步推理、指令跟隨和模型校準，在學術界和工業界都受到了極大的關注。這樣的能力過去只能通過特別設計的模型獲得，例如使用知識圖譜的模型，但現在可以通過基礎模型在更大的規模上實現。

隨著基礎模型的能力的增加，它們的大小也以遠遠超過摩爾定律的速度增長。例如，2018年發布的BERT大型模型是一個334M參數模型。而2022年發布的Pathways Language Model (PaLM)是一個540B參數模型，這在短短4年內增加了超過三個數量級。基礎模型的訓練需要大量的計算能力。例如，使用多個A100芯片的單一最先進的GPU機器訓練BERT模型可能需要幾天，而在大型多實例GPU集群上訓練GPT-3模型可能需要幾個月的時間來完成估計的3*10^23 flops。

本教程提供了對支持新AI芯片的基礎模型訓練和推理的最新進展的概述。它回顧了建模方面的進展，重點是Transformer架構，并介紹了支持訓練和服務基礎模型的系統架構。這包括編程語言框架如PyTorch和TensorFlow、圖編譯器、3D并行性，以及像GPU H100、TPU和Trainium這樣的加速器。最后，該教程介紹了我們使用不同系統訓練基礎模型的經驗。

1.1 從模型到比特

1.1.1 算法概覽。我們涵蓋了廣泛使用的深度學習（DL）架構，包括遞歸和卷積神經網絡，以及穩定的擴散模型和Transformer架構（例如，僅編碼器、僅解碼器、編碼器-解碼器和多模態模型）。我們概述了常見的訓練和推理任務，如預訓練、微調、推理和評估。我們介紹了高級建模技術，如不同的注意機制、訓練目標及其實現細節。 1.1.2 系統概覽。有效地訓練大規模的基礎模型需要在所有層面上都有強大的系統支持。在前端，我們需要在DL框架中適當地表示模型和分布式處理策略。在中端，模型執行需要廣泛的性能優化，如圖重寫、內核融合、內核優化、計算和通信重疊等。在后端，模型將在某種硬件上運行，該硬件按照某種網絡拓撲連接。在這個環節中，我們將概述每一層中出現的挑戰。

1.2 使用模型并行化訓練基礎模型

在這一節中，我們將討論用于跨多臺機器訓練擁有數十億參數的模型的現代分布式訓練技術，包括完全分片數據并行(FSDP)[16, 15]、Deepspeed Zero [11, 10]、張量并行化[4, 7, 14]和流水線并行化[3, 6]。這些技術在使大型神經網絡的訓練成為可能方面起到了關鍵的作用。我們將研究和比較與特定模型架構緊密集成的方法的局限性，以及依賴于底層ML框架快速演變的內部接口的技術。最后，我們將介紹可以用來使用這些技術訓練模型的開源庫。

1.3 案例研究

在四個案例研究中，我們將介紹不同基礎模型的特點以及在新興AI加速器上運行它們時出現的挑戰。我們將介紹包括BERT[2]、RoBERTa[5]和DistilBERT[13]在內的“BERT系列”模型、GPT2[8]和GPT-3[1]、文本到文本轉移變換器(T5)[9]和穩定擴散[12]。在對每種架構簡要介紹之后，我們將分享我們在不同加速器上訓練這些模型的經驗。我們將以對有興趣在新興AI芯片上訓練或評估模型的實踐者的實際建議和注意事項來結束本教程。

講者:

Jun (Luke) Huan 是AWS AI實驗室的首席科學家。煥博士的研究領域是AI和數據科學。他已經發表了超過160篇的同行評審的文章并指導了11名博士學生完成學業。在加入AWS之前，他在百度研究院工作，并曾創建了一個AI初創公司StylingAI Inc。在進入工業界之前，他在堪薩斯大學的EECS部門擔任教授。煥博士還在美國的NSF工作過，負責其大數據項目。 Yida Wang 是亞馬遜的AWS AI團隊的首席科學家。他的研究領域包括系統、高性能計算和大數據分析。他目前專注于深度學習系統的研究，特別是編譯和優化深度學習模型。 Youngsuk Park 是AWS AI實驗室的高級應用科學家。他的研究興趣集中在機器學習、基礎模型、優化和決策制定等方面。在加入AWS之前，他在Stanford University完成了電氣工程的碩士和博士學位。 Aashiq Muhamed 在AWS AI實驗室工作，專注于優化深度學習系統。在加入AWS AI實驗室之前，他在Amazon Search工作，并在Stanford University進行研究生學習。 Rahul Solanki 在亞馬遜的AWS Neuron團隊工作。他目前的工作重點是構建可以高效地在AI加速器上進行深度學習模型訓練和推理的框架和工具。他從Georgia Institute of Technology獲得了碩士學位。 Christian Bock 是AWS AI實驗室的應用科學家。他的研究興趣主要集中在語言模型的可解釋性以及其在各個領域的應用上。他在ETH Zurich完成了博士學位。

付費5元查看完整內容

相關內容

KDD 2023

關注 4

KDD 2023 · 預訓練模型 · 預訓練圖模型 ·

2023 年 6 月 7 日

[付費5元查看完整內容]【KDD2023】基于大型圖譜語料庫的圖感知語言模型預訓練可以幫助多種圖應用,12頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大規模文本語料庫上的模型預訓練已經被證明在NLP領域的各種下游應用中非常有效。在圖挖掘領域，也可以類比預訓練圖模型在大規模圖上，以期望從中獲益于下游圖應用，這也被一些最近的研究所探索。然而，現有的研究從未研究過在具有豐富文本信息的大型異構圖（也就是大型圖譜語料庫）上預訓練文本加圖模型，然后在具有不同圖模式的不同相關下游應用上對模型進行微調。為了解決這個問題，我們提出了一個在大型圖譜語料庫上進行圖感知語言模型預訓練（GaLM）的框架，該框架結合了大型語言模型和圖神經網絡，并在下游應用上提供了各種微調方法。我們在亞馬遜的真實內部數據集和大型公共數據集上進行了廣泛的實驗。全面的實證結果和深入的分析證明了我們提出的方法的有效性，以及我們從中學到的經驗。

付費5元查看完整內容

語言模型 · 序列決策 · 基礎模型 ·

2023 年 3 月 10 日

[付費5元查看完整內容]大模型如何決策？Google伯克利MIT等最新《基礎模型決策:問題、方法和機會》論文，詳述序列決策與大語言模型的技術交叉

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在大規模不同數據上預訓練的基礎模型在廣泛的視覺和語言任務中表現出了非凡的能力。當這樣的模型部署到現實世界環境中時，它們不可避免地要與其他實體和智能體進行交互。例如，語言模型通常用于與人類通過對話進行交互，視覺感知模型用于自主導航鄰域街道。為了響應這些發展，新的范式正在出現，用于訓練基礎模型與其他智能體交互并進行長期推理。這些范式利用了為多模態、多任務和通用交互策劃的越來越大的數據集的存在。在基礎模型和決策的交叉點進行研究，為創建強大的新系統提供了巨大的希望，這些系統可以在對話、自動駕駛、醫療健康、教育和機器人等各種應用中有效交互。本文研究了基礎模型決策的范圍，并為理解問題空間和探索新的研究方向提供了概念工具和技術背景。通過提示、條件生成建模、規劃、最優控制和強化學習等各種方法，回顧了地基模型在實際決策應用中的最新方法，并討論了該領域中常見的挑戰和開放問題。

//www.zhuanzhi.ai/paper/2061942c130806abb07d97214c5a7506

1. 引言

**通過自監督學習在廣泛的數據集上預訓練的基礎模型在向不同的下游任務遷移知識方面表現出了卓越的能力[Bommasani等人，2021]。**由于此類模型繼續應用于涉及長期推理[Wei等人2022a]、控制[Brohan等人2022]、搜索[Strohman等人2005]和規劃[Huang等人2022b]的更復雜問題，或部署在對話、自動駕駛、醫療保健和機器人等應用程序中，因此預計它們將與外部實體和代理接口。例如，在對話中，語言模型與人類進行多輪對話;在機器人技術中，感知-控制模型在現實世界環境中執行動作。這些場景為基礎模型提出了新的挑戰，包括(1)如何從外部實體給出的反饋中學習(如人類對對話質量的評級)，(2)如何適應大型語言或視覺數據集通常不涵蓋的模態(如機器人動作)，以及(3)如何對未來進行長期推理和規劃。

**傳統上，這些問題一直是序列決策的核心[Sutton和Barto 2018]，包括強化學習、模仿學習、規劃、搜索和最優控制等領域。**與基礎模型的范式相反，在預訓練中使用了具有數十億圖像和文本標記的廣泛數據集，之前關于序列決策的工作主要集中在特定任務或tabula rasa設置，先驗知識有限[Silver等人，2017]。盡管看似不利的設置，序列決策的研究已經取得了重大進展，在諸如玩棋盤游戲[Tesauro 1994]和雅達利電子游戲[Mnih等人2013]，以及操作機器人完成導航[Pomerleau 1988]和操作任務[Kalashnikov等人2018;Akkaya等。2019]。然而，由于這些方法在沒有視覺、語言或其他數據集的廣泛知識的情況下從頭開始學習解決任務，它們通常在泛化和樣本效率方面存在困難，例如，需要7個GPU天的交互式游戲才能解決一個Atari游戲[Agarwal等人2022]。直觀地說，類似于用于基礎模型的廣泛數據集也應該有利于序列決策模型。例如，互聯網上有無數關于如何玩雅達利游戲的文章和視頻。類似地，有大量關于物體和場景屬性的知識，這些知識對機器人很有用，或者關于人類需求和情感的知識，可以改進對話模型。

**雖然基礎模型和序列決策的研究在很大程度上由于不同的應用和焦點而脫節，但在這些社區的交叉點上的活動越來越多。**在基礎模型方面，隨著發現大型語言模型的涌現特性，目標應用程序已經從簡單的零次或少次視覺和語言任務過渡到現在涉及長期推理的問題[Srivastava等人，2022;Wei等。2022b;Lewkowycz et al. 2022]或多重交互[OpenAI 2022]。相反，在序列決策社區，受大規模視覺和語言模型成功的啟發，研究人員已經開始策劃越來越大的數據集，用于學習多模型、多任務和通用交互式智能體[Agarwal等人2020b;Szot等人，2021;Fan等，2022;Brohan等人，2022;Reed等，2022;Lee et al. 2022]。為了進一步模糊兩個領域之間的界限，最近的一些工作研究了使用預訓練基礎模型，如CLIP [Radford等人2021]和ViT [Dosovitskiy等人2020]來引導視覺環境的交互式智能體的訓練[Khandelwal等人2022;Tao等人2022]，而其他工作將基礎模型作為通過人工反饋強化學習優化的對話代理進行了研究[Ouyang等人2022]，以及其他工作使大型語言模型與搜索引擎等外部工具交互[Komeili等人2021;Thoppilan等人，2022;Lazaridou等人，2022;Shuster等人]。計算器[Cobbe等人，2021;Thoppilan等人2022]、翻譯器[Thoppilan等人2022]、MuJoCo模擬器[Liu等人2022d]和程序解釋器[Gao等人2022]。

**我們在本報告中的前提是，如果聯合考慮，基礎模型和交互式決策的研究可以是互利的。**一方面，基礎模型適應涉及外部實體的任務，可以從交互式地合并反饋和執行長期規劃中受益。另一方面，序列決策可以利用基礎模型的世界知識，更快地解決任務，泛化能力更好。為了推動這兩個領域的交叉研究，我們對決策基礎模型的問題空間進行了范圍界定。本文提供了技術工具來了解該領域當前的研究，回顧了仍然存在的挑戰和開放問題，并推測了克服這些挑戰的潛在解決方案和有希望的方法。

**本報告分為5個主要部分。**在第2節中，我們回顧了序列決策的相關背景和符號，并提供了幾個示例場景，其中基礎模型和決策可以更好地聯合考慮。接下來的三個部分將圍繞基礎模型如何描述決策系統的不同組件進行組織。在第3節中，我們討論了基礎模型如何作為行為的生成模型(例如，技能發現)和環境的生成模型(例如，進行基于模型的推出)。在第4節中，我們討論了基礎模型如何作為狀態、動作、獎勵和遷移動態的表示學習者(例如即插即用的視覺語言模型、基于模型的表示學習)。在第5節中，我們討論了語言基礎模型如何作為交互式智能體和環境，使我們能夠在順序決策框架(語言模型推理、對話、工具使用)下考慮新問題和應用。最后，在第6節中，我們概述了開放的問題和挑戰，并提出了潛在的解決方案(例如，如何利用廣泛的數據，如何構造環境，以及基礎模型和決策的哪些方面可以改進)。

付費5元查看完整內容

Transformer · 強化學習 · 綜述論文 ·

2023 年 1 月 10 日

[付費5元查看完整內容]Transformer如何用到強化學習中? 清華等最新《Transformer強化學習》綜述論文詳述進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

Transformer一直被認為是NLP和CV中的主要神經架構，主要是在有監督的環境下。最近，在強化學習(RL)領域也出現了類似的使用transformer的熱潮，但它面臨著RL性質帶來的獨特設計選擇和挑戰。然而，transformer在強化學習中的發展還沒有被很好地解開。本文試圖系統地回顧在強化學習中使用transformer的動機和進展，對現有工作進行分類，討論每個子領域，并總結未來前景。

//www.zhuanzhi.ai/paper/a72d26ab035255b1bfc3973fc6150e38

1. 概述

強化學習(RL)為序列決策提供了一種數學形式。利用強化學習，我們可以自動獲取智能行為。雖然強化學習為基于學習的控制提供了一個通用框架，但深度神經網絡的引入，作為一種高容量的函數逼近方式，正在推動在廣泛的領域取得重大進展[Silver et al., 2016; Vinyals et al., 2019; Ye et al., 2020a,b]。近年來，深度強化學習(deep reinforcement learning, DRL)在通用性方面取得了巨大的發展，但樣本效率問題阻礙了其在現實世界應用中的廣泛應用。為了解決這個問題，一種有效的機制是在DRL框架中引入歸納偏差。深度強化學習中一個重要的歸納偏差是函數逼近器架構的選擇，例如深度強化學習智能體的神經網絡參數化。然而，與監督學習(SL)中架構設計的努力相比，在深度強化學習中選擇架構設計的問題仍然較少被探索。大多數現有的強化學習架構工作是由(半)監督學習社區的成功所驅動的。例如，在深度強化學習中處理基于圖像的高維輸入的常見做法是引入卷積神經網絡(CNN) [LeCun et al., 1998; Mnih et al., 2015];處理部分可觀察性的另一種常見做法是引入遞歸神經網絡(RNN) [Hochreiter and Schmidhuber, 1997;Hausknecht和Stone, 2015]。

近年來，Transformer架構[Vaswani等人，2017]徹底改變了廣泛的SL任務的學習范式[Devlin等人，2018;Dosovitskiy等人，2020;Dong等人，2018]，并展示了比CNN和RNN的優越性能。Transformer架構的顯著優點之一是能夠對長依賴關系進行建模，并具有出色的可擴展性[Khan et al., 2022]。受SL成功的啟發，人們對將transformer應用于強化學習的興趣激增，希望將transformer的好處帶到RL領域。在強化學習中使用transformer可以追溯到Zambaldi等人[2018b]，其中自注意力機制用于結構化狀態表示的關系推理。之后，許多研究人員試圖將自注意力應用于表示學習，以提取實體之間的關系，以更好地進行策略學習[Vinyals et al., 2019; Baker et al., 2019]。除了利用transformer進行狀態表示學習外，之前的工作還使用transformer來捕獲多步時間依賴關系，以處理部分可觀測性問題[Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。最近，離線強化學習[Levine等人，2020]因其能夠利用離線大規模數據集而受到關注。在離線強化學習的激勵下，最近的努力表明，Transformer架構可以直接作為序列決策的模型[Chen等人，2021;Janner等人，2021]并將其推廣到多個任務和領域[Lee等人，2022;Carroll等人，2022]。

本綜述的目的是介紹強化學習中的transformer領域，稱為TransformRL。盡管Transformer目前在大多數SL研究中被認為是基礎模型[Devlin et al., 2018; Dosovitskiy et al., 2020]，它在RL社區中仍然很少被探索。事實上，與SL域相比，在RL中使用transformer作為函數逼近器面臨著獨特的挑戰。首先，強化學習智能體的訓練數據通常是當前策略的函數，這在學習Transformer時引入了非平穩性。其次，現有的強化學習算法通常對訓練過程中的設計選擇高度敏感，包括網絡架構和容量[Henderson等人，2018]。第三，基于transformer的架構往往存在高計算和內存成本，使其在強化學習學習過程中的訓練和推理都很昂貴。例如，在視頻游戲人工智能的情況下，樣本生成的效率在很大程度上影響訓練性能，取決于強化學習策略網絡和價值網絡的計算成本[Ye et al.， 2020a;Berner等人，2019]。本文試圖對TransformRL進行全面的概述，包括當前方法和挑戰的分類。我們還討論了未來的前景，相信TransformRL領域將在釋放強化學習的潛在影響方面發揮重要作用，本綜述可以為那些希望利用其潛力的人提供一個起點。

我們的論文結構如下。第2節介紹了RL和transformer的背景，然后簡要介紹了這兩者是如何結合在一起的。在第3節中，我們描述了強化學習中網絡架構的演變，以及阻止Transformer架構在強化學習中長期被廣泛探索的挑戰。在第4節中，提供了強化學習中transformer的分類，并討論了現有的代表性方法。最后，在第5節中總結并指出了未來的研究方向。 2. Transformers in RL

盡管Transformer已經成為大多數監督學習研究的基礎模型，但由于上述挑戰，它并沒有長期在強化學習社區中廣泛使用。實際上，大多數TransformRL的早期嘗試將transformer應用于狀態表示學習或提供記憶信息，同時仍將標準的強化學習算法應用于智能體學習，如時間差異學習和策略優化。因此，盡管引入transformer作為函數逼近器，但這些方法仍然受到傳統強化學習框架的挑戰。直到最近，離線強化學習才使得從大規模離線數據中學習最優策略成為可能。受離線強化學習的啟發，最近的工作進一步將強化學習問題視為固定經驗上的條件序列建模問題。通過這樣做，它有助于繞過傳統強化學習中bootstrapping error的挑戰，從而使Transformer架構釋放出強大的順序建模能力。回顧了TransformRL的進展，并提供了一個分類法來介紹當前的方法。將現有方法分為四類:表示學習、模型學習、順序決策和綜合智能體。圖2提供了一個分類法草圖，其中包含相應作品的子集。

用于表示學習的transformer考慮到強化學習任務的順序性，嘗試Transformer編碼器模塊是合理的。事實上，強化學習任務中的各種序列需要處理，例如本地每時間步長序列(多實體序列[Vinyals et al., 2019; Baker et al., 2019]，多智能體序列[Wen等人，2022年])，時間序列(軌跡[Parisotto et al., 2020; Banino et al., 2021])等等。

用于模型學習的transformer

除了使用Transformer作為序列嵌入的編碼器外，Transformer架構還在一些基于模型的算法中充當環境模型的骨干。與以單步觀察和行動為條件的預測不同，Transformer使環境模型能夠以一定長度的歷史信息為條件來預測轉換。

用于序列決策的transformer

除了作為一個可插入到傳統RL算法組件中的表達性架構，Transformer本身可以作為一個直接進行順序決策的模型。這是因為強化學習可以被視為一個條件序列建模問題——生成可以產生高回報的行動序列。

多面手智能體的Transformer

鑒于決策Transformer已經在各種離線數據任務中展示了它的力量，一些工作轉向考慮Transformer是否可以使一個多面手智能體解決多個任務或問題，如在CV和NLP領域。

3. 總結

**本文簡要回顧了用于強化學習的transformer的進展。**本文對這些進展進行了分類:a) transformer可以作為強化學習的一個強大模塊，例如，作為表示模塊或世界模型;b) transformer可以作為順序決策者;c) transformer可以促進跨任務和領域的泛化。雖然我們介紹了這個主題的代表性工作，但在RL中使用transformer并不限于我們的討論。鑒于transformer在更廣泛的人工智能社區的繁榮，我們相信將transformer和RL結合是一個有希望的趨勢。最后，討論了這一方向的未來前景和開放問題。

**結合強化學習和(自)監督學習。**回顧TransformRL的發展，訓練方法包括強化學習和(自)監督學習。當作為在傳統強化學習框架下訓練的表示模塊時，Transformer架構的優化通常是不穩定的。當使用transformer通過序列建模解決決策問題時，由于(自)監督學習范式，"致命三元組問題" [Van Hasselt等人，2018]被消除。在(自)監督學習框架下，策略的性能與離線數據質量密切相關，利用和探索之間不再存在明確的權衡。因此，當我們在Transformer學習中結合強化學習和(自)監督學習時，可能會學到更好的策略。部分工作[Zheng et al., 2022; Meng et al., 2021]嘗試了有監督的預訓練和涉及強化學習的微調方案。然而，相對固定的策略可以限制探索[Nair等人，2020]，這是有待解決的瓶頸之一。此外，用于性能評估的任務也相對簡單。transformer是否可以將這種(自)監督學習擴展到更大的數據集、更復雜的環境和現實世界的應用，值得進一步探索。此外，我們希望未來的工作提供更多的理論和經驗見解，以描述這種(自)監督學習在哪些條件下有望表現良好[Brandfonbrener et al., 2022]。

**用transformer橋接在線和離線學習。**進入離線強化學習是TransformRL的一個里程碑。在實際應用中，利用transformer獲取決策序列中的依賴關系并抽象策略，主要離不開大量離線數據的支持。然而，在實際應用中，一些決策任務脫離在線框架是不可實現的。一方面，在某些任務中獲取專家數據并不容易;另一方面，有些環境是開放式的(如《Minecraft》)，這意味著策略必須不斷調整以處理在線交互過程中未見過的任務。因此，我們認為線上學習和線下學習的銜接是必要的。然而，大多數基于Decision Transformer的研究進展都集中在離線學習框架上。一些工作嘗試采用離線預訓練和在線微調的范式[Xie et al., 2022]。然而，與離線強化學習算法一樣，在線微調中的分布變化仍然存在，因此希望對Decision Transformer進行一些特殊設計來解決這個問題。此外，如何從頭開始訓練一個在線決策Transformer是一個有趣的開放問題。

**為決策問題量身定制的Transformer結構。**目前決策Transformer系列方法中的Transformer結構主要是vanilla Transformer，其最初是為文本序列設計的，可能不適合決策問題的性質。例如，是否適合對軌跡序列采用普通的自注意力機制?在位置嵌入中，是需要區分決策序列中的不同元素還是相同元素的不同部分?此外，由于在不同的Decision Transformer算法中將軌跡表示為序列的變體很多，如何從中選擇仍然缺乏系統的研究。例如，在行業中部署此類算法時，如何選擇可靠的后見之明信息?此外，普通Transformer是一種具有巨大計算成本的結構，這使得它在訓練和推理階段都很昂貴，并且內存占用很高，這限制了它捕獲的依賴項的長度。為了緩解這些問題，NLP中的一些工作[Zhou et al.， 2021]從這些方面對結構進行了改進，相似結構是否可以用于決策問題也是值得探索的。

**轉向更多面手的Transformers智能體。**對面向多面手的transformer的綜述顯示了transformer作為一般政策的潛力(第4.4節)。事實上，transformer的設計允許使用類似的處理塊處理多種模態(如圖像、視頻、文本和語音)，并對非常大容量的網絡和巨大的數據集表現出出色的可擴展性。最近的工作在訓練能夠執行多個和跨域任務的智能體方面取得了實質性的進展。然而，考慮到這些智能體是在大量數據上訓練的，仍然不確定它們是否只是記住了數據集，以及它們是否可以進行有效的泛化。因此，如何學習一個可以在沒有強假設的情況下泛化到未見任務的智能體是一個值得研究的問題[Boustati等人，2021]。此外，我們很想知道Transformer是否足夠強大，可以學習一個可以在不同任務和場景中使用的通用世界模型。

**Transformer的RL。**雖然我們已經討論了RL如何從Transformer的使用中受益，但相反的方向，即使用RL來受益于Transformer訓練是一個有趣的開放問題，但很少有人探索。我們看到，最近，來自人類反饋的強化學習(RLHF)[歐陽等人，2022]學習了一個獎勵模型，并使用RL算法微調Transformer，以使語言模型與人類意圖保持一致。未來，我們相信RL可以成為進一步提升Transformer在其他領域性能的有用工具。

付費5元查看完整內容

圖神經網絡 · 分布式圖神經網絡 · 訓練 · 綜述 ·

2022 年 11 月 2 日

[付費5元查看完整內容]大“GNN”如何學習？北郵最新《分布式圖神經網絡》綜述，35頁pdf闡述分布式GNN訓練算法和系統

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖神經網絡(GNNs)是一種基于圖的深度學習模型，已成功應用于許多領域。盡管GNN具有一定的有效性，但GNN要有效地擴展到大型圖仍然是一個挑戰。作為一種補救措施，分布式計算能夠提供豐富的計算資源，成為訓練大規模GNN的一種很有前途的解決方案。然而，圖結構的依賴性增加了實現高效分布式GNN訓練的難度，這將受到海量通信和工作量不平衡的影響。近年來，人們在分布式GNN訓練方面做了很多工作，提出了一系列的訓練算法和系統。然而，從圖處理到分布式執行的優化技術還缺乏系統的綜述。本文分析了分布式GNN訓練中的三個主要挑戰，即大量特征通信、模型精度損失和工作負載不平衡。然后，我們介紹了分布式GNN訓練優化技術的一種新的分類法，以解決上述挑戰。新的分類法將現有技術分為四類:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。我們仔細討論了每個類別中的技術。最后，我們分別總結了現有的多GPU、GPU集群和CPU集群分布式GNN系統，并對可擴展GNN的未來發展方向進行了討論。

//www.zhuanzhi.ai/paper/f714e263f8583bad283b4dcbc85a2aa5

1. 概述

圖神經網絡(GNN)是處理圖建模問題的強大工具，已被廣泛應用于各種應用中，包括社交網絡(如社交垃圾郵件檢測[87,112]，社會網絡分析[91])，生物信息學(如蛋白質界面預測[35]，疾病-基因關聯[83])，藥物發現[11,66]，流量預測[61]，醫療保健[2,21]，推薦[32,49,55,111]，自然語言處理[134,145]和其他[26,85,133,141,144]。通過將圖結構信息融入到深度學習模型中，GNNs可以取得明顯優于傳統機器學習和數據挖掘方法的效果。GNN模型通常包含多圖卷積層，其中每個頂點聚合其鄰居的最新狀態，更新頂點的狀態，并對更新的頂點狀態應用神經網絡(即轉換)。以傳統的圖卷積網絡(GCN)為例，在每一層中，頂點使用求和函數聚合相鄰的狀態和自己的狀態，然后應用單層MLP轉換新狀態。如果層數為??，這樣的過程重復??次。在??th層中生成的頂點狀態供下游任務使用，如節點分類、鏈接預測等。近年來，許多研究工作在圖神經網絡模型的設計方面取得了顯著進展。著名的模型包括GCN[108]、GraphSAGE[46]、GAT[95]、GIN[118]和許多其他特定于應用程序的GNN模型[128,130]。到目前為止，已有數十篇綜述綜述了GNN模型[114,116,135,147]。另一方面，為了高效地開發不同的GNN模型，基于各種深度學習庫提出了許多面向GNN的框架[8,14,34,44,68,104]。許多新的優化被提出來加速GNN訓練，包括GNN計算內核[19,38,52,53,81,93,129]，高效的編程模型[51,113,117]，以及充分利用新硬件[18,42,124,148]。然而，這些框架和優化主要集中在單個機器上訓練GNN，而沒有過多關注輸入圖的可擴展性。

如今，大規模圖神經網絡[62,70]由于大規模大圖數據的普遍存在而成為一個熱門話題。擁有數十億個頂點和數萬億條邊的圖形是很常見的，比如新浪微博、微信、Twitter和Facebook等社交網絡。然而，現有的大多數GNN模型只在小圖數據集上進行測試，無法處理大圖數據集[50]或效率低下。這是因為之前的GNN模型比較復雜，在處理大型圖時需要大量的計算資源。通過設計可擴展的GNN模型，實現了大規模的圖神經網絡。他們使用簡化[36,47,110]，量化[4,33,54,71,90,100,101,107,139]，取樣[20,123,125]和蒸餾[24,121,131]來設計高效的模型。另一種方法是將分布式計算應用于GNN訓練。因為在處理大型圖形時，單個設備(如GPU)有限的內存和計算資源成為大規模GNN訓練的瓶頸，而分布式計算提供更多的計算資源(如多GPU、CPU集群等)來提高訓練效率。在設計高效的分布式GNN訓練框架(如PipeGCN [99]， BNS-GCN[98])和分布式GNN訓練系統(如AliGraph [150]， DistDGL [142]， ROC[58])方面已經做出了許多努力。在這個調查中，我們關注的工作與分布式計算的大圖神經網絡，又稱分布式GNN訓練。它將整個模型訓練的工作量分配給一組工人，所有工人并行處理工作量。然而，由于GNN的數據依賴性，將現有的分布式機器學習方法[96,103]應用于GNN并非易事，許多新的技術被提出來優化分布式GNN的訓練管道。盡管有很多關于GNN模型的調查[114,135,147]，但據我們所知，很少有人系統地回顧分布式GNN訓練的技術。最近，Besta等[9]只回顧了GNN的并行計算范式，Abadal[1]從算法到硬件加速器考察了GNN計算。

為了清晰地組織分布式GNN訓練的技術，我們介紹了一種通用的分布式GNN訓練管道，該管道由數據劃分、GNN模型優化和梯度聚合三個階段組成。前兩個階段涉及GNN特定的執行邏輯，包括圖處理和圖聚合。最后一個階段與傳統的分布式機器學習相同。在這個通用分布式GNN訓練管道的背景下，我們討論了分布式GNN訓練的三個主要挑戰，這些挑戰是由圖數據中的數據依賴性引起的，需要新的分布式GNN特定技術。為了幫助讀者更好地理解解決上述挑戰的各種優化技術，我們介紹了一種新的分類法，將這些技術分為四個正交的類別:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。該分類法不僅涵蓋了小批分布式GNN訓練和全圖分布式GNN訓練中使用的優化技術，而且還討論了從圖處理到模型執行的技術。我們仔細回顧了每個類別中的現有技術，然后描述了23個來自業界或學術界的代表性分布式GNN系統和框架。最后，簡要討論了分布式GNN訓練的未來發展方向。

這項綜述的貢獻如下:

這是第一個專注于高效分布式GNN訓練優化技術的綜述，它幫助研究人員快速了解分布式GNN訓練的現狀。

通過考慮端到端分布式GNN訓練的生命周期，我們引入了分布式GNN訓練技術的一種新的分類法。在高層次上，新的分類法由四個正交類別組成，分別是GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。

我們為新分類法中的每個類別提供了詳細和全面的技術總結。

我們回顧了23個具有代表性的分布式GNN訓練系統和框架，從工業界到學術界。

討論分布式GNN訓練的未來發展方向。

2. 分布式GNN訓練和挑戰

為了更好地理解端到端分布式GNN訓練的一般工作流程，我們將訓練管道分為數據劃分、GNN模型優化和梯度聚合三個階段。圖1可視化了端到端分布式GNN訓練工作流的高級抽象。

數據分區。這是一個支持分布式訓練的預處理階段。它將輸入數據(即圖和特征)分布到一組工作者中。考慮到GNN訓練數據的依賴性，數據劃分階段比傳統分布式機器學習中的數據劃分階段更加復雜。如圖1所示，分區數據(即子圖)之間的跨工作者邊暗示了數據依賴性。如果我們承認分區之間的數據依賴性，分布式訓練效率會因通信而降低;如果我們簡單地忽略數據依賴性，模型的準確性就會被破壞。因此，數據分區是端到端分布式GNN訓練效率的關鍵階段。
GNN模型優化。這是分布式GNN訓練的核心階段，執行GNN模型的訓練邏輯(即前向計算和后向計算)。我們進一步將這一階段分為計算圖生成、執行模型和通信協議。首先，每個worker根據分塊的輸入圖和特征生成計算圖，然后用計算圖執行GNN模型，計算損失和梯度。但由于數據的依賴性，計算圖的生成和GNN模型的執行與傳統的深度學習模型有很大的不同。在不訪問遠程輸入數據的情況下，小批量訓練策略的計算圖可能無法正確生成。執行模型涉及GNN模型的??-layer圖聚合，聚合呈現不規則的數據訪問模式。在分布式全圖訓練中，每一層的圖聚合需要通過通信協議訪問頂點遠程鄰居的隱藏特征，還需要考慮層與層之間的同步模式。因此，與傳統的分布式機器學習相比，由于GNN的數據依賴性，計算圖的生成和模型的執行變得更加復雜。
梯度聚合。該階段負責聚合最新的局部梯度，獲得全局梯度，更新模型參數。在GNN環境下，模型規模通常較小，模型更新邏輯與其他機器學習模型相同。經典分布式機器學習中已有的梯度聚合技術可以直接應用于分布式GNN訓練。

為了解決上述問題，實現分布式GNN訓練并優化訓練效率，近年來提出了許多新的技術。大多數現有的工作都是從系統或框架的角度來展示他們自己的技術貢獻，而沒有從技術的角度來很好地回顧相關的工作。本文介紹了一種新的分類法，以端到端分布式訓練管道中的階段為基礎，組織分布式gnn特定技術。通過這樣的設計，我們將分布式GNN訓練管道中相同階段的相似技術組織在一起，幫助讀者充分理解分布式GNN訓練中不同階段的現有解決方案。根據以往的實證研究，由于數據依賴性，分布式GNN訓練的瓶頸一般出現在數據分區和在建的GNN模型優化階段，而針對GNN的新技術就在這兩個階段。此外，不同的訓練策略(如小批量訓練、全圖訓練)帶來不同的工作負載模式，導致模型優化中使用不同的優化技術。例如，模型優化階段的計算圖生成對于小批訓練很重要，而通信協議對于全圖訓練很重要。因此，我們的新分類法將特定于分布式GNN的技術分為四類(即GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議)，如圖2所示。下面，我們將介紹每個類別的概述。

3. GNN數據分區****

在本節中，我們回顧了分布式GNN訓練中現有的GNN數據分區技術。圖3描述了這些技術的概述。考慮到圖和特征是GNN中兩種典型的數據類型，我們將劃分方法分為圖劃分和特征劃分。優化目標是工作量平衡、通信和計算最小化，旨在解決挑戰#1和#3。此外，成本模型是捕獲GNN工作負載特征的另一個關鍵組件。在下面，我們首先提出了代價模型，然后分別討論了圖劃分和特征劃分。

4 GNN批量生成

小批GNN訓練是將GNN擴展為大型圖的常用方法。圖采樣實際上是在獨立模式下生成小批量的工具。到目前為止，已經提出了許多基于采樣的圖神經網絡[17,23,46,56,125,151]，根據采樣方法的不同類型，可以分為頂點采樣、層采樣和子圖采樣。不同的批生成方法會影響訓練效率和訓練精度。為了避免圖采樣成為瓶頸，人們對高效GNN數據加載器進行了一些探索[5,25,27,76]。在小批分布式GNN訓練中，數據依賴性為批生成過程帶來了大量的通信。為了提高分布式環境下的訓練效率，針對分布式訓練提出了幾種新的GNN批生成技術，并解決了挑戰#1和挑戰#2。如圖4所示，一種解決方案是通過分布式抽樣生成小批處理，另一種是直接使用本地分區(或子圖)作為小批處理。

5. GNN執行模型

圖1中的GNN模型優化階段包括計算圖生成和計算圖執行兩個子階段。執行模型負責對子階段的操作進行調度，以達到較高的訓練效率。這兩個子階段針對不同的訓練范式有不同的運算符。在分布式小批訓練中，采樣和特征提取操作影響訓練效率，計算圖生成成本高。而對于分布式全圖訓練，由于工作者之間的數據依賴性，計算圖的執行比較復雜。下面，我們分別討論了計算圖生成和計算圖執行的執行模型。

6 結論

分布式GNN訓練是將GNN模型擴展到大圖的成功方法之一。在本綜述中，我們系統地回顧了現有的分布式GNN訓練技術，從圖數據處理到分布式模型執行，涵蓋了端到端分布式GNN訓練的生命周期。我們將分布式GNN訓練管道分為三個階段，其中數據劃分階段和GNN模型優化階段是影響GNN訓練效率的兩個關鍵階段。為了清晰地組織優化這兩個關鍵階段的新技術貢獻，我們提出了一個新的分類法，由四個正交的類別組成:GNN數據分區、GNN批處理生成、GNN執行模型和GNN通信協議。在GNN數據分區類別中，我們描述了用于分布式GNN訓練的數據分區技術;在GNN批生成類中，我們提出了用于小批分布式GNN訓練的快速GNN批生成技術;在GNN執行模型方面，討論了計算圖生成和計算圖執行所使用的執行模型;在GNN通信協議類別中，我們討論了分布式GNN訓練的同步和異步協議。在仔細回顧了這四類技術之后，我們分別總結了現有代表性的多GPU分布式GNN系統、GPU集群分布式GNN系統和CPU集群分布式GNN系統，并對未來優化大規模GNN訓練的方向進行了討論。

付費5元查看完整內容

可微算法 · 博士論文 · Felix Petersen ·

2022 年 9 月 12 日

[付費5元查看完整內容]經典算法與神經網絡如何結合？德國康斯坦茨大學Felix Petersen《可微算法學習》博士論文，162頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

經典算法和神經網絡等機器學習系統在日常生活中都很豐富。經典的計算機科學算法適合精確地執行精確定義的任務，例如在一個大圖中找到最短路徑，而神經網絡允許從數據中學習，以預測更復雜的任務，如圖像分類中最可能的答案，這不能簡化為一個精確的算法。為了更好地利用這兩個世界，本文探索了將這兩個概念結合起來，從而得到更健壯、更好的性能、更可解釋、更高效的計算和更高效的數據架構。本文提出了算法監督的概念，使神經網絡能夠從算法中學習或與算法結合。當將算法集成到神經體系結構時，重要的是算法是可微的，這樣的體系結構可以端到端訓練，梯度可以通過算法以有意義的方式傳播回來。為了使算法具有可微性，本文提出了一種通過擾動變量和封閉逼近期望值來連續松弛算法的通用方法，即:，不需要采樣。此外，本文還提出了可微算法，如可微排序網絡、可微呈現器和可微邏輯門網絡。最后，本文提出了用算法學習的其他訓練策略。h微ttps://www.zhuanzhi.ai/paper/8c415ddbac1f3d1c24e4bb5436caf786

Felix Petersen 研究興趣是具有可微算法的機器學習。例如，我已經做了一個使算法可微的通用框架，并且也關注了可微排序和可微渲染。雖然通過傳播分布來使算法可微分非常有趣，但我也喜歡通過神經網絡傳播分布，這可以提高不確定性估計、魯棒性和公平性。我在康斯坦茨大學的視覺計算小組(Oliver Deussen教授)工作，并與Christian Borgelt, Hilde Kuehne, Mikhail Yurochkin等人合作。

四千年前，埃及人發明了兩個數字相乘的算法，這是[21]算法的最早記錄。1843年，Ada Lovelace發布了第一個算法計算機程序，并設想了計算機在藝術和音樂等方面的現代應用，而當時這樣的計算機甚至還沒有制造出來[22,23]。一個世紀后的1943年，麥卡洛克和皮茨根據對大腦生物過程的觀察，設計了第一個神經網絡的數學模型。近十年來，基于人工神經網絡的方法在研究中受到了廣泛關注。這種復蘇可以歸因于硬件[25]、軟件[26-29]、卷積網絡[30,31]的發展以及深度學習在許多任務(如圖像分類[32,33])上的優勢。如今，經典算法和神經網絡等機器學習系統在日常生活中都很豐富。雖然經典的計算機科學算法適合精確執行精確的任務，如在一個大圖中找到最短路徑，但神經網絡允許從數據中學習，以預測更復雜的任務(如圖像分類)中最可能的答案，這不能簡化為一個精確的算法。為了達到這兩個世界的最佳效果，在這篇論文中，我們探索了將經典計算機科學算法和神經網絡，或者更一般地說，機器學習相結合。這將導致更魯棒、更好的性能、更可解釋、更高效的計算和更高效的數據架構。文中提出了一種可證明正確的嵌入算法，實現了模型的魯棒性。用一種快速算法代替神經網絡的一部分，降低神經網絡的計算復雜度，可以提高模型的計算性能。此外，在精確度方面，性能可以提高，因為有更小的潛在錯誤，并且領域知識支持網絡。相應地，這些模型也可以更容易解釋，因為算法的輸入通常(根據定義)是可解釋的。最后，由于算法監督是一種典型的弱監督學習，監督水平降低，模型的數據/標簽效率更高。通常，神經網絡使用隨機梯度下降(SGD)或預處理SGD方法進行訓練，如Adam優化器[34]。這些方法基于計算損失函數相對于模型參數的梯度(即導數)。這個梯度表示損失的最陡上升方向。由于最小化損失改進了模型，我們可以(在模型的參數空間中)沿著梯度相反的方向進行優化，即梯度下降。使用反向傳播算法[35]可以有效地計算損失相對于模型參數的導數，在當今的深度學習框架[26,29]中，該算法被實現為向后模式自動微分。 基于梯度的學習要求所有涉及的操作都是可微分的; 然而，許多有趣的操作，如排序算法是不可微的。這是因為像if這樣的條件語句是分段不變的，也就是說，它們的導數為0，除了在真和假之間的轉換(即“跳轉”)之外，它們的導數是未定義的。因此，使用(不可微分)算法進行基于梯度的學習通常是不可能的。因此，在這項工作中，我們專注于通過連續松弛使算法可微。連續松弛的基本思想是在算法中引入一定程度的不確定性，例如，它可以使if語句中的真和假平滑過渡，使算法完全可微。我們注意到，當超越反向傳播時，例如，通過RESGRO損失，如第七章所介紹的，可微性和平滑性不是嚴格必要的，但仍然是可取的。我們還注意到，在這項工作中，將無梯度優化算法與基于梯度的神經網絡學習結合在一起，可微分算法通常優于無梯度方法。

可微算法學習可以分為2個學科: I可微算法，即研究如何通過算法反向傳播并獲得有意義的梯度。I算法監督(Algorithmic Supervision)，將算法知識融入到神經網絡模型的訓練中。可微算法學習是機器學習中一個相對較新的領域。具體來說，除了一些個人早期的作品外，可微算法和算法監督領域在2018年取得了進展。我們已經在圖1.1的調查直方圖中可視化了這一點。在這里，我們將所有關于可微算法的相關工作分為應用算法監督的和不應用算法監督的(左)。進一步，我們將它們分類為wrt。他們提出或應用的可微算法。我們注意到，作者在2018年提出并開始了可微算法的研究，即在該領域形成之初。我們還注意到，該領域正在發展，最近才看到對現實問題的直接應用。

本論文共分為8章:各章按時間順序依次展開，具體來說，第2章介紹了3-6章構建的核心思想和方法。第7章介紹了備選的優化方法，因此在很大程度上獨立于第2 - 6章的時間流程，但建議從第2章和第3章中獲取知識，以便深入理解應用程序。第一章介紹了可微算法學習的核心思想，并涵蓋了重要的相關工作和應用。第二章詳細介紹了可微算法和算法監督的一般方法。為此，這一章給出了可微算法的一般概述，并可以視為引言的延伸。接下來的章節以本章的思想為基礎，每一章都更深入地討論了一類特定的可微算法。第三章研究了可微排序和排序方法，重點研究了可微排序網絡。我們首先介紹可微排序方法，并通過仔細的理論分析，得出改進的可微排序算子。第四章介紹了可微top-k方法，在概念上建立了可微排序和排序方法。特別地，我們引入了可微top-k網絡，這是對top-k算子可微排序網絡的改進。在可微top-k的基礎上，我們提出了top-k分類學習，并在ImageNet分類任務上取得了優異的性能。第五章介紹了可微呈現。我們介紹了可微渲染的各種方法，并提出了廣義可微渲染器GenDR，它(至少近似地)包含了大多數現有的可微渲染器，還可以推廣到新的可微渲染器。本章附有圖書館。第六章提出了可微邏輯門網絡，它是邏輯門網絡的一種松弛，因此可以訓練。這允許極快的推理速度，因為由此產生的邏輯門網絡可以在普通硬件上本機執行，因為這種硬件首先在邏輯門上操作。這是一個可微分算法的例子，它可以被訓練，并不一定與算法監督有關。第七章討論了備選的優化策略。具體來說，它討論了分裂反向傳播，一種基于正則化的通用兩階段優化算法，它允許使用不同于用于優化神經網絡的優化器來優化算法損失。分裂反向傳播還允許將神經網絡本身分裂為多個部分，并可以擴展到多個分裂，然后所有的訓練都可以端到端，即使子部分是用替代優化器訓練的，甚至是不可微的。在第八章，我們總結了本文的主要貢獻，并討論了未來的研究方向。

付費5元查看完整內容

自監督學習 · 圖神經網絡 · 深度學習 · 圖分析 ·

2021 年 2 月 28 日

[付費5元查看完整內容]GNN如何自監督學習？TAMU首篇《圖神經網絡自監督學習》綜述論文，17頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在監督模式下訓練的深度模型在各種任務上都取得了顯著的成功。在標記樣本有限的情況下，自監督學習(self-supervised learning, SSL)成為利用大量未標記樣本的新范式。SSL在自然語言和圖像學習任務中已經取得了很好的效果。最近，利用圖神經網絡(GNNs)將這種成功擴展到圖數據的趨勢。

在本綜述論文中，我們提供了使用SSL訓練GNN的不同方法的統一回顧。具體來說，我們將SSL方法分為對比模型和預測模型。

在這兩類中，我們都為方法提供了一個統一的框架，以及這些方法在框架下的每個組件中的不同之處。我們對GNNs SSL方法的統一處理揭示了各種方法的異同，為開發新的方法和算法奠定了基礎。我們還總結了不同的SSL設置和每個設置中使用的相應數據集。為了促進方法開發和實證比較，我們為GNNs中的SSL開發了一個標準化測試床，包括通用基線方法、數據集和評估指標的實現。

//www.zhuanzhi.ai/paper/794d1d27363c4987efd37c67ec710a18

引言

深度模型以一些數據作為輸入，并訓練輸出期望的預測。訓練深度模型的一種常用方法是使用有監督的模式，在這種模式中有足夠的輸入數據和標簽對。

然而，由于需要大量的標簽，監督訓練在許多現實場景中變得不適用，標簽是昂貴的，有限的，甚至是不可用的。

在這種情況下，自監督學習(SSL)支持在未標記數據上訓練深度模型，消除了對過多注釋標簽的需要。當沒有標記數據可用時，SSL可以作為一種從未標記數據本身學習表示的方法。當可用的標記數據數量有限時，來自未標記數據的SSL可以用作預訓練過程，在此過程之后，標記數據被用來為下游任務微調預訓練的深度模型，或者作為輔助訓練任務，有助于任務的執行。

最近，SSL在數據恢復任務中表現出了良好的性能，如圖像超分辨率[1]、圖像去噪[2,3,4]和單細胞分析[5]。它在語言序列[6,7,8]、圖像[9,10,11,12]、帶有序列模型的圖[13,14]等不同數據類型的表示學習方面也取得了顯著進展。這些方法的核心思想是定義前置訓練任務，以捕獲和利用輸入數據的不同維度之間的依賴關系，如空間維度、時間維度或通道維度，具有魯棒性和平滑性。Doersch等人以圖像域為例，Noroozi和Favaro[16]，以及[17]等人設計了不同的前置任務來訓練卷積神經網絡(CNNs)從一幅圖像中捕捉不同作物之間的關系。Chen等人的[10]和Grill等人的[18]訓練CNN捕捉圖像的不同增強之間的依賴關系。

根據訓練任務的設計，SSL方法可以分為兩類;即對比模型和預測模型。這兩個類別之間的主要區別是對比模型需要數據-數據對來進行訓練，而預測模型需要數據-標簽對，其中標簽是自生成的，如圖1所示。對比模型通常利用自監督來學習數據表示或對下游任務進行預訓練。有了這些數據-數據對，對比模型就能區分出正面對和負面對。另一方面，預測模型是在監督的方式下訓練的，其中標簽是根據輸入數據的某些屬性或選擇數據的某些部分生成的。預測模型通常由一個編碼器和一個或多個預測頭組成。當應用于表示學習或預訓練方法時，預測模型的預測頭在下游任務中被刪除。

在圖數據分析中，SSL可能非常重要，它可以利用大量未標記的圖，如分子圖[19,20]。隨著圖神經網絡的快速發展[21,22,23,24,25,26,27]，圖神經網絡的基本組成[28,29,30,31,32,33]等相關領域[34,35]得到了深入的研究，并取得了長足的進展。相比之下，在GNNs上應用SSL仍然是一個新興領域。由于數據結構的相似性，很多GNN的SSL方法都受到了圖像領域方法的啟發，如DGI[36]和圖自動編碼器[37]。然而，由于圖結構數據的唯一性，在GNN上應用SSL時存在幾個關鍵的挑戰。為了獲得良好的圖表示并進行有效的預訓練，自監督模型可以從圖的節點屬性和結構拓撲中獲取必要的信息。對于對比模型來說，由于自監督學習的GPU內存問題并不是圖形的主要關注點，關鍵的挑戰在于如何獲得良好的圖形視圖以及針對不同模型和數據集的圖形編碼器的選擇。對于預測模型，至關重要的是應該生成什么標簽，以便了解非平凡的表示，以捕獲節點屬性和圖結構中的信息。

為了促進方法論的發展和促進實證比較，我們回顧GNN的SSL方法，并為對比和預測方法提供了統一的觀點。我們對這一問題的統一處理，可以揭示現有方法的異同，啟發新的方法。我們還提供了一個標準化的測試，作為一個方便和靈活的開源平臺，用于進行實證比較。我們將本次綜述論文總結如下:

我們提供關于圖神經網絡SSL方法的徹底和最新的回顧。據我們所知，我們的綜述查首次回顧了關于圖數據的SSL。
我們將GNN現有的對比學習方法與一般框架統一起來。具體來說，我們從互信息的角度統一對比目標。從這個新的觀點來看，不同的對比學習方式可以看作是進行三種轉換來獲得觀點。我們回顧了理論和實證研究，并提供見解來指導框架中每個組成部分的選擇。
我們將SSL方法與自生成標簽進行分類和統一，作為預測學習方法，并通過不同的標簽獲取方式來闡明它們之間的聯系和區別。
我們總結了常用的SSL任務設置以及不同設置下常用的各類數據集，為未來方法的發展奠定了基礎。
我們開發了一個用于在GNN上應用SSL的標準化測試平臺，包括通用基準方法和基準的實現，為未來的方法提供了方便和靈活的定制。

付費5元查看完整內容

基于模型的強化學習 · 強化學習 ·

2021 年 1 月 12 日

[付費5元查看完整內容]【DeepMind】基于模型的強化學習，174頁ppt，Model-Based Reinforcement Learning

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

強化學習算法被廣泛的認為可以分為兩大類：無模型（Model-Free）的算法和基于模型（Model-Based）的算法。無模型的算法在過去一段時間在許多任務中已經取得了巨大的進步，這包括了機器人，視頻游戲等。盡管這類算法取得了巨大的成功，但是由于其較高的采樣復雜度，即需要與測試任務和環境進行大量的交互，生成樣本，從而學習得到效果較好的策略，這使得無模型的強化學習算法難以應用到大量的實際場景問題中，而僅僅應用在具有仿真環境的問題當中。

而通過學習一個近似環境的參數化的模型（Model），進而進一步幫助策略的學習的這類算法，被稱為基于模型的算法，使得其相比無模型算法可以大大降低采樣復雜度。本教程對基于模型的強化學習(MBRL)領域進行了廣泛的概述，特別強調了深度方法。MBRL方法利用環境模型來做決策——而不是將環境看作一個黑箱——并且提供了超越無模型RL的獨特機會和挑戰。我們將討論學習過渡和獎勵模式的方法，如何有效地使用這些模式來做出更好的決策，以及計劃和學習之間的關系。我們還強調了在典型的RL設置之外。