Transformer一直被認為是NLP和CV中的主要神經架構,主要是在有監督的環境下。最近,在強化學習(RL)領域也出現了類似的使用transformer的熱潮,但它面臨著RL性質帶來的獨特設計選擇和挑戰。然而,transformer在強化學習中的發展還沒有被很好地解開。本文試圖系統地回顧在強化學習中使用transformer的動機和進展,對現有工作進行分類,討論每個子領域,并總結未來前景。
//www.zhuanzhi.ai/paper/a72d26ab035255b1bfc3973fc6150e38
1. 概述
強化學習(RL)為序列決策提供了一種數學形式。利用強化學習,我們可以自動獲取智能行為。雖然強化學習為基于學習的控制提供了一個通用框架,但深度神經網絡的引入,作為一種高容量的函數逼近方式,正在推動在廣泛的領域取得重大進展[Silver et al., 2016; Vinyals et al., 2019; Ye et al., 2020a,b]。近年來,深度強化學習(deep reinforcement learning, DRL)在通用性方面取得了巨大的發展,但樣本效率問題阻礙了其在現實世界應用中的廣泛應用。為了解決這個問題,一種有效的機制是在DRL框架中引入歸納偏差。深度強化學習中一個重要的歸納偏差是函數逼近器架構的選擇,例如深度強化學習智能體的神經網絡參數化。然而,與監督學習(SL)中架構設計的努力相比,在深度強化學習中選擇架構設計的問題仍然較少被探索。大多數現有的強化學習架構工作是由(半)監督學習社區的成功所驅動的。例如,在深度強化學習中處理基于圖像的高維輸入的常見做法是引入卷積神經網絡(CNN) [LeCun et al., 1998; Mnih et al., 2015];處理部分可觀察性的另一種常見做法是引入遞歸神經網絡(RNN) [Hochreiter and Schmidhuber, 1997;Hausknecht和Stone, 2015]。
近年來,Transformer架構[Vaswani等人,2017]徹底改變了廣泛的SL任務的學習范式[Devlin等人,2018;Dosovitskiy等人,2020;Dong等人,2018],并展示了比CNN和RNN的優越性能。Transformer架構的顯著優點之一是能夠對長依賴關系進行建模,并具有出色的可擴展性[Khan et al., 2022]。受SL成功的啟發,人們對將transformer應用于強化學習的興趣激增,希望將transformer的好處帶到RL領域。在強化學習中使用transformer可以追溯到Zambaldi等人[2018b],其中自注意力機制用于結構化狀態表示的關系推理。之后,許多研究人員試圖將自注意力應用于表示學習,以提取實體之間的關系,以更好地進行策略學習[Vinyals et al., 2019; Baker et al., 2019]。除了利用transformer進行狀態表示學習外,之前的工作還使用transformer來捕獲多步時間依賴關系,以處理部分可觀測性問題[Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。最近,離線強化學習[Levine等人,2020]因其能夠利用離線大規模數據集而受到關注。在離線強化學習的激勵下,最近的努力表明,Transformer架構可以直接作為序列決策的模型[Chen等人,2021;Janner等人,2021]并將其推廣到多個任務和領域[Lee等人,2022;Carroll等人,2022]。
本綜述的目的是介紹強化學習中的transformer領域,稱為TransformRL。盡管Transformer目前在大多數SL研究中被認為是基礎模型[Devlin et al., 2018; Dosovitskiy et al., 2020],它在RL社區中仍然很少被探索。事實上,與SL域相比,在RL中使用transformer作為函數逼近器面臨著獨特的挑戰。首先,強化學習智能體的訓練數據通常是當前策略的函數,這在學習Transformer時引入了非平穩性。其次,現有的強化學習算法通常對訓練過程中的設計選擇高度敏感,包括網絡架構和容量[Henderson等人,2018]。第三,基于transformer的架構往往存在高計算和內存成本,使其在強化學習學習過程中的訓練和推理都很昂貴。例如,在視頻游戲人工智能的情況下,樣本生成的效率在很大程度上影響訓練性能,取決于強化學習策略網絡和價值網絡的計算成本[Ye et al., 2020a;Berner等人,2019]。本文試圖對TransformRL進行全面的概述,包括當前方法和挑戰的分類。我們還討論了未來的前景,相信TransformRL領域將在釋放強化學習的潛在影響方面發揮重要作用,本綜述可以為那些希望利用其潛力的人提供一個起點。
我們的論文結構如下。第2節介紹了RL和transformer的背景,然后簡要介紹了這兩者是如何結合在一起的。在第3節中,我們描述了強化學習中網絡架構的演變,以及阻止Transformer架構在強化學習中長期被廣泛探索的挑戰。在第4節中,提供了強化學習中transformer的分類,并討論了現有的代表性方法。最后,在第5節中總結并指出了未來的研究方向。 2. Transformers in RL
盡管Transformer已經成為大多數監督學習研究的基礎模型,但由于上述挑戰,它并沒有長期在強化學習社區中廣泛使用。實際上,大多數TransformRL的早期嘗試將transformer應用于狀態表示學習或提供記憶信息,同時仍將標準的強化學習算法應用于智能體學習,如時間差異學習和策略優化。因此,盡管引入transformer作為函數逼近器,但這些方法仍然受到傳統強化學習框架的挑戰。直到最近,離線強化學習才使得從大規模離線數據中學習最優策略成為可能。受離線強化學習的啟發,最近的工作進一步將強化學習問題視為固定經驗上的條件序列建模問題。通過這樣做,它有助于繞過傳統強化學習中bootstrapping error的挑戰,從而使Transformer架構釋放出強大的順序建模能力。回顧了TransformRL的進展,并提供了一個分類法來介紹當前的方法。將現有方法分為四類:表示學習、模型學習、順序決策和綜合智能體。圖2提供了一個分類法草圖,其中包含相應作品的子集。
用于表示學習的transformer考慮到強化學習任務的順序性,嘗試Transformer編碼器模塊是合理的。事實上,強化學習任務中的各種序列需要處理,例如本地每時間步長序列(多實體序列[Vinyals et al., 2019; Baker et al., 2019],多智能體序列[Wen等人,2022年]),時間序列(軌跡[Parisotto et al., 2020; Banino et al., 2021])等等。
用于模型學習的transformer
除了使用Transformer作為序列嵌入的編碼器外,Transformer架構還在一些基于模型的算法中充當環境模型的骨干。與以單步觀察和行動為條件的預測不同,Transformer使環境模型能夠以一定長度的歷史信息為條件來預測轉換。
用于序列決策的transformer
除了作為一個可插入到傳統RL算法組件中的表達性架構,Transformer本身可以作為一個直接進行順序決策的模型。這是因為強化學習可以被視為一個條件序列建模問題——生成可以產生高回報的行動序列。
多面手智能體的Transformer
鑒于決策Transformer已經在各種離線數據任務中展示了它的力量,一些工作轉向考慮Transformer是否可以使一個多面手智能體解決多個任務或問題,如在CV和NLP領域。
3. 總結
**本文簡要回顧了用于強化學習的transformer的進展。**本文對這些進展進行了分類:a) transformer可以作為強化學習的一個強大模塊,例如,作為表示模塊或世界模型;b) transformer可以作為順序決策者;c) transformer可以促進跨任務和領域的泛化。雖然我們介紹了這個主題的代表性工作,但在RL中使用transformer并不限于我們的討論。鑒于transformer在更廣泛的人工智能社區的繁榮,我們相信將transformer和RL結合是一個有希望的趨勢。最后,討論了這一方向的未來前景和開放問題。
**結合強化學習和(自)監督學習。**回顧TransformRL的發展,訓練方法包括強化學習和(自)監督學習。當作為在傳統強化學習框架下訓練的表示模塊時,Transformer架構的優化通常是不穩定的。當使用transformer通過序列建模解決決策問題時,由于(自)監督學習范式,"致命三元組問題" [Van Hasselt等人,2018]被消除。在(自)監督學習框架下,策略的性能與離線數據質量密切相關,利用和探索之間不再存在明確的權衡。因此,當我們在Transformer學習中結合強化學習和(自)監督學習時,可能會學到更好的策略。部分工作[Zheng et al., 2022; Meng et al., 2021]嘗試了有監督的預訓練和涉及強化學習的微調方案。然而,相對固定的策略可以限制探索[Nair等人,2020],這是有待解決的瓶頸之一。此外,用于性能評估的任務也相對簡單。transformer是否可以將這種(自)監督學習擴展到更大的數據集、更復雜的環境和現實世界的應用,值得進一步探索。此外,我們希望未來的工作提供更多的理論和經驗見解,以描述這種(自)監督學習在哪些條件下有望表現良好[Brandfonbrener et al., 2022]。
**用transformer橋接在線和離線學習。**進入離線強化學習是TransformRL的一個里程碑。在實際應用中,利用transformer獲取決策序列中的依賴關系并抽象策略,主要離不開大量離線數據的支持。然而,在實際應用中,一些決策任務脫離在線框架是不可實現的。一方面,在某些任務中獲取專家數據并不容易;另一方面,有些環境是開放式的(如《Minecraft》),這意味著策略必須不斷調整以處理在線交互過程中未見過的任務。因此,我們認為線上學習和線下學習的銜接是必要的。然而,大多數基于Decision Transformer的研究進展都集中在離線學習框架上。一些工作嘗試采用離線預訓練和在線微調的范式[Xie et al., 2022]。然而,與離線強化學習算法一樣,在線微調中的分布變化仍然存在,因此希望對Decision Transformer進行一些特殊設計來解決這個問題。此外,如何從頭開始訓練一個在線決策Transformer是一個有趣的開放問題。
**為決策問題量身定制的Transformer結構。**目前決策Transformer系列方法中的Transformer結構主要是vanilla Transformer,其最初是為文本序列設計的,可能不適合決策問題的性質。例如,是否適合對軌跡序列采用普通的自注意力機制?在位置嵌入中,是需要區分決策序列中的不同元素還是相同元素的不同部分?此外,由于在不同的Decision Transformer算法中將軌跡表示為序列的變體很多,如何從中選擇仍然缺乏系統的研究。例如,在行業中部署此類算法時,如何選擇可靠的后見之明信息?此外,普通Transformer是一種具有巨大計算成本的結構,這使得它在訓練和推理階段都很昂貴,并且內存占用很高,這限制了它捕獲的依賴項的長度。為了緩解這些問題,NLP中的一些工作[Zhou et al., 2021]從這些方面對結構進行了改進,相似結構是否可以用于決策問題也是值得探索的。
**轉向更多面手的Transformers智能體。**對面向多面手的transformer的綜述顯示了transformer作為一般政策的潛力(第4.4節)。事實上,transformer的設計允許使用類似的處理塊處理多種模態(如圖像、視頻、文本和語音),并對非常大容量的網絡和巨大的數據集表現出出色的可擴展性。最近的工作在訓練能夠執行多個和跨域任務的智能體方面取得了實質性的進展。然而,考慮到這些智能體是在大量數據上訓練的,仍然不確定它們是否只是記住了數據集,以及它們是否可以進行有效的泛化。因此,如何學習一個可以在沒有強假設的情況下泛化到未見任務的智能體是一個值得研究的問題[Boustati等人,2021]。此外,我們很想知道Transformer是否足夠強大,可以學習一個可以在不同任務和場景中使用的通用世界模型。
**Transformer的RL。**雖然我們已經討論了RL如何從Transformer的使用中受益,但相反的方向,即使用RL來受益于Transformer訓練是一個有趣的開放問題,但很少有人探索。我們看到,最近,來自人類反饋的強化學習(RLHF)[歐陽等人,2022]學習了一個獎勵模型,并使用RL算法微調Transformer,以使語言模型與人類意圖保持一致。未來,我們相信RL可以成為進一步提升Transformer在其他領域性能的有用工具。
隨著大型語言模型(LLMs)能力的不斷提高,語境學習( in-context learning,ICL)已經成為自然語言處理(NLP)的一種新范式,其中LLMs僅根據由少量訓練樣本增強的上下文進行預測。探索ICL來評估和推斷LLM的能力已經成為一個新的趨勢。文中對ICL的研究進展、面臨的挑戰以及未來的研究方向進行了綜述和總結。
本文首先給出了ICL的形式化定義,并闡明了其與相關研究的相關性。然后,我們組織討論了ICL的先進技術,包括訓練策略、激勵策略等;最后,指出了ICL面臨的挑戰,并指出了進一步研究的方向。希望我們的工作能夠促進更多關于揭示ICL工作原理和改進ICL的研究。1. 引言隨著模型規模和語料庫規模的擴大(Devlin et al., 2019; Radford et al., 2019; Brown et al., 2020; Chowdhery et al., 2022),大型語言模型展示了從由上下文中的幾個示例組成的演示中學習的新能力(簡稱語境學習)。許多研究表明,LLMs可以使用ICL執行一系列復雜的任務,如解決數學推理問題(Wei et al., 2022c)。這些強大的能力已經被廣泛驗證為大型語言模型的新興能力(Wei等人,2022b)。
語境學習的核心思想是類比學習。圖1給出了一個示例,描述了語言模型如何使用ICL進行決策。首先,ICL需要一些示例來形成演示上下文。這些示例通常使用自然語言模板編寫。然后,ICL將一個查詢問題和一個演示上下文連接在一起形成一個提示,然后將其輸入到語言模型中進行預測。與監督學習需要一個使用后向梯度更新模型參數的訓練階段不同,ICL不需要參數更新,而是直接對預訓練語言模型進行預測。該模型被期望學習隱藏在演示中的模式,并相應地做出正確的預測。ICL作為一種新的范式,具有許多吸引人的優勢。首先,由于演示是用自然語言格式編寫的,它提供了一個可解釋的接口來與大型語言模型通信(Brown et al., 2020)。這種范式通過更改演示和模板使將人類知識納入語言模型變得容易得多(Liu等人,2022;陸等人,2022;吳等人,2022;Wei等,2022c)。第二,上下文學習類似于人類的類比決策過程。第三,與有監督學習相比,ICL是一種無訓練學習框架。這不僅可以大大降低使模型適應新任務的計算成本,還可以使語言模型即服務(Sun等人,2022)成為可能,并且可以很容易地應用于大規模的現實世界任務。盡管前景看好,但ICL中還有一些有趣的問題和有趣的性質需要進一步研究。雖然普通的GPT-3模型本身顯示出有希望的ICL能力,但一些研究觀察到,通過預訓練期間的自適應,能力可以顯著提高(Min et al., 2022b; Chen et al., 2022c)。此外,ICL的性能對特定的設置很敏感,包括提示模板、上下文示例的選擇和示例順序等(Zhao et al., 2021)。此外,盡管從直觀上看是合理的,但ICL的工作機制仍然不明確,很少有研究提供初步解釋(Dai et al., 2022; von Oswald et al., 2022)。我們提供了一份詳細的論文綜述,并將不斷更新論文列表,對ICL的相關研究進行深入討論。本文強調了面臨的挑戰和潛在的方向,希望所做的工作可以為對該領域感興趣的初學者提供有用的路線圖,并為未來的研究提供啟發。2. 概述ICL的強大性能依賴于兩個階段:(1)訓練階段,訓練LLM的ICL能力,(2)推理階段,LLM根據特定任務的演示進行預測。在訓練階段,語言模型直接在語言建模目標上進行訓練,如從左到右的生成。雖然這些模型并沒有針對上下文學習進行特別優化,但ICL仍然具有令人驚訝的能力。現有的ICL研究基本上以訓練有素的語言模型為骨干,因此本綜述不會涵蓋預訓練語言模型的細節。在推理階段,由于輸入和輸出標簽都在可解釋的自然語言模板中表示,因此有多個方向來提高ICL的性能。本文將給出詳細的描述和比較,如選擇合適的示例進行演示,針對不同的任務設計具體的評分方法等。本文按照上述分類法(如圖2所示)組織ICL目前的進展,給出了ICL的正式定義(§3),詳細討論了熱身方法(§4)、演示設計策略(§5)和主要評分功能(§6)。§7對揭開ICL背后秘密的當前探索進行了深入討論。進一步為ICL(§8)提供了有用的評估和資源,并介紹了ICL顯示其有效性的潛在應用場景(§9)。最后,總結了挑戰和潛在的方向(§10),希望這可以為該領域的研究人員鋪平道路。
ICL的主要流程如圖3所示。預訓練對于發展LLM的ICL能力具有重要意義,而可選的預熱階段可以進一步提高其能力。對于演示來說,最重要的步驟是演示設計。通過預訓練的LLM和精心設計的演示,適當的評分策略最終產生任務輸出。
浙江大學最新《可解釋強化學習》綜述,37頁pdf1闡述XRL概念、算法、挑戰
強化學習(RL)是一種流行的機器學習范式,智能體與環境交互以實現長期目標。在深度學習復興的推動下,深度RL (DRL)在廣泛的復雜控制任務中取得了巨大成功。盡管取得了令人鼓舞的結果,但基于深度神經網絡的骨干網被廣泛認為是一個黑盒,它阻礙了從業者在高安全性和可靠性至關重要的現實場景中信任和使用經過訓練的智能體。為了緩解這個問題,通過構建內在解釋性或事后解釋性,大量的文獻致力于闡明智能智能體的內部工作方式。在本綜述中,我們對可解釋RL (XRL)的現有工作進行了全面的回顧,并引入了一種新的分類法,將先前的工作明確地分為模型解釋方法、獎勵解釋方法、狀態解釋方法和任務解釋方法。本文還回顧并強調了強化學習方法,這些方法反過來利用人類知識來提高智能體的學習效率和最終性能,而這種方法在XRL領域往往被忽略。討論了XRL中一些開放的挑戰和機遇。本綜述旨在對XRL進行高層次的總結和更好的理解,并推動未來對更有效的XRL解決方案的研究。相應的開放源代碼可以在//github.com/Plankson/awesome-explainable-reinforcement-learning上收集和分類。
概述
強化學習[193]受到人類試錯范式的啟發[143]。它基于這樣一個事實:與環境互動是人類在沒有他人指導的情況下學習的常見方式[98]。從互動中,人類獲得了關于因果關系、行動結果以及如何在環境中實現目標的信息。這類信息被隱式地用來構建我們的心智模型[155,218,225],而更多這類信息將使這個心智模型更加精確[22,171]。RL類似于目標導向的學習,通過與環境的交互,敏銳地意識到環境如何響應我們的行為,并有目的地影響未來的事件。更準確地說,RL學會從環境狀態映射到行動,從而最大化數值獎勵信號[189]。近年來,深度學習的快速發展[15,194]促進了深度學習與強化學習的融合。因此,深度強化學習(DRL)[44, 60, 134, 135, 177]作為一種新的RL范式出現。憑借深度神經網絡強大的表示能力[7,51,230],DRL在許多領域都取得了相當的性能[17,24,29,37,11,121,184],特別是在AlphaZero[184]和OpenAI Five[17]等游戲任務中,基于DRL的方法成功擊敗了人類職業選手。然而,對于現實場景中更復雜的任務,如自動駕駛[25,39,79,213,214]和電力系統調度[109,115,226,227,239],不僅要考慮高性能,還要考慮面向用戶的可解釋性,以考慮安全性和可靠性。這種可解釋性的要求是在真實世界而不是模擬環境中使用DRL的主要瓶頸。
由于深度神經網絡(DNN)的主干復雜,傳統的DRL方法的可解釋性較低[67,100,185,195]。追蹤和解釋一個神經系統中的每個參數,并將其擴展到整個網絡,這是非常棘手的。因此,我們不知道DNN考慮了哪些隱式特征,以及DNN如何處理這些特征。這個缺點導致DRL模型正在成為一個黑盒[84,232],專家無法理解智能體如何知道環境或智能體為什么選擇特定的行動。這種不透明性限制了DRL的應用,因為大多數人不會輕易信任智能體,特別是當智能體在沒有解釋決策過程的原因的情況下與他們的期望完全相反時。例如,在自動導航任務中[32,156],人們可能會對導航代理在沒有告訴他們原因的情況下進行的異常引導感到困惑,這可能只是為了避免交通堵塞。此外,可解釋性的缺乏也造成了在訓練過程中插入人類知識和指導的障礙[62,166]。盡管人類知識是以特定形式預先給定的[56,57,181,233,236],但智能體無法提取有效信息并從中受益。
為了解決可解釋性低的問題,在計算機視覺(CV)中的可解釋性人臉識別[43,85,165,219]和自然語言處理(NLP)中的可解釋性文本分類[8,119,186]等機器學習領域開展了許多可解釋性研究。可解釋機器學習的目標是生成不同形式的解釋,使模型對專家甚至外行人都是可解釋和透明的。它查看黑箱代理模型內部,自動提取或生成解釋,解釋為什么代理在每個時間步中選擇這個動作或給出這個結論。解釋的形式可以多種多樣,如自然語言[38,53,66]、顯著圖[54,83]或視頻[178]。通過可解釋的模型,智能體可以發現潛在的缺陷,并向專家解釋這些缺陷以進行進一步的改進。
對于可解釋強化學習(XRL)領域,人們在構建可解釋強化學習(XRL)模型方面做了許多初步的研究,并在解釋生成方面取得了一定的成果。為了對它們有一個完整的認識并總結當前的XRL技術,對XRL進行了幾次綜述[33,49,74,158,208,217]。Heuillet等人[74]回顧了關注解釋和用戶類型的方法。他們只是根據生成解釋的方式將方法分為兩類。這是一個初步的分類,需要進一步改進。Puiutta和Veith[158]遵循了基于解釋時間和范圍的傳統可解釋AI分類法。他們只是描述了一些有代表性的方法,并不是為了呈現對XRL的全面忽視。Wells和Bednarz[217]也列舉了各種XRL方法。但他們只關注可用于XRL領域的可視化技術。voros[208]將范圍限定在最先進的XRL方法中,并為XRL提供了一個架構符號范式,而解釋內容可分為代理偏好和目標的影響。Dazeley等人[33]提出了一個稱為因果XRL框架的概念架構,該框架解釋了XRL如何通過關注因果行為來生成對行為的解釋。該理論體系結構清晰而嚴謹,不僅考慮了感知、行動和事件,還考慮了目標、期望和處置。然而,現有的XRL框架只關注事件結果的感知和行動原因,這意味著現有的XRL技術只能用一種更簡單的因果XRL框架形式來表示。Glanois等人[49]明確界定了可解釋性和可解釋性之間的界限。他們將這些方法分為三種:可解釋輸入、過渡模型和偏好模型。它啟發我們關注RL的過程和結構。這些研究都提出了基于XRL的新分類法,但大多數都沒有基于RL范式。此外,從以上的綜述中我們可以發現,XRL領域仍然缺乏標準的標準,特別是在XRL的定義和評價方法方面,雖然許多人提出了自己的XRL標準[116,131,138,208],但沒有一個被整個DRL界所接受。目前的XRL框架大多沒有考慮人類參與的影響,只有少數論文試圖將基于人類知識的范式擴展到XRL領域,其研究結果有力地證明,這是一種既能獲得高解釋性又能獲得高性能的有效方法[237]。
為了使整個XRL體系結構得到進一步發展,系統地回顧了當前的XRL框架和綜述。明確了XRL模型可解釋性的概念,總結了模型可解釋性的評價指標。基于這些提出的XRL框架,我們提出了一種新的更適合于RL的XRL分類法。由于使整個RL范式可解釋目前是困難的,所有的工作都轉向對RL范式的組成部分可解釋。我們根據可解釋的目標部分對當前的XRL作品進行分類:模型、獎勵、狀態和任務。這四種部分解釋方法的目的是生成對主體行為的解釋。對于RL來說,這種分類法比一般的內在/事后/本地分類法要高級得多。考慮到基于人類知識的XRL工作的數量和它的重要性,我們將其分離出來,并試圖總結這些工作,并將它們組織到我們的分類法中。據我們所知,很少有研究者對這一領域進行了既包括人類知識又包括XRL的總結。我們的工作總結如下:
基于可解釋RL和可解釋機器學習的現有文獻,我們對XRL中的模型可解釋性進行了詳細的總結。當前的XRL評估指標也包含在這個總結中。
基于強化學習框架的不同部分(模型、獎勵、狀態和任務)的可解釋性,為當前的XRL作品引入了一種新的分類。可以在圖2中查看分類法。
注意到目前基于人類知識的XRL是一個不受歡迎的方向,只有少數作品和顯著的結果,我們將其作為論文的主要部分之一,對這些將XRL框架與人類知識相結合以獲得更高性能和更好解釋的方法進行了系統的綜述。
本次綜述的其余部分組織如下。在第二節中,我們回顧了強化學習的必要基礎知識。接下來,我們將討論XRL模型可解釋性的定義,并在第3節中給出解釋和XRL方法的一些可能的評估方面。在第4節中,我們描述了我們的分類,并詳細提供了每個類型和子類型的工作,我們分類法的抽象圖可以在圖2中看到。然后我們根據第5節的分類討論與人類知識相結合的XRL工作。在此之后,我們在第6節中總結了XRL當前的挑戰和未來的發展方向。最后,在第7部分對本文的工作進行了總結。本文的結構和我們的分類法工作如圖1所示。
圖1所示概述。本文概述了可解釋強化學習(XRL)。在我們的工作中,我們根據強化學習(RL)過程中不同部分的可解釋性將XRL分為四個部分:模型、獎勵、狀態和任務。這張圖用不同的顏色表示。圖中還展示了更具體的分類和作品,我們將在后面的部分中討論它們。
在過去的幾年中,強化學習(RL)與深度學習的結合取得了快速的進展。從游戲到機器人的各種突破都激發了人們對設計復雜的RL算法和系統的興趣。然而,RL中普遍采用的工作流程是學習tabula rasa,這可能導致計算效率低下。這就妨礙了RL算法的持續部署,并可能排除沒有大規模計算資源的研究人員。在機器學習的許多其他領域,預訓練范式已被證明在獲取可遷移知識方面是有效的,可用于各種下游任務。最近,我們看到了對深度RL預訓練的興趣激增,結果很有希望。然而,許多研究都是基于不同的實驗設置。由于強化學習的性質,該領域的預訓練面臨著獨特的挑戰,因此需要新的設計原則。本文系統地回顧了深度強化學習預訓練方面的現有工作,對這些方法進行了分類,討論了每個子領域,并對開放問題和未來方向提出了關注。
//www.zhuanzhi.ai/paper/aad5ecc8e9b3ee704395b5de4af297d2
1. 概述
強化學習(RL)為順序決策提供了一種通用的數學形式主義(Sutton & Barto, 2018)。通過利用RL算法和深度神經網絡,不同領域的各種里程碑通過數據驅動的方式優化用戶指定的獎勵函數實現了超人的性能(Silver et al., 2016; Akkaya et al., 2019; Vinyals et al., 2019; Ye et al., 2020, 2020, 2022; Chen et al., 2021b)。正因為如此,我們最近看到了對這一研究方向越來越多的興趣。
然而,盡管RL已被證明在解決指定良好的任務時是有效的,但樣本效率(Jin et al.,2021)和泛化(Kirk et al.,2021)的問題仍然阻礙了它在現實世界問題中的應用。在強化學習研究中,一個標準的范式是讓智能體從自己或他人收集的經驗中學習,通常是在單個任務上,并通過隨機初始化tabula - rasa優化神經網絡。相比之下,對人類來說,關于世界的先驗知識對決策過程有很大幫助。如果任務與之前看到的任務相關,那么人類傾向于重用已經學習到的東西來快速適應新任務,而不需要從頭開始從詳盡的交互中學習。因此,與人類相比,RL智能體通常存在數據效率低下的問題(Kapturowski et al.,2022),并且容易出現過擬合(Zhang et al.,2018)。
然而,其他機器學習領域的最新進展積極倡導利用從大規模預訓練中構建的先驗知識。大型通用模型,也被稱為基礎模型(Bommasani et al., 2021),通過在大范圍數據上進行訓練,可以快速適應各種下游任務。這種訓練前-微調范式已被證明在計算機視覺等領域有效(Chen et al., 2020; He et al., 2020; Grill et al., 2020)和自然語言處理(Devlin et al., 2019; Brown et al., 2020)。然而,預訓練還沒有對RL領域產生顯著影響。盡管如此,大規模RL前訓練的設計原則面臨著來自多方面的挑戰: 1) 領域和任務的多樣性; 2)數據來源有限; 3) 快速適應解決下游任務的難度大。這些因素源于RL的性質,不可避免地需要加以考慮。
本研究旨在對當前深度強化學習預訓練的研究現狀進行概覽。在RL中有原則的預訓練有多種潛在的好處。首先,RL訓練產生的大量計算成本仍然是工業應用的障礙。例如,復現AlphaStar的結果(Vinyals等人,2019年)大約需要數百萬美元(Agarwal等人,2022年)。預訓練可以通過預訓練的世界模型(Sekar et al., 2020)或預訓練的表示(Schwarzer et al., 2021b)來改善這一問題,通過支持快速適應以零次或少次的方式解決任務。此外,眾所周知,RL是特定于任務和領域的。已有研究表明,使用大量任務無關數據進行預訓練可以增強這些類型的泛化(Lee et al.,2022)。最后,我們相信用適當的架構進行預訓練可以釋放擴展定律的力量(Kaplan等人,2020年),正如最近在游戲中的成功所顯示的那樣(Schwarzer et al., 2021b; Lee et al., 2022)。通過增加計算量,擴大通用模型的規模,我們能夠進一步取得超人的結果,正如“痛苦的教訓”(Sutton, 2019)所教導的那樣。
近年來,深度RL的預訓練取得了一些突破。在著名的AlphaGo中,通過專家演示,使用監督學習來預測專家采取的行動,進行了樸素的預訓練(Silver et al., 2016)。為了在較少的監督下進行大規模的預訓練,無監督強化學習領域近年來發展迅速(Burda等人,2019a;Laskin等人,2021),使智能體能夠在沒有獎勵信號的情況下從與環境的交互中學習。根據離線RL的最新進展(Levine等人,2020年),研究人員進一步考慮如何利用未標記和次優離線數據進行預訓練(Stooke等人,2021年;Schwarzer等人,2021b),我們稱之為離線預訓練。與任務無關的數據的離線范式進一步為通用預訓練鋪平了道路,其中來自不同任務和模式的不同數據集以及具有良好擴展特性的通用模型被組合起來構建通用模型(Reed et al., 2022; Lee et al., 2022)。預訓練有可能在強化學習中發揮重要作用,這項綜述可以作為對該方向感興趣的人的起點。在這篇論文中,我們試圖提供一個系統的回顧,現有的工作在深度強化學習的預訓練。據我們所知,這是系統研究深度RL預訓練的先驅努力之一。
本文根據RL預訓練的發展趨勢,對本文進行了如下組織。在學習了強化學習和預訓練(第2節)的初步內容之后,我們從在線預訓練開始,在在線預訓練中,智能體通過與沒有獎勵信號的環境的交互進行學習(第3節)。然后,我們考慮離線預訓練,即使用任何策略收集一次無標記訓練數據的場景(第4節)。在第5節中,我們討論了針對各種正交任務開發通才智能體的最新進展。我們進一步討論了如何適應下游RL任務(第6節)。最后,我們總結了本次綜述和一些展望(第7節)。
2. 在線預訓練
在RL之前的大多數成功都是基于密集且設計良好的獎勵功能。盡管傳統的RL范式在為特定任務提供優異表現方面發揮著首要作用,但在將其擴展到大規模的預訓練時,它面臨著兩個關鍵的挑戰。首先,眾所周知,RL智能體很容易過擬合(Zhang et al., 2018)。因此,用復雜的任務獎勵訓練的預訓練智能體很難泛化到未見過的任務規范。此外,設計獎勵函數仍然是一個實際的挑戰,這通常是昂貴的和需要專業知識。
沒有這些獎勵信號的在線預訓練可能是學習通用技能的一個很好的解決方案,并消除了監督要求。在線預訓練的目的是在沒有人為監督的情況下,通過與環境的交互獲得先驗知識。在預訓練階段,允許代理與環境進行長時間的交互,而不獲得外部獎勵。當環境是可訪問的,使用它可以促進技能學習,當任務被分配給智能體時,這些技能將非常有用。這種解決方案,也被稱為無監督RL,近年來得到了積極的研究(Burda等人,2019a;Srinivas & Abbeel, 2021年)。
為了鼓勵智能體在沒有任何監督的情況下建立自己的知識,我們需要有原則的機制為智能體提供內在動力。心理學家發現,嬰兒可以通過與環境的互動發現需要學習的任務以及這些任務的解決方案(Smith & Gasser, 2005)。隨著經驗的積累,他們能夠在以后完成更困難的任務。這激發了大量研究,研究如何建立具有內在獎勵的自學智能體(Schmidhuber, 1991;Singh等人,2004;Oudeyer等人,2007)。內在獎勵,與指定任務的外在獎勵相比,是指鼓勵智能體收集多樣化經驗或開發有用技能的一般學習信號。研究表明,一旦給出下游任務,用內在獎勵和標準強化學習算法對智能體進行預訓練,可以導致快速適應(Laskin等人,2021)。
3. 離線預訓練
盡管在線預訓練在沒有人工監督的情況下具有很好的學習效果,但在大規模應用中仍有局限性。最終,很難將在線交互與在大型和多樣化的數據集上進行訓練的需求協調起來(Levine, 2021)。為了解決這個問題,人們希望將數據收集和預訓練解耦,并直接利用從其他智能體或人類收集的歷史數據。一個可行的解決方案是離線強化學習(Lange et al., 2012;Levine et al., 2020),最近受到了關注。離線RL的目的是單純從離線數據中獲得一個最大化的策略。離線RL的一個基本挑戰是分布轉移,它指的是訓練數據和測試中看到的數據之間的分布差異。現有的離線RL方法主要關注如何在使用函數逼近時解決這一挑戰。例如,策略約束方法(Kumar等人,2019年;Siegel等人,2020)明確要求學習策略避免在數據集中采取看不見的操作。值正則化方法(Kumar et al., 2020)通過將值函數擬合到某些形式的下界,緩解了值函數的過高估計問題。然而,離線訓練的策略是否可以泛化到離線數據集中看不到的新上下文仍有待深入研究(Kirk等人,2021年)。
Transformer是當下關注的熱點方法之一,如何把Transformer用在3D視覺上是個重要的研究方向。來自阿聯酋MBZUAI大學的學者發布了《3D視覺Transformers處理》綜述論文,提出了一個超過100種Transformer方法的系統和全面的綜述,不同的三維視覺任務,包括分類,分割,檢測,完成,姿態估計,和其他。
Transformer結構在自然語言處理中的成功引起了計算機視覺領域的關注。由于Transformer 具有學習遠程依賴關系的能力,它已被用作廣泛使用的卷積算子的替代。這種替代被證明在許多任務中都是成功的,其中一些最先進的方法依賴于Transformer來更好地學習。在計算機視覺領域,3D領域也越來越多地采用Transformer用于三維卷積神經網絡和多層感知器網絡。雖然很多綜述都關注視覺中的Transformer,但與2D視覺相比,3D視覺在數據表示和處理方面存在差異,因此需要特別關注。在這項工作中,我們提出了一個超過100種Transformer方法的系統和全面的綜述,不同的三維視覺任務,包括分類,分割,檢測,完成,姿態估計,和其他。我們討論了三維視覺中的Transformer設計,它允許用各種三維表示來處理數據。對于每個應用,我們強調了基于Transformer的方法的關鍵屬性和貢獻。為了評估這些方法的競爭力,我們在12個3D基準上將它們的性能與普通的非Transformer方法進行了比較。最后,我們討論了Transformer在3D視覺中的不同開放方向和挑戰。除了已發表的論文,我們的目標是經常更新最新的相關論文及其相應的實現://github.com/lahoud/3d-vision-transformers。
計算機視覺的一個基本問題是理解三維空間中的場景和物體。它支持關系的緊湊表示,并提供了在現實世界中導航和操作的能力。3D視覺在各個領域發揮著重要的作用,包括自動駕駛、機器人、遙感、醫療、增強現實、設計行業等許多領域的應用。人們對3D領域的興趣越來越大,原因有很多: (1)各種3D捕獲傳感器的發展,如激光雷達和RGB-D傳感器; (2) 大量大規模的3D幾何數據集的引入,這些數據以3D方式收集和標記;(3)3D深度學習方法的進步。
常見的3D深度學習方法采用深度卷積神經網絡(CNNs)和多層感知器(MLPs)。盡管如此,使用注意力機制的基于transformer的架構已經在各種領域顯示了這種方法的有效性,如自然語言處理(NLP)和2D圖像處理。雖然卷積操作具有有限的接受域和翻譯等方差屬性,但注意機制是全局操作的,因此可以編碼長程依賴,允許基于注意力的方法學習更豐富的特征表示。見證了基于transformer的架構在圖像領域的成功,許多3D視覺方法最近都在模型設計中采用了transformer。這些架構已經被提出作為最常見的3D視覺應用的解決方案。在3D技術中,transformer已經取代或補充了之前的學習方法,得益于其捕捉遠程信息和學習任務特定的歸納偏差的能力。
鑒于transformers 對3D視覺的興趣日益濃厚(圖1,左),對現有方法的概述對于全面了解這一新興領域至關重要。在本次綜述中,我們回顧了使用transformers完成3D視覺任務的方法,包括分類、分割、檢測、完成、姿態估計等(圖1,右)。我們強調了transformers 在3D視覺中的設計選擇,這允許它處理各種3D表示的數據。對于每個應用,我們討論了提出的基于transformers 的方法的關鍵屬性和貢獻。最后,我們將它們的性能與廣泛使用的3D數據集/基準上的其他方法進行比較,以評估transformers 集成在該領域的競爭力。
我們注意到,許多綜述研究了3D視覺中的深度學習方法。在這些綜述中,許多已經發表的研究對處理3D數據[1],[2],[3],[4]的方法進行了全面的綜述。其他研究集中在特定的3D視覺應用,如分割[5],[6],[7],分類[8],或檢測[9],[10]。此外,一些調查從表示的角度[11],[12]來研究3D深度學習方法,還有一些研究將研究限制在特定的數據輸入傳感器[10],[13]。考慮到大多數綜述是在transformer架構最近取得成功之前發布的,對基于transformer的架構的關注仍然缺失。
隨著最近大量依賴于注意力機制和transformer 架構的視覺方法的出現,涌現了許多研究這些方法的工作。這些作品中有一些考慮了視覺上的transformer [14]、[15]、[16]、[17]、[18],而另一些則專注于特定方面,如效率[19],或特定應用,如視頻[20]或醫學成像[21]。考慮到二維和三維數據表示和處理的差異,特別關注應用于三維視覺應用的transformer 是必要的。因此,我們重點研究transformer 結構在三維視覺領域的應用。該綜述包括使用具有3D輸入和/或輸出的transformer架構的方法。3D數據可以通過許多傳感器獲得,如室內的RGB-D傳感器,室外的激光雷達,以及專門的醫療傳感器。我們包括使用點云或密集的3D網格作為輸入的方法。在醫學成像中,通過在不同的切片上拍攝圖像也可以得到密集的三維網格。此外,還介紹了將transformer 架構應用于其他輸入數據(如多視圖圖像或鳥瞰圖)并生成3D輸出的代表性方法。
圖1 三維計算機視覺中transformer設計的分類。我們將這些方法分成與轉換器的輸入、上下文級別、其與其他學習方法的組合(純/混合)以及可擴展性元素相關的底層方法差異。
注意力塊捕獲遠程依賴,這有助于學習上下文在基于卷積的網絡中沒有充分利用。這些遠程依賴關系在場景理解中起著重要的作用,特別是當局部信息模糊時。此外,transformers 可以應用于集合,這是點云的自然表示。與圖像表征不同,點云可以以不同的長度出現,與句子中的單詞有相似之處。考慮到在NLP中transformers 的成功,人們希望將transformers 集成到3D領域也會遵循類似的趨勢。此外,應用于2D的transformers 需要在特征信息中添加位置信息。在3D中,位置可以作為點云中點的坐標。上述transformers 的特性為在3D領域中使用transformers 架構奠定了基礎。然而,有許多方法可以將transformers 集成到3D應用管道中。因此,我們將在本節中討論這種集成的關鍵特征。我們的討論基于圖5所示的分類。
將transformer集成到3D應用Pipeline中已被證明在許多領域都是有效的。考慮到在多個數據集上具有競爭力的性能,由于其學習遠程依賴的能力,該transformer被證明是卷積和多層感知器操作的充分替代。盡管如此,用于3D處理的通用transformer主干仍然缺失。與許多其他方法所依賴的transformer圖像處理方法[69]、[112]不同,大多數基于transformer的3D方法使用不同的transformer設計和集成。開發一種通用的轉換方法,在局部和全局尺度上處理點云并學習豐富的特征,是一項非常有意義的工作。transformer需要學習精細的形狀信息,同時在場景全局范圍內運行,以利用場景上下文。
Transformers 在自然語言處理方面取得了巨大的成功。由于Transformers 具有強大的自注意力機制,研究人員開發了用于各種計算機視覺任務的視覺Transformers ,如圖像識別、目標檢測、圖像分割、位姿估計和三維重建。本文全面概述了視覺Transformers 的不同架構設計和訓練技巧(包括自監督學習)的文獻。我們的目標是提供一個系統的回顧與開放的研究機會。
Transformers [Vaswani et al., 2017]最初在自然語言處理方面取得了巨大的成功[Devlin et al., 2018; Radford et al., 2018],可用于情感分類、機器翻譯、詞預測和摘要等多種應用。transformers 的關鍵特征是自注意力機制,它幫助模型學習全局上下文,并使模型獲得遠程依賴。在自然語言處理取得巨大成功的推動下,transformers被計算機視覺任務所采用,導致了視覺transformers的發展。近年來,視覺transformers 變得流行起來,并在許多領域取得了相當大的成功,如圖像分類[Dosovitskiy et al., 2021; Liu et al., 2021],視頻分類[Arnab et al., 2021],目標檢測[Carion et al., 2020; Fang et al., 2021],語義分割[Xie et al., 2021a; Li et al., 2021b]和位姿估計[Zhu et al., 2021]。
盡管該架構取得了成功,但仍有一些缺陷需要解決,如數據缺乏、缺乏局部性和跨補丁信息。因此,最近提出了進一步增強視覺transformers的研究路線。本文介紹了解決這些問題的重要思路,旨在為未來的研究提供線索。此外,由于自監督學習方法在視覺transformers 中起著重要的作用,我們也介紹了幾種用于視覺transformers 的自監督學習方法。論文的其余部分是或組織如下。首先對transformers 進行了初步的介紹,然后介紹了視覺transformers 的各種結構。在此基礎上,提出了視覺transformers 的訓練方法和自監督學習方法。最后,對本文進行了總結,并對未來的研究方向和挑戰進行了討論。
注意力機制是深度學習研究中最有益的突破之一,它衡量了有助于最終結果的特征的重要性。使用注意力機制通常會教會模型專注于特定的特征。對于自注意而言,輸入和輸出的大小是相同的,而自注意力機制允許輸入之間的相互作用,并發現它們更應該注意哪一個。然后,根據注意力得分對輸入進行加權,增強每個輸出。例如,給一個句子,“一只狗掉進了冰里,從池塘里被救了出來”,自注意力可以通過關注“狗”來增強“它”的嵌入性。自注意力是為了幫助模型在遠程依賴特性下學習全局上下文而設計的。
Transformer,由Vaswani等人提出[Vaswani等人,2017],在NLP任務中無處不在[Devlin等人,2018;Brown等人,2020年;Peyrard等人,2021年]。圖2說明了Transformer的架構。單個Transformer塊可分為編碼器和解碼器,二者可進一步分解為1)自注意力,2)位置前饋網絡,3)位置編碼。
ViT [Dosovitskiy等人,2021]用幾個transformer 層取代了所有的CNN結構,在圖像識別方面達到了最先進的性能,被稱為視覺transformer 的先驅。ViT包含三個部分:1)補丁和位置嵌入,2)transformer 編碼器,3)多層感知器(MLP)頭。
盡管ViT具有良好的性能,但它仍然存在幾個問題。例如,ViT需要在大型數據集上進行訓練。因為ViT最初是在JFT數據集上訓練的[Sun et al., 2017],圖像≈300M,然后在ImageNet上進行微調(≈1.2M) [Russakovsky et al., 2015]。如果數據集不足,該模型可能比基于CNN的方法表現更差。雖然預訓練的權重可以用于各種任務,但許多數據集是不可轉移的,甚至性能較差。此外,ViT并不是一種通用的主干,它只適合于圖像分類,而不適合進行密集的預測,如目標檢測和圖像分割,因為它需要進行patch分區。
視覺transformers分類
**圖3給出了三種主流方向的視覺transformers分類。**具體來說,第3.1節首先介紹了基于局部性的模型,它將局部性添加到體系結構中。接下來,在第3.2節介紹了基于特征的模型,旨在使特征表示多樣化。最后,在3.3節提出了基于層次的模型,它逐層減少特征大小,以提高推理速度。一些沒有被劃分到上述類別的架構包含在第3.4節中。請注意,這些模型被歸入某些類別,但這些類別不是互斥的。
基于局部的ViT模型缺乏局部性和翻譯等效性,通常比CNN表現得差。因此,研究人員開始將CNN結構納入視覺transformer ,因為卷積核有助于模型捕捉局部信息。因此,從CNN中加入局部性可以提高視覺轉換器的數據效率,從而在小數據集上獲得更好的性能。下面,我們介紹幾種考慮局部性的方法。
視覺Transformer的訓練技巧
為了更好地訓練視覺Transformer,本文提出了一些增加數據多樣性和提高模型通用性的方法。數據增強用于增加訓練數據的多樣性,如平移、裁剪等,通過改變輸入模式幫助模型學習主要特征。為了找出各種數據集的最佳組合,AutoAugment [Cubuk等人,2019]和RandAugment [Cubuk等人,2020]旨在尋找更好的組合。這些增強策略被證明是可轉移到不同的數據集。指數移動平均線(EMA)經常被加入以穩定訓練過程。
視覺Transformer中的自監督學習
自監督學習(Self-Supervised Learning, SSL)將模型訓練為監督學習,但只使用數據本身來創建標簽,而不是手工注釋。與利用數據相比,SSL有相當大的優勢,特別是對那些廣泛的數據集非常有用。它還幫助模型了解數據中的關鍵信息,使模型具有魯棒性和可遷移性。目前,計算機視覺中的SSL主要分為前置任務和對比學習。前者是在對下游任務進行微調之前,為模型設計一個特定的工作,例如預測旋轉程度、著色或解決拼圖游戲。相比之下,后者為同類數據生成相似的特征,并推開其他負樣本。
結論
我們介紹了幾種視覺transformer模型,并重點介紹了創新的組件。具體地說,引入了可變架構來解決數據需求大、效率低、魯棒性差等缺點。這些思想包括轉移CNN的誘導偏差、增加局部性、強數據增強、跨窗口信息交換和降低計算成本。我們還回顧了訓練技巧,以及自監督學習,它訓練數據集不需要任何標簽,但甚至可以達到比監督方法更高的準確性。最后,我們對未來的研究提出了一些開放性的挑戰。
來自香港科技大學、IDEA、中科院、清華、微軟等發表《視覺語言智能》綜述論文,從時間的角度對視覺語言智能進行了全面的研究。非常值得關注!
本文從時間的角度對視覺語言智能進行了全面的研究。這項研究的靈感來自于計算機視覺和自然語言處理的顯著進展,以及從單一模態處理到多模態理解的最新趨勢。我們將這一領域的發展總結為三個時期,即任務特定方法,視覺語言預訓練(VLP)方法,以及由大規模弱標記數據訓練的大模型。我們首先以一些常見的VL任務為例,介紹了特定于任務的方法。然后我們重點介紹了VLP方法,并全面回顧了模型結構和訓練方法的關鍵組成部分。之后,我們展示了最近的工作是如何利用大規模的原始圖像-文本數據來學習語言對齊的視覺表示,這種視覺表示在零或少數樣本學習任務中得到了更好的泛化。最后,我們討論了在模態協同、統一表示和知識整合方面的一些潛在的未來趨勢。我們相信這篇綜述將有助于人工智能和ML的研究人員和實踐者,特別是那些對計算機視覺和自然語言處理感興趣的人。
引言
計算機視覺(CV)和自然語言處理(NLP)是人工智能(AI)的兩個分支,它們專注于在視覺和語言上模擬人類智能。近十年來,深度學習在這兩個領域極大地推進了單模態學習,并在一系列任務上取得了最先進的成果。深度學習的顯著進步的核心在于快速發展的GPU和大規模數據集的可用性,這允許在大規模上加速深度模型的訓練。
隨著深度學習的發展,我們看到了一系列功能強大的神經網絡的發展。傳統的神經網絡通常是多層感知器(MLP),由多個堆疊的線性層和非線性激活組成(Rosenblatt, 1957, 1961)。LeCun等人(1998)提出了卷積神經網絡(CNN),將平移不變特性作為對2D視覺輸入更好的誘導偏差,這啟發了大量的深度神經網絡,包括AlexNet (Krizhevsky et al., 2012)、VGGNet (Simonyan and Zisserman, 2015a)、googlet (Szegedy et al., 2015)、和ResNet (He et al., 2016a)。另一個突出的突破是自然語言處理(NLP)領域的循環神經網絡(RNN),它提出了循環細胞用于順序數據建模(Rumelhart et al., 1985; Hochreiter and Schmidhuber, 1997a)。為了緩解長序列訓練中梯度的消失和爆炸問題,提出了RNN的一種變體LSTM (Hochreiter and Schmidhuber, 1997a)和LSTM的一種更高效的版本GRU (Chung et al., 2014)。NLP的另一個重大突破是Transformer (Vaswani et al., 2017),它利用注意力機制追求更好的語言表征。使用多個堆疊的注意力層,Transformer可以以高并行性在全局范圍內融合語言標記上的信息,這有利于強大的表示和大規模的訓練。
雖然在單一模態領域取得了令人鼓舞的進展,但現實世界的問題往往涉及多種模態。例如,自動駕駛汽車應該能夠處理人類的命令(語言)、交通信號(視覺)、道路狀況(視覺和聲音)。即使是單模態學習也能從多模態學習中受益。例如,語言學習需要感知,而感知是許多語義公理的基礎(Bisk et al., 2020)。感知是人類理解物質世界的方式,決定了人類語言背后的假設。因為我們都聽到和看到同樣的事情,我們會留下一些知識作為常識,這些知識在我們的語言中是不成文的(Bisk et al., 2020)。即使局限于語言,言語也比文本包含更多有用的信息,例如,韻律可以暗示情感。注意到多模態感知在多模態和單模態任務中都有幫助,有大量的研究工作。多模的領域內, 視覺和語言的集成得到太多的關注, 因為視覺是人類最重要的感知理解環境和l語言對齊視覺特征可以極大地提高視覺任務的表現和視覺語言任務。此外,視覺語言智能的普及還得益于該領域豐富的數據集和基準。
解決許多特定于任務的VL問題的動力推動了VL學習的初步發展。這些VL問題包括圖像描述、視覺問答(VQA)、圖像-文本匹配等。Xu et al. (2015); Karpathy et al. (2014); Vinyals et al. (2015)集成了一個CNN圖像編碼器和一個RNN文本解碼器用于圖像描述。Antol et al. (2015); Yang et al. (2016); Anderson et al. (2018b) 通過將圖像和文本映射到相同的潛在空間并從潛在表征中預測答案來解決VQA任務。Kiros et al. (2014); Karpathy et al. (2014); Huang et al. (2016); Lee et al. (2018)通過計算圖像和文本在句子級別或標記級別上的相似度來進行圖像-文本匹配。這些模型是為各種數據集的特定問題量身定制的,每個模型只能解決一個任務。
受普遍存在的語言(Devlin et al., 2018)和視覺的預訓練和微調的啟發,視覺和語言跨學科領域迎來了一個新時代:通過圖像-文本對的預訓練來學習視覺和語言的聯合表征。VLP模型的興起主要是受到了架構設計和訓練方法中的語言模型的啟發。例如,最近的許多研究(Li et al., 2019b; Lu et al., 2019; Zhang et al., 2021; Tan and Bansal, 2019; Li et al., 2020b; Yu et al., 2020; Chen et al., 2020)采用了BERT-like (Devlin et al., 2018)架構和訓練方法。由于缺乏足夠大規模的人工標注數據,VL學習的發展面臨著嚴峻的挑戰。最近,一些研究(Radford et al., 2021; Jia et al., 2021; Wang et al., 2021; Li et al., 2021b)通過采用對比學習和利用大規模網絡爬行數據學習視覺語言特征,打破了這一限制,這些特征可用于零樣本學習。
VL領域的快速發展推動了對該領域現有研究的全面綜述。本文旨在提供一個結構化的綜述,在VL領域的最新進展,以幫助研究人員獲得一個整體的視圖,并更好地理解最近的研究。我們將VL學習的發展分為三個階段。第一個是從2014年到2018年,專門的模型被設計用于不同的任務。第二個時代是2019年至2021年,在此期間,通過對標記良好的VL數據集進行預訓練,學習視覺和語言的聯合表征。最后,隨著2021年CLIP的出現,第三個時代開始了(Shen等人,2021年),研究人員尋求在更大的弱標記數據集上預先訓練VL模型,并通過預訓練VL獲得強大的零樣本/少樣本視覺模型。
回顧VL智能的整個發展過程,我們發現總體目標是學習良好的視覺表征。一個好的視覺表示應該具有(Li et al., 2021b)中總結的三個屬性,即對象級、語言對齊和語義豐富。對象級意味著視覺和語言特性的粒度應該分別與對象級和詞級一樣細。語言對齊強調與語言對齊的視覺特征可以幫助完成視覺任務。語義豐富是指不受領域限制地從大規模數據中學習表示。在VL的第一個時代,研究工作的目的是解決具體的問題,而不是學習上述好的表征。在第二個時代,研究人員訓練模型的圖像-文本對,以獲得語言對齊的視覺特征。這個時代的一些作品采用檢測到的區域作為圖像表示,學習對象級的特征。只有在第三時代,研究人員才能處理大規模的數據集和預訓練的語義豐富的特征。
據我們所知,這是第一次從時間段的角度總結研究的VL綜述。本文的其余部分組織如下。我們從VL中的一些特定于任務的問題開始,如第二節中的圖像標題、VQA和圖像-文本檢索。然后,我們在第三節中全面解釋了預訓練增強的視覺-語言聯合表征學習。在第六節中,我們展示了一些直接從原始圖像-文本數據學習語言對齊的視覺表示的工作,以及大規模的視覺語言訓練。
VLP方法發展概覽
與特定任務問題的比較。任務分為四類。對于每個任務,我們總結了輸入、輸出、數據集、度量和主流方法。
未來發展
在過去的幾年中,我們見證了VLP模型如何擴展到使用大量弱標記和更多樣化的數據。在未來,模型和數據將繼續擴大,以實現更強的模態協作,甚至統一表示。此外,知識的整合可以進一步增強VLP模型的泛化能力。在本節中,我們將討論這些未來的趨勢。
模態合作
除了利用VL數據集改進跨模態任務外,模態合作還出現在訓練前以提高單模態任務和多模態任務的性能。模態合作是幫助不同模態的人互相幫助,學習更好的表現。例如,用視覺數據改進語言任務,用單模態數據改進跨模態任務
通用統一模態
由于Transformer架構,研究人員在單模態和多模態表示學習方面都取得了顯著進展。在前幾節中,我們討論了多模態表示和模態合作,它們以不同的方式連接視覺和語言。一個更雄心勃勃的目標是建立一個通用的表示模型,它可以統一多種模態。
VL+知識
許多VL任務需要常識和事實信息超出訓練數據集。