亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在大規模不同數據上預訓練的基礎模型在廣泛的視覺和語言任務中表現出了非凡的能力。當這樣的模型部署到現實世界環境中時,它們不可避免地要與其他實體和智能體進行交互。例如,語言模型通常用于與人類通過對話進行交互,視覺感知模型用于自主導航鄰域街道。為了響應這些發展,新的范式正在出現,用于訓練基礎模型與其他智能體交互并進行長期推理。這些范式利用了為多模態、多任務和通用交互策劃的越來越大的數據集的存在。在基礎模型和決策的交叉點進行研究,為創建強大的新系統提供了巨大的希望,這些系統可以在對話、自動駕駛、醫療健康、教育和機器人等各種應用中有效交互。本文研究了基礎模型決策的范圍,并為理解問題空間和探索新的研究方向提供了概念工具和技術背景。通過提示、條件生成建模、規劃、最優控制和強化學習等各種方法,回顧了地基模型在實際決策應用中的最新方法,并討論了該領域中常見的挑戰和開放問題。

//www.zhuanzhi.ai/paper/2061942c130806abb07d97214c5a7506

1. 引言

**通過自監督學習在廣泛的數據集上預訓練的基礎模型在向不同的下游任務遷移知識方面表現出了卓越的能力[Bommasani等人,2021]。**由于此類模型繼續應用于涉及長期推理[Wei等人2022a]、控制[Brohan等人2022]、搜索[Strohman等人2005]和規劃[Huang等人2022b]的更復雜問題,或部署在對話、自動駕駛、醫療保健和機器人等應用程序中,因此預計它們將與外部實體和代理接口。例如,在對話中,語言模型與人類進行多輪對話;在機器人技術中,感知-控制模型在現實世界環境中執行動作。這些場景為基礎模型提出了新的挑戰,包括(1)如何從外部實體給出的反饋中學習(如人類對對話質量的評級),(2)如何適應大型語言或視覺數據集通常不涵蓋的模態(如機器人動作),以及(3)如何對未來進行長期推理和規劃。

**傳統上,這些問題一直是序列決策的核心[Sutton和Barto 2018],包括強化學習、模仿學習、規劃、搜索和最優控制等領域。**與基礎模型的范式相反,在預訓練中使用了具有數十億圖像和文本標記的廣泛數據集,之前關于序列決策的工作主要集中在特定任務或tabula rasa設置,先驗知識有限[Silver等人,2017]。盡管看似不利的設置,序列決策的研究已經取得了重大進展,在諸如玩棋盤游戲[Tesauro 1994]和雅達利電子游戲[Mnih等人2013],以及操作機器人完成導航[Pomerleau 1988]和操作任務[Kalashnikov等人2018;Akkaya等。2019]。然而,由于這些方法在沒有視覺、語言或其他數據集的廣泛知識的情況下從頭開始學習解決任務,它們通常在泛化和樣本效率方面存在困難,例如,需要7個GPU天的交互式游戲才能解決一個Atari游戲[Agarwal等人2022]。直觀地說,類似于用于基礎模型的廣泛數據集也應該有利于序列決策模型。例如,互聯網上有無數關于如何玩雅達利游戲的文章和視頻。類似地,有大量關于物體和場景屬性的知識,這些知識對機器人很有用,或者關于人類需求和情感的知識,可以改進對話模型。

**雖然基礎模型和序列決策的研究在很大程度上由于不同的應用和焦點而脫節,但在這些社區的交叉點上的活動越來越多。**在基礎模型方面,隨著發現大型語言模型的涌現特性,目標應用程序已經從簡單的零次或少次視覺和語言任務過渡到現在涉及長期推理的問題[Srivastava等人,2022;Wei等。2022b;Lewkowycz et al. 2022]或多重交互[OpenAI 2022]。相反,在序列決策社區,受大規模視覺和語言模型成功的啟發,研究人員已經開始策劃越來越大的數據集,用于學習多模型、多任務和通用交互式智能體[Agarwal等人2020b;Szot等人,2021;Fan等,2022;Brohan等人,2022;Reed等,2022;Lee et al. 2022]。為了進一步模糊兩個領域之間的界限,最近的一些工作研究了使用預訓練基礎模型,如CLIP [Radford等人2021]和ViT [Dosovitskiy等人2020]來引導視覺環境的交互式智能體的訓練[Khandelwal等人2022;Tao等人2022],而其他工作將基礎模型作為通過人工反饋強化學習優化的對話代理進行了研究[Ouyang等人2022],以及其他工作使大型語言模型與搜索引擎等外部工具交互[Komeili等人2021;Thoppilan等人,2022;Lazaridou等人,2022;Shuster等人]。計算器[Cobbe等人,2021;Thoppilan等人2022]、翻譯器[Thoppilan等人2022]、MuJoCo模擬器[Liu等人2022d]和程序解釋器[Gao等人2022]。

**我們在本報告中的前提是,如果聯合考慮,基礎模型和交互式決策的研究可以是互利的。**一方面,基礎模型適應涉及外部實體的任務,可以從交互式地合并反饋和執行長期規劃中受益。另一方面,序列決策可以利用基礎模型的世界知識,更快地解決任務,泛化能力更好。為了推動這兩個領域的交叉研究,我們對決策基礎模型的問題空間進行了范圍界定。本文提供了技術工具來了解該領域當前的研究,回顧了仍然存在的挑戰和開放問題,并推測了克服這些挑戰的潛在解決方案和有希望的方法。

**本報告分為5個主要部分。**在第2節中,我們回顧了序列決策的相關背景和符號,并提供了幾個示例場景,其中基礎模型和決策可以更好地聯合考慮。接下來的三個部分將圍繞基礎模型如何描述決策系統的不同組件進行組織。在第3節中,我們討論了基礎模型如何作為行為的生成模型(例如,技能發現)和環境的生成模型(例如,進行基于模型的推出)。在第4節中,我們討論了基礎模型如何作為狀態、動作、獎勵和遷移動態的表示學習者(例如即插即用的視覺語言模型、基于模型的表示學習)。在第5節中,我們討論了語言基礎模型如何作為交互式智能體和環境,使我們能夠在順序決策框架(語言模型推理、對話、工具使用)下考慮新問題和應用。最后,在第6節中,我們概述了開放的問題和挑戰,并提出了潛在的解決方案(例如,如何利用廣泛的數據,如何構造環境,以及基礎模型和決策的哪些方面可以改進)。

付費5元查看完整內容

相關內容

本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。

1. 引言

近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。

諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。

**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。

為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。

本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。

**總而言之,本綜述的主要貢獻是: **

(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。

2. 什么是自然語言推理

目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。

NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。

3. 為什么要用PLMs進行自然語言推理

預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。

4. 自然語言推理方法

在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。

給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。

5. 結論

在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。

為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?

付費5元查看完整內容

**大型語言模型(LLMs)在包括醫學在內的各個領域的自然語言理解和生成方面表現出了卓越的能力。我們對GPT-4(一種最先進的LLM)的醫療能力檢查和基準數據集進行了全面評估。GPT-4是一個通用模型,它不是通過訓練專門用于醫療問題,**也不是設計來解決臨床任務的。我們的分析涵蓋了美國醫學執照考試(USMLE)的兩套官方實踐材料,這是一個在美國用于評估臨床能力和授予執照的三步考試計劃。還在MultiMedQA基準數據集上評估了性能。除了測量模型性能外,還進行了實驗,以調查包含文本和圖像的試題對模型性能的影響,探索訓練過程中對內容的記憶,并研究概率的校準,這在醫學等高風險應用中至關重要。結果表明,在沒有任何專門提示的情況下,GPT-4比USMLE的及格分數高出20分以上,并優于早期的通用模型(GPT-3.5)以及專門針對醫學知識進行微調的模型(Med-PaLM,一種快速調整的Flan-PaLM 540B版本)。此外,GPT-4的校準效果明顯優于GPT-3.5,在預測其答案正確的可能性方面有了很大的提高。還通過一個案例研究定性地探索了該模型的行為,該案例研究顯示了GPT-4解釋醫學推理、向學生個性化解釋的能力,并圍繞醫學案例交互式地打造新的反事實場景。討論了研究結果對GPT-4在醫學教育、評估和臨床實踐中的潛在用途的影響,并適當注意準確性和安全性的挑戰。 **大型語言模型(LLMs)在解釋和生成跨越廣泛領域(如自然語言、計算機代碼和蛋白質序列)的序列方面表現出了卓越的能力。**許多強大的模型都基于transformer架構[VSP+17],適應于語言并以自監督的方式進行訓練[RNS+18, DCLT18]。隨著規模的擴大,各種基準的分數通常都有所提高,包括模型大小、數據集大小和訓練計算量的增加[KMH+20, LBL+22]。經驗發現與理論分析[BS21]產生了共鳴,這表明從大型神經模型進行推斷的魯棒性需要規模[BS21]。在過去的幾年中,在大規模跨學科語料庫上訓練的LLM已經成為創建以任務為中心的系統的強有力的基石[BHA+21]。針對特定領域細化模型的方法包括使用從目標應用中提取的專門數據集進行微調,以及用于指導模型行為的一般方法,如人工反饋強化學習(RLHF),它可以指導系統更好地理解最終用戶的請求[BJN+22]。

**人們對LLMs在沒有專門微調的情況下為廣泛的專門任務做出有用推斷的能力也有很大的興趣。**使用少量甚至零樣本提示的通用LLM的性能突出了它們在協助跨問題類型、專業領域和學科的任務方面的潛力[BMR+20]。最近,研究人員調查了基準,這些基準提供了對LLM如何編碼臨床知識的見解,并可能被利用來增強醫學實踐。本文比較了最近發布的(純文本)GPT-4模型與其GPT家族中的前身在醫療挑戰問題上的性能。雖然GPT-4的規模度量細節,包括模型參數的數量和訓練數據的大小和范圍尚未公開,但據報道,這兩個維度都明顯大于ChatGPT背后的GPT-3.5模型[Ope23]。探索LLM在醫療問題解決方面的能力是一個長期的醫學人工智能研究項目的一部分,可以追溯到Ledley和Lusted的經典工作[LL59]。幾十年來,對輔助醫生的計算方法的探索一直以對不同表示和推理方法的轉變為標志,包括核心概率和決策理論方法(如[GB68, HHN92]),基于規則的產生式系統(如[Sho77, BS84]),語義圖(如[PSS81]),從醫療信息數據庫(如[WGH16, HHPS15, ELS+20, CLG+15])和深度神經網絡模型(如[EKN+17,Shj +17, riz +17, msg +20]。雖然在診斷計算機視覺領域開始了使用深度學習來實現人類在醫療任務上水平表現的一系列努力,但自那以來,它已經發展到包括通過自然語言介導的更一般臨床推理的基準。在此背景下部署的模型可以在特定的醫學語料庫上進行訓練,或在大量通用語言和/或視覺信息上進行訓練的基礎模型,然后通過專門的微調使其適應于醫學數據。 **本文的主要貢獻是研究了GPT-4在醫療挑戰性問題上的能力。為了建立強大的比較基線,本文評估了GPT-4和GPT-3.5,并報告了來自Flan-PaLM 540B的結果。**我們的目標是為GPT-4建立“開箱即用”的性能數據。使用了盡可能簡單的提示(零樣本和隨機選擇的5樣本提示,并直接推斷答案),發現GPT-4獲得了同類中最好的性能,而不需要精心設計的提示技術或特定領域的微調。我們首先詢問了模型在挑戰性問題上的表現,這些問題是為評估醫學生和住院醫生的能力而開發的。

本探索包括對GPT-4在美國醫學執照考試(USMLE)第1-3步中的表現進行綜合評估。該考試是美國醫療執照官方認證協議的一部分。我們的結果是基于樣本考試和由美國國家醫學檢驗師委員會(NBME)正式發布的自我評估材料。結果表明,零樣本GPT-4顯著優于早期模型,在USMLE測試的自我評估和樣本測試中分別取得了86.65%和86.7%的平均分數,而GPT-3.5的平均分數為53.61%和58.78%。在回顧了USMLE研究的結果后,我們檢查了其他幾個醫療基準。Zero shot GPT-4在MultiMedQA[SAT+22]上的表現明顯優于GPT-3.5和最近引入的Flan-PaLM 540B模型,MultiMedQA是醫學機器學習文獻中常用的一套基準數據集。除了描述整體表現外,我們的調查還涵蓋了醫學領域LLM行為的其他幾個方面。研究了純文本GPT-4在以文本為中心的考題和依賴圖像的考題中的表現。鑒于關于正確概率的可靠信息在醫療保健和其他高風險應用中至關重要,評估了隱式分配給答案的概率的校準。我們評估了該模型通過其訓練數據接觸(和記憶)考試內容的證據。通過一個案例研究進一步探索了該模型的定性行為,證明了GPT-4解釋醫學推理的能力,并交互式地支持學生圍繞一個醫療案例的反事實場景。最后,研究了研究結果的影響,包括GPT-4及其繼任者幫助醫學教育和為醫療專業人員提供幫助的潛力,同時考慮到與準確性、公平性和對醫學實踐的更廣泛影響相關的擔憂。特別反思了基于基準的性能評估的局限性,并討論了在現實世界環境中使用GPT-4等模型所需的預防措施和進展。要全面評估這些系統,還有大量工作要做,而且需要非常謹慎。然而,我們期望在現實世界中有多種使用,例如低風險的應用程序,其中包括專家監督作為世代和工作流程的一部分。從長期來看,我們看到GPT-4及其擴展體在醫學方面有巨大的潛力。

付費5元查看完整內容

**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。

**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。

付費5元查看完整內容

**近年來,隨著用戶生成的多模態數據的爆炸式增長,學習多模態表示已經使許多新穎的視覺語言應用成為可能。**雖然全球大約有6500種語言,但大多數視覺語言模型及其數據集都是基于英語的。不幸的是,這種限制阻礙了當前的模型造福于更廣泛的非英語社區。因此,開發基于英語的視覺語言模型泛化到非英語語言的方法是迫切而有益的。我的論文工作在這一挑戰的多個方面取得了進展,通過探索學習多語言多模態表示的新興趨勢,促進了對各種語言的圖像、視頻和文本等異構內容的建模和推理。在本文的第一部分中,我指出了現有英語圖像表示學習的局限性,為廣義多語言多模態表示學習鋪平了道路。雖然之前的工作主要是將整個圖像與相應的英文標題相關聯,但我認為這種對應應該更加精細,甚至是多語言的。結果表明,基于注意力和面向對象的多語言多模態表示學習方法可以有效地改進跨模態搜索和多模態機器翻譯等終端任務。**本文的第二部分研究了視覺-語言模型的跨語言泛化。本文解決了大規模任務無關的多語言多模態預訓練中的可擴展性挑戰,以及在對最終任務進行微調時缺乏注釋的挑戰。**為了用有噪聲的百萬規模的未經整理的教學視頻及其各種語言的轉錄進行學習,我分析了多模態自監督學習中理想的支持集大小,并提出了一個重建目標來緩解這種瓶頸。此外,我探索了多語言多模態預訓練并構建了Multi-HowTo100M數據集,該數據集由1.2億個視頻片段及其在9種語言中的轉錄組成,以改善視覺-語言模型的零樣本跨語言遷移。最后,在特定任務的微調中,利用自動視覺語義來學習稀疏的英語視覺注釋。當非英語標注稀缺或不可用時,本文研究了視覺旋轉監督和無監督多模態機器翻譯,將英語視覺數據翻譯為非英語視覺數據,以進行多語言多模態微調。本文的工作為增強視覺-語言模型的跨語言泛化能力帶來了顯著的突破。我相信所提出的方法和釋放的資源將是邁向多語言視覺-語言模型的關鍵一步。

付費5元查看完整內容

Transformer一直被認為是NLP和CV中的主要神經架構,主要是在有監督的環境下。最近,在強化學習(RL)領域也出現了類似的使用transformer的熱潮,但它面臨著RL性質帶來的獨特設計選擇和挑戰。然而,transformer在強化學習中的發展還沒有被很好地解開。本文試圖系統地回顧在強化學習中使用transformer的動機和進展,對現有工作進行分類,討論每個子領域,并總結未來前景

//www.zhuanzhi.ai/paper/a72d26ab035255b1bfc3973fc6150e38

1. 概述

強化學習(RL)為序列決策提供了一種數學形式。利用強化學習,我們可以自動獲取智能行為。雖然強化學習為基于學習的控制提供了一個通用框架,但深度神經網絡的引入,作為一種高容量的函數逼近方式,正在推動在廣泛的領域取得重大進展[Silver et al., 2016; Vinyals et al., 2019; Ye et al., 2020a,b]。近年來,深度強化學習(deep reinforcement learning, DRL)在通用性方面取得了巨大的發展,但樣本效率問題阻礙了其在現實世界應用中的廣泛應用。為了解決這個問題,一種有效的機制是在DRL框架中引入歸納偏差。深度強化學習中一個重要的歸納偏差是函數逼近器架構的選擇,例如深度強化學習智能體的神經網絡參數化。然而,與監督學習(SL)中架構設計的努力相比,在深度強化學習中選擇架構設計的問題仍然較少被探索。大多數現有的強化學習架構工作是由(半)監督學習社區的成功所驅動的。例如,在深度強化學習中處理基于圖像的高維輸入的常見做法是引入卷積神經網絡(CNN) [LeCun et al., 1998; Mnih et al., 2015];處理部分可觀察性的另一種常見做法是引入遞歸神經網絡(RNN) [Hochreiter and Schmidhuber, 1997;Hausknecht和Stone, 2015]。

近年來,Transformer架構[Vaswani等人,2017]徹底改變了廣泛的SL任務的學習范式[Devlin等人,2018;Dosovitskiy等人,2020;Dong等人,2018],并展示了比CNN和RNN的優越性能。Transformer架構的顯著優點之一是能夠對長依賴關系進行建模,并具有出色的可擴展性[Khan et al., 2022]。受SL成功的啟發,人們對將transformer應用于強化學習的興趣激增,希望將transformer的好處帶到RL領域。在強化學習中使用transformer可以追溯到Zambaldi等人[2018b],其中自注意力機制用于結構化狀態表示的關系推理。之后,許多研究人員試圖將自注意力應用于表示學習,以提取實體之間的關系,以更好地進行策略學習[Vinyals et al., 2019; Baker et al., 2019]。除了利用transformer進行狀態表示學習外,之前的工作還使用transformer來捕獲多步時間依賴關系,以處理部分可觀測性問題[Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。最近,離線強化學習[Levine等人,2020]因其能夠利用離線大規模數據集而受到關注。在離線強化學習的激勵下,最近的努力表明,Transformer架構可以直接作為序列決策的模型[Chen等人,2021;Janner等人,2021]并將其推廣到多個任務和領域[Lee等人,2022;Carroll等人,2022]。

本綜述的目的是介紹強化學習中的transformer領域,稱為TransformRL。盡管Transformer目前在大多數SL研究中被認為是基礎模型[Devlin et al., 2018; Dosovitskiy et al., 2020],它在RL社區中仍然很少被探索。事實上,與SL域相比,在RL中使用transformer作為函數逼近器面臨著獨特的挑戰。首先,強化學習智能體的訓練數據通常是當前策略的函數,這在學習Transformer時引入了非平穩性。其次,現有的強化學習算法通常對訓練過程中的設計選擇高度敏感,包括網絡架構和容量[Henderson等人,2018]。第三,基于transformer的架構往往存在高計算和內存成本,使其在強化學習學習過程中的訓練和推理都很昂貴。例如,在視頻游戲人工智能的情況下,樣本生成的效率在很大程度上影響訓練性能,取決于強化學習策略網絡和價值網絡的計算成本[Ye et al., 2020a;Berner等人,2019]。本文試圖對TransformRL進行全面的概述,包括當前方法和挑戰的分類。我們還討論了未來的前景,相信TransformRL領域將在釋放強化學習的潛在影響方面發揮重要作用,本綜述可以為那些希望利用其潛力的人提供一個起點。

我們的論文結構如下。第2節介紹了RL和transformer的背景,然后簡要介紹了這兩者是如何結合在一起的。在第3節中,我們描述了強化學習中網絡架構的演變,以及阻止Transformer架構在強化學習中長期被廣泛探索的挑戰。在第4節中,提供了強化學習中transformer的分類,并討論了現有的代表性方法。最后,在第5節中總結并指出了未來的研究方向。 2. Transformers in RL

盡管Transformer已經成為大多數監督學習研究的基礎模型,但由于上述挑戰,它并沒有長期在強化學習社區中廣泛使用。實際上,大多數TransformRL的早期嘗試將transformer應用于狀態表示學習或提供記憶信息,同時仍將標準的強化學習算法應用于智能體學習,如時間差異學習和策略優化。因此,盡管引入transformer作為函數逼近器,但這些方法仍然受到傳統強化學習框架的挑戰。直到最近,離線強化學習才使得從大規模離線數據中學習最優策略成為可能。受離線強化學習的啟發,最近的工作進一步將強化學習問題視為固定經驗上的條件序列建模問題。通過這樣做,它有助于繞過傳統強化學習中bootstrapping error的挑戰,從而使Transformer架構釋放出強大的順序建模能力。回顧了TransformRL的進展,并提供了一個分類法來介紹當前的方法。將現有方法分為四類:表示學習、模型學習、順序決策和綜合智能體。圖2提供了一個分類法草圖,其中包含相應作品的子集。

用于表示學習的transformer考慮到強化學習任務的順序性,嘗試Transformer編碼器模塊是合理的。事實上,強化學習任務中的各種序列需要處理,例如本地每時間步長序列(多實體序列[Vinyals et al., 2019; Baker et al., 2019],多智能體序列[Wen等人,2022年]),時間序列(軌跡[Parisotto et al., 2020; Banino et al., 2021])等等。

用于模型學習的transformer

除了使用Transformer作為序列嵌入的編碼器外,Transformer架構還在一些基于模型的算法中充當環境模型的骨干。與以單步觀察和行動為條件的預測不同,Transformer使環境模型能夠以一定長度的歷史信息為條件來預測轉換。

用于序列決策的transformer

除了作為一個可插入到傳統RL算法組件中的表達性架構,Transformer本身可以作為一個直接進行順序決策的模型。這是因為強化學習可以被視為一個條件序列建模問題——生成可以產生高回報的行動序列。

多面手智能體的Transformer

鑒于決策Transformer已經在各種離線數據任務中展示了它的力量,一些工作轉向考慮Transformer是否可以使一個多面手智能體解決多個任務或問題,如在CV和NLP領域。

3. 總結

**本文簡要回顧了用于強化學習的transformer的進展。**本文對這些進展進行了分類:a) transformer可以作為強化學習的一個強大模塊,例如,作為表示模塊或世界模型;b) transformer可以作為順序決策者;c) transformer可以促進跨任務和領域的泛化。雖然我們介紹了這個主題的代表性工作,但在RL中使用transformer并不限于我們的討論。鑒于transformer在更廣泛的人工智能社區的繁榮,我們相信將transformer和RL結合是一個有希望的趨勢。最后,討論了這一方向的未來前景和開放問題。

**結合強化學習和(自)監督學習。**回顧TransformRL的發展,訓練方法包括強化學習和(自)監督學習。當作為在傳統強化學習框架下訓練的表示模塊時,Transformer架構的優化通常是不穩定的。當使用transformer通過序列建模解決決策問題時,由于(自)監督學習范式,"致命三元組問題" [Van Hasselt等人,2018]被消除。在(自)監督學習框架下,策略的性能與離線數據質量密切相關,利用和探索之間不再存在明確的權衡。因此,當我們在Transformer學習中結合強化學習和(自)監督學習時,可能會學到更好的策略。部分工作[Zheng et al., 2022; Meng et al., 2021]嘗試了有監督的預訓練和涉及強化學習的微調方案。然而,相對固定的策略可以限制探索[Nair等人,2020],這是有待解決的瓶頸之一。此外,用于性能評估的任務也相對簡單。transformer是否可以將這種(自)監督學習擴展到更大的數據集、更復雜的環境和現實世界的應用,值得進一步探索。此外,我們希望未來的工作提供更多的理論和經驗見解,以描述這種(自)監督學習在哪些條件下有望表現良好[Brandfonbrener et al., 2022]。

**用transformer橋接在線和離線學習。**進入離線強化學習是TransformRL的一個里程碑。在實際應用中,利用transformer獲取決策序列中的依賴關系并抽象策略,主要離不開大量離線數據的支持。然而,在實際應用中,一些決策任務脫離在線框架是不可實現的。一方面,在某些任務中獲取專家數據并不容易;另一方面,有些環境是開放式的(如《Minecraft》),這意味著策略必須不斷調整以處理在線交互過程中未見過的任務。因此,我們認為線上學習和線下學習的銜接是必要的。然而,大多數基于Decision Transformer的研究進展都集中在離線學習框架上。一些工作嘗試采用離線預訓練和在線微調的范式[Xie et al., 2022]。然而,與離線強化學習算法一樣,在線微調中的分布變化仍然存在,因此希望對Decision Transformer進行一些特殊設計來解決這個問題。此外,如何從頭開始訓練一個在線決策Transformer是一個有趣的開放問題。

**為決策問題量身定制的Transformer結構。**目前決策Transformer系列方法中的Transformer結構主要是vanilla Transformer,其最初是為文本序列設計的,可能不適合決策問題的性質。例如,是否適合對軌跡序列采用普通的自注意力機制?在位置嵌入中,是需要區分決策序列中的不同元素還是相同元素的不同部分?此外,由于在不同的Decision Transformer算法中將軌跡表示為序列的變體很多,如何從中選擇仍然缺乏系統的研究。例如,在行業中部署此類算法時,如何選擇可靠的后見之明信息?此外,普通Transformer是一種具有巨大計算成本的結構,這使得它在訓練和推理階段都很昂貴,并且內存占用很高,這限制了它捕獲的依賴項的長度。為了緩解這些問題,NLP中的一些工作[Zhou et al., 2021]從這些方面對結構進行了改進,相似結構是否可以用于決策問題也是值得探索的。

**轉向更多面手的Transformers智能體。**對面向多面手的transformer的綜述顯示了transformer作為一般政策的潛力(第4.4節)。事實上,transformer的設計允許使用類似的處理塊處理多種模態(如圖像、視頻、文本和語音),并對非常大容量的網絡和巨大的數據集表現出出色的可擴展性。最近的工作在訓練能夠執行多個和跨域任務的智能體方面取得了實質性的進展。然而,考慮到這些智能體是在大量數據上訓練的,仍然不確定它們是否只是記住了數據集,以及它們是否可以進行有效的泛化。因此,如何學習一個可以在沒有強假設的情況下泛化到未見任務的智能體是一個值得研究的問題[Boustati等人,2021]。此外,我們很想知道Transformer是否足夠強大,可以學習一個可以在不同任務和場景中使用的通用世界模型。

**Transformer的RL。**雖然我們已經討論了RL如何從Transformer的使用中受益,但相反的方向,即使用RL來受益于Transformer訓練是一個有趣的開放問題,但很少有人探索。我們看到,最近,來自人類反饋的強化學習(RLHF)[歐陽等人,2022]學習了一個獎勵模型,并使用RL算法微調Transformer,以使語言模型與人類意圖保持一致。未來,我們相信RL可以成為進一步提升Transformer在其他領域性能的有用工具。

付費5元查看完整內容

隨著大型語言模型(LLMs)能力的不斷提高,語境學習( in-context learning,ICL)已經成為自然語言處理(NLP)的一種新范式,其中LLMs僅根據由少量訓練樣本增強的上下文進行預測。探索ICL來評估和推斷LLM的能力已經成為一個新的趨勢。文中對ICL的研究進展、面臨的挑戰以及未來的研究方向進行了綜述和總結

本文首先給出了ICL的形式化定義,并闡明了其與相關研究的相關性。然后,我們組織討論了ICL的先進技術,包括訓練策略、激勵策略等;最后,指出了ICL面臨的挑戰,并指出了進一步研究的方向。希望我們的工作能夠促進更多關于揭示ICL工作原理和改進ICL的研究。1. 引言隨著模型規模和語料庫規模的擴大(Devlin et al., 2019; Radford et al., 2019; Brown et al., 2020; Chowdhery et al., 2022),大型語言模型展示了從由上下文中的幾個示例組成的演示中學習的新能力(簡稱語境學習)。許多研究表明,LLMs可以使用ICL執行一系列復雜的任務,如解決數學推理問題(Wei et al., 2022c)。這些強大的能力已經被廣泛驗證為大型語言模型的新興能力(Wei等人,2022b)。

語境學習的核心思想是類比學習。圖1給出了一個示例,描述了語言模型如何使用ICL進行決策。首先,ICL需要一些示例來形成演示上下文。這些示例通常使用自然語言模板編寫。然后,ICL將一個查詢問題和一個演示上下文連接在一起形成一個提示,然后將其輸入到語言模型中進行預測。與監督學習需要一個使用后向梯度更新模型參數的訓練階段不同,ICL不需要參數更新,而是直接對預訓練語言模型進行預測。該模型被期望學習隱藏在演示中的模式,并相應地做出正確的預測。ICL作為一種新的范式,具有許多吸引人的優勢。首先,由于演示是用自然語言格式編寫的,它提供了一個可解釋的接口來與大型語言模型通信(Brown et al., 2020)。這種范式通過更改演示和模板使將人類知識納入語言模型變得容易得多(Liu等人,2022;陸等人,2022;吳等人,2022;Wei等,2022c)。第二,上下文學習類似于人類的類比決策過程。第三,與有監督學習相比,ICL是一種無訓練學習框架。這不僅可以大大降低使模型適應新任務的計算成本,還可以使語言模型即服務(Sun等人,2022)成為可能,并且可以很容易地應用于大規模的現實世界任務。盡管前景看好,但ICL中還有一些有趣的問題和有趣的性質需要進一步研究。雖然普通的GPT-3模型本身顯示出有希望的ICL能力,但一些研究觀察到,通過預訓練期間的自適應,能力可以顯著提高(Min et al., 2022b; Chen et al., 2022c)。此外,ICL的性能對特定的設置很敏感,包括提示模板、上下文示例的選擇和示例順序等(Zhao et al., 2021)。此外,盡管從直觀上看是合理的,但ICL的工作機制仍然不明確,很少有研究提供初步解釋(Dai et al., 2022; von Oswald et al., 2022)。我們提供了一份詳細的論文綜述,并將不斷更新論文列表,對ICL的相關研究進行深入討論。本文強調了面臨的挑戰和潛在的方向,希望所做的工作可以為對該領域感興趣的初學者提供有用的路線圖,并為未來的研究提供啟發。2. 概述ICL的強大性能依賴于兩個階段:(1)訓練階段,訓練LLM的ICL能力,(2)推理階段,LLM根據特定任務的演示進行預測。在訓練階段,語言模型直接在語言建模目標上進行訓練,如從左到右的生成。雖然這些模型并沒有針對上下文學習進行特別優化,但ICL仍然具有令人驚訝的能力。現有的ICL研究基本上以訓練有素的語言模型為骨干,因此本綜述不會涵蓋預訓練語言模型的細節。在推理階段,由于輸入和輸出標簽都在可解釋的自然語言模板中表示,因此有多個方向來提高ICL的性能。本文將給出詳細的描述和比較,如選擇合適的示例進行演示,針對不同的任務設計具體的評分方法等。本文按照上述分類法(如圖2所示)組織ICL目前的進展,給出了ICL的正式定義(§3),詳細討論了熱身方法(§4)、演示設計策略(§5)和主要評分功能(§6)。§7對揭開ICL背后秘密的當前探索進行了深入討論。進一步為ICL(§8)提供了有用的評估和資源,并介紹了ICL顯示其有效性的潛在應用場景(§9)。最后,總結了挑戰和潛在的方向(§10),希望這可以為該領域的研究人員鋪平道路。

ICL的主要流程如圖3所示。預訓練對于發展LLM的ICL能力具有重要意義,而可選的預熱階段可以進一步提高其能力。對于演示來說,最重要的步驟是演示設計。通過預訓練的LLM和精心設計的演示,適當的評分策略最終產生任務輸出。

付費5元查看完整內容

機器人研究的一個長期目標是創建能夠從零開始自動學習復雜控制策略的算法。將這種算法應用到機器人上的挑戰之一是表示的選擇。強化學習(RL)算法已經成功地應用于許多不同的機器人任務中,如帶有機器人手臂的cup中的Ball-in-a-Cup任務和各種機器人世界杯機器人足球啟發的領域。然而,RL算法仍然存在訓練時間長、所需訓練數據量大的問題。為狀態空間、行動空間和策略選擇合適的表示可以大大減少所需的訓練時間和所需的訓練數據。

本文主要研究機器人的深度強化學習。具體來說,狀態空間、動作空間和策略表示的選擇如何減少機器人學習任務的訓練時間和樣本復雜度。特別集中注意兩個主要領域: 1)通過張量狀態-動作空間表示 2)多狀態表示的輔助任務學習

第一個領域探索了在環境變化中改進機器人策略遷移的方法。學習策略的成本可能很高,但是如果策略可以在類似的環境中傳輸和重用,那么訓練成本可以平攤。遷移學習是一個被廣泛研究的領域,涉及多種技術。在這篇論文中,我們著重設計一個易于傳輸的表示。我們的方法將狀態空間和動作空間映射為多維張量,設計成當環境中機器人和其他對象的數量變化時保持固定維數。我們還提出了全卷積Q-Network (FCQN)策略表示,這是一種特殊的網絡架構,與張量表示相結合,允許跨環境大小進行零距離傳輸。我們在模擬的單代理和多代理任務上演示了這種方法,靈感來自于RoboCup Small - Size League (SSL)和Atari Breakout的修改版本。我們還表明,在真實世界的傳感器數據和機器人中使用這樣的表示和模擬訓練策略是可能的。

第二個領域考察了一個機器人深度RL狀態表示的優勢如何彌補另一個機器人深度RL狀態表示的劣勢。例如,我們經常想要利用機器人可用的傳感器來學習任務,其中包括像攝像機這樣的高維傳感器。最近的Deep RL算法可以通過圖像進行學習,但是數據的數量對于真實的機器人來說是難以接受的。或者,可以使用任務完成所需的最小集創建狀態。這樣做的好處是:1)減少策略參數的數量,2)刪除不相關的信息。然而,提取這些特征通常會在工程、額外硬件、校準和實驗室之外的脆弱性方面有很大的成本。我們在仿真和現實世界的多個機器人平臺和任務上演示了這一點。我們證明它在模擬的RoboCup小型聯賽(SSL)機器人上工作。我們還演示了這樣的技術允許在真實的硬件上從零開始學習,通過機器人手臂執行一個球在一個杯子的任務。

//www.ri.cmu.edu/publications/robot-deep-reinforcement-learning-tensor-state-action-spaces-and-auxiliary-task-learning-with-multiple-state-representations/

付費5元查看完整內容
北京阿比特科技有限公司