亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。

關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。

1 引言

**1.1 背景

智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。

**1.2 語言作為生物系統通用智能的基礎

1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具

除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。

**1.3 人工通用智能的概念

雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。

**1.4 工作的范圍和大綱

在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。

付費5元查看完整內容

相關內容

 是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。 人工智能是計算機科學的一個分支。

摘要

大規模語言模型(LLM)在多個領域具有變革性的潛力,包括推薦系統(RS)。已有一些研究專注于通過LLM賦能推薦系統。然而,之前的工作主要集中于將LLM作為推薦系統,這可能面臨LLM推理成本過高的問題。最近,LLM與推薦系統的結合——即LLM增強推薦系統(LLMERS)——因其在實際應用中解決延遲和內存限制的潛力,受到了廣泛關注。本文對最新的研究工作進行了全面的綜述,旨在利用LLM提升推薦系統的能力。我們發現,隨著LLM被引入在線系統,特別是通過避免在推理階段使用LLM,領域內出現了一個關鍵的轉變。我們的綜述將現有的LLMERS方法按推薦系統模型增強的組件分為三種主要類型:知識增強、交互增強和模型增強。我們深入分析了每個類別,討論了相關方法、挑戰以及近期研究的貢獻。此外,我們還指出了幾個有前景的研究方向,這些方向可能進一步推動LLMERS領域的發展。

1 引言

大規模語言模型(LLM)在語言理解和推理方面展現了前所未有的能力 [3, 69, 87]。考慮到傳統推薦系統(RS)僅利用協同信號 [2, 65, 66],通過LLM為推薦系統提供語義信息顯得尤為有吸引力。因此,許多研究提出了彌合自然語言與推薦之間差距的方法,從而打造更強大的推薦系統。盡管將LLM應用于推薦系統取得了一定的成功,但對話系統與推薦系統之間的一個顯著區別在于推理延遲。推薦系統通常要求對大量請求提供低延遲響應,而LLM(例如LLaMA-7B)在響應時間上通常需要幾秒鐘。然而,許多早期的研究主要集中在直接使用LLM進行推薦 [13],這使得它們難以滿足實際應用的需求。最近,越來越多的研究者開始關注這一問題,并深入探索LLM增強推薦系統的實踐應用。因此,本文旨在總結和概述該領域的最新研究成果。為了明確本綜述的范圍,我們首先給出LLMERS的定義:傳統推薦系統通過LLM的輔助來增強訓練或補充數據,但在服務過程中無需使用LLM進行推理。盡管已有一些關于LLM在推薦系統中應用的綜述,但存在三點關鍵差異: i) 目前的大多數綜述集中在如何將LLM本身作為更好的推薦系統,包括生成推薦 [28, 31, 70] 和判別推薦 [4, 6, 20, 33, 56, 89]。相比之下,我們的綜述專門探討LLM增強推薦系統(LLMERS)。 ii) LLM在推薦系統中的應用是一個前沿方向,發展迅速。一些綜述 [4, 33, 70, 89] 并未涵蓋最新的論文。相比之下,本綜述包含了超過50篇2024年后發布的工作。 iii) 很少有綜述提及LLM增強推薦系統 [4, 33],但它們僅關注特征工程方面的增強。而本綜述則首次從綜合視角總結了LLMERS,包括特征和模型兩個方面。

1.1 初步介紹

由于LLM增強推薦系統是基于傳統推薦系統的,因此有必要先介紹其組件和面臨的挑戰,以便理解為什么以及在何處需要使用LLM。如圖1所示,傳統推薦系統通常由交互數據和推薦模型組成。

交互數據

傳統推薦系統通過捕捉用戶-物品記錄中的協同信號 [26] 來進行訓練,因此數據中的交互信息對訓練是必不可少的。此外,許多基于內容的模型 [43] 提取用戶和物品特征中的共現關系來進行推薦。因此,特征和交互數據是數據中的兩個必要組成部分。然而,數據面臨的兩個挑戰限制了傳統推薦系統的進一步發展:

  • 挑戰1:對于特征,它們通常會被轉換為數值或類別值進行使用,但缺乏來自知識層面的推理和理解。
  • 挑戰2:對于交互數據,數據稀疏性導致推薦系統模型的訓練不足。

推薦模型

隨著深度學習技術的廣泛應用,推薦模型遵循“嵌入-深度網絡”的模式。嵌入層將原始特征轉化為密集的表示 [88],而深度網絡則捕捉用戶的興趣 [84]。然而,它們也面臨一個獨特的挑戰:

  • 挑戰3:推薦模型只能捕捉協同信號,但無法利用語義信息。

1.2 分類法

LLMERS通過增強傳統推薦系統的基本組件,即交互數據和推薦模型,從而在服務過程中僅使用傳統的推薦系統模型。根據LLM在解決這些挑戰時的作用,我們將LLM增強推薦系統分為三大類,如圖1所示:

  1. 知識增強

這類方法利用LLM的推理能力和世界知識為用戶或物品生成文本描述。這些描述作為額外的特征,補充推理和理解的知識,從而解決挑戰1。(第二部分)

  1. 交互增強

為了解決數據稀疏性問題(即挑戰2),一些研究采用LLM生成新的用戶-物品交互數據。(第三部分)

  1. 模型增強

LLM能夠從語義角度分析交互數據,因此一些研究嘗試利用LLM來輔助傳統的推薦模型,從而解決挑戰3。(第四部分) 為清晰起見,我們在圖2中根據分類法展示了所有相關的LLMERS論文。

付費5元查看完整內容

1 引言

預訓練語言模型(PLMs)正在改變自然語言處理(NLP)領域,展現出從復雜且多樣化的領域中學習和建模自然語言數據底層分布的卓越能力(Han 等, 2021)。然而,這些模型的訓練通常需要大量數據和計算資源,這在許多現實場景中可能是難以承受的(Bai 等, 2024),尤其是在非英語語言和特定領域中,例如醫學(Crema 等, 2023;Van Veen 等, 2023)、化學(Jablonka 等, 2024)、法律(Noguti 等, 2023)、金融(Zhao 等, 2021)、工程(Beltagy 等, 2019)等。應對這一常見問題的主要方法依賴于遷移學習范式,該范式包括在大量通用或混合領域數據上的自監督預訓練階段,隨后是針對領域和任務的領域適應和微調或少樣本學習階段。然而,這一過程的第二階段同樣對數據需求很高。數據稀缺可能導致過擬合、泛化能力差以及性能欠佳的問題。在有限數據條件下微調PLMs需要慎重選擇預訓練策略、領域適應方法和高效的參數優化,以通過有效利用模型的已有知識實現最佳性能,同時避免災難性遺忘(Kirkpatrick 等, 2017;Ramasesh 等, 2021)。 本文旨在解決在有限數據情況下訓練大型語言模型(LLMs)的挑戰,特別是在低資源語言和特定領域中。我們通過探索遷移學習的最新進展(見表1),對這一問題進行了深入研究。本文進行了一項系統性的綜述,起始于從Scopus、Web of Science、Google Scholar和ACL Anthology中收集的超過2500篇論文。這篇綜述面向NLP領域的研究人員和實踐者,概述了當前最先進的方法,并為數據稀缺場景下優化模型性能提供了實用指南。 我們集中探討了以下幾個方面:

在低資源場景下有效利用先驗知識的(持續)預訓練方法的選擇 (§ 3);

在微調 (§ 4) 和少樣本學習 (§ 5) 過程中最大化有限數據的效用;

討論各種遷移學習策略的假設、優點和局限性,并強調對研究人員來說尚未解決的挑戰;

從任務特定的視角出發,提供針對不同數據稀缺程度的實用指導 (§ 6)。

希望本文能為研究人員和實踐者提供克服數據受限挑戰的全面視角,同時指出未來研究的潛在方向。

付費5元查看完整內容

算法設計(AD)在各個領域的高效問題解決中至關重要。大型語言模型(LLM)的出現顯著提升了該領域的自動化和創新,提供了新的視角和優越的解決方案。在過去的三年中,LLM在算法設計(LLM4AD)中的應用取得了顯著進展,應用領域廣泛,包括優化、機器學習、數學推理和科學探索。鑒于該領域的快速發展和應用范圍的擴展,進行系統性的綜述已成為必要。本論文對LLM4AD領域的研究工作進行了系統性綜述。首先,我們概述并總結了現有研究成果。接著,我們從四個維度——LLM的作用、搜索技術、提示策略和應用領域——對現有研究進行了系統分類和評審。此外,我們討論了各個領域的成就與挑戰,以及LLM4AD在應對這些挑戰方面的能力。最后,我們探討了當前的局限性,并提出了若干開放性問題和未來研究的潛在方向。

附加關鍵詞和短語:算法設計、大型語言模型、學習優化、優化、啟發式方法、超啟發式方法、進化計算。

1 引言

算法在解決工業、經濟、醫療和技術等多個領域的各種問題中發揮著關鍵作用[32, 82]。傳統的手工算法設計方法需要大量的專家知識和時間,過程繁瑣且耗時。因此,越來越多的研究者關注將學習和計算智能技術整合到算法開發過程中,以簡化并優化算法的設計[12, 154]。近年來,大型語言模型(LLMs)作為生成式人工智能的重大突破,因其龐大的模型規模、海量的訓練數據及其在數學推理[5]、代碼生成[80]和科學發現[163]等多個研究領域中的出色表現而備受矚目。

在過去三年中,將大型語言模型應用于算法設計(LLM4AD)逐漸成為一個新興的研究領域,有望徹底改變算法的構思、優化和實施方式。LLM的強大性能和適應性在提高和轉變算法設計過程方面展現出了巨大的潛力,包括啟發式生成[98]、代碼優化[109],甚至為特定問題定制新算法的創建[54]。這種方法不僅減少了設計階段所需的人力,還提升了解決方案的創造性和效率[98, 139]。

盡管LLM4AD備受關注,但這一新興領域內的系統綜述仍然稀缺。現有文獻主要關注LLM在特定算法上下文中的單一應用,缺乏對方法、應用、挑戰和未來方向的系統概覽。已有的綜述主要集中在LLM用于特定優化主題[66, 72, 177],或LLM在電子設計自動化[205]、規劃[129]、軟件工程[69]、推薦系統[176]和智能代理[165]等特定問題上的應用。本論文旨在彌補這一空白,提供對LLM在算法設計領域的系統性綜述,探索其應用、討論關鍵挑戰,并提出未來的研究方向。通過整合這些見解,本文將加深對LLM在算法設計中潛力的理解,并為該領域進一步創新奠定基礎。

本論文的貢獻如下

  • LLM4AD的系統性綜述:我們對最近三年內發表的180余篇研究論文進行了系統綜述,不僅匯總了該領域的現狀,還對研究成果進行了分類,深入分析了方法、結果和算法設計的進展。該綜述可為新入門的研究人員和尋求最新進展的資深專家提供寶貴的資源。

  • 多維分類法的開發:我們引入了一個多維分類法,將LLM4AD的研究工作和功能分為四個不同的維度:1) LLM在算法設計中的角色,包括作為優化器、預測器、信息提取器和設計者,闡明了LLM在算法設計中的具體貢獻;2) 搜索方法,分析了LLM在算法設計中用于導航和優化搜索空間的各種方法;3) 提示方法,探討了多樣化的提示策略;4) 應用領域,確定了LLM在解決復雜算法問題時所應用的關鍵領域和行業。此分類法不僅澄清了LLM4AD的研究現狀,還有助于識別未來研究的空白和機會。

  • 關于局限性和未來方向的討論:我們不僅對現有文獻進行總結,還深入分析了LLM用于算法設計研究中的局限性,討論了可擴展性、可解釋性、高成本和安全性等挑戰。此外,我們提出了若干潛在的未來研究方向,以應對這些限制,包括開發特定領域的LLM、探索多模態LLM、實現與人類專家交互的系統、使用LLM進行算法評估、理解LLM行為、推動完全自動化的算法設計,以及為LLM在算法設計中的系統評估建立基準標準。這些討論旨在激發新的研究方法,推動該領域的進一步發展。

2 方法和分類法

2.1 綜述范圍

本文旨在對算法設計的大型語言模型(LLM4AD)這一新興領域的現有研究工作進行系統性綜述和分類。我們進一步明確了本文綜述的范圍如下:

  • 我們不打算涵蓋所有關于LLM和算法的文獻。具體而言,我們排除了其他分支的工作,如針對LLM優化的算法(例如提示工程算法[141])和LLM訓練算法[1]。

  • “大型語言模型”指的是具有足夠規模,以實現各種任務的強大零樣本性能的語言模型,包括語言理解、代碼生成和數學推理等。這些模型通常采用變換器架構并以自回歸的方式運行[204]。

  • 我們排除了使用較小模型進行算法設計的研究,例如傳統模型算法和機器學習輔助算法[12]。盡管“大型”模型的定義存在挑戰,但目前大多數前沿的LLM包含超過十億個參數[119, 204]。

  • 僅具備視覺處理功能的其他大型模型不在我們的考慮范圍內,但包含語言處理功能的多模態LLM屬于我們的范圍。

  • 在此背景下,算法指的是一組設計用于解決問題的數學指令或規則,特別是在計算機上執行時[32]。該廣義定義涵蓋了傳統數學算法[5]、大多數啟發式方法[113, 117]以及某些可以解釋為算法的智能體或策略[179]。

2.2 統計

我們介紹了論文收集和篩選的詳細流程,分為四個階段:

  • 第一階段:數據提取和收集:我們通過Google Scholar、Web of Science和Scopus收集相關論文。我們的搜索邏輯是標題必須包含以下兩個組中的至少一個詞的組合:“LLM”、“LLMs”、“Large Language Model”、“Large Language Models”和“Algorithm”、“Heuristic”、“Search”、“Optimization”、“Optimizer”、“Design”、“Function”(例如,LLM和優化、LLMs和算法)。作為一個快速發展的研究領域,大多數關于LLM4AD的論文以Arxiv等預印本形式在線發表,因此從Google Scholar收集的論文數量顯著多于Web of Science和Scopus(超過800篇)。去重后,截至2024年7月1日,我們最終收集了850篇論文。

  • 第二階段:摘要篩選:我們首先檢查每篇論文的標題和摘要,以高效排除無關的論文。排除標準包括非英語論文、非算法設計領域及不使用大型語言模型的論文。篩選后,剩余260篇論文。

  • 第三階段:全文篩選:在此階段,我們仔細閱讀每篇論文的全文,剔除未包含相關內容的論文。篩選后,剩余160篇論文。

  • 第四階段:補充:為了避免遺漏重要研究,我們根據領域內的相關知識手動搜索相關文獻。整合額外的論文后,最終收集了180余篇。

我們將首先概述LLM4AD的論文列表,并呈現一個分類法來系統地審視進展。除了整理好的論文列表外,本綜述還包含一些在2024年7月1日之后發布的出版物,統計數據將根據需要更新。 2.3 概述

圖2a展示了按月劃分的論文發表趨勢。圖中顯示了與LLM4AD相關的研究活動顯著增加,尤其是大多數研究集中在過去一年內進行。這表明LLM4AD是一個新興領域,隨著不同領域學者逐漸意識到其巨大的潛力,未來研究成果的數量將顯著增加。值得注意的是,作為快速擴展的領域,大部分研究首先以Arxiv預印本的形式發表,其中許多隨后被頂級會議(如ICML和NeurIPS)接收。 圖2c和圖2b展示了主要貢獻機構及其所屬國家在LLM4AD領域的研究分布。美國位居首位,中國緊隨其后,兩國的論文數量占總數的50%。接下來的八個國家(包括新加坡、加拿大和日本)共同貢獻了總出版量的三分之一。主要參與該領域研究的機構包括著名大學如清華大學、南洋理工大學、多倫多大學,以及大型企業如華為、微軟和谷歌。此分布表明了該研究主題的廣泛關注及其在實際應用中的巨大潛力。 在圖3中,我們基于所有被審查論文的標題和摘要生成了詞云,其中每個詞至少出現五次。該詞云展示了前80個關鍵詞,分為四個顏色編碼的集群,分別為“語言”、“GPT”、“搜索與優化”和“科學發現”。幾個關鍵字如“演化”、“策略”、“優化器”和“智能體”也被重點標出。

付費5元查看完整內容

大型語言模型(LLMs)在許多不同的自然語言處理(NLP)任務中表現出色。提示工程在提升LLMs已有能力的基礎上,實現顯著性能提升方面發揮了關鍵作用。提示工程需要撰寫稱為提示的自然語言指令,以結構化方式引導LLMs挖掘知識。與之前的最新技術(SoTA)模型不同,提示工程不需要根據特定NLP任務進行廣泛的參數重新訓練或微調,而是完全依賴于LLMs的內嵌知識。此外,LLM愛好者可以通過基本的自然語言對話交流或提示工程,智能地提取LLMs的知識,使更多沒有深厚數學和機器學習背景的人也能嘗試使用LLMs。隨著提示工程在過去兩年中越來越受歡迎,研究人員提出了許多圍繞提示設計的工程技術,以提高從LLMs提取信息的準確性。在本文中,我們總結了不同的提示技術,并根據它們所應用的不同NLP任務進行分類。我們進一步細化地展示了這些提示策略在不同數據集上的性能,討論了所使用的相應LLMs,提供了一個分類圖,并探討了特定數據集可能的最新技術。總的來說,我們閱讀并總結了44篇研究論文,涵蓋了39種不同的提示方法,涉及29個不同的NLP任務,其中大多數論文在過去兩年內發表。

人工智能隨著大型語言模型(LLMs)的引入顯著進步。LLMs在包含數百萬和數十億個標記的大規模文本語料庫上進行訓練。研究表明,隨著模型參數數量的增加,機器學習模型的性能會提高,這也正是LLMs的情況。Chang等人(2023)的研究表明,LLMs在廣泛的NLP任務上取得了前所未有的性能,因此引起了學術界和包括醫學、法律、金融等在內的各個行業的廣泛關注。目前對LLMs的研究階段側重于通過提示(prompts)來提升其推理能力,而不僅僅是下一個標記的預測,這開啟了圍繞提示工程的新研究領域。

提示工程是指創建自然語言指令或提示,以有組織地從LLMs中提取知識的過程。與早期的傳統模型相比,提示工程僅依賴于LLMs的內嵌知識,而不需要根據基礎的NLP任務進行廣泛的參數重新訓練或微調。理解模型參數中所嵌入的現實世界知識超出了人類的能力,因此這個新的提示工程領域引起了大家的關注,因為它允許研究人員與LLMs之間進行自然語言交流,以實現基礎NLP任務的目標。

在這項工作中,我們列舉了幾種提示策略,并根據它們所應用的不同NLP任務進行分類。我們提供了一個分類圖,列出了在各種數據集上嘗試的提示技術,討論了所使用的LLMs,并列出了每個數據集的潛在最新技術(SoTA)方法。作為本次調查的一部分,我們總共審查并分析了44篇研究論文,其中大部分發表在過去兩年,涵蓋了39種提示技術,應用于29個不同的NLP任務。此前關于提示工程的系統性綜述并不多見。Sahoo等人(2024)調查了基于其應用的29篇提示技術論文。這是一種非常廣泛的分類,因為單一應用可以包含眾多NLP任務。例如,他們討論的一個應用是推理和邏輯,它可以包含大量NLP任務,如常識推理、數學問題解決、多跳推理等。這與我們的方法不同,我們根據NLP任務對提示策略進行更細致的分類。Edemacu和Wu(2024)提供了關于隱私保護提示方法的概述,因此側重于提示工程的一個相對較小的子領域。Chen等人(2023)將提示策略的討論限制在9-10種方法,并且沒有基于NLP任務對其進行分類。

本文的其余部分安排如下。第二節討論各種提示工程技術,第三節重點介紹不同的NLP任務。第三節的各個子部分討論了在給定NLP任務上應用的不同提示策略及其相應的結果。第四節總結全文。

提示工程技術

在本節中,我們簡要討論了不同的提示方法,以及它們在發表時如何改進現有的性能。需要注意的是,大多數以下提示策略都在兩種不同的變體或設置下進行了實驗,這兩種變體包括零樣本和少樣本。有些提示技術可能本質上只存在于零樣本或少樣本變體中,不可能存在其他變體。

在零樣本設置中(Radford等,2019),沒有涉及訓練數據,通過提示指令要求LLM執行任務,完全依賴于其在預訓練階段學習的內嵌知識。另一方面,在少樣本變體中(Brown等,2020),提供少量訓練數據點以及基于任務的提示指令,以便更好地理解任務。各種提示工程工作的結果顯示,少樣本變體有助于提高性能,但這需要仔細準備少樣本數據點,因為LLM可能對精心編制的少樣本數據點表現出無法解釋的偏見。

不同NLP任務上的提示工程

不同的研究論文在將數據集分類為NLP任務時使用了不同的標準,這在不同的研究中有所不同。在本節中,我們嘗試標準化這些分類方法,通過定義不同的NLP任務并將不同的數據集歸入這些任務來構建一個結構。我們還討論了用于這些任務的各種提示方法。圖1展示了這種分類的一個示意圖。需要注意的是,一個數據集可能同時屬于不同的NLP任務,但這會導致復雜的結構化分析糾纏,不利于分析提示技術在各個NLP任務中的表現。因此,在我們的工作中,我們確保每個數據集只屬于一個與之最強相關的NLP任務。

以下各小節分別定義了不同的NLP任務、相應的數據集以及應用于這些數據集的各種提示策略。它們還包含每個數據集的潛在最新技術(SoTA)提示技術。提示方法的性能因使用的LLM而異。因此,我們還列出了在給定數據集上與提示策略一起使用的LLM列表。對于SoTA,我們只提及了提示方法的名稱,因為在許多情況下,特定的LLM尚未與給定的提示方法進行實驗,因此不清楚它是否能達到SoTA性能。因此,如果列表中的任何LLM與提示策略一起用于實驗,并在給定數據集中取得了最佳性能,我們將其指定為SoTA,而不論用于該技術的確切LLM是什么。另一個需要強調的點是,在許多研究中,作者使用了同一數據集的不同版本進行實驗,使得不同提示技術的絕對比較變得困難。基于我們的理解,我們考慮了上述所有因素,并在選擇每個數據集的SoTA時運用了最佳判斷。

付費5元查看完整內容

隨著大語言模型(LLM)在各個領域的應用不斷擴大,它們適應數據、任務和用戶偏好的持續變化的能力變得至關重要。使用靜態數據集的傳統訓練方法不足以應對現實世界信息的動態特性。終身學習或持續學習通過使LLM能夠在其運行生命周期內持續學習和適應,整合新知識,同時保留先前學習的信息并防止災難性遺忘來解決這一問題。我們的綜述探討了終身學習的現狀,根據新知識的整合方式將策略分為兩類:內在知識,LLM通過完全或部分訓練將新知識吸收到其參數中;外部知識,通過將新知識作為外部資源(如維基百科或API)引入而不更新模型參數。我們的綜述的主要貢獻包括:(1)引入了一種新穎的分類法,將終身學習的大量文獻劃分為12種情景;(2)識別了所有終身學習情景中的常見技術,并將現有文獻分類到不同的技術組中;(3)強調了在LLM之前時代較少探索的模型擴展和數據選擇等新興技術。資源可在//github.com/qianlima-lab/awesome-lifelong-learningmethods-for-llm找到。

隨著大語言模型(LLM)在各個領域的應用不斷擴大,這些模型適應數據、任務和用戶偏好持續變化的能力變得至關重要。傳統的訓練方法依賴靜態數據集來訓練LLM,越來越無法應對現實世界信息的動態特性。終身學習(也稱為持續學習、增量學習),或LLM在其運行生命周期內持續和自適應學習的能力,解決了這一挑戰,通過整合新知識,同時保留先前學習的信息,從而防止災難性遺忘。圖1提供了終身學習的示意圖。 本綜述深入探討了終身學習的復雜領域,根據新知識的整合方式將策略分為兩大類:內在知識和外部知識。每個類別包含不同的方法,旨在增強LLM在各種情境下的適應性和有效性。圖2展示了LLM終身學習方法的分類。 內在知識類通過完全或部分訓練將新知識吸收到LLM的參數中,包括持續預訓練和持續微調等策略。例如,在工業應用中,常采用持續垂直領域預訓練,公司經常使用金融等領域的特定數據重新訓練其LLM。盡管這提高了特定領域的性能,但也有可能削弱模型的廣泛知識基礎,說明了在專業適應性和通用知識保留之間保持平衡的挑戰。持續微調涵蓋了特定情境的方法,如文本分類、命名實體識別、關系抽取和機器翻譯等,以及任務無關的方法,如指令微調、對齊和知識編輯。此外,在持續對齊中使用了人類反饋的強化學習,以確保LLM遵守人類價值觀,如安全和禮貌,突顯了所謂的“對齊稅”,即過于專注于特定價值觀可能會導致模型的通用能力下降。

外部知識類通過將新知識作為外部資源(如維基百科或API)引入,而不更新模型參數,包括基于檢索和工具的終身學習,利用外部數據源和計算工具來擴展模型的能力。基于檢索的策略,如檢索增強生成,通過提供上下文相關、準確和最新的外部數據庫(如維基百科)信息來增強文本生成,確保模型輸出隨時間保持相關性。同時,工具學習類借鑒人類工具使用的類比,模型學習使用外部計算工具,從而無需直接修改其核心知識庫,拓寬了其問題解決能力。

通過對這些組及其各自類別的詳細檢查,本文旨在強調將終身學習能力整合到LLM中,從而增強其在實際應用中的適應性、可靠性和整體性能。通過解決與終身學習相關的挑戰并探索該領域的創新,本綜述旨在為開發更強大和多功能的LLM做出貢獻,使其能夠在不斷變化的數字環境中蓬勃發展。

本綜述與現有綜述的差異。近年來,終身學習已成為一個越來越受歡迎的研究主題。大量綜述探討了神經網絡的終身學習。大多數現有綜述主要集中在卷積神經網絡(CNN)的終身學習,探討了CNN的各種終身學習情景,包括圖像分類、分割、目標檢測、自動系統、機器人和智慧城市。此外,一些綜述探討了圖神經網絡的終身學習。然而,只有少量文獻關注語言模型的終身學習。Biesialska等是關于自然語言處理(NLP)中終身學習的早期綜述,但他們只關注詞和句子表示、語言建模、問答、文本分類和機器翻譯。Ke等關注終身學習情景,包括情感分類、命名實體識別和摘要。他們還討論了知識轉移和任務間類分離的技術。Zhang等提供了關于將LLM與不斷變化的世界知識對齊的技術的全面回顧,包括持續預訓練、知識編輯和檢索增強生成。Wu等從持續預訓練、持續指令微調和持續對齊三個方面重新審視了終身學習。Shi等從垂直方向(或垂直持續學習)和水平方向(或水平持續學習)兩個方向研究了LLM的終身學習。Jovanovic等回顧了幾種實時學習范式,包括持續學習、元學習、參數高效學習和專家混合學習。雖然最近的綜述收集了終身學習的最新文獻,但它們沒有涵蓋持續文本分類、持續命名實體識別、持續關系抽取和持續機器翻譯等情景,并且對持續對齊、持續知識編輯、基于工具的終身學習和基于檢索的終身學習的討論較少。據我們所知,我們是第一個提供對LLM終身學習方法從12種情景進行徹底和系統檢查的綜述。

本綜述的貢獻。我們的綜述的主要貢獻包括

  • 新穎的分類法:我們引入了一個詳細且結構化的框架,將終身學習的廣泛文獻劃分為12種情景。

-** 常見技術**:我們在所有終身學習情景中識別了常見技術,并將現有文獻分類到每個情景內的各種技術組中。

  • 未來方向:我們強調了模型擴展和數據選擇等在LLM之前時代較少探索的新興技術。

本綜述的組織結構如下。第二節介紹問題的形成、評價指標、常見技術、基準和數據集。第三節、第四節和第五節檢查了持續預訓練、持續微調和基于外部知識的終身學習的現有技術。第六節討論了LLM終身學習的現有挑戰、當前趨勢和未來方向,并總結了本綜述。

付費5元查看完整內容

在過去的一年中,多模態大型語言模型(MLLMs)在視覺問答、視覺理解和推理等任務中表現出色。然而,龐大的模型規模和高昂的訓練與推理成本阻礙了MLLMs在學術界和工業界的廣泛應用。因此,研究高效且輕量級的MLLMs具有巨大的潛力,特別是在邊緣計算場景中。在這篇綜述中,我們對當前高效MLLMs的研究現狀進行了全面而系統的回顧。具體來說,我們總結了代表性高效MLLMs的時間線、高效結構和策略的研究現狀以及應用。最后,我們討論了當前高效MLLM研究的局限性和未來有前景的研究方向。更多詳情請參考我們的GitHub倉庫://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。

大規模預訓練作為人工智能(AI)領域的一種領先方法,使得像大型語言模型和多模態模型這樣的通用模型在許多任務中超越了專門的深度學習模型。大型語言模型(LLM)的卓越能力激發了將它們與其他基于模態的模型結合起來以增強多模態能力的努力。這一概念得到了OpenAI的GPT-4V[1]和Google的Gemini[2]等專有模型顯著成功的進一步支持。因此,多模態大型語言模型(MLLMs)應運而生,包括mPLUG-Owl系列[3, 4]、InternVL[5]、EMU[6]、LLaVA[7]、InstructBLIP[8]、MiniGPT-v2[9]和MiniGPT-4[10]。這些模型通過有效利用每種模態的預訓練知識,繞過了從頭開始訓練的計算成本。MLLMs繼承了LLM的認知能力,展示了許多顯著特性,如強大的語言生成和遷移學習能力。此外,通過與其他基于模態的模型建立強大的表示連接和對齊,MLLMs能夠處理來自多種模態的輸入,顯著拓寬了它們的應用范圍。 MLLMs的成功主要歸因于規模定律:隨著數據、計算能力或模型規模等資源的增加,AI模型的性能會提高。然而,可擴展性伴隨著高資源需求,這阻礙了大型模型的發展和部署。例如,MiniGPT-v2的訓練需要基于NVIDIA A100 GPU計算出的總計超過800個GPU小時[9]。這對主要企業外的研究人員來說是一個巨大的費用負擔。除了訓練之外,推理也是MLLMs資源消耗的主要部分。考慮一個典型場景,模型輸入包括一個尺寸為336 × 336像素的圖像和一個長度為40個tokens的文本提示,使用LLaVA-1.5和Vicuna-13B LLM骨干進行推理需要18.2T的FLOPS和41.6G的內存使用量。大規模模型的資源密集型特性也引發了關于民主化和隱私保護的擔憂,因為當前主流的MLLMs,如GPT-4V和Gemini,由少數幾家主導企業控制,并在云端運行。如上述實驗所示,即使是開源的MLLMs,對計算資源的高要求也使得在邊緣設備上運行它們變得具有挑戰性。這進一步加劇了確保公平訪問和保護用戶隱私的挑戰。

鑒于這些挑戰,高效MLLMs的研究受到了越來越多的關注。這些努力的主要目標是減少MLLMs的資源消耗,擴大其適用性,同時盡量減少性能下降。高效MLLMs的研究始于用輕量級替代品替換大型語言模型,并進行典型的視覺指令微調。隨后,研究進一步通過以下方式增強了能力并擴展了用例:(1)引入更輕量的架構,注重效率,旨在減少參數數量或計算復雜度[25, 13, 18];(2)開發了更專業的組件,聚焦于高級架構的效率優化或賦予特定屬性,如局部性[19, 17, 12];(3)支持資源敏感任務,一些工作采用視覺token壓縮來提高效率,使MLLM的能力能夠轉移到資源密集型任務中,如高分辨率圖像和視頻理解[35, 39, 14, 40]。

在本綜述中,我們旨在呈現快速發展的高效MLLMs領域的最新進展,如圖2所示。我們將文獻組織成六個主要類別,涵蓋高效MLLMs的各個方面,包括架構、高效視覺、高效LLMs、訓練、數據和基準測試以及應用。Architecture 關注通過高效技術開發的MLLM框架,以降低計算成本。該架構由多個基于模態的基礎模型組成,具有不同于單模態模型的特征,從而促進了新技術的發展。

Efficient Vision 探討優化高效視覺特征提取策略,強調在保持準確性的同時提高效率的方法。它解決了集成高質量視覺數據以實現有效跨模態理解的問題。

Efficient LLMs 探索提高語言模型計算效率和可擴展性的策略。它研究了模型復雜性與性能之間的權衡,并提出了平衡這些競爭因素的有前景途徑。

Training 調查了對高效MLLMs開發至關重要的訓練方法的現狀。它解決了與預訓練階段、指令微調階段及整體訓練策略相關的挑戰,以實現最先進的結果。

Data and Benchmarks 評估用于多模態語言模型評估的數據集和基準測試的效率。它評估了數據集規模、復雜性和計算成本之間的權衡,同時倡導開發優先考慮效率和與現實世界應用相關性的基準測試。

Application 研究高效MLLMs在各個領域的實際影響,強調性能和計算成本之間的平衡。通過解決諸如高分辨率圖像理解和醫療問答等資源密集型任務,本節強調了高效MLLMs在拓寬其應用范圍和解決現實問題方面的潛力。

總之,這篇綜述深入探討了這些研究工作,探索了多種使MLLMs更具資源效率的策略。我們回顧了高效MLLMs的發展歷史,提供了高效MLLMs策略的分類法,并全面比較了現有高效MLLMs的性能。通過這一探索,我們希望提供對當前最先進技術的全面理解,從而揭示這一新興領域的復雜細微之處。此外,這篇綜述還充當了路線圖,突出了未來研究的潛在途徑,促進了對高效MLLMs領域挑戰和機遇的更深入理解。除了這篇綜述,我們還建立了一個GitHub倉庫,收錄了綜述中提到的論文,并按照相同的分類法進行整理,地址為:

按照標準的MLLM框架,高效MLLMs可以分為三個主要模塊:視覺編碼器g,負責接收和處理視覺輸入;預訓練語言模型,管理接收到的多模態信號并進行推理;視覺-語言投影器P,作為連接兩種模態的橋梁。為了提高通用MLLMs的效率,主要的優化在于處理高分辨率圖像、壓縮視覺令牌、實施高效結構以及使用緊湊的語言模型等策略。圖3展示了架構圖。表1概述了高效MLLMs的總結,包括基礎LLM、視覺編碼器、圖像分辨率和用于連接視覺和語言的投影器。這些高效MLLMs包括:MobileVLM[20]、LLaVA-Phi[21]、Imp-v1[22]、TinyLLaVA[23]、Bunny[24]、Gemini Nano-2[2]、MobileVLMv2[17]、MoE-LLaVA-3.6B[25]、Cobra[13]、Mini-Gemini[26]、Vary-toy[27]、TinyGPT-V[28]、SPHINX-Tiny[14]、ALLaVA[29]、MM1-3B[30]、LLaVA-Gemma[31]、Mipha-3B[32]、VLMamba[18]、MiniCPM-V2.0[70]、DeepSeek-VL[34]、KarmaVLM[71]、moondream2[72]。在本節中,我們將按順序全面概述這三個模塊以及其他高效組件。

Vision Transformer (ViT) [94] 架構在計算機視覺應用中獲得了顯著的關注并被廣泛使用。然而,隨著ViT模型規模的增長,可訓練參數和操作數量也隨之增加,影響了它們的部署和性能。此外,自注意力機制的計算和內存成本隨著圖像分辨率的增加呈二次增長。參考論文[95],本綜述旨在探索可用于高效MLLMs的最有效的視覺編碼方法。

付費5元查看完整內容

大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。

自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。

當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。

關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

大型語言模型(LLMs)在靜態、預先收集的通用數據集上的訓練取得的最近成功,已經引發了眾多研究方向和應用。其中一個方向解決了將預訓練的LLMs整合到動態數據分布、任務結構和用戶偏好中的非平凡挑戰。這個問題的主要挑戰在于平衡模型適應性和知識保存。為特定需求量身定制的預訓練LLMs經常在之前的知識領域經歷顯著的性能退化——這一現象被稱為“災難性遺忘”。雖然在持續學習(CL)社區進行了廣泛研究,但在LLMs領域呈現出新的表現形式。在這篇綜述中,我們提供了一個關于大型語言模型在持續學習背景下當前研究進展的全面概覽和詳細討論。除了介紹初步知識外,這篇綜述被分為四個主要部分:我們首先描述了持續學習LLMs的概覽,包括兩個連續性方向:垂直連續性(或垂直持續學習),即從一般到特定能力的持續適應;和水平連續性(或水平持續學習),即跨時間和領域的持續適應(第3節)。在垂直連續性之后,我們總結了在現代CL背景下學習LLMs的三個階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。然后我們提供了LLMs的持續學習評估協議的概覽,以及當前可用的數據來源(第5節)。最后,我們討論了有關LLMs持續學習的引人深思的問題(第6節)。這篇綜述揭示了持續預訓練、適應和微調大型語言模型這一相對未受到足夠研究的領域,表明需要社區更多的關注。需要立即關注的關鍵領域包括開發實用且易于訪問的評估基準,以及專門設計的方法論,以對抗遺忘和在不斷演變的LLM學習范式中啟用知識轉移。在這項綜述中檢查的完整論文列表可在//github.com/Wang-ML-Lab/llm-continual-learning-survey找到。

近期大型語言模型(LLMs)的進步顯示了實現人工普遍智能(AGI)的巨大潛力。研究人員觀察到,隨著參數規模的增加,多步驟推理、小樣本上下文學習和指令跟隨等復雜能力有所提高。LLMs的發展具有重大影響和革命性,促使機器學習從業者重新考慮傳統的計算范式,用于處理一些曾經具有挑戰性的人類水平任務,如問答、機器翻譯和對話系統。然而,LLMs通常在包含通用領域的靜態、預先收集的數據集上進行訓練,導致性能隨時間逐漸降低,并且在不同內容領域之間也會降低。此外,單一的預訓練大模型無法滿足每個用戶的需求,需要進一步的微調。盡管重新收集預訓練數據和根據額外的具體需求重新訓練模型是一種潛在的解決方案,但這種方法在現實世界場景中代價高昂且不切實際。為了有效地適應LLMs到下游任務,同時盡量減少對以前知識領域的性能退化,研究者采用了持續學習的方法,也稱為終身學習或增量學習。持續學習受到人類大腦中觀察到的增量學習模式的啟發,涉及按順序在一系列任務上訓練機器學習模型,期望在所有任務中保持性能。在訓練過程中,模型對以前的數據有限或無法訪問,這在保留過去知識時構成了一個挑戰,因為在當前任務學習時,來自未見過的以前數據的優化約束是不存在的。這一挑戰,被稱為災難性遺忘,自持續學習研究開始以來一直是研究的中心焦點。多年來,研究者探索了各種技術來減輕機器學習模型中的遺忘,這些技術包括基于重放的方法、參數規范化和模型架構擴展。這些技術共同顯著推進了在不同任務、模型架構和學習范式中實現零遺忘的持續學習目標。在順序訓練和適應LLMs的背景下,CL的重要性也正在發生自身的語義轉變。為了更好地突出這一持續的轉變,在這篇綜述中,我們提供了一個關于LLMs在CL背景下當前研究進展的全面概覽和詳細討論。對于持續學習LLMs的總體情況,我們將其分為兩個需要由從業者解決的連續性方向(第3節):

  • 垂直連續性(或垂直持續學習),指的是LLMs從大規模通用領域到小規模特定領域的持續適應,涉及學習目標和執行實體的轉變。例如,醫療機構可能開發專門為醫療領域定制的LLMs,同時保留其一般推理和問答能力,以服務用戶。
  • 水平連續性(或水平持續學習),指的是跨時間和領域的持續適應,通常涉及多個訓練階段和對災難性遺忘的增加脆弱性。例如,社交媒體平臺不斷更新LLMs以反映最近的趨勢,確保精確地定位下游服務如廣告和推薦,同時為現有用戶提供無縫的用戶體驗。

在圖1中,繼垂直連續性之后,我們勾畫了現代CL中LLM學習的三個關鍵階段:持續預訓練(CPT)、領域適應性預訓練(DAP)和持續微調(CFT)(第4節)。在CPT中,現有研究主要調查三種類型的分布式轉變:時間、內容層次和語言層次。每種都呈現出獨特的焦點和挑戰。在DAP中,雖然它主要被視為為下游任務準備LLMs的過程,但頻繁地使用CL評估和技術。然而,這些技術的多樣性明顯不足,考慮到傳統CL社區的成熟度。在CFT中,我們關注的是學習LLMs的新興領域,涵蓋持續指令調整(CIT)、持續模型精煉(CMR)、持續模型對齊(CMA)和持續多模態LLMs(CMLLMs)等主題。接下來,我們呈現了一系列公開可用的評估協議和基準(第5節)。我們總結我們的綜述,討論了LLMs持續學習的最新出現的特性,傳統增量學習類型和LLMs持續學習中的記憶約束的角色變化,以及這個主題的潛在研究方向(第6節)。總結而言,本文提供了一份詳盡的現有持續學習研究LLMs的綜述,顯著區別于相關主題的現有文獻。我們的綜述突出了持續開發LLMs的研究領域,特別是在持續預訓練(CPT)和領域適應性預訓練(DAP)領域的研究。我們強調需要社區更多的關注,迫切需要包括開發實用、易于訪問且廣為認可的評估基準。此外,需要定制方法來解決在新興的大型語言模型學習范式中的遺忘問題。我們希望這篇綜述能提供一個系統而新穎的持續學習視角,在迅速變化的LLMs領域中,幫助持續學習社區為開發更有效、可靠和可持續的LLMs做出貢獻。

組織結構

本文的其余部分安排如下。我們首先在第2節介紹大型語言模型和持續學習的背景和初步知識。然后我們在第3節展示了大型語言模型的現代持續學習概覽。從垂直角度來看,它可以大致分為三個階段的LLMs持續訓練,我們將在第4節逐一介紹每個階段。在4.3節中,將介紹持續微調LLMs的獨特方面,包括持續指令調整(4.3.3節)、持續模型精煉(4.3.4節)、持續模型對齊(4.3.5節)和持續多模態大型語言模型(4.3.6節)。在第5節中,我們提供了公開可用的LLMs持續學習評估協議和基準的全面介紹。最后,在第6節中,我們討論了在大型語言模型時代持續學習的角色,包括大規模持續LLMs的新興能力(6.1節)、三種類型的持續學習(6.2節)、LLMs持續學習中的記憶角色(6.3節)以及未來的研究方向(6.4節)。 持續學習與大型語言模型相遇:概覽****大型語言模型(LLMs)在多個維度上都非常龐大,包括模型參數的大小、預訓練數據集、計算資源、項目團隊和開發周期。LLMs的巨大規模為開發團隊帶來了顯著的挑戰,特別是在快速變化的環境中保持更新。舉例來說,2023年,用戶發布的新推文的平均每日流量超過5億,即使是在這么大量數據的“小”子集上進行訓練也是不可承受的。在考慮到它們對下游應用的連鎖影響時,有效且可靠地適應LLMs變得更為關鍵。下游用戶通常缺乏收集和存儲大規模數據、維護大規模硬件系統以及自行訓練LLMs的專業知識。《可回收調整》是首個明確概述現代LLM生產流水線供應商-消費者結構的先導研究。在供應商側,模型在一系列大規模未標記數據集上持續進行預訓練。每次預訓練模型發布后,消費者需要利用更新、更強大的上游模型以獲得更好的下游性能。為了提高下游消費者微調的效率,他們最初對持續預訓練的LLMs進行了幾項關鍵觀察,聚焦于模式連接性和功能相似性。此外,他們提出在上游預訓練LLM進行重大更新后,復用過時的微調組件。基于《可回收調整》引入的概念框架,我們在本綜述中提出了一個包含各種研究的現代生產流水線的全面框架,涉及持續LLM預訓練、適應和部署,如圖1所示。我們的框架與現有研究的不同之處在于融入了兩個連續性方向:垂直連續性和水平連續性。

結論

在這項工作中,我們提供了一份關于持續LLMs的綜述,從持續學習的角度總結了它們在訓練和部署方面的最新進展。我們根據它們在我們提出的現代分層持續學習LLMs的更廣框架內的位置,對問題和任務進行了分類。雖然這一領域在社區中的興趣廣泛且日益增長,但我們也注意到幾個缺失的基石,包括算法多樣性以及對大模型行為(如知識遺忘、轉移和獲取)的基本理解。通過全面而詳細的方法,我們希望這篇綜述能激勵更多從業者探索持續學習技術,最終有助于構建健壯和自我進化的人工智能系統。

付費5元查看完整內容

將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理領域表現出令人印象深刻的影響,但它們仍然在完整性、時效性、可靠性和適應性等方面存在一些問題。雖然最近的努力集中在將LLMs與外部知識源連接上,但知識庫(KBs)的集成仍未得到充分研究,并面臨一些挑戰。本文介紹了KnowledGPT,一個將LLMs與各種知識庫連接起來的綜合框架,促進知識的檢索和存儲。檢索過程采用思維提示程序,該程序以代碼格式生成用于KB操作的搜索語言。除了檢索外,KnowledGPT還提供了將知識存儲在個性化KB中的能力,以滿足個人用戶的需求。通過廣泛的實驗,我們表明,通過將LLMs與KBs集成,KnowledGPT與普通LLMs相比,能夠適當地回答更廣泛的需要世界知識的問題,利用廣泛存在的KBs中的知識和提取到個性化KB中的知識。

付費5元查看完整內容
北京阿比特科技有限公司