亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

大規模語言模型(LLM)在多個領域具有變革性的潛力,包括推薦系統(RS)。已有一些研究專注于通過LLM賦能推薦系統。然而,之前的工作主要集中于將LLM作為推薦系統,這可能面臨LLM推理成本過高的問題。最近,LLM與推薦系統的結合——即LLM增強推薦系統(LLMERS)——因其在實際應用中解決延遲和內存限制的潛力,受到了廣泛關注。本文對最新的研究工作進行了全面的綜述,旨在利用LLM提升推薦系統的能力。我們發現,隨著LLM被引入在線系統,特別是通過避免在推理階段使用LLM,領域內出現了一個關鍵的轉變。我們的綜述將現有的LLMERS方法按推薦系統模型增強的組件分為三種主要類型:知識增強、交互增強和模型增強。我們深入分析了每個類別,討論了相關方法、挑戰以及近期研究的貢獻。此外,我們還指出了幾個有前景的研究方向,這些方向可能進一步推動LLMERS領域的發展。

1 引言

大規模語言模型(LLM)在語言理解和推理方面展現了前所未有的能力 [3, 69, 87]。考慮到傳統推薦系統(RS)僅利用協同信號 [2, 65, 66],通過LLM為推薦系統提供語義信息顯得尤為有吸引力。因此,許多研究提出了彌合自然語言與推薦之間差距的方法,從而打造更強大的推薦系統。盡管將LLM應用于推薦系統取得了一定的成功,但對話系統與推薦系統之間的一個顯著區別在于推理延遲。推薦系統通常要求對大量請求提供低延遲響應,而LLM(例如LLaMA-7B)在響應時間上通常需要幾秒鐘。然而,許多早期的研究主要集中在直接使用LLM進行推薦 [13],這使得它們難以滿足實際應用的需求。最近,越來越多的研究者開始關注這一問題,并深入探索LLM增強推薦系統的實踐應用。因此,本文旨在總結和概述該領域的最新研究成果。為了明確本綜述的范圍,我們首先給出LLMERS的定義:傳統推薦系統通過LLM的輔助來增強訓練或補充數據,但在服務過程中無需使用LLM進行推理。盡管已有一些關于LLM在推薦系統中應用的綜述,但存在三點關鍵差異: i) 目前的大多數綜述集中在如何將LLM本身作為更好的推薦系統,包括生成推薦 [28, 31, 70] 和判別推薦 [4, 6, 20, 33, 56, 89]。相比之下,我們的綜述專門探討LLM增強推薦系統(LLMERS)。 ii) LLM在推薦系統中的應用是一個前沿方向,發展迅速。一些綜述 [4, 33, 70, 89] 并未涵蓋最新的論文。相比之下,本綜述包含了超過50篇2024年后發布的工作。 iii) 很少有綜述提及LLM增強推薦系統 [4, 33],但它們僅關注特征工程方面的增強。而本綜述則首次從綜合視角總結了LLMERS,包括特征和模型兩個方面。

1.1 初步介紹

由于LLM增強推薦系統是基于傳統推薦系統的,因此有必要先介紹其組件和面臨的挑戰,以便理解為什么以及在何處需要使用LLM。如圖1所示,傳統推薦系統通常由交互數據和推薦模型組成。

交互數據

傳統推薦系統通過捕捉用戶-物品記錄中的協同信號 [26] 來進行訓練,因此數據中的交互信息對訓練是必不可少的。此外,許多基于內容的模型 [43] 提取用戶和物品特征中的共現關系來進行推薦。因此,特征和交互數據是數據中的兩個必要組成部分。然而,數據面臨的兩個挑戰限制了傳統推薦系統的進一步發展:

  • 挑戰1:對于特征,它們通常會被轉換為數值或類別值進行使用,但缺乏來自知識層面的推理和理解。
  • 挑戰2:對于交互數據,數據稀疏性導致推薦系統模型的訓練不足。

推薦模型

隨著深度學習技術的廣泛應用,推薦模型遵循“嵌入-深度網絡”的模式。嵌入層將原始特征轉化為密集的表示 [88],而深度網絡則捕捉用戶的興趣 [84]。然而,它們也面臨一個獨特的挑戰:

  • 挑戰3:推薦模型只能捕捉協同信號,但無法利用語義信息。

1.2 分類法

LLMERS通過增強傳統推薦系統的基本組件,即交互數據和推薦模型,從而在服務過程中僅使用傳統的推薦系統模型。根據LLM在解決這些挑戰時的作用,我們將LLM增強推薦系統分為三大類,如圖1所示:

  1. 知識增強

這類方法利用LLM的推理能力和世界知識為用戶或物品生成文本描述。這些描述作為額外的特征,補充推理和理解的知識,從而解決挑戰1。(第二部分)

  1. 交互增強

為了解決數據稀疏性問題(即挑戰2),一些研究采用LLM生成新的用戶-物品交互數據。(第三部分)

  1. 模型增強

LLM能夠從語義角度分析交互數據,因此一些研究嘗試利用LLM來輔助傳統的推薦模型,從而解決挑戰3。(第四部分) 為清晰起見,我們在圖2中根據分類法展示了所有相關的LLMERS論文。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

語言長期以來被認為是人類推理的基本工具。大型語言模型(LLM)的突破激發了大量研究興趣,推動了利用這些模型解決復雜推理任務的探索。研究人員通過引入“思維”這一概念——即一系列代表推理過程中的中間步驟的標記——超越了簡單的自回歸標記生成。這一創新范式使LLMs能夠模仿復雜的人類推理過程,如樹搜索和反思性思維。近年來,學習推理的趨勢逐漸興起,強化學習(RL)被應用于訓練LLMs掌握推理過程。這種方法通過試錯搜索算法自動生成高質量的推理軌跡,大大擴展了LLMs的推理能力,通過提供大量的訓練數據。此外,近期研究表明,鼓勵LLMs在推理過程中使用更多標記(即“思考”)進行測試時推理,能夠顯著提升推理準確性。因此,訓練時和測試時的規模化結合展現了一個新的研究前沿——邁向大型推理模型的路徑。OpenAI的o1系列的推出標志著這一研究方向的重要里程碑。在本綜述中,我們對LLM推理的最新進展進行了全面回顧。首先,我們介紹LLM的基礎背景,然后探討推動大型推理模型發展的關鍵技術組成部分,重點討論自動化數據構建、學習推理技術和測試時規模化。我們還分析了當前一些流行的開源項目,致力于構建大型推理模型,并最終總結了當前面臨的挑戰和未來的研究方向。

1 引言

“如果語言存在嚴重缺失,思維也將會嚴重缺失。” — 諾姆·喬姆斯基 得益于深度學習的進展和大規模數據集的可用性,大型語言模型(LLMs)已成為邁向人工通用智能(AGI)的轉型性范式。這些龐大的AI模型通常采用Transformer架構,并在大規模文本語料庫上通過下一個標記預測任務進行預訓練 [191]。神經網絡規模法則表明,隨著模型規模和訓練數據的增加,它們的性能顯著提升 [59]。更重要的是,LLMs還解鎖了許多小模型所沒有的顯著突現能力 [159],例如上下文學習 [33]、角色扮演 [124] 和類比推理 [157]。這些能力使得LLMs超越了自然語言處理問題,能夠處理更廣泛的任務,如代碼生成 [41]、機器人控制 [3] 和自主代理 [28]。

在這些能力中,人類般的推理能力受到了學術界和工業界的廣泛關注,因為它展示了LLMs通過抽象和邏輯推理在復雜現實問題中進行推廣的巨大潛力。該領域的一項重要突破是“鏈式思維”提示技術 [160],該技術能夠在測試時通過一步步的推理過程引導LLMs進行類人推理,而無需額外的訓練。這些直觀的提示技術已被證明能夠顯著提高預訓練LLMs的推理準確性,并推動了“樹狀思維” [172] 等更高級提示技術的發展。 這些方法引入了“思維”這一概念,將其視為表示人類推理過程中的中間步驟的標記序列。通過引入這些中間步驟,LLMs的推理超越了簡單的自回歸標記生成,能夠實現更復雜的認知架構,如樹搜索 [172] 和反思性推理 [180]。

近年來,學習推理成為一個重要的研究趨勢 [103],其目標是訓練LLMs掌握類人推理過程。該研究方向的一個關鍵挑戰是訓練數據的匱乏。人工標注通常成本高昂,特別是對于已被證明在監督LLM推理中有效的逐步推理軌跡 [75]。為了解決這一問題,近期的研究已經從人工標注轉向LLM驅動的搜索算法。這些方法利用外部驗證推理問題,借助試錯搜索算法自動生成準確的推理軌跡 [85]。更重要的是,研究人員提出了在這些推理軌跡上訓練過程獎勵模型(PRMs) [183]。PRMs可以提供密集的逐步獎勵,促進LLM推理的強化學習。這些方法的結合減少了對人工標注數據的依賴,并創造了一個“強化循環”,有效地整合了“搜索”和“學習”——這兩種方法可以無限擴展,正如理查德·薩頓所預測的那樣 [139]。因此,這一新興范式通過增加訓練時的計算資源,實現了LLM推理能力的擴展,為更高級的推理模型鋪平了道路。

此外,近期的研究表明,增加測試時計算資源也可以提高LLM的推理準確性。具體而言,PRMs可以引導LLMs評估并搜索中間“思維”過程 [134],鼓勵LLMs在測試時計算過程中生成更為謹慎的推理步驟,從而提升推理準確性。這一方法促成了測試時擴展法則,該法則預測,在測試時投入更多標記進行深思熟慮的推理可以提高準確性 [103]。因此,基于強化學習的訓練時擴展和基于搜索的測試時擴展相結合,展示了一個有前景的研究方向,旨在充分釋放LLMs的推理能力,即邁向大型推理模型的路徑。OpenAI的o1系列 [194] 是這一研究方向的一個重要里程碑,展示了該方法的有效性,并呼應了OpenAI在邁向AGI的五步路線圖中,從對話AI(一級)到更強大推理AI(二級)的過渡愿景 [36]。一些開源項目,如OpenR [145]、LLaMABerry [185] 和Journey Learning [110],致力于復現OpenAI的o1強大推理能力,為大型推理模型的開發提供了寶貴的見解。

在本綜述中,我們提供了關于向大型推理模型發展的最新研究工作的全面回顧。第二節簡要介紹LLM推理的背景。接下來的三節深入探討推動大型推理模型發展的關鍵技術組成部分。具體而言,第三節聚焦于訓練數據構建,強調從人工標注到LLM驅動自動化搜索的轉變。第四節回顧了對擴展LLM推理能力至關重要的強化學習方法,重點討論訓練時計算資源的增加;第五節則討論了測試時擴展,特別是基于PRM引導的搜索。在第六節中,我們分析了OpenAI的o1系列及其他開源項目,探索大型推理模型的發展路徑。第七節總結了額外的測試時增強技術,第八節回顧了推理基準測試。最后,我們在綜述的結尾討論了當前面臨的開放問題和未來的研究方向。

2. 背景

2.1 預訓練

作為訓練LLMs的基礎階段,有效的預訓練對于開發推理能力至關重要。在討論LLMs推理的預訓練之前,我們首先概述一般LLM預訓練的基本過程。通過預訓練,LLMs不僅獲得了核心的語言知識,還掌握了多樣化的世界知識,為高級能力的涌現和有效的價值對齊奠定了堅實的基礎。通常,LLM預訓練依賴于高質量的文本語料庫,包括大量的網絡內容、書籍、代碼和其他類型的數據。利用這些豐富的文本語料庫,LLMs基于Transformer架構,通過下一個詞預測任務進行訓練。預訓練后,LLMs通常表現出卓越的上下文學習能力,能夠生成連貫的文本,并利用其龐大的知識庫回答各種問題。值得注意的是,預訓練階段在培養LLMs的推理能力方面發揮了關鍵作用。例如,研究表明,富含代碼和數學內容的數據集是開發強大推理技能的關鍵基礎。基于這一觀察,新開發的LLMs開始引入精心設計的合成數據,以增強LLMs的推理能力。在預訓練過程中,一個關鍵的挑戰在于平衡代碼和數學數據與一般文本語料庫的比例,以保持強大的語言能力,同時釋放LLMs的推理潛力。

2.2 微調

雖然預訓練使LLMs通過上下文學習展現出推理能力,但微調技術被廣泛用于實現LLMs的零樣本和改進的推理能力。在這里,我們首先概述基本的微調過程,然后探討其在增強推理能力方面的潛力。如文獻[104]所述,預訓練階段結束后,LLMs進入監督微調階段(SFT),也稱為指令微調階段。這一階段的主要目標是優化模型的輸出風格,確保其響應符合人類需求和現實應用。這是通過使用反映廣泛日常人類互動的多樣化指令數據集進行訓練來實現的,這些數據集通常通過廣泛且精心策劃的人工標注和精煉創建。隨著ChatGPT的出現,新的方法涌現出來,用于生成多樣化的指令數據集。這些方法包括直接從強大的LLMs中提取數據的技術,以及從現有語料庫中自動構建大規模數據集的自動化方法。使用這些精心設計的指令微調數據集,微調過程繼續使用下一個詞預測目標,類似于預訓練。然而,與預訓練不同的是,微調特別計算答案的損失,而通常忽略問題的損失。此外,結合包含思維鏈(CoT)推理和數學問題解決示例的數據集已被證明能夠顯著增強LLMs的推理能力,這使其成為一個活躍的研究領域。遵循一般實踐,大多數當前方法利用從高級大型推理模型中提取的數據進行微調,以增強LLMs的推理能力,從而獲得最終的大型推理模型。

2.3 對齊

僅僅依賴從高級大型推理模型中直接提取數據限制了新LLMs的潛力。一個更有前景的方法是使用強化學習進行數據構建和模型訓練,這正好對應于一般LLM訓練中的最終對齊階段。在LLM的一般訓練中,對齊階段通常涉及使用人類反饋的強化學習(RLHF)等方法,以引導模型生成符合有用、無害和誠實標準的內容。這一階段的目標是增強LLMs在現實中的安全性和可控性。與之前的SFT階段相比,這一階段通常包含大量精心策劃的人工標注的排名數據,以準確反映人類偏好。這些數據不僅包括正確的示范,還包括應避免的不良案例。標準的RLHF通常涉及一個SFT模型、一個獎勵模型和一個對齊模型,這些模型通過PPO等方法進行迭代優化。由于標準RLHF的高數據需求和訓練成本,提出了直接偏好優化(DPO)等方法,以減少對顯式獎勵模型的依賴。在DPO中,偏好損失被定義為策略的函數,以直接指導模型優化。鑒于推理問題的多步驟性和復雜性,基于對齊的后訓練已成為激發LLMs推理能力的最終且最關鍵的一步。通過仔細分解推理過程并逐步將信號反饋給模型,基于強化學習和偏好學習的各種自訓練方法取得了顯著的成功。

2.4 提示LLMs進行高級推理

類人推理是LLMs在具有足夠大模型參數時涌現的最重要能力之一。雖然零樣本推理在某些任務中可能仍然不可靠,但研究人員已經發現了各種提示技術來增強這些能力。這些技術可以大致分為三種主要方法:逐步推理、多路徑探索和基于分解的方法。 逐步推理方法以思維鏈提示為例,展示了明確展示中間推理步驟如何顯著提高問題解決能力。即使是簡單的提示,如“讓我們一步一步地思考”,也能有效地引導推理過程。這種方法通過自我一致性(Self-Consistency)進一步改進,生成多個推理路徑以得出更可靠的結論,以及自動生成有效推理鏈的Auto-CoT。 多路徑探索方法超越了線性推理,同時考慮多個潛在的解決方案路徑。思維樹將替代推理路徑組織成樹結構,從而系統地探索不同的解決方案策略。思維圖進一步將其推廣到圖結構,允許更靈活的推理模式和回溯能力。ReAct通過將推理與行動步驟交織在一起,豐富了這一范式,從而能夠更動態地與外部環境互動。 對于復雜問題,基于分解的方法特別有效。Least-to-Most Prompting和Algorithm of Thoughts系統地分解復雜問題為可管理的組件,而Plan-and-Solve則為解決這些子問題提供了戰略指導。這些方法在處理需要多個步驟或不同層次分析的任務時尤其有價值。 這些廣泛的推理能力通過結構化提示策略得到增強,在處理需要仔細分析和系統思考的任務時特別有效,使LLMs能夠完成各種復雜的社會科學相關任務。這些方法的成功表明,盡管LLMs具備固有的推理能力,但通過提示過程中的仔細引導和結構,可以充分釋放其潛力。 2.5 代理工作流 在LLMs的指令遵循和上下文學習能力之上,研究人員開始設計代理工作流,以編程LLMs的“思維模式”。這種代理工作流允許研究人員在不進行額外訓練的情況下增強LLMs的推理能力,但通常需要更多的測試時計算。上下文學習是通過簡單地提供一些上下文示范來提高LLMs在特定任務上的表現的能力,使LLMs能夠高效地推廣到未見問題,而無需進行計算昂貴的訓練。盡管這種能力的起源仍然是一個有爭議的話題,但最近的研究表明,上下文學習通過允許LLMs捕捉標簽空間、輸入文本的分布和答案的期望格式來提高其表現。這些理想特性使研究人員能夠將通用LLMs適應于各種任務場景,例如通過上下文角色扮演模擬某些人口群體的視角。最近的研究表明,有效的代理工作流可以大大提高LLMs模擬人類行為、人機交互和協作任務解決的能力。通過代理工作流編程LLMs的能力為提高LLMs的推理能力奠定了復雜認知架構的基礎。

3. 數據構建:從人工標注到LLM自動化

創建大規模、高質量的推理數據集對于增強LLMs的推理能力至關重要。然而,由于成本高昂,這一任務面臨重大挑戰。如圖1所示,人工標注被廣泛認為是高質量的,但其成本高昂且難以擴展。相反,使用LLMs自動化標注過程提供了一種更具成本效益的替代方案,但面臨驗證有限的挑戰,特別是對于逐步推理過程。在本節中,我們回顧了該領域的最新研究進展(總結在表1中),強調了從人工標注到LLM自動化的轉變。 3.1 人工標注 人工標注在構建LLMs數據集中的作用是不可或缺的。人工標注者以其細致、耐心和精確性為特征,同時也具備適應新場景和處理模糊數據的能力。Zhou等人[195]證明,即使使用最少的人工標注數據,模型也能實現強大的性能,突出了精心策劃的標注在模型有效性中的關鍵作用。人工標注數據在增強大型語言模型的推理能力方面發揮了關鍵作用。在人類反饋強化學習(RLHF)的背景下,來自人工標注者的偏好數據使LLMs能夠與復雜的人類價值觀和倫理考慮保持一致。這種通用的標注方法有助于針對特定任務微調模型。基于這一基礎,Lightman等人[75]展示了使用人工標注者評估數學推理過程中每一步推理質量的有效性,顯著提高了LLM推理的準確性。這突顯了人工標注如何彌合一般訓練數據與領域特定挑戰(如復雜推理任務)之間的差距。 增強LLMs的推理能力需要過程監督,即人工標注者指導推理過程的每一步[75]。然而,這種監督需要大量的人工標注數據,使其資源密集且不可持續。鑒于LLM訓練通常需要TB級的數據,其數量對模型性能至關重要,完全通過手動標注構建數據集變得越來越不切實際。這突顯了在不依賴人工標注的情況下改進推理的替代方法的需求。一種有前景的方法是人與LLMs協作進行標注,利用LLMs加速標注過程,同時保持人工生成標注的高質量。具體來說,標注過程可以分為兩個階段:預標注階段和精煉階段。在預標注階段,LLMs可以用于執行初始標注,利用少量手動提供的示例進行快速高效的設置[42, 61]。在精煉階段,人工標注者可以評估LLM生成標注的質量,并專注于糾正質量較差的標注子集[61, 152, 96, 42]。為了實現可擴展的標注過程,最近的工作越來越關注如何在確保數據質量的同時最大化自動化,從而在不影響標注準確性的情況下減少人工參與。

3.2 LLM自動化結果標注

數據標注是一項具有挑戰性且資源密集的任務,特別是在需要復雜操作(如過濾、識別、組織和重構文本數據)的場景中。這些任務通常繁瑣、耗時,并且需要大量的人力,使其成為大規模數據構建工作中的昂貴瓶頸[142, 31]。為了解決這些挑戰,利用LLMs進行數據標注提供了一種成本效益高且高效的替代方案。隨著上下文窗口長度超過100k標記,LLMs可以輕松處理長文本和大規模結構化數據[2],以顯著效率處理數據標注的復雜需求。它們強大的指令遵循能力[187]使其能夠靈活適應多樣化和復雜的標注場景,同時達到與人工標注者相當的質量水平。通過自動化這些高要求的任務,LLMs顯著減少了對人力的依賴,簡化了標注過程,并提高了整體生產力[181]。 LLMs能夠處理各種自動化標注任務,從簡單的問答提取[106]到包含額外目標信息[161]。在沒有人工示范的情況下,LLMs依靠其強大的推理和上下文學習能力獨立應對更復雜的標注需求。例如,Schick等人[120]展示了如何使用LLMs構建工具使用的數據集。對于每個可能需要API調用的候選位置,LLM能夠理解周圍上下文中的邏輯關系,生成相關問題,并確定適當的工具API來解決問題。當有人工示范時,LLMs可以通過模仿這些示例中的模式和推理策略進一步提高其表現。對于復雜任務,人工示范提供了高質量的軌跡——思想、觀察或行動的序列——指導LLMs復制人類決策過程。現有研究表明,即使是零樣本LLMs,在基于人工示范的任務無關提示下,也能有效地執行標注任務[65]。此外,對于涉及高度復雜和細微軌跡的任務,LLMs可以結合專門的代理,如計劃代理、工具代理和反思代理,以解決標注過程的不同方面,從而進一步增強其與類人推理和行為對齊的能力。這些多樣化的能力自然延伸到推理結果標注任務,LLMs不僅推斷潛在邏輯結構,還系統地記錄中間推理步驟及其相關結論。這使得能夠創建不僅捕捉最終結果,還捕捉導致這些結果的完整推理過程的標注數據集,為下游應用提供更豐富的見解。 除了基于人工示范的標注外,LLMs可以通過帶有反饋的搜索獨立增強其標注能力,這一過程涉及通過從動態環境中學習進行迭代精煉。失敗的數據點可以被視為一種經典的反饋形式,作為模型識別弱點并設計有針對性的調整的寶貴反饋。通過自我糾正錯誤樣本并生成精煉的訓練數據,LLMs參與了一個自我改進的循環,增強了其理解和推理能力[70]。此外,LLMs可以系統地分析其錯誤的原因,提取關鍵見解并將其編碼為自學習知識,以指導未來的推理任務[72]。這種反饋驅動的方法還可以涉及基于相似性將失敗的軌跡與成功的軌跡配對,從而通過對比學習策略精煉模型的參數。通過這種迭代搜索和精煉機制,LLMs不僅解決了錯誤,還開發了更強大的推理能力,使其能夠在復雜任務中實現更深的泛化和適應性[135]。

3.3 LLM自動化過程標注 在復雜的推理任務中,模型輸出的每一步都可能顯著影響最終結果,因此必須將中間決策標記為“正確”、“錯誤”或分配中間獎勵,即過程標注。然而,手動標注這些步驟既昂貴又耗時。例如,Lightman等人[75]投入了大量人工努力來生成大規模過程標注數據集,即PRM800K,該數據集滿足了訓練有效過程獎勵模型(PRM)的要求,并大大增強了LLMs的推理能力。因此,自動化方法越來越需要高效的過程標注,以確保可擴展性和成本效益。最初的自動化方法雇傭外部更強的LLMs來標注由較小LLMs生成的中間過程。此外,基于蒙特卡羅的方法減少了對外部更強LLMs的依賴,可以使用較弱的LLMs完成數據標注,從而通過自我強化的方式訓練更強的LLMs。 使用更強的LLM進行標注:作為一種直接的自動化標注方法,Luo等人[84]設計利用更強大的外部模型來標注生成模型推理過程的中間結果。該方法不依賴人工標注,而是使用預訓練的高性能模型(如GPT系列)來評估每個生成的步驟。通過利用更強外部模型的能力,這種方法提高了標注過程的準確性和可擴展性,使其更適合大規模任務。然而,這種方法的主要限制在于其對高度能力的外部模型的依賴,這意味著標注過程的性能最終受限于所使用的外部模型的能力。 通過蒙特卡羅模擬進行標注:為了減少對強大外部模型的依賴,Wang等人[148]和Wang等人[156]提出了一種改進方法,避免直接評分中間步驟。相反,他們的方法使用外部模型從給定的中間輸出繼續推理幾步,并隨機重復此模擬過程多次。然后基于這些擴展推理的平均結果評估中間步驟的質量。這種蒙特卡羅方法在數學問題解決和代碼生成等任務中顯示出有前景的結果。 通過樹搜索模擬進行標注:使用多步蒙特卡羅模擬與外部模型來評估中間步驟質量的方法已成為自動化過程標注中最廣泛使用的方法之一。為了進一步提高該方法的效率,Luo等人[85]提出了一種改進方法,用蒙特卡羅樹搜索(MCTS)策略取代重復的蒙特卡羅模擬。在這種改進方法中,使用MCTS從中間步驟生成多個代表最終推理結果的葉節點。然后基于這些葉節點的平均結果評估中間步驟的質量。與隨機重復推理相比,MCTS利用樹搜索提高推理質量,同時允許葉節點共享高質量的父節點,減少計算開銷并提高效率。該方法在數學問題解決中表現出優越的性能,超越了人工標注。 在基于MCTS的模擬基礎上更進一步,Zhang等人[183]在過程標注中引入了自我精煉機制。他們利用獲得的過程標注訓練過程獎勵函數(PRM),進而提高大型語言模型(LLM)的性能。精煉后的LLM隨后用于重復基于MCTS的模擬,生成更高質量的標注。這種涉及改進循環的迭代過程,通過迭代增強逐步提高了過程標注的質量。該方法在多個任務中表現出色,包括數學問題解決、問答和多領域知識推理,展示了其通過迭代增強不斷精煉和提高標注質量的有效性。

4. 學習推理:從監督到強化微調

雖然預訓練模型在各種任務中表現出色,但它們通常在復雜推理和與人類期望對齊方面表現不佳。微調對于解決這些限制至關重要,可以優化模型在特定任務上的表現并增強其推理能力。最初,使用監督微調(SFT),模型從標注數據集中學習任務特定的模式。然而,隨著推理挑戰的增加,強化學習(RL)和直接偏好優化(DPO)等方法提供了更有效的方法,使用獎勵模型更高效地將模型的輸出與類人推理對齊,促進更連貫、負責任和上下文感知的輸出。

4.1 優化預訓練LLM:監督微調 監督微調(SFT)是一種學習技術,它使用標注數據優化預訓練模型在特定任務或領域的能力,同時保留模型對預訓練知識的理解。雖然預訓練使模型能夠從大量非結構化數據中學習廣泛的通用特征,但微調通過將模型暴露于較小的、任務特定的數據集(具有清晰的輸入-輸出映射)來專門化模型。 SFT是提高LLMs推理能力的關鍵步驟,通過將其從通用系統適應為領域特定工具,使其能夠應用于下游任務。例如,像GPT、BERT和T5這樣的LLMs在大量文本數據上使用自監督學習進行預訓練,賦予它們廣泛的語言理解和生成能力。然而,它們的輸出并不總是與任務特定要求對齊。如果沒有微調,LLMs在某些推理任務上往往表現不佳,例如對象計數、衛星理解和工程問題回答。通過SFT,我們可以基于標注的任務特定數據集優化模型的輸出,從而部分解決這些挑戰。 然而,直接應用SFT可能無法充分探索模型在所需領域中的推理能力,特別是在需要更復雜決策或多步問題解決的任務中。CoT技術的引入[160]徹底改變了SFT過程,通過明確訓練模型在得出答案之前生成中間推理步驟。通過基于CoT的SFT,LLMs被鼓勵顯式生成中間推理步驟,從而增強其推理能力,以應對需要更結構化和有組織思維的任務。例如,ReasonBert[29]表明,使用推理鏈微調模型顯著提高了其在數學應用題和邏輯推理任務中的表現,通過結合逐步推理過程。另一項關鍵研究[80]探討了使用推理微調模型如何提高其可解釋性,并通過生成更透明的逐步思維過程減少復雜決策場景中的錯誤。通過基于CoT的微調,模型不僅提高了最終答案的準確性,還增強了其“思考”問題的能力,提供了對模型推理過程的更清晰見解。 盡管SFT方法多樣且表現優異,但它也存在一些局限性。首先,SFT嚴重依賴高質量的標注數據集,這些數據集的策劃成本高昂且耗時,特別是對于需要專家標注的利基領域或任務。其次,SFT可能導致災難性遺忘,即模型在微調過程中失去一些預訓練的通用知識,降低了其在微調領域之外的推理任務的實用性。最后,即使采用參數高效的方法,大規模模型的微調計算成本仍然很高,對資源有限的組織構成了挑戰。解決這些局限性需要仔細的數據集策劃、正則化技術以及探索替代方法,如提示調優或多任務微調,以平衡任務專業化和泛化。

4.2 優化預訓練LLM:強化學習 由于SFT對昂貴、高質量的標注數據集的高度依賴以及高計算成本,強化學習已成為訓練模型掌握推理過程的有力替代框架。與監督學習不同,RL使模型能夠通過試錯獎勵信號學習,發現實現特定目標的最佳策略。如圖2(a)所示,模型根據其當前狀態采取行動,并以獎勵信號的形式接收反饋。這種反饋指導模型隨時間更新其參數,優化累積獎勵。 經典強化學習:RL已成為LLMs發展的關鍵步驟。在RL框架中,LLMs的參數根據其行動的獎勵進行更新。具體來說,價值函數或Q函數根據獎勵模型的反饋進行更新,將行動結果的功勞完全歸因于其即時效果。這種方法簡化了框架,使其在概念上更直接,同時增強了模型有效響應的能力。目前,兩種關鍵方法主導了LLMs的RL訓練:人類反饋強化學習(RLHF)和AI反饋強化學習(RLAIF)。 Ouyang等人[104]使用RLHF將LLMs與人類意圖對齊。此外,通過在人類標注的示范和排名比較上微調GPT-3,他們開發了一個預測人類標注者偏好的獎勵模型。它有效地將訓練后的LLMs與人類偏好對齊,盡管規模較小,但在推理和指令遵循方面優于GPT-3。Bai等人[8]也利用RLHF創建了有用且無害的語言模型。遵循有用、誠實和無害的框架,他們對基礎模型進行微調,使用拒絕采樣訓練偏好模型,并通過人類反饋迭代精煉。這一過程產生了在NLP任務中表現出色并展現出強大倫理推理能力的AI助手。 為了減少對大規模人類標注數據集的依賴,Bai等人[9]提出了Constitutional AI,這是一個使用原則而非昂貴的人類反饋訓練AI助手成為有用和無害的框架。該過程包括兩個階段:監督學習和RLAIF。在監督階段,模型基于憲法原則批評和精煉其輸出,創建微調數據集。在RLAIF階段,模型生成自我評估以指導訓練,繞過對人類標注數據的有害性需求。Ramamurthy等人[114]專注于使用RL將LLMs與人類偏好對齊。他們引入了RL4LMs,一個用于基于RL的微調的庫,以及GRUE基準,該基準使用反映人類偏好的獎勵函數評估模型。為了解決訓練挑戰,他們提出了自然語言策略優化算法,通過約束標記采樣穩定訓練。這項工作為將RL集成到LLM微調中以改進對齊和性能奠定了堅實基礎。 直接偏好優化:經典RL方法依賴訓練獎勵模型以根據人類偏好對輸出進行評分。而DPO通過直接利用偏好數據簡化了這一過程,無需顯式獎勵模型。DPO不是優化復雜的獎勵函數,而是使用成對偏好比較,即指示人類偏好兩個輸出中哪一個的數據。這種直接方法簡化了學習流程,同時保留了基于RL方法對齊的好處,通常更簡單且更有效。Rafailov等人[112]引入了DPO,這是一個用于對齊語言模型的新框架,它通過簡單的分類損失直接優化策略以與人類偏好對齊。通過參數化獎勵模型以推導出封閉形式的最優策略,DPO消除了微調過程中采樣和廣泛超參數調優的需求。實驗表明,DPO在情感控制、摘要和對話生成等任務中匹配或超越了RLHF方法(如PPO),同時更穩定、計算效率更高,并且在生成推理輸出方面更有效。Amini等人[4]提出了帶偏移的直接偏好優化(ODPO),這是DPO的擴展,用于將語言模型與人類偏好對齊。ODPO通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。它在偏好差異中引入了偏移,與質量差異成比例。這種方法不僅改進了對齊,還增強了模型的推理能力,特別是在情感控制、毒性減少和摘要等任務中。實驗表明,ODPO在偏好數據有限的情況下實現了更好的對齊和負責任的行為。 總之,RL和DPO方法為培養LLMs的推理能力提供了一種直接且有效的方法。通過專注于每次行動后的即時獎勵,這些方法還將模型與人類偏好對齊。對短期反饋的強調簡化了學習過程,避免了跨長序列的信用分配的復雜性。這種簡化的方法特別適合實時應用和需要清晰、簡潔推理的任務,最終增強了LLMs提供連貫和倫理結果的能力。 4.3 使用結果獎勵模型增強多步推理 對于復雜的推理任務,如數學問題解決,LLMs需要執行多步推理(如思維鏈)以最終得出準確的解決方案。在這些任務中,獎勵反饋通常只有在所有推理步驟完成并得出最終解決方案后才能獲得。如圖2(b)所示,這被稱為結果獎勵模型(ORM)。在這種情況下,提高LLMs推理能力的關鍵在于根據結果獎勵區分中間推理步驟的正確性和重要性。 經典強化學習:ReFT[143]將PPO[121]方法從RLHF[104]應用于推理任務。基于結果獎勵模型,PPO中的價值函數能夠推斷中間推理步驟的貢獻。與監督微調相比,ReFT能夠學習更多樣化的推理路徑,在推理任務中表現出更強的泛化能力。然而,VinePPO[60]發現,使用ORM訓練的PPO中的價值網絡在識別中間推理步驟的價值時表現出顯著偏差,這是RL中一個眾所周知的挑戰,稱為信用分配問題。為了解決這個問題,VinePPO放棄了PPO中的價值網絡,轉而使用蒙特卡羅采樣方法計算價值函數的無偏估計。實驗結果表明,VinePPO在數學推理任務中始終優于典型的PPO。關鍵計劃步驟學習(CPL)是一種旨在通過在高層次抽象計劃中搜索來增強LLMs在推理任務中泛化能力的方法[150]。CPL使用蒙特卡羅樹搜索(MCTS)探索多步推理任務中的不同計劃步驟,并利用Step-APO學習關鍵計劃步驟。這種方法使模型能夠學習更多樣化的推理路徑,從而提高在各種任務中的泛化能力。隨后,模型迭代訓練策略和價值模型以進一步提高性能。在每次迭代中,策略模型生成計劃步驟和最終解決方案,而價值模型評估中間步驟的質量。由MCTS生成的訓練數據用于更新策略和價值模型。 直接偏好優化:在數學推理任務中,直接使用DPO[112]方法進行偏好優化由于偏好數據中存在冗長的推理步驟而效果不佳。Amini等人[4]引入了ODPO,它通過考慮響應之間的偏好程度而不是將所有偏好對視為相等來改進DPO。ODPO在數學推理任務中相比DPO取得了顯著改進。 總之,基于結果獎勵訓練的主要挑戰在于區分中間推理步驟的正確性和重要性。當前方法主要基于蒙特卡羅采樣或蒙特卡羅樹搜索,在估計這些中間步驟的重要性方面具有優勢,盡管搜索過程中的計算成本仍然很高。現有工作主要集中在數學或其他推理問題上,這些問題的最終解決方案可以輕松驗證。這些方法可以擴展到更廣泛的推理任務,包括那些解決方案難以驗證的任務。一種潛在的方法是學習基于人工標注數據的獎勵模型,并使用它來判斷最終解決方案的質量。基于獎勵模型提供的最終分數,可以使用蒙特卡羅采樣或搜索技術進一步提高性能。

4.4 使用過程獎勵模型增強多步推理

過程獎勵模型(PRM)基于強化學習代表了LLM推理的重大進步,強調評估中間步驟而不是僅僅關注最終結果。如圖2(c)所示,PRM的獎勵分布在每個推理步驟中,而不是集中在最終結果上。通過在整個推理軌跡中提供細致的反饋,PRM使模型能夠優化行為,使其更符合人類偏好和復雜任務要求。這種方法對于涉及順序決策的任務至關重要,其中中間步驟或決策對最終目標具有重要意義。我們探討PRMs的演變,并強調它們在通過提供復雜任務中的步驟級獎勵來改進推理方面的作用。 經典強化學習:一系列近期工作將PRMs應用于數學或邏輯推理,因為OpenAI的一項開創性工作[75]證明了過程獎勵的重要性。SELF-EXPLORE[55]使用PRMs通過識別和糾正“第一個坑”(即問題解決中的初始錯誤步驟)來增強數學推理。通過獎勵糾正這些錯誤的步驟,PRMs實現了無需大量人工標注的自監督微調。該模型通過利用步驟級細粒度反饋,在GSM8K和MATH等數學基準上實現了顯著的準確性提升。MATH-SHEPHERD[149]引入了一個PRM框架,用于數學推理任務中的逐步驗證和強化。通過自動化過程監督(使用MCTS啟發的方法),MATH-SHEPHERD消除了對人工標注的需求,同時確保了多步問題解決的高準確性。PRMs用于強化邏輯進展和正確性,從而在GSM8K和MATH等基準上提高了性能。DeepSeekMath通過組相對策略優化(GRPO)[128]集成了PRMs,這是一種優化步驟級獎勵的RL算法。PRMs用于增強數學推理和跨領域的推理一致性。通過專注于中間推理步驟,DeepSeekMath在多個基準上實現了最先進的性能,展示了PRMs在數學領域的強大能力。擴展自動化過程驗證器引入了過程優勢驗證器(PAVs),一種PRM變體,用于評估問題解決中的步驟級進展[123]。PAVs使用步驟級監督來提高搜索算法和強化學習的效率和準確性。通過專注于對正確解決方案有意義的進展步驟,PAVs在樣本效率、計算效率和推理準確性方面相比結果獎勵模型實現了顯著提升。這展示了細粒度過程獎勵在擴展LLM推理能力中的重要性。 交互式過程獎勵模型:PRMs還應用于交互任務,如對話和多輪問答。ArCHer采用分層RL方法,使用PRMs訓練代理處理多輪、長視野任務[198]。它實現了一個雙層系統:高層價值函數評估話語級獎勵,而低層PRM優化每輪內的逐標記生成。這種分層結構確保了更有效的信用分配,并允許對語言模型進行細致訓練,以處理多輪交互和推理任務。PRMs的使用使ArcPier能夠高效擴展,在代理任務中實現了顯著的樣本效率和性能提升。多輪偏好人類反饋強化學習[126]將PRMs集成到多輪強化學習中,以優化長期目標與人類反饋。多輪偏好優化(MTPO)算法比較整個多輪交互以生成偏好信號,其中PRMs用于分配逐步獎勵。這使得LLM代理能夠將行為與長期目標對齊,提高動態、多輪任務(如對話和戰略決策)的整體性能。 直接偏好優化:一些近期研究利用MCTS通過直接偏好優化[165, 17, 183, 16]實現多步推理任務的優化。例如,SVPO[17]使用MCTS自動標注多步推理任務的步驟級偏好。從學習排序的角度,它訓練一個顯式價值模型以復制隱式獎勵模型的行為。此外,SVPO將顯式價值模型與DPO集成,其中價值模型不僅幫助策略模型導航更高效的推理路徑,還指導偏好學習。然而,這些工作主要集中在首先收集偏好數據或訓練獎勵模型,然后基于靜態數據和預訓練獎勵模型執行策略優化。Xie等人[165]通過將數據收集和策略偏好優化集成到一個迭代過程中,推進了這些方法。這種方法可以被視為直接偏好優化的在線版本,其中更新后的策略迭代地用于通過MCTS收集偏好。 LLMs多步RL技術的演變反映了從稀疏結果反饋到詳細過程導向監督的轉變。PRMs現在成為LLM推理能力進步的核心,提供了細致的步驟級獎勵,推動了推理任務的顯著改進。未來的研究可能會專注于精煉這些模型并擴展其在不同任務領域的適用性。

4.5 強化微調 強化微調(RFT)[101]是OpenAI最近提出的一種技術,用于定制針對特定垂直領域的專家LLMs。目前,RFT仍處于研究計劃中,技術細節尚未完全公開。現有信息表明,RFT利用用戶提供的少量偏好數據以及一個評分模型來評估LLM的輸出。該技術能夠迭代優化LLM的多步推理能力。因此,RFT技術可以增強LLM在優化領域中通過類似問題推理的策略。 評分模型:RFT引入了評分模型的概念來評估LLMs的輸出。考慮到強化學習訓練通常需要獎勵模型提供反饋,評分模型可能類似于獎勵模型,將文本輸入(如問題和答案)轉換為推理質量的標量值。這表明評分模型可能是一個基于用戶提供的偏好數據訓練的獎勵模型,可能作為結果獎勵模型或過程獎勵模型運行[76]。 數據效率:在OpenAI的現場會議中,提到RFT可以在僅有幾十個用戶偏好數據的情況下在新領域中進行學習。這表明RFT能夠基于有限的偏好數據探索多樣化的推理路徑以解決任務。這種方法展示了極高的樣本效率,同時減輕了過擬合的風險[56]。 訓練穩定性:強化學習訓練的穩定性是一個眾所周知的難題,對其廣泛應用構成了重大挑戰。隨機種子的變化或某些超參數的調整會極大地影響RL的訓練結果。在RFT項目中,OpenAI宣布計劃通過API向公眾提供該技術,使用戶能夠使用自己的數據微調領域特定的專家模型。這一聲明可能表明RFT已經達到了足夠的穩定性,能夠可靠地使用RL技術微調語言模型。

5. 測試時擴展:從CoTs到PRM引導的搜索

5.1 通過提示引發深思熟慮的思考 除了通過強化學習等技術進行訓練時優化外,研究人員發現,測試時提示技術(如思維鏈和思維樹)可以進一步增強LLMs的能力[160, 153]。雖然簡單地要求模型直接回答通常會產生次優結果,但在測試時通過明確的推理過程引導它們可以顯著提高其性能[62]。這些提示策略在從數學推理到復雜決策任務的各種領域中顯示出顯著的有效性[173, 196]。結構化提示方法(如ReAct和Least-to-Most Prompting)的出現表明,LLMs可以從明確的思維過程組織中受益,從而產生更可靠和可解釋的輸出[189]。盡管這些方法通常會增加標記消耗和計算開銷,但它們為通過復雜的測試時干預提高LLM性能提供了有前景的方向,而無需依賴模型架構或訓練修改[172, 11]。這表明,通過復雜的測試時干預而不是僅僅依賴模型架構或訓練修改,可以有效地提高LLM的推理能力和解決方案準確性。 5.2 PRM引導的搜索 如前所述,PRM標志著從稀疏結果反饋到詳細過程導向監督的重大轉變。更重要的是,PRM還可以在測試時階段使用,從而進一步提升模型的推理能力。OpenAI o1系列模型是PRM高級應用的突出示例。新的測試時擴展定律表明,通過增加測試時計算資源,可以有效地增強推理能力,為LLMs的未來發展提供了明確的方向。我們介紹了一些在推理階段應用的方法,如圖3所示。紅色空心圓表示算法在推理階段探索過程中丟棄的推理路徑,綠色空心圓表示在探索過程中采用的推理路徑,綠色實心圓表示一旦找到正確答案,推理路徑的終點。 多數投票:多數投票是從密集測試時計算中生成一個最終答案的最直接策略。在推理過程中,每個推理軌跡都會對給定輸入產生一個預測。基本思想是選擇大多數推理軌跡一致的答案。然后聚合所有模型的預測,選擇出現次數最多的類別(“多數投票”)作為最終輸出:f?=argmaxf∑yIfinal_ans(y)=ff?=argmaxf∑yIfinal_ans(y)=f,其中II是指示函數,yy是每個評估軌跡。 樹搜索[15]:樹搜索是一種經典算法,通過遞歸構建搜索樹系統地探索不同選擇。它通常用于復雜決策問題,如棋盤游戲和規劃任務。蒙特卡羅樹搜索(MCTS)是最廣泛使用的樹搜索方法之一。它由四個主要步驟組成:選擇、擴展、模擬和回傳。通過逐步擴展搜索空間,MCTS逐步改進決策。樹搜索已經在一些LLM推理任務中應用,取得了顯著成功。例如,思維樹框架[172]使LLMs能夠考慮多個推理路徑,這些路徑被結構化為樹。它結合了自我評估以做出深思熟慮的決策,確定下一步的最佳行動方案。這種方法顯著提高了模型推理的性能。 束搜索[133]:束搜索是貪婪搜索的改進版本,通常用于生成任務中以選擇最佳輸出序列。其主要思想是在每個時間步從所有候選路徑中保留得分最高的前K條路徑(稱為束)以進行進一步擴展。與貪婪搜索不同,束搜索維護多個候選路徑,從而擴展搜索空間并提高生成質量。束搜索廣泛應用于LLM推理。例如,BART[71]使用束搜索作為其主要推理策略,展示了其在文本生成任務中的卓越效果。 前瞻搜索[134]:前瞻搜索是另一種有前景的方法,具有顯著增強LLM推理的潛力。它修改了束搜索中每個步驟的評分機制。前瞻搜索不是僅基于當前步驟的得分選擇最佳候選,而是通過向前模擬最多kk步來執行前瞻搜索。如果在向前模擬過程中達到解決方案終點,則提前停止。在前瞻搜索過程中,使用預訓練且凍結的預測獎勵模型對模擬的每個步驟進行評分。基于PRM在kk步模擬中的累積得分,決定保留或丟棄束分支。這種策略通過在每個評估步驟中引入更多上下文來改進決策。與束搜索相比,前瞻搜索增加了探索空間的深度,允許基于更遠的模擬決策結果判斷當前決策。然而,它也增加了對計算資源的需求,在計算資源有限的情況下可能導致性能下降。

6. 邁向大型推理模型的路徑

6.1 OpenAI o1系列的發展 2024年9月,OpenAI發布了o1,這是一個突破性的語言模型,代表了AI推理能力的重大進步,特別是在數學、編碼和科學問題解決等復雜任務中表現出色。2024年12月20日,OpenAI開放了o3的測試申請,o3是o1的升級版本[102],被認為具有博士級別的智能[7]。這些模型在各種具有挑戰性的基準測試中取得了顯著成果,包括在國際數學奧林匹克競賽中獲得金牌水平[73],并在物理、化學和生物問題中達到博士水平表現[48]。廣泛的評估通過系統分析其基本推理能力展示了o1系列的獨特推理模式。我們列出了現有研究的關鍵發現如下: 有效的知識整合:初步綜合評估[194]展示了o1在基本問題解決任務中的結構化分析方法和知識整合能力,通過逐步邏輯推理在競爭性編程中實現了83.3%的成功率,模型展示了清晰的能力,利用其知識分解復雜問題并遵循形式推導過程。模型的結構化理解和跨領域知識應用在放射學和芯片設計等專業領域進一步得到證明,其中準確的診斷和復雜電路分析需要整合多個領域概念。系統評估[68]定量驗證了這一模式,顯示在結構化分析思維和計算推理任務中達到人類水平的150%。這一優勢在需要跨領域知識整合的場景中尤為突出,例如將物理原理應用于生物系統或將統計方法與領域特定約束結合,表明其在知識綜合和應用方面的基本能力。 系統問題分解:o1在不同復雜程度的任務中保持了一致的表現,展示了在處理難度增加時的系統問題分解能力。在數學推理中,詳細研究[27]展示了其系統問題分解方法,通過結構化解決步驟在荷蘭數學B考試中接近滿分。模型展示了識別關鍵數學原理、構建形式證明并逐步驗證解決方案有效性的能力。這種一致性在更復雜的場景中得到了驗證,如對105個科學和數學問題的研究[26],隨著問題復雜性的增加,模型在概念深度和計算需求方面保持了高準確性。在編程任務中,這一模式通過系統調試[52]在QuixBugs基準上進一步得到證明,o1通過結構化三步方法(錯誤識別、根本原因分析和針對性修正)在不同復雜程度的錯誤中保持了一致表現。 復雜任務中的可靠和連貫推理:模型的推理在不同問題類型中有效適應,始終展示出各種任務中推理鏈的一致性。在規劃任務中,PlanBench評估[144]展示了其系統處理確定性和概率場景的能力,在約束滿足和狀態管理方面表現出顯著改進。模型在處理信息不完整和動態約束的問題時表現出特別優勢,在標準和罕見任務變體中保持了一致表現[94]。這種適應性表明其在不同問題表述中的強大泛化能力。復雜規劃研究[146]進一步展示了o1在長視野任務中保持推理連貫性的能力,有效管理擴展依賴鏈和上下文轉換。這在其多步規劃問題中的表現中得到證明,其中中間目標必須正確排序,依賴關系必須仔細管理,展示了其在時間推理和因果理解方面的高級能力。 大型推理模型的新擴展定律:實證研究表明,o1在訓練和推理階段展示了獨特的擴展模式。在訓練期間,模型的大規模強化學習算法教會其使用思維鏈進行高效思考[103]。研究[134]表明,通過優化的測試時計算策略,模型在各種推理任務中實現了顯著的性能改進。綜合評估[194, 68]揭示,o1的推理能力可以通過推理階段的高級計算分配有效增強,特別是在復雜問題解決場景中。這種方法的擴展約束與LLM預訓練有顯著不同,隨著思考時間的增加,性能持續提升[103]。這在編程任務中得到證明,允許每個問題提交10,000次使模型能夠顯著提高結果,即使沒有測試時選擇策略,得分也超過了金牌閾值。模型在訓練和推理階段有效利用額外計算資源的能力表明推理架構的根本進步,展示了在傳統方法可能需要顯著更大模型規模的場景中的特別優勢。

6.2 大型推理模型的開源嘗試 開源框架在開發高級推理能力方面也取得了重大進展。這些框架為研究人員和開發人員提供了寶貴的參考,旨在復制或近似專有模型(如OpenAI的o1)的推理優勢。在本節中,我們介紹了四個重要的開源項目,每個項目采用不同的策略來增強LLM推理(總結在表2中)。通過探索它們的獨特實現,我們旨在提供對強化LLM推理能力的多樣化方法的見解。 OpenR項目[145]:該項目聲稱是第一個探索OpenAI o1模型核心方法的開源框架,采用強化學習技術。OpenR復制的核心是構建逐步推理數據,其中獲得更精確和細粒度的反饋,而不是純粹依賴最終答案。通過從構建的搜索樹中選擇推理軌跡,采用自動化數據增強算法OmegaPRM[85]。基于對每個推理步驟進行監督的增強過程數據,進一步在預訓練的Qwen2.5-Math-7B-Instruct模型[168]上訓練過程獎勵模型。PRM可以直接部署在測試時計算中,與多數投票、最佳N或束搜索方法集成。它還可以用于在訓練后階段使用RL微調LLM。實驗證明了PRM在測試時計算和訓練后階段的有效性。

*Rest-MCTS[183]**:與分別訓練PRM和微調策略模型不同,他們將這兩個更新集成在一個相互自訓練循環中。基于類似設計的MCTS算法,預先收集過程獎勵作為PRM訓練的監督和策略模型訓練的推理軌跡。然后基于初始策略ππ和初始PRM值VθVθ開始迭代訓練過程。策略進一步迭代執行MCTS并生成解決方案,而值影響樹搜索過程。它們的更新相互補充迭代。

o1復制之旅項目[110]:該項目旨在通過專注于全面的訓練策略來復制OpenAI o1模型的推理能力,而不是徹底考慮兩個階段的改進實現。它強調了一個結構化的訓練圖,結合試錯、反思和回溯以構建深度因果推理。項目的核心是數據生成,設計了高質量的訓練示例以建模復雜推理路徑。使用旅程學習方法,o1復制之旅將模型暴露于不同的邏輯序列和修正中,鼓勵在訓練階段進行探索和適應性。然而,o1復制之旅在推理階段較為簡單,缺乏高級的訓練后技術,這限制了其在實時推理中的適應性。與具有動態推理優化的模型相比,這種對訓練的重視突出了其基礎方法。

LLaMA-Berry[185]:該項目專注于優化推理階段的能力,利用LLaMA-3.1-8B架構提供更復雜的實時推理調整。它采用了一種獨特的成對優化方法,將蒙特卡羅樹搜索與自我精煉(SR-MCTS)相結合,使模型能夠在推理過程中動態探索和精煉解決方案路徑。這種配置賦予LLaMA-Berry高度的適應性,使其能夠高效靈活地處理復雜、開放式的推理任務。該框架的一個關鍵組件是成對偏好獎勵模型(PPRM),它成對評估解決方案路徑,確保優先考慮高質量的推理路徑。LLaMA-Berry的增強Borda計數(EBC)然后整合這些偏好排名以指導模型的決策,進一步增強其推理階段的復雜性。這種強大的架構使LLaMA-Berry成為推理導向強化的領先示例,與O1復制之旅的訓練導向方法形成鮮明對比。

這四個開源框架不僅展示了強化推理的不同實現策略,還在提高對OpenAI o1模型的理解方面發揮了重要作用。它們共同擴展了開源社區可用的技術范圍,推動了開發復雜、透明和適應性強的推理模型的集體目標,使專有級別的能力能夠為公眾所及。

7. 其他測試時增強技術

除了PRM引導的搜索外,還有許多其他技術旨在通過更多的測試時計算增強LLM的推理能力。這些技術在不修改模型本身的情況下動態精煉推理結果。如圖4所示,諸如語言強化搜索、基于記憶的強化和代理系統搜索等方法展示了僅使用現成LLMs即可實現顯著的推理改進。表3總結了探索這些方法的代表性工作。雖然這些方法不利用PRM,但它們為未來研究探索混合模型以進一步推進推理能力提供了基礎。

7.1 語言強化搜索

語言強化搜索(VRS)利用LLMs的預訓練推理和語義能力來探索和優化解決方案空間。與傳統的強化學習或訓練密集型方法不同,VRS純粹通過測試時推理操作,使用迭代反饋循環來精煉解決方案,而無需額外訓練。通過利用LLMs中編碼的語義知識及其遵循復雜指令的能力,VRS提供了一種多功能的方法來導航多樣化的問題空間。這種推理驅動的框架在個體代理、多代理系統和具身代理中找到了應用,支持廣泛的任務,包括程序優化、協作決策和現實世界中的交互。本節通過這三個關鍵方面分析VRS,深入探討每個類別中呈現的方法論和獨特見解。 在個體代理設置中,VRS依賴迭代推理和反饋機制來在結構化問題空間中精煉解決方案。這種方法非常適合數學優化、符號推理和假設驅動發現等任務,其中系統精煉顯著改善了問題解決結果。數學發現研究展示了VRS如何將問題解決過程重塑為動態迭代循環。例如,對組合問題(包括帽集和在線裝箱)的研究突出了通過反饋驅動評估演變的程序化解決方案[115]。同樣,符號回歸研究將方程視為動態構造,迭代生成、評估和優化數學表達式[130]。這些方法展示了VRS如何在約束空間中導航,在效率和準確性上超越傳統優化技術。在科學發現中,VRS展示了其在整合推理與實證數據和模擬中的實用性。研究人員開發了通過綜合多樣化數據源進行生物醫學假設精煉的系統。例如,在腫瘤學中的應用使用迭代綜合來解決多尺度數據的復雜性[162]。在物理科學中,VRS用于通過模擬反饋精煉假設,推進分子設計和物理定律發現等領域[88]。這些發現強調了VRS在連接抽象推理與現實世界驗證中的作用,支持數據密集型和假設驅動型任務。啟發式優化中的反思過程進一步展示了VRS的靈活性。例如,研究人員探索了迭代生成和評估解決組合問題的策略[174]。這種方法專注于創建適應性超啟發式,通過反饋循環不斷精煉解決方案,從而在不同領域中有效泛化。總體而言,VRS應用迭代推理和反饋將抽象問題解決與現實世界應用連接起來,以精確和適應性解決數學、科學和優化中的挑戰。 在多代理系統中,VRS通過自然語言通信促進LLM代理之間的協作。這些系統利用共享推理和迭代精煉來應對復雜的解決方案空間,允許代理交換見解并實現共同目標。異構信息網絡(HINs)中的元結構發現展示了VRS在多代理上下文中的應用。最近的研究結合了LLM推理與進化優化來精煉元結構,增強了其可解釋性和預測準確性[20]。同樣,在社會經濟預測中,多代理系統整合知識圖譜和元路徑推理,為人口估計和經濟活動預測等應用提取跨任務見解。這種方法促進了LLM代理之間的協作,并提高了多任務環境中的性能[199]。因果發現也受益于VRS啟用的多代理框架。例如,使用LLMs作為推理代理的系統協作辯論并提出因果關系。通過結合統計方法和自然語言交互,這些框架生成準確的因果圖,同時解決因果關系中的歧義[69]。在金融決策中,VRS增強了層次協作。FINCON框架采用經理-分析師系統,通過概念性語言強化精煉金融策略。通過最小化冗余通信和改進策略精煉,FINCON展示了VRS在優化金融決策過程中的實用性[176]。通過迭代精煉和共享推理,VRS支持多代理系統應對復雜任務,如元結構精煉、社會經濟預測和金融決策。 在具身代理設置中,VRS用于通過整合推理與物理交互來解決現實世界任務,支持實驗室環境中的實驗規劃和執行等活動。這些系統將VRS擴展到動態環境,結合語義推理與實際實驗。例如,自主化學研究展示了使用LLM驅動的系統獨立設計、執行和精煉實驗[13]。這些代理整合了工具,如機器人液體處理器、光譜設備和基于網絡的研究模塊,以執行反應優化和化合物合成等任務。一個應用涉及優化鈀催化的交叉偶聯反應,其中系統使用自然語言提示確定條件、計算化學計量并自主執行實驗。當面對錯誤(如錯誤的模塊調用)時,系統通過參考文檔并迭代任務來修訂其方法。這種迭代過程展示了VRS如何在實驗工作流程中支持適應性和精確性。通過結合推理和實時反饋,具身代理展示了VRS在動態環境中精煉和優化復雜過程的能力。這些系統減少了人類干預,同時加速了科學發現,使其成為現實世界實驗和創新的寶貴工具。 總的來說,先前的研究展示了VRS在個體代理、多代理系統和具身代理中的適應性和有效性。利用LLMs的語義推理和迭代反饋能力,VRS無需額外訓練即可應對廣泛任務。從數學和科學背景中的結構化優化到多代理框架中的協作探索,再到現實世界應用中的動態實驗,VRS提供了一種統一的問題解決方法。VRS作為一個多功能框架,能夠在計算和物理領域中應對復雜挑戰,同時推動多樣化領域的進步。 7.2 基于記憶的強化 當應用于開放式任務(如創意寫作、復雜邏輯推理和開放世界游戲)時,解決方案空間往往會急劇擴展,通常變得無界或定義不清。這些任務通常需要與環境持續交互以獲取相關信息,使得簡單的解決方案空間搜索效率低下。為了解決這些挑戰,一些研究為LLM代理引入了外部記憶模塊。該模塊存儲了諸如觀察、過去試驗中的成功和失敗行動等信息。代理通過記憶作為語言強化學習的基礎,迭代探索其環境。通過這一過程,它們總結經驗,提取解決方案空間的可解釋高級見解,并在后續試驗中精煉其行動,從而提高推理性能。這些研究不僅關注探索外部解決方案空間,還強調LLM代理從記憶中發展對解決方案空間理解的內在能力。隨著代理通過環境探索積累記憶,其能力逐步增強并泛化到未見任務。具體來說,我們將該領域的研究分為以下三類。 經驗學習:此類方法鼓勵LLM代理簡單地模仿記憶中存儲的有利經驗,同時避免不利經驗。REMEMBERER[184]引入了一種半參數RL-LLM代理,該代理記錄過去的觀察-行動對,并使用傳統的離策略Q學習算法動態維護和更新每個觀察-行動對的Q值(預期未來獎勵)。當面臨新任務時,代理從記憶中檢索具有最高和最低Q值的相關行動,將這些作為鼓勵和勸阻示例納入提示中。記憶共享[39]利用多代理強化學習的概念來提高學習效率。多個代理在共享環境中并發執行任務,并將高質量的提示-答案對貢獻到集體記憶池中。每個代理可以從該池中檢索最相關的示例以促進少樣本學習。類似地,經驗共同學習[108]采用多代理框架,其中教師和助理代理在多步代碼生成過程中交替提供指令和解決方案。這種動態交換有助于提取捷徑以減少冗余并防止重復錯誤。當遇到新任務時,這些代理交替檢索相關記憶以改進上下文學習。 反思學習:雖然使用記憶作為少樣本示例簡單有效,但這種方法并未充分利用LLMs的語義理解能力。一些研究認為,LLM代理應直接反思存儲在記憶中的成功和失敗,明確總結潛在原因,并將這些見解作為指導方針。Reflexion[129]是該領域的開創性努力,基于任務反饋信號語義地反思成功或失敗的原因。它將反思文本和過去軌跡集成到提示中,以增強后續試驗中的決策能力。Expel.[190]結合模仿和反思,從記憶中檢索最相關的成功經驗,總結成功軌跡的模式,并通過成功-失敗對的比較識別見解。RAHL[138]受分層強化學習啟發,將記憶組織為目標模塊和子任務模塊,實現不同層次的反思和經驗總結。對于新任務,它檢索相關經驗以分別制定高級目標和低級子任務。 概念學習:明確反思顯著增強了LLMs的推理能力。在此基礎上,一些研究旨在使LLM代理發展超越特定任務的廣義“概念”,促進對環境和任務的更廣泛理解。這種泛化幫助代理從記憶中內化認知能力,并隨著記憶的增長不斷進化。例如,Agent-Pro[188]使代理能夠在基于卡片的游戲中建立關于自身和環境的信念。它不反思個別行動,而是評估這些信念的合理性和一致性,迭代精煉策略。類似地,Richelieu[44]使代理在軍事戰略游戲中理解環境。它從記憶中檢索最相關的狀態以制定計劃并評估可行性。通過自我對弈,它自主收集經驗,扮演所有玩家的角色以推進其知識。Self-Evolving GPT[40]受人類記憶機制啟發,為LLMs設計了一個基于記憶的自主學習框架。它對任務進行分類以確定相關記憶檢索,并識別存儲記憶與當前任務之間的差異以提取共享的通用經驗。此外,它生成未見任務進行練習,基于記憶檢索結果鞏固其知識。 7.3 代理系統搜索 代理系統的設計在利用LLMs進行許多下游任務中起著至關重要的作用。測試時增強技術的一個重要分支是利用LLMs搜索代理系統。該領域的研究可以分為三個搜索層次:提示層次、模塊層次和代理層次。請注意,這種方法并不旨在直接搜索解決方案空間,而是利用經驗數據優化代理系統本身,類似于元學習問題。我們總結了該領域的相關工作如下。 提示層次:“驗證和糾正”過程通過迭代整合有用的反饋經驗來改進提示。驗證信號可以來自外部反饋[43]、LLM的自我評估[90]和其他來源。另一方面,提示本身也值得搜索和優化。自動化提示工程,如進化提示優化[38]和元提示迭代[169],可以實現比手動提示更好的結果,但也引入了更多的標記消耗。 模塊層次:Agentsquare[125]提出使用LLM搜索代理系統的模塊化設計,其中模塊本質上是具有特定功能的提示塊,如規劃、推理、工具使用和記憶。這些代理模塊的基本單元具有標準IO接口,使它們能夠良好協作。模塊層次搜索的優勢在于它允許新代理通過模塊重組輕松重用經典代理設計,如CoT和ToT。此外,Aflow[186]通過代碼表示的邊連接LLM的不同調用節點。除了搜索方法外,評估搜索代理的性能也是必要的。用于評估代理性能的函數也可以由LLMs驅動,以提高搜索效率,同時緊密匹配其實際性能。 代理層次:ADAS提出利用LLMs搜索整個代理系統,這些系統在Python代碼空間中定義[53]。此外,多代理系統在共享環境中做出決策并實現目標。在多代理層次搜索中,關鍵方面包括代理創建、環境感知、行動、交互和系統進化。多代理系統的搜索在下游任務(如長故事創作)中取得了良好效果[54]。目前正在探索多代理系統的統一搜索和優化機制。GPTSwarm[200]通過圖優化增強了代理的協作能力。 代理系統搜索為代理提供了自我改進的能力,使其能夠在不改變LLM結構的情況下優化自身以增強推理能力。上述三個搜索層次具有廣闊的搜索空間。這三個搜索層次面臨的共同挑戰是提高搜索效率,降低搜索成本,并在確保搜索合理性的同時實現自動化。 7.4 總結 本節回顧的測試時增強技術目前尚未納入大型推理模型的實現中。然而,它們具有巨大潛力,通過更全面的測試時“思考”進一步提升LLMs的推理能力,促進LLMs在解決方案空間中戰略性地推理,利用過去經驗并動態優化代理工作流。因此,訓練LLMs掌握這些測試時技術代表了一個有前景的未來研究方向,有可能將LLMs從“推理者”提升為完全功能的“代理”。

8. 評估基準

設計一個穩健的基準對于記錄LLMs能力的改進至關重要。它還在選擇有前景的研究方向以進一步推進方面發揮著關鍵作用。在本節中,我們系統地回顧了LLM推理的流行基準,這些基準在圖5的分類中進行了總結。我們討論這些基準如下。 8.1 數學問題 數學推理已成為評估LLMs推理能力的關鍵測試平臺。數學推理基準的領域從基礎算術到高級大學數學,提供了系統評估數學理解和問題解決能力的不同方面的方法。 在數學應用題(MWP)領域,基準從基本算術運算逐步發展到日益復雜的問題解決場景。在基礎層面,MATH-401[177]等數據集通過401個精心構建的表達式評估純算術能力,而MultiArith[116]和AddSub[51]評估將簡單應用題轉化為數學運算(如加法或減法)的能力。在小學和高中層面,綜合數據集如GSM8K[24]和MATH[50]提出了更復雜的多步推理挑戰,GSM8K提供了8.5K個小學問題,MATH提供了12.5K個跨多個數學領域的問題,難度逐漸增加。 高級數學能力的評估主要通過競賽和專門測試數據集進行。CHAMP[92]和ARB[5]等集合提出了競賽級別的問題,需要復雜的問題解決策略,而MATHQA[5]則結合了GRE和GMAT考試中的標準化測試問題。在最高級別,FIMO[78]等數據集挑戰模型解決國際數學奧林匹克問題,測試自動化數學推理的極限。 幾何推理代表了一個需要空間理解和形式數學證明的獨特類別。Geometry3K[82]和GEOQA[19]等數據集提供了專門的幾何問題,而UniGEO[18]提供了一個統一的幾何推理任務框架,專注于計算和證明。這些基準特別有價值,用于評估模型連接視覺和數學推理的能力。 定理證明和形式數學領域已經發展到包括嚴格的評估框架。MINIF2F[193]和LeanDojo[170]專注于與Lean定理相關的形式數學證明,而THEOREMQA-MATH[23]則考察數學定理的理解。TRIGO[166]和PISA[57]等專門數據集解決了數學推理的特定領域,如三角學和形式證明系統。 最后,跨模態數學推理已成為一個關鍵領域,反映了數學問題在現實世界中的多樣化呈現方式。MATHVISTA[81]和CHARTQA[93]通過圖表和圖表評估視覺數學推理,而TABMWP[83]和MultiHiertt[192]評估模型處理表格和文本數據的能力。SciBench[151]彌合了純數學與科學應用之間的差距,測試了LLMs在更廣泛科學背景下的數學推理能力。 8.2 邏輯問題 建立在數學推理能力之上,系統邏輯推理能力是評估LLMs認知能力的另一個基本標準。雖然數學推理側重于定量操作和形式證明,但邏輯推理涵蓋了更廣泛的推理能力,包括得出有效結論、識別模式和生成跨多樣化上下文的合理解釋。根據Luo等人[86]的分類,邏輯推理可以分為三種主要類型:演繹推理、歸納推理和溯因推理。每種類型代表了一種獨特的認知過程,對于全面邏輯分析至關重要,同時在認知評估中保持相互聯系。 演繹推理,也稱為基于前提的推理,涉及從一般原則中得出特定結論,具有絕對確定性。例如,給定一組關于實體之間關系的規則,模型必須確定哪些特定關系必須為真。ProofWriter[140]是這一類別的典型代表,要求模型從給定前提構建明確的邏輯推導。其他基準,如FOLIO[46]和PrOntoQA[119]評估自然語境中的一階邏輯推理,WaNLI[77]引入了日益復雜的評估標準,包含107,885個示例。 歸納推理強調從特定觀察中識別模式并推廣到更廣泛的原則[47]。這涉及識別潛在規律并將其擴展到新情況,處理概率而非確定性。BigBench[136]包含眾多專門組件,用于檢查高級模式推理能力。此外,CLUTTR[132]基準系列通過不同復雜度的關系模式評估這一能力。 溯因推理,也稱為解釋性推理,指的是為一系列觀察或事實形成最可能解釋的過程,盡管結論并不保證確定性[34]。這種推理類型測試模型如何處理信息不完整的場景,通過生成合理的解釋。ααNLI[99]基準通過敘事完成任務實現了這一點,模型必須選擇給定情況的最可能解釋。AbductionRule[175]系列提供了跨不同領域的結構化評估框架,具有特定變體用于動物相關和人物相關的推理場景。ααARCT[100]特別考察了選擇和證明合理解釋以及論證理解的能力。 8.3 常識問題 常識推理仍然是NLP中的一個重要挑戰,旨在評估LLMs理解和應用日常常識知識的能力。有各種基準針對常識推理任務的不同維度。例如,CommonsenseQA[141]要求模型回答基于常識知識庫的推理問題。 SocialIQA[118]專注于社交互動常識推理,圍繞社交場景中的因果推理展開。相比之下,SWAG[178]和HellaSwag[179]等數據集引入了對抗性文本推理任務,模型必須基于上下文線索預測事件的最可能延續,從而增加任務復雜性。對于物理常識推理,PIQA[12]和PHYRE[10]等基準專注于評估模型對日常物理任務和交互推理場景的理解。PIQA主要使用問答任務,而PHYRE強調交互物理模擬。類似地,WinoGrande[117]在Winograd Schema Challenge的基礎上引入了更大規模的數據集和更復雜的消歧任務,以測試語義理解和共指解析能力。 其他工作,如OBQA[95]和CConS[63],探索了模型在反常識上下文中的表現,突出了當前模型在隱式推理和背景知識利用方面面臨的挑戰。最近,綜合基準如MMLU[49]和關鍵研究如FactCC[66]進一步分析了LLMs的常識推理和事實推理。這些基準為評估和改進語言模型在多樣化常識推理任務中的表現提供了寶貴的視角。

8.4 代碼問題 代碼生成基準的發展對于評估LLMs在編程任務中的推理能力至關重要。這些基準評估模型在生成準確、高效和可靠代碼方面的熟練程度,涵蓋各種領域。例如,ODEX[155]引入了一個執行驅動的評估框架,用于開放域代碼生成,強調運行生成代碼以驗證其正確性和功能的重要性。 在現實世界場景中,SWE-bench[58]專注于真實的GitHub問題,挑戰模型解決實際軟件工程問題。在數據科學領域,DS-1000[67]提供了一個基準,包含真實且可靠的數據科學代碼生成任務,使評估模型處理復雜數據操作和分析的能力成為可能。此外,APPS基準[49]通過評估模型在多樣化編程問題上的表現來衡量編碼挑戰能力,反映了競爭性編程和技術面試中的挑戰。 MBPP[6]專注于程序合成問題,評估模型根據給定規范生成正確和高效代碼的能力,從而有助于理解LLMs在自動化代碼生成中的能力。HumanEval[21]通過提供一組Python編程問題來評估經過代碼訓練的LLMs,每個問題都提供了函數定義和附帶文檔,要求模型生成正確且功能性的代碼解決方案。 8.5 代理問題 基于代理的基準的出現徹底改變了我們在交互環境中評估LLMs作為獨立代理的能力。這些復雜的評估框架評估了跨多樣化場景的關鍵能力,包括決策、推理和環境交互。 WebArena[197]提供了一個實用的網絡環境,用于構建和測試自主代理,使評估LLMs的網絡導航和交互技能成為可能。類似地,Mind2Web[28]旨在開發能夠在多樣化網絡任務中操作的通才代理,強調在動態在線環境中的適應性。 在電子商務設置中,WebShop[171]引入了一個平臺,用于可擴展的現實世界網絡交互,專注于能夠執行在線購物等任務的接地語言代理,從而測試模型的實際應用能力。為了橋接文本和具身環境,ALF-World[131]將基于文本的輸入與交互學習場景對齊,促進了評估模型在不同模態之間轉移知識的能力。 綜合評估框架如AgentBench[79]和AgentGym[164]已被開發用于系統評估作為代理的LLMs。AgentBench包括多樣化環境以評估推理和決策技能,而AgentGym專注于在多樣化設置中進化LLM代理,強調適應性和學習效率。此外,AgentBoard[87]提供了一個分析平臺,用于評估多輪LLM代理,提供了對其在擴展交互中的表現的見解,并突出了持續推理任務中的改進領域。

  1. 討論 9.1 近期進展的啟示 后訓練階段的擴展定律:OpenAI o1系列的啟示導致了對預訓練/后訓練/推理階段的新理解。特別是,它涉及在后訓練階段引入自對弈強化學習和高質量思維鏈標注數據的過程獎勵學習。進一步,它擴展到后訓練階段的擴展定律,這為訓練階段擴展定律的進一步發展提供了啟示。正如我們所知,預訓練和訓練階段的擴展定律導致了流行LLMs的成功,伴隨著訓練數據和計算資源的巨大投資。然而,它現在達到了瓶頸,因此,后訓練階段的擴展定律可能是大型語言模型下一階段發展的驅動力。此外,LLM驅動的代理[163]也展示了通過精心設計的工作流實現巨大潛力,即使推理能力尚未得到強化。因此,關于資源消耗和性能是否會在LLM代理中表現出類似的擴展定律仍然是一個開放問題,這可能是進一步增強LLM在現實世界應用中的潛力。 通過搜索生成高質量數據:OpenAI o1系列核心技術人員披露的技術思想以及當前嘗試復現OpenAI o1的開源工作都將高質量數據(包括CoT數據)的生成視為關鍵點,盡管采用了不同的方法,如蒙特卡羅樹搜索、LLM生成等。也就是說,大型推理模型的發展達到了一個階段,高質量的過程獎勵數據比一般預訓練數據規模更為重要。同樣,如上所述,這可能啟發我們在LLM代理中參考這些相關方法,首先進行高質量數據生成,然后增強慢速推理的學習以及能力的獲取。 9.2 慢思考與推理 即使OpenAI o1系列在工程層面的突破仍然未知,從理論上和技術上看,其突破目前似乎主要在于慢思考數據的后訓練學習。此外,人類認知科學中的“系統1 + 系統2”已被反復提及,但基于大型模型實現它的想法不斷更新,主要仍停留在借鑒慢思考概念的階段。也就是說,人類大腦的“系統1 + 系統2”機制指導了LLMs的設計,但這種指導仍然非常有限。換句話說,對人類大腦的模仿僅停留在系統級設計,而不是非常詳細的技術。人類慢思考的復雜機制及其益處仍然顯示出支持LLMs下一級推理能力的高潛力。為了實現這一點,慢思考的領域知識應被用于相關的設計中,如推理數據生成、獎勵函數、學習過程等。 到目前為止,關于LLMs慢思考的理論分析尚未出現真正具有代表性和重要性的工作。生成式人工智能是如此神秘,以至于理解LLMs也需要一些技巧或特殊技術,例如用于理解LLM幻覺的新指標[37]。為了理解慢推理能力,我們可能也需要進入理論分析的領域。以OpenAI o1 Preview和OpenAI o1 Mini兩個版本為例,它們的主要區別在于CoT推理階段的思考成本和深度,然而它們在文本生成、代碼生成和數學問題解決等任務中表現出顯著差異。LLMs表現出的特殊推理特性也啟發我們設計任務自適應的使用和應用。具體來說,將推理機制與不同任務中的表現聯系起來,可能會支持更多有趣的見解。 9.3 下游應用與開放問題 正如本文所指出,推理增強技術的進展非常迅速。推理能力不僅限于這些流行基準任務中的表現,還體現在更廣泛的下游應用中。例如,FunSearch工作[115]展示了在難以提供解決方案但驗證速度快的任務中的通用能力。在各個領域中可能存在許多具有類似特征的任務,例如城市規劃、物流調度等。一個有趣的問題是,當前研究中是否存在許多互補的問題,這些問題難以驗證,但推理過程較為簡單。通過結合LLMs和外部評估器,可能進一步驗證某些答案的質量,或者我們可以使用這些經過評估的答案來訓練獎勵模型。

10. 結論

LLMs的近期發展顯著提升了其類人推理能力。通過引入“思維”作為中間步驟的概念,利用強化學習技術進行訓練時擴展,以及使用搜索算法進行測試時擴展,為大型推理模型奠定了基礎。這些模型能夠應對日益復雜的認知任務,OpenAI的o1系列便是其中的典范。這一領域的持續進展有望重塑我們對語言的理解,并推動AI在解決現實世界問題中的應用。

付費5元查看完整內容

摘要—終身學習,也稱為持續學習或增量學習,是推進人工通用智能(AGI)的關鍵組成部分,通過使系統在動態環境中持續適應。盡管大規模語言模型(LLM)在自然語言處理領域展現了出色的能力,但現有的LLM智能體通常是為靜態系統設計的,缺乏根據新挑戰隨時間適應的能力。本調查是首個系統總結將終身學習納入基于LLM的智能體的潛在技術的文獻。我們將這些智能體的核心組件分為三個模塊:感知模塊,用于多模態輸入的集成;記憶模塊,用于存儲和檢索不斷發展的知識;以及行動模塊,用于與動態環境的實際互動。我們強調這三個支柱如何共同實現持續適應,緩解災難性遺忘,并提高長期性能。本調查為從事基于LLM智能體的終身學習能力開發的研究人員和從業人員提供了一條發展路線圖,提供了關于新興趨勢、評估指標和應用場景的見解。相關文獻和資源可通過以下鏈接獲取:

//github.com/qianlima-lab/awesome-lifelong-llm-agent.

關鍵詞—終身學習,持續學習,增量學習,大規模語言模型,智能體,人工通用智能(AGI)

1 引言

“智慧是適應變化的能力。” ——斯蒂芬·霍金

終身學習[1],[2],也稱為持續學習或增量學習[3],[4],已成為智能系統發展的關鍵焦點。如圖1所示,終身學習近年來吸引了越來越多的研究關注,它在使這些系統能夠持續適應并不斷改進方面起著至關重要的作用。正如Legg等人[5]所指出的,人的智能本質上是快速適應廣泛環境的能力,這突顯了人工智能系統展現同樣適應性的需求。終身學習指的是系統在避免遺忘已學知識的同時,獲取、整合和保持新知識的能力。對于那些在動態復雜環境中運行的系統,尤其重要,因為這些環境中常常出現新的任務和挑戰。與傳統的機器學習模型不同,后者通常在固定數據集上進行訓練并優化以執行特定任務,終身學習系統則被設計為能夠不斷演變。它們隨著遇到新情境而積累新知識并持續完善其能力。 盡管終身學習具有潛力,但目前人工智能的進展與終身學習的實際應用之間仍存在顯著的差距。雖然人類能夠自然地整合新知識并保留舊知識,但當前的人工智能系統在終身學習方面面臨兩大挑戰:災難性遺忘[6]和可塑性喪失[7],[8]。這些挑戰形成了穩定性與可塑性困境[9]。一方面,災難性遺忘指的是當系統學習新任務時,會忘記之前學到的信息,特別是在環境發生變化時尤為突出。另一方面,可塑性喪失則指系統無法適應新任務或新環境。這兩者代表了學習譜系的兩個對立端:靜態系統避免遺忘,但缺乏適應能力;而注重適應的系統則面臨遺忘過去知識的風險。克服這一困境是推動人工智能發展的關鍵,也是實現人工通用智能(AGI)[5]的基礎性挑戰。

1.1 構建終身學習LLM智能體的動機

近年來,大規模語言模型(LLM)[11],[12]的進展顯著改變了自然語言處理領域。像GPT-4[12]這樣的模型通過學習海量的文本數據,能夠處理并生成類人文本。它們在文本生成、機器翻譯和問答等任務中表現出色,得益于其理解復雜語言模式的能力。然而,傳統的LLM[11],[12]在訓練完成后是靜態的,這意味著它們無法在部署后適應新任務或環境。它們的知識是固定的,且無法在不重新訓練的情況下整合新信息,這限制了它們在動態現實場景中的應用。與此相比,LLM智能體代表了更高級的人工智能形式。不同于標準的LLM,這些智能體[13],[14]是能夠與環境互動的自治實體。LLM智能體能夠感知多模態數據(例如文本、圖像、傳感數據),將這些信息存儲在記憶中,并采取行動影響或響應其周圍環境[15]–[17]。它們被設計為不斷適應新情境,隨著與環境的互動和經驗的積累,智能體的決策能力得以不斷提高。圖2和圖3提供了相關示意圖。

將終身學習融入LLM智能體的動機源于開發能夠不僅適應新任務,還能在廣泛的動態環境中保留并應用先前知識的智能系統的需求,這與Legg等人[5]將智能定義為快速適應廣泛環境的觀點相契合。目前,現有的LLM智能體通常被開發為靜態系統,限制了它們在面對新挑戰時的演變能力。此外,大多數關于LLM的終身學習研究[1],[4]集中于處理不斷變化的數據分布,而非與環境進行互動。例如,通過持續微調LLM以適應特定領域的指令[1]。然而,這些方法仍將LLM視為靜態黑箱系統,并未解決LLM在真實世界環境中進行互動學習的實際需求。圖2比較了傳統的終身學習范式與本調查中討論的、LLM智能體與動態環境互動的新范式。 在現實世界的應用中,LLM智能體需要適應多樣的環境,如游戲、網頁瀏覽、購物、家庭任務和操作系統,而無需為每個新情境設計單獨的智能體。通過引入終身學習能力,這些智能體可以克服這一局限性。它們能夠持續學習并存儲來自多種模態(如視覺、文本、傳感數據)的知識,使其在環境變化時能夠進行實時適應和決策[18]–[21]。將終身學習融入LLM智能體,可以釋放它們在動態現實應用中的全部潛力[22],[23]。因此,這些智能體能夠不斷演變、獲得新知識,并保持關鍵信息,從而增強其適應性和多功能性。這個持續學習的過程對那些挑戰不斷出現的環境尤為重要,如自主機器人、互動助手和自適應決策支持系統[14]。圖4展示了一個終身學習的LLM智能體示意圖。

1.2 本調查的范圍

本調查提供了關于基于LLM的智能體終身學習系統的關鍵概念、技術和挑戰的全面概述。作為首個系統總結將終身學習納入LLM智能體的潛在技術的文獻,本調查將重點回答以下研究問題(RQ): RQ1:為終身學習設計的LLM智能體的核心概念、開發流程和基本架構是什么?(第3節) RQ2:LLM智能體如何持續感知和處理單模態和多模態數據,以適應新環境和任務?(第4、5節) RQ3:什么策略可以減輕災難性遺忘并保留已學知識?(第6、7、8、9節) RQ4:LLM智能體如何在動態環境中執行各種動作,如扎根、檢索和推理?(第10、11、12節) RQ5:評估終身學習在LLM智能體中表現的評估指標和基準是什么?(第13節) RQ6:終身學習LLM智能體的現實應用和使用案例是什么?它們如何從持續適應中受益?(第14節) RQ7:開發LLM智能體終身學習面臨的關鍵挑戰、局限性和未解問題是什么?(第15節) 通過回答這些研究問題,本調查作為理解LLM智能體中終身學習的設計、挑戰和應用的逐步指南。它回顧了最前沿的技術,并突出了新興趨勢和未來的研究方向。

1.3 本調查的貢獻

據我們所知,這是首個系統回顧終身學習與LLM智能體交叉領域最新進展的調查。本調查的主要貢獻如下:

  • 基礎概述:提供了實現LLM智能體終身學習的基礎概念和架構的全面概述。
  • 深入的組件分析:分析了感知、記憶和行動模塊等關鍵組件,這些組件使LLM智能體能夠進行適應性行為。
  • 全面討論:討論了現實世界應用、評估指標、基準,以及終身學習LLM智能體領域的關鍵挑戰和未來研究方向。

1.4 調查結構

本調查的結構如下:第2節回顧了關于LLM智能體和終身學習的相關調查和文獻;第3節介紹了為終身學習設計的LLM智能體的基礎概念、開發流程和整體架構;第4和第5節從感知角度討論了終身學習LLM智能體的設計,分別聚焦于單模態和多模態方法;第6、7、8和9節從記憶角度探討了LLM智能體的設計,涉及工作記憶、情節記憶、語義記憶和參數記憶;第10、11和12節從行動角度探討了LLM智能體的設計,包括扎根動作、檢索動作和推理動作;第13節介紹了評估終身學習LLM智能體表現的評估指標和基準;第14節深入討論了終身學習LLM智能體的現實應用和使用案例;第15節提供了實踐洞察并概述了未來的研究方向;最后,第16節總結了本調查。

終身學習,也稱為持續學習或增量學習,基于這樣一個理念:智能系統應該像人類一樣,持續地獲取、完善和保留知識,貫穿整個生命周期。與傳統的機器學習方法不同,傳統方法假設數據集是固定的、靜態的,而終身學習框架則面臨數據和任務隨時間演變的現實,模型必須在不遺忘已掌握技能的前提下進行適應。圖5展示了終身學習發展的示意圖。

終身學習的基于LLM的智能體架構旨在持續適應、整合并優化其在一系列任務和環境中的行為。在本小節中,我們識別了三個關鍵模塊——感知、記憶和行動——它們共同支持終身學習。這個劃分遵循了先前工作中提出的框架[14],但有一個顯著的不同:我們沒有保留“腦”模塊,而是采用了[14]中提出的“記憶”模塊,具有更清晰的功能性和改進的模塊化結構。 每個模塊相互作用,確保智能體能夠處理新信息、保留有價值的知識并選擇適應當前情境的合適行動。這三個模塊的設計理念來源于智能體的需求:(i) 感知和解讀不斷變化的數據,(ii) 存儲和管理來自過去經驗的知識,(iii) 執行適應變化環境的任務。 這三個模塊構成了一個動態反饋回路:感知模塊將新信息傳遞給記憶模塊,在記憶模塊中進行存儲和處理。記憶模塊隨后引導行動模塊,影響環境并為未來的感知提供信息。通過這一持續循環,智能體不斷完善其知識,提升適應性,最終提高其在復雜動態環境中的表現。

接下來,我們將詳細描述每個模塊,分析其設計如何貢獻于智能體的終身學習能力。圖6展示了整體架構的示意圖,圖7總結了后續章節的組織結構。

付費5元查看完整內容

摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。

關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。

1 引言

**1.1 背景

智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。

**1.2 語言作為生物系統通用智能的基礎

1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具

除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。

**1.3 人工通用智能的概念

雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。

**1.4 工作的范圍和大綱

在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。

付費5元查看完整內容

摘要

語音合成(TTS),也稱為文本轉語音,是一項重要的研究領域,旨在從文本生成自然的語音。近年來,隨著工業需求的增加,TTS技術已從簡單的人類語音合成發展到可控語音生成。這包括對合成語音中各種屬性(如情感、韻律、音色和時長)的細粒度控制。此外,深度學習領域的進展,尤其是擴散模型和大語言模型,極大地提升了可控TTS的效果。本文全面綜述了可控TTS的研究進展,涵蓋了從基本控制技術到利用自然語言提示的方法,旨在為當前的研究狀態提供清晰的理解。我們探討了通用的可控TTS流程、面臨的挑戰、模型架構和控制策略,并提供了現有方法的全面分類。此外,我們還詳細總結了數據集和評估指標,并探討了可控TTS的應用和未來發展方向。據我們所知,本文是首次對新興的可控TTS方法進行全面綜述,既可以為學術研究人員提供有價值的資源,也可為行業從業者提供參考。

關鍵詞

文本轉語音、可控TTS、語音合成、TTS綜述、大語言模型、擴散模型

I. 引言

語音合成(TTS),也稱為文本轉語音,是一項長期發展的技術,旨在從文本生成類人語音[1][2],并廣泛應用于我們的日常生活中,如健康護理[3][4]、個人助手[5]、娛樂[6][7]和機器人[8][9]等領域。近年來,隨著大語言模型(LLM)驅動的聊天機器人(如ChatGPT[10]和Llama[11])的興起,TTS技術因其自然性和便捷性,成為了人機交互中備受關注的技術。與此同時,能夠對合成語音的屬性進行細粒度控制(如情感、韻律、音色和時長)已成為學術界和工業界的熱點研究方向,因其在多種應用中的廣泛潛力。 在過去的十年里,深度學習[12]取得了顯著進展,尤其是GPU等計算資源的指數級增長[13],促使TTS領域涌現出大量優秀的研究成果[14]–[17]。這些方法不僅能夠生成更高質量的語音[14],還能夠對生成的語音進行細粒度的控制[18]–[22]。此外,一些最新的研究開始嘗試在多模態輸入(如面部圖像[23][24]、卡通[7]和視頻[25])的支持下合成語音。隨著開源大語言模型(LLMs)[11][26]–[29]的快速發展,部分研究者提出了通過自然語言描述生成可控語音的新方法[30]–[32],開創了生成定制語音的新途徑。 此外,將語音合成與LLMs結合也成為近年來的熱門研究方向[33]–[35]。隨著TTS方法的不斷發展,研究者迫切需要對當前的研究趨勢,特別是可控TTS,進行全面的了解,以便在這一快速發展的領域中識別未來可能的研究方向。因此,迫切需要一篇關于TTS技術的最新綜述。盡管已有幾篇綜述涵蓋了基于參數的方法[36]–[41]和基于深度學習的TTS[42]–[48],但這些綜述大多忽視了TTS的可控性問題,且沒有覆蓋近年來的最新進展,如基于自然語言描述的TTS方法。 本文提供了一篇全面且深入的綜述,重點介紹現有及新興的TTS技術,特別是可控TTS方法。圖1展示了近年來可控TTS方法的發展,展示了其核心框架、特征表示和控制能力。本文的其余部分將簡要對比本綜述與先前的研究綜述,概述可控TTS技術的發展歷史,并從早期的里程碑到最新的先進技術,介紹可控TTS的研究進展。最后,我們介紹了本文的分類和組織結構。 A. 與現有綜述的比較

已有幾篇綜述論文回顧了TTS技術,涵蓋了從早期方法到最近的進展[36][37][40][49]。然而,本文是首次專門關注可控TTS。與以往的研究綜述相比,本文的主要區別如下: * 不同的范圍。Klatt等人[36]提供了關于共振峰、拼接和發音TTS方法的首個全面綜述,重點關注文本分析。進入2010年代初,Tabet等人[49]和King等人[40]探索了基于規則、拼接和HMM的方法。隨著深度學習的出現,許多基于神經網絡的TTS方法應運而生。Ning等人[43]和Tan等人[42]分別對基于神經網絡的聲學模型和聲碼器進行了詳細的綜述,Zhang等人[50]則介紹了基于擴散模型的TTS技術的首個綜述。然而,這些研究對TTS系統的可控性討論較少。為填補這一空白,本文首次從可控性的角度對TTS方法進行了全面綜述,深入分析了模型架構和合成語音的控制策略。 * 貼近當前需求。隨著硬件(如GPU)和人工智能技術(如變換器、LLMs、擴散模型)的快速發展,TTS技術對可控性需求的迫切性日益增強,尤其在電影制作、游戲、機器人和個人助手等行業中有廣泛應用。盡管這一需求日益增長,但現有的綜述未充分關注TTS技術中的控制方法。為填補這一空白,本文對當前的可控TTS方法及其面臨的挑戰進行了系統分析,并全面理解了該領域的研究現狀。 * 新見解與方向。本文通過全面分析可控TTS系統中的模型架構和控制方法,提出了新的見解。此外,我們深入探討了各種可控TTS任務中的挑戰,并探討了“我們距離實現完全可控的TTS技術有多遠?”這一問題,分析了當前TTS方法與工業需求之間的關系和差距。基于這些分析,我們確定了未來TTS技術研究的有前景的方向。

表I總結了代表性綜述和本文在主要關注點和發布時間上的比較。 B. 可控TTS的發展歷史

可控TTS旨在控制合成語音的各個方面,如音高、能量、速度/時長、韻律、音色、情感、性別或高層次風格。本小節簡要回顧了可控TTS從早期方法到近年來的最新進展的歷史。 * 早期方法。在深度神經網絡(DNNs)流行之前,可控TTS技術主要基于基于規則、拼接和統計的方法。這些方法能夠提供一定程度的定制和控制,盡管受限于底層模型和可用計算資源的局限性。

基于規則的TTS系統[51]–[54],如共振峰合成,是早期語音生成的主要方法之一。這些系統通過手工設計規則模擬語音生成過程,控制音高、時長和共振峰頻率等聲學參數,允許通過調整規則顯式地操控韻律和語音的音素細節。 1. 拼接式TTS[55]–[58],在1990年代末和2000年代初主導了TTS領域,通過將預錄音的語音片段(如音素或雙音素)拼接在一起合成語音[59]。這些方法通過拼接過程中調整音高、時長和音量來改變韻律,也可以通過選擇不同說話人的語音單元來實現有限的聲音定制。 1. 參數化方法,尤其是基于HMM的TTS[60]–[65],在2000年代末逐漸成為主流。這些系統通過建模語言特征和聲學參數之間的關系,為控制韻律、音高、語速和音色提供了更多靈活性。一些HMM系統還支持說話人適應[66][67]和語音轉換[68][69],在一定程度上實現了語音克隆。此外,一些方法還能夠有限地控制情感[60][70]–[72]。這些方法相比拼接式TTS占用更少的存儲空間,并且能提供更平滑的語音單元過渡。 * 基于神經網絡的合成。隨著深度學習的出現,基于神經網絡的TTS技術為該領域帶來了巨大的進步,使得語音合成更加靈活、自然和富有表現力。與傳統方法不同,基于神經網絡的TTS通過DNN建模輸入文本和語音之間的復雜關系,從而實現對各種語音特征的細粒度控制。早期的神經TTS系統如WaveNet[73]和Tacotron[74]為可控性奠定了基礎。

韻律控制:韻律特征如節奏和語調的控制對于生成富有表現力和語境適應的語音至關重要。基于神經網絡的TTS模型通過顯式條件化或學習的潛在表示來實現韻律控制[15][75]–[78]。 1. 說話人控制:通過說話人嵌入或適應技術,基于神經網絡的TTS在說話人控制方面也得到了顯著提升[79]–[82]。 1. 情感控制:情感可控的TTS[20][22][31][32][83]已經成為熱門研究話題,得益于DNN強大的建模能力,能夠合成具有特定情感色彩(如快樂、悲傷、憤怒或中性)的語音

基于LLM的合成

在本節中,我們特別關注基于 LLM(大語言模型) 的語音合成方法,因為與其他基于神經網絡的TTS方法相比,LLM具有更強的上下文建模能力。LLM(如 GPT [97]、T5 [99] 和 PaLM [100])已經通過其生成連貫的、上下文感知的文本的能力,革新了各種 自然語言處理(NLP) 任務。近年來,LLM的應用已經擴展到 可控TTS技術 中 [17],[101]–[104]。例如,用戶可以通過描述語音的特征來合成目標語音,例如:“一個年輕女孩用快樂的語氣說‘我真的很喜歡,謝謝!’”,使得語音生成變得更加直觀和用戶友好。具體而言,LLM能夠在句子中檢測情感意圖(例如,“我很激動”→快樂,“這真不幸”→悲傷)。檢測到的情感會被編碼為TTS模型的輔助輸入,從而調節聲學特征,如韻律、音高和能量,使其與所表達的情感相匹配。通過利用LLM在理解和生成豐富上下文信息方面的能力,這些系統可以對語音的各種屬性(如韻律、情感、風格和說話人特征)實現更精細的控制 [31],[105],[106]。將LLM集成到TTS系統中,代表了一個重要的進步,使得語音合成變得更加動態和富有表現力。

本文結構

本文首先對可控TTS技術進行了全面和系統的回顧,重點關注模型架構、控制方法和特征表示。為建立基礎理解,本綜述在第二節介紹了TTS管道。雖然本文的重點仍然是可控TTS,但第三節回顧了對該領域發展具有重要影響的經典的不可控TTS工作。第四節深入調查了可控TTS方法,分析了它們的模型架構和控制策略。第五節提供了數據集和評估指標的全面回顧。第六節對實現可控TTS系統所面臨的挑戰進行了深入分析,并討論了未來的研究方向。第七節探討了可控TTS技術的更廣泛影響,并確定了有前景的未來研究方向,最后在第八節作出結論。

付費5元查看完整內容

摘要—作為人工通用智能(AGI)中的一個重要方向,多模態大型語言模型(MLLMs)已經引起了業界和學術界的廣泛關注。基于預訓練的大型語言模型,這類模型進一步發展了多模態感知和推理能力,表現出令人印象深刻的能力,例如根據流程圖編寫代碼或基于圖像創作故事。在開發過程中,評估至關重要,因為它為模型改進提供了直觀的反饋和指導。與傳統的訓練-評估-測試范式(通常只針對單一任務,如圖像分類)不同,MLLMs的多功能性促使了各種新基準和評估方法的興起。本文旨在提供一份關于MLLM評估的全面調查,討論四個關鍵方面:1)按評估能力分類的基準類型總結,包括基礎能力、模型自我分析和擴展應用;2)基準構建的典型過程,包括數據收集、標注和注意事項;3)系統評估方式,由判定、度量標準和工具包組成;4)下一個基準的展望。本文旨在幫助研究人員更好地掌握如何根據不同需求有效評估MLLM,并啟發更好的評估方法,從而推動MLLM研究的進展。本文的項目頁面可訪問 //github.com/BradyFU/Awesome-Multimodal-Large-Language-Models/tree/Benchmarks。

關鍵詞—多模態大型語言模型、視覺-語言模型、模型評估、基準。

1 引言大型語言模型(LLMs)[1] 正在席卷整個人工智能領域。通過擴大模型參數的規模和訓練語料庫,LLMs 展現出了諸如遵循指令 [2] 和從上下文中學習 [3] 等突現能力。與以往為特定任務訓練特定模型的范式不同,LLMs 能夠通過提示(prompting)解決廣泛的通用任務。此外,LLMs 只能支持語言,而我們的世界本質上是多模態的,包含多種形式的信息,例如視覺和音頻 [4]。這一局限性促使了一個新型模型家族的興起,即多模態大型語言模型(MLLMs)[5][6]。基于 LLMs,MLLMs 進一步具備了處理多模態信息的能力,這大大擴展了模型的任務覆蓋范圍。在 MLLM 開發過程中,模型評估發揮了至關重要的作用,因為它能夠定量地反映模型的優缺點。這一反饋有效地促進了模型的迭代,并推動了該領域的進步。升級后的模型反過來又刺激了新基準的出現,這些基準要求模型具備更先進的能力。如圖 1 所示,隨著 MLLMs 在近年來的飛速發展,眾多嶄新的專門設計的評估基準應運而生。這給尋求合適基準的研究人員以及致力于優化現有評估方法或引入新基準的學者帶來了不便。因此,本工作提供了一項關于 MLLM 評估的全面系統調查,旨在涵蓋四個關鍵問題: 1. 評估哪些能力? 我們組織了現有評估基準的層次化分類法。在頂層,這些評估基準可以分為基礎能力、模型行為和擴展應用的評估。 1. 如何構建基準? 具體而言,我們匯總了構建基準的典型方法,包括樣本收集和問答(QA)對的標注。我們還討論了在模型評估過程中需要特別注意的事項,例如數據污染、基準多樣性和樣本量等。 1. 如何衡量性能? 在評估方法方面,我們介紹了三種衡量 MLLM 性能的代表性方法:基于人工的評估、基于 LLM/MLLM 的評估以及基于腳本的評估。此外,我們還介紹了兩種主要的評估指標類型以及四種評估工具包。 1. 下一個基準的方向在哪里? 我們從明確定義的能力分類法、面向能力的評估、面向任務的評估以及融合更多模態的角度進行討論。 我們希望這項調查能夠幫助研究人員更輕松地找到合適的基準,并激發對能夠更好反映模型優缺點的基準以及更高效、合理的評估方法的探索。我們將定期在我們的項目頁面上更新新的評估論文,組織社區共同努力推動這一領域的進展。 2 背景在本節中,我們簡要介紹了多模態大型語言模型(MLLMs)的基本內容,包括其架構和訓練。欲了解更全面的說明,推薦閱讀相關工作 [5],其中詳細討論了 MLLMs。2.1 MLLM的架構典型的 MLLM 由三個模塊組成:模態編碼器 [7]、大型語言模型(LLM)和它們之間的連接器,如圖 2 所示。以視覺-語言模型為例,給定一個文本查詢和視覺樣本,視覺編碼器從視覺樣本中提取特征,而連接器將視覺特征與文本嵌入空間對齊。隨后,對齊后的視覺特征與用戶查詢的文本嵌入一起作為輸入。LLM 接受這一多模態輸入并生成自然語言響應。與 LLM 處理信息的方式類似,MLLM 的核心是統一的自回歸建模:p(wo∣wV,wT)~∏t=1LP(wt∣w<t,wV,wT)(1)p(w_o | w_V, w_T) \sim \prod_{t=1}^{L} P(w_t | w_<t, w_V, w_T) \tag{1}p(wo∣wV,wT)~t=1∏LP(wt∣w<t,wV,wT)(1)其中,wo={wo,t}t=1Lw_o = {w_{o,t}}_{t=1}^{L}wo={wo,t}t=1L 是長度為 L 的輸出詞令序列,wVw_VwV 表示處理后的視覺令牌,wTw_TwT 對應于用戶查詢的文本嵌入。2.2 MLLM的訓練從圖 3 可以看出,MLLM 的全面訓練過程包括三個階段:預訓練、指令調優和對齊調優。 * 預訓練:預訓練階段的主要目標是對齊不同模態 [8] 并將多模態世界知識注入到模型中。預訓練階段通常涉及大規模基于文本的配對數據,例如圖像標題數據 [9]。一般來說,標題是圖像的“翻譯”,用自然語言描述圖像內容。為了對齊視覺與文本,MLLM 學習以自回歸的方式預測與圖像對應的真實標題。 * 指令調優:指令調優的目的是教會 MLLM 遵循用戶指令并完成所需的任務。通過這種方式調優后,MLLM 能夠泛化到由新指令定義的新任務,從而提升零-shot 性能。指令數據可以來自現有多任務數據集的適配,如 VQA,或來自自我指令 [13][14],其中數據由像 GPT-4 這樣的高級 MLLM 合成。給定一張圖像和一條指令,模型被訓練預測對該指令的響應,通常采用對話形式。 * 對齊調優:對齊調優幫助 MLLM 與特定的人類偏好對齊,例如生成更少幻覺的響應 [15][16][17]。此階段使用的數據包含關于哪種響應更好的注釋。這種響應的偏好可以來自人類,也可以來自 AI。學習目標是鼓勵生成與偏好響應相似的回答,同時懲罰不受歡迎的響應。

3 基準類別在本節中,我們介紹了旨在滿足多樣化評估需求的代表性基準。我們將現有的基準進行了組織,以便快速瀏覽,如圖 4 所示。此外,圖 5 展示了不同評估任務的示例,表 1 給出了部分代表性基準的統計數據。

3.1 基礎能力

3.1.1 綜合評估

設計多模態大語言模型(MLLM)的主要目標之一是開發能夠全面回答與感知和推理相關的人類查詢的智能聊天機器人。為評估 MLLM 的綜合能力,涌現了大量的評估基準。VQA v2 [18] 是一個早期基準,包含 453K 手動標注的問答對用于模型評估。它包括開放式問題,如計數物體和區分顏色,但答案通常簡潔,如一個單詞。VizWiz [19] 大約在 VQA v2 發布時出現。它包含 8K 個問答對,來源于視覺障礙者的日常生活場景,有效捕捉了殘障用戶的真實需求。然而,這些傳統基準往往無法衡量當今 MLLM 的新興能力,如強大的推理能力。已有一些工作將現有的傳統基準匯總起來進行綜合評估。例如,LVLM-eHub [20] 匯編了大量公共數據集,涵蓋了 47 個標準的與文本相關的視覺基準。評估結果發現,盡管 MLLM 在常識任務中超越了當前最先進的技術(SOTA),但在圖像分類、光學字符識別(OCR)和 VQA 等任務上,仍明顯落后于領先的監督模型。同樣,LAMM [21] 使用公共數據集進行評估,超出了 9 個常見的圖像任務。研究表明,MLLM 在大規模計數問題上表現不佳,僅能進行粗略估計,并且在細粒度屬性區分上也存在困難。盡管 MLLM 具有物體定位能力,但準確預測邊界框仍然是一個挑戰,可以通過進一步微調有效緩解。考慮到現有傳統基準的局限性,研究人員開始設計專門針對 MLLM 特點的新評估數據集。例如,MME [24] 建立了一個綜合基準,涵蓋了 14 個感知和認知任務,其中后者包括常識推理、數值計算、文本翻譯和代碼推理。類似地,MMBench [22] 包括 20 個不同的能力維度,如物體定位和社會推理。Seed-Bench [23] 與 MME 和 MMBench 有相似之處,但包含了更多的多項選擇題。SEED-Bench2 [25] 將問答對從 19K 擴展到 24K,覆蓋了 27 個評估維度。MMT-Bench [26] 進一步擴大了數據集,包含了來自不同場景的 31K 個問答對。這些基準揭示了一些共同特征。例如,隨著 LLM 規模的增加,模型的表現顯著提升 [22],[26]。細粒度的感知任務,如空間定位和像素級感知,通常對 MLLM 造成顯著挑戰 [22],[24],[26],[35]。此外,MLLM 在理解圖表和視覺數學方面往往表現不佳,隨著數據集規模的增加,這一限制變得更加明顯 [25],[26]。圖像-文本交織問題仍然難以解決,相關的訓練階段策略只能部分緩解該問題 [22],[26]。最后,隨著 MLLM 的最新進展,開源模型的性能越來越接近甚至超越了閉源模型 [22],[24],[35],這展示了開源社區的快速進展。現實世界的使用場景已經成為研究人員的關注焦點,他們希望了解模型在實際應用中的表現。例如,RealWorldQA1 評估了源自現實場景的基礎空間理解能力。盡管這些場景對人類來說相對簡單,但通常對最先進的模型構成挑戰。同樣,BLINK [27] 確定了諸如相對深度估計、視覺對應、法醫學檢測和多視角推理等任務,人類能夠“眨眼”解決這些問題,但這些任務對當前的 MLLM 來說是重大挑戰。WV-Bench [29] 和 VisIT-Bench [30] 強調了在現實應用中評估人類偏好和遵循指令能力的重要性。MME-RealWorld [35] 相較于其前身,更加注重質量和難度,包含了最大規模的手動標注問答對和最大的圖像分辨率。這些基準揭示了 MLLM 在任務設計和現實世界應用中的一些共同特點。細粒度感知任務繼續挑戰現有模型 [27],[29]。相比之下,模型在藝術風格識別和相對深度感知任務中表現相對較好 [27]。此外,盡管像 GPT-4o 這樣的閉源模型通常優于其他模型 [27],[29],但人類在這些任務中的表現仍遠超這些通用模型。為了量化結果,許多研究將評估簡化為二元或多項選擇問題 [22],[24],[35]。然而,單純依賴最終答案的正確性忽視了推理過程的重要性,而推理過程對于理解模型的能力至關重要。因此,一些研究直接使用開放式生成結果,并利用基于 LLM 的評估器來評估性能,盡管這也面臨 LLM 評分不準確的問題。例如,MMVet [31] 引入了多樣的題目格式,要求模型整合各種核心視覺-語言能力來提供解決方案。類似地,TouchStone [32] 強調了現實世界對話能力,并認為僅評估多項選擇題無法充分反映多模態對話能力。InfiMM-Eval [33] 采用了全面的方法,評估模型在演繹推理、溯因推理和類比推理等任務中的表現,特別評估了中間推理步驟,將評估與數學問題解決等實際場景對齊。這些基準揭示了 MLLM 在處理復雜任務時的能力和挑戰。閉源模型在這些領域表現出色 [31],[33],但往往在理解復雜的定位、結構關系、圖表和視覺數學方面存在困難 [32]。高分辨率數據特別有助于模型識別小物體、密集文本和細粒度細節 [32]。此外,盡管 CoT 策略顯著提高了閉源模型的推理能力,但對開源模型的影響仍然有限。在開發過程中,基準不斷根據過去的經驗進行修訂和改進。例如,MMStar [28] 識別出許多現有基準允許模型僅使用文本輸入來解決問題,這可能會誤導對真正多模態性能的評估。為了解決這個問題,它手動收集了 1.5K 個與視覺信息密切相關的問答對,并引入了評估數據泄露和真正多模態能力的指標。CV-Bench [34] 認識到視覺中心基準的稀缺性,并收集了 2.6K 個樣本來評估 2D 和 3D 視覺理解。

3.1.2 光學字符識別(OCR)

目前的多模態基準越來越側重于評估模型在光學字符識別(OCR)任務中的表現,推動了文檔理解和交通等領域的技術進步。基準從單一場景發展到復雜的多場景。例如,TextVQA [36] 和 OCR-VQA [37] 聚焦于標準文本識別任務,而 InfoVQA [44] 和 WebSRC [38] 引入了更為復雜的結構推理任務,如理解網頁結構和從信息圖表中推斷信息。SEED-Bench-2-Plus [40] 和 OCRBench [39] 通過包括圖表、地圖和網頁等多種數據類型,進一步拓寬了任務的范圍,展示了模型在識別常規文本、非規范文本、遮擋文本和藝術文本方面與最先進的監督模型表現相當。此外,VCR [41] 處理了 OCR 的變種,其中文本嵌入在圖像中并部分遮擋,要求模型恢復圖像中文本的特定內容。然而,許多 MLLM 在細粒度的 OCR 能力、手寫文字、非語義文本和多語種文本識別方面仍面臨挑戰 [39],[40],[41],[175]。像 GPT-4V 這樣的 MLLM 在多個評估中表現出色 [39],[40],[176],但仍然落后于專門訓練的 OCR 模型 [175]。此外,不同數據類型對模型性能的影響差異顯著。例如,知識圖譜和地圖比簡單圖表更具挑戰性 [40]。這表明,針對特定數據類型優化模型或引入專業 OCR 組件可能會顯著提高性能 [177]。

3.1.3 圖表和文檔

圖表和文檔是實際應用中重要的數據類型,旨在以高效的方式傳達信息。與自然圖像不同,這些數據高度結構化,并且信息密集,要求模型理解布局及嵌入元素之間的關系。為了開發能夠理解并推理這些數據的模型,已經提出了針對不同類型圖表[42],[44],[47],[48],[49],[50],[51],[52]和文檔[43],[45],[46]的基準測試。ChartQA [42] 專注于圖表的視覺問答(VQA),如條形圖、折線圖和餅圖。問題的范圍從要求簡單數據檢索的到需要數據提取和數學推理的復雜組合性問題。DocVQA [43] 是針對行業文檔中提取的文檔圖像的視覺問答任務。問題通常側重于更簡單的信息提取任務。InfoVQA [44] 側重于理解信息圖像,這是一種旨在簡潔地傳達信息的數據類型。由于這種特性,信息圖的布局和結構比傳統圖表更為多樣。此基準中的問題通常需要基本的推理和算術能力。隨著大規模語言模型(MLLM)的發展,近期的基準轉向理解更復雜的圖表和文檔。例如,DocGenome [45] 專注于科學論文的分析,任務包括信息提取、布局檢測、視覺問答及代碼生成等。CharXiv [47] 關注來自科學論文的挑戰性圖表。MMLongBench-Doc [46] 專注于一般長文檔的理解,其中文檔平均跨度為47.5頁。盡管在像ChartQA、DocVQA和InfoVQA這樣的傳統基準測試中,專有模型和開源模型之間的性能差距正在縮小,但在像CharXiv和MMLongBench-Doc這樣更具挑戰性的基準測試中,差距仍然很大。此外,當前的MLLM仍然在以下方面存在困難:1)推理問題,尤其是那些要求超出簡單信息提取的復雜問題[47];2)長上下文文檔理解[46],其中理解長時間跨度的多模態上下文至關重要。


3.1.4 數學推理

視覺數學問題求解能力是評估MLLM的重要方面,催生了許多專門設計的基準測試。MathVista [53] 是一個早期的嘗試,收集了來自現有數據集和新創建數據集的樣本。圖像種類從數學插圖,如幾何圖形和條形圖,到不同場景和領域,如抽象場景和醫學圖像。隨后的研究開發了更具挑戰性的基準[54],[55],并設計了更精細化的評估設置[56],[57]。例如,We-Math [57] 根據知識概念將問題分解為子問題,并在基礎知識概念層面評估MLLM。為了評估MLLM對數學圖表的理解,MathVerse [56] 將每個問題轉化為6個不同版本,每個版本包含不同的視覺和文本內容比例。總體而言,盡管GPT-4V[53]等模型取得了一些有前景的結果,但一些關鍵問題仍未解決。首先,大多數當前的MLLM難以理解復雜的視覺圖表[53],并且過度依賴文本問題[56]。其次,大多數MLLM傾向于通過死記硬背解決復合問題,而無法正確回答子問題[57]。


3.1.5 跨學科

掌握跨學科知識是評估模型專業性的一個重要指標。為此,已經開發了多個基準測試。ScienceQA [58] 是一個包含講座和解釋注釋的科學問題基準,便于進行思維鏈評估。該基準覆蓋了1到12年級的知識,涉及多個領域。MMMU [59] 是一個更具挑戰性的基準,涵蓋廣泛的學科和大學級別問題,包括工程、藝術與設計、商業、科學、人文學科與社會科學以及醫學。問題的形式從單一的圖像-文本對發展為交錯的文本和圖像格式。同樣,CMMU [60](年級知識)和CMMMU [61](大學知識)是專門針對中文語境的領域特定基準。這些工作的綜合評估表明,即使是先進的模型(如GPT-4V和Gemini Ultra)在這些基準上的準確率也僅為60%以下,表明朝著AGI的目標仍有很大的改進空間。


3.1.6 多語種

MLLM正在逐步朝著多語種發展,以便惠及更大的社區。除了主要的英語外,研究人員還收集了其他語言的基準測試,以適應不同文化背景和習俗下的評估,包括中文[60],[61],[63],[69]、烏爾都語[66]、斯瓦希里語[67]、越南語[68]和多語言[64],[65]。例如,CMMMU [61] 緊隨MMMU [59],收集了中文的跨學科基準。像ViOCRVQA [68]、Urdu-VQA [66]和Swahili-STR [67]等工作評估了其他語言中的OCR和VQA能力。Video-MME [178] 專門針對多語種評估,包括世界上主流的語言。MTVQA [64] 和M3Exam [65] 開發了涵蓋9種不同語言的多語種基準。評估結果顯示,在不同語言下的表現差異較大。值得注意的是,無論是專有模型還是開源模型,在使用拉丁字母的印歐語系語言(如德語、法語和意大利語)時表現更好,這可能歸因于這些語言在視覺和語言上的相似性【64】。

3.1.7 遵循指令

遵循指令是指模型遵從用戶指令并執行指定任務的能力。作為一種基礎能力,指令遵循直接影響響應質量和用戶體驗。MIA-Bench [70] 旨在評估 MLLM 遵循復雜指令的能力。該基準包含一組 400 對圖像-提示對,每個指令都關注特定的點,例如長度限制、類型和語法。評估結果顯示,專有模型 GPT-4o 取得了最佳性能(得分 88.58),而最佳開源模型 LLaVA-NeXT-110b [179] 的得分僅為 79.84,表明在遵循復雜指令方面存在差距。此外,LLM 大小與 MIA-Bench 性能之間存在較強的相關性,驗證了指令遵循能力中的擴展定律。3.1.8 多輪問答當前的 MLLM 通常被開發為多輪聊天機器人,而大多數基準仍然停留在單輪問答階段。多輪問答基準旨在與現實世界對話場景對接,模擬具有長上下文歷史的人機互動設置。ConvBench [71] 開發了一個漸進式評估方案,每輪聚焦于特定的能力,例如感知、推理和創作。評估在單輪和整體對話級別上進行。評估結果表明,MLLM 在細粒度感知方面的不足導致了推理和創作的失敗。MMDU [72] 涉及多輪和多圖像對話,其中一個對話樣本最多可以包含 20 張圖像和 27 輪對話。分析指出,開源模型與封閉源模型之間的差距可以歸因于有限的對話指令調優數據。

3.1.9 多圖像理解

隨著 MLLM 的發展,研究人員已開始探索將視覺能力從單圖像升級到多圖像。為了迎合這一趨勢,一些多圖像基準已被編制。例如,NLVR2 [73] 是一個早期的基準,每個樣本包含一對相似圖像和一個自然語言標題。任務是判斷該標題是否與這對圖像相符。最近提出的基準更加專門化,旨在評估 MLLM。例如,SparklesEval [74] 挑戰模型在多圖像和多輪對話中的能力,用戶提示以交錯的文本和圖像形式呈現。每個實例包含兩輪對話和四張圖像。類似地,MMDU [72] 是一個多圖像和多輪基準,每個樣本最多包含 20 張圖像和 27 輪對話。還有一些其他基準更加關注多圖像推理。Mementos [75] 旨在評估 MLLM 理解順序圖像的能力,涵蓋日常生活、機器人學和漫畫等領域。MIRB [76] 旨在評估通過聚合和推理多張圖像信息來回答問題的能力,涉及感知、視覺世界知識、推理和多跳推理四個類別。ReMI [77] 設計了 13 個任務,具有不同的輸入格式和圖像之間的關系,例如相同或不同的概念。MuirBench [78] 設計了 12 個多圖像理解任務,例如場景理解和視覺檢索,涉及多視角和時間關系等多種圖像關系。為了確保評估的魯棒性,每個實例都與一個具有最小語義差異的無解變體配對。評估結果表明,盡管開源模型在單圖像基準中已接近 GPT-4V 等高級封閉源模型的性能,但在多圖像推理任務中仍存在較大差距 [76]。此外,當前的 MLLM 在解決多圖像問題時普遍面臨挑戰:即使是表現最佳的專有模型 GPT-4o/Gemini Pro 在準確率上也僅達到 68.0%/49.3%,而在單圖像訓練的開源模型對多圖像問題的泛化能力幾乎為零,準確率低于 33.3% [78]。

3.1.10 圖像與文本交錯理解圖像與文本交錯是自然的信息傳遞形式,廣泛存在于互聯網上的博客和新聞等媒體中。盡管大多數基準采用的是圖像-文本非交錯格式,但已有多個基準被開發用于評估模型理解交錯內容的能力。在 MMMU [59] 中,問題的格式為交錯的文本和圖像。SparklesEval [74] 采用了類似的格式,并采用了兩輪提示方式。VEGA [79] 專門設計用于評估圖像-文本交錯理解能力。提出的任務要求模型從冗余的圖像和文本中辨識出有用的部分并推導出正確的答案。評估結果表明,像 GPT-4V 和 Gemini 1.5 Pro 等先進的專有 MLLM 僅表現一般,表明在交錯信息處理方面仍有很大的改進空間。3.1.11 高分辨率處理高分辨率圖像是 MLLM 的一項重要能力,特別是在自動駕駛等實際應用中。V*Bench [80] 旨在評估處理高分辨率圖像的能力,側重于正確的視覺細節。該基準包含 191 張分辨率為 2,246×1,582 的高分辨率圖像。設計了兩個子任務:屬性識別任務旨在識別物體的顏色或材質等屬性;空間關系推理任務要求模型確定兩個物體之間的空間關系。MME-RealWorld [35] 包含 13,366 張圖像,分辨率平均為 2,000×1,500,涵蓋視頻監控、自動駕駛、遙感、圖表表格和野外 OCR 等實際任務。評估結果表明,即使是最先進的 MLLM,其準確率也未超過 60%,表明這些場景的難度。

3.1.12 視覺定位

視覺定位是一個經典的計算機視覺任務,旨在根據自然語言查詢定位最相關的對象/區域 [181][182]。查詢通常是簡短的表達式,例如“穿紅衣的女人”。在傳統基準如 RefCOCO [81]、RefCOCO+ [82] 和 RefCOCOg [82] 中,MLLM 已經達到了與 SOTA 專業模型 [183][184] 相當的性能。考慮到 RefCOCO 系列中相對較高的標注錯誤率,提出了新的 Ref-L4 [83] 基準。與前作相比,它具有更廣泛的類別覆蓋、更豐富的注釋和由大量詞匯構成的更長指代表達式。評估結果表明,SOTA 開源模型的平均準確率約為 66%,仍有很大的提升空間。此外,當前的 MLLM 對實例的規模非常敏感,通常在小目標上表現較差。

3.1.13 細粒度感知

與一般的粗粒度分類任務不同,細粒度感知側重于對物體的更精細識別,例如回答特定的狗品種,而不是簡單的“狗”,這一能力對于下游應用至關重要。FOCI [84] 是一個新基準,旨在評估 MLLM 在這一任務中的能力。它使用來自 ImageNet-21k 的 4 個領域子集作為基礎,并收集了 5 個附加的流行分類數據集作為補充。MMVP [85] 識別出 CLIP 基礎模型通常表現較差的 9 種模式,并設計了相應的問題,例如方向、顏色和外觀等。SOTA MLLM 的評估結果表明,無論是開源還是封閉源模型,都在視覺細節上存在困難,只有 Gemini 和 GPT-4V 的表現超過了隨機猜測。LLVisionQA [86] 評估了模型感知和辨識低級屬性的能力,例如模糊和亮度。結果表明,大多數開源 MLLM 在沒有顯式訓練低級視覺屬性的情況下,準確率超過了 50%,顯著優于隨機猜測(準確率為 37.94%)。然而,開源模型仍然落后于封閉源的 GPT-4V 或人類。值得注意的是,GPT-4V 的表現與初級人類相當(73.36% vs. 74.31%)。

3.1.14 視頻理解

傳統的視頻問答基準,如MSVD-QA [96]、TGIF-QA [97]和ActivityNet-QA [98],通常是領域和任務特定的。例如,MSVD-QA [97]主要涉及動作和物體識別,回答較為簡短。ActivityNet-QA [98]主要包括各種人類活動的視頻。隨著多模態大語言模型(MLLMs)在圖像領域的成功,越來越多的工作致力于利用MLLMs進行視頻理解。隨著MLLMs的發展,越來越具挑戰性和綜合性的視頻理解基準應運而生。Video-MME [87]是早期的探索之一,涵蓋了多個視頻領域(6個領域,30個子領域)和不同的視頻時長(從11秒到1小時)。使用的模態包括視頻幀、字幕和音頻。視頻是手動收集的,所有的問答對均經過人工標注以確保質量。MVBench [88]定義了一組時間任務,并利用ChatGPT自動重新標注現有視頻數據集及其原始標注。MMBench-Video [91]的特點是針對視頻提出開放性問題,并為時長從30秒到6分鐘不等的視頻提供詳細答案。MLVU [89]、LVBench [90]、Event-Bench [92]、VNBench [93]和Video-MME的長視頻部分主要關注長視頻理解,這挑戰了模型在理解長時間跨度的多模態上下文中的能力。具體而言,MLVU [89]涵蓋了多樣化的視頻內容、視頻時長和評估任務。LVBench [90]選擇了超過30分鐘的視頻,并定義了長視頻理解的6個核心能力。Event-Bench [92]關注事件理解能力,設定了三層次的層級結構,包括原子事件、復合事件和整體事件理解。VN-Bench [93]則設計了一個“視頻中的針”框架,是一種用于基準生成的合成方法。通過在視頻中插入無關的圖像或文本,它能夠評估檢索、排序和計數等任務。還有一些基準關注特定場景和微妙的能力。例如,EgoSchema [94]涵蓋了自我中心視頻的問答樣本。TempCompass [95]評估了細粒度的時間感知能力,如視頻播放速度、相機或物體的方向以及物體屬性的變化。總的來說,當前的MLLMs,無論是專有的還是開源的,在處理較長的視頻時表現不佳務中表現較差,通常依賴于靜態視覺線索 。因此,未來的研究迫切需要增強時間感知能力。

3.2 模型自我分析

為了更好地理解多模態大語言模型(MLLM)本身,研究人員開發了各種基準測試,用于研究模型的行為或特征,包括幻覺、模型偏見、安全性和因果分析。在本節中,我們介紹了模型分析的典型方面。

3.2.1 幻覺

“多模態幻覺”一詞用來描述這種現象:由MLLM生成的響應內容與視覺內容不一致【185】。幻覺是一個嚴重的問題,它損害了模型的可靠性并阻礙了其實際應用。該類別中的基準測試旨在更全面地識別幻覺。POPE【99】設計了一個簡單的判別任務:該基準通過簡單地提示某個特定物體是否出現在圖像中來衡量物體幻覺的程度。M-HalDetect【101】則評估生成性能,特別是對子句級別的描述進行建模。AMBER【107】包含了判別任務和生成任務,涵蓋了對存在性、屬性和關系幻覺的評估。隨著MLLM在視頻理解方面的進展,VideoHallucer【112】被提出,用于全面評估視頻理解中的幻覺,涵蓋了物體關系、時間關系和語義細節幻覺等子類別。同時,一些工作探索了評估樣本的自動高效構建,其中圖像是合成的而非自然的。例如,PhD【105】、MHaluBench【186】、VHTest【110】和OpenCHAIR【108】采用了文本到圖像生成模型(如Dall-E 3)來合成所需的圖像。研究人員還開發了更有針對性的基準測試,以探測模型傾向并分類幻覺的成因。GAVIE【100】觀察到對正實例的偏向,并為各種任務(如屬性檢測、OCR和視覺問答)引入了正負指令。HallusionBench【106】包含了視覺問題的控制組,以便分析模型的響應傾向和失敗模式。Bingo【104】識別出幻覺成因的兩類,即偏見和干擾,并設計了相應的視覺問題進行調查。類似地,VLind-Bench【115】旨在評估MLLM在多大程度上傾向于語言先驗并導致幻覺。這些更深入的研究為幻覺的形成機制提供了更深刻的理解。根據評估結果,幻覺的主要成因有兩個:1)當前的MLLM存在視覺能力不足的問題【104】【106】。例如,MLLM容易被簡單的圖像操控【106】或引導性問題【104】誤導。此外,當面對多張圖像時,即使是先進的GPT4V也難以辨別細微差異【104】或推理時間關系【106】,這表明其處理圖像序列的能力不足。2)模型偏見。MLLM在不同類型的視覺問題上表現差異,通常與區域、文化和語言有關【104】。這可能是由于模型中記憶的訓練數據不平衡。

3.2.2 偏見

模型偏見是阻礙MLLM可用性的關鍵問題。當前的基準測試已經探索了模型偏見的不同方面,并揭示了可能的原因。VLBiasBench【116】識別出與人類價值觀不一致的響應偏見。具體來說,該基準覆蓋了9類社會偏見,如年齡、性別和外貌等。對開源和閉源模型的評估表明,開源模型(如LLaVA【187】和Shikra【188】)通常表現出不同程度的偏見,而先進的閉源模型(如Gemini【189】)則表現出較弱的偏見。這表明開源和閉源模型在社會偏見控制方面存在巨大差距。Bingo【104】識別出模型表現中的區域偏見,即當提示具有不同區域/文化背景的視覺問題時,模型的表現差異很大。考慮了三類偏見,包括區域偏見、OCR偏見和事實偏見。MM-SpuBench【117】探討了虛假偏見,即模型傾向于利用虛假的關聯進行預測。作者將其歸因于模型的學習過程,其中視覺標記和文本描述之間的粗粒度對齊可能導致錯誤關聯。這些錯誤先驗嵌入在參數化的記憶中,可能干擾在反直覺情境下的預測。例如,兩個物體/屬性的高度共現可能導致錯誤預測,如將含有微波爐的場景識別為廚房。評估結果表明,閉源模型通常優于開源模型。此外,模態對齊在抑制虛假偏見中起著至關重要的作用,較好的對齊技術可以提高模型對虛假偏見的魯棒性。

3.2.3 安全性

模型安全性是模型實際部署中的核心問題。這類基準測試主要考慮魯棒性,包括分布外(OOD)魯棒性、對抗魯棒性以及越獄問題。分布外魯棒性:它主要考慮MLLM對未見過的領域的泛化能力,例如訓練語料庫中未出現的不同風格的圖像。例如,OODCV-VQA和Sketchy-VQA【118】分別包含了現實生活場景中罕見的圖像和簡單的草圖圖像。此外,還包括了從原始問題中改編的OOD文本指令。MultiTrust【119】進一步考慮了來自其他領域的圖像,如MRI和紅外圖像。評估結果顯示,MLLM在理解OOD視覺內容方面優于遵循OOD文本指令【118】。這可能表明其在泛化到新指令方面的能力不足。對抗魯棒性:對MLLM的對抗攻擊旨在誘使模型做出錯誤的響應。因此,對抗魯棒性是評估的關鍵方面,衡量模型對惡意攻擊的魯棒性。AttackVLM【120】開發了一個框架,用于合成對抗樣本并評估開源MLLM的對抗魯棒性。評估結果揭示了開源模型(如LLaVA【14】和MiniGPT-4【190】)的對抗脆弱性。AdvDiffVLM【121】旨在提高對抗樣本生成的效率和遷移性。實驗結果表明,與開源模型相比,閉源模型表現出更好的對抗魯棒性,表明仍有很大的改進空間。越獄:它側重于模型拒絕誘使非法響應的能力【119】【191】。VLLM-safetybenchmark【118】設計了兩種越獄策略,分別針對LLM和ViT,以評估模型的抗性。MultiTrust【119】結合了三項任務來測試模型對越獄的魯棒性,包括1)將詳細的越獄提示插入圖像,2)將正常的文本提示與插入圖像的越獄提示結合,3)將越獄提示與正相關或負相關的圖像配對。這些研究表明:1)與現代LLM需要通過精心設計的提示進行越獄不同,MLLM在簡單但有害的指令嵌入圖像時更加脆弱【119】;2)當前對MLLM的微調削弱了嵌入LLM的安全協議【118】【119】。此外,MOSSBench【122】評估了MLLM對某些視覺刺激的過度敏感性,無論是在良性語境下,還是在這些刺激下拒絕無害查詢。基準樣本包括三種類型的刺激,包括夸張的風險、否定的傷害和反直覺的解釋。對20個MLLM的評估表明,過度敏感性在當前的MLLM中普遍存在,尤其是在那些更安全的模型中,這可能表明模型響應的安全性與保守性之間的權衡。

3.2.4 因果關系

因果關系是指一個變量的變化導致另一個變量的變化【123】。理解這一關系的能力,即因果推理,是理解和分析我們世界的重要能力。最近,一些工作探索了評估MLLM因果推理能力的方法。CELLO【123】引入了一個統一的因果定義,涉及人類和/或物體,并構建了一個包含12個因果任務的基準。評估結果顯示,當前的MLLM(如BLIP-2【192】和Claude3 Sonnet【193】)展現了較弱的因果推理能力,有些甚至表現不如隨機猜測。3.3 擴展應用隨著大規模多模態語言模型(MLLMs)的快速發展,研究人員積極探索其在下游任務中的應用,并在醫學、情感分析等領域開發了相應的基準。與通用評估不同,這些基準更加關注對領域知識和技能的掌握。3.3.1 醫學影像醫學影像直接反映人體狀態,是臨床決策的重要組成部分。許多基準已被開發出來,用于評估MLLMs在分析這類影像中的表現。VQA-RAD [124] 是一個早期為放射學影像設計的視覺問答(VQA)任務基準,涵蓋了11種問題類型,包括平面、模式、器官系統等。問題和答案通常簡潔明了,答案通常只有一個或幾個詞。PathVQA [125] 是一個類似的基準,專注于病理影像。SLAKE [126] 是一個雙語(中文和英文)基準,擁有更多的注釋和更多模式信息,包括分割掩膜和邊界框。近期的基準趨向于更全面。例如,PMC-VQA [127] 涵蓋了更多的影像領域,包括放射學、病理學、顯微鏡學、信號處理等。RadBench [129] 包含了二維和三維掃描影像,并涉及五個不同的任務,包括模式識別、疾病診斷、VQA、報告生成和推理診斷。GMAI-MMBench [130] 包括了39種醫學影像模式、18個臨床相關任務、18個科室和4個感知粒度,采用VQA格式。OmniMedVQA [128] 涵蓋了超過20個解剖區域和12種不同的影像模式,如MRI、CT和X光,影像來源于真實的醫學場景。12個開源MLLMs的評估結果顯示,當前的MLLMs在OmniMedVQA上的表現較差,大多數模型僅略微優于隨機猜測。此外,盡管表現最佳的醫學領域MLLM MedVInT [127] 的表現也不如BLIP-2 [192]等通用模型(準確率分別為41.50%和50.69%),這可能歸因于缺乏醫學領域的大規模高質量影像-文本配對訓練。這些結果表明,開發專用的醫學MLLMs仍然任重道遠。3.3.2 情感分析情感分析旨在從各種模態的數據中提取人類情感,如視覺、文本和音頻。與通常以客觀為主的任務不同,情感分析涉及對高度主觀和情感化的多模態內容進行解讀,因此提出了新的挑戰。借助其強大的泛化和推理能力,MLLMs預計能夠在此任務中取得突破。EmoBench [131] 包含從一般情感和意圖理解(多類分類,基于預定義的集合)到社交媒體中的情感檢測("是/否"的二元分類)等任務,數據來源于現有的數據集。FABA-Bench [132] 專注于面部情感分析,包含情感識別和動作單元識別兩個任務。對這些基準的評估結果表明,經過情感相關數據微調的MLLMs相比零-shot MLLMs能實現更優的表現,包括像GPT-4V這樣的先進閉源模型。這表明,在情感分析的下游任務中,注入情感領域的知識至關重要。

3.3.3 遙感遙感是一個多學科領域,涉及通過衛星或空中傳感器從遠距離獲取和分析關于地球表面和大氣的信息。遙感在環境監測、城市規劃、農業和災難管理等多個應用中發揮著關鍵作用。為了推進遙感圖像的理解,已開發了多個基準。早期的工作如RSVQA [133] 基于傳統的VQA構建了評估集,涵蓋了分類、物體計數和檢測等任務。RSVQA基準中的問題和答案簡潔,基于預定義的流程構建,涉及元素(例如道路和水域)及其相關屬性(例如形狀和大小)或位置關系。該基準的兩個子集包含低分辨率(256px)和高分辨率(512px)的圖像。更近期的基準涵蓋了更廣泛的任務和問答對。例如,RSIEval [138] 手動注釋了圖像標題和視覺問題。除了常見的物體相關問題(如存在、數量或顏色),該基準還包括一些需要推理/外部知識的問題,如“這張圖是哪個季節拍攝的?”類似地,VRSBench [140] 是一個綜合性的基準,包含圖像標題生成、視覺定位和VQA任務。特別地,該基準的邊界框注釋旨在促進對更先進的定位能力的評估。還有一些基準如RSVG [136]、RSVGD [137] 和RRSIS-D [139],專注于遙感圖像中的視覺定位,嘗試根據自然語言查詢通過邊界框或分割掩膜定位物體。評估結果顯示,即使是GPT-4V也難以處理VQA和定位任務,這表明將領域知識注入MLLMs是必要的。此外,經過專門微調的MLLMs在某些遙感任務中的表現可以與專用模型相媲美或更優,表明MLLMs在解決遙感任務方面具有潛力。

3.3.4 智能體智能體能夠感知環境并采取行動以完成目標任務。最近,開發能夠處理和推理多模態信息(如視覺、音頻和文本)的多模態智能體引起了廣泛關注,其中MLLMs在其中發揮了重要作用。隨著這一進展,多個基準被建立,用于衡量MLLMs作為智能體的表現。AppAgent [141] 主要評估智能體在10個智能手機應用上執行50個任務的能力,如“將我的個人資料名稱更改為AppAgent”。使用的度量標準包括成功率、獎勵和平均步驟數。Mobile-Eval [142] 是一個類似的基準,旨在評估移動智能體。該基準為每個10個主流應用設計了3個指令。GPT4Tools [143] 關注工具使用能力,具有針對不同方面的度量標準,包括整體成功率和在應用特定工具(如思維、工具名稱和工具參數)時的成功率。評估結果表明,即使是先進的GPT-4也很難以零-shot的方式規劃和執行智能手機應用查詢,部分原因在于準確預測坐標的挑戰[141]、[142]或對特定應用的知識不足,這需要更多的探索來解決。3.3.5 代碼生成代碼生成是MLLMs的一個重要能力,在現實生活中有廣泛的應用,如幫助編寫代碼或為復雜問題提供自動解決方案。ChartMimic [144] 涉及兩個圖表到代碼生成任務,即直接模仿和定制化模仿。后者是指生成具有相似風格/美學和定制數據的新圖表。該基準涵蓋了各種類型的圖形,并提供了1000個人工策劃的三元組,即圖形、Python代碼和指令。WCGB [145] 關注網頁到代碼的生成,旨在評估將網頁截圖轉換為HTML代碼的能力。評估結果表明,LLM骨架在多模態代碼生成中的能力發揮了重要作用[145]。與閉源模型相比,開源模型在生成可執行代碼方面仍然滯后,大多數開源模型的可執行代碼生成率低于60% [144]。3.3.6 圖形用戶界面(GUI)當前的多模態基準正在擴展到GUI領域,以評估MLLMs在感知和推理GUI元素方面的表現。從早期的RefExp [146]基準開始,該基準專注于UI屏幕中的對象定位,研究逐漸發展到更復雜的任務。Widget Captioning [151] 通過要求模型為UI元素生成描述性語言,增加了挑戰,測試了其感知能力。Screen2Words [147] 進一步推動了研究的邊界,要求模型生成UI節點的內容和功能描述,從而測試其對頁面布局和功能的理解。隨著研究的進展,ScreenQA [148] 簡化了評估過程,僅使用圖像和文本輸入,專注于通過文本提示定位和識別UI元素的基本問答任務。Rico-semantics [149] 注釋了50萬個UI元素的屬性和關系,增強了評估維度,以評估模型對UI元素形狀和語義關聯的理解。

付費5元查看完整內容

摘要——從演示中學習(Learning from Demonstrations),即通過數據學習機器人行為模型的領域,隨著深度生成模型的出現,正在越來越受到關注。盡管這一問題在“模仿學習”、“行為克隆”或“逆強化學習”等名稱下已經被研究了多年,但傳統方法依賴的模型往往難以有效捕捉復雜的數據分布,或者無法很好地擴展至大量演示數據。近年來,機器人學習社區對于使用深度生成模型來捕捉大數據集的復雜性表現出了越來越濃厚的興趣。在本綜述中,我們旨在提供對去年機器人領域中使用深度生成模型的進展的統一且全面的回顧。我們介紹了社區探索的不同類型的模型,如基于能量的模型、擴散模型、動作值圖、生成對抗網絡等。我們還展示了深度生成模型在不同應用中的使用情況,從抓取生成到軌跡生成或成本學習等。生成模型的一個重要元素是分布外的泛化能力。在我們的綜述中,我們回顧了社區為改善所學模型的泛化能力而做出的不同決策。最后,我們強調了研究中的挑戰,并提出了未來在機器人領域學習深度生成模型的一些研究方向。關鍵詞——機器人,生成模型,決策制定,控制,模仿學習,行為克隆,從演示中學習

I. 引言**

從演示中學習(Learning from Demonstration, LfD)[1], [2],也稱為模仿學習(Imitation Learning)[3], [4],是通過觀察和模仿一組專家演示來學習期望的機器人行為模型的領域**。基于場景的觀察和所需任務的條件,模型(通常稱為策略)被訓練生成與專家演示中行為相似的動作。根據任務的不同,這些動作可能代表期望的末端執行器姿態 [5], [6]、機器人軌跡 [7], [8] 或期望的場景安排 [9], [10] 等。LfD 包括幾種解決這一問題的方法。行為克隆(Behavioral Cloning, BC)方法 [1] 將條件生成模型擬合到基于觀察的動作上。盡管在序列決策問題中存在一些缺點(例如,錯誤累積導致的協變量偏移 [11]),但在實踐中,由于其穩定且高效的訓練算法,它已經展示了一些最為令人印象深刻的結果 [6], [12], [7], [13]。另一種方法是逆強化學習(Inverse Reinforcement Learning, IRL)[14], [15], [16] 或其變體 [17], [18], [19],結合了演示數據與環境中的試錯(即強化學習(Reinforcement Learning, RL)),生成的策略比 BC 更具魯棒性,但受到訓練算法穩定性較差的限制。與直接模仿演示動作的 BC 不同,IRL 側重于推斷演示行為所優化的潛在獎勵函數,并應用 RL 來推斷策略。IRL 的一個關鍵優勢在于它能夠僅通過觀察進行學習 [20], [21],而無需明確的演示動作信息。在 LfD 中,演示的固有特性帶來了重大挑戰。通常,收集的數據是次優的、噪聲較大的、基于高維觀察條件的,并且包含多種行為模式 [22], [23], [24]。這種多樣性可以在對給定物體的多種抓取方式、專家提供演示的偏好或專家之間的分歧中體現出來。數據的這些固有屬性促使研究人員尋找能夠恰當地捕捉其分布的模型。傳統上,在深度學習成為主流之前,LfD 方法通常使用高斯過程(Gaussian Process, GP)[25], [26]、隱馬爾可夫模型(Hidden Markov Model, HMM)[27], [28] 或高斯混合模型(Gaussian Mixture Models, GMM)[29] 來表示生成模型。然而,這些模型無法擴展至大數據集,也無法在圖像等高維上下文中表示條件分布。基于神經網絡的模型允許在圖像 [30], [31] 或文本 [32], [33] 等高維變量上進行條件設定,但它們通常被訓練為單峰模型。這些模型與收集的演示數據的多模式特性相沖突。這些模型無法捕捉數據中的固有多樣性和多模式,導致研究人員不得不將自己局限于較小的 [34] 或高度策劃的數據集,以確保單峰性,從而簡化建模過程。

近年來,深度生成模型(Deep Generative Models, DGM)在圖像 [35] 和文本生成 [36] 中的成功展示了其捕捉高度多模態數據分布的能力。近年來,這些表現力強的模型在機器人領域的模仿學習應用中引起了廣泛關注(見圖2)。例如,擴散模型(Diffusion Models, DM)[37], [35] 已被有效用于學習高維軌跡分布 [38], [7], [8];基于語言和圖像的策略使用類似GPT的模型來表示動作空間中的類別分布 [39];變分自編碼器(Variational Autoencoders, VAE)[40] 被應用于生成任意物體的六自由度(6-DoF)抓取姿態 [5]。本文統一且全面地回顧了機器人領域中為捕捉數據固有的多模態性而從演示中學習 DGM 的各種方法。盡管其中一些模型借鑒了其他機器學習領域的成果,如 DM,但我們也重點介紹了在機器人動作分布表示中特別有影響力的方法,如動作價值圖(Action Value Maps)[41], [42], [43]。本綜述主要關注使用離線數據的方法,即不收集額外的在線或交互數據,以及離線監督,即除了專家動作外不使用額外的監督。盡管在從視覺到文本生成的各個領域中,從離線數據集中學習 DGM 已被廣泛研究,但機器人領域有其固有的挑戰,需要謹慎的設計選擇。為了激發機器人應用中的具體設計選擇,我們將在 I-A 節中介紹從演示中學習策略的基本挑戰。我們將綜述分為六個部分(見圖1): 在第二部分中,我們將形式化問題并提供整個綜述中使用的術語。 在第三部分中,我們介紹了機器人領域中最常用的 DGM,展示了它們的固有屬性,簡要列出了應用這些方法的各種工作,并介紹了每種模型的訓練和采樣算法。 在第四部分中,我們展示了深度生成模型應用的不同類型,重點介紹了模型生成的數據類型以及考慮的條件變量類型。 在第五部分中,我們提出了一系列設計和算法歸納偏差,以提高從學習模型的數據分布中的泛化能力。我們如何保證在上下文觀察中生成有用的動作,而這些動作在演示中沒有出現?我們提出的選項包括生成模型的模塊化組合、從觀察中提取有用特征以及利用觀察與動作之間的對稱性。 最后,在第六部分中,我們強調了該領域當前的研究挑戰,并提出了未來的研究方向。

A. 從離線演示中學習的挑戰從離線演示中學習機器人策略面臨著若干挑戰。盡管其中許多挑戰(例如演示中的多模態)與其他研究領域(如圖像生成或文本生成)共享,但在機器人領域中,我們還需要考慮一些特有的挑戰。以下是從離線數據中學習機器人策略的主要挑戰。演示的多樣性。主要挑戰之一是演示本身的固有變化。不同的演示者可能具有不同的技能水平、偏好和完成相同任務的策略,導致數據集中包含廣泛的方法。單峰分布缺乏表達能力,無法捕捉演示中的這種變化,從而導致性能不佳。DGM 是解決這一挑戰的有前景的方法。通過捕捉復雜的多模態分布,這些模型可以學習表示演示中展現的不同策略和行為。異質的動作和狀態空間。與數據空間定義明確的計算機視覺不同,在機器人領域中,沒有單一的狀態-動作空間。機器人動作可以包括從力矩命令到期望的目標位置或期望的軌跡。此外,機器人行為可以在機器人的配置空間和任務空間中建模。這種多樣性導致了異質的數據集和用于學習機器人策略的異質解決方案。部分可觀察的演示。當人類執行演示時,其動作不僅基于可觀察到的元素,還受到任務知識和觀察歷史影響的內部狀態驅動。此外,人類可以整合環境中的信息,這些信息可能無法被機器人的傳感器輕易獲得或觀察到,例如人類視覺捕捉到的外圍細節但被機器人的攝像頭遺漏。這種不匹配往往導致演示僅部分代表任務的上下文,從而導致機器人學習的策略中出現歧義。關于部分可觀測性的問題已經在文獻中得到了廣泛研究 [44]。一種常見的實際方法是將觀察歷史編碼為上下文,而不是單一的觀察,允許模型提取內部狀態,從而減少歧義 [45]。時間依賴性和長視距規劃。機器人任務通常涉及序列決策,其中動作在時間上是相互關聯的。這種序列性可能導致錯誤的累積,將機器人引向訓練演示中未遇到的情況。為解決此問題,已有多種方法提出。一些工作建議學習短視距技能,然后與高層規劃器連接。另一方向是,許多工作 [38], [13] 提出學習生成動作軌跡而不是單步動作的策略,從而減少序列累積錯誤。此外,其他選項包括在生成演示時注入噪聲 [46] 或交互式擴展數據集 [11]。訓練和評估目標之間的不匹配。從離線演示中學習通常被定義為密度估計問題。學習的模型經過訓練以生成類似于訓練數據集的樣本。然而,學習的模型用于解決特定任務,最大化的度量是任務成功率。這種訓練目標與評估目標之間的不匹配可能導致在機器人用于解決特定任務時表現不佳。解決這一問題的一個可能方向是將行為克隆階段與后續強化學習微調相結合 [47]。分布偏移和泛化。從離線演示中學習的一個基本挑戰是演示數據與實際場景之間的分布偏移,在這些場景中,學習的策略被部署。演示通常在受控環境或特定上下文中收集,但機器人必須在演示未覆蓋的潛在新環境中運行。這種不匹配可能導致泛化失敗和性能下降。解決這一挑戰需要能夠從給定演示中推斷并適應新環境的技術。我們將在第五部分中探討提高機器人應用中泛化能力的不同方法。

B. 相關綜述

LfD 領域有著悠久的歷史,已有多篇綜述對此進行了探討。在基于深度學習的方法成為主流之前,已有幾篇綜述 [50], [51], [52], [53] 探討了模仿學習的基本問題。這些綜述回答了諸如我們應該如何獲取數據?我們應該學習什么模型?或我們應該如何學習策略?等問題。近年來,一些最新的研究 [54], [3], [55] 更新了基于深度學習模型在 LfD 問題中的應用的綜述。特別是 [3] 從算法的角度審視了模仿學習,使得不同算法的比較可以從信息論的角度進行。機器人學習社區的當前階段,隨著大規模機器人演示數據集的增加(無論是在模擬中還是在現實中),模仿學習方法的重要性日益增加,以及廉價機器人硬件的日益普及,當前適時提供一個涵蓋過去幾年研究進展并專注于該領域當前面臨挑戰(多模態性、泛化、異質數據集等)的綜述。最近,幾篇綜述 [56], [57] 探討了學習機器人基礎模型的問題,主要集中在將互聯網規模的視覺和語言基礎模型整合到機器人問題中。盡管將視覺-語言基礎模型應用于機器人問題具有潛力,但我們的綜述關注于不同的問題。本綜述的興趣在于探索如何直接從具體現體機器人的數據中學習策略(部分原因是大規模數據集的日益豐富 [24], [58]),而不是將視覺-語言模型適應于機器人。

付費5元查看完整內容

生成性AI大型語言模型(LLMs)的安全性:概述

具有生成性AI能力的大型語言模型(如ChatGPT)正面臨加速采用和創新。生成性AI(GAI)的日益普及不可避免地引發了對這些模型相關風險和安全性的擔憂。本文從計算機科學家的角度,對GAI-LLMs的最新AI安全研究趨勢進行了詳盡的綜述,內容具體且技術性強。在本綜述中,我們探討了在LLMs作為生成性語言模型的背景和動機下所識別的危害和風險;我們的綜述強調了在LLMs研究開發和應用中統一理論以應對不同安全挑戰的必要性。 我們首先通過相關文獻支持,對LLMs的工作原理進行了簡明介紹。然后,我們討論了早期研究指出的生成性模型的基本限制或缺乏理解(例如,隨著LLMs參數數量的增加,性能和安全之間的權衡)。我們充分討論了LLMs的對齊問題——深入探討了各種方法、爭議方法以及將LLMs與人類偏好對齊所面臨的現有挑戰。通過強調文獻中的空白和可能的實施疏漏,我們旨在創建一個全面的分析,為解決LLMs中的AI安全問題提供見解,并鼓勵開發對齊且安全的模型。 我們在綜述的結尾討論了LLMs在AI安全領域的未來方向,提供了對該關鍵領域正在進行的研究的見解。 1.** 引言大型語言模型(LLMs)常被譽為具有驚人生成能力的革命性生成性AI(GAI)模型,但它們也帶來了許多AI安全挑戰**。本文對現有研究文獻中固有的LLMs安全風險進行了全面回顧。一個重要的挑戰在于缺乏專門針對GAI-LLMs安全問題的綜述論文,這些問題源于LLMs的技術構成,即數據預訓練、模型架構和提示使用。目前的研究往往過于廣泛,涉及X風險、AI倫理邊界和政府政策變化等主題,這些雖重要,但并未直接聚焦于GAI-LLMs的功能性方面。在這項工作中,我們審視了先前文獻中記錄的生成模型的已知限制,并進一步識別和討論由于未解決的技術問題而導致的新安全挑戰。在確定了生成性AI和大型語言模型的安全挑戰后,我們識別了一系列關鍵研究和主題:偏見和公平性、有害內容生成、虛假信息、隱私和安全問題、對抗攻擊、知識產權侵權、倫理和人類偏好對齊以及大規模安全性。本文還回顧了后續GAI-LLMs安全研究的有前景途徑,強調了在GAI-LLMs成為更強大代理時,LLM從業者和應用開發人員必須考慮的眾多關鍵因素。 1.1. 文獻檢索策略本研究從計算機科學領域的AI和NLP方向的出版物中調查生成性AI和LLMs的安全性,包括ACL、NAACL、EACL、EMNLP、CoNLL、COLING、SIGIR、IJCAI、AAAI、ICML、ICDM、KDD和NeurIPS。我們使用AI安全、生成性AI和大型語言模型等相關關鍵詞來搜索相關論文。找到的論文中出現的相關工作也包含在本綜述的范圍內,這可能包括技術公司關于AI安全的技術文章,例如Anthropic、Google DeepMind、Meta、Microsoft Research和OpenAI。AI安全和生成性AI研究領域廣泛且復雜,來自學術界、工業界和政府的輸入推動了這一領域的發展。在之前提到的核心文獻基礎上,審視額外的來源,以提供多樣化的觀點和見解。額外的來源增強了我們對這一領域的理解,強調了解決高級AI系統相關問題所需的協作努力。即將介紹的類別突出了計算機科學研究和政策制定正在進行的關鍵領域:

大型語言模型的風險和危害分類:Weidinger等(2024a)強調了旨在識別和分類LLMs安全風險的研究的重要性,特別是那些具有潛在社會技術影響的研究。Bommasani等(2022)、Shelby等(2023)和Weidinger等(2022)展示了這一類型的工作,提供了理解GAI-LLMs潛在危險的關鍵分類和框架。Liu等(2024d)對LLMs對齊風險進行了深入分析,按主題系統地組織它們并討論了評估研究的最新進展。這些綜述論文共同構成了關注識別和理解LLMs潛在不良影響的文獻。Bird等(2023)檢查了文本到圖像生成模型的危害,例如生成內容中的偏見、生成不當內容和侵犯版權的問題。雖然本綜述論文集中于大型語言模型的技術方面,但Shevlane等(2023)和Solaiman等(2023)深入探討了其社會影響,包括潛在危害,基于Solaiman等(2019)的早期工作。Amodei等(2016)的基礎性工作“AI安全中的具體問題”極大地影響了高級AI的討論,而Google DeepMind不斷發展的分類法Morris等(2023);Dragan等幫助識別了建立這一領域的研究。Weidinger等(2024a)強調,持續發展這些分類法對于促進研究人員、政策制定者和其他利益相關者之間的共同理解至關重要。

政府/政策制定會議:除了研究界的貢獻,政府政策制定者在協作倡議中的參與也是重要的。這些協作生成了高質量的AI安全報告,例如WhiteHouse的報告。例如,Google DeepMind的評估方法Liang等(2022)和Anthropic的負責任的擴展政策Anthropic(2023)都引用了WhiteHouse。這些報告有助于全面理解圍繞AI系統的復雜環境。正如預期的那樣,這些會議的論文集中討論了治理AI安全風險,如AI可信度、監控、公平性和隱私。

企業AI安全委員會和AI安全聲明:OpenAI通過他們的博客發布了他們的AI安全方法,并不斷更新和變化,例如OpenAI安全委員會OpenAI(2023c)、AI安全更新OpenAI(2023e)和OpenAI安全標準OpenAI(2023d)。Weidinger等(2024a)提到Google DeepMind的AI安全委員會,并引用了一些資源鏈接到他們的AI安全原則GoogleDeepMind(2023)。Anthropic對評估AI系統的貢獻提供了一種更務實和專注的方法。Ganguli等(2023)強調了GAI-LLMs特定評估的固有復雜性,例如Hendrycks等(2021)的大型多任務評估(MMLU)基準和Parrish等(2022)的問答偏見基準(BBQ),以及Liang等(2023)的整體語言模型評估(HELM)和Srivastava等(2023)的BigBench。創建如此全面的評估框架的挑戰表明了所需的大量努力。

AI安全評估:如HELM Liang等(2023)和BigBench Srivastava等(2023)等全面評估框架為基準測試LLMs提供了簡化的API。這些框架結合了真理QA Lin等(2021)等開創性研究的基準,提供了不斷演變的快照,以應對AI安全和代理的已建立風險和危害。通過在GitHub和HuggingFace等平臺上托管開源代碼庫,研究人員促進了社區的持續貢獻和更新。

1.2. 與其他綜述的比較本綜述論文通過系統地調查LLMs的安全問題,提供了一個高層次的分類框架,包括訓練數據、模型訓練、提示、對齊和擴展。通過將高級應用(如ChatGPT、Gemini等)的討論分解為不同方面,我們可以在其技術范圍內縮小安全問題并理解下游問題。我們的還原主義方法符合近期的努力,例如Dalrymple等(2024)的“保證安全的AI”,以綜合和分類GAI-LLMs和未來代理相關的風險。例如,Gabriel等(2024)深入探討了高級AI助手的倫理挑戰,重點關注價值對齊、安全性和潛在的濫用。同樣,Bommasani等(2022)對基礎模型(包括LLMs)的機會和風險進行了廣泛的討論。Liu等(2024d)通過識別生成性AI系統中的已知風險并提出增強其可信度的框架,補充了這一討論。雖然其他綜述工作提供了重要見解,我們的綜述通過系統地將這些識別的風險與LLM架構的特定方法(特別是上下文學習、提示和強化學習)相關聯,從而使其與眾不同。通過這種方法,我們可以識別安全問題的技術來源,并追蹤其在系統中的傳播,提供對如何以及在哪里最有效地進行干預的更詳細理解。我們還結合了LLMs評估的最新發展,如Weidinger等(2024a)所展示的。他們的工作分享了開發Google Gemini模型的經驗教訓,并深入了解了DeepMind內部的治理結構,提供了關于在實際AI系統中實施安全措施的實際挑戰的關鍵視角。為了進一步區分我們的綜述,我們包括了Zhao等(2023)的最新工作分析,他們對LLMs的評估方法提供了全面概述。他們的評估指標和數據集分類為我們的基于組件的分析提供了有價值的背景,有助于彌合理論安全問題和實際評估方法之間的差距。通過綜合這些不同的觀點并圍繞基于組件的框架進行組織,我們的綜述為該領域做出了獨特貢獻。它不僅鞏固了關于LLM安全性的現有知識,還提供了一個結構化的方法來識別和解決其源頭的安全問題。這種方法對于旨在提高基于LLM的系統在各種應用和領域中的魯棒性和可靠性的研究人員和從業者來說,特別有價值。 1.3. 綜述的主要貢獻在這項綜述中,我們的主要貢獻總結如下

我們通過一個新的基于組件的框架,系統地調查了LLMs的安全問題,將關注點分類為訓練數據、模型訓練、提示、對齊和擴展。 * 我們將識別的風險與特定的LLM方法(特別是上下文學習、提示和強化學習)相關聯,從而更精確地理解安全問題的技術來源。 * 我們結合了對LLM提示和對齊技術與人類偏好的綜合分析,彌合了理論安全問題和實際評估方法之間的差距。 * 我們將模型對齊的討論置于廣泛的AI安全文獻中,探索了關于語言模型的不同哲學觀點,以及它們與AI代理安全的獨特對待方式。根據我們的研究,我們區分了強化學習策略,無論代理是否設計為語言助手,都可以在任何相互設置中嵌入與人類相關的安全措施。 * 通過這種還原主義方法,我們匯集了當前文獻中的各種觀點,提出了一個獨特且有組織的框架,以定位和解決LLM安全問題。這種方法為識別最有效的干預點提供了關鍵見解,為專注于提高LLM基于系統安全性的研究人員和從業者提供了重要視角。

1.4. 綜述的提綱在這項工作中,第2節提供了LLMs的簡要背景。本文隨后提出了一個全面的安全問題和挑戰分類法,分為五個主要類別,如表1所示。第3節的數據安全解決了有害性、偏見、數據隱私和版權侵犯等問題。第4節的模型安全探討了虛假信息、評估問題、可解釋性挑戰和推理隱私問題。第5節的提示安全或使用安全重點關注潛在攻擊,如提示注入和越獄,以及防御策略。第6節的對齊或倫理安全深入探討了對齊的哲學方面、中立對齊方法、大型語言模型的價值對齊以及對齊LLMs與人類價值和倫理原則的方法。最后,第7節的規模安全性研究了可擴展的監督機制、涌現能力、知識蒸餾技術以及大規模模型的災難性遺忘風險。這種結構化的方法提供了GAI-LLMs研究中安全領域的全面概述。我們在第8節中提出了一些未來值得研究的趨勢,并在第9節對本次綜述進行了總結。

付費5元查看完整內容

將大型語言模型(LLMs)與圖表示學習(GRL)的整合標志著分析復雜數據結構的一次重要進化。這種合作利用LLMs的復雜語言能力來提高圖模型的上下文理解和適應性,從而擴大了GRL的范圍和潛力。盡管越來越多的研究致力于將LLMs整合到圖領域,但顯著缺乏一篇深入分析這些模型內核組成部分和操作的全面綜述。我們的綜述通過提出一種新穎的分類法來填補這一空白,該分類法從新的技術角度將這些模型分解為主要組成部分和操作技術。我們進一步將近期文獻分解為兩個主要組成部分,包括知識提取器和組織器,以及兩種操作技術,包括整合和訓練策略,揭示了有效的模型設計和訓練策略。此外,我們識別并探索了這一新興但尚未充分探索的領域中潛在的未來研究方向,提出了持續進步的路徑。

付費5元查看完整內容

盡管大型語言模型(LLMs)的表現令人印象深刻,但由于在推理過程中需要大量的計算和內存資源,它們的廣泛應用面臨挑戰。最近在模型壓縮和系統級優化方法方面的進展旨在增強LLM的推理能力。本綜述提供了這些方法的概覽,強調了近期的發展。通過對LLaMA(/2)-7B的實驗,我們評估了各種壓縮技術,為高效部署LLM提供了實用的見解。在LLaMA(/2)-7B上的實證分析突出了這些方法的有效性。借鑒綜述洞察,我們識別了當前的局限性,并討論了提高LLM推理效率的潛在未來方向。我們在//github.com/nyunAI/Faster-LLM-Survey上發布了代碼庫,以復現本文中呈現的結果。

大型語言模型(LLMs)的出現,特別是通過如GPT [Brown et al., 2020]和LLaMa [Touvron et al., 2023a; Touvron et al., 2023b]系列等模型的顯著標志,為與語言相關的任務開啟了新的革命,這些任務范圍從文本理解和總結到語言翻譯和生成。這些通常由數十億參數組成的模型,在捕捉復雜模式、細節豐富的上下文和自然語言的語義表達方面展現出了卓越的性能。因此,它們已成為各種應用中不可或缺的工具,推動了人工智能、信息檢索和人機交互等多個領域的發展。 盡管LLMs的性能無與倫比,但它們廣泛應用受到了巨大的計算和內存需求的阻礙,這在資源受限的環境中部署它們時構成了挑戰。例如,加載一個LLaMa-70B模型需要140GB的VRAM,這還不包括模型推理所需的內存。對高效部署的需求促使近期研究開始關注模型壓縮以及特別為LLMs量身定制的系統級修改技術。這些早期工作已經識別出改進LLMs推理效率的潛在方法。然而,當前的改進往往伴隨著模型性能的顯著下降,需要確定新的研究方向來找到解決這一問題的理想解決方案。 最近的一項綜述研究提供了最新提出的LLM壓縮方法的簡明概覽,以及用于基準測試它們的評估指標和數據[Zhu et al., 2023]。然而,為了進一步推動研究前沿,朝著LLMs的實際推理改進方向努力,還缺少一項全面的研究。在本綜述論文中,我們探索旨在通過模型壓縮以及系統級優化使LLMs高效的現有方法。為了公平比較各種方法,我們提供了使用不同壓縮技術對LLaMa(/2)-7B應用的經驗觀察。我們的評估包括了提供實際優勢的方法,包括現有文獻中不同推理引擎提供的結構化剪枝、量化和系統級優化。我們分享從這些實驗中獲得的寶貴見解,以呈現高效LLMs的有用和實際理解。此外,我們還將與實驗相關的代碼和基準測試公開。我們還檢查了當前壓縮方法在通用深度學習以及特別為LLMs提出的方法中的困難,并討論了克服這些問題的潛在研究方向。 總的來說,本文的貢獻如下。

我們提供了模型壓縮領域的簡要概述,強調了對輕量化和加速LLMs領域作出顯著貢獻的基本方法。

作為模型壓縮的補充,系統級修改在加速LLM推理中發揮了重要作用,我們也討論了這些方法。

為了提供一個實踐視角,我們對在標準化設置下的LLMs的知名壓縮方法進行了實證分析。從中得到的洞察可以幫助根據部署環境做出有關選擇LLM壓縮方法的明智決定。

基于我們的綜述和實證分析得出的見解,我們系統地指出了現有的局限性,并提出了實現LLM推理最佳效率的可行途徑

付費5元查看完整內容

大型語言模型(LLMs)在自然語言處理領域表現出令人印象深刻的影響,但它們仍然在完整性、時效性、可靠性和適應性等方面存在一些問題。雖然最近的努力集中在將LLMs與外部知識源連接上,但知識庫(KBs)的集成仍未得到充分研究,并面臨一些挑戰。本文介紹了KnowledGPT,一個將LLMs與各種知識庫連接起來的綜合框架,促進知識的檢索和存儲。檢索過程采用思維提示程序,該程序以代碼格式生成用于KB操作的搜索語言。除了檢索外,KnowledGPT還提供了將知識存儲在個性化KB中的能力,以滿足個人用戶的需求。通過廣泛的實驗,我們表明,通過將LLMs與KBs集成,KnowledGPT與普通LLMs相比,能夠適當地回答更廣泛的需要世界知識的問題,利用廣泛存在的KBs中的知識和提取到個性化KB中的知識。

付費5元查看完整內容
北京阿比特科技有限公司