亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

博弈論為分析理性決策者之間的戰略互動建立了一個基本框架。大語言模型(LLMs)的快速發展激發了大量研究,探索這兩個領域的交集。具體來說,博弈論方法正被應用于評估和增強大語言模型的能力,同時大語言模型本身也在重塑經典的博弈模型。本文提供了這兩個領域交集的全面綜述,從三個方面探討了其雙向關系:(1) 建立基于博弈的標準化基準來評估大語言模型的行為;(2) 利用博弈論方法通過算法創新提升大語言模型的性能;(3) 通過博弈建模刻畫大語言模型對社會的影響。在這三個方面中,我們還重點強調了大語言模型的先進語言理解如何影響傳統博弈模型的均衡分析,進而擴展了博弈論的研究。最后,本文識別了當前領域中的主要挑戰和未來的研究方向,并根據現有研究的狀態評估其可行性。通過將理論嚴謹性與新興的人工智能能力結合,本文旨在促進跨學科的合作,并推動這一不斷發展的研究領域的進展。

1 引言

博弈論為分析理性主體之間的戰略互動提供了一個數學框架,自從其奠基性著作[Von Neumann and Morgenstern, 2007]以來,博弈論經歷了顯著的發展。幾十年來,它已經建立了強大的方法論基礎,包括均衡分析[Nash Jr, 1950]和機制設計[Vickrey, 1961],這些方法已成為經濟學和計算機科學等學科中不可或缺的分析工具。 隨著大語言模型(LLMs)的快速發展,研究人員越來越多地探索博弈論與大語言模型之間的交集。越來越多的研究調查了博弈論原理如何用于評估和提升大語言模型的能力,以及大語言模型如何對博弈論做出貢獻。具體來說,現有的研究應用博弈論來開發理論框架,以評估大語言模型的戰略推理能力,優化其訓練方法并分析其社會影響。關鍵的研究方向包括:

  • 標準化基于博弈的評估:研究人員正在構建基準環境,如矩陣博弈[Akata et al., 2023]和拍賣[Chen et al., 2023],以系統地評估大語言模型的戰略推理能力。
  • 博弈論算法創新:來自合作博弈和非合作博弈論的概念,如Shapley值[Enouen et al., 2024]和最大-最小均衡[Munos et al., 2024],啟發了新的模型可解釋性和訓練優化方法。
  • 社會影響建模:隨著大語言模型改變信息生態系統,新的理論框架正在涌現,以預測人類與AI互動的社會后果[Yao et al., 2024],特別是在廣告市場[Duetting et al., 2024]和內容創作[Fish et al., 2024a]等領域。

除了這些應用,最新的研究還表明,大語言模型也可以通過促進復雜文本場景中的均衡分析,以及將經典博弈模型擴展到更現實的設置,貢獻于博弈論。 現有的綜述[Zhang et al., 2024b; Feng et al., 2024; Hu et al., 2024]主要探討博弈論如何用于構建評估環境以及評估大語言模型的戰略表現。例如,[Zhang et al., 2024b]根據用于測試大語言模型能力的博弈場景將研究進行了分類,并討論了改進推理能力的方法。與此同時,[Feng et al., 2024]和[Hu et al., 2024]將大語言模型在博弈中所需的核心能力(如感知、記憶、角色扮演和推理)進行了分類。盡管這些綜述提供了有價值的見解,但它們主要聚焦于博弈論在標準化評估框架中的作用,忽略了它在推動大語言模型發展的更廣泛潛力。此外,它們采用了單向視角,將博弈論視為評估大語言模型的工具,而沒有探討這兩個領域之間的相互影響。 本文旨在彌補這一空白,探討博弈論與大語言模型之間的雙向關系。我們將博弈論與大語言模型交集的研究劃分為三個關鍵視角,如圖1所示。根據我們所知,這是首次對這兩個領域之間的雙向關系進行全面分析。 在第2節中,我們回顧了應用博弈模型評估大語言模型決策能力的研究。通過在經典矩陣博弈和復雜戰略場景中進行的實驗,揭示了大語言模型作為博弈者的優勢和局限性。除了行為評估外,我們還確定了提升大語言模型戰略決策的關鍵策略,如遞歸推理框架和將大語言模型與輔助模塊結合的方式。此外,大語言模型展示了將現實世界場景形式化為結構化博弈模型的能力,進而將博弈論分析擴展到更廣泛和復雜的背景中。 第3節探討了博弈論原理如何應對大語言模型開發中的關鍵挑戰。我們將現有的研究分為兩個主要領域:(1) 使用博弈論理解大語言模型的文本生成和訓練動態;(2) 利用博弈論機制提升大語言模型訓練算法。第一個領域探討了Shapley值如何提高模型的可解釋性,以及社會選擇理論如何促進人類與AI互動中的偏好對齊。第二個領域介紹了將博弈論目標納入研究,以解決人類偏好的異質性和復雜性等挑戰。目標包括在多智能體互動中最小化遺憾以及評價指標,如納什均衡收斂性。 第4節討論了博弈論如何用于預測和刻畫大語言模型的社會影響。人類-人工智能互動博弈模型預測了人類與AI之間競爭的影響。新興的博弈模型突出了大語言模型作為產品或平臺的商業和經濟影響。同時,經典的博弈論模型也在大語言模型獨特能力的背景下進行了推廣,例如自然語言處理。 最后,我們識別了跨這些維度的主要研究挑戰和未來方向。通過系統地分析博弈論與大語言模型的交集,我們突出了它們之間的相互影響,以及它們如何推動兩個領域的進展,為這一跨學科領域的發展做出貢獻。

2 博弈論在大語言模型評估中的應用

在本節中,我們探討大語言模型(LLMs)在博弈論框架下的應用,重點評估它們作為博弈參與者的表現。行為評估表明,大語言模型在經典矩陣博弈中面臨著識別最優行動的挑戰,但在更復雜的博弈場景中,它們能展示出類人策略。多個研究已探討了提升大語言模型作為博弈玩家表現的方法,其中兩個關鍵點是遞歸思維和輔助模塊。最后,我們還討論了大語言模型在博弈中的角色,超越其作為玩家的功能。

**2.1 大語言模型行為表現的評估

大語言模型在矩陣博弈中的困難。矩陣博弈是博弈論中的一個基礎概念。在矩陣博弈中,兩名玩家同時做出決策,結果可以通過一個有限的收益矩陣表示。最近的研究探討了大語言模型如何通過將這些博弈轉化為自然語言提示來應對這些博弈。盡管取得了顯著進展,研究結果顯示,大語言模型(如GPT-4)在2 × 2矩陣博弈中難以始終如一地選擇最優策略[Akata et al., 2023; Herr et al., 2024; Loré and Heydari, 2024; Wang et al., 2024]。 例如,[Akata et al., 2023]指出,大語言模型在協調博弈中,如性別之戰,經常未能選擇最優行動。類似地,[Loré and Heydari, 2024]研究了語境框架和效用矩陣如何影響大語言模型的決策,揭示了顯著的偏差。此外,[Herr et al., 2024]探討了游戲描述、玩家定位和收益對大語言模型表現的影響,突出了持續的行為偏差。在更動態的環境中,[Fan et al., 2024]觀察到,大語言模型在環形網絡博弈中難以預測最優策略。此外,用于評估大語言模型在144種不同2 × 2矩陣博弈中的表現的TMGBench基準進一步確認了這些局限性[Wang et al., 2024]。 矩陣博弈是博弈論的基石,也是更復雜戰略問題的基礎。研究大語言模型在這些博弈中的行為為我們提供了對它們在復雜推理任務中的局限性的寶貴洞見。 大語言模型在現實博弈場景中的類人策略。除了經典的矩陣博弈,許多研究分析了大語言模型在更現實的博弈環境中的表現。盡管這些博弈具有更大的語境復雜性,但對大語言模型來說,它們不一定更具挑戰性。這是因為基于文本內容的戰略推理有時可以替代顯式的計算。 研究表明,大語言模型能夠在基于交流的博弈中表現出戰略行為。在欺騙與談判博弈中,包括狼人殺[ Xu et al., 2023; Du and Zhang, 2024]和阿瓦隆[ Wang et al., 2023; Lan et al., 2024],大語言模型表現出欺騙、建立信任和領導力等行為——這些特質通常與人類的戰略思維相關。這些發現表明,大語言模型能夠在博弈中充當復雜的交流代理。 大語言模型在經濟學重要的博弈場景中也展示了戰略推理,如討價還價和定價博弈。例如,[Deng et al., 2024]發現大語言模型具有先進的談判技巧,[Fish et al., 2024b]表明基于大語言模型的定價代理可以自主進行價格串通,設置高于競爭水平的價格。在拍賣環境中,[Guo et al., 2024]發現大語言模型能夠根據歷史數據制定理性競標策略,通常趨向于納什均衡。類似地,[Chen et al., 2023]介紹了AucArena平臺,展示了大語言模型如何有效管理預算并優化拍賣策略。 游戲表現的綜合基準。這些發現表明,遞歸推理可以顯著提升大語言模型的戰略能力。

**2.2 提升大語言模型的博弈表現

在評估大語言模型在各種博弈中的表現的基礎上,許多研究探討了提升它們戰略推理和決策能力的方法。這些研究解決了大語言模型在博弈過程中面臨的關鍵挑戰,并提出了改善其能力的通用框架。以下,我們概述了兩種重要的方法。 遞歸思維。在需要長期或多層次推理的博弈中,大語言模型常常難以保留和利用之前的信息,導致次優決策。為了緩解這一問題,研究人員開發了鼓勵大語言模型進行遞歸思維的技術,使它們在制定戰略時能更好地利用過去的信息。 例如,[Wang et al., 2023]提出了遞歸思考(ReCon)框架,該框架在阿瓦隆游戲中鼓勵大語言模型進行一階和二階視角推理。這有助于它們避免常見的陷阱,如欺騙。類似地,[Duan et al., 2024a]提出了一種方法,讓大語言模型預測多回合博弈中的未來行動,從而提高它們預測對手策略的能力。此外,[Zhang et al., 2024a]通過k級理性推動大語言模型的推理,這增強了其多層次思維,并顯著提高了其在競爭環境中的勝率。 輔助模塊。作為語言模型,大語言模型通常在需要復雜數學計算或歷史數據檢索的博弈中表現不佳。一些研究提出了集成輔助模塊,幫助大語言模型在博弈過程中克服這些局限。 例如,[Gandhi et al., 2023]提出了一個“提示編譯器”,該編譯器系統性地指導大語言模型評估行動并形成信念,使它們能夠通過最小的上下文學習在新場景中進行推廣。在狼人殺游戲中,[Xu et al., 2023]將額外的BERT模型集成進來,用于編碼歷史和當前的游戲狀態,幫助大語言模型做出更有信息支持的決策。在討價還價博弈中,OG-Narrator框架[Xia et al., 2024]生成外部報價,允許大語言模型專注于談判語言。最近,[Hua et al., 2024]開發了一種結構化工作流程,幫助大語言模型解決博弈論問題,包括計算納什均衡和在復雜談判任務中優化策略。 這些輔助模塊顯著提升了大語言模型在各種博弈環境中的表現,證明了集成額外計算工具能夠增強它們的戰略決策能力。

**2.3 超越博弈參與者的角色

盡管大部分討論集中在利用基于博弈的場景評估大語言模型,但研究也表明,大語言模型在博弈中的能力反過來可以貢獻于博弈論。本節探討了大語言模型在博弈論框架中的替代角色,擴展了它們的應用。 在2.1節中,我們提到大語言模型在經典矩陣博弈中常常難以計算最優策略。然而,一些研究采取了替代方法,利用大語言模型的自然語言理解能力,而不是直接計算均衡。例如,[Mensfelt et al., 2024]利用大語言模型將博弈描述形式化為博弈描述語言(GDL),使外部求解器能夠處理這些描述。類似地,[Deng et al., 2025]提出了一個兩階段框架,用于翻譯廣義形式的博弈:首先,大語言模型識別信息集,然后它通過上下文學習構建完整的博弈樹。這些研究表明,大語言模型可以充當自然語言到正式博弈結構的轉換中介,提供了超越傳統模型的能力。 此外,[Horton, 2023]探討了將大語言模型用作行為經濟學實驗中的人類參與者替代品。研究結果表明,大語言模型能夠復制經典的行為經濟學結果,為社會科學研究提供了一種可擴展、成本效益高的替代方案。這突顯了大語言模型在實驗經濟學和社會科學研究中的潛力,能夠促進大規模模擬并深入洞察人類決策過程。

3. 博弈論在算法創新中的應用

本節探討博弈論原理如何通過指導算法創新來推動大語言模型(LLMs)的發展。博弈論在增強我們對LLMs的理解方面發揮了重要作用,主要通過使用Shapley值社會選擇模型等工具。這些方法為模型的可解釋性提供了寶貴的見解,使我們能夠更深入地理解LLMs如何處理和響應輸入。除了可解釋性,博弈論還為開發訓練目標和評估指標提供了框架,以應對LLM開發中的關鍵挑戰,例如模型異構性和與人類偏好的一致性。

**3.1 博弈論用于LLMs的現象學理解

這一研究方向將經典博弈論概念應用于解釋LLMs中的可觀察現象,包括文本生成模式和特定框架下訓練的固有局限性。鑒于LLMs通常因其專有性質和大規模復雜性而被視為“黑箱”,此類研究尤為重要。一種方法將合作博弈論與LLMs聯系起來,因為這些模型對輸入標記執行并行計算,并圍繞Transformer層構建。Shapley值(Shapley, 1953)是一種用于評估合作博弈中個體玩家貢獻的方法,已被用于評估特定標記和層對LLM生成輸出的影響。多項研究利用Shapley值評估提示中標記的重要性(Goldshmidt和Horovicz, 2024;Mohammadi, 2024)。例如,Mohammadi(2024)證明,LLMs通常為信息量較少的輸入組件分配過高的權重,這種行為與錯誤響應密切相關。TokenSHAP(Goldshmidt和Horovicz, 2024)通過蒙特卡洛采樣提高了Shapley值計算的效率,而TextGenSHAP(Enouen等, 2024)將該方法擴展到更長的結構化輸入-輸出場景。Liu等(2023)將Shapley值應用于多提示學習,識別出對集成生成最具影響力的提示。Zhang等(2024c)分析了LLM層的貢獻,發現早期層對輸出生成的影響更為顯著。另一個研究方向使用社會選擇理論來建模LLMs與多樣化人類偏好的一致性。該框架有助于解決LLMs與人類價值觀和決策過程對齊的挑戰(Mishra, 2023)。例如,Conitzer等(2024)分析了基于人類反饋的強化學習(RLHF)在表達人類偏好中的作用,識別出由偏好沖突引起的基本問題,并倡導在社會選擇原則下進行LLM對齊。Ge等(2024)將RLHF獎勵建模視為社會選擇過程,證明基于Bradley-Terry的方法存在違反關鍵公理的內在局限性。Qiu(2024)提出了一個代表性社會選擇框架,通過提取一小部分代表性意見來有效管理大規模偏好聚合。此外,一些研究應用博弈論來建模對齊和解碼策略。Zhang等(2024e)研究了現實世界LLM應用的社會技術影響,倡導通過激勵兼容性確保AI系統與社會目標一致并保持技術穩健性。Chen等(2025)將LLM解碼過程建模為Stackelberg博弈,其中解碼器先行動,對抗實體隨后行動。通過分析雙方的最優策略,他們的研究為啟發式采樣策略在實踐中表現良好提供了理論依據。

**3.2 博弈論用于激發LLM算法

除了增強對LLMs的理解,博弈論在設計提升其能力的算法中也發揮了關鍵作用。本節重點介紹了LLM訓練中的幾個關鍵挑戰,并說明博弈論如何應用于解決這些問題。通用人類偏好:標準的基于獎勵的RLHF僅限于捕捉傳遞性偏好(Munos等, 2024)。然而,偏好模型可以通過比較兩種策略來表達更一般的偏好,而不是為每個響應分配獎勵。這為基于偏好模型優化LLM引入了新的挑戰。基于人類反饋的納什學習(NLHF)旨在優化由偏好模型定義的博弈的馮·諾依曼贏家,為策略優化提供了一個可行且穩健的方向。基于NLHF,SPO(Swamy等, 2024)引入了表達更復雜偏好的方法,例如非傳遞性、隨機性和非馬爾可夫偏好。SPPO(Wu等, 2025)設計了一種算法,能夠在大規模語言模型中高效實現類似SPO的算法。DNO(Rosset等, 2024)通過基于回歸的目標改進了LLM優化,實現了更高效和直接的訓練。INPO(Zhang等, 2024d)引入了一種可以直接在偏好數據集上最小化的損失函數,進一步減少了NLHF中計算勝率的時間開銷。然而,Zhi-Xuan等(2024)的最新研究指出,基于偏好的方法過于簡化了人類價值觀,忽略了其復雜性、不可公度性和動態性。因此,設計更穩健的方法來對齊人類偏好仍然是一個持續的科學挑戰。人類偏好的異質性:捕捉人類注釋數據集中的異質性仍然是LLM對齊中的一個重大挑戰。忽略這種異質性通常會導致模型僅反映多數人的偏好(Fleisig等, 2023)。多項研究使用社會選擇理論開發了更具包容性的訓練和對齊算法(Chakraborty等, 2024b;Park等, 2024;Alamdari等, 2024;Chen等, 2024a)。Chakraborty等(2024b)證明了使用單一獎勵模型的不切實際性,并提出了平等主義原則來學習偏好分布。Park等(2024)建議對偏好進行聚類,并提出了一種可擴展的、激勵兼容的偏好對齊框架。Alamdari等(2024)使用Borda計數分位數公平性進行偏好聚合,確保公平性和計算可行性。Chen等(2024a)引入了一種混合建模框架來聚合異質偏好。此外,Klingefjord等(2024)從宏觀角度審視了人類偏好與訓練目標之間的差距,從哲學角度提供了解決方案。數據成本效率:博弈論還被應用于提高LLM訓練的成本效率。收集具有保證質量和覆蓋范圍的數據集通常具有挑戰性,因此一些研究使用自我博弈框架來提高數據利用率,減少所需數據量同時保持性能。Chen等(2024b)解決了僅用少量黃金標準數據微調模型的問題。借鑒生成對抗網絡(GANs)(Goodfellow等, 2020),它允許LLM在區分其響應與黃金標準答案的同時提高答案質量,最終收斂到黃金標準數據的分布。Cheng等(2024a;Zheng等, 2024)將攻擊者和防御者之間的博弈建模為兩個LLM之間的博弈。Zheng等(2024)使用攻擊者提出防御者不擅長的提示,而防御者不斷改進。Cheng等(2024a)考慮了一種經典游戲——對抗禁忌,以在不引入新數據的情況下增強模型知識獲取,從而在實驗中表現更好。此外,Zhang和Duan(2024)通過將拍賣模型納入LLM微調過程,提高了偏好數據收集的效率,證明了這種方法可以在保持強性能的同時提高微調效率。其他雙人博弈模型:除了上述文獻,一些研究在LLM的特定階段制定了其他雙人博弈模型,以增強特定能力。Chakraborty等(2024a;Makar-Limanov等, 2024;Cheng等, 2024b)將獎勵模型與LLM之間的交互建模為雙人博弈。他們的目標是解決靜態獎勵模型無法處理LLM策略分布變化的問題。他們的博弈論建模捕捉了獎勵模型和LLM的共同演化,并使用均衡求解算法提供了理論上有保證的LLM訓練方法。Jacob等(2023)觀察到,同一LLM對問題的生成性和判別性答案通常不一致。他們建模了共識博弈,其中這兩種類型的答案作為尋求共識答案的玩家。通過使用均衡求解算法,這種方法顯著提高了LLM在各種數據集上的準確性。此外,Gemp等(2024)將LLM生成長文本對話的過程建模為順序博弈,使用博弈論工具增強模型理解對話并生成適當響應的能力。

4 博弈論在LLM相關建模中的應用

本節概述了涉及大語言模型(LLMs)的博弈論模型研究。這些模型的理論分析為LLMs對人類社會的影 響提供了證據。我們將文獻分為三個主要領域。第一個領域探討了同時包含LLMs和人類的博弈論模型,旨在解釋或預測LLMs發展帶來的現象。第二個領域研究了LLMs作為產品或平臺的場景,這創造了具有博弈論動態的競爭環境,例如廣告拍賣。第三個領域擴展了經典博弈論模型,探討了LLMs的獨特能力如何推廣和完善這些模型,以應對更復雜和現實的場景。

**4.1 LLM與人類之間的競爭

這一系列研究引入了多種競爭模型,將LLMs視為博弈中的玩家(Yao等, 2024;Esmaeili等, 2024;Taitler和Ben-Porat, 2024)。這些模型通常源于一個認識:現代LLMs具有強大的內容生成能力,與人類創作者相比,其成本更低且進化速度更快。Yao等(2024)通過提出基于Tullock競賽的競爭模型,研究了LLMs對人類創作者的影響。該模型探討了人類生成內容與LLM生成內容之間的動態關系,將LLMs建模為成本為零的玩家,其輸出質量隨著人類內容質量的提高而提升。通過均衡分析,研究得出結論:LLMs并不會從根本上與人類創作者沖突或取代他們,而是會減少人類生成內容的數量,最終淘汰效率較低的創作者。Esmaeili等(2024)將該模型擴展到重復博弈環境中,重點關注人類如何在動態競爭中優化其效用。研究強調了確定最優策略的計算復雜性,并提出了提供接近最優解的實用算法。Taitler和Ben-Porat(2024)研究了基于LLM的生成式AI與人類運營平臺(如Stack Overflow)之間的競爭動態及其對社會福利的影響。該模型研究了LLMs的收入最大化問題,并揭示了類似于Braess悖論的現象:隨著人類用戶越來越依賴LLMs,原始平臺因缺乏質量提升數據而受損。此外,生成式AI模型很少進行旨在提高質量的訓練,因為成本節約的激勵措施占主導地位。研究還提出了解決這些問題的理論監管框架。LLMs的發展帶來了多樣化的社會效應,博弈論為研究這些效應提供了強大的理論框架。通過采用描述最優行為和均衡策略的適當模型,我們可以推導出具有理論保證的性質。

**4.2 伴隨LLMs出現的博弈場景

本節探討了由LLMs作為產品或平臺引發的博弈論場景。在這些場景中,LLMs并不參與博弈,而是圍繞它們展開。隨著LLMs獲得全球關注,與LLMs相關的行業正在創造巨大的商業價值。Laufer等(2024)探討了將通用模型微調作為市場服務的可行性。該研究建模了通用模型開發者與領域專家之間的談判過程。通過分析子博弈完美均衡,論文證明了利潤共享結果是可能的,并提供了確定帕累托最優均衡的方法。Sun等(2024a)研究了通過拍賣式過程為多個具有不同偏好的群體提供LLM微調服務的潛在經濟場景。研究提出了一種激勵兼容的支付方案,確保社會福利最大化。Mahmood(2024)分析了LLM部署的競爭動態,強調了市場信息的價值,并證明當任務足夠相似時,先發制人策略可能對所有任務都不具成本效益。Saig等(2024)提出了一種按偏好支付的合同設計模型,以解決當前按標記定價方案中潛在的道德風險。除了作為商品,LLMs還通過廣告收入提供潛在的商業價值,類似于搜索引擎。LLMs的出現使傳統的固定廣告位過時,促使多項研究探討將LLMs整合到廣告拍賣中(Feizi等, 2023)。Duetting等(2024)建模了一種場景,其中每個廣告商擁有一個代理LLM,并通過競價影響下一個生成標記的概率分布。研究通過修改第二價格拍賣機制,確保激勵兼容性。Dubey等(2024)假設每個廣告商提供固定的廣告副本,通過競價影響LLM生成的摘要。他們的拍賣機制確定了每個廣告商在摘要中的突出程度及其支付價格,確保激勵兼容性。Hajiaghayi等(2024)也假設每個廣告商擁有代表其內容的文檔,但在**檢索增強生成(RAG)**框架中建模廣告插入過程。該機制在LLM生成內容的每個話語段中概率性地檢索和分配廣告,基于競價和相關性優化對數社會福利。Soumalias等(2024)研究了一種場景,其中每個廣告商通過獎勵函數對LLM生成內容進行競價。他們的機制激勵廣告商真實報告獎勵函數,并在無需調優的環境中展示了操作可行性。

**4.3 LLM擴展經典博弈模型

除了上述兩個領域,本節還探討了利用LLMs增強傳統博弈論模型的研究,將其擴展到更現實的場景。LLMs的文本理解和生成能力使其成為聚合和激發意見的寶貴工具。Lu等(2024)探討了使用LLMs輔助同行評審,指出傳統的同行預測機制僅限于簡單的報告,例如多項選擇或標量數字。研究提出了利用LLMs強大文本處理能力的同行預測機制,以激勵高質量、真實的反饋。這些機制在實驗中能夠區分人類撰寫和LLM生成的評論。Fish等(2024a)使用LLMs解決傳統社會選擇理論的局限性,該理論僅限于在少數預定義替代方案中進行選擇。研究利用LLMs生成文本并推斷偏好,為設計具有嚴格代表性保證的AI增強民主進程提供了方法。Sun等(2024b)研究了LLMs如何在傳統拍賣中提供更豐富的信息。研究引入了語義增強的個性化估值拍賣框架,利用LLMs將競標者的偏好和語義項目信息整合到估值過程中。該框架將微調的LLMs與Vickrey拍賣機制相結合,以提高估值準確性和競標策略。

5 結論與未來方向

本綜述全面概述了LLMs與博弈論交叉領域的研究進展。我們從三個關鍵角度總結了博弈論在LLMs發展中的作用:提供基于博弈的標準化評估、推動博弈論算法創新以及建模LLMs的社會影響。此外,我們強調了LLMs與博弈論之間的雙向關系,探討了LLMs如何影響傳統博弈模型。基于對現有文獻的回顧,我們確定了博弈論與LLMs交叉領域的幾個有前景的未來方向。在以下部分中,我們概述了其中一些機遇和挑戰,以期推動這一多學科領域的發展。具有全面博弈能力的LLM代理:現有研究探索了在各種博弈場景中評估LLM代理,并開發了增強其推理能力的方法。然而,盡管其中一些方法展示了通用性,但其驗證仍然高度依賴于具體場景。一個關鍵的未來方向是開發精通博弈論推理的LLM代理,能夠在無需顯式定制的情況下將其知識應用于多樣化的博弈場景。實現這一目標需要在規則理解、外部環境建模和多代理推理方面取得進展。關鍵技術方面包括構建博弈論語料庫、優化微調策略以及整合工具學習技術。超越以人類為中心的評估框架:博弈論為理性和策略推理提供了完善的評估標準,例如K級理性,這些標準已被廣泛用于評估LLM智能。然而,這些評估方法最初是為人類認知設計的,可能無法完全捕捉基于下一個標記預測模型的推理過程。為了從博弈論角度全面評估LLMs,必須超越現有的以人類為中心的指標,開發專門針對基于神經網絡的模型的評估框架。這仍然是一個未充分探索的領域,具有顯著提升我們對LLMs決策理解潛力。LLMs策略行為的理論理解:將博弈論概念(如Shapley值)應用于理解LLMs的文本生成行為仍處于早期階段。大多數關于LLMs在現實場景中策略行為的研究依賴于實證觀察,而非系統的理論解釋。例如,Park等(2025)引入了假設模型來解釋為什么LLMs在重復博弈中難以達到無遺憾學習者的表現水平。將此類理論研究擴展到更復雜的場景(如狼人殺、阿瓦隆或討價還價博弈)至關重要。對LLM策略行為的更深入理論理解將有助于定義其能力邊界,并為進一步提高其推理能力提供見解。捕捉LLM優化中的合作博弈:許多利用博弈論優化LLM訓練的研究(如第3.2節所述)主要關注非合作博弈場景。盡管非合作方法是一個自然的選擇,但合作博弈論方法為LLM優化提供了額外的見解。例如,在專家混合模型中,不同的專家網絡可以被視為合作博弈的參與者。采用合適的收益分配機制(如Shapley值或核心概念)可以優化專家選擇和任務分配,減少冗余并提高計算效率。類似地,在集成學習和知識蒸餾中,不同的子模型可以被視為協作代理,共同優化決策邊界或轉移知識。有效的獎勵分配和權重調整策略可以增強子模型之間的協作,減少冗余計算并提高泛化能力。將合作博弈論方法整合到LLM訓練和優化中,可能提供新的理論見解和實際解決方案。多LLM與人類合作的建模:如第4.1節所述,先前的研究主要集中在建模LLMs與人類之間的競爭互動,揭示了其社會影響。然而,除了競爭,理解多個LLMs與人類之間的合作動態仍然是一個重要的研究方向。一個關鍵挑戰是設計激勵機制,激勵LLMs在完成人類分配任務時進行協作,同時考慮其目標。對LLM代理目標和行為的理論描述對于彌合博弈論機制設計與實際部署之間的差距至關重要。推進這一研究方向可能有助于開發更有效地與人類目標一致并對社會產生積極影響的LLMs。利用LLMs作為預言機擴展理論博弈模型:如第4.3節所述,多項研究探討了如何利用LLMs擴展經典博弈論模型。這些研究的關鍵見解是,LLMs憑借其強大的語言理解和生成能力,可以作為博弈論框架中具有特定功能的預言機。這一視角為放寬理想化假設或使用LLMs替代各種博弈模型中的理論預言機提供了新的機會。通過這種方式,以前僅停留在理論層面的模型現在可以實際實施,同時保留近似的理論性質。系統探索LLMs如何在不同理論模型中作為適應性預言機,可以彌合抽象博弈論概念與實際應用之間的差距。

付費5元查看完整內容

相關內容

博弈論(Game theory)有時也稱為對策論,或者賽局理論,應用數學的一個分支,目前在生物學、經濟學、國際關系、計算機科學、政治學、軍事戰略和其他很多學科都有廣泛的應用。主要研究公式化了的激勵結構(游戲或者博弈)間的相互作用。是研究具有斗爭或競爭性質現象的數學理論和方法。也是運籌學的一個重要學科。

推薦系統是許多在線平臺的核心組成部分,但傳統方法在理解復雜用戶偏好和提供可解釋推薦方面仍然面臨困難。大型語言模型(LLM)驅動的智能體的出現為此提供了一種有前景的方法,通過實現自然語言交互和可解釋推理,可能會徹底改變推薦系統領域的研究。本文綜述系統地回顧了LLM驅動的智能體在推薦系統中日益增長的應用。我們識別并分析了當前研究中的三種關鍵范式:(1)面向推薦的方式,利用智能體增強基礎推薦機制;(2)面向交互的方式,通過自然對話和可解釋建議促進動態用戶參與;(3)面向仿真的方式,采用多智能體框架來模擬復雜的用戶-物品交互和系統動態。除了范式分類之外,我們還分析了LLM驅動的推薦智能體的架構基礎,研究其核心組成部分:個人資料構建、記憶管理、戰略規劃和行動執行。我們的研究還擴展到對該領域基準數據集和評估框架的全面分析。這一系統性研究不僅闡明了LLM驅動的推薦系統智能體的當前狀態,還為該變革性領域中的關鍵挑戰和有前景的研究方向提供了指引。

1 引言

在信息爆炸的時代,推薦系統[Wu et al., 2022] 已成為數字平臺中不可或缺的組成部分,幫助用戶在電子商務、社交媒體和娛樂領域中瀏覽海量內容。盡管傳統的推薦方法[He et al., 2017]通過分析用戶偏好和歷史行為,成功地提供了個性化建議,但在實際應用中仍面臨諸多挑戰,如對復雜用戶意圖的理解不足、交互能力有限以及無法提供可解釋的推薦[Zhu et al., 2024b]。 近期,大型語言模型(LLM)的進展[Achiam et al., 2023]激發了越來越多的研究興趣,旨在利用LLM驅動的智能體[Wang et al., 2024a]來解決推薦系統中的上述挑戰。將LLM驅動的智能體融入推薦系統,相比傳統方法,具有若干顯著優勢[Zhu et al., 2024b]。首先,LLM智能體能夠理解復雜的用戶偏好,并通過其精密的推理能力生成上下文推薦,從而使得決策過程更加細致,超越簡單的特征匹配。其次,它們的自然語言交互能力促進了多輪對話,能夠主動探索用戶興趣并提供可解釋的解釋,增強了推薦準確性和用戶體驗。第三,這些智能體通過生成更加真實的用戶畫像,結合情感狀態和時間動態,徹底改變了用戶行為模擬,從而提高了系統評估的有效性。此外,LLM的預訓練知識和強大的泛化能力促進了跨領域的知識轉移,能夠以最少的額外訓練應對冷啟動等長期存在的挑戰[Shu et al., 2024]。 在本綜述中,我們全面回顧了LLM驅動的智能體在推薦系統中的應用。首先,我們介紹了傳統推薦系統的背景,并討論了它們在理解復雜用戶意圖、交互能力和可解釋性方面的局限性。接著,我們系統地審視了LLM驅動的智能體如何通過三種主要范式解決這些挑戰:面向推薦的(如[Wang et al., 2024b; Wang et al., 2024c])、面向交互的(如[Zeng et al., 2024; Friedman et al., 2023])和面向仿真的(如[Yoon et al., 2024; Guo et al., 2024])方法。然后,我們提出了一種統一的智能體架構,包含四個核心模塊(個人資料[ Cai et al., 2024; Zhang et al., 2024c]、記憶[ Shi et al., 2024; Fang et al., 2024]、規劃[ Wang et al., 2023b; Shi et al., 2024]、行動[ Zhu et al., 2024a; Zhao et al., 2024]),并分析了現有方法如何實現這些模塊。進一步地,我們編制了現有基準數據集(包括Amazon系列、MovieLens、Steam等)和評估方法的全面比較,涵蓋了傳統推薦指標和新興的評估方法。最后,我們探討了該領域幾個有前景的未來研究方向。

  • 我們提出了一個系統的LLM驅動推薦智能體分類,識別出三種基本范式:面向推薦的、面向交互的和面向仿真的方法。這個分類框架為理解當前的研究提供了結構化的視角。
  • 我們使用統一的架構框架分析LLM驅動的推薦智能體,將其分解為四個核心模塊:個人資料構建、記憶管理、戰略規劃和行動執行。通過這一框架,我們系統地審視了現有方法如何集成和實現這些組件。
  • 我們提供了現有方法、基準數據集和評估方法的全面比較分析,涵蓋了傳統推薦指標和專為LLM驅動推薦智能體設計的新興評估方法。

付費5元查看完整內容

隨著像 OpenAI O3 和 DeepSeek-R1 等先進推理模型的出現,大語言模型(LLMs)展現出了卓越的推理能力。然而,它們在執行嚴格邏輯推理方面的能力仍然是一個懸而未決的問題。本文綜述了大語言模型中邏輯推理的最新進展,這是人工智能研究中的一個關鍵領域。文章概述了大語言模型中邏輯推理的范圍、理論基礎以及用于評估推理能力的基準測試。我們分析了不同推理范式下現有的能力——演繹推理、歸納推理、溯因推理和類比推理——并評估了提升推理性能的策略,包括以數據為中心的調優、強化學習、解碼策略和神經符號方法。最后,本文展望了未來的研究方向,強調了進一步探索以增強人工智能系統邏輯推理能力的必要性。

付費5元查看完整內容

近年來,大規模語言模型(LLMs)的快速發展已經徹底改變了科學研究的格局,為研究周期的各個階段提供了前所未有的支持。本文呈現了首個系統性綜述,專門探討大規模語言模型如何革新科學研究過程。我們分析了LLMs在四個關鍵研究階段中所發揮的獨特作用:假設發現、實驗規劃與實施、科學寫作以及同行評審。我們的綜述全面展示了任務特定的方法論和評估基準。通過識別當前面臨的挑戰并提出未來的研究方向,本綜述不僅突出了LLMs的變革潛力,還旨在激發并指導研究人員和實踐者利用LLMs推動科學探究的發展。相關資源可在以下倉庫訪問://github.com/du-nlp-lab/LLM4SR。

1 引言

“如果我看得更遠,那是因為我站在巨人的肩膀上。” —— 艾薩克·牛頓科學研究流程是啟蒙時代系統性探究成就的見證 [17, 58, 58]。在這一傳統范式中,科學研究涉及一系列明確的步驟:研究人員首先收集背景知識,提出假設,設計并執行實驗,收集和分析數據,最后通過經過同行評審的手稿報告發現。這一循環過程促進了現代科學和技術的突破性進展,但仍受到人類研究人員所固有的創造力、專業知識、有限時間和資源的制約。幾十年來,科學界一直在努力通過自動化科學研究的各個方面來增強這一過程,旨在提高科學家的生產力。早期的計算機輔助研究可以追溯到1970年代,出現了如自動數學家(Automated Mathematician)[74, 75] 和 BACON [71] 等系統,這些系統展示了機器在定理生成和經驗法則識別等專門研究任務中的潛力。更近期,AlphaFold [62] 和 OpenFold [4] 等系統則展示了在某些特定研究任務中的開創性努力,顯著加速了相關領域的科學進展,提升速度達到數千倍。然而,直到基礎模型的出現和最近大規模語言模型(LLMs)[2, 154] 的爆發,跨多個研究領域的全面AI輔助才成為現實 [190]。近年來,LLMs取得了顯著的進展,改變了AI和自然語言處理(NLP)等多個領域。這些模型,如GPT-4 [2] 和LLaMA [154],在理解、生成和與人類語言互動方面設立了新的基準。通過大規模數據集和創新架構的支持,這些模型的能力已經超越了傳統的NLP任務,涉及更復雜和領域特定的挑戰。尤其是LLMs處理海量數據、生成類人文本以及在復雜決策中提供支持的能力,已經引起了科學界的廣泛關注 [92, 141]。這些突破表明,LLMs有潛力徹底革新科學研究的開展、記錄和評估方式 [156, 165, 174]。在這篇綜述中,我們探討了LLMs當前在科學研究過程中各個階段的應用。具體來說,我們識別了LLMs展現出顯著潛力的四項任務。首先,我們探討它們在科學假設發現中的應用,LLMs利用現有知識和實驗觀察來提出新的研究思路。接下來,我們回顧它們在實驗規劃和實施中的貢獻,LLMs在優化實驗設計、自動化工作流程和數據分析方面發揮了重要作用。我們還涵蓋了LLMs在科學寫作中的應用,包括生成引用、相關工作部分,甚至起草整篇論文。最后,我們討論了LLMs在同行評審中的潛力,LLMs通過自動化評審和識別錯誤或不一致來支持對科學論文的評估。對于每項任務,我們提供了方法論、基準和評估方法的全面綜述。此外,本綜述還識別了每項任務中的局限性,并突出了需要改進的領域。通過分析LLMs在研究周期各階段的貢獻,本綜述旨在激發研究人員探索新興概念、開發評估指標,并設計創新方法,推動LLMs在研究工作流程中的有效整合。

與現有綜述的比較

與之前的專門研究相比,本綜述提供了更廣泛和更全面的視角,涉及LLMs在整個科學研究周期中的應用。例如,Zhang等人 [187] 綜述了超過260種LLM在各學科科學發現中的應用,主要關注模型架構和數據集等技術層面,未將其角色置于更廣泛的研究過程背景中。類似地,其他綜述通常采用更狹窄的范圍,考察LLMs在一般應用中的特定能力,如規劃 [55] 或自動化 [158],而非其在科學研究工作流程中的集中應用。此外,一些研究討論了與特定研究階段相關的一般方法,但并未專注于LLMs本身,如相關工作和引用文本生成 [89] 或同行評審過程 [33]。相比之下,本綜述整合了這些零散的觀點,提供了LLMs在科學工作流程中貢獻的整體分析,并突出了它們在應對現代研究多樣化和不斷發展的需求中的潛力。

本綜述的結構

如圖2所示,本綜述的結構如下: * §2 討論了LLMs在科學假設發現中的應用,概述了相關方法論和關鍵挑戰。 * §3 聚焦于實驗規劃和實施,重點介紹LLMs如何優化和自動化這些過程。 * §4 深入探討了自動化論文寫作,包括引用和相關工作生成。 * §5 探索了LLMs輔助的同行評審。 對于每個主題,本綜述的結尾部分總結了當前的挑戰和未來方向,以應對這一快速發展的領域。

2. LLMs在科學假設發現中的應用

概述

在“LLMs用于科學假設發現”這一領域出現之前,最相關的前沿研究領域是“基于文獻的發現”和“歸納推理”。我們首先總結了這兩個相關領域的研究(作為歷史背景),然后總結了方法、基準、評估發展趨勢和重要進展,最后總結了發現任務中的主要挑戰。

科學發現的歷史

使用LLMs生成新的科學假設是一個新興的研究課題,主要源自兩個相關的研究領域,即“基于文獻的發現”和“歸納推理”。

**2.2.1 基于文獻的發現

基于文獻的發現(LBD)最早由Swanson[151]提出。其核心思想是“知識可以是公開的,但尚未被發現,如果獨立創建的片段在邏輯上相關但從未被檢索、匯集和解釋。”因此,如何檢索可以匯集以創造新知識的公共知識仍然是一個挑戰。Swanson[151]提出了LBD的經典形式化模型,即“ABC”模型,其中兩個概念A和C被假設為通過某個中間概念B在論文中共同出現而相關聯。最近的工作使用了詞向量[155]或鏈接預測模型[152; 160; 171]來發現概念之間的鏈接以組成假設。然而,經典的LBD方法沒有建模人類科學家在構思過程中考慮的上下文,并且僅限于預測離散概念之間的成對關系[47]。為了克服這些限制,Wang等人[159]首次嘗試將LBD置于自然語言上下文中以約束生成空間,并使用生成的句子作為輸出,而不僅僅是像傳統LBD那樣預測關系。LBD的另一個局限性是長期以來被認為僅適用于非常特定、狹窄類型的假設[159]。然而,科學發現的最新進展表明,LBD可能具有更廣泛的應用范圍。特別是,Yang等人[174]和Yang等人[176]分別與社會學和化學研究人員進行了廣泛討論,發現大多數現有的社會學和化學發表的假設(而不僅僅是狹窄類型的假設)都可以用LBD模式表述。這可能表明未來在社會學和化學中發表的假設也可能來自現有知識的正確鏈接和關聯。

**2.2.2 歸納推理

歸納推理是從特定的“觀察”中找到一個具有廣泛適用性的“規則”或“假設”[175]。例如,地心說、日心說和牛頓的萬有引力定律都是基于對恒星和行星運動的“觀察”提出的“規則”。科學發現是歸納推理的極端任務,其中每個“規則”都是一個新穎的科學發現。科學哲學界總結了歸納推理中“規則”的三個基本要求[113]:(1)“規則”不應與“觀察”相沖突;(2)“規則”應反映現實;(3)“規則”應呈現一個可以應用于比“特定”觀察更大范圍的通用模式,涵蓋觀察中不存在的新信息。之前的歸納推理研究主要由“歸納邏輯編程”社區進行[26],該社區使用形式語言和符號推理器。Yang等人[173]首次在NLP領域進行了生成性歸納推理的研究,即從特定的自然語言觀察中生成自然語言規則,并引入了科學哲學界對歸納推理的要求。受語言模型傾向于生成模糊且不具體規則的經驗啟發,他們提出了第四個要求:(4)“規則”應清晰且足夠詳細。第四個要求可能被科學哲學界忽視了,因為它太明顯了。受這些要求的啟發,Yang等人[173]設計了一種過度生成然后過濾的機制,利用語言模型先生成許多初步規則,然后過濾掉不符合要求的規則。隨后,開發了使用自我精煉代替過濾并使用更多推理步驟以獲得更好規則的方法[120, 163, 191, 194]。然而,這些工作試圖歸納的“規則”要么是已知知識,要么不是科學知識,而是合成的模式。Yang等人[174]首次嘗試將經典的歸納推理任務設置(發現已知/合成知識)擴展到真實的科學發現設置:利用LLMs從公開的網頁數據中自主發現新穎且有效的社會科學科學假設。具體來說,他們收集了關于社會科學概念的新聞、商業評論和維基百科頁面作為網頁數據來發現假設。Majumder等人[107, 108]進一步提出了“數據驅動發現”的概念,即利用網絡上的所有公共實驗數據(以及手頭的私人實驗數據)跨學科發現假設。他們的動機是,大量公開可用的實驗數據的潛力尚未得到充分利用,許多新穎的科學假設可以從現有數據中發現。

方法的發展

在科學發現的方法中,有一個明確的方法發展軌跡。我們首先介紹這一軌跡,然后探討其他方法。

**2.3.1 主要軌跡

總的來說,科學發現的這一方法發展軌跡可以被視為將更多關鍵組件納入方法中。表1總結了我們認為重要的關鍵組件,并指出每種方法是否包含這些組件。具體來說,它們是“靈感檢索策略”、“新穎性檢查器”、“有效性檢查器”、“清晰度檢查器”、“進化算法”、“利用多個靈感”、“假設排名”和“自動研究問題構建”。在這里,每個“關鍵組件”指的是已被證明對科學發現任務有效的詳細且獨特的方法論。我們排除了可能直觀上有幫助但尚不清楚如何從概念中提取特定方法對該任務有效的廣泛通用概念(例如工具使用)。接下來,我們介紹這些關鍵組件。對于每個關鍵組件,我們使用一到兩段文字進行簡要概述,總結其發展軌跡。本節中提到的每種方法的參考信息可以在表1中找到。靈感檢索策略。除了依賴背景知識外,基于文獻的發現(LBD)還促進了額外知識的檢索,作為提出新假設的靈感來源。SciMON[159]首次將LBD的概念引入發現任務,展示了新知識可以通過現有知識的鏈接組成。至關重要的是,靈感不應在之前已知與背景相關,或者至少不應以已知的方式與背景相關聯[176]。否則,假設將不會新穎。受經典LBD形式化中“ABC”模型的啟發,給定背景知識,SciMON檢索語義相似的知識、知識圖譜鄰居和引用圖譜鄰居作為靈感。具體來說,如果兩個知識的SentenceBERT[127]嵌入具有高余弦相似度,則它們被識別為“語義相似”;他們構建的知識圖譜遵循“[方法,用于,任務]”格式。ResearchAgent嚴格遵循“ABC”模型,構建概念圖,其中鏈接表示兩個連接的概念節點曾在同一篇論文中出現過。它檢索與背景概念在概念圖上連接的概念(概念共現)。Scideator基于語義匹配(語義學者API推薦)和概念匹配(包含相似概念的論文,同一主題、同一子領域和不同子領域)檢索靈感論文。SciPIP[164]從語義相似的知識(基于SentenceBERT)、概念共現和引用圖譜鄰居中檢索靈感。它提出了過濾方法,以過濾掉對概念共現檢索無用的概念。與選擇語義或引用鄰居作為靈感不同,SciAgents隨機抽樣另一個與背景概念在引用圖譜中通過長或短路徑連接的概念作為靈感。MOOSE[174]提出使用LLM選擇的靈感:給定研究背景和一些靈感候選者,并要求LLM從候選者中選擇靈感。然后MOOSE-Chem[176]也采用了這種方法。MOOSE-Chem假設在訓練了數億篇科學論文后,最先進的LLMs可能已經具備了一定的能力來識別背景知識的靈感以組成新知識的發現。MOOSE-Chem通過注釋2024年發表的51篇化學論文(這些論文僅在2024年在線提供)的背景、靈感和假設,分析了這一假設,并查看僅使用截至2023年的訓練數據的LLMs是否可以在僅給出背景的情況下檢索到注釋的靈感。他們的結果顯示檢索率非常高,表明這一假設可能基本正確。然后Nova也采用了LLM選擇的靈感,動機是利用LLM的內部知識來確定新想法的有用知識,應該能夠超越傳統的實體或關鍵詞檢索方法。反饋模塊。下一個關鍵組件是對生成的假設在新穎性、有效性和清晰度方面的迭代反饋。這些反饋首先由MOOSE提出,受歸納推理中對假設的要求啟發[113, 173]。這三個方面足夠客觀,可以給出反饋,并且每個方面對于一個好的假設都是必不可少的。

  • 新穎性檢查器。生成的假設應與現有文獻相比是一個新穎的發現。當假設傾向于與現有假設相似時,提供增強其新穎性的反饋可能有助于假設的制定。現有的新穎性反饋方法都基于LLMs。一般來說,有三種提供新穎性反饋的方法。第一種方法將每個生成的假設與相關綜述進行比較(MOOSE);第二種方法迭代檢索相關論文進行比較(SciM SciAgents, Scideator, CoI);第三種方法直接利用LLMs的內部知識進行評估(Qi, ResearchAgent, AIScientist, MOOSE-Chem, VirSci)。
  • 有效性檢查器。生成的假設應是有效的科學/工程發現,準確反映客觀宇宙[113]。真正的有效性反饋應來自實驗結果。然而,為每個生成的假設進行實驗既耗時又昂貴。因此,目前有效性反饋幾乎完全依賴于LLMs或其他訓練過的神經模型的啟發式方法。例外是FunSearch, HypoGeniC, LLM-SR, 和 SGA。具體來說,FunSearch是關于生成數學問題的代碼。編譯器和驗證代碼自然是高效且有效的驗證器;HypoGeniC和LLM-SR專注于數據驅動發現,這意味著它們可以訪問觀察示例,用于檢查與每個生成假設的一致性;SGA創建了一個虛擬物理模擬環境來模擬真實實驗。然而,有效性檢查器仍然是科學發現社區的一個重大挑戰。未來的研究方向包括機器人技術和自動化實驗室,可以自動進行濕實驗(例如生物學和化學實驗)以驗證生成的假設。對于計算機科學相關的假設,未來的研究方向可能是更先進的自動代碼實現系統。
  • 清晰度檢查器。生成的假設應足夠清晰地傳達信息并提供足夠的細節[173]。然而,LLMs傾向于生成細節不足的假設[159]。因此,提供清晰度反饋以細化假設并擴展細節將是有益的[174]。當前的方法(MOOSE, ResearchAgent, MOOSE-Chem, 和 VirSci)都采用LLMs進行自我評估清晰度。 進化算法。進化算法是受生物進化原理啟發的優化算法的一個子集。它假設存在一個“環境”,其中無法適應它的實體將被“淘汰”,而超級實體將從具有某種適應性的實體之間的特征“重組”中進化出來(此過程也稱為“突變”)。這一關鍵組件很重要,因為(1)真實的實驗評估和生成的假設的啟發式評估自然充當“環境”。(2)科學假設發現的本質從根本上可以看作是從僅已知知識輸入到未知但有效知識的突變。盡管目標相似,當前的科學發現方法以不同的方式利用進化算法。FunSearch首次將進化算法引入科學發現任務。他們采用了一種基于島嶼的進化算法,其中每個島嶼是一組相似的方法,每個島嶼不斷突變為新的假設。在某些時間間隔,一些排名最低的島嶼被“淘汰”,并由每個島嶼中表現最好的假設組成的新島嶼形成,鼓勵島嶼之間的優點“重組”。LLM-SR采用了類似的基于島嶼的進化算法。SGA將其作為“進化搜索”,即在每次迭代中生成多個后代并保留最佳選擇。他們還采用了進化交叉,其中LLMs從各種過去的實驗中生成新的假設,以更好地進行探索。MOOSE-Chem將其設計為“進化單元”,以更好地關聯背景知識和靈感知識。具體來說,給定背景和靈感知識,他們首先生成多個獨特的假設來關聯兩者。然后每個假設獨立細化,最后將細化的假設重新組合,以更好地將背景和靈感知識整合成一個連貫的假設。它鼓勵從相同輸入中進行不同的突變變體,并匯集每個突變變體的優點。利用多個靈感。這里討論的“利用多個靈感”(LMI)組件是關于明確識別多個靈感,以便這些識別的靈感將被全部利用到最終假設中(例如,以順序方式)。這很重要,不同的方法有不同的原因。MOOSE-Chem是第一個引入這一組件的,動機是觀察到許多學科如化學和材料科學通常需要多個靈感來制定一個完整且可發表的假設。具體來說,他們將看似無法解決的問題P(hypothesis|research background)分解為許多更小、更實際和可執行的步驟。他們通過為分解制定數學證明來實現這一點。一般來說,較小的步驟涉及識別起始靈感,基于背景和靈感組成初步假設,找到另一個靈感以解決初步假設中的空白,然后使用新靈感組成更新的假設,依此類推。他們通過利用多個靈感的目標是重新發現發表在《自然》或《科學》等高影響力期刊上的化學和材料科學假設。除了MOOSE-Chem,Nova還以連續的方式檢索多個靈感,但目標不同,即生成更多樣化和新穎的研究假設。他們的動機來自IGA的實驗結果,即生成的假設的多樣性趨于飽和。他們確定主要原因之一是輸入背景信息相同,而結合不同的靈感集可以通過引入靈活的輸入在很大程度上緩解這一問題。假設排名。這一關鍵組件是關于提供生成假設的完整排名。這很重要,因為LLMs可以在短時間內生成大量假設,而驗證每個假設的真實實驗室實驗既耗時又昂貴。因此,科學家們知道應該首先測試哪個假設將非常有益。一些方法(例如MOOSE)采用自動評估方法來提供對生成假設的初步理解。自動評估方法自然可以用于排名,但表1僅關注排名在方法論部分的使用方式(而不是在自動評估部分)。大多數方法采用LLMs的評分作為獎勵值,可以用于排名(MCR [145], AIScientist, MOOSE-Chem, CycleResearcher)。FunSearch專注于代碼生成問題,因此可以直接通過運行代碼并檢查結果來精確評估生成的代碼。ChemReasoner[146]微調了一個任務特定的圖神經網絡模型以獲得獎勵。HypoGeniC[193]和LLM-SR[140]專注于數據驅動發現,這意味著他們可以訪問觀察示例,用于檢查與生成假設的一致性,其中一致示例的數量可以用作排名的獎勵值。與直接預測獎勵分數不同,IGA采用成對比較,因為他們發現當直接要求預測最終分數或決策時,LLMs的校準效果較差,但在要求判斷哪篇論文更好時可以達到非平凡的準確性。受IGA[141]啟發,CoI[77]提出了一個成對自動評估系統,名為Idea Arena。Nova[49]也采用了成對自動評估方法。自動研究問題構建。這一關鍵組件是關于自動構建研究問題,以便自動化科學發現方法可以將其作為輸入來發現假設。這表明LLM系統在科學發現中的不同角色:沒有它,LLM作為副駕駛,依賴研究人員提出好的研究問題;有了它,系統以“全自動駕駛”模式運行,能夠獨立發現而無需人工輸入。“全自動駕駛”模式首先由MOOSE引入,并被視為科學發現的“自動化”設置。具體來說,他們采用基于LLM的代理不斷搜索與學科相關的網絡語料庫以找到有趣的研究問題。AIScientist通過利用起始代碼實現作為輸入來探索研究方向。MLR-Copilot通過分析輸入論文的研究空白來找到研究方向。SciAgents和Scideator通過直接基于概念配對生成假設來跳過研究問題。VirSci通過利用基于LLM的科學家代理進行頭腦風暴來生成研究問題。CoI通過收集方法的發展線并預測下一步來找到研究問題。Nova直接從輸入論文和常見想法提案模式生成種子想法,跳過研究問題構建步驟。

**2.3.2 其他方法

在本節中,我們介紹了與“主要軌跡”中的方法不同的方法(§2.3.1)。這些方法本身非常多樣化,專注于科學發現的不同方面。例如,Dong等人[30]嘗試使用GPT-4解決極具挑戰性的研究問題:“P是否等于NP”。他們提出了“蘇格拉底推理”,鼓勵LLMs遞歸地發現、解決和整合問題,同時促進自我評估和細化。他們的方法在嘗試證明一個極具挑戰性的現有假設時可能有用。IdeaSynth[118]是一個研究想法開發系統,將想法概念表示為畫布上的鏈接節點。其效果在一個人機交互場景中進行了調查。他們通過實驗室研究發現,使用IdeaSynth的人類參與者可以探索更多替代想法,并與使用強大LLM基線的參與者相比,擴展初始想法的細節。Liu等人[96]首次嘗試將基于文獻的發現和數據驅動發現統一起來。給定一組初始實驗結果,它檢索相關文獻并采用迭代細化方法,不斷改進假設以使其與實驗結果一致,并利用檢索到的文獻中的發現。Weng等人[167]提出了一個雙系統,包括CycleResearcher和CycleReviewer,其中CycleResearcher負責想法制定和論文寫作,CycleReviewer負責對撰寫的論文進行評分。雙系統具有協同作用,CycleReviewer的評分可以組成偏好數據來訓練CycleResearcher。雙系統僅專注于想法制定和論文寫作,跳過實驗規劃和實施。Li等人[80]提出了微調LLMs以成為更好的想法生成器,并引入了一個新穎的框架,采用兩階段方法結合監督微調(SFT)和可控強化學習(RL)。他們專注于可行性、新穎性和有效性維度。維度控制器能夠動態調整生成過程。

基準

總的來說,自動化科學發現中的任務可以分為“基于文獻的發現”和“數據驅動發現”。研究人員分別為每個任務設計了不同的基準。

**2.4.1 基于文獻的發現

基于文獻的發現通常是關于連接現有出版物中的知識(片段)并將它們關聯起來以創造新知識。在這個過程中,起始知識來自研究背景。研究背景可以看作由兩個部分組成:(1)一個研究問題,和(2)一個背景調查,討論研究問題的最先進方法或知識。有了研究背景中的起始知識,其他要連接的知識通常是通過搜索現有出版物獲得的。這里的其他知識被稱為“靈感”[159, 174]。然后研究背景和檢索到的靈感被關聯起來以創建一個“假設”。 表2總結了基于文獻的發現基準,旨在實現新穎的科學發現。關鍵組件是研究問題、背景調查、靈感識別和假設。假設從“摘要”部分[159]、“方法論”部分[174, 176]或“未來工作”和“局限性”部分[68]收集。表2還包括數據集的大小(分析的論文數量)、論文的學科和論文的發表日期。  一些基準可以用于訓練,因為它們的大小較大[119, 159],而一些主要用于評估,因為它們由博士生注釋[68, 174, 176]。

**2.4.2 數據驅動發現

Majumder等人[107]提出了“數據驅動發現”的概念。這里的“數據”指的是實驗結果。他們的動機是,鑒于大量(公開和私人的)現有實驗結果在線可用,LLMs可能能夠找到這些數據的一般模式,其中一般模式可能是一個新穎的研究假設。鑒于具體觀察與一般假設之間的關系,“數據驅動發現”與歸納推理任務非常相關,其中觀察空間是網絡上所有公開可用的實驗結果和手頭的私人實驗結果。DiscoveryBench[108]是第一個數據驅動發現基準。它包含從20多篇已發表論文中手動提取的264個發現任務和903個合成任務。任務的輸入包括一個研究問題和一組實驗數據。目標是回答研究問題,并提供一個可以由實驗數據支持的假設。它還引入了生成假設的結構化形式化,即假設應由三個部分組成:上下文、變量和關系。具體來說,假設是關于在上下文中兩個變量之間的關系。DiscoveryWorld[57]是第一個具有虛擬環境的發現基準。其主要動機有兩個:(1)真實世界的實驗成本高昂且需要大量領域專業知識;(2)從任務特定細節中抽象出來鼓勵開發更通用的發現方法。為了解決這些挑戰,它建立了一個虛擬環境,供代理發現假設。它包括120個不同的挑戰任務,其中假設反映了世界的真實模式。

評估發展趨勢

科學發現任務的評估方法多種多樣。可以說,幾乎每篇提出新方法論的論文都使用了不同的評估方法。然而,它們的指標表現出顯著的交叉點,并且可以觀察到這些工作中評估方法的一些新興趨勢。評估標準的交叉點是“新穎性”、“有效性”、“清晰度”和“顯著性”。一些較少使用的評估標準包括“相關性”、“趣味性”和“有用性”。“有效性”的替代名稱是“可行性”。在許多情況下,它們可以互換使用。“有效性”指的是發現的科學知識是否準確反映客觀世界,而“可行性”關注工程發現的實用性。“有用性”是一種主觀評估,基于發現系統的目標是作為研究人員的副駕駛;因此,研究人員對其感知的有用性可能被認為是重要的。在評估者選擇方面,評估方法可以分為基于LLM的評估和基于專家的評估。LLM的直接評估在社會科學中顯示出與專家評估的高度一致性[174]。然而,在自然科學學科如化學中,LLMs被認為缺乏提供可靠評估的能力[146]。專家評估通常被認為是可靠的。然而,在化學等具有挑戰性的領域,即使是專家的直接評估也可能缺乏足夠的可靠性[176]。這是由于(1)學科的復雜性;(2)研究主題的微小變化可能需要完全不同的背景知識進行評估,而專家通常有專門的研究重點,可能無法涵蓋相對可靠評估所需的全部知識。基于參考的需要,評估方法可以分為直接評估和基于參考的評估。由于直接評估的可靠性問題,基于參考的評估作為一種替代方法[68, 108, 176],它計算生成假設中提到的關鍵組件與真實假設的匹配程度。此外,除了直接為生成的假設分配標量評估分數外,Si等人[141]提出了基于比較的評估,以緩解LLM直接評分評估的不足:要求LLM評估者不斷比較生成的假設對,直到可以進行排名。它可以在比較兩種方法生成的假設質量時使用,但可能無助于判斷假設的絕對質量。然而,最終的評估應僅通過真實(濕實驗)實驗進行。這給機器人技術和自動實驗實施領域帶來了挑戰。

主要進展/成就

Yang等人[174]首次證明了LLMs能夠生成新穎且有效的科學假設,并通過專家評估確認。他們找到三名社會科學博士生直接評估生成的社會科學假設的新穎性和有效性。然后Si等人[141]提供了第一個關于LLM生成假設的大規模專家評估,雇傭了100多名NLP研究人員。他們得出了一個統計學上顯著的結論,即LLM可以生成比人類研究人員更新穎但略遜于有效性的研究假設。然后Yang等人[176]表明,基于LLM的框架可以重新發現2024年發表在《自然》、《科學》或類似水平上的許多化學和材料科學假設的主要創新(這些假設僅在2024年在線提供),使用僅在2023年10月之前的數據訓練的LLMs。

挑戰與未來工作

挑戰。科學發現是找到尚未通過濕實驗驗證的新知識。在某些學科如化學中,即使是專家對生成的新穎假設的評估也不夠可靠。這導致需要自動進行實驗以驗證大規模機器生成的假設。此外,當前的科學發現方法高度依賴現有可用LLMs的能力。在通用任務上能力更強的LLMs通常也能導致發現質量更好的假設[174]。因此,基于LLM的發現方法可能有一個性能上限,受限于最先進LLMs的能力。然而,我們如何增強LLMs在科學發現任務上的能力在很大程度上(如果不是完全)尚不清楚。第三,目前尚不清楚科學發現的充分內部推理結構:當前的工作嚴重依賴從高質量知識源(例如文獻)中檢索靈感以生成假設。但尚不清楚是否有任何更多的內部推理結構可以幫助這一過程。最后,構建準確且結構良好的基準高度依賴專家。然而,專家組成的基準的規模通常非常有限。目前尚不清楚如何擴展一個準確且結構良好的面向發現的基準。未來工作。第一條未來工作方向是增強自動實驗執行,因為它仍然是測試假設有效性的最可靠方法。這一過程可能因學科而異。在計算機科學中,瓶頸可能是編碼能力,尤其是編程大型系統的能力。在化學或生物學中,瓶頸可能在于進行實驗的機器人技術方法[14]。第二條未來工作方向是增強LLM在假設生成中的能力。目前,如何提高這一能力仍不十分清楚。可能的方面包括訓練數據收集方法和訓練策略。第三條未來工作方向是研究科學發現過程的其他內部推理結構。這可能需要一個跨學科的努力,涉及科學哲學(也稱為科學學)[36]。第四條未來工作方向是研究如何利用LLMs自動收集準確且結構良好的基準。

3. LLMs在實驗規劃與實施中的應用

概述

除了生成假設外,LLMs越來越多地用于科學研究中,以自動化實驗設計并簡化工作流程。LLMs具有全面的內部世界知識,使它們能夠在沒有特定領域數據訓練的情況下在現實世界中執行明智的行動。為了最大化其潛力,LLMs被設計為基于代理的形式,具有兩個關鍵屬性[64]:模塊化和工具集成。模塊化確保LLMs可以與外部系統(如數據庫、實驗平臺和計算工具)無縫交互,而工具增強框架使LLMs能夠作為工作流程中的中央控制器,與專門模塊接口,用于數據檢索、計算和實驗控制。本節探討了LLMs如何具體應用于支持研究想法的規劃實施

優化實驗設計

LLMs通過使科學研究中的工作流程更高效和自適應,正在改變實驗設計過程。它們處理和分析大量數據集的能力使研究人員能夠分解復雜任務,選擇最佳方法,并增強實驗的整體結構。本節探討了LLMs如何在不同領域中促進實驗設計優化。任務分解涉及將實驗分解為更小、可管理的子任務,這一過程通常由現實世界研究的復雜性所必需,以確保與特定研究目標的一致性[55]。許多研究[14, 15, 52, 125, 136, 168]展示了LLMs如何通過定義實驗條件和指定期望輸出來簡化復雜問題。例如,HuggingGPT[136]利用LLMs將用戶查詢解析為結構化任務列表,同時確定執行順序和資源依賴關系。同樣,CRISPR-GPT[52]通過促進選擇適當的CRISPR系統、設計引導RNA、推薦細胞傳遞方法、起草協議和規劃驗證實驗,自動化了基于CRISPR的基因編輯實驗設計。ChemCrow[15]采用迭代推理和動態規劃,使用結構化的“思考、行動、行動輸入、觀察”循環[177]根據實時反饋改進其方法。多LLM系統,如Coscientist[14]和LLM-RDF[131],進一步利用專門代理從文獻中提取方法,將自然語言描述翻譯為標準協議,生成自動化平臺的執行代碼,并在執行過程中自適應地糾正錯誤。高級提示技術,如上下文學習、思維鏈[166]和ReAct[177],通常用于上述研究中,以增強LLM輔助工作流程中實驗規劃的可靠性和準確性。此外,LLMs還能夠通過反思和細化[106, 139]增強實驗設計,這一過程使它們能夠持續評估和改進實驗計劃。例如,通過模擬專家討論,LLMs參與協作對話[81],挑戰假設,并通過迭代分析[90]改進其輸出。這種方法模仿了現實世界中的科學問題解決,其中專家意見之間的差異促進了問題空間的深入探索,并通過嚴格的辯論和綜合不同觀點達成共識。

自動化實驗過程

LLMs通過自動化實驗過程中的重復和耗時的任務,徹底改變了科學研究。這種自動化顯著提高了生產力,使研究人員能夠將數據準備、實驗執行、分析和報告等勞動密集型過程委托給基于LLM的系統[158]。

**3.3.1 數據準備

研究中最耗時的方面之一是數據準備,包括清理[185, 21]、標記[153, 196]和特征工程[46]等任務。大語言模型(LLMs)可以自動化這些過程,特別是在處理大型數據集時,手動數據整理將效率低下。此外,在數據難以獲得的情況下,LLMs可以直接合成實驗數據[82, 85, 98]。例如,在社會科學中,進行人類受試者實驗通常既昂貴又不道德,Liu等人[98]設計了一個沙箱來模擬社交環境,并部署了多個代理(LLMs)進行交互。這種方法使研究人員能夠收集代理社交互動的數據以進行后續分析。

**3.3.2 實驗執行與工作流程自動化

為了自動化科學研究中的實驗工作流程,基于LLM的代理可以通過預訓練[95, 128]、微調[44, 35]和工具增強學習的組合獲得任務特定能力。在大規模數據集上的預訓練提供了基礎知識,而在領域特定數據集上的微調則針對目標科學應用改進了這些知識。為了增強任務執行,LLMs通常與領域特定知識庫[14, 15, 157]或預配置的工作流程[99, 14]結合使用。高級提示技術,如上下文學習和思維鏈提示[99, 179],使LLMs能夠快速適應新的實驗協議。此外,具有任務特定反饋循環的迭代調整允許LLM根據實驗目標改進其輸出[124, 179]。基于這些原則,LLM在不同學科中自動化實驗工作流程中扮演了多樣化的角色。在化學中,ChemCrow[15],一個LLM化學代理,利用18個專家設計的工具自主規劃和執行復雜的化學合成,橋接計算和實驗領域。同樣,Coscientist[14]將LLM與實驗室自動化集成,優化如鈀催化合成等反應。LLMs還被用于進化搜索策略,以探索廣闊的化學空間[157],從而在減少實驗負擔的同時識別候選分子。Ramos等人[124]將自然語言輸入與貝葉斯優化相結合,用于催化劑合成,簡化了迭代設計周期。此外,LLMs還被用于假設情景測試和反應設計,通過假設預篩選最小化實驗迭代[145, 146]。在藥物發現中,ChatDrug[99]集成了提示、檢索和領域反饋模塊,以促進藥物編輯,而DrugAssist[179]通過人機對話迭代優化分子結構。在生物和醫學研究中,如ESM-1b[128]和ESM-2[95]等模型編碼蛋白質序列,捕捉結構特性以進行預測任務,如二級和三級結構預測,消除了勞動密集型實驗的需要。通過在蛋白質家族上微調LLMs,Ferruz和Hocker[35]生成了高度多樣化但功能性的蛋白質序列。此外,He等人[44]引入了一種抗體生成LLM,用于從頭設計SARS-CoV-2抗體,實現了特異性和多樣性,同時減少了對天然抗體的依賴。

**3.3.3 數據分析與解釋

除了自動化實驗執行外,LLMs還通過生成自然語言解釋和構建有意義的可視化來協助數據分析,這對于解釋復雜數據集并確保得出的見解可訪問和可操作至關重要[143]。傳統上,數據分析需要廣泛的統計專業知識、手動計算和大量實驗結果的解釋。LLMs通過自動化統計建模和假設檢驗等任務簡化了這一過程。例如,Li等人[79]展示了LLMs可以作為建模者,提出、擬合和細化基于現實世界數據的概率模型,同時通過后驗預測檢查等技術提供關于模型性能的關鍵反饋。此外,LLMs擅長揭示文本數據中的隱藏模式、趨勢和關系。在社交媒體數據分析中,LLMs提供了對公眾情緒和新興趨勢的見解[172],在環境數據解釋中,它們有助于提高理解和決策能力[114]。此外,它們還在主題分析[27, 126]中發揮了重要作用,幫助識別定性數據中的主題和模式。它們的應用還擴展到金融數據分析,增強了預測和風險評估能力[188]。AutoGen[168]提供了一個通用框架,使多個可定制代理(LLMs)能夠創建多樣化的應用程序。這些代理可以通過自然語言和代碼進行交互,支持廣泛的下游任務,如數據建模和數據分析[61]。

基準

基準對于評估LLMs如何有效支持實驗工作流程的各個方面至關重要。雖然并非專門為LLM輔助的實驗實施創建,但許多基準足夠通用,可以應用于這些任務。例如,MLAgentBench[54]涵蓋了任務分解,幫助分解復雜的研究任務,數據處理,自動化數據加載和轉換等過程,以及工作流程管理,優化機器學習實驗執行。這些基準提供了不同的途徑,因此在方法上有所不同。評估方法從任務成功率、準確性和執行一致性到與人類基準的比較。這些差異突出了LLMs可以集成到研究過程中的多種方式。表3中提供了更多詳細信息。

挑戰與未來工作

挑戰。將LLMs用于實驗規劃和實施的挑戰既來自其固有局限性,也來自其在領域特定任務中的應用。一個基本限制是它們的規劃能力。正如Kambhampati等人[64]所澄清的那樣,處于自主模式的LLMs通常無法生成可執行的計劃。它們容易產生幻覺,這可能導致不合理的計劃、偏離任務提示或無法遵循復雜指令[55]。在多階段實驗環境中,提示的魯棒性構成了另一個關鍵挑戰。提示措辭的微小變化,即使傳達了相同的意圖,也可能導致整個規劃和執行過程中的指導不一致[195],可能影響實驗結果。此外,自回歸LLMs的慢處理速度可能會阻礙迭代和多步驟實驗規劃中的實時反饋,限制其效率。應用特定挑戰包括適應專門角色的困難,因為LLMs難以模擬領域特定的科學專業知識和認知過程,這對于跨研究領域的泛化至關重要[167]。例如,某些實驗可能需要模擬倫理敏感或容易出錯的場景,這通常與LLMs中嵌入的安全對齊價值觀相沖突。未來工作。未來的研究應通過增強核心模型能力并針對實驗任務的獨特需求進行定制來解決這些挑戰。為了減輕幻覺風險,可以在工作流程中集成穩健的驗證機制,例如與外部聲音驗證器交叉引用輸出[64]或采用實時反饋循環動態糾正不準確性[59]。提高提示魯棒性可能涉及開發自適應系統,監控和修改提示結構以響應上下文變化,確保規劃階段的一致性。效率提升可以通過創建更快的、蒸餾版本的LLMs,優化多步推理或結合LLMs與更小的、任務特定模型的混合系統來實現,以平衡速度和準確性。為了更有效地適應角色,可以使用高質量領域特定數據集微調LLMs或開發模塊化框架,以更精確地模擬專門科學推理。此外,設計自適應對齊協議可能允許LLMs在解決特定實驗目標時安全地模擬倫理復雜場景。

4. LLMs在科學論文寫作中的應用

概述

本節探討了LLMs在科學論文寫作中的三個關鍵領域的集成:引用文本生成(§4.2)、相關工作生成(§4.3)和起草與寫作(§4.4)。我們研究了使用的方法、這些模型的有效性以及自動化科學寫作中面臨的挑戰。此外,我們還討論了這些任務中使用的評估指標和基準。

引用文本生成

在引用論文的上下文中,引用文本生成任務旨在為一組待引用論文生成準確的文本摘要。LLMs通過提供豐富的上下文理解和連貫性,在自動化引用文本生成的各個方面發揮了關鍵作用,采用了多種方法來增強準確性和可用性。Xing等人[170]的一項初步研究使用了一個指針生成器網絡,該網絡可以基于交叉注意力機制從手稿和引用論文的摘要中復制單詞來生成引用文本。Li和Ouyang[88]提示LLM生成強調引用網絡中論文對之間關系的自然語言描述。另一方面,像AutoCite[161]和BACO[40]這樣的模型通過采用多模態方法,將引用網絡結構與文本上下文相結合,生成上下文相關且語義豐富的引用文本。此外,Gu和Hahnloser[43]、Jung等人[63]允許用戶指定諸如引用意圖和關鍵詞等屬性,將這些屬性集成到結構化模板中,并微調語言模型以生成符合其需求的引用文本。

相關工作生成

該任務涉及基于前沿參考論文為科學論文創建相關工作部分[45]。與傳統的多文檔摘要模型[23, 51]相比,LLMs在處理科學文檔特有的廣泛輸入長度和提供豐富的上下文理解方面展示了顯著的能力。LLMs在各種自然語言理解和生成任務中的成功,結合其大上下文窗口,最近實現了更全面和細致的文獻綜述,促進了跨不同研究領域的深入見解和聯系。Martin-Boyle等人[109]、Zimmermann等人[197]開發了案例研究,探索使用ChatGPT進行文獻綜述任務和相關工作生成,展示了其通過快速掃描大量科學出版物數據集并生成相關工作部分的初稿來協助研究人員的能力。然而,直接在學術寫作中使用LLMs可能會導致幻覺問題,生成的內容可能不基于事實數據,無法準確反映最先進的研究。為了解決這些問題,許多工作基于檢索增強生成(RAG)[76]的原則,通過從外部來源檢索事實內容來增強基于LLM的文獻綜述生成[3, 50, 138, 150, 181]。例如,LitLLM[3]利用RAG從網站上檢索相關論文并重新排序,減少了進行全面文獻綜述所需的時間和精力,同時最小化幻覺問題。HiReview[50]進一步將基于RAG的LLMs與基于圖的層次聚類相結合。該系統首先檢索引用網絡中的相關子社區,并生成層次分類樹。然后,LLMs為每個聚類生成摘要,確保全面覆蓋和邏輯組織。Nishimura等人[112]集成了LLMs,強調相關工作部分中的新穎性聲明。通過將新研究與現有工作進行比較,LLMs幫助生成相關工作部分,明確突出新內容和不同之處,從而為目標論文與先前文獻之間的比較做出更有影響力的貢獻。

起草與寫作

在自動化科學寫作領域,LLMs被用于從生成特定文本元素到撰寫整篇研究論文的各種任務。對于更具體的寫作任務,August等人[8]提出了生成具有可控復雜性的科學定義,以適應不同的受眾,而SCICAP[48]則自動化了科學圖表的標題生成,能夠快速準確地描述視覺數據。更全面的系統,如PaperRobot[160],引入了增量起草方法,LLMs根據用戶輸入幫助組織和起草論文的各個部分。同樣,CoAuthor[73]采用了一種協作的人機方法,LLMs通過生成建議和擴展文本來幫助作者。對于完全自主的寫作,Ifargan等人[56]探索了LLMs如何從數據分析到最終草稿生成完整的研究論文,而AutoSurvey[165]展示了LLMs通過綜合和組織現有研究來自主撰寫全面綜述的能力。最后,AI Scientist[103]和CycleResearcher[167]提出了一個更廣泛的系統,不僅起草科學論文,還參與了整個科學過程,包括假設生成和實驗設計,突顯了完全自動化科學發現和寫作的潛力。

基準

我們總結了自動化科學論文寫作系統的評估方法,涵蓋三個關鍵領域:引用文本生成、相關工作生成以及起草與寫作。表4提供了每個任務的具體數據集、指標和基準的全面總結。引用文本生成。ALCE[38]基準是主要標準。它從三個維度評估系統:流暢性、正確性和引用文本的質量。ALCE旨在測試模型在不同領域中生成帶有準確引用的長文本答案的能力。其數據集涵蓋了從維基百科到網絡規模文檔集合的廣泛問題類型。CiteBench[37]是另一個基準,它統一了多個現有任務,以標準化引用文本生成在不同設計和領域中的評估,使用定性和定量指標。相關工作生成。目前,沒有一個單一基準被普遍認可用于此任務,因為任務定義和簡化假設在各種研究中存在巨大差異[89]。然而,大多數工作都建立在語料庫級數據集上,常用的科學文章來源包括:ACL Anthology Network (AAN) Corpus[123]、SciSummNet[178]、Delve[5]、Semantic Scholar Open Research Corpus (S2ORC)[102]和Citation Oriented Related Work Annotation (CORWA)[86]。摘要指標ROUGE[93]是最常用的自動評估方法,一些工作還使用了翻譯指標BLEU[115]。此外,人工評估通常從流暢性、可讀性、與目標論文的一致性以及引用工作的相關性和信息量等方面進行評分,采用五點Likert量表。起草與寫作。SciGen[111]基準支持從科學表格中進行推理感知文本生成的評估,突顯了算術推理在文本生成中的挑戰。SciXGen[22]是另一個關鍵基準,評估上下文感知的文本生成,重點關注將外部信息集成到生成文本中。SciGen和SciXGen都使用了如BLEU[115]、METEOR[10]和MoverScore[189]等指標,以及人工評估。

挑戰與未來工作

挑戰。引用文本生成、相關工作生成以及起草與寫作中的挑戰主要源于LLMs的固有局限性,如保持事實準確性、確保上下文連貫性以及處理復雜信息。LLMs經常在幻覺[59]方面遇到困難,生成不正確或不相關的引用,并且受限于它們依賴的檢索系統[53]。有限的上下文窗口進一步限制了模型管理大量引用或全面整合相關文獻的能力[165],可能導致引用順序錯誤和引用分組不當。此外,確保科學嚴謹性并避免依賴表面或瑣碎來源仍然是持續存在的障礙,因為LLMs難以捕捉學術寫作所需的深度和推理[103]。此外,LLMs在學術寫作中的使用引發了重大的倫理問題,特別是關于學術誠信和抄襲[89]。這模糊了作者身份的界限,因為研究人員可能將機器生成的文本作為自己的作品呈現。LLMs還可能生成與現有文獻非常相似的文本,增加了無意中抄襲的風險,生成的文本可能不夠原創。使用LLMs起草論文部分的便利性可能會削弱傳統學術寫作所需的嚴格智力努力,潛在地貶低了學術研究中對學習過程和批判性思維技能的重視。未來工作。為了克服這些挑戰,未來的進展應側重于改進檢索系統并增強模型從多樣化、長上下文來源中綜合信息的能力[87]。這包括開發更好的引用驗證機制、改進多文檔綜合以及引入實時文獻發現,以保持生成內容的最新性。此外,結合領域特定的微調和推理感知模型將有助于生成更準確、上下文相關的科學文本[111]。對寫作過程的細粒度控制,如調整語氣和風格,也將對提高LLMs適應不同學術需求的適應性至關重要[22, 38, 103]。此外,集成人在回路系統,其中人類監督和干預是寫作過程的重要組成部分,可以確保學術工作中固有的智力嚴謹性和批判性思維得以保留[89, 109]。最后,為了解決潛在的倫理問題,學術界必須制定明確的指導方針和倫理標準,以確保學術工作的完整性和原創性。

5. LLMs在同行評審中的應用

概述

同行評審是科學研究的基石。將LLMs集成到同行評審過程中代表了一項重大進展,解決了長期存在的挑戰,如評審者偏見、標準不一致和工作量不平衡[42, 117]。這種集成在學術界獲得了顯著關注,正如主要計算機科學會議采用LLM輔助評審實踐所證明的那樣。例如,ICLR 2025宣布實施基于LLM的系統以支持評審者的評估過程。LLMs在同行評審中的集成已經演變為兩種不同的方法,每種方法都針對評審過程中的特定需求。第一種方法,自動化評審生成,源于處理日益增加的提交量并通過使用LLMs獨立分析研究論文來減少評審者工作量的需求[66, 182]。這些系統旨在評估提交的多個方面,包括方法驗證、結果驗證和貢獻評估,從而在沒有直接人工干預的情況下提供全面的評審報告。第二種方法,LLM輔助評審工作流程,是在認識到人類專業知識在學術評估中仍然至關重要的同時,承認某些評審任務可以從自動化中受益[69]。這些工作流程將LLMs作為補充工具,協助人類評審者完成耗時但定義明確的任務,如論文摘要、參考文獻驗證和內部一致性檢查,同時將關鍵評估和判斷留給人類專家。這些方法采用多種方法來提高評審效率、一致性和質量。為了系統地評估和改進這些系統,研究社區開發了專門的同行評審基準,這些基準具有雙重目的:提供標準化的訓練數據集并建立性能評估指標。本章探討了這些方法、其評估框架,并總結了實施挑戰和未來研究方向。

自動化同行評審生成

自動化同行評審生成旨在通過探索LLMs如何以最少的人工干預生成全面的評審來簡化科學評估。通過輸入科學文章,這些系統專注于生成完整的同行評審或元評審,采用各種技術來增強反饋的深度、準確性和相關性。當前的自動化同行評審生成方法可以分為兩種主要策略:單一模型多模型架構。單一模型方法通過復雜的提示技術和模塊化設計優化評審生成過程。這些系統通常采用精心設計的提示,以引導模型關注論文的特定方面,如方法、結果和貢獻[132]。在單一模型范式中,提出了幾種不同的架構方法。CGI2[184]超越了之前的方法:MetaGen[11]使用了兩階段管道,包括提取摘要和決策感知的細化;Kumar等人[67]開發了一種神經架構,用于聯合決策預測和評審生成;MReD[135]引入了使用句子級功能標簽的結構控制生成。基于這些基礎,CGI2通過模塊化設計實現了分階段評審過程,首先從論文中提取關鍵意見,然后總結優點和缺點,最后通過迭代反饋在清單引導的框架下細化這些輸出。這種迭代過程增強了評審的深度和相關性,但可能難以處理涉及高度復雜方法或超出上下文窗口的長篇內容。采用不同方法,CycleReviewer[167]使用強化學習實現了端到端的評審生成方法,通過反饋循環不斷改進評審質量。雖然CycleReviewer在提高評審精度和清晰度方面表現出色,但其對大量計算資源的依賴可能限制其可擴展性。同時,ReviewRobot[162]利用知識圖譜系統地識別和結構化知識元素,通過結構化生成過程將其轉化為詳細的評審評論。ReviewRobot展示了顯著的可解釋性和基于證據的推理,但其預定義模板的靈活性限制了其適應性。另一種策略采用多模型架構,通過利用多個專門模型來處理評審過程的不同方面,代表了一種更復雜的方法。這種方法提供了幾個優勢,包括更好地處理復雜論文和通過專門知識增強評審質量。Reviewer2[39]實施了兩階段過程:一個模型生成特定方面的提示,而另一個模型利用這些提示創建詳細、有針對性的反饋。這種提示生成和評審創建的分離允許更細致和有針對性的反饋,但由于缺乏集成框架,通常會導致部分或偏見的評審。為了解決這些限制,SEA[180]采用了單獨的模型進行標準化、評估和分析,提供了更全面和平衡的方法。該系統將多個評審統一為單一格式,顯著減少了反饋中的冗余和不一致性。此外,SEA引入了不匹配分數來衡量論文與生成評審之間的一致性,并結合自我糾正策略以迭代方式提高評審質量。雖然這些功能使SEA在一致性和全面性方面超越了Reviewer2,但協調多個模型的輸出增加了復雜性。基于專業化但解決不同挑戰,MARG[28]解決了處理超出典型LLM上下文限制的論文的問題。通過引入多代理框架,MARG將評審任務分配給多個專門模型,允許對較長論文進行全面評審,同時在整個文檔中保持對細節的關注。這種創新方法確保了詳細、特定方面的反饋,但也帶來了新的挑戰,如協調各種代理的通信和輸出,增加了確保一致性和對齊的難度。每種架構方法都提供了獨特的優勢并面臨獨特的挑戰。單一模型方法受益于更簡單的實現和對評審過程的更直接控制,但可能難以處理較長或更復雜的論文。多模型架構提供了更大的可擴展性和更好地處理復雜評審任務的能力,但它們需要仔細協調,并面臨組件之間的一致性挑戰。例如,ReviewRobot的結構化方法提供了可解釋性和可操作的見解,但不太適應不斷發展的研究領域,而CycleReviewer的迭代改進提高了動態適應性,而無需大量訓練資源。隨著這一領域的研究進展,結合單一模型的簡單性和多模型設計的適應性,為提高評審質量、一致性和全面性提供了一個有前途的途徑。

LLM輔助的同行評審工作流程

與完全自動化的評審生成不同,LLM輔助的同行評審工作流程專注于增強人類評審者的能力,而不是取代他們。最近的研究強調了這種人類-AI協作方法在學術同行評審中的關鍵重要性。[31, 12, 133]的研究強調,雖然LLM可以提高效率,但人類監督對于維護倫理標準和評審完整性仍然至關重要。像AgentReview[60]這樣的系統在實踐中展示了這種協同作用,其中LLM生成初步見解,人類評審者隨后進行細化和驗證。LLM輔助的同行評審工作流程增強了科學評審過程中的三個主要功能:(1)信息提取和摘要,幫助評審者快速掌握論文內容;(2)手稿驗證和質量保證,支持系統驗證論文主張;(3)評審寫作支持,協助生成結構良好的反饋。在信息提取和摘要功能中,系統自動化文檔理解和綜合以支持評審者理解。PaperMage[101]是一個基礎工具包,集成了自然語言處理和計算機視覺模型,處理視覺豐富的科學文檔,實現了跨多種模態的邏輯結構、圖表和文本內容的復雜提取。補充這種結構分析,CocoSciSum[29]專注于內容摘要,提供可定制的論文摘要,精確控制長度和關鍵詞包含,同時通過其組合控制架構保持高事實準確性。對于手稿驗證和質量保證功能,系統在不同分析層次上運作以確保科學嚴謹性。在局部層次上,ReviewerGPT[97]專門從事系統錯誤檢測和指南合規性,在驗證提交要求的同時有效識別單個手稿中的數學錯誤和概念不一致性。雖然ReviewerGPT專注于內部手稿驗證,PaperQA2[144]通過檢查主張與更廣泛的科學文獻進行全局驗證,采用復雜的語言代理檢測矛盾并驗證斷言。該系統通過識別每篇論文平均2.34個驗證矛盾,同時在其跨文獻分析中保持高事實準確性,展示了強大的性能。此外,Scideator[122]旨在促進想法驗證,通過面重組識別論文之間的新穎和科學基礎的類比。Scideator還包括一個新穎性檢查器,評估主張的獨特性和對既定研究范式的遵守,為評審者提供了增強的能力以嚴格審查手稿。在評審寫作支持功能中,系統采取不同但互補的方法,協助不同專業水平的評審者。ReviewFlow[149]通過上下文反思提示和筆記綜合指導提供智能支架,模擬專家實踐以幫助新手評審者生成結構良好的評審。該系統的逐步方法通過將復雜任務分解為可管理的組件,使那些剛接觸同行評審的人受益。雖然ReviewFlow專注于個別評審者指導,CARE[198]通過集成平臺強調評審寫作的協作方面,具有NLP增強的內聯注釋和實時協作功能,使評審者能夠更有效地合作,同時提供詳細和建設性的反饋[83, 19]。進一步補充這些功能,DocPilot[110]利用模塊化任務規劃和代碼生成能力,自動化文檔工作流程中的重復和復雜任務。其結構化方法管理和注釋科學PDF,確保評審者可以專注于實質性反饋而不是程序障礙,顯著提高了他們的效率。

基準

隨著自動化評審生成和LLM輔助工作流程的不斷發展,研究社區面臨一個關鍵挑戰:系統地評估和比較這些方法。這些基準的開發依賴于標準化的基準,評估LLM生成的評審的不同方面,從生成高質量評審到支持人類評審者的有效性。這些基準可以大致分為三種主要類型:(1)支持整體評估的綜合評審數據集,包括編輯決策、評分和語用分析;(2)專注于特定方面的專門評估數據集,如意見綜合和一致性分析;(3)通過缺陷識別和接受預測來衡量評審有效性的質量評估數據集。表5概述了這些關鍵基準及其相關的評估框架。這些數據集主要來自公開的學術會議,服務于同行評審任務中的多種目的。像MOPRD[94]和NLPeer[33]這樣的綜合數據集提供了廣泛的覆蓋范圍,支持從編輯決策預測到語用標簽的任務。更專門的數據集專注于評審過程的特定方面:ASAP-Review[183]和Reviewer2[39]強調接受預測和覆蓋評估。最近的補充,如ReviewCritique[32],引入了比較人類和LLM生成評審的新機制。這些基準的評估框架涵蓋了多個維度,如表5所詳述。語義相似性衡量生成評審與參考文本的接近程度,通常使用ROUGE和BertScore等指標。連貫性和相關性評估評審的邏輯流程和主題適當性,而多樣性和特異性評估提供的反饋范圍和深度。人工評估,結合專家對評審質量的評估,提供了自動指標的關鍵驗證。這四個評估組件——語義相似性、連貫性和相關性、多樣性和特異性以及人工評估——形成了一個多方面的評估方法,確保全面評估LLM生成的評審在各種質量維度上的表現。

挑戰與未來工作

挑戰。將LLMs集成到學術同行評審中代表了學術評估的重大轉變[91, 92]。隨著學術機構和出版商探索這項技術,理解其局限性和潛力對于學術界至關重要。同行評審的核心在于需要深厚的專業知識、細致的理解和謹慎的判斷。雖然LLMs在支持這一過程中顯示出潛力,但其局限性揭示了自動化學術評估的復雜性。一個基本挑戰是LLMs通常難以完全掌握學術領域中的專門術語和復雜概念。例如,在生物化學中,LLMs可能會誤解特定蛋白質相互作用的重要性,而在理論物理中,它可能無法識別數學模型中微妙但關鍵的假設[192]。這種有限的技術理解直接影響LLMs評估研究方法的能力。當LLMs無法完全理解領域特定概念時,它無法可靠地評估研究方法是否適當或證據是否支持結論。例如,在跨學科研究中,方法標準因領域而異,LLMs通常難以識別關鍵問題,如樣本量不足、不適當的統計測試或缺失的實驗控制[129]。這一限制在確保研究質量和科學完整性的高風險的同行評審中尤為令人擔憂。學術寫作的復雜性引入了額外的挑戰,特別是在處理較長手稿時。即使上下文窗口擴展,LLMs也難以在跨多個部分的復雜論證中保持連貫分析。這一限制經常導致不一致或矛盾的評估[18]。更令人擔憂的是幻覺的持續問題——模型有時會生成令人信服但不正確的評估,特別是在評審新穎研究方法時[28]。此外,在同行評審中實施LLMs面臨超出技術性能限制的額外挑戰。一個基本的基礎設施問題是缺乏專門的訓練數據[65, 184],這在學術學科中造成了不平衡的格局。這種數據稀缺性特別影響了研究社區較小或詞匯專門的領域。同樣令人擔憂的是LLM輔助同行評審的倫理影響。算法偏見和透明度問題[133]與新的學術不端行為形式一起出現,如“抄襲洗錢”[117]。此外,一個關鍵問題是,如果許多研究人員依賴相同的LLM系統進行同行評審,學術反饋的同質化潛力[91]。廣泛使用類似的AI工具可能會減少觀點的多樣性,并削弱來自個體人類評審者獨特思維過程的創造性見解。未來工作。為了推進LLMs在學術論文評審中的能力,必須優先解決幾個基本技術挑戰。首先,當前的LLMs在不同學術領域中的專門技術概念方面遇到困難,需要改進處理和理解領域特定術語的方法。其次,我們需要增強引用分析能力,以驗證參考文獻的相關性并評估引用如何有效支持論文的論點。第三,分析長學術文檔需要新的方法來保持連貫性——從跨部分引用到驗證方法、結果和結論之間的一致性。除了技術改進外,開發有效的人類-AI協作框架至關重要。下一代評審系統必須創建直觀的界面,突出潛在問題并無縫集成到人類工作流程中[31]。這些協作系統必須適應不同的學術領域,特別考慮計算資源有限的學科[132]。對這些人類-AI系統的嚴格評估框架必須確保它們真正提高評審者的效率和有效性[81, 169]。隨著LLM在同行評審中的普及,強大的治理機制變得至關重要。這包括開發可靠的方法來檢測LLM生成的內容,確保透明跟蹤LLM的貢獻,并保持評審者的真實性[91]。此外,我們需要標準化的協議,以安全地將LLM評審工具與現有期刊平臺集成[6]。最后,必須通過全面的評估框架來衡量這些領域的進展。對于技術能力,我們需要系統評估語言理解、引用分析和文檔連貫性方面的改進。人類-AI協作指標應評估LLM建議的質量及其對評審者效率的影響。治理評估必須評估LLM檢測系統的可靠性和平臺集成的安全性。關鍵的是,這些框架應檢查不同學術學科、出版格式和語言背景下的潛在偏見,以確保為所有學術社區提供公平的支持。通過這些有針對性的評估,我們可以指導LLM系統的開發,使其有意義地增強同行評審過程,同時保持其完整性。

6. 結論

本綜述全面探討了LLMs在整個科學生命周期中的變革作用,從假設生成、實驗到寫作和同行評審。通過識別將LLMs應用于這些任務的機遇和挑戰,我們強調了它們當前的能力、局限性和增強科學生產力的潛力。總之,LLMs代表了先進的生產力工具,提供了現代科學研究所有階段的新方法。盡管受到固有局限性、技術障礙和領域特定任務中的倫理考量的限制,LLM能力的持續進步有望徹底改變研究實踐。隨著這些系統的發展,它們集成到科學工作流程中不僅將加速發現,還將促進科學社區中前所未有的創新和合作。

付費5元查看完整內容

大規模語言模型(LLM)的個性化近年來變得越來越重要,擁有廣泛的應用前景。盡管這一領域重要且取得了進展,大多數現有的個性化 LLM 研究主要集中于 (a) 個性化文本生成,或 (b) 利用 LLM 用于與個性化相關的下游應用(如推薦系統)。在本研究中,我們首次彌合了這兩大研究方向之間的差距,通過引入個性化 LLM 使用的分類體系,概述了關鍵差異與挑戰。我們正式化了個性化 LLM 的基礎,整合并拓展了 LLM 個性化的概念,定義并討論了個性化、使用方法和個性化 LLM 的理想特性等新穎方面。接著,我們通過提出系統的分類方法,將這些多樣化的研究領域和使用場景統一起來,包括個性化的粒度、個性化技術、數據集、評估方法和個性化 LLM 的應用。最后,我們指出了尚需解決的挑戰和重要的開放性問題。通過使用所提出的分類體系統一并綜述近期研究,我們旨在為現有文獻和 LLM 個性化的不同方面提供清晰的指導,助力研究人員和實踐者。

1 引言

大規模語言模型(LLM)已成為能夠執行廣泛自然語言處理(NLP)任務的強大工具,并展現了出色的能力(例如,Radford 等,2018;Devlin 等,2019;Lewis 等,2019;Radford 等,2019;Brown 等,2020;Raffel 等,2020;Achiam 等,2023;Touvron 等,2023;Groeneveld 等,2024)。實證上,這些模型已展示出作為通用模型的能力,使其能夠準確地完成諸如文本生成、翻譯、摘要和問答等多種任務。值得注意的是,LLM 在零樣本或少樣本環境中也能有效工作,即使沒有任務特定的訓練數據,它們也能夠理解并執行復雜的指令(Bommasani 等,2021;Liu 等,2023c)。這一能力消除了對模型參數進行廣泛微調的需求,使人與機器的交互通過簡單的輸入提示大大簡化。例如,用戶可以以對話形式與 LLM 互動,使交互更加直觀易用。LLM 的這種強大且多才多藝的能力已催生了諸多應用,包括通用人工智能助手(AutoGPT,2024)、協同工具(微軟,2024)以及基于個人的 LLM 代理(Li 等,2024f)。這些應用可以幫助用戶執行寫郵件、生成代碼、撰寫報告等各種任務。

最近,人們越來越關注將 LLM 適應用戶特定的上下文,以超越其作為 NLP 任務解決方案或通用聊天機器人的自然用途(Tseng 等,2024)。LLM 個性化正是為此而生,通過適應模型生成符合每位用戶或用戶群獨特需求和偏好的響應。這種個性化對于人機交互和用戶導向的應用至關重要。通過提供更相關和有意義的互動內容,個性化預計能提升用戶滿意度,確保用戶收到更符合其需求和期望的響應。這樣一來,LLM 可以在客戶支持(亞馬遜,2024)、教育(Wang 等,2022;2024b)和醫療(Tang 等,2023;Yuan 等,2023)等廣泛應用中提供更有效的支持,其中個性化響應可以顯著改善用戶體驗;在教育領域,定制內容可以更好地滿足個體學習需求;在醫療領域,個性化建議可以提高患者護理質量。

LLM 的個性化近來獲得了大量關注(Salemi 等,2023;Tseng 等,2024)。然而,現有的個性化 LLM 研究通常分為兩個類別:(a) 個性化文本生成,主要關注在個性化上下文中生成單輪或多輪文本,以及 (b) 在下游個性化任務(如推薦系統)中應用 LLM。這兩個領域的大量研究往往獨立發展,缺乏一個統一的視角。此外,現有綜述(Chen,2023;Chen 等,2024b;2024c)通常僅聚焦于其中一個方面,缺乏系統定義關鍵組成部分并整合兩個個性化 LLM 維度洞見的綜合視角。盡管這兩個領域在特征和目標上有所不同,但統一的視角對于彌合這些研究社區之間的差距至關重要,以促進協作和知識共享,從而開發出更具通用性和多功能性的系統。例如,用戶特定文本生成的進展可以通過對話互動為推薦系統提供更個性化和可解釋的建議。通過整合這兩個領域的洞見,研究人員可以開發不僅能夠生成符合個體偏好的文本,還能在各種應用中提升用戶滿意度的 LLM。此跨學科方法可促進更全面的解決方案,以互補方式兼顧個性化和性能。 在本研究中,我們通過為個性化 LLM 的個性化粒度、技術、評估、數據集和使用場景提出直觀的分類體系,統一了來自不同領域的文獻。本文的關鍵貢獻如下:

  1. 個性化 LLM 使用的統一視角與分類體系(第二節)。我們基于生成文本是直接用于評估還是間接用于其他下游應用,提供了個性化 LLM 使用的統一視角與分類體系。這為理解和統一專注于 LLM 個性化的兩個獨立領域奠定了基礎。我們進一步分析了每種方法的局限性,包括特征、評估和數據集等因素。
  2. 個性化 LLM 的形式化(第三節)。我們通過確立基礎概念,對個性化 LLM 進行了形式化,整合了現有的個性化概念,定義并討論了個性化的新方面,并概述了它們在各種使用場景中的理想特性。
  3. LLM 個性化粒度的分析和分類體系(第四節)。我們提出了 LLM 個性化的三個不同粒度層次,包括 (i) 用戶級個性化,(ii) 角色級個性化,以及 (iii) 全局偏好個性化。我們形式化了這些層次,并討論了各粒度之間的權衡。值得注意的是,用戶級個性化是最細的粒度,但需要足夠的用戶級數據。相比之下,角色級個性化將用戶分組為角色,并根據角色分配來定制體驗;雖然不及用戶級個性化細致,但對于數據有限的用戶來說是一種有效的個性化方式。最后,全局偏好個性化針對大眾的整體偏好,不提供用戶特定的個性化。
  4. LLM 個性化技術的調查與分類體系(第五節)。我們根據用戶信息的使用方式,對現有個性化 LLM 技術進行了分類并提供了全面的概述。分類涵蓋了各種方法,如檢索增強生成(RAG)、提示工程、監督微調、嵌入學習和基于人類反饋的強化學習(RLHF)。對于每種方法,我們討論了其特點、應用以及相關權衡。詳細分析有助于理解不同個性化技術的優缺點及其在不同任務中的適用性。
  5. 個性化 LLM 評估指標的調查與分類體系(第六節)。我們對個性化 LLM 評估中使用的現有指標進行了分類和分析,提出了一種新的分類體系,以區分直接和間接的評估方法。我們強調了定性和定量指標的重要性,涵蓋用戶滿意度、生成文本的相關性和連貫性等方面。此外,我們討論了個性化 LLM 評估中的挑戰,并提出了改善評估過程穩健性和可靠性的潛在解決方案。
  6. 個性化 LLM 數據集的調查與分類體系(第七節)。我們對用于訓練和評估個性化 LLM 的數據集進行了全面分類,基于其在直接或間接個性化文本生成評估中的用途。綜述涵蓋了廣泛的數據集,包括專門設計用于短文本和長文本生成、推薦系統、分類任務和對話生成的數據集。我們討論了每個數據集的優缺點、與不同個性化技術的相關性,以及為了推進該領域而需要更具多樣性和代表性的數據集。
  7. 個性化 LLM 的應用調查(第八節)。我們調查了個性化 LLM 應用的關鍵領域,包括教育和醫療、金融、法律、編程環境中的人工智能助手。我們還探索了其在推薦系統和搜索引擎中的應用,突顯個性化 LLM 提供定制用戶體驗、增強參與度并改善特定任務效果的能力。
  8. 未來工作的重要開放性問題和挑戰概述(第九節)。我們列出了個性化 LLM 中需要解決的關鍵挑戰和開放性研究問題,以推動該領域的發展。核心問題包括需要改進基準和指標以有效評估個性化,解決在用戶數據稀少時適應模型的冷啟動問題,以及解決可能在個性化輸出中出現的刻板印象和偏見問題。還探討了用戶數據隱私保護與個性化之間的平衡。此外,我們討論了將個性化擴展到多模態系統的獨特復雜性,其中跨越多種輸入類型整合用戶偏好仍是一個未解決的挑戰。

在本文的剩余部分,我們首先提出個性化 LLM 使用的統一視角和分類體系(第二節),然后深入探討個性化 LLM 的理論基礎(第三節)。接著,探討 LLM 個性化的粒度(第四節),并對個性化 LLM 技術進行全面的綜述與分類(第五節)。然后,我們對個性化 LLM 的評估指標和方法進行分類(第六節),并對個性化 LLM 的數據集進行詳細的分類(第七節)

個性化 LLM 的基礎

盡管先前的研究(Yang & Flek,2021;Chen 等,2024c;b)探討了個性化 LLM 的定義并分析了其各個方面,但仍缺乏一個全面的理論框架來理解和形式化這些模型中的個性化。在本節中,我們旨在填補這一空白,通過建立基礎原則、定義和形式結構來形式化 LLM 中的個性化問題。我們系統地發展必要的符號和概念框架,以形式化該問題和評估,為深入理解個性化如何在 LLM 中有效實施和分析奠定基礎。以下小節結構如下: §LLM 的一般原則:我們首先概述構成 LLM 基礎的核心原則。這為理解這些模型的功能及其能力驅動的基本機制提供了重要背景。 §LLM 中個性化的定義:我們在 LLM 的特定上下文中定義“個性化”這一術語,為后續討論奠定明確的理解基礎。 §個性化數據概述:我們提供當前用于個性化的數據概述,強調數據源的不同格式。 §個性化生成的形式化:我們形式化個性化生成的概念空間,為理解如何實現個性化提供結構化框架。 §個性化標準的分類體系:我們引入一個全面的個性化標準分類體系,分類影響個性化輸出的各種因素。

付費5元查看完整內容

模型融合是機器學習社區中的一種高效賦能技術,它不需要收集原始訓練數據,也不需要昂貴的計算。隨著模型融合在各個領域中變得越來越普遍,全面了解現有的模型融合技術變得至關重要。然而,文獻中在系統且深入地審視這些技術方面存在顯著的空白。本綜述提供了對模型融合方法和理論的全面概述,涵蓋了它們在各個領域和場景中的應用,以及未來的研究方向。具體而言,我們首先提出了一種新的分類方法,對現有的模型融合方法進行了詳盡的討論。其次,我們討論了模型融合技術在大語言模型、多模態大語言模型以及10多個機器學習子領域中的應用,包括持續學習、多任務學習、少樣本學習等。最后,我們強調了模型融合的剩余挑戰,并討論了未來的研究方向。關于模型融合的論文完整列表請參見\url{this https URL}。

模型融合,也稱為模型合并,是一種有效的技術,通過融合多個具有不同能力的獨立模型的參數,構建一個通用模型,而無需訪問原始訓練數據或進行昂貴的計算。與模型融合最相關的概念是集成學習 [33, 109, 142, 180],因為它們都促進了知識的融合與傳遞。如圖1所示,它們之間的主要區別在于,集成學習必須保存所有的單個模型,并在推理階段融合多個模型的預測(或輸出),而模型融合則直接在參數層面進行合并,并且在推理時只有一個最終模型。這使得模型融合具備了更為吸引人的特性。盡管模型融合是一個相對年輕的課題,但它正在快速發展,并且已經在多個領域中找到了應用。例如,在基礎模型中,由不同下游任務微調的模型被合并,以增強大語言模型的能力,而具有不同風格的圖像生成模型被合并,以創建具有混合風格能力的新模型。特別是,近年來機器學習社區中的預訓練和微調檢查點數量呈指數級增長,包括開源庫如Huggingface [182]、torchvision [111]和timm [181],這使得用戶可以輕松獲取各種能力的訓練良好的專家模型。這些豐富的模型庫進一步推動了模型融合方向的快速發展。隨著模型融合在機器學習社區的各個領域中變得越來越流行,全面了解現有模型融合技術的優勢和局限性及其在不同領域的應用變得至關重要。盡管社區已經做出了一些努力 [48, 96, 157, 214],但仍有許多空白需要填補。更具體地說,MergeKit [48]和FusionBench [157]是技術報告,MergeKit中僅討論了七種代表性方法,FusionBench中討論了八種合并方法。此外,Zheng等人 [214] 討論了“從模型中學習”的話題,并且僅在整個論文中以一個子節(一頁)提到了模型融合。與“模型融合”主題最相關的工作是 [96],但在應用方面,它只討論了模型融合在聯邦學習、微調和蒸餾三種場景中的應用。由于模型融合方向的快速發展,它也忽略了許多最近發表的文章。為了解決這些空白,本綜述旨在闡明模型融合方向中的方法、理論、應用和未來趨勢,提供相關方法的全面分類。特別是,本文通過涵蓋三個主要方面來增強對模型融合的全面理解:

**首先,現有的模型融合方法是如何分類的?**我們首先在圖2(上半部分)中提出了一個新的分類法,將現有的模型融合方法分為兩個階段(§2):預融合和融合過程中。(i)預融合方法旨在為融合創造更好的條件。它進一步分為使用線性微調實現權重空間和輸入空間的解耦,執行架構轉換以將異構模型轉換為同質模型,以及對齊權重以將它們置于同一盆地。(ii)融合過程中的方法側重于設計復雜的技術,將多個模型融合為一個。這些方法解決了在融合模型時的任務沖突和干擾問題。它們可以進一步分為基本融合方法,即執行最簡單的參數融合策略;加權融合方法,即根據特定規則計算的重要性來融合多個模型;子空間融合方法,即將多個模型投影到稀疏子空間進行融合;基于路由的方法,即在推理過程中根據輸入樣本動態融合模型;以及基于后校準的方法,即對融合后的模型進行校正。除了這些方法外,我們還討論了模型融合的理論或實證分析。

**其次,哪些應用可以從模型融合中受益?**我們詳細討論了模型融合在基礎模型(§3)和機器學習的十多個子領域(§4)中的各種用例。如圖2(下半部分)所示,模型融合可以應用于多種基礎模型,包括大語言模型、多模態大語言模型和圖像生成模型。例如,模型融合在大語言模型中可以幫助減輕不真實和有害輸出,實現知識去學習,并加速訓練。此外,模型融合還出現在不同的機器學習子領域,如持續學習、多任務/多域學習、少樣本學習和其他子領域,以解決各種挑戰。例如,在持續學習中,模型融合可以減輕舊任務的災難性遺忘。在多任務學習、多目標學習和多域學習中,它促進了知識傳遞。此外,在對抗性學習中,模型融合可以用于攻擊和防御策略。**第三,模型融合的剩余挑戰和未來研究機遇是什么?**盡管融合方法取得了進展并且應用已經得到了充分發展,但該領域仍存在許多未解決的挑戰和未來的研究方向(§5)。例如,隨著任務數量的增加,現有方法與獨立專家模型之間的性能差距顯著擴大。此外,當前的模型融合方法在融合過程中產生了巨大的內存成本,并且缺乏信任保證以及深入的理論分析。解決這些空白需要研究人員做出大量努力,以進一步推動該領域的蓬勃發展。

總而言之,本文的主要貢獻包括以下三個方面: ? 方法概述:我們提供了對模型融合技術方面的全面總結。具體而言,我們提出了一個新的分類法,將現有的模型融合方法分為兩個階段,并根據關鍵技術進一步細分每個階段的方法。此外,我們還討論了與模型融合相關的理論分析工作。 ? 應用概述:我們提供了對模型融合應用方面的全面總結。具體而言,我們探索了模型融合在基礎模型和10多個機器學習子領域中的應用,展示了模型融合如何解決這些領域中的現有挑戰。 ? 未來方向:我們概述了模型融合的幾個剩余挑戰和未來方向。我們認為,未來需要從性能差距、理論分析、信任保證、跨學科應用等方面進一步探索模型融合。 本文的主要結構如下:§1是介紹,§2從技術角度對高級模型融合方法進行了全面討論。在§3和§4中,我們分別總結了模型融合在各種基礎模型和機器學習不同子領域中的應用。剩余的挑戰和未來的研究方向在§5中討論。最后,我們在§6中對本文進行了總結。

高級模型融合方法

在本節中,我們首先在§2.1中介紹模型融合的符號表示和問題定義。然后,我們詳細闡述了高級模型融合方法(表1總結了每類方法的主要目的)。現有的模型融合技術大致可以分為以下兩類: (i) 融合前方法 在§2.2中:為模型融合提供更好的先驗知識。 (ii) 融合過程中方法 在§2.3中:通過各種策略解決任務沖突/干擾,然后執行參數融合操作。最后,我們在§2.4中總結了模型融合有效性的理論或解釋。

模型融合在基礎模型中的應用

基礎模型的出現,包括大語言模型(LLM)、多模態大語言模型(MLLM)和圖像生成模型,是近年來人工智能領域技術進步的重要標志。然而,盡管這些大型模型取得了顯著進展,但它們仍面臨諸多挑戰,如LLM生成有害內容、MLLM在融合不同模態信息時的困難,以及圖像生成模型在生成混合風格圖像時的難度。最新研究表明,模型融合技術為這些基礎模型中固有的挑戰提供了一個有前景的解決方案。表2首先簡要總結了模型融合在基礎模型中的應用。然后,§3.1、§3.2和§3.3分別詳細討論了LLM、MLLM和圖像生成模型如何從模型融合中受益。

模型融合在不同機器學習子領域的應用

模型融合是一種簡單而有效的技術,廣泛應用于機器學習的各個子領域,如持續學習、多任務學習、領域泛化、聯邦學習、少樣本學習和對抗性防御等。在本節中,我們將全面討論模型融合在不同機器學習子領域中的應用。表3提供了簡要總結,§4.1至§4.6中詳細介紹了每個應用案例。

結論

模型融合是一種簡單而有效的模型增強技術,通過結合多個模型來實現多樣化的能力。在本綜述中,我們首先全面概述了當前在模型融合領域可用的高級方法和理論。接下來,我們討論了模型融合技術在各種基礎模型(如LLM、MLLM)和機器學習的十多個子領域中的應用,強調了它們在解決各種挑戰和困難中的作用。最后,我們識別了模型融合領域中尚存的問題,并提出了六個值得進一步探索的研究方向。我們相信,作為一種高效且模塊化的模型賦能解決方案,模型融合技術將在未來的更多實際場景中發揮重要作用。

付費5元查看完整內容

理解大規模語言模型(LLMs)中的知識機制對于邁向可信的通用人工智能(AGI)至關重要。本文從一個新的分類法角度回顧了知識機制的分析,包括知識利用和進化。知識利用探討了記憶、理解與應用及創造的機制。知識進化則關注個體和群體LLMs中知識的動態發展。此外,我們討論了LLMs所學到的知識、參數化知識脆弱的原因以及潛在的黑暗知識(假設)所帶來的挑戰。我們希望這項工作能幫助理解LLMs中的知識,并為未來的研究提供見解。

知識是智慧的基石和文明延續的基礎,為我們提供了導航復雜問題和應對新興挑戰的基本原則和指導(Davis et al., 1993; Choi, 2022)。在漫長的進化歷史中,我們致力于利用已獲得的知識和探索未知知識的前沿,以培養更高級的智慧(McGraw and Harbison-Briggs, 1990; Han et al., 2021)。 眾所周知,大規模語言模型(LLMs)也因其涵蓋了廣泛的參數化知識而聞名(Roberts et al., 2020; Sung et al., 2021; Cao et al., 2021; Zhong et al., 2021; Kandpal et al., 2023; Heinzerling and Inui, 2020; Petroni et al., 2019; Qiao et al., 2023; Kritharoula et al., 2023; He et al., 2024a),在應用上取得了前所未有的進展。然而,LLMs在學習、存儲、利用和進化方面的知識機制仍然是一個謎(Gould et al., 2023a)。大量研究試圖通過知識神經元(Dai et al., 2022; Chen et al., 2024a)和電路(Elhage et al., 2021; Yao et al., 2024; Zou et al., 2024)來揭示LLMs中各種類型的知識,但這些努力分散在各個任務中,尚待全面的回顧和分析。 如圖1所示,本文開創性地回顧了整個知識生命周期中的機制。我們還提出了一種新的LLMs知識機制分類法,如圖2所示,涵蓋了特定時間的知識利用和整個LLMs期間的知識進化。具體來說,我們首先介紹了該領域的基本知識(§2)并從新的角度回顧了知識利用機制(§3)。然后,我們深入探討了知識進化的基本原則(§4),討論了知識利用的挑戰,并提出了一些有前景的假設來探索開發強大且可信模型的潛在途徑(§5)。最后,我們還提供了一些未來方向(§6)和知識機制分析工具(§C)。我們的貢獻如下: * 據我們所知,我們是首個回顧LLMs中知識機制并提供整個生命周期內的新分類法的。 * 我們提出了一種新的視角,從記憶、理解與應用及創造三個層次分析知識利用機制。 * 我們討論了個體和群體LLMs中的知識進化,并分析了這一過程中固有的沖突和整合。 * 我們懷疑普遍的Transformer架構可能阻礙創造力,數據分布和數量可能導致參數化知識的脆弱性,引發幻覺和知識沖突。此外,黑暗知識將長期存在。

與現有綜述的比較以往的可解釋性綜述通常旨在從全局和局部分類法角度研究解釋LLMs中不同組件作用的各種方法(Ferrando et al., 2024; Zhao et al., 2024a; Luo and Specia, 2024; Murdoch et al., 2019; Bereska and Gavves, 2024; Vilas et al., 2024; Singh et al., 2024)。相比之下,本文側重于LLMs中的知識。因此,我們的分類法以LLMs中的目標知識為導向,回顧了知識的獲取、存儲、利用及后續進化。此外,以前的分類法大多探討推理階段(一個特定時期)的可解釋性,而忽略了預訓練階段的知識獲取和后訓練階段的進化(R?uker et al., 2023; Luo et al., 2024b; Apidianaki, 2023; Jiao et al., 2023; R?uker et al., 2023; Rai et al., 2024)。我們的分類法旨在探索從幼稚到成熟的各個階段的動態進化,無論是個體還是群體LLMs。 與最相似的綜述(Cao et al., 2024a)引入的知識生命周期相比,我們的工作重點是每個階段的底層機制。總體而言,本文可能有助于我們探索和操作LLMs中的高級知識,通過知識進化的歷史檢查當前的局限性,并為未來模型的更高效和可信的架構和學習策略提供靈感。請注意,本文中的大多數假設源自基于Transformer的LLMs。我們還驗證了這些假設在其他架構模型中的普適性,然后在§B中提出普遍智能。

付費5元查看完整內容

視覺與語言導航(VLN)近年來受到越來越多的關注,許多方法已經涌現出來以推動其發展。基礎模型的顯著成就已經塑造了VLN研究的挑戰和提出的方法。在本綜述中,我們提供了一種自上而下的審視方法,采用了一種原則性框架進行具身規劃和推理,并強調了利用基礎模型應對VLN挑戰的當前方法和未來機會。我們希望通過深入的討論提供有價值的資源和見解:一方面,用以標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;另一方面,為基礎模型研究者整理VLN中的各種挑戰和解決方案。

開發能夠與人類及其周圍環境互動的具身代理是人工智能(AI)的長期目標之一(Nguyen et al., 2021; Duan et al., 2022)。這些AI系統在實際應用中具有巨大的潛力,可以作為多功能助手在日常生活中發揮作用,如家庭機器人(Szot et al., 2021)、自動駕駛汽車(Hu et al., 2023)和個人助理(Chu et al., 2023)。一個推進這一研究方向的正式問題設置是視覺與語言導航(VLN)(Anderson et al., 2018),這是一項多模態和協作任務,要求代理根據人類指令探索三維環境,并在各種模糊情況下進行在場通信。多年來,VLN在仿真環境(Chang et al., 2017; Savva et al., 2019; Xia et al., 2018)和實際環境(Mirowski et al., 2018; Banerjee et al., 2021)中都進行了探索,產生了許多基準測試(Anderson et al., 2018; Ku et al., 2020; Krantz et al., 2020),每個基準測試都提出了稍有不同的問題表述。

近年來,基礎模型(Bommasani et al., 2021)從早期的預訓練模型如BERT(Kenton and Toutanova, 2019)到當代的大型語言模型(LLMs)和視覺語言模型(VLMs)(Achiam et al., 2023; Radford et al., 2021)展現出了在多模態理解、推理和跨領域泛化方面的非凡能力。這些模型在海量數據上進行了預訓練,如文本、圖像、音頻和視頻,并可以進一步適應廣泛的具體應用,包括具身AI任務(Xu et al., 2024)。將這些基礎模型整合到VLN任務中標志著具身AI研究的一個關鍵進展,表現出顯著的性能提升(Chen et al., 2021b; Wang et al., 2023f; Zhou et al., 2024a)。基礎模型還為VLN領域帶來了新的機會,例如從多模態注意力學習和策略政策學習擴展到預訓練通用的視覺和語言表征,從而實現任務規劃、常識推理以及泛化到現實環境。

盡管基礎模型對VLN研究產生了最近的影響,以往關于VLN的綜述(Gu et al., 2022; Park and Kim, 2023; Wu et al., 2024)來自基礎模型時代之前,主要關注VLN基準測試和傳統方法,即缺少利用基礎模型解決VLN挑戰的現有方法和機會的全面概述。特別是隨著LLMs的出現,據我們所知,尚未有綜述討論它們在VLN任務中的應用。此外,與以前將VLN任務視為孤立的下游任務的努力不同,本綜述的目標有兩個:首先,標記進展里程碑,探索基礎模型在該領域的機會和潛在作用;其次,在系統框架內為基礎模型研究者組織VLN中的不同挑戰和解決方案。為建立這種聯系,我們采用LAW框架(Hu and Shu, 2023),其中基礎模型作為世界模型和代理模型的骨干。該框架提供了基礎模型中推理和規劃的一般景觀,并與VLN的核心挑戰緊密相關。

具體而言,在每一步導航中,AI代理感知視覺環境,接收來自人類的語言指令,并基于其對世界和人類的表征進行推理,以規劃行動并高效完成導航任務。如圖1所示,世界模型是代理理解周圍外部環境以及其行動如何改變世界狀態的抽象(Ha and Schmidhuber, 2018; Koh et al., 2021)。該模型是一個更廣泛的代理模型的一部分,該代理模型還包含一個人類模型,該模型解釋其人類伙伴的指令,從而告知代理的目標(Andreas, 2022; Ma et al., 2023)。為了回顧VLN領域不斷增長的工作并理解所取得的里程碑,我們采用自上而下的方法進行綜述,重點關注從三個角度出發的基本挑戰:

  • 學習一個世界模型來表示視覺環境并泛化到未見過的環境。
  • 學習一個人類模型以有效地從基礎指令中解釋人類意圖。
  • 學習一個VLN代理,利用其世界和人類模型來實現語言的基礎、溝通、推理和規劃,使其能夠按指示導航環境。

我們在圖2中展示了一個分層和細粒度的分類法,基于基礎模型討論每個模型的挑戰、解決方案和未來方向。為了組織本綜述,我們首先簡要概述該領域的背景和相關研究工作以及可用的基準測試(第2節)。我們圍繞提出的方法如何解決上述三個關鍵挑戰進行結構化審查:世界模型(第3節)、人類模型(第4節)和VLN代理(第5節)。最后,我們討論了當前的挑戰和未來的研究機會,特別是在基礎模型興起的背景下(第6節)。

VLN任務定義

一個典型的視覺與語言導航(VLN)代理在指定位置接收來自人類指令者的(一系列)語言指令。代理使用以自我為中心的視覺視角在環境中導航。通過遵循指令,代理的任務是在一系列離散視圖或較低級別的動作和控制(例如,前進0.25米)上生成軌跡,以到達目的地。如果代理到達距離目的地指定距離(例如3米)以內的位置,則任務被認為成功。此外,代理可以在導航過程中與指令者交換信息,可以請求幫助或進行自由形式的語言交流。此外,人們對VLN代理集成額外任務(如操作任務(Shridhar et al., 2020)和物體檢測(Qi et al., 2020b))的期望也在不斷增加。

基準測試

如表1所示,現有的VLN基準測試可以根據幾個關鍵方面進行分類:(1)導航發生的世界,包括領域(室內或室外)和環境的具體情況。(2)涉及的人機交互類型,包括交互回合(單次或多次)、通信格式(自由對話、限制對話或多重指令)和語言粒度(動作導向或目標導向)。(3)VLN代理,包括其類型(如家庭機器人、自動駕駛車輛或自主飛行器)、動作空間(基于圖形、離散或連續)和額外任務(操作和物體檢測)。(4)數據集的收集,包括文本收集方法(人類生成或模板化)和路徑演示(人類執行或規劃生成)。有代表性的是,Anderson等人(2018)基于Matterport3D模擬器(Chang et al., 2017)創建了Room-to-Room(R2R)數據集,代理需要遵循精細的導航指令到達目標。Room-across-Room(RxR)(Ku et al., 2020)是一個多語言版本,包括英語、印地語和泰盧固語指令。它提供了更大的樣本量,并為虛擬姿態提供了時間對齊的指令,豐富了任務的語言和空間信息。Matterport3D允許VLN代理在離散環境中操作,并依賴預定義的連接圖進行導航,代理通過在相鄰節點之間的傳送在圖上移動,被稱為VLN-DE。為了使簡化的設置更現實,Krantz等人(2020)、Li等人(2022c)、Irshad等人(2021)通過將離散的R2R路徑轉移到連續空間(Savva等人,2019)提出了連續環境中的VLN(VLN-CE)。Robo-VLN(Irshad等人,2021)通過引入在機器人環境中更現實的連續動作空間的VLN,進一步縮小了模擬到現實的差距。最近的VLN基準測試經歷了幾次設計變更和期望,我們在第6節中討論這些變更。

評估指標

三種主要指標用于評估導航路徑規劃性能(Anderson等人,2018):(1)導航誤差(NE),代理最終位置與目標位置之間最短路徑距離的平均值;(2)成功率(SR),最終位置足夠接近目標位置的百分比;(3)成功率加權路徑長度(SPL),通過軌跡長度標準化成功率。一些其他指標用于衡量指令遵循的忠實度和預測軌跡與真實軌跡之間的一致性,例如:(4)按長度加權的覆蓋得分(CLS)(Jain等人,2019);(5)歸一化動態時間規整(nDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰;以及(6)按成功率加權的歸一化動態時間規整(sDTW)(Ilharco等人,2019),對偏離真實軌跡的情況進行懲罰,并考慮成功率。

付費5元查看完整內容

思維鏈(CoT)已經成為一種廣泛采用的提示方法,激發了大型語言模型(LLMs)的印象深刻的推理能力。受CoT的連續思維結構的啟發,已經開發了許多針對CoX(X鏈)的方法,以應對涉及LLMs的不同領域和任務中的各種挑戰。在本文中,我們提供了一個全面的關于LLMs在不同情境下的CoX方法的綜述具體來說,我們根據節點的分類,即CoX中的X,以及應用任務對它們進行分類。我們還討論了現有CoX方法的發現和含義,以及潛在的未來方向。我們的綜述旨在為尋求將CoT理念應用于更廣泛場景的研究人員提供一個詳細且最新的資源。

大型語言模型(LLMs)在使用思維鏈(CoT)方法提示時表現出強大的推理能力(Wei et al., 2022; Yao et al., 2024; Besta et al., 2024a)。CoT的本質是將復雜問題分解為一系列中間子任務(Chu et al., 2023; Zhou et al., 2023)。通過逐步處理這些子任務,LLMs能夠關注重要的細節和假設,這大大提高了它們在廣泛推理任務中的表現(Huang and Chang, 2023; Chu et al., 2023)。此外,CoT的中間步驟提供了一個更透明的推理過程,便于對LLMs的解釋和評估(Yu et al., 2023b)。隨著CoT的成功,開發了許多X鏈(CoX)方法(Yu et al., 2023a)。這些方法不僅限于推理思維,最近的CoX方法還構建了包含各種組件的鏈,如反饋鏈(Lei et al., 2023; Dhuliawala et al., 2023)、指令鏈(Zhang et al., 2023d; Hayati et al., 2024)、歷史鏈(Luo et al., 2024; Xia et al., 2024d)等。這些方法已被應用于解決涉及LLMs的多樣化任務中的挑戰,包括多模態交互(Xi et al., 2023a; Zhang et al., 2024a)、幻覺減少(Lei et al., 2023; Dhuliawala et al., 2023)、基于LLM的代理規劃(Zhan and Zhang, 2023; Zhang et al., 2024c)等。

盡管這些CoX方法的普及度不斷提高,但它們尚未被集體審查或分類,我們對它們的潛力和細微差別的理解還存在差距。為此,本綜述旨在提供一個結構化概覽,捕捉CoX方法的本質和多樣性,以便進一步探索和創新。雖然幾項綜述已經探討了CoT(Chu et al., 2023; Yu et al., 2023b; Besta et al., 2024b),它們主要關注不同結構的推理思維,例如圖1(a)所示的思維鏈。與此相反,本文關注的是如圖1所示,超越推理思維的多面向組件設計的X鏈,提供CoT概念在更廣泛領域的見解。我們通過CoX中的X的分類和應用這些方法的任務來呈現一個全面的綜述。綜述概覽首先提供思維鏈的背景信息并定義X鏈為其概括(§2)。接下來,我們根據用于構建鏈的組件類型對CoX方法進行分類(§3)。此外,根據這些CoX方法的應用領域,我們按任務對它們進行分類(§4)。然后,我們討論現有CoX方法的見解并探索潛在的未來方向(§5)。綜述的詳細結構在圖2中呈現。

什么是X鏈?

在本節中,我們首先介紹一些關于思維鏈(Chain-of-Thought,CoT)提示的背景信息,然后定義一個廣義的X鏈(Chain-of-X,CoX)概念。

思維鏈(CoT)提示是一種方法論,能顯著增強大型語言模型(LLMs)的推理能力。CoT由Wei等人(2022)引入,涉及以結構化的格式<input, thoughts, output>提示LLMs,其中“thoughts”包括通向最終答案的連貫的中間自然語言推理步驟。CoT在需要復雜推理的任務中效果最為顯著。傳統的少樣本學習方法在這類場景中經常會失敗,因為它們傾向于直接提供答案而不包括必要的中間步驟。Rae等人(2021)強調了這一局限性,指出這些方法隨著模型大小的增加而顯得不足。相比之下,CoT提示通過融入中間推理步驟而表現出色。這些步驟通過邏輯推進引導模型,增強其解決算術、常識和符號推理等復雜問題的能力(Wang等人,2023d;Lyu等人,2023)。CoT的本質在于通過將復雜問題分解為可管理的中間步驟來解決問題(Zhou等人,2023)。Kojima等人(2022)也展示了通過提示“讓我們一步一步思考。”的零樣本CoT的強大性能。明確的推理步驟還為模型的思考過程提供了一個透明的路徑,允許進一步的評估和糾正(Yu等人,2023b)。 受CoT的順序分解特性啟發,最近開發了大量的X鏈(CoX)方法(Yu等人,2023a)。在這里,我們將CoX定義為CoT方法的一種廣義形式,用于超越LLM推理的多樣化任務。我們將CoX中的X稱為鏈結構的“節點”。除了CoT提示中的思考外,CoX中的X可以采取針對特定任務定制的各種形式,包括中間件(§3.1)、增強(§3.2)、反饋(§3.3)甚至模型(§3.4),如圖1所示。我們在圖2中總結了現有CoX方法中的節點類型。CoX的想法是構建一個與問題相關的組件序列,這些組件要么組合貢獻解決方案,要么迭代精煉復雜任務的輸出。同樣,我們為CoX定義了一個結構化格式<input, X1, ..., Xn, output>,其中n是鏈的長度。請注意,這種格式超越了像CoT這樣的提示策略,可以適應多種算法框架或結構,用于涉及LLMs的多樣化任務。例如,驗證鏈(Chain-of-Verification,Dhuliawala等人,2023)是一個幻覺減少框架,使用LLM生成初始響應,構建一系列驗證問題,并根據這些問題修訂其先前的響應。除了減少幻覺外,CoX方法還被應用于多種任務,如圖2所示,包括多模態互動(§4.1)、事實性與安全(§4.2)、多步驟推理(§4.3)、指令跟隨(§4.4)、LLMs作為代理(§4.5)和評估工具(§4.6)。

結論

本綜述探討了基于思維鏈概念構建的X鏈方法。通過根據節點和任務對它們進行分類,我們提供了一個全面的概覽,突出了CoX在增強大型語言模型(LLMs)能力方面的潛力,并為未來研究開辟了新的途徑。通過這項綜述,我們旨在激發對LLMs的X鏈范式進行更深入理解和更有創造性使用的進一步探索。

付費5元查看完整內容

基于Transformer的大型語言模型取得了巨大成功。然而,在推理過程中產生的顯著內存和計算成本,使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中,我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言,類似于較小的模型,大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而,與較小模型相比,大型語言模型有兩個突出的特點:(1)大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此,許多針對大型模型的算法,如量化和剪枝,開始探索無需調整的算法。(2)大型模型強調的是通用性和泛化能力,而不是在單一任務上的性能。因此,許多算法,如知識蒸餾,關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯,我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外,我們還提供了一些成熟框架的介紹,這些框架可以支持大型模型的高效推理,支持基本的壓縮或加速算法,極大地便利了用戶的模型部署。

大型語言模型(LLMs)已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比,LLMs(例如ChatGPT、LLaMA、Claude)對未見數據顯示出了更強的泛化能力。此外,它們甚至展現出了較小模型所不具備的能力(即,突現能力),如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而,在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如,一個帶有float32權重的10B模型消耗37GB內存,更不用說隨著序列長度增加,推理內存成本會以平方速度進一步增加。為了在資源受限的設備上,甚至是移動設備上部署模型,許多LLMs采用模型壓縮方法,如量化,以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的(甚至是預訓練的)模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本,以便模型可以在各種資源受限的設備上運行。從算法上講,常見的模型壓縮方法包括:

  • 量化將float32權重或激活轉換為低位的浮點數或整數。較少的位意味著較少的內存需求。此外,較少的位可能表示更高的并行性和更快的推理速度。
  • 剪枝致力于移除預設計模型中不重要的組件(例如,神經元,層等),從而減少推理成本中的內存和計算成本。
  • 知識蒸餾引入一個預訓練的大模型作為教師,并將其知識轉移到一個新的較小的模型上,后者稱為學生模型。然后,較小的模型將幾乎擁有與教師相同的能力,并享受較少的內存和計算成本。
  • 緊湊架構設計設計新的運算符,以較低的成本替換(通常是近似)原始模型中的笨重運算符。對于Transformer模型,自注意力是主要目標,通常被其他運算符替換。
  • 動態網絡對每個推理樣本進行不同的處理。原始模型是一個超網,每個樣本只選擇超網的一個子結構進行推理。專家混合(MoE)是一種動態推理。 此外,上述方法也可以組合使用,以進一步壓縮和加速。現有的壓縮方法為我們壓縮LLMs提供了重要的基石和見解。然而,LLMs也為模型壓縮帶來了許多新的挑戰:
  1. 許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而,由于微調LLMs的巨大預算,研究人員不得不探索免微調或至少更高效的微調方法。

  2. 與處理單一任務(如神經機器翻譯)不同,大型語言模型強調跨各種任務和未見數據的通用性和泛化能力,甚至是突現能力。因此,壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。 面對這些挑戰,提出了許多專門針對LLMs的壓縮方法。在本文中,我們將對這些方法進行全面綜述。為了更好地展示這些方法,我們進一步將參數約為十億或更少的語言模型,如BERT、GPT2,稱為中等模型,盡管它們通常被視為大型語言模型。參數超過十億的模型,如LLaMA、Claude、ChatGPT等,保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小,即中等模型相對容易進行微調,展示較少的突現能力。結果,許多針對中等模型的壓縮方法仍與較小模型的方法相似。 以下各節的組織如下:第2節將介紹一些初步知識。然后,我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。

量化

量化是指將輸入值(在一個大的(通常是連續的)集合中)映射到輸出值(在一個小的(通常是有限的)集合中)的過程(例如,見圖2)。量化是減少內存成本和提高LLMs推理速度的最直接方法,特別是在支持低位數據類型(如INT4)快速操作的硬件上。值得注意的是,量化在神經網絡訓練和推理中都取得了令人印象深刻的成功,而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法(如剪枝和蒸餾)有幾個優勢。1)高壓縮比:將LLMs中的權重從32位浮點數量化為4位整數,可以將模型大小大幅壓縮至大約1/8,這對于內存受限的過程(如LLMs推理)至關重要。2)低成本:許多量化方法不需要重新訓練整個LLMs,使其對于計算資源有限的研究人員更加可行。3)高靈活性:量化與大多數其他壓縮方法兼容,為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法,我們首先在3.1小節介紹標準量化方法和一些基本概念。然后,在3.2節,我們將簡要總結LLMs出現之前一些針對中等大小語言模型(如BERT,GPT2等)的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難,我們根據技術是否需要重新訓練,將LLMs量化方法分為兩部分。不需要重新訓練的方法(即,訓練后量化,PTQ)在3.3節討論,而需要重新訓練的方法(即,量化感知訓練,QAT)在3.4節討論。最后,在3.5節,我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。

剪枝

作為一種常規技術,用于壓縮和加速神經網絡,剪枝通過消除模型中非必需的權重或結構,同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡(CNNs)中顯示出顯著結果,但與量化和蒸餾等其他壓縮技術相比,其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大,微調的高成本使得實現剪枝的全部效果變得更加困難。然而,剪枝是壓縮模型的關鍵技術,需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分,我們將在4.1節提供剪枝方法和基本概念的概覽。隨后,在4.2節,我們將詳細闡述為中等大小語言模型(即,參數達到數十億的模型)量身定制的剪枝技術,鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后,在4.4節,我們將介紹一些輔助技術,這些技術雖然不是剪枝方法,但與剪枝相關,用于改進LLMs的剪枝結果,并討論LLMs剪枝領域未來進步的挑戰。

知識蒸餾知識蒸餾(KD)是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中,從而實現教師模型知識的更簡潔高效的表示。在5.1節中,我們將介紹知識蒸餾的一些基本概念,并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型(具有大約10億參數的語言模型)的各種知識蒸餾方法,并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后,我們將在5.3節提供大型語言模型(具有超過10億參數的語言模型)知識蒸餾的詳細概述,將它們分類為黑盒蒸餾和白盒蒸餾。

緊湊架構設計是一種追求效率和簡化的設計哲學,其目標是通過優化網絡結構和算法,在減少計算資源和內存使用的同時,實現模型效率的顯著提升。具體而言,它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分,并且對于大型和中等大小模型來說沒有區別,因此我們在這里不會特別按模型大小分類方法。

動態網絡

擴大語言模型的規模已被證明是提升其在自然語言處理(NLP)任務上性能的有效方法。然而,擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題,同時仍然利用規模增加的好處,動態神經網絡(DyNNs)只針對每個輸入處理網絡的一個子集,使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域,當前對DyNNs的研究主要包括以下三種方法:提前退出、級聯推理和專家混合(MoE)。提前退出旨在動態地在深度神經網絡(DNNs)的早期層次終止推理過程,從而減少計算成本并提高響應時間。直覺是,對于不太復雜的詞匯,往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器,這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型,如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統,以確定輸入查詢的處理策略,并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢,并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度,并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標,以決定是否利用更強大的LLMs。一般來說,這一系列工作最近才出現,并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比,MoE的研究有著橫跨多個機器學習領域(包括NLP)的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡(FFN),其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中,以提供高效而強大的服務。因此,在本節的剩余部分,我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念,接著是對將MoE整合到LLMs中的當代研究的廣泛綜述,包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧,這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起,突出了其在開發更全面和成本效益更高的LLM系統中的潛力。

隨著基于Transformer的模型的快速發展,出現了各種模型。由于不同的應用場景,它們在延遲、吞吐量、內存等方面有著額外的需求,這使得我們難以部署模型。在本節中,我們介紹了一些最近開發的針對LLM的推理加速框架,這些框架有效地提高了不同場景下模型的效率,如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357],由于本文關注于推理,我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理,可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。

結論

在本文中,我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查,包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外,我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而,正如我們在引言中提到的,與較小模型相比,大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰,但許多算法仍然依賴于為壓縮小型模型而設計的框架,壓縮大型模型的挑戰依然存在。未來,需要進一步探索,以開發更高效、更有效的壓縮算法,同時確保大型模型的通用性和泛化能力。

付費5元查看完整內容

在快速發展的自然語言生成(NLG)評估領域中,引入大型語言模型(LLMs)為評估生成內容質量開辟了新途徑,例如,連貫性、創造力和上下文相關性。本綜述旨在提供一個關于利用LLMs進行NLG評估的全面概覽,這是一個缺乏系統分析的新興領域。我們提出了一個連貫的分類體系來組織現有的基于LLM的評估指標,提供了一個結構化的框架來理解和比較這些方法。我們的詳細探索包括批判性地評估各種基于LLM的方法論,以及比較它們在評估NLG輸出時的優勢和局限性。通過討論尚未解決的挑戰,包括偏見、穩健性、領域特定性和統一評估,本綜述旨在為研究人員提供洞見,并倡導更公平、更先進的NLG評估技術。

自然語言生成(NLG)處于現代AI驅動通信的前沿,近期在大型語言模型(LLMs)方面的進展徹底改變了NLG系統的能力(Ouyang et al., 2022; OpenAI, 2023)。這些模型,依靠深度學習技術和大量的訓練數據,展現出在廣泛應用中生成文本的卓越能力。隨著NLG技術的快速發展,建立可靠的評估方法以準確衡量生成內容的質量變得越來越重要。

傳統的NLG評估指標,如BLEU(Papineni et al., 2002)、ROUGE(Lin, 2004)和TER(Snover et al., 2006),主要關注表面層面的文本差異,通常在評估語義方面存在不足(Freitag et al., 2020)。這一局限性已被指出阻礙了研究進展,并可能導致誤導性的研究結論。此外,其他使用神經嵌入來計算分數的方法(Liu et al., 2016; Sellam et al., 2020; Zhang et al., 2020),盡管在評估諸如語義等價性和流暢性方面有所考慮,但它們的靈活性有限,適用范圍受限(Freitag et al., 2021a)。此外,這些傳統方法與人類判斷的一致性較低(Liu et al., 2023c),且對分數的解釋性不足(Xu et al., 2023)。這些缺點突顯了NLG領域需要更細膩和全面的評估方法的需求。

大型語言模型(LLMs)涌現的能力為基于LLM的NLG評估提供了有前景的途徑,例如Chain-of-Thought(CoT)(Wei et al., 2022b)、零次學習指令跟隨(Wei et al., 2022a)、更好地與人類偏好相一致(Ouyang et al., 2022)等。這些特性使LLMs成為評估NLG輸出的有力工具,與傳統方法相比提供了更為復雜和更好地與人類一致的評估(Liu et al., 2023c;Kocmi and Federmann, 2023;Fu et al., 2023)。例如,LLMs可以生成合理的解釋來支持最終評分(Xu et al., 2023),而利用人類反饋的強化學習(RLHF)可以使LLMs的偏好更好地與人類一致(Ouyang et al., 2022;Zheng et al., 2023)。如圖1所示,這些方法的關鍵策略涉及指示LLMs使用提示來從不同方面評估生成的文本,無論是否有參考資料和來源。然而,眾多基于LLM的NLG評估方法,針對不同的任務和目標,缺乏統一的概述。

鑒于LLMs在NLG評估領域的工作量不斷增加,迫切需要一個綜合總結來導航這一領域內的復雜性和多樣化方法。本綜述旨在提供這一有前景領域的全面概述,呈現一個用于組織現有工作的連貫分類體系。我們詳細勾勒了關鍵研究及其方法論,并深入分析了這些方法的各種優點、局限性和獨特屬性。此外,我們探索了該領域內尚未解決的挑戰和開放性問題,從而為未來的學術探索勾畫出潛在的途徑。這一全面探索旨在激發讀者對LLM在NLG評估中方法的細微差別和不斷變化的動態有深入的了解。

本綜述的組織我們呈現了利用LLMs進行NLG評估的首個全面綜述。首先,我們建立了NLG評估的正式框架,并提出了一個分類體系來分類相關工作(第2節)。隨后,我們深入并詳細闡述這些工作(第3節)。此外,我們對評估LLM評估者有效性的各種元評估基準進行了系統回顧(第4節)。鑒于這一領域的快速發展,我們確定并討論了一些可能指導未來研究的潛在開放問題(第5節)。在結束這一系統綜述時,我們倡導通過開發更公正、更穩健、更專業和統一的基于LLM的評估者來推動這一領域的發展。此外,我們強調整合其他評估方法,如人類判斷,以實現更全面和多面的評估框架。

在大型語言模型(LLMs)迅速發展的背景下,越來越多的研究將重點放在利用這些模型作為NLG任務的評估者。這種關注特別源于LLMs的高容量生成能力,導致出現了使用它們來對NLG文本進行質量評估的工作——我們將這種范式稱為生成性評估。這一類別大致分為基于提示的評估和基于微調的評估,其核心在于LLM評估者的參數是否需要微調。基于提示的評估通常涉及使用精心設計的提示指導強大的基礎LLMs來評估生成的文本。另一方面,基于微調的評估依賴于專門為NLG評估校準的開源LLMs。這兩種方法都適用于不同的評估協議,用于衡量生成文本的質量。

當前方法考慮不同的評分協議來判斷生成假設文本的質量。一些嘗試部署LLM評估者產生連續的標量分數,代表單個生成文本的質量——稱為? 基于分數的評估。其他方法計算基于提示、來源或參考文本(可選)的生成文本的生成概率作為評估指標,稱為? 基于概率的評估。在多樣化的領域中,某些工作將NLG評估轉化為分類任務,使用類似李克特量表的多級別對文本質量進行分類。在這種情況下,LLM評估者通過將生成的文本分配到特定的質量級別來評估其質量——稱為? 李克特風格評估。同時,? 成對比較方法涉及使用LLM評估者比較一對生成文本的質量。此外,? 組合評估方法利用多個不同LLMs或提示的LLM評估者,協調評估者之間的溝通以產生最終評估結果。最后,一些最新的研究探索了? 高級評估方法(考慮細粒度標準或結合連續思考或上下文學習的能力),旨在獲得更全面和細致的評估結果。

本節深入探討了這兩個主要類別的評估方法,每種方法都伴隨其相應的評估協議。表2提供了當前基于提示和基于微調評估方法的全面概述。該表詳細說明了它們各自的適應任務、基礎模型、評分協議和評估方面,以便于清晰參考。

基于LLM的評估者已在多種NLG任務中找到應用。與此同時,眾多現有和近期引入的元評估基準用于驗證這些評估者的有效性。這些基準包括了對生成文本質量的人類注釋,以及評估自動評估者和人類偏好之間一致性的程度。根據涉及的任務,這些基準可以被分類為單一場景示例,如機器翻譯和摘要,以及多場景基準。本節將提供這些NLG任務及其相關元評估基準的概述。

結論

在本綜述中,我們詳盡地調查了LLMs在NLG評估中的作用。我們全面的分類體系按三個主要維度對作品進行分類:評估功能、評估參考和評估任務。這個框架使我們能夠系統地分類和理解基于LLM的評估方法論。我們深入探討了各種基于LLM的方法,審視它們的優勢并比較它們的差異。此外,我們總結了NLG評估的普遍元評估基準。

在我們的研究中,我們強調了這一快速發展領域的進步和現存挑戰。盡管LLMs在評估NLG輸出方面提供了開創性的潛力,但仍有一些未解決的問題需要關注,包括偏見、穩健性、混合評估方法的整合,以及LLM評估者內部對特定領域和統一評估的需求。我們預計,解決這些挑戰將為更通用、有效和可靠的NLG評估技術鋪平道路。這樣的進步將顯著促進NLG評估的發展以及LLMs的更廣泛應用。

付費5元查看完整內容
北京阿比特科技有限公司