亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,大規模語言模型(LLMs)的快速發展已經徹底改變了科學研究的格局,為研究周期的各個階段提供了前所未有的支持。本文呈現了首個系統性綜述,專門探討大規模語言模型如何革新科學研究過程。我們分析了LLMs在四個關鍵研究階段中所發揮的獨特作用:假設發現、實驗規劃與實施、科學寫作以及同行評審。我們的綜述全面展示了任務特定的方法論和評估基準。通過識別當前面臨的挑戰并提出未來的研究方向,本綜述不僅突出了LLMs的變革潛力,還旨在激發并指導研究人員和實踐者利用LLMs推動科學探究的發展。相關資源可在以下倉庫訪問://github.com/du-nlp-lab/LLM4SR。

1 引言

“如果我看得更遠,那是因為我站在巨人的肩膀上。” —— 艾薩克·牛頓科學研究流程是啟蒙時代系統性探究成就的見證 [17, 58, 58]。在這一傳統范式中,科學研究涉及一系列明確的步驟:研究人員首先收集背景知識,提出假設,設計并執行實驗,收集和分析數據,最后通過經過同行評審的手稿報告發現。這一循環過程促進了現代科學和技術的突破性進展,但仍受到人類研究人員所固有的創造力、專業知識、有限時間和資源的制約。幾十年來,科學界一直在努力通過自動化科學研究的各個方面來增強這一過程,旨在提高科學家的生產力。早期的計算機輔助研究可以追溯到1970年代,出現了如自動數學家(Automated Mathematician)[74, 75] 和 BACON [71] 等系統,這些系統展示了機器在定理生成和經驗法則識別等專門研究任務中的潛力。更近期,AlphaFold [62] 和 OpenFold [4] 等系統則展示了在某些特定研究任務中的開創性努力,顯著加速了相關領域的科學進展,提升速度達到數千倍。然而,直到基礎模型的出現和最近大規模語言模型(LLMs)[2, 154] 的爆發,跨多個研究領域的全面AI輔助才成為現實 [190]。近年來,LLMs取得了顯著的進展,改變了AI和自然語言處理(NLP)等多個領域。這些模型,如GPT-4 [2] 和LLaMA [154],在理解、生成和與人類語言互動方面設立了新的基準。通過大規模數據集和創新架構的支持,這些模型的能力已經超越了傳統的NLP任務,涉及更復雜和領域特定的挑戰。尤其是LLMs處理海量數據、生成類人文本以及在復雜決策中提供支持的能力,已經引起了科學界的廣泛關注 [92, 141]。這些突破表明,LLMs有潛力徹底革新科學研究的開展、記錄和評估方式 [156, 165, 174]。在這篇綜述中,我們探討了LLMs當前在科學研究過程中各個階段的應用。具體來說,我們識別了LLMs展現出顯著潛力的四項任務。首先,我們探討它們在科學假設發現中的應用,LLMs利用現有知識和實驗觀察來提出新的研究思路。接下來,我們回顧它們在實驗規劃和實施中的貢獻,LLMs在優化實驗設計、自動化工作流程和數據分析方面發揮了重要作用。我們還涵蓋了LLMs在科學寫作中的應用,包括生成引用、相關工作部分,甚至起草整篇論文。最后,我們討論了LLMs在同行評審中的潛力,LLMs通過自動化評審和識別錯誤或不一致來支持對科學論文的評估。對于每項任務,我們提供了方法論、基準和評估方法的全面綜述。此外,本綜述還識別了每項任務中的局限性,并突出了需要改進的領域。通過分析LLMs在研究周期各階段的貢獻,本綜述旨在激發研究人員探索新興概念、開發評估指標,并設計創新方法,推動LLMs在研究工作流程中的有效整合。

與現有綜述的比較

與之前的專門研究相比,本綜述提供了更廣泛和更全面的視角,涉及LLMs在整個科學研究周期中的應用。例如,Zhang等人 [187] 綜述了超過260種LLM在各學科科學發現中的應用,主要關注模型架構和數據集等技術層面,未將其角色置于更廣泛的研究過程背景中。類似地,其他綜述通常采用更狹窄的范圍,考察LLMs在一般應用中的特定能力,如規劃 [55] 或自動化 [158],而非其在科學研究工作流程中的集中應用。此外,一些研究討論了與特定研究階段相關的一般方法,但并未專注于LLMs本身,如相關工作和引用文本生成 [89] 或同行評審過程 [33]。相比之下,本綜述整合了這些零散的觀點,提供了LLMs在科學工作流程中貢獻的整體分析,并突出了它們在應對現代研究多樣化和不斷發展的需求中的潛力。

本綜述的結構

如圖2所示,本綜述的結構如下: * §2 討論了LLMs在科學假設發現中的應用,概述了相關方法論和關鍵挑戰。 * §3 聚焦于實驗規劃和實施,重點介紹LLMs如何優化和自動化這些過程。 * §4 深入探討了自動化論文寫作,包括引用和相關工作生成。 * §5 探索了LLMs輔助的同行評審。 對于每個主題,本綜述的結尾部分總結了當前的挑戰和未來方向,以應對這一快速發展的領域。

2. LLMs在科學假設發現中的應用

概述

在“LLMs用于科學假設發現”這一領域出現之前,最相關的前沿研究領域是“基于文獻的發現”和“歸納推理”。我們首先總結了這兩個相關領域的研究(作為歷史背景),然后總結了方法、基準、評估發展趨勢和重要進展,最后總結了發現任務中的主要挑戰。

科學發現的歷史

使用LLMs生成新的科學假設是一個新興的研究課題,主要源自兩個相關的研究領域,即“基于文獻的發現”和“歸納推理”。

**2.2.1 基于文獻的發現

基于文獻的發現(LBD)最早由Swanson[151]提出。其核心思想是“知識可以是公開的,但尚未被發現,如果獨立創建的片段在邏輯上相關但從未被檢索、匯集和解釋。”因此,如何檢索可以匯集以創造新知識的公共知識仍然是一個挑戰。Swanson[151]提出了LBD的經典形式化模型,即“ABC”模型,其中兩個概念A和C被假設為通過某個中間概念B在論文中共同出現而相關聯。最近的工作使用了詞向量[155]或鏈接預測模型[152; 160; 171]來發現概念之間的鏈接以組成假設。然而,經典的LBD方法沒有建模人類科學家在構思過程中考慮的上下文,并且僅限于預測離散概念之間的成對關系[47]。為了克服這些限制,Wang等人[159]首次嘗試將LBD置于自然語言上下文中以約束生成空間,并使用生成的句子作為輸出,而不僅僅是像傳統LBD那樣預測關系。LBD的另一個局限性是長期以來被認為僅適用于非常特定、狹窄類型的假設[159]。然而,科學發現的最新進展表明,LBD可能具有更廣泛的應用范圍。特別是,Yang等人[174]和Yang等人[176]分別與社會學和化學研究人員進行了廣泛討論,發現大多數現有的社會學和化學發表的假設(而不僅僅是狹窄類型的假設)都可以用LBD模式表述。這可能表明未來在社會學和化學中發表的假設也可能來自現有知識的正確鏈接和關聯。

**2.2.2 歸納推理

歸納推理是從特定的“觀察”中找到一個具有廣泛適用性的“規則”或“假設”[175]。例如,地心說、日心說和牛頓的萬有引力定律都是基于對恒星和行星運動的“觀察”提出的“規則”。科學發現是歸納推理的極端任務,其中每個“規則”都是一個新穎的科學發現。科學哲學界總結了歸納推理中“規則”的三個基本要求[113]:(1)“規則”不應與“觀察”相沖突;(2)“規則”應反映現實;(3)“規則”應呈現一個可以應用于比“特定”觀察更大范圍的通用模式,涵蓋觀察中不存在的新信息。之前的歸納推理研究主要由“歸納邏輯編程”社區進行[26],該社區使用形式語言和符號推理器。Yang等人[173]首次在NLP領域進行了生成性歸納推理的研究,即從特定的自然語言觀察中生成自然語言規則,并引入了科學哲學界對歸納推理的要求。受語言模型傾向于生成模糊且不具體規則的經驗啟發,他們提出了第四個要求:(4)“規則”應清晰且足夠詳細。第四個要求可能被科學哲學界忽視了,因為它太明顯了。受這些要求的啟發,Yang等人[173]設計了一種過度生成然后過濾的機制,利用語言模型先生成許多初步規則,然后過濾掉不符合要求的規則。隨后,開發了使用自我精煉代替過濾并使用更多推理步驟以獲得更好規則的方法[120, 163, 191, 194]。然而,這些工作試圖歸納的“規則”要么是已知知識,要么不是科學知識,而是合成的模式。Yang等人[174]首次嘗試將經典的歸納推理任務設置(發現已知/合成知識)擴展到真實的科學發現設置:利用LLMs從公開的網頁數據中自主發現新穎且有效的社會科學科學假設。具體來說,他們收集了關于社會科學概念的新聞、商業評論和維基百科頁面作為網頁數據來發現假設。Majumder等人[107, 108]進一步提出了“數據驅動發現”的概念,即利用網絡上的所有公共實驗數據(以及手頭的私人實驗數據)跨學科發現假設。他們的動機是,大量公開可用的實驗數據的潛力尚未得到充分利用,許多新穎的科學假設可以從現有數據中發現。

方法的發展

在科學發現的方法中,有一個明確的方法發展軌跡。我們首先介紹這一軌跡,然后探討其他方法。

**2.3.1 主要軌跡

總的來說,科學發現的這一方法發展軌跡可以被視為將更多關鍵組件納入方法中。表1總結了我們認為重要的關鍵組件,并指出每種方法是否包含這些組件。具體來說,它們是“靈感檢索策略”、“新穎性檢查器”、“有效性檢查器”、“清晰度檢查器”、“進化算法”、“利用多個靈感”、“假設排名”和“自動研究問題構建”。在這里,每個“關鍵組件”指的是已被證明對科學發現任務有效的詳細且獨特的方法論。我們排除了可能直觀上有幫助但尚不清楚如何從概念中提取特定方法對該任務有效的廣泛通用概念(例如工具使用)。接下來,我們介紹這些關鍵組件。對于每個關鍵組件,我們使用一到兩段文字進行簡要概述,總結其發展軌跡。本節中提到的每種方法的參考信息可以在表1中找到。靈感檢索策略。除了依賴背景知識外,基于文獻的發現(LBD)還促進了額外知識的檢索,作為提出新假設的靈感來源。SciMON[159]首次將LBD的概念引入發現任務,展示了新知識可以通過現有知識的鏈接組成。至關重要的是,靈感不應在之前已知與背景相關,或者至少不應以已知的方式與背景相關聯[176]。否則,假設將不會新穎。受經典LBD形式化中“ABC”模型的啟發,給定背景知識,SciMON檢索語義相似的知識、知識圖譜鄰居和引用圖譜鄰居作為靈感。具體來說,如果兩個知識的SentenceBERT[127]嵌入具有高余弦相似度,則它們被識別為“語義相似”;他們構建的知識圖譜遵循“[方法,用于,任務]”格式。ResearchAgent嚴格遵循“ABC”模型,構建概念圖,其中鏈接表示兩個連接的概念節點曾在同一篇論文中出現過。它檢索與背景概念在概念圖上連接的概念(概念共現)。Scideator基于語義匹配(語義學者API推薦)和概念匹配(包含相似概念的論文,同一主題、同一子領域和不同子領域)檢索靈感論文。SciPIP[164]從語義相似的知識(基于SentenceBERT)、概念共現和引用圖譜鄰居中檢索靈感。它提出了過濾方法,以過濾掉對概念共現檢索無用的概念。與選擇語義或引用鄰居作為靈感不同,SciAgents隨機抽樣另一個與背景概念在引用圖譜中通過長或短路徑連接的概念作為靈感。MOOSE[174]提出使用LLM選擇的靈感:給定研究背景和一些靈感候選者,并要求LLM從候選者中選擇靈感。然后MOOSE-Chem[176]也采用了這種方法。MOOSE-Chem假設在訓練了數億篇科學論文后,最先進的LLMs可能已經具備了一定的能力來識別背景知識的靈感以組成新知識的發現。MOOSE-Chem通過注釋2024年發表的51篇化學論文(這些論文僅在2024年在線提供)的背景、靈感和假設,分析了這一假設,并查看僅使用截至2023年的訓練數據的LLMs是否可以在僅給出背景的情況下檢索到注釋的靈感。他們的結果顯示檢索率非常高,表明這一假設可能基本正確。然后Nova也采用了LLM選擇的靈感,動機是利用LLM的內部知識來確定新想法的有用知識,應該能夠超越傳統的實體或關鍵詞檢索方法。反饋模塊。下一個關鍵組件是對生成的假設在新穎性、有效性和清晰度方面的迭代反饋。這些反饋首先由MOOSE提出,受歸納推理中對假設的要求啟發[113, 173]。這三個方面足夠客觀,可以給出反饋,并且每個方面對于一個好的假設都是必不可少的。

  • 新穎性檢查器。生成的假設應與現有文獻相比是一個新穎的發現。當假設傾向于與現有假設相似時,提供增強其新穎性的反饋可能有助于假設的制定。現有的新穎性反饋方法都基于LLMs。一般來說,有三種提供新穎性反饋的方法。第一種方法將每個生成的假設與相關綜述進行比較(MOOSE);第二種方法迭代檢索相關論文進行比較(SciM SciAgents, Scideator, CoI);第三種方法直接利用LLMs的內部知識進行評估(Qi, ResearchAgent, AIScientist, MOOSE-Chem, VirSci)。
  • 有效性檢查器。生成的假設應是有效的科學/工程發現,準確反映客觀宇宙[113]。真正的有效性反饋應來自實驗結果。然而,為每個生成的假設進行實驗既耗時又昂貴。因此,目前有效性反饋幾乎完全依賴于LLMs或其他訓練過的神經模型的啟發式方法。例外是FunSearch, HypoGeniC, LLM-SR, 和 SGA。具體來說,FunSearch是關于生成數學問題的代碼。編譯器和驗證代碼自然是高效且有效的驗證器;HypoGeniC和LLM-SR專注于數據驅動發現,這意味著它們可以訪問觀察示例,用于檢查與每個生成假設的一致性;SGA創建了一個虛擬物理模擬環境來模擬真實實驗。然而,有效性檢查器仍然是科學發現社區的一個重大挑戰。未來的研究方向包括機器人技術和自動化實驗室,可以自動進行濕實驗(例如生物學和化學實驗)以驗證生成的假設。對于計算機科學相關的假設,未來的研究方向可能是更先進的自動代碼實現系統。
  • 清晰度檢查器。生成的假設應足夠清晰地傳達信息并提供足夠的細節[173]。然而,LLMs傾向于生成細節不足的假設[159]。因此,提供清晰度反饋以細化假設并擴展細節將是有益的[174]。當前的方法(MOOSE, ResearchAgent, MOOSE-Chem, 和 VirSci)都采用LLMs進行自我評估清晰度。 進化算法。進化算法是受生物進化原理啟發的優化算法的一個子集。它假設存在一個“環境”,其中無法適應它的實體將被“淘汰”,而超級實體將從具有某種適應性的實體之間的特征“重組”中進化出來(此過程也稱為“突變”)。這一關鍵組件很重要,因為(1)真實的實驗評估和生成的假設的啟發式評估自然充當“環境”。(2)科學假設發現的本質從根本上可以看作是從僅已知知識輸入到未知但有效知識的突變。盡管目標相似,當前的科學發現方法以不同的方式利用進化算法。FunSearch首次將進化算法引入科學發現任務。他們采用了一種基于島嶼的進化算法,其中每個島嶼是一組相似的方法,每個島嶼不斷突變為新的假設。在某些時間間隔,一些排名最低的島嶼被“淘汰”,并由每個島嶼中表現最好的假設組成的新島嶼形成,鼓勵島嶼之間的優點“重組”。LLM-SR采用了類似的基于島嶼的進化算法。SGA將其作為“進化搜索”,即在每次迭代中生成多個后代并保留最佳選擇。他們還采用了進化交叉,其中LLMs從各種過去的實驗中生成新的假設,以更好地進行探索。MOOSE-Chem將其設計為“進化單元”,以更好地關聯背景知識和靈感知識。具體來說,給定背景和靈感知識,他們首先生成多個獨特的假設來關聯兩者。然后每個假設獨立細化,最后將細化的假設重新組合,以更好地將背景和靈感知識整合成一個連貫的假設。它鼓勵從相同輸入中進行不同的突變變體,并匯集每個突變變體的優點。利用多個靈感。這里討論的“利用多個靈感”(LMI)組件是關于明確識別多個靈感,以便這些識別的靈感將被全部利用到最終假設中(例如,以順序方式)。這很重要,不同的方法有不同的原因。MOOSE-Chem是第一個引入這一組件的,動機是觀察到許多學科如化學和材料科學通常需要多個靈感來制定一個完整且可發表的假設。具體來說,他們將看似無法解決的問題P(hypothesis|research background)分解為許多更小、更實際和可執行的步驟。他們通過為分解制定數學證明來實現這一點。一般來說,較小的步驟涉及識別起始靈感,基于背景和靈感組成初步假設,找到另一個靈感以解決初步假設中的空白,然后使用新靈感組成更新的假設,依此類推。他們通過利用多個靈感的目標是重新發現發表在《自然》或《科學》等高影響力期刊上的化學和材料科學假設。除了MOOSE-Chem,Nova還以連續的方式檢索多個靈感,但目標不同,即生成更多樣化和新穎的研究假設。他們的動機來自IGA的實驗結果,即生成的假設的多樣性趨于飽和。他們確定主要原因之一是輸入背景信息相同,而結合不同的靈感集可以通過引入靈活的輸入在很大程度上緩解這一問題。假設排名。這一關鍵組件是關于提供生成假設的完整排名。這很重要,因為LLMs可以在短時間內生成大量假設,而驗證每個假設的真實實驗室實驗既耗時又昂貴。因此,科學家們知道應該首先測試哪個假設將非常有益。一些方法(例如MOOSE)采用自動評估方法來提供對生成假設的初步理解。自動評估方法自然可以用于排名,但表1僅關注排名在方法論部分的使用方式(而不是在自動評估部分)。大多數方法采用LLMs的評分作為獎勵值,可以用于排名(MCR [145], AIScientist, MOOSE-Chem, CycleResearcher)。FunSearch專注于代碼生成問題,因此可以直接通過運行代碼并檢查結果來精確評估生成的代碼。ChemReasoner[146]微調了一個任務特定的圖神經網絡模型以獲得獎勵。HypoGeniC[193]和LLM-SR[140]專注于數據驅動發現,這意味著他們可以訪問觀察示例,用于檢查與生成假設的一致性,其中一致示例的數量可以用作排名的獎勵值。與直接預測獎勵分數不同,IGA采用成對比較,因為他們發現當直接要求預測最終分數或決策時,LLMs的校準效果較差,但在要求判斷哪篇論文更好時可以達到非平凡的準確性。受IGA[141]啟發,CoI[77]提出了一個成對自動評估系統,名為Idea Arena。Nova[49]也采用了成對自動評估方法。自動研究問題構建。這一關鍵組件是關于自動構建研究問題,以便自動化科學發現方法可以將其作為輸入來發現假設。這表明LLM系統在科學發現中的不同角色:沒有它,LLM作為副駕駛,依賴研究人員提出好的研究問題;有了它,系統以“全自動駕駛”模式運行,能夠獨立發現而無需人工輸入。“全自動駕駛”模式首先由MOOSE引入,并被視為科學發現的“自動化”設置。具體來說,他們采用基于LLM的代理不斷搜索與學科相關的網絡語料庫以找到有趣的研究問題。AIScientist通過利用起始代碼實現作為輸入來探索研究方向。MLR-Copilot通過分析輸入論文的研究空白來找到研究方向。SciAgents和Scideator通過直接基于概念配對生成假設來跳過研究問題。VirSci通過利用基于LLM的科學家代理進行頭腦風暴來生成研究問題。CoI通過收集方法的發展線并預測下一步來找到研究問題。Nova直接從輸入論文和常見想法提案模式生成種子想法,跳過研究問題構建步驟。

**2.3.2 其他方法

在本節中,我們介紹了與“主要軌跡”中的方法不同的方法(§2.3.1)。這些方法本身非常多樣化,專注于科學發現的不同方面。例如,Dong等人[30]嘗試使用GPT-4解決極具挑戰性的研究問題:“P是否等于NP”。他們提出了“蘇格拉底推理”,鼓勵LLMs遞歸地發現、解決和整合問題,同時促進自我評估和細化。他們的方法在嘗試證明一個極具挑戰性的現有假設時可能有用。IdeaSynth[118]是一個研究想法開發系統,將想法概念表示為畫布上的鏈接節點。其效果在一個人機交互場景中進行了調查。他們通過實驗室研究發現,使用IdeaSynth的人類參與者可以探索更多替代想法,并與使用強大LLM基線的參與者相比,擴展初始想法的細節。Liu等人[96]首次嘗試將基于文獻的發現和數據驅動發現統一起來。給定一組初始實驗結果,它檢索相關文獻并采用迭代細化方法,不斷改進假設以使其與實驗結果一致,并利用檢索到的文獻中的發現。Weng等人[167]提出了一個雙系統,包括CycleResearcher和CycleReviewer,其中CycleResearcher負責想法制定和論文寫作,CycleReviewer負責對撰寫的論文進行評分。雙系統具有協同作用,CycleReviewer的評分可以組成偏好數據來訓練CycleResearcher。雙系統僅專注于想法制定和論文寫作,跳過實驗規劃和實施。Li等人[80]提出了微調LLMs以成為更好的想法生成器,并引入了一個新穎的框架,采用兩階段方法結合監督微調(SFT)和可控強化學習(RL)。他們專注于可行性、新穎性和有效性維度。維度控制器能夠動態調整生成過程。

基準

總的來說,自動化科學發現中的任務可以分為“基于文獻的發現”和“數據驅動發現”。研究人員分別為每個任務設計了不同的基準。

**2.4.1 基于文獻的發現

基于文獻的發現通常是關于連接現有出版物中的知識(片段)并將它們關聯起來以創造新知識。在這個過程中,起始知識來自研究背景。研究背景可以看作由兩個部分組成:(1)一個研究問題,和(2)一個背景調查,討論研究問題的最先進方法或知識。有了研究背景中的起始知識,其他要連接的知識通常是通過搜索現有出版物獲得的。這里的其他知識被稱為“靈感”[159, 174]。然后研究背景和檢索到的靈感被關聯起來以創建一個“假設”。 表2總結了基于文獻的發現基準,旨在實現新穎的科學發現。關鍵組件是研究問題、背景調查、靈感識別和假設。假設從“摘要”部分[159]、“方法論”部分[174, 176]或“未來工作”和“局限性”部分[68]收集。表2還包括數據集的大小(分析的論文數量)、論文的學科和論文的發表日期。  一些基準可以用于訓練,因為它們的大小較大[119, 159],而一些主要用于評估,因為它們由博士生注釋[68, 174, 176]。

**2.4.2 數據驅動發現

Majumder等人[107]提出了“數據驅動發現”的概念。這里的“數據”指的是實驗結果。他們的動機是,鑒于大量(公開和私人的)現有實驗結果在線可用,LLMs可能能夠找到這些數據的一般模式,其中一般模式可能是一個新穎的研究假設。鑒于具體觀察與一般假設之間的關系,“數據驅動發現”與歸納推理任務非常相關,其中觀察空間是網絡上所有公開可用的實驗結果和手頭的私人實驗結果。DiscoveryBench[108]是第一個數據驅動發現基準。它包含從20多篇已發表論文中手動提取的264個發現任務和903個合成任務。任務的輸入包括一個研究問題和一組實驗數據。目標是回答研究問題,并提供一個可以由實驗數據支持的假設。它還引入了生成假設的結構化形式化,即假設應由三個部分組成:上下文、變量和關系。具體來說,假設是關于在上下文中兩個變量之間的關系。DiscoveryWorld[57]是第一個具有虛擬環境的發現基準。其主要動機有兩個:(1)真實世界的實驗成本高昂且需要大量領域專業知識;(2)從任務特定細節中抽象出來鼓勵開發更通用的發現方法。為了解決這些挑戰,它建立了一個虛擬環境,供代理發現假設。它包括120個不同的挑戰任務,其中假設反映了世界的真實模式。

評估發展趨勢

科學發現任務的評估方法多種多樣。可以說,幾乎每篇提出新方法論的論文都使用了不同的評估方法。然而,它們的指標表現出顯著的交叉點,并且可以觀察到這些工作中評估方法的一些新興趨勢。評估標準的交叉點是“新穎性”、“有效性”、“清晰度”和“顯著性”。一些較少使用的評估標準包括“相關性”、“趣味性”和“有用性”。“有效性”的替代名稱是“可行性”。在許多情況下,它們可以互換使用。“有效性”指的是發現的科學知識是否準確反映客觀世界,而“可行性”關注工程發現的實用性。“有用性”是一種主觀評估,基于發現系統的目標是作為研究人員的副駕駛;因此,研究人員對其感知的有用性可能被認為是重要的。在評估者選擇方面,評估方法可以分為基于LLM的評估和基于專家的評估。LLM的直接評估在社會科學中顯示出與專家評估的高度一致性[174]。然而,在自然科學學科如化學中,LLMs被認為缺乏提供可靠評估的能力[146]。專家評估通常被認為是可靠的。然而,在化學等具有挑戰性的領域,即使是專家的直接評估也可能缺乏足夠的可靠性[176]。這是由于(1)學科的復雜性;(2)研究主題的微小變化可能需要完全不同的背景知識進行評估,而專家通常有專門的研究重點,可能無法涵蓋相對可靠評估所需的全部知識。基于參考的需要,評估方法可以分為直接評估和基于參考的評估。由于直接評估的可靠性問題,基于參考的評估作為一種替代方法[68, 108, 176],它計算生成假設中提到的關鍵組件與真實假設的匹配程度。此外,除了直接為生成的假設分配標量評估分數外,Si等人[141]提出了基于比較的評估,以緩解LLM直接評分評估的不足:要求LLM評估者不斷比較生成的假設對,直到可以進行排名。它可以在比較兩種方法生成的假設質量時使用,但可能無助于判斷假設的絕對質量。然而,最終的評估應僅通過真實(濕實驗)實驗進行。這給機器人技術和自動實驗實施領域帶來了挑戰。

主要進展/成就

Yang等人[174]首次證明了LLMs能夠生成新穎且有效的科學假設,并通過專家評估確認。他們找到三名社會科學博士生直接評估生成的社會科學假設的新穎性和有效性。然后Si等人[141]提供了第一個關于LLM生成假設的大規模專家評估,雇傭了100多名NLP研究人員。他們得出了一個統計學上顯著的結論,即LLM可以生成比人類研究人員更新穎但略遜于有效性的研究假設。然后Yang等人[176]表明,基于LLM的框架可以重新發現2024年發表在《自然》、《科學》或類似水平上的許多化學和材料科學假設的主要創新(這些假設僅在2024年在線提供),使用僅在2023年10月之前的數據訓練的LLMs。

挑戰與未來工作

挑戰。科學發現是找到尚未通過濕實驗驗證的新知識。在某些學科如化學中,即使是專家對生成的新穎假設的評估也不夠可靠。這導致需要自動進行實驗以驗證大規模機器生成的假設。此外,當前的科學發現方法高度依賴現有可用LLMs的能力。在通用任務上能力更強的LLMs通常也能導致發現質量更好的假設[174]。因此,基于LLM的發現方法可能有一個性能上限,受限于最先進LLMs的能力。然而,我們如何增強LLMs在科學發現任務上的能力在很大程度上(如果不是完全)尚不清楚。第三,目前尚不清楚科學發現的充分內部推理結構:當前的工作嚴重依賴從高質量知識源(例如文獻)中檢索靈感以生成假設。但尚不清楚是否有任何更多的內部推理結構可以幫助這一過程。最后,構建準確且結構良好的基準高度依賴專家。然而,專家組成的基準的規模通常非常有限。目前尚不清楚如何擴展一個準確且結構良好的面向發現的基準。未來工作。第一條未來工作方向是增強自動實驗執行,因為它仍然是測試假設有效性的最可靠方法。這一過程可能因學科而異。在計算機科學中,瓶頸可能是編碼能力,尤其是編程大型系統的能力。在化學或生物學中,瓶頸可能在于進行實驗的機器人技術方法[14]。第二條未來工作方向是增強LLM在假設生成中的能力。目前,如何提高這一能力仍不十分清楚。可能的方面包括訓練數據收集方法和訓練策略。第三條未來工作方向是研究科學發現過程的其他內部推理結構。這可能需要一個跨學科的努力,涉及科學哲學(也稱為科學學)[36]。第四條未來工作方向是研究如何利用LLMs自動收集準確且結構良好的基準。

3. LLMs在實驗規劃與實施中的應用

概述

除了生成假設外,LLMs越來越多地用于科學研究中,以自動化實驗設計并簡化工作流程。LLMs具有全面的內部世界知識,使它們能夠在沒有特定領域數據訓練的情況下在現實世界中執行明智的行動。為了最大化其潛力,LLMs被設計為基于代理的形式,具有兩個關鍵屬性[64]:模塊化和工具集成。模塊化確保LLMs可以與外部系統(如數據庫、實驗平臺和計算工具)無縫交互,而工具增強框架使LLMs能夠作為工作流程中的中央控制器,與專門模塊接口,用于數據檢索、計算和實驗控制。本節探討了LLMs如何具體應用于支持研究想法的規劃實施

優化實驗設計

LLMs通過使科學研究中的工作流程更高效和自適應,正在改變實驗設計過程。它們處理和分析大量數據集的能力使研究人員能夠分解復雜任務,選擇最佳方法,并增強實驗的整體結構。本節探討了LLMs如何在不同領域中促進實驗設計優化。任務分解涉及將實驗分解為更小、可管理的子任務,這一過程通常由現實世界研究的復雜性所必需,以確保與特定研究目標的一致性[55]。許多研究[14, 15, 52, 125, 136, 168]展示了LLMs如何通過定義實驗條件和指定期望輸出來簡化復雜問題。例如,HuggingGPT[136]利用LLMs將用戶查詢解析為結構化任務列表,同時確定執行順序和資源依賴關系。同樣,CRISPR-GPT[52]通過促進選擇適當的CRISPR系統、設計引導RNA、推薦細胞傳遞方法、起草協議和規劃驗證實驗,自動化了基于CRISPR的基因編輯實驗設計。ChemCrow[15]采用迭代推理和動態規劃,使用結構化的“思考、行動、行動輸入、觀察”循環[177]根據實時反饋改進其方法。多LLM系統,如Coscientist[14]和LLM-RDF[131],進一步利用專門代理從文獻中提取方法,將自然語言描述翻譯為標準協議,生成自動化平臺的執行代碼,并在執行過程中自適應地糾正錯誤。高級提示技術,如上下文學習、思維鏈[166]和ReAct[177],通常用于上述研究中,以增強LLM輔助工作流程中實驗規劃的可靠性和準確性。此外,LLMs還能夠通過反思和細化[106, 139]增強實驗設計,這一過程使它們能夠持續評估和改進實驗計劃。例如,通過模擬專家討論,LLMs參與協作對話[81],挑戰假設,并通過迭代分析[90]改進其輸出。這種方法模仿了現實世界中的科學問題解決,其中專家意見之間的差異促進了問題空間的深入探索,并通過嚴格的辯論和綜合不同觀點達成共識。

自動化實驗過程

LLMs通過自動化實驗過程中的重復和耗時的任務,徹底改變了科學研究。這種自動化顯著提高了生產力,使研究人員能夠將數據準備、實驗執行、分析和報告等勞動密集型過程委托給基于LLM的系統[158]。

**3.3.1 數據準備

研究中最耗時的方面之一是數據準備,包括清理[185, 21]、標記[153, 196]和特征工程[46]等任務。大語言模型(LLMs)可以自動化這些過程,特別是在處理大型數據集時,手動數據整理將效率低下。此外,在數據難以獲得的情況下,LLMs可以直接合成實驗數據[82, 85, 98]。例如,在社會科學中,進行人類受試者實驗通常既昂貴又不道德,Liu等人[98]設計了一個沙箱來模擬社交環境,并部署了多個代理(LLMs)進行交互。這種方法使研究人員能夠收集代理社交互動的數據以進行后續分析。

**3.3.2 實驗執行與工作流程自動化

為了自動化科學研究中的實驗工作流程,基于LLM的代理可以通過預訓練[95, 128]、微調[44, 35]和工具增強學習的組合獲得任務特定能力。在大規模數據集上的預訓練提供了基礎知識,而在領域特定數據集上的微調則針對目標科學應用改進了這些知識。為了增強任務執行,LLMs通常與領域特定知識庫[14, 15, 157]或預配置的工作流程[99, 14]結合使用。高級提示技術,如上下文學習和思維鏈提示[99, 179],使LLMs能夠快速適應新的實驗協議。此外,具有任務特定反饋循環的迭代調整允許LLM根據實驗目標改進其輸出[124, 179]。基于這些原則,LLM在不同學科中自動化實驗工作流程中扮演了多樣化的角色。在化學中,ChemCrow[15],一個LLM化學代理,利用18個專家設計的工具自主規劃和執行復雜的化學合成,橋接計算和實驗領域。同樣,Coscientist[14]將LLM與實驗室自動化集成,優化如鈀催化合成等反應。LLMs還被用于進化搜索策略,以探索廣闊的化學空間[157],從而在減少實驗負擔的同時識別候選分子。Ramos等人[124]將自然語言輸入與貝葉斯優化相結合,用于催化劑合成,簡化了迭代設計周期。此外,LLMs還被用于假設情景測試和反應設計,通過假設預篩選最小化實驗迭代[145, 146]。在藥物發現中,ChatDrug[99]集成了提示、檢索和領域反饋模塊,以促進藥物編輯,而DrugAssist[179]通過人機對話迭代優化分子結構。在生物和醫學研究中,如ESM-1b[128]和ESM-2[95]等模型編碼蛋白質序列,捕捉結構特性以進行預測任務,如二級和三級結構預測,消除了勞動密集型實驗的需要。通過在蛋白質家族上微調LLMs,Ferruz和Hocker[35]生成了高度多樣化但功能性的蛋白質序列。此外,He等人[44]引入了一種抗體生成LLM,用于從頭設計SARS-CoV-2抗體,實現了特異性和多樣性,同時減少了對天然抗體的依賴。

**3.3.3 數據分析與解釋

除了自動化實驗執行外,LLMs還通過生成自然語言解釋和構建有意義的可視化來協助數據分析,這對于解釋復雜數據集并確保得出的見解可訪問和可操作至關重要[143]。傳統上,數據分析需要廣泛的統計專業知識、手動計算和大量實驗結果的解釋。LLMs通過自動化統計建模和假設檢驗等任務簡化了這一過程。例如,Li等人[79]展示了LLMs可以作為建模者,提出、擬合和細化基于現實世界數據的概率模型,同時通過后驗預測檢查等技術提供關于模型性能的關鍵反饋。此外,LLMs擅長揭示文本數據中的隱藏模式、趨勢和關系。在社交媒體數據分析中,LLMs提供了對公眾情緒和新興趨勢的見解[172],在環境數據解釋中,它們有助于提高理解和決策能力[114]。此外,它們還在主題分析[27, 126]中發揮了重要作用,幫助識別定性數據中的主題和模式。它們的應用還擴展到金融數據分析,增強了預測和風險評估能力[188]。AutoGen[168]提供了一個通用框架,使多個可定制代理(LLMs)能夠創建多樣化的應用程序。這些代理可以通過自然語言和代碼進行交互,支持廣泛的下游任務,如數據建模和數據分析[61]。

基準

基準對于評估LLMs如何有效支持實驗工作流程的各個方面至關重要。雖然并非專門為LLM輔助的實驗實施創建,但許多基準足夠通用,可以應用于這些任務。例如,MLAgentBench[54]涵蓋了任務分解,幫助分解復雜的研究任務,數據處理,自動化數據加載和轉換等過程,以及工作流程管理,優化機器學習實驗執行。這些基準提供了不同的途徑,因此在方法上有所不同。評估方法從任務成功率、準確性和執行一致性到與人類基準的比較。這些差異突出了LLMs可以集成到研究過程中的多種方式。表3中提供了更多詳細信息。

挑戰與未來工作

挑戰。將LLMs用于實驗規劃和實施的挑戰既來自其固有局限性,也來自其在領域特定任務中的應用。一個基本限制是它們的規劃能力。正如Kambhampati等人[64]所澄清的那樣,處于自主模式的LLMs通常無法生成可執行的計劃。它們容易產生幻覺,這可能導致不合理的計劃、偏離任務提示或無法遵循復雜指令[55]。在多階段實驗環境中,提示的魯棒性構成了另一個關鍵挑戰。提示措辭的微小變化,即使傳達了相同的意圖,也可能導致整個規劃和執行過程中的指導不一致[195],可能影響實驗結果。此外,自回歸LLMs的慢處理速度可能會阻礙迭代和多步驟實驗規劃中的實時反饋,限制其效率。應用特定挑戰包括適應專門角色的困難,因為LLMs難以模擬領域特定的科學專業知識和認知過程,這對于跨研究領域的泛化至關重要[167]。例如,某些實驗可能需要模擬倫理敏感或容易出錯的場景,這通常與LLMs中嵌入的安全對齊價值觀相沖突。未來工作。未來的研究應通過增強核心模型能力并針對實驗任務的獨特需求進行定制來解決這些挑戰。為了減輕幻覺風險,可以在工作流程中集成穩健的驗證機制,例如與外部聲音驗證器交叉引用輸出[64]或采用實時反饋循環動態糾正不準確性[59]。提高提示魯棒性可能涉及開發自適應系統,監控和修改提示結構以響應上下文變化,確保規劃階段的一致性。效率提升可以通過創建更快的、蒸餾版本的LLMs,優化多步推理或結合LLMs與更小的、任務特定模型的混合系統來實現,以平衡速度和準確性。為了更有效地適應角色,可以使用高質量領域特定數據集微調LLMs或開發模塊化框架,以更精確地模擬專門科學推理。此外,設計自適應對齊協議可能允許LLMs在解決特定實驗目標時安全地模擬倫理復雜場景。

4. LLMs在科學論文寫作中的應用

概述

本節探討了LLMs在科學論文寫作中的三個關鍵領域的集成:引用文本生成(§4.2)、相關工作生成(§4.3)和起草與寫作(§4.4)。我們研究了使用的方法、這些模型的有效性以及自動化科學寫作中面臨的挑戰。此外,我們還討論了這些任務中使用的評估指標和基準。

引用文本生成

在引用論文的上下文中,引用文本生成任務旨在為一組待引用論文生成準確的文本摘要。LLMs通過提供豐富的上下文理解和連貫性,在自動化引用文本生成的各個方面發揮了關鍵作用,采用了多種方法來增強準確性和可用性。Xing等人[170]的一項初步研究使用了一個指針生成器網絡,該網絡可以基于交叉注意力機制從手稿和引用論文的摘要中復制單詞來生成引用文本。Li和Ouyang[88]提示LLM生成強調引用網絡中論文對之間關系的自然語言描述。另一方面,像AutoCite[161]和BACO[40]這樣的模型通過采用多模態方法,將引用網絡結構與文本上下文相結合,生成上下文相關且語義豐富的引用文本。此外,Gu和Hahnloser[43]、Jung等人[63]允許用戶指定諸如引用意圖和關鍵詞等屬性,將這些屬性集成到結構化模板中,并微調語言模型以生成符合其需求的引用文本。

相關工作生成

該任務涉及基于前沿參考論文為科學論文創建相關工作部分[45]。與傳統的多文檔摘要模型[23, 51]相比,LLMs在處理科學文檔特有的廣泛輸入長度和提供豐富的上下文理解方面展示了顯著的能力。LLMs在各種自然語言理解和生成任務中的成功,結合其大上下文窗口,最近實現了更全面和細致的文獻綜述,促進了跨不同研究領域的深入見解和聯系。Martin-Boyle等人[109]、Zimmermann等人[197]開發了案例研究,探索使用ChatGPT進行文獻綜述任務和相關工作生成,展示了其通過快速掃描大量科學出版物數據集并生成相關工作部分的初稿來協助研究人員的能力。然而,直接在學術寫作中使用LLMs可能會導致幻覺問題,生成的內容可能不基于事實數據,無法準確反映最先進的研究。為了解決這些問題,許多工作基于檢索增強生成(RAG)[76]的原則,通過從外部來源檢索事實內容來增強基于LLM的文獻綜述生成[3, 50, 138, 150, 181]。例如,LitLLM[3]利用RAG從網站上檢索相關論文并重新排序,減少了進行全面文獻綜述所需的時間和精力,同時最小化幻覺問題。HiReview[50]進一步將基于RAG的LLMs與基于圖的層次聚類相結合。該系統首先檢索引用網絡中的相關子社區,并生成層次分類樹。然后,LLMs為每個聚類生成摘要,確保全面覆蓋和邏輯組織。Nishimura等人[112]集成了LLMs,強調相關工作部分中的新穎性聲明。通過將新研究與現有工作進行比較,LLMs幫助生成相關工作部分,明確突出新內容和不同之處,從而為目標論文與先前文獻之間的比較做出更有影響力的貢獻。

起草與寫作

在自動化科學寫作領域,LLMs被用于從生成特定文本元素到撰寫整篇研究論文的各種任務。對于更具體的寫作任務,August等人[8]提出了生成具有可控復雜性的科學定義,以適應不同的受眾,而SCICAP[48]則自動化了科學圖表的標題生成,能夠快速準確地描述視覺數據。更全面的系統,如PaperRobot[160],引入了增量起草方法,LLMs根據用戶輸入幫助組織和起草論文的各個部分。同樣,CoAuthor[73]采用了一種協作的人機方法,LLMs通過生成建議和擴展文本來幫助作者。對于完全自主的寫作,Ifargan等人[56]探索了LLMs如何從數據分析到最終草稿生成完整的研究論文,而AutoSurvey[165]展示了LLMs通過綜合和組織現有研究來自主撰寫全面綜述的能力。最后,AI Scientist[103]和CycleResearcher[167]提出了一個更廣泛的系統,不僅起草科學論文,還參與了整個科學過程,包括假設生成和實驗設計,突顯了完全自動化科學發現和寫作的潛力。

基準

我們總結了自動化科學論文寫作系統的評估方法,涵蓋三個關鍵領域:引用文本生成、相關工作生成以及起草與寫作。表4提供了每個任務的具體數據集、指標和基準的全面總結。引用文本生成。ALCE[38]基準是主要標準。它從三個維度評估系統:流暢性、正確性和引用文本的質量。ALCE旨在測試模型在不同領域中生成帶有準確引用的長文本答案的能力。其數據集涵蓋了從維基百科到網絡規模文檔集合的廣泛問題類型。CiteBench[37]是另一個基準,它統一了多個現有任務,以標準化引用文本生成在不同設計和領域中的評估,使用定性和定量指標。相關工作生成。目前,沒有一個單一基準被普遍認可用于此任務,因為任務定義和簡化假設在各種研究中存在巨大差異[89]。然而,大多數工作都建立在語料庫級數據集上,常用的科學文章來源包括:ACL Anthology Network (AAN) Corpus[123]、SciSummNet[178]、Delve[5]、Semantic Scholar Open Research Corpus (S2ORC)[102]和Citation Oriented Related Work Annotation (CORWA)[86]。摘要指標ROUGE[93]是最常用的自動評估方法,一些工作還使用了翻譯指標BLEU[115]。此外,人工評估通常從流暢性、可讀性、與目標論文的一致性以及引用工作的相關性和信息量等方面進行評分,采用五點Likert量表。起草與寫作。SciGen[111]基準支持從科學表格中進行推理感知文本生成的評估,突顯了算術推理在文本生成中的挑戰。SciXGen[22]是另一個關鍵基準,評估上下文感知的文本生成,重點關注將外部信息集成到生成文本中。SciGen和SciXGen都使用了如BLEU[115]、METEOR[10]和MoverScore[189]等指標,以及人工評估。

挑戰與未來工作

挑戰。引用文本生成、相關工作生成以及起草與寫作中的挑戰主要源于LLMs的固有局限性,如保持事實準確性、確保上下文連貫性以及處理復雜信息。LLMs經常在幻覺[59]方面遇到困難,生成不正確或不相關的引用,并且受限于它們依賴的檢索系統[53]。有限的上下文窗口進一步限制了模型管理大量引用或全面整合相關文獻的能力[165],可能導致引用順序錯誤和引用分組不當。此外,確保科學嚴謹性并避免依賴表面或瑣碎來源仍然是持續存在的障礙,因為LLMs難以捕捉學術寫作所需的深度和推理[103]。此外,LLMs在學術寫作中的使用引發了重大的倫理問題,特別是關于學術誠信和抄襲[89]。這模糊了作者身份的界限,因為研究人員可能將機器生成的文本作為自己的作品呈現。LLMs還可能生成與現有文獻非常相似的文本,增加了無意中抄襲的風險,生成的文本可能不夠原創。使用LLMs起草論文部分的便利性可能會削弱傳統學術寫作所需的嚴格智力努力,潛在地貶低了學術研究中對學習過程和批判性思維技能的重視。未來工作。為了克服這些挑戰,未來的進展應側重于改進檢索系統并增強模型從多樣化、長上下文來源中綜合信息的能力[87]。這包括開發更好的引用驗證機制、改進多文檔綜合以及引入實時文獻發現,以保持生成內容的最新性。此外,結合領域特定的微調和推理感知模型將有助于生成更準確、上下文相關的科學文本[111]。對寫作過程的細粒度控制,如調整語氣和風格,也將對提高LLMs適應不同學術需求的適應性至關重要[22, 38, 103]。此外,集成人在回路系統,其中人類監督和干預是寫作過程的重要組成部分,可以確保學術工作中固有的智力嚴謹性和批判性思維得以保留[89, 109]。最后,為了解決潛在的倫理問題,學術界必須制定明確的指導方針和倫理標準,以確保學術工作的完整性和原創性。

5. LLMs在同行評審中的應用

概述

同行評審是科學研究的基石。將LLMs集成到同行評審過程中代表了一項重大進展,解決了長期存在的挑戰,如評審者偏見、標準不一致和工作量不平衡[42, 117]。這種集成在學術界獲得了顯著關注,正如主要計算機科學會議采用LLM輔助評審實踐所證明的那樣。例如,ICLR 2025宣布實施基于LLM的系統以支持評審者的評估過程。LLMs在同行評審中的集成已經演變為兩種不同的方法,每種方法都針對評審過程中的特定需求。第一種方法,自動化評審生成,源于處理日益增加的提交量并通過使用LLMs獨立分析研究論文來減少評審者工作量的需求[66, 182]。這些系統旨在評估提交的多個方面,包括方法驗證、結果驗證和貢獻評估,從而在沒有直接人工干預的情況下提供全面的評審報告。第二種方法,LLM輔助評審工作流程,是在認識到人類專業知識在學術評估中仍然至關重要的同時,承認某些評審任務可以從自動化中受益[69]。這些工作流程將LLMs作為補充工具,協助人類評審者完成耗時但定義明確的任務,如論文摘要、參考文獻驗證和內部一致性檢查,同時將關鍵評估和判斷留給人類專家。這些方法采用多種方法來提高評審效率、一致性和質量。為了系統地評估和改進這些系統,研究社區開發了專門的同行評審基準,這些基準具有雙重目的:提供標準化的訓練數據集并建立性能評估指標。本章探討了這些方法、其評估框架,并總結了實施挑戰和未來研究方向。

自動化同行評審生成

自動化同行評審生成旨在通過探索LLMs如何以最少的人工干預生成全面的評審來簡化科學評估。通過輸入科學文章,這些系統專注于生成完整的同行評審或元評審,采用各種技術來增強反饋的深度、準確性和相關性。當前的自動化同行評審生成方法可以分為兩種主要策略:單一模型多模型架構。單一模型方法通過復雜的提示技術和模塊化設計優化評審生成過程。這些系統通常采用精心設計的提示,以引導模型關注論文的特定方面,如方法、結果和貢獻[132]。在單一模型范式中,提出了幾種不同的架構方法。CGI2[184]超越了之前的方法:MetaGen[11]使用了兩階段管道,包括提取摘要和決策感知的細化;Kumar等人[67]開發了一種神經架構,用于聯合決策預測和評審生成;MReD[135]引入了使用句子級功能標簽的結構控制生成。基于這些基礎,CGI2通過模塊化設計實現了分階段評審過程,首先從論文中提取關鍵意見,然后總結優點和缺點,最后通過迭代反饋在清單引導的框架下細化這些輸出。這種迭代過程增強了評審的深度和相關性,但可能難以處理涉及高度復雜方法或超出上下文窗口的長篇內容。采用不同方法,CycleReviewer[167]使用強化學習實現了端到端的評審生成方法,通過反饋循環不斷改進評審質量。雖然CycleReviewer在提高評審精度和清晰度方面表現出色,但其對大量計算資源的依賴可能限制其可擴展性。同時,ReviewRobot[162]利用知識圖譜系統地識別和結構化知識元素,通過結構化生成過程將其轉化為詳細的評審評論。ReviewRobot展示了顯著的可解釋性和基于證據的推理,但其預定義模板的靈活性限制了其適應性。另一種策略采用多模型架構,通過利用多個專門模型來處理評審過程的不同方面,代表了一種更復雜的方法。這種方法提供了幾個優勢,包括更好地處理復雜論文和通過專門知識增強評審質量。Reviewer2[39]實施了兩階段過程:一個模型生成特定方面的提示,而另一個模型利用這些提示創建詳細、有針對性的反饋。這種提示生成和評審創建的分離允許更細致和有針對性的反饋,但由于缺乏集成框架,通常會導致部分或偏見的評審。為了解決這些限制,SEA[180]采用了單獨的模型進行標準化、評估和分析,提供了更全面和平衡的方法。該系統將多個評審統一為單一格式,顯著減少了反饋中的冗余和不一致性。此外,SEA引入了不匹配分數來衡量論文與生成評審之間的一致性,并結合自我糾正策略以迭代方式提高評審質量。雖然這些功能使SEA在一致性和全面性方面超越了Reviewer2,但協調多個模型的輸出增加了復雜性。基于專業化但解決不同挑戰,MARG[28]解決了處理超出典型LLM上下文限制的論文的問題。通過引入多代理框架,MARG將評審任務分配給多個專門模型,允許對較長論文進行全面評審,同時在整個文檔中保持對細節的關注。這種創新方法確保了詳細、特定方面的反饋,但也帶來了新的挑戰,如協調各種代理的通信和輸出,增加了確保一致性和對齊的難度。每種架構方法都提供了獨特的優勢并面臨獨特的挑戰。單一模型方法受益于更簡單的實現和對評審過程的更直接控制,但可能難以處理較長或更復雜的論文。多模型架構提供了更大的可擴展性和更好地處理復雜評審任務的能力,但它們需要仔細協調,并面臨組件之間的一致性挑戰。例如,ReviewRobot的結構化方法提供了可解釋性和可操作的見解,但不太適應不斷發展的研究領域,而CycleReviewer的迭代改進提高了動態適應性,而無需大量訓練資源。隨著這一領域的研究進展,結合單一模型的簡單性和多模型設計的適應性,為提高評審質量、一致性和全面性提供了一個有前途的途徑。

LLM輔助的同行評審工作流程

與完全自動化的評審生成不同,LLM輔助的同行評審工作流程專注于增強人類評審者的能力,而不是取代他們。最近的研究強調了這種人類-AI協作方法在學術同行評審中的關鍵重要性。[31, 12, 133]的研究強調,雖然LLM可以提高效率,但人類監督對于維護倫理標準和評審完整性仍然至關重要。像AgentReview[60]這樣的系統在實踐中展示了這種協同作用,其中LLM生成初步見解,人類評審者隨后進行細化和驗證。LLM輔助的同行評審工作流程增強了科學評審過程中的三個主要功能:(1)信息提取和摘要,幫助評審者快速掌握論文內容;(2)手稿驗證和質量保證,支持系統驗證論文主張;(3)評審寫作支持,協助生成結構良好的反饋。在信息提取和摘要功能中,系統自動化文檔理解和綜合以支持評審者理解。PaperMage[101]是一個基礎工具包,集成了自然語言處理和計算機視覺模型,處理視覺豐富的科學文檔,實現了跨多種模態的邏輯結構、圖表和文本內容的復雜提取。補充這種結構分析,CocoSciSum[29]專注于內容摘要,提供可定制的論文摘要,精確控制長度和關鍵詞包含,同時通過其組合控制架構保持高事實準確性。對于手稿驗證和質量保證功能,系統在不同分析層次上運作以確保科學嚴謹性。在局部層次上,ReviewerGPT[97]專門從事系統錯誤檢測和指南合規性,在驗證提交要求的同時有效識別單個手稿中的數學錯誤和概念不一致性。雖然ReviewerGPT專注于內部手稿驗證,PaperQA2[144]通過檢查主張與更廣泛的科學文獻進行全局驗證,采用復雜的語言代理檢測矛盾并驗證斷言。該系統通過識別每篇論文平均2.34個驗證矛盾,同時在其跨文獻分析中保持高事實準確性,展示了強大的性能。此外,Scideator[122]旨在促進想法驗證,通過面重組識別論文之間的新穎和科學基礎的類比。Scideator還包括一個新穎性檢查器,評估主張的獨特性和對既定研究范式的遵守,為評審者提供了增強的能力以嚴格審查手稿。在評審寫作支持功能中,系統采取不同但互補的方法,協助不同專業水平的評審者。ReviewFlow[149]通過上下文反思提示和筆記綜合指導提供智能支架,模擬專家實踐以幫助新手評審者生成結構良好的評審。該系統的逐步方法通過將復雜任務分解為可管理的組件,使那些剛接觸同行評審的人受益。雖然ReviewFlow專注于個別評審者指導,CARE[198]通過集成平臺強調評審寫作的協作方面,具有NLP增強的內聯注釋和實時協作功能,使評審者能夠更有效地合作,同時提供詳細和建設性的反饋[83, 19]。進一步補充這些功能,DocPilot[110]利用模塊化任務規劃和代碼生成能力,自動化文檔工作流程中的重復和復雜任務。其結構化方法管理和注釋科學PDF,確保評審者可以專注于實質性反饋而不是程序障礙,顯著提高了他們的效率。

基準

隨著自動化評審生成和LLM輔助工作流程的不斷發展,研究社區面臨一個關鍵挑戰:系統地評估和比較這些方法。這些基準的開發依賴于標準化的基準,評估LLM生成的評審的不同方面,從生成高質量評審到支持人類評審者的有效性。這些基準可以大致分為三種主要類型:(1)支持整體評估的綜合評審數據集,包括編輯決策、評分和語用分析;(2)專注于特定方面的專門評估數據集,如意見綜合和一致性分析;(3)通過缺陷識別和接受預測來衡量評審有效性的質量評估數據集。表5概述了這些關鍵基準及其相關的評估框架。這些數據集主要來自公開的學術會議,服務于同行評審任務中的多種目的。像MOPRD[94]和NLPeer[33]這樣的綜合數據集提供了廣泛的覆蓋范圍,支持從編輯決策預測到語用標簽的任務。更專門的數據集專注于評審過程的特定方面:ASAP-Review[183]和Reviewer2[39]強調接受預測和覆蓋評估。最近的補充,如ReviewCritique[32],引入了比較人類和LLM生成評審的新機制。這些基準的評估框架涵蓋了多個維度,如表5所詳述。語義相似性衡量生成評審與參考文本的接近程度,通常使用ROUGE和BertScore等指標。連貫性和相關性評估評審的邏輯流程和主題適當性,而多樣性和特異性評估提供的反饋范圍和深度。人工評估,結合專家對評審質量的評估,提供了自動指標的關鍵驗證。這四個評估組件——語義相似性、連貫性和相關性、多樣性和特異性以及人工評估——形成了一個多方面的評估方法,確保全面評估LLM生成的評審在各種質量維度上的表現。

挑戰與未來工作

挑戰。將LLMs集成到學術同行評審中代表了學術評估的重大轉變[91, 92]。隨著學術機構和出版商探索這項技術,理解其局限性和潛力對于學術界至關重要。同行評審的核心在于需要深厚的專業知識、細致的理解和謹慎的判斷。雖然LLMs在支持這一過程中顯示出潛力,但其局限性揭示了自動化學術評估的復雜性。一個基本挑戰是LLMs通常難以完全掌握學術領域中的專門術語和復雜概念。例如,在生物化學中,LLMs可能會誤解特定蛋白質相互作用的重要性,而在理論物理中,它可能無法識別數學模型中微妙但關鍵的假設[192]。這種有限的技術理解直接影響LLMs評估研究方法的能力。當LLMs無法完全理解領域特定概念時,它無法可靠地評估研究方法是否適當或證據是否支持結論。例如,在跨學科研究中,方法標準因領域而異,LLMs通常難以識別關鍵問題,如樣本量不足、不適當的統計測試或缺失的實驗控制[129]。這一限制在確保研究質量和科學完整性的高風險的同行評審中尤為令人擔憂。學術寫作的復雜性引入了額外的挑戰,特別是在處理較長手稿時。即使上下文窗口擴展,LLMs也難以在跨多個部分的復雜論證中保持連貫分析。這一限制經常導致不一致或矛盾的評估[18]。更令人擔憂的是幻覺的持續問題——模型有時會生成令人信服但不正確的評估,特別是在評審新穎研究方法時[28]。此外,在同行評審中實施LLMs面臨超出技術性能限制的額外挑戰。一個基本的基礎設施問題是缺乏專門的訓練數據[65, 184],這在學術學科中造成了不平衡的格局。這種數據稀缺性特別影響了研究社區較小或詞匯專門的領域。同樣令人擔憂的是LLM輔助同行評審的倫理影響。算法偏見和透明度問題[133]與新的學術不端行為形式一起出現,如“抄襲洗錢”[117]。此外,一個關鍵問題是,如果許多研究人員依賴相同的LLM系統進行同行評審,學術反饋的同質化潛力[91]。廣泛使用類似的AI工具可能會減少觀點的多樣性,并削弱來自個體人類評審者獨特思維過程的創造性見解。未來工作。為了推進LLMs在學術論文評審中的能力,必須優先解決幾個基本技術挑戰。首先,當前的LLMs在不同學術領域中的專門技術概念方面遇到困難,需要改進處理和理解領域特定術語的方法。其次,我們需要增強引用分析能力,以驗證參考文獻的相關性并評估引用如何有效支持論文的論點。第三,分析長學術文檔需要新的方法來保持連貫性——從跨部分引用到驗證方法、結果和結論之間的一致性。除了技術改進外,開發有效的人類-AI協作框架至關重要。下一代評審系統必須創建直觀的界面,突出潛在問題并無縫集成到人類工作流程中[31]。這些協作系統必須適應不同的學術領域,特別考慮計算資源有限的學科[132]。對這些人類-AI系統的嚴格評估框架必須確保它們真正提高評審者的效率和有效性[81, 169]。隨著LLM在同行評審中的普及,強大的治理機制變得至關重要。這包括開發可靠的方法來檢測LLM生成的內容,確保透明跟蹤LLM的貢獻,并保持評審者的真實性[91]。此外,我們需要標準化的協議,以安全地將LLM評審工具與現有期刊平臺集成[6]。最后,必須通過全面的評估框架來衡量這些領域的進展。對于技術能力,我們需要系統評估語言理解、引用分析和文檔連貫性方面的改進。人類-AI協作指標應評估LLM建議的質量及其對評審者效率的影響。治理評估必須評估LLM檢測系統的可靠性和平臺集成的安全性。關鍵的是,這些框架應檢查不同學術學科、出版格式和語言背景下的潛在偏見,以確保為所有學術社區提供公平的支持。通過這些有針對性的評估,我們可以指導LLM系統的開發,使其有意義地增強同行評審過程,同時保持其完整性。

6. 結論

本綜述全面探討了LLMs在整個科學生命周期中的變革作用,從假設生成、實驗到寫作和同行評審。通過識別將LLMs應用于這些任務的機遇和挑戰,我們強調了它們當前的能力、局限性和增強科學生產力的潛力。總之,LLMs代表了先進的生產力工具,提供了現代科學研究所有階段的新方法。盡管受到固有局限性、技術障礙和領域特定任務中的倫理考量的限制,LLM能力的持續進步有望徹底改變研究實踐。隨著這些系統的發展,它們集成到科學工作流程中不僅將加速發現,還將促進科學社區中前所未有的創新和合作。

付費5元查看完整內容

相關內容

大語言模型是基于海量文本數據訓練的深度學習模型。它不僅能夠生成自然語言文本,還能夠深入理解文本含義,處理各種自然語言任務,如文本摘要、問答、翻譯等。2023年,大語言模型及其在人工智能領域的應用已成為全球科技研究的熱點,其在規模上的增長尤為引人注目,參數量已從最初的十幾億躍升到如今的一萬億。參數量的提升使得模型能夠更加精細地捕捉人類語言微妙之處,更加深入地理解人類語言的復雜性。在過去的一年里,大語言模型在吸納新知識、分解復雜任務以及圖文對齊等多方面都有顯著提升。隨著技術的不斷成熟,它將不斷拓展其應用范圍,為人類提供更加智能化和個性化的服務,進一步改善人們的生活和生產方式。

具身多智能體系統(EMAS)因其在物流、機器人等領域解決復雜現實問題的潛力,吸引了越來越多的關注。近期基礎模型的進展為生成型智能體提供了更豐富的溝通能力和自適應問題解決能力,開辟了新的方向。本綜述系統性地探討了EMAS如何從這些生成型能力中受益。我們提出了一個分類法,通過系統架構和具身方式對EMAS進行分類,重點強調協作如何跨越物理和虛擬環境。接著,我們分析了感知、規劃、溝通和反饋等核心構件,展示了生成技術如何增強系統的魯棒性和靈活性。通過具體實例,我們展示了將基礎模型集成到具身多智能體框架中的變革性影響。最后,我們討論了挑戰和未來發展方向,強調了EMAS在重塑人工智能驅動協作領域的巨大潛力。

1 引言

具身多智能體系統(EMAS)因其在智能交通、物流和制造等領域的巨大潛力,吸引了越來越多的關注 [YJ+13, IS+18]。通過將物理具身(從自動駕駛車輛到機器人操作臂)與多智能體系統(MAS)[DKJ18] 集成,EMAS 提供了一種去中心化、協作的方法,能夠高效地處理復雜任務。盡管這些優勢顯而易見,但設計和實現有效的 EMAS 仍然是一項非凡的挑戰,通常需要對控制論的專業知識、廣泛的訓練數據以及精心設計的強化學習范式 [LB08, OD23]。 在傳統的 MAS 中,智能體通過分配責任、共享狀態信息并共同適應動態環境來協作 [DKJ18]。雖然這些原則在某些特定領域取得了顯著成功,但傳統方法在以下方面面臨關鍵的局限性:難以推廣到新任務 [MS+22],難以擴展到大規模的智能體群體 [CTE+22],以及應對突發環境變化 [WR04]。這些方法通常依賴于狹窄訓練的模型,可能表現脆弱或僅限于特定領域 [YZ+23]。這些不足凸顯了需要更加靈活和穩健的解決方案的緊迫性,這些解決方案能夠在開放式和快速變化的具身場景中蓬勃發展。 近期基礎模型(FMs,例如大型語言模型、大型模型或視覺語言模型(VLMs))[ZLL+24] 的突破為推進 MAS 向更加自適應和生成行為的發展開辟了新的途徑。通過為智能體提供自然語言能力、情境推理以及生成新解決方案的能力,基于基礎模型的 MAS 超越了純信號驅動或強化學習框架中固有的局限性 [GCW+24, CLH+24, LP+24]。這些“生成型智能體”能夠以語義豐富的方式進行溝通,與人類級別的流暢度協作,并能夠迅速應對突發挑戰,調整策略。因此,基于 FM 的智能體可能會徹底改變多智能體協作的方式——無論是在由具身設備組成的物理空間,還是在智能體共享抽象知識和任務的虛擬空間中。 在此背景下,EMAS 領域將能夠從這些 FM 方面的最新進展中獲益。通過將物理具身與生成型多模態智能結合,未來的系統可能會采用更廣泛的設計空間,整合復雜的感知、高級語言和視覺推理能力,以及自適應決策能力。然而,現有文獻中關于具身 AI 和多智能體系統的綜述通常將這些領域視為孤立的,未能在它們的交集處進行系統性的探討 [IS+18, DYT+22, GCW+24, MS+24, HRS24]。基于 FM 的生成型智能體如何最好地融入 EMAS 的系統化視角仍在不斷發展中。 本綜述旨在提供對生成型多智能體協作在具身 AI 中現狀的全面和結構化的分析,如圖 1 所示。首先,在第 2 節中,我們提出了一種分類法,根據模型數量和具身類型對現有的 EMAS 解決方案進行分類,強調協作如何在物理智能體和純粹虛擬語義環境中產生。接下來,在第 3 節中,我們探討了多智能體協作的主要構建塊——系統感知、規劃、溝通和反饋,并分析了如何設計這些組件以利用基于 FM 的生成能力。超越理論視角,在第 4 節中,我們深入探討了實踐應用,展示了生成型多智能體協作如何增強不同具身場景中的功能。根據我們的了解,這是首次系統性地探討 MAS、具身 AI 和基礎模型的融合。最后,在第 5 節中,我們總結了開放的研究挑戰,勾畫了關鍵的未來發展方向,并討論了 EMAS 對更廣泛的 AI 和機器人領域的潛在影響。我們的目標是通過呈現這個迅速發展的領域的整體概述,來為研究人員、從業人員和利益相關者提供信息并激發靈感。

2 協作架構

在前一節中概述的關鍵挑戰和機遇的基礎上,本節介紹了具身多智能體系統(EMAS)中的協作架構,如圖 2 所示。特別地,我們探討了生成型多智能體系統如何利用外部協作(跨多個具身實體)或內部協作(在單一具身實體內多個基礎模型之間)。我們還涵蓋了結合這些策略的混合方法,以滿足多樣化的系統需求。我們的目標是提供一種結構化的理解,說明如何協調多智能體協作,以最大化適應性、可擴展性和任務一致性,尤其是在與基礎模型(FM)集成時。

**2.1 外部協作

在多個具身實體之間展開的協作場景中,我們稱之為外部協作,智能體在物理或虛擬環境中互動,以實現共享的目標。借鑒長期以來的多機器人和傳統多智能體系統(MAS)文獻,外部協作可以通過集中式或去中心化策略組織。這些方法在可擴展性、通信開銷以及全局控制與局部控制之間存在不同的權衡。集中式架構 在集中式策略框架中,單一的統一模型控制多個機器人或智能體,提供集中式的任務分配和決策制定。該集中模型根據智能體的能力和系統目標分配任務,通過提供全局視角確保智能體之間的協調。已有研究探索了基于語言的任務分配方法 [LTW+24, OA+24, CYZ+24] 和基于代碼的任務分配方法 [KVM24, ZQW+24]。 集中式模型還在決策制定中發揮關鍵作用,通過整合來自所有智能體的信息來做出最終決策,確保一致性。例如,[YKC23] 使用集中式模型來確定導航目標,[TXL+20] 使用它來進行基于 3D-CNN-LSTM 的互動問答,[GAZ+24] 使用它在多機器人系統中通過引導領導機器人行動來解決死鎖問題。 集中控制策略通過使用單一模型進行任務分配和決策制定來確保協調。其優勢包括任務的最優分配和一致的決策。然而,它可能受到系統復雜性、高計算需求以及在大規模或動態環境中的可擴展性問題的限制。

去中心化架構

在去中心化策略中,每個模型獨立控制其相應的具身實體,從而提供更大的靈活性和可擴展性。早期的研究使用強化學習進行去中心化控制,但基礎模型(FM)的興起使得智能體能夠自主處理多樣化的任務 [CJ+24],形成了更為先進的去中心化系統。 基礎模型通過利用推理能力來增強去中心化系統,基于局部部分觀察來改善個體決策。例如,[ZWL+24] 利用世界模型來輔助多智能體規劃,在該模型中,每個個體通過世界模型預測其他智能體的行為,并推斷自己的計劃。類似地,[AF+23] 引入了一個輔助的心智理論推理基礎模型來解釋合作伙伴智能體的行動和需求,從而支持個體決策。 此外,憑借基礎模型的推理和通信能力,基于FM的智能體表現出涌現的社交性。[CJ+23] 發現,當沒有明確指導采用哪種策略時,FM驅動的智能體主要遵循平均策略,這代表了智能體之間的一種平等主義組織結構。其他研究 [GHL+24, CJ+24] 強調了團隊中更為結構化角色的潛在好處。這表明,類似于人類的社會結構,FM智能體可以表現出涌現行為,通過適應組織框架來優化協作,從而增強它們在處理復雜任務時的集體能力。

2.2 內在協作

外在協作涉及多個機器人和具身實體之間的合作,而內在協作則發生在單一系統的內部結構中,該系統可能包含多個基礎模型(FM)。這一概念與最近推動的各個FM模塊之間的協作工作流程密切相關,這些模塊各自專注于不同的角色,共同處理日益復雜的任務。這樣的內部協調擴展了傳統的多智能體協調概念,側重于在單一具身體內進行集中的決策。 在這一工作流程中,每個FM承擔特定的功能或角色,共同完成任務。研究已將這一范式應用于具身學習系統,例如 [QZL+24],該系統使用規劃者、部分處理器和執行者等模塊來解決Minecraft沙盒中的任務,和 [SSY+24],它將任務分解為觀察者、規劃者和執行者角色。LLaMAR [NO+24] 還采用了計劃-行動-糾正-驗證框架進行自我修正,無需預言機或模擬器。 內在協作可以通過提高規劃準確性、安全性和適應性來提升系統功能。例如,[LY+23] 使用基于FM的快思維和慢思維進行協作計劃生成和評估,而LLaMAC [ZMR+23] 則采用多個批評者和評估者來提供反饋并提高魯棒性。

2.3 混合協作架構

在許多現實世界的應用中,嚴格區分外在協作和內在協作既不現實也沒有優勢。因此,混合協作架構結合了這些策略,利用了集中式、去中心化和內部FM工作流程的優勢。 隨著具身任務復雜性的增加,混合不同協作層次的靈活性——無論是在機器人之間,還是在智能體的內部結構中——變得越來越有價值。 內在協作通過模塊化FM增強模型能力,并且可以應用于集中式和去中心化系統。例如,CoELA [ZDS+24] 使用五個模塊——感知、記憶、通信、規劃和執行——而 [YPY+24] 為去中心化機器人協作構建了具有觀察、記憶和規劃模塊的智能體。集中式模型也可以使用模塊化FM,例如 [WTL+24],它使用任務和行動FM進行任務分配。 集中式和去中心化策略可以結合使用,不同階段的任務可以采用不同的方法。受到多智能體強化學習(MARL)中的集中訓練與去中心化執行(CTDE)框架的啟發,[CYZ+24] 和 [ZC+24] 提出了集中規劃與去中心化執行的方案,其中全球規劃指導任務執行,最大化全球監督與地方自治之間的協同效應。 通過展示這些不同的架構,我們闡明了實踐者如何在不同粒度和控制層級上有效地協調EMAS中的多智能體協作。下一節將基于這一架構視角,探討如何設計關鍵的系統組件——感知、規劃、通信和反饋——以利用基于FM的生成能力,進一步提升多智能體協作的魯棒性和適應性。

3 推進協作功能

在第二節中,我們從結構層面探討了如何協調多智能體協作,接下來我們將轉向推動具身智能體之間有效團隊合作的功能性構建模塊。具體來說,我們重點介紹感知、規劃、通信和反饋機制如何被設計來利用基礎模型(FM)的生成能力。通過聚焦于這些關鍵模塊,我們展示了EMAS解決方案如何更加穩健地解讀物理環境、制定并適應計劃、交換信息,并從自身行為以及環境中迭代學習。這種方法補充了前述的協作架構,提供了一個更細化的視角,以促進具身智能體之間的動態和上下文感知協作。

3.1 感知

盡管生成模型可以從文本和視覺中獲取語義知識,但具身智能體必須主動感知并解讀物理世界。這需要處理三維結構、動態條件和實時互動 [LCB+24]。因此,感知模塊至關重要,它將環境的詳細特征傳遞給后續的模型,確保生成能力植根于具體的上下文中 [PH+24]。

**基于FM的物理感知

向FM提供物理上下文的最簡單方法是提供環境的口頭描述。盡管這些提示可以手動編寫,但許多方法使用自動化工具增強語言描述。例如,一些研究 [MJ+24, CZR+23] 使用視覺模型來檢測和描述物體,而其他研究 [BCF+23, HW+23] 則利用可操作性學習來豐富FM對物體在物理環境中如何被操作的理解。除了被動接收信息,最近的工作使智能體能夠決定何時以及觀察何種類型的信息,從而促進主動感知。例如,[QZL+24] 允許FM查詢經過微調的模型,獲取環境細節;這些響應逐步構建場景描述。

**協作感知

在多智能體系統中,協作感知旨在融合來自不同智能體的互補傳感輸入,從而提升整體性能 [YYZ+23]。在自動駕駛或無人機編隊中,這通常通過傳感器級的數據共享或輸出級融合實現 [SRC24]。在基于FM的系統中,協作智能體可以通過聚合每個智能體的本地地圖或視覺數據,共同構建環境的全局記憶。例如,[YKC23] 融合了來自多個智能體RGBD輸入的語義地圖,[TXL+20] 使用每個智能體觀察的3D重建形成共享環境的整體3D狀態和語義記憶。

3.2 規劃

規劃是多智能體具身系統的核心模塊,使得智能體能夠基于狀態、目標和個體能力進行戰略部署。有效的規劃對于任務分配、協調以及無縫整合生成FM的能力至關重要。

**規劃格式

規劃方法通常采用基于語言或基于代碼的格式。基于語言的規劃使用自然語言引導任務流,具有直觀性和易適應性,尤其是在先進FM的出現之后 [MJ+24, YKC23]。相比之下,基于代碼的方法利用結構化編程或領域特定符號(例如PDDL)來實現更高的精確度。[KVM24] 使用Python代碼框架來描述整體任務流程,[ZQW+24] 將任務轉換為PDDL問題,以便分配給多個機器人。

**規劃過程

除了個體決策外,多智能體協作還要求達成共識、解決沖突和共享資源。在集中式系統中,單一模型通常負責分配子任務。例如,[LTW+24] 根據每個智能體的能力生成行動列表,[OA+24] 集成FM和線性規劃來解決任務劃分,[CYZ+24] 則利用“機器人簡歷”來進行FM驅動的任務分配討論。在去中心化系統中,智能體直接溝通以優化集體計劃,并通過強大的信息交換得到支持,這將在下一小節中進一步探討。

3.3 通信

通信是MAS的核心,使得智能體能夠共享情況更新、協調任務并達成共識。與傳統方法需要繁瑣的通信協議設計不同,生成智能體可以利用FM的零-shot語言生成能力,降低了構建高效通信接口的復雜度。 參考 [SWJ+22],我們將具身AI中的多生成智能體通信模式分為三種主要結構:

  • 星型結構:一個虛擬的中央智能體控制消息流動,向其他智能體廣播計劃或指令。許多集中式架構的工作都探索了這種方法 [KVM24, YKC23]。
  • 完全連接(FC):每個智能體與其他所有智能體自由通信,利用FM驅動的消息。例如,[MJ+24] 使用兩個機器人臂之間的FM對話來協調操作任務。在CoELA [ZDS+24] 中,每個智能體通過記憶檢索當前狀態信息,并通過FM生成通信內容。
  • 層次結構:通過建立領導結構來提升可擴展性并減少通信開銷。[CJ+24, LYZ+24, GHL+24] 顯示了如何通過領導角色來引導或過濾通信,從而提高效率和結果。

3.4 反饋

具身任務復雜且不確定,因此反饋機制對智能體改進至關重要。反饋使智能體能夠調整和優化行為,允許它們根據當前狀態、環境變化或外部指導進行持續學習。

**系統反饋

系統反饋是指在采取行動之前由系統內部生成的信息。這涉及到智能體或集中模型重新審視其初始計劃,以識別缺陷或潛在改進之處。多個研究 [LZD+24, CYZ+24, ZMR+23] 實現了任務生成后的多智能體討論階段,通過同行反饋完善行動列表。[CAD+24] 和 [ZQW+24] 使用FM檢查器來驗證基于代碼的計劃,確保語法正確性。同時,[ZYB+24] 提出了優勢函數來評估并迭代優化計劃,[LY+23] 使用FM來預測計劃結果,隨后通過另一個FM評估計劃質量,從而推動迭代改進。

**環境反饋

環境反饋發生在執行物理(或模擬)世界中的行動后。許多研究記錄現實世界的結果以指導未來決策。例如,[LTW+24] 和 [YPY+24] 將行動結果存儲在記憶中,以便未來規劃參考,而 [QZL+24] 和 [NO+24] 則評估失敗的根本原因并相應調整行動計劃。此外,多智能體的組織結構可以在任務執行過程中根據環境信號重新配置。[CSZ+23] 動態更新角色,[GHL+24] 使用FM批評者來評估智能體表現,甚至重新組織領導角色。

**人類反饋

外部人類指導可以提供細致的干預和戰略方向,這是純自動化系統無法實現的。例如,[PL+23] 識別模糊或不可行的任務指令,要求人類提供幫助,而 [WHK24] 和 [RDB+23] 則結合了符合預測來衡量任務的不確定性并觸發人類幫助請求。除了請求幫助,[CK+23] 和 [SH+24] 允許人類操作者通過口頭指令實時調整機器人的動作,從而提高任務成功率。 總之,感知、規劃、通信和反饋成為將高層次協作架構轉化為實際生成多智能體解決方案的基礎支柱。無論智能體是通過分布式配置進行外在協作,還是通過單一具身內部的多個FM進行內在協作,強大的支持模塊都確保了在現實環境中的適應性和魯棒性。 下一節將深入探討具體的應用領域,展示這些功能模塊如何協同工作以應對多樣的具身任務。通過將架構原理(第2節)與模塊化功能結合,并將其植根于實際場景,我們旨在提供一個全面的視角,展示如何在EMAS中有效實現生成多智能體協作。

4 下游任務:從仿真到現實世界部署

在前面的架構和功能模塊的基礎上,本節探討了生成式多智能體協作如何從受控的仿真環境過渡到現實世界應用。盡管許多進展是在虛擬平臺上驗證的,但這些仿真洞察為解決智能交通、家庭機器人學和具身問答等復雜問題奠定了基礎。

**4.1 仿真平臺

前面的部分介紹了多智能體協作如何在結構和功能上得到啟用。現在,仿真環境作為一個關鍵層次,用于測試這些設計,使研究人員能夠系統地改進智能體交互,而無需承擔現實世界操作的成本或風險。網格世界范式 網格世界具有基于單元格的結構,重點是決策制定和路徑規劃,同時抽象掉了物理細節。通過采用基于FM的翻譯和檢查框架,[CAD+24] 改進了多智能體在網格任務中的表現,[ZMR+23] 引入了反饋機制來增強網格運輸任務的表現。[CAZ+24] 進一步評估了在網格設置中各種基于FM的多機器人架構,強調了這些簡化的世界如何幫助快速驗證協作設計。基于游戲的協作場景 像《Overcooked》這樣的基于游戲的平臺提供了明確的規則、時間限制和智能體間強制協調的任務 [YJ+24, AF+23, ZYB+24]。FM協調還擴展到其他結構化游戲,如《Hanabi》和《Collab Games》,展示了生成式方法如何適應不同的基于團隊的挑戰。對于更具開放性的任務,《Minecraft》 [WXJ+23, PC+24] 推動了更大環境和無盡目標的應用。最近的研究 [PC+24, ZC+24, QZL+24] 聚焦于協作探索,而其他研究 [CJ+24, CSZ+23, ZMC+24] 則解決了資源收集或結構構建的問題。高級3D環境與機器人仿真 現實感仿真器旨在更緊密地模仿現實生活中的復雜性。AI2-THOR [KM+17] 提供了精細渲染的室內場景,并用于多智能體家庭任務 [KVM24, WHK24, LLG+22, SSY+24]。類似地,VirtualHomeSocial [GHL+24]、BEHAVIOR-1K [LTW+24] 和基于Habitat的基準平臺 [CYZ+24] 使智能體能夠在物體操作和導航中發展協作策略。這些平臺幫助架起了算法開發與物理部署之間的橋梁。

**4.2 新興應用

憑借驗證過的架構和強大的功能模塊,研究人員已開始面臨終極挑戰:將仿真學習轉化為可行的物理部署。從智能交通到家庭機器人學,以下小節展示了生成式多智能體協作如何適應現實世界的需求,突顯了這些系統的成熟度和面臨的挑戰。智能交通與配送 智能交通中的多智能體協作涵蓋了無人機/地面無人車(UAV/UGV)的協調任務,如貨物配送和環境監測。早期的研究主要利用多智能體強化學習(MARL),但現在基于FM的解決方案開始出現。[GW+24] 探討了基于FM的初步任務分配用于監視任務,[WTL+24] 將生成模型應用于跟蹤目標分配,表明基于語言的策略能夠迅速適應動態場景。家庭輔助機器人 許多3D仿真基準平臺,包括AI2-THOR和Habitat,最初是為了模擬家庭環境而設計的。家庭任務,如“清理桌子”或執行指令“打開書桌和地板燈并看電視”,要求具備強大的感知、規劃和通信能力。研究 [KVM24, WHK24, LGZL24, MJ+24, ZYB+24] 展示了多個智能體如何共享角色、解讀指令并劃分復雜任務。生成模型進一步簡化了協調,使得任務分配更具適應性,并豐富了人機交互。超越探索:具身問答(EQA) 具身問答(EQA)涉及在3D空間中的主動探索和推理。與強調物理交互的任務不同,EQA側重于信息的收集與解讀,通常需要對空間布局、物體關系或事件歷史有深刻的理解。多智能體版本通常利用基于團隊的感知來建立全局記憶和達成共識 [TGG+23, TXL+20, PD+24]。[CZR+23] 將專職功能的智能體定位在關鍵位置進行信息貢獻,展示了如何通過FM驅動的協作將觀察結果整合成連貫的答案。 本節通過強調這些仿真基準平臺和現實世界應用,突出了EMAS中的一個關鍵發展軌跡:首先通過結構化的測試平臺進行概念驗證,然后將解決方案過渡到高風險領域。既然已經明確了生成式多智能體協作可以部署的場所和方式,接下來的部分將討論剩余的挑戰,并勾畫出EMAS研究的前景。

5 開放挑戰與未來趨勢

隨著具身人工智能(AI)系統中多智能體協作領域的不斷發展,仍然存在一些開放的挑戰和有前景的未來方向。盡管取得了不少進展,但仍然存在諸多現實世界的障礙,限制了具身系統的應用。本節識別了關鍵挑戰,并概述了潛在的探索和創新領域,以應對這些問題。

**基準測試與評估

一個主要的挑戰是缺乏標準化的評估標準。盡管在單一智能體系統和個體代理的基準測試方面取得了顯著進展,但對于具身多智能體協作的評估仍存在明顯的空白。現有的基準測試通常專注于特定任務的度量,未能充分考慮多智能體環境中互動、協調和涌現行為的復雜性。因此,亟需建立統一的評估標準來全面評估多智能體系統的性能,包括可擴展性、適應性、魯棒性和集體智能等因素。基準測試的發展對于確保不同領域的一致性至關重要,并能夠實現不同多智能體框架之間的有意義比較。

**數據收集與異質性

多智能體協作的另一個挑戰是數據稀缺性和異質性。收集具有不同物理特性和能力的多種系統的大規模、高質量數據是一項艱巨的任務。硬件、傳感器和環境交互的差異導致了數據的不一致性,這使得跨系統和任務的泛化變得困難。現實世界中可用的數據可能有限,阻礙了有效的訓練和評估。此外,由于實際限制,多數多智能體協作的研究是在仿真環境中進行的,只有少數研究采用了現實世界數據。因此,亟需建立標準化的數據收集方法,并且需要創新的方法來彌合仿真與現實應用之間的差距,連接理論與現實。

**具身AI的基礎模型

基礎模型的發展,尤其是面向具身智能體的基礎模型,預計將成為多智能體協作領域的一項突破性進展。目前,生成式智能體主要依賴FM來執行復雜任務,下一步自然是構建專門為具身系統設計的基礎模型。這些模型將作為多智能體協作的核心框架,整合感知、決策和行動。近期的工作,如RT-1 [BB+22] 和RDT [LW+24],在適應性和可擴展性系統的機器人基礎模型方面取得了顯著進展。基礎模型的演進將為更無縫的多智能體協作奠定基礎,使得智能體能夠在動態環境中進行全面的協作和工作。然而,將單智能體FM擴展到多智能體系統仍然面臨挑戰,這需要新的架構和方法。

**智能體的可擴展性

目前,參與協作的智能體數量較少。隨著智能體數量的增加,計算、通信、協調、任務分配和資源管理的復雜性和難度也將增加。此外,在大規模多智能體系統中保持穩定性和魯棒性需要復雜的協調與調度技術。針對可擴展架構、有效的通信協議和協作策略的研究將是解鎖大規模具身系統全部潛力的關鍵。優化智能體工作流程和模式的發展對于在資源意識下擴展這些系統至關重要。

**以人為中心的協作

將機器人集成到以人為中心的環境中仍然是一個重要話題。在許多應用中,多智能體系統不僅需要相互協作,還需要與人類協作。確保機器人能夠在動態和非結構化的環境中與人類無縫合作,需要開發考慮人類認知能力、偏好和局限性的機器人-人類交互(HRI)協議。人機協作引入了額外的挑戰,如安全性、適應性和信任性。在人機團隊合作、共享自主性和直觀接口方面的研究將對促進機器人與人類之間的安全、富有成效的協作至關重要,特別是在醫療保健、工業自動化和服務機器人領域。

**理論基礎與可解釋性

當前的具身多智能體協作方法,尤其是涉及FM的系統,通常缺乏堅實的理論基礎。盡管在開發實際系統方面取得了重大進展,但關于支配智能體交互的潛在原理和集體智能的理解仍然非常有限。對動態協作的深入理論探索,包括通信、協調和共識的作用,是推動該領域發展的關鍵。此外,具身多智能體系統和模型的可靠性與可解釋性在安全關鍵型環境中尤為重要,如自動駕駛和智能鐵路等應用場景。 6 結論

本綜述調查了一個具有潛力的研究領域——具身系統中的多智能體協作,重點探討了如何將生成式基礎模型(FM)集成到具身多智能體系統中。我們強調了基于FM的生成式智能體如何促進動態協作和涌現智能,并從內在和外在兩個角度系統地探索了多智能體協作架構,重點關注感知、規劃、通信和反饋機制等關鍵技術。通過研究從網格世界探索到家庭助理等多種應用場景,展示了基于FM的具身多智能體系統(EMAS)解決復雜問題的潛力,并討論了該領域快速發展過程中所面臨的挑戰和機遇。我們希望本綜述能為研究人員、從業者和相關方提供寶貴的參考,幫助他們全面了解當前的研究現狀,并激發更多先進且可擴展的解決方案,以實現具身多智能體AI的動態無縫協作。

付費5元查看完整內容

博弈論為分析理性決策者之間的戰略互動建立了一個基本框架。大語言模型(LLMs)的快速發展激發了大量研究,探索這兩個領域的交集。具體來說,博弈論方法正被應用于評估和增強大語言模型的能力,同時大語言模型本身也在重塑經典的博弈模型。本文提供了這兩個領域交集的全面綜述,從三個方面探討了其雙向關系:(1) 建立基于博弈的標準化基準來評估大語言模型的行為;(2) 利用博弈論方法通過算法創新提升大語言模型的性能;(3) 通過博弈建模刻畫大語言模型對社會的影響。在這三個方面中,我們還重點強調了大語言模型的先進語言理解如何影響傳統博弈模型的均衡分析,進而擴展了博弈論的研究。最后,本文識別了當前領域中的主要挑戰和未來的研究方向,并根據現有研究的狀態評估其可行性。通過將理論嚴謹性與新興的人工智能能力結合,本文旨在促進跨學科的合作,并推動這一不斷發展的研究領域的進展。

1 引言

博弈論為分析理性主體之間的戰略互動提供了一個數學框架,自從其奠基性著作[Von Neumann and Morgenstern, 2007]以來,博弈論經歷了顯著的發展。幾十年來,它已經建立了強大的方法論基礎,包括均衡分析[Nash Jr, 1950]和機制設計[Vickrey, 1961],這些方法已成為經濟學和計算機科學等學科中不可或缺的分析工具。 隨著大語言模型(LLMs)的快速發展,研究人員越來越多地探索博弈論與大語言模型之間的交集。越來越多的研究調查了博弈論原理如何用于評估和提升大語言模型的能力,以及大語言模型如何對博弈論做出貢獻。具體來說,現有的研究應用博弈論來開發理論框架,以評估大語言模型的戰略推理能力,優化其訓練方法并分析其社會影響。關鍵的研究方向包括:

  • 標準化基于博弈的評估:研究人員正在構建基準環境,如矩陣博弈[Akata et al., 2023]和拍賣[Chen et al., 2023],以系統地評估大語言模型的戰略推理能力。
  • 博弈論算法創新:來自合作博弈和非合作博弈論的概念,如Shapley值[Enouen et al., 2024]和最大-最小均衡[Munos et al., 2024],啟發了新的模型可解釋性和訓練優化方法。
  • 社會影響建模:隨著大語言模型改變信息生態系統,新的理論框架正在涌現,以預測人類與AI互動的社會后果[Yao et al., 2024],特別是在廣告市場[Duetting et al., 2024]和內容創作[Fish et al., 2024a]等領域。

除了這些應用,最新的研究還表明,大語言模型也可以通過促進復雜文本場景中的均衡分析,以及將經典博弈模型擴展到更現實的設置,貢獻于博弈論。 現有的綜述[Zhang et al., 2024b; Feng et al., 2024; Hu et al., 2024]主要探討博弈論如何用于構建評估環境以及評估大語言模型的戰略表現。例如,[Zhang et al., 2024b]根據用于測試大語言模型能力的博弈場景將研究進行了分類,并討論了改進推理能力的方法。與此同時,[Feng et al., 2024]和[Hu et al., 2024]將大語言模型在博弈中所需的核心能力(如感知、記憶、角色扮演和推理)進行了分類。盡管這些綜述提供了有價值的見解,但它們主要聚焦于博弈論在標準化評估框架中的作用,忽略了它在推動大語言模型發展的更廣泛潛力。此外,它們采用了單向視角,將博弈論視為評估大語言模型的工具,而沒有探討這兩個領域之間的相互影響。 本文旨在彌補這一空白,探討博弈論與大語言模型之間的雙向關系。我們將博弈論與大語言模型交集的研究劃分為三個關鍵視角,如圖1所示。根據我們所知,這是首次對這兩個領域之間的雙向關系進行全面分析。 在第2節中,我們回顧了應用博弈模型評估大語言模型決策能力的研究。通過在經典矩陣博弈和復雜戰略場景中進行的實驗,揭示了大語言模型作為博弈者的優勢和局限性。除了行為評估外,我們還確定了提升大語言模型戰略決策的關鍵策略,如遞歸推理框架和將大語言模型與輔助模塊結合的方式。此外,大語言模型展示了將現實世界場景形式化為結構化博弈模型的能力,進而將博弈論分析擴展到更廣泛和復雜的背景中。 第3節探討了博弈論原理如何應對大語言模型開發中的關鍵挑戰。我們將現有的研究分為兩個主要領域:(1) 使用博弈論理解大語言模型的文本生成和訓練動態;(2) 利用博弈論機制提升大語言模型訓練算法。第一個領域探討了Shapley值如何提高模型的可解釋性,以及社會選擇理論如何促進人類與AI互動中的偏好對齊。第二個領域介紹了將博弈論目標納入研究,以解決人類偏好的異質性和復雜性等挑戰。目標包括在多智能體互動中最小化遺憾以及評價指標,如納什均衡收斂性。 第4節討論了博弈論如何用于預測和刻畫大語言模型的社會影響。人類-人工智能互動博弈模型預測了人類與AI之間競爭的影響。新興的博弈模型突出了大語言模型作為產品或平臺的商業和經濟影響。同時,經典的博弈論模型也在大語言模型獨特能力的背景下進行了推廣,例如自然語言處理。 最后,我們識別了跨這些維度的主要研究挑戰和未來方向。通過系統地分析博弈論與大語言模型的交集,我們突出了它們之間的相互影響,以及它們如何推動兩個領域的進展,為這一跨學科領域的發展做出貢獻。

2 博弈論在大語言模型評估中的應用

在本節中,我們探討大語言模型(LLMs)在博弈論框架下的應用,重點評估它們作為博弈參與者的表現。行為評估表明,大語言模型在經典矩陣博弈中面臨著識別最優行動的挑戰,但在更復雜的博弈場景中,它們能展示出類人策略。多個研究已探討了提升大語言模型作為博弈玩家表現的方法,其中兩個關鍵點是遞歸思維和輔助模塊。最后,我們還討論了大語言模型在博弈中的角色,超越其作為玩家的功能。

**2.1 大語言模型行為表現的評估

大語言模型在矩陣博弈中的困難。矩陣博弈是博弈論中的一個基礎概念。在矩陣博弈中,兩名玩家同時做出決策,結果可以通過一個有限的收益矩陣表示。最近的研究探討了大語言模型如何通過將這些博弈轉化為自然語言提示來應對這些博弈。盡管取得了顯著進展,研究結果顯示,大語言模型(如GPT-4)在2 × 2矩陣博弈中難以始終如一地選擇最優策略[Akata et al., 2023; Herr et al., 2024; Loré and Heydari, 2024; Wang et al., 2024]。 例如,[Akata et al., 2023]指出,大語言模型在協調博弈中,如性別之戰,經常未能選擇最優行動。類似地,[Loré and Heydari, 2024]研究了語境框架和效用矩陣如何影響大語言模型的決策,揭示了顯著的偏差。此外,[Herr et al., 2024]探討了游戲描述、玩家定位和收益對大語言模型表現的影響,突出了持續的行為偏差。在更動態的環境中,[Fan et al., 2024]觀察到,大語言模型在環形網絡博弈中難以預測最優策略。此外,用于評估大語言模型在144種不同2 × 2矩陣博弈中的表現的TMGBench基準進一步確認了這些局限性[Wang et al., 2024]。 矩陣博弈是博弈論的基石,也是更復雜戰略問題的基礎。研究大語言模型在這些博弈中的行為為我們提供了對它們在復雜推理任務中的局限性的寶貴洞見。 大語言模型在現實博弈場景中的類人策略。除了經典的矩陣博弈,許多研究分析了大語言模型在更現實的博弈環境中的表現。盡管這些博弈具有更大的語境復雜性,但對大語言模型來說,它們不一定更具挑戰性。這是因為基于文本內容的戰略推理有時可以替代顯式的計算。 研究表明,大語言模型能夠在基于交流的博弈中表現出戰略行為。在欺騙與談判博弈中,包括狼人殺[ Xu et al., 2023; Du and Zhang, 2024]和阿瓦隆[ Wang et al., 2023; Lan et al., 2024],大語言模型表現出欺騙、建立信任和領導力等行為——這些特質通常與人類的戰略思維相關。這些發現表明,大語言模型能夠在博弈中充當復雜的交流代理。 大語言模型在經濟學重要的博弈場景中也展示了戰略推理,如討價還價和定價博弈。例如,[Deng et al., 2024]發現大語言模型具有先進的談判技巧,[Fish et al., 2024b]表明基于大語言模型的定價代理可以自主進行價格串通,設置高于競爭水平的價格。在拍賣環境中,[Guo et al., 2024]發現大語言模型能夠根據歷史數據制定理性競標策略,通常趨向于納什均衡。類似地,[Chen et al., 2023]介紹了AucArena平臺,展示了大語言模型如何有效管理預算并優化拍賣策略。 游戲表現的綜合基準。這些發現表明,遞歸推理可以顯著提升大語言模型的戰略能力。

**2.2 提升大語言模型的博弈表現

在評估大語言模型在各種博弈中的表現的基礎上,許多研究探討了提升它們戰略推理和決策能力的方法。這些研究解決了大語言模型在博弈過程中面臨的關鍵挑戰,并提出了改善其能力的通用框架。以下,我們概述了兩種重要的方法。 遞歸思維。在需要長期或多層次推理的博弈中,大語言模型常常難以保留和利用之前的信息,導致次優決策。為了緩解這一問題,研究人員開發了鼓勵大語言模型進行遞歸思維的技術,使它們在制定戰略時能更好地利用過去的信息。 例如,[Wang et al., 2023]提出了遞歸思考(ReCon)框架,該框架在阿瓦隆游戲中鼓勵大語言模型進行一階和二階視角推理。這有助于它們避免常見的陷阱,如欺騙。類似地,[Duan et al., 2024a]提出了一種方法,讓大語言模型預測多回合博弈中的未來行動,從而提高它們預測對手策略的能力。此外,[Zhang et al., 2024a]通過k級理性推動大語言模型的推理,這增強了其多層次思維,并顯著提高了其在競爭環境中的勝率。 輔助模塊。作為語言模型,大語言模型通常在需要復雜數學計算或歷史數據檢索的博弈中表現不佳。一些研究提出了集成輔助模塊,幫助大語言模型在博弈過程中克服這些局限。 例如,[Gandhi et al., 2023]提出了一個“提示編譯器”,該編譯器系統性地指導大語言模型評估行動并形成信念,使它們能夠通過最小的上下文學習在新場景中進行推廣。在狼人殺游戲中,[Xu et al., 2023]將額外的BERT模型集成進來,用于編碼歷史和當前的游戲狀態,幫助大語言模型做出更有信息支持的決策。在討價還價博弈中,OG-Narrator框架[Xia et al., 2024]生成外部報價,允許大語言模型專注于談判語言。最近,[Hua et al., 2024]開發了一種結構化工作流程,幫助大語言模型解決博弈論問題,包括計算納什均衡和在復雜談判任務中優化策略。 這些輔助模塊顯著提升了大語言模型在各種博弈環境中的表現,證明了集成額外計算工具能夠增強它們的戰略決策能力。

**2.3 超越博弈參與者的角色

盡管大部分討論集中在利用基于博弈的場景評估大語言模型,但研究也表明,大語言模型在博弈中的能力反過來可以貢獻于博弈論。本節探討了大語言模型在博弈論框架中的替代角色,擴展了它們的應用。 在2.1節中,我們提到大語言模型在經典矩陣博弈中常常難以計算最優策略。然而,一些研究采取了替代方法,利用大語言模型的自然語言理解能力,而不是直接計算均衡。例如,[Mensfelt et al., 2024]利用大語言模型將博弈描述形式化為博弈描述語言(GDL),使外部求解器能夠處理這些描述。類似地,[Deng et al., 2025]提出了一個兩階段框架,用于翻譯廣義形式的博弈:首先,大語言模型識別信息集,然后它通過上下文學習構建完整的博弈樹。這些研究表明,大語言模型可以充當自然語言到正式博弈結構的轉換中介,提供了超越傳統模型的能力。 此外,[Horton, 2023]探討了將大語言模型用作行為經濟學實驗中的人類參與者替代品。研究結果表明,大語言模型能夠復制經典的行為經濟學結果,為社會科學研究提供了一種可擴展、成本效益高的替代方案。這突顯了大語言模型在實驗經濟學和社會科學研究中的潛力,能夠促進大規模模擬并深入洞察人類決策過程。

3. 博弈論在算法創新中的應用

本節探討博弈論原理如何通過指導算法創新來推動大語言模型(LLMs)的發展。博弈論在增強我們對LLMs的理解方面發揮了重要作用,主要通過使用Shapley值社會選擇模型等工具。這些方法為模型的可解釋性提供了寶貴的見解,使我們能夠更深入地理解LLMs如何處理和響應輸入。除了可解釋性,博弈論還為開發訓練目標和評估指標提供了框架,以應對LLM開發中的關鍵挑戰,例如模型異構性和與人類偏好的一致性。

**3.1 博弈論用于LLMs的現象學理解

這一研究方向將經典博弈論概念應用于解釋LLMs中的可觀察現象,包括文本生成模式和特定框架下訓練的固有局限性。鑒于LLMs通常因其專有性質和大規模復雜性而被視為“黑箱”,此類研究尤為重要。一種方法將合作博弈論與LLMs聯系起來,因為這些模型對輸入標記執行并行計算,并圍繞Transformer層構建。Shapley值(Shapley, 1953)是一種用于評估合作博弈中個體玩家貢獻的方法,已被用于評估特定標記和層對LLM生成輸出的影響。多項研究利用Shapley值評估提示中標記的重要性(Goldshmidt和Horovicz, 2024;Mohammadi, 2024)。例如,Mohammadi(2024)證明,LLMs通常為信息量較少的輸入組件分配過高的權重,這種行為與錯誤響應密切相關。TokenSHAP(Goldshmidt和Horovicz, 2024)通過蒙特卡洛采樣提高了Shapley值計算的效率,而TextGenSHAP(Enouen等, 2024)將該方法擴展到更長的結構化輸入-輸出場景。Liu等(2023)將Shapley值應用于多提示學習,識別出對集成生成最具影響力的提示。Zhang等(2024c)分析了LLM層的貢獻,發現早期層對輸出生成的影響更為顯著。另一個研究方向使用社會選擇理論來建模LLMs與多樣化人類偏好的一致性。該框架有助于解決LLMs與人類價值觀和決策過程對齊的挑戰(Mishra, 2023)。例如,Conitzer等(2024)分析了基于人類反饋的強化學習(RLHF)在表達人類偏好中的作用,識別出由偏好沖突引起的基本問題,并倡導在社會選擇原則下進行LLM對齊。Ge等(2024)將RLHF獎勵建模視為社會選擇過程,證明基于Bradley-Terry的方法存在違反關鍵公理的內在局限性。Qiu(2024)提出了一個代表性社會選擇框架,通過提取一小部分代表性意見來有效管理大規模偏好聚合。此外,一些研究應用博弈論來建模對齊和解碼策略。Zhang等(2024e)研究了現實世界LLM應用的社會技術影響,倡導通過激勵兼容性確保AI系統與社會目標一致并保持技術穩健性。Chen等(2025)將LLM解碼過程建模為Stackelberg博弈,其中解碼器先行動,對抗實體隨后行動。通過分析雙方的最優策略,他們的研究為啟發式采樣策略在實踐中表現良好提供了理論依據。

**3.2 博弈論用于激發LLM算法

除了增強對LLMs的理解,博弈論在設計提升其能力的算法中也發揮了關鍵作用。本節重點介紹了LLM訓練中的幾個關鍵挑戰,并說明博弈論如何應用于解決這些問題。通用人類偏好:標準的基于獎勵的RLHF僅限于捕捉傳遞性偏好(Munos等, 2024)。然而,偏好模型可以通過比較兩種策略來表達更一般的偏好,而不是為每個響應分配獎勵。這為基于偏好模型優化LLM引入了新的挑戰。基于人類反饋的納什學習(NLHF)旨在優化由偏好模型定義的博弈的馮·諾依曼贏家,為策略優化提供了一個可行且穩健的方向。基于NLHF,SPO(Swamy等, 2024)引入了表達更復雜偏好的方法,例如非傳遞性、隨機性和非馬爾可夫偏好。SPPO(Wu等, 2025)設計了一種算法,能夠在大規模語言模型中高效實現類似SPO的算法。DNO(Rosset等, 2024)通過基于回歸的目標改進了LLM優化,實現了更高效和直接的訓練。INPO(Zhang等, 2024d)引入了一種可以直接在偏好數據集上最小化的損失函數,進一步減少了NLHF中計算勝率的時間開銷。然而,Zhi-Xuan等(2024)的最新研究指出,基于偏好的方法過于簡化了人類價值觀,忽略了其復雜性、不可公度性和動態性。因此,設計更穩健的方法來對齊人類偏好仍然是一個持續的科學挑戰。人類偏好的異質性:捕捉人類注釋數據集中的異質性仍然是LLM對齊中的一個重大挑戰。忽略這種異質性通常會導致模型僅反映多數人的偏好(Fleisig等, 2023)。多項研究使用社會選擇理論開發了更具包容性的訓練和對齊算法(Chakraborty等, 2024b;Park等, 2024;Alamdari等, 2024;Chen等, 2024a)。Chakraborty等(2024b)證明了使用單一獎勵模型的不切實際性,并提出了平等主義原則來學習偏好分布。Park等(2024)建議對偏好進行聚類,并提出了一種可擴展的、激勵兼容的偏好對齊框架。Alamdari等(2024)使用Borda計數分位數公平性進行偏好聚合,確保公平性和計算可行性。Chen等(2024a)引入了一種混合建模框架來聚合異質偏好。此外,Klingefjord等(2024)從宏觀角度審視了人類偏好與訓練目標之間的差距,從哲學角度提供了解決方案。數據成本效率:博弈論還被應用于提高LLM訓練的成本效率。收集具有保證質量和覆蓋范圍的數據集通常具有挑戰性,因此一些研究使用自我博弈框架來提高數據利用率,減少所需數據量同時保持性能。Chen等(2024b)解決了僅用少量黃金標準數據微調模型的問題。借鑒生成對抗網絡(GANs)(Goodfellow等, 2020),它允許LLM在區分其響應與黃金標準答案的同時提高答案質量,最終收斂到黃金標準數據的分布。Cheng等(2024a;Zheng等, 2024)將攻擊者和防御者之間的博弈建模為兩個LLM之間的博弈。Zheng等(2024)使用攻擊者提出防御者不擅長的提示,而防御者不斷改進。Cheng等(2024a)考慮了一種經典游戲——對抗禁忌,以在不引入新數據的情況下增強模型知識獲取,從而在實驗中表現更好。此外,Zhang和Duan(2024)通過將拍賣模型納入LLM微調過程,提高了偏好數據收集的效率,證明了這種方法可以在保持強性能的同時提高微調效率。其他雙人博弈模型:除了上述文獻,一些研究在LLM的特定階段制定了其他雙人博弈模型,以增強特定能力。Chakraborty等(2024a;Makar-Limanov等, 2024;Cheng等, 2024b)將獎勵模型與LLM之間的交互建模為雙人博弈。他們的目標是解決靜態獎勵模型無法處理LLM策略分布變化的問題。他們的博弈論建模捕捉了獎勵模型和LLM的共同演化,并使用均衡求解算法提供了理論上有保證的LLM訓練方法。Jacob等(2023)觀察到,同一LLM對問題的生成性和判別性答案通常不一致。他們建模了共識博弈,其中這兩種類型的答案作為尋求共識答案的玩家。通過使用均衡求解算法,這種方法顯著提高了LLM在各種數據集上的準確性。此外,Gemp等(2024)將LLM生成長文本對話的過程建模為順序博弈,使用博弈論工具增強模型理解對話并生成適當響應的能力。

4 博弈論在LLM相關建模中的應用

本節概述了涉及大語言模型(LLMs)的博弈論模型研究。這些模型的理論分析為LLMs對人類社會的影 響提供了證據。我們將文獻分為三個主要領域。第一個領域探討了同時包含LLMs和人類的博弈論模型,旨在解釋或預測LLMs發展帶來的現象。第二個領域研究了LLMs作為產品或平臺的場景,這創造了具有博弈論動態的競爭環境,例如廣告拍賣。第三個領域擴展了經典博弈論模型,探討了LLMs的獨特能力如何推廣和完善這些模型,以應對更復雜和現實的場景。

**4.1 LLM與人類之間的競爭

這一系列研究引入了多種競爭模型,將LLMs視為博弈中的玩家(Yao等, 2024;Esmaeili等, 2024;Taitler和Ben-Porat, 2024)。這些模型通常源于一個認識:現代LLMs具有強大的內容生成能力,與人類創作者相比,其成本更低且進化速度更快。Yao等(2024)通過提出基于Tullock競賽的競爭模型,研究了LLMs對人類創作者的影響。該模型探討了人類生成內容與LLM生成內容之間的動態關系,將LLMs建模為成本為零的玩家,其輸出質量隨著人類內容質量的提高而提升。通過均衡分析,研究得出結論:LLMs并不會從根本上與人類創作者沖突或取代他們,而是會減少人類生成內容的數量,最終淘汰效率較低的創作者。Esmaeili等(2024)將該模型擴展到重復博弈環境中,重點關注人類如何在動態競爭中優化其效用。研究強調了確定最優策略的計算復雜性,并提出了提供接近最優解的實用算法。Taitler和Ben-Porat(2024)研究了基于LLM的生成式AI與人類運營平臺(如Stack Overflow)之間的競爭動態及其對社會福利的影響。該模型研究了LLMs的收入最大化問題,并揭示了類似于Braess悖論的現象:隨著人類用戶越來越依賴LLMs,原始平臺因缺乏質量提升數據而受損。此外,生成式AI模型很少進行旨在提高質量的訓練,因為成本節約的激勵措施占主導地位。研究還提出了解決這些問題的理論監管框架。LLMs的發展帶來了多樣化的社會效應,博弈論為研究這些效應提供了強大的理論框架。通過采用描述最優行為和均衡策略的適當模型,我們可以推導出具有理論保證的性質。

**4.2 伴隨LLMs出現的博弈場景

本節探討了由LLMs作為產品或平臺引發的博弈論場景。在這些場景中,LLMs并不參與博弈,而是圍繞它們展開。隨著LLMs獲得全球關注,與LLMs相關的行業正在創造巨大的商業價值。Laufer等(2024)探討了將通用模型微調作為市場服務的可行性。該研究建模了通用模型開發者與領域專家之間的談判過程。通過分析子博弈完美均衡,論文證明了利潤共享結果是可能的,并提供了確定帕累托最優均衡的方法。Sun等(2024a)研究了通過拍賣式過程為多個具有不同偏好的群體提供LLM微調服務的潛在經濟場景。研究提出了一種激勵兼容的支付方案,確保社會福利最大化。Mahmood(2024)分析了LLM部署的競爭動態,強調了市場信息的價值,并證明當任務足夠相似時,先發制人策略可能對所有任務都不具成本效益。Saig等(2024)提出了一種按偏好支付的合同設計模型,以解決當前按標記定價方案中潛在的道德風險。除了作為商品,LLMs還通過廣告收入提供潛在的商業價值,類似于搜索引擎。LLMs的出現使傳統的固定廣告位過時,促使多項研究探討將LLMs整合到廣告拍賣中(Feizi等, 2023)。Duetting等(2024)建模了一種場景,其中每個廣告商擁有一個代理LLM,并通過競價影響下一個生成標記的概率分布。研究通過修改第二價格拍賣機制,確保激勵兼容性。Dubey等(2024)假設每個廣告商提供固定的廣告副本,通過競價影響LLM生成的摘要。他們的拍賣機制確定了每個廣告商在摘要中的突出程度及其支付價格,確保激勵兼容性。Hajiaghayi等(2024)也假設每個廣告商擁有代表其內容的文檔,但在**檢索增強生成(RAG)**框架中建模廣告插入過程。該機制在LLM生成內容的每個話語段中概率性地檢索和分配廣告,基于競價和相關性優化對數社會福利。Soumalias等(2024)研究了一種場景,其中每個廣告商通過獎勵函數對LLM生成內容進行競價。他們的機制激勵廣告商真實報告獎勵函數,并在無需調優的環境中展示了操作可行性。

**4.3 LLM擴展經典博弈模型

除了上述兩個領域,本節還探討了利用LLMs增強傳統博弈論模型的研究,將其擴展到更現實的場景。LLMs的文本理解和生成能力使其成為聚合和激發意見的寶貴工具。Lu等(2024)探討了使用LLMs輔助同行評審,指出傳統的同行預測機制僅限于簡單的報告,例如多項選擇或標量數字。研究提出了利用LLMs強大文本處理能力的同行預測機制,以激勵高質量、真實的反饋。這些機制在實驗中能夠區分人類撰寫和LLM生成的評論。Fish等(2024a)使用LLMs解決傳統社會選擇理論的局限性,該理論僅限于在少數預定義替代方案中進行選擇。研究利用LLMs生成文本并推斷偏好,為設計具有嚴格代表性保證的AI增強民主進程提供了方法。Sun等(2024b)研究了LLMs如何在傳統拍賣中提供更豐富的信息。研究引入了語義增強的個性化估值拍賣框架,利用LLMs將競標者的偏好和語義項目信息整合到估值過程中。該框架將微調的LLMs與Vickrey拍賣機制相結合,以提高估值準確性和競標策略。

5 結論與未來方向

本綜述全面概述了LLMs與博弈論交叉領域的研究進展。我們從三個關鍵角度總結了博弈論在LLMs發展中的作用:提供基于博弈的標準化評估、推動博弈論算法創新以及建模LLMs的社會影響。此外,我們強調了LLMs與博弈論之間的雙向關系,探討了LLMs如何影響傳統博弈模型。基于對現有文獻的回顧,我們確定了博弈論與LLMs交叉領域的幾個有前景的未來方向。在以下部分中,我們概述了其中一些機遇和挑戰,以期推動這一多學科領域的發展。具有全面博弈能力的LLM代理:現有研究探索了在各種博弈場景中評估LLM代理,并開發了增強其推理能力的方法。然而,盡管其中一些方法展示了通用性,但其驗證仍然高度依賴于具體場景。一個關鍵的未來方向是開發精通博弈論推理的LLM代理,能夠在無需顯式定制的情況下將其知識應用于多樣化的博弈場景。實現這一目標需要在規則理解、外部環境建模和多代理推理方面取得進展。關鍵技術方面包括構建博弈論語料庫、優化微調策略以及整合工具學習技術。超越以人類為中心的評估框架:博弈論為理性和策略推理提供了完善的評估標準,例如K級理性,這些標準已被廣泛用于評估LLM智能。然而,這些評估方法最初是為人類認知設計的,可能無法完全捕捉基于下一個標記預測模型的推理過程。為了從博弈論角度全面評估LLMs,必須超越現有的以人類為中心的指標,開發專門針對基于神經網絡的模型的評估框架。這仍然是一個未充分探索的領域,具有顯著提升我們對LLMs決策理解潛力。LLMs策略行為的理論理解:將博弈論概念(如Shapley值)應用于理解LLMs的文本生成行為仍處于早期階段。大多數關于LLMs在現實場景中策略行為的研究依賴于實證觀察,而非系統的理論解釋。例如,Park等(2025)引入了假設模型來解釋為什么LLMs在重復博弈中難以達到無遺憾學習者的表現水平。將此類理論研究擴展到更復雜的場景(如狼人殺、阿瓦隆或討價還價博弈)至關重要。對LLM策略行為的更深入理論理解將有助于定義其能力邊界,并為進一步提高其推理能力提供見解。捕捉LLM優化中的合作博弈:許多利用博弈論優化LLM訓練的研究(如第3.2節所述)主要關注非合作博弈場景。盡管非合作方法是一個自然的選擇,但合作博弈論方法為LLM優化提供了額外的見解。例如,在專家混合模型中,不同的專家網絡可以被視為合作博弈的參與者。采用合適的收益分配機制(如Shapley值或核心概念)可以優化專家選擇和任務分配,減少冗余并提高計算效率。類似地,在集成學習和知識蒸餾中,不同的子模型可以被視為協作代理,共同優化決策邊界或轉移知識。有效的獎勵分配和權重調整策略可以增強子模型之間的協作,減少冗余計算并提高泛化能力。將合作博弈論方法整合到LLM訓練和優化中,可能提供新的理論見解和實際解決方案。多LLM與人類合作的建模:如第4.1節所述,先前的研究主要集中在建模LLMs與人類之間的競爭互動,揭示了其社會影響。然而,除了競爭,理解多個LLMs與人類之間的合作動態仍然是一個重要的研究方向。一個關鍵挑戰是設計激勵機制,激勵LLMs在完成人類分配任務時進行協作,同時考慮其目標。對LLM代理目標和行為的理論描述對于彌合博弈論機制設計與實際部署之間的差距至關重要。推進這一研究方向可能有助于開發更有效地與人類目標一致并對社會產生積極影響的LLMs。利用LLMs作為預言機擴展理論博弈模型:如第4.3節所述,多項研究探討了如何利用LLMs擴展經典博弈論模型。這些研究的關鍵見解是,LLMs憑借其強大的語言理解和生成能力,可以作為博弈論框架中具有特定功能的預言機。這一視角為放寬理想化假設或使用LLMs替代各種博弈模型中的理論預言機提供了新的機會。通過這種方式,以前僅停留在理論層面的模型現在可以實際實施,同時保留近似的理論性質。系統探索LLMs如何在不同理論模型中作為適應性預言機,可以彌合抽象博弈論概念與實際應用之間的差距。

付費5元查看完整內容

在現實世界中,信息跨越不同模態且種類繁多,理解并利用多種數據類型來改進檢索系統是研究的關鍵重點之一。多模態復合檢索集成了文本、圖像、音頻等多種模態,以提供更精準、個性化和上下文相關的結果。為了促進對這一有前景方向的深入理解,本綜述深入探討了多模態復合編輯與檢索,涵蓋了圖文復合編輯、圖文復合檢索及其他多模態復合檢索。本文系統整理了應用場景、方法、基準、實驗以及未來方向。在大模型時代,多模態學習是一個熱門話題,同時也見證了《PAMI》期刊上關于多模態學習和視覺-語言模型與Transformers的若干綜述的發表。據我們所知,本綜述是首個關于多模態復合檢索的全面文獻回顧,是對現有多模態融合綜述的及時補充。為了幫助讀者快速跟蹤這一領域的進展,我們為本綜述建立了項目頁面,訪問地址為://github.com/fuxianghuang1/Multimodal-Composite-Editing-and-Retrieval。 關鍵詞——多模態復合檢索,多模態融合,圖像檢索,圖像編輯。

引言

在當今的數字化環境中,信息通過文本、圖像、音頻和雷達等多種渠道傳遞,導致數據量和復雜性的顯著增加。隨著數據呈指數級擴展,處理和整合多樣化信息的挑戰變得至關重要。高效檢索個性化且相關的信息變得越來越具有挑戰性。

傳統的單模態檢索方法[37], [49], [55], [83], [86], [87], [226]–[228], [237], [239]依賴于單一模態,如圖像或文本,作為查詢。然而,這些方法往往難以充分捕捉真實世界信息檢索場景的復雜性和細微差別。這一局限性促使多模態復合圖像檢索[11], [21], [28], [88], [106], [172], [190]的出現,這是一個超越單一模態邊界的有前途的框架。通過利用各種數據類型的互補優勢,多模態復合檢索系統增強了對用戶查詢和上下文的理解,從而提高了檢索性能和用戶滿意度。 如圖1所示,多模態復合檢索涉及將文本、圖像、音頻等多樣化的數據形式進行復雜的融合與分析,以實現信息檢索。這種方法在多個現實場景中具有重要價值,包括多媒體內容[80]、社交媒體平臺和電子商務[59], [70], [150], [194], [203]。此外,它的應用還涉及一些專門領域,如醫學圖像檢索[19], [65], [144]、文檔檢索[72], [80]和新聞檢索[178]。通過采用多樣的多模態查詢,這些技術能夠提供靈活且準確的結果,從而提升用戶體驗,幫助做出更明智的決策。因此,多模態復合檢索在信息科學、人工智能以及跨學科應用中具有重要的潛力和研究價值。 大多數現有的多模態復合檢索方法[4], [11], [27], [28], [77], [85], [88], [106], [115], [132], [190]主要集中在集成圖像和文本以實現預期結果。早期方法采用卷積神經網絡(CNN)進行圖像編碼,并使用長短期記憶(LSTM)網絡[108]進行文本編碼。隨著強大Transformer模型的興起,如Vision Transformer (ViT) [186]、Swin Transformer (Swin) [128]和BERT [102],提出了眾多基于Transformer的多模態復合檢索方法[184], [208],以提高圖像檢索性能。此外,視覺-語言預訓練(VLP)[94], [120], [121], [158]通過彌合文本描述和視覺內容之間的語義差距,改變了與圖像理解和檢索相關的任務。多種基于VLP的多模態復合圖像檢索方法[11], [85], [132]顯示出有前景的結果。此外,圖文復合編輯方法[31], [39], [46], [71], [118], [119], [126], [152], [232]使用戶能夠通過自然語言指令直接修改圖像或生成新內容,從而實現與用戶意圖高度一致的精確檢索。對音頻[2]和動作[215]等其他模態的探索也正在加速進行。

動機

盡管在多模態復合檢索模型上已有廣泛研究,但新的挑戰不斷涌現,仍有待解決。在這一快速發展的領域中,迫切需要進行全面、系統的分析。本綜述旨在通過系統地組織應用場景、方法、基準、實驗以及未來方向,促進對多模態復合編輯與檢索的深入理解。我們回顧并分類了130多種先進的多模態復合檢索方法,為進一步研究奠定了堅實的基礎。

文獻收集策略

為了確保對多模態復合檢索的全面概述,我們采用了一種系統的搜索策略,涵蓋了廣泛的相關文獻。我們的重點包括多模態檢索系統中的創新方法、應用和進展。我們選擇了諸如“多模態復合檢索”、“多模態學習”、“圖像檢索”、“圖像編輯”和“特征融合”等關鍵詞,涵蓋了這一領域的各個方面。這些術語反映了多模態研究中常見的基礎概念、具體技術和新興趨勢。我們在知名學術數據庫中進行了搜索,包括Google Scholar、DBLP、ArXiv、ACM和IEEE Xplore。通過這些探索,我們收集了多種來源,包括期刊文章、會議論文和預印本。為了精煉我們的選擇,我們排除了主要專注于單模態方法或不相關模態的研究,并手動審核了剩余文獻的相關性和質量。最終選擇過程中,我們基于每篇論文的貢獻和影響進行了評估,以便為深入分析策劃關鍵研究。通過應用這些標準,我們力圖為多模態復合檢索的當前形勢和未來方向提供全面的視角。

分類

為了澄清與多模態復合編輯和檢索相關的討論,我們將其按應用場景分為三類,即1) 圖文復合編輯,2) 圖文復合檢索和3) 其他多模態復合檢索,如圖2所示。具體來說,圖文復合編輯涉及通過自然語言指令修改圖像或創建全新內容,用戶可以清晰直觀地傳達其意圖。圖文復合檢索則通過輸入文本和圖像信息來搜索個性化結果,從而通過文本描述定位相關圖像或根據圖像生成描述性文本,提升搜索體驗。其他多模態復合檢索任務則將音頻、動作等不同模態的組合作為輸入,提供更豐富和靈活的上下文感知檢索體驗。

貢獻

總而言之,我們的貢獻如下: * 據我們所知,本文是首個關于多模態復合檢索的全面綜述,旨在為這一快速發展的領域提供及時的概覽和寶貴的見解,為未來的研究提供參考。 * 我們系統地組織了研究成果、技術方法、基準和實驗,幫助理解這一主題,并通過多層次的分類為現有研究提供廣泛的覆蓋,滿足讀者的多樣化需求。 * 我們解決了多模態復合檢索中的挑戰和未解問題,識別了新興趨勢并提出了可行的未來研究方向,以推動該領域的創新。

論文組織

本文其余部分的結構如下。第二部分介紹了與多模態復合檢索相關的基礎概念和應用,并為討論的方法奠定了背景。第三部分深入探討了該領域使用的各種方法,并根據其基本原理進行分類,分析其優缺點。第四部分概述了用于評估這些方法的基準和實驗設置,并展示了最新研究的結果。第五部分討論了多模態復合檢索的現狀,指出了挑戰并提出了未來研究方向。最后,第六部分總結了關鍵發現并強調了這一領域對未來研究的重要性。

付費5元查看完整內容

多模態大規模語言模型(MLLMs)因其在視覺問答、視覺感知、理解與推理等多種應用中的出色表現,在學術界和工業界日益受到關注。近年來,研究人員從多個角度對 MLLMs 進行了深入研究。本文對180個 MLLMs 的基準和評估進行了全面綜述,重點探討了以下幾個方面:(1) 感知與理解,(2) 認知與推理,(3) 特定領域,(4) 關鍵能力,以及 (5) 其他模態。最后,我們討論了當前 MLLMs 評估方法的局限性,并探討了未來的有前景的研究方向。我們的核心論點是,評估應被視為一門至關重要的學科,以更好地支持 MLLMs 的發展。更多詳情請訪問我們的 GitHub 倉庫://github.com/swordlidev/Evaluation-Multimodal-LLMs-Survey。

1 引言

近年來,大規模語言模型(LLM)在學術界和工業界引起了廣泛關注。諸如GPT [1] 等LLM的出色表現使人們對其代表通用人工智能(AGI)邁出的重要一步充滿樂觀。這些卓越的能力激發了將LLM與其他模態模型結合以增強多模態能力的研究努力。由此,多模態大規模語言模型(MLLMs) [2] 應運而生。這一概念得到了OpenAI的GPT-4V [3] 和Google的Gemini [4] 等專有模型的巨大成功的進一步支持。與早期僅限于解決特定任務的模型不同,MLLMs 在廣泛的應用中表現出了卓越的性能,包括一般的視覺問答(VQA)任務和特定領域的挑戰。

為MLLMs 提供全面且客觀的基準評估對于比較和研究各種模型的性能至關重要,并且在MLLMs 的成功中發揮了關鍵作用。首先,評估LLM有助于我們更好地理解MLLMs 的優勢和劣勢。例如,SEED-Bench [5] 顯示了當前MLLMs 在理解物體之間的空間關系方面能力較弱,而在全局圖像理解方面則表現出較高的性能。其次,在各種場景中的評估可以為MLLM在醫學、工業和自動駕駛等領域的應用提供有價值的指導,從而激發未來的設計并擴大其能力范圍。第三,MLLMs 的廣泛適用性強調了確保其穩健性、安全性和可靠性的重要性,特別是在安全敏感的領域。最后,評估MLLMs 的其他用戶友好特性也具有重要意義,包括處理長文本上下文的能力以及準確執行指令的能力。因此,我們旨在通過回顧當前的評估協議,引起社區對MLLM評估重要性的關注。最近,眾多研究工作從感知、理解、認知和推理等多個角度對MLLMs 進行了評估。此外,還測試了MLLMs 的其他能力,包括穩健性、可信性、專門應用和不同模態。盡管進行了這些努力,仍然缺乏一個全面概述,能夠捕捉到這些評估的全貌。在本綜述中,我們旨在提供對快速發展的MLLM評估領域的全面概述。如圖1所示,我們的綜述涵蓋了MLLM評估的五個關鍵領域,涉及20-30個詳細類別。該圖還展示了MLLM評估論文隨時間的趨勢,顯示了出版物數量的快速增長。這種增長表明該研究領域已廣泛引起關注。此外,我們提供了自2024年以來83個基準測試中三大MLLMs 的性能統計數據,數據顯示OpenAI的GPT-4和Google的Gemini表現優異,吸引了顯著的學術關注。正如圖2所示,我們對180個基準進行了調查,并將文獻按五個主要類別組織,涵蓋感知與理解、認知與推理、特定領域、關鍵能力和其他模態等方面。

感知與理解 指的是接收和提取多模態數據特征并進行跨模態分析的能力。評估MLLMs的感知與理解能力包括評估MLLMs是否能夠感知視覺表征、識別視覺細節、理解圖像傳達的含義和情感,并正確回答相關問題。這些能力是MLLMs的基石,使其能夠執行廣泛的任務和應用。

認知與推理 包括模型在基本感知與理解之上的高級處理和復雜推理能力。認知能力涉及處理和操作信息以將其轉化為知識,而推理能力則側重于得出邏輯結論和解決問題。強大的認知與推理能力使MLLMs能夠在復雜任務中進行有效的邏輯推理。

特定領域 關注MLLMs在特定任務和應用中的能力,例如處理文本豐富的視覺信息以及在現實場景中執行基于代理的決策任務。討論還擴展到評估其在醫學、自動駕駛和工業等專門領域的表現。

關鍵能力 對MLLMs的性能和用戶體驗產生重大影響,包括管理復雜對話、準確執行指令、避免幻覺并保持可信性。這些能力對于確保MLLMs在各種實際應用中有效運行并適應各種實際場景至關重要。

其他模態 包括視頻、音頻和3D點云,這些模態也包含反映現實世界的豐富多樣的信息。這些模態提供了關鍵的上下文并增強了MLLMs理解復雜場景的能力。評估MLLMs處理各種模態的能力有助于理解其在不同類型數據和任務中的表現,確保它們適合處理復雜的現實世界場景和挑戰性任務。

預備知識

圖1比較了幾種常見的多模態大規模語言模型(MLLMs),包括GPT-4 [3]、Gemini [4]、LLaVA [185]、Qwen-VL [186]、Claude [187]、InstructBLIP [188]、mPLUG-Owl2 [189]、SPHINX [190]、Intern-VL [191]、Yi-VL [192]、VideoChat2 [193]、Video-LLaMA [194]、Cambrian-1 [195]、PLLaVA [196]、Blip2 [197] 和 MiniGPT4-Video [198]。標準的MLLM框架可以分為三個主要模塊:一個視覺編碼器 ggg,其任務是接收和處理視覺輸入;一個預訓練語言模型,用于管理接收的多模態信號并執行推理;以及一個視覺-語言投影器 PPP,其作為橋梁對齊這兩種模態。圖3展示了這種架構和訓練過程的示意圖。該圖概述了基本語言模型、視覺編碼器、投影器以及相關的預訓練和指令微調過程。

感知與理解

在評估多模態大規模語言模型(MLLMs)的感知與理解能力時,我們重點關注那些評估模型在視覺信息處理方面基本能力的基準。這包括評估MLLMs在物體識別與檢測的準確性、場景上下文與物體關系的理解,以及對圖像內容相關問題的響應能力。感知與理解能力是MLLMs的基石,使其能夠執行廣泛的任務和應用。本節首先介紹MLLMs的綜合評估基準,然后分別討論粗粒度和細粒度的視覺感知評估基準。

認知與推理

多模態大規模語言模型(MLLMs)的認知與推理能力包括模型在基本感知與理解之上的高級處理和復雜推理的能力。認知能力涉及整合和操作提取的信息,以形成連貫的表征,而推理能力則側重于得出邏輯結論和解決問題。強大的認知與推理能力使MLLMs能夠在復雜任務中進行有效的邏輯推理。

本節重點探討多模態大規模語言模型(MLLMs)在特定任務和應用中的能力,例如它們整合復雜的視覺和文本信息的能力、適應動態環境中決策角色的能力以及有效處理多樣化文化和語言數據的能力。隨后,本節還將擴展討論MLLMs的實際應用,強調它們在醫學、工業和自動駕駛等多個領域的影響。通過概述這些基準,本節旨在強調MLLMs性能評估的進展及其在應對不同領域現實世界挑戰中的潛力。

結論

評估具有深遠的意義,在推動通用人工智能(AGI)模型的發展中變得至關重要。它不僅確保模型按預期運行,還確保其達到所需的準確性、穩健性和公平性標準。通過嚴格的評估,我們可以識別模型的優勢與劣勢,指導進一步的改進,并在實際應用中建立對AI系統的信任。在本研究中,我們對多模態大規模語言模型(MLLMs)的評估與基準進行了全面概述,將其分類為感知與理解、認知與推理、特定領域、關鍵能力和其他模態。我們旨在增強對當前MLLMs 狀態的理解,闡明其優勢與局限性,并為MLLMs 的未來發展提供見解。鑒于這一領域的動態性,可能會有一些最新的進展未能完全覆蓋。為此,我們計劃持續更新并增強我們網站上的信息,隨著新見解的出現進行補充。

付費5元查看完整內容

本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。

流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。

盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。

實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:

在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。

接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。

與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。

數據驅動的代理模型

數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。

物理驅動的代理模型

盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。

結論

總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。

付費5元查看完整內容

在不斷發展的深度學習領域,數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型(LLMs)的出現為合成數據生成提供了一種以數據為中心的解決方案,緩解了現實世界數據的限制。然而,目前對這一領域的研究缺乏統一的框架,大多停留在表面。因此,本文基于合成數據生成的一般工作流程,整理了相關研究。通過這樣做,我們突出了現有研究中的空白,并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。

在深度學習領域不斷演變的背景下,數據數量和質量的問題一直是一個長期存在的困境。大語言模型(LLMs)的革命性出現引發了深度學習領域的顯著范式轉變(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。盡管有這些進展,大量高質量數據仍然是構建穩健自然語言處理(NLP)模型的基礎(Gandhi et al., 2024)。具體來說,這里的高質量數據通常指的是包含豐富監督信號(通常以標簽形式)并與人類意圖緊密對齊的多樣化數據。然而,由于高成本、數據稀缺、隱私問題等原因,依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的(Kurakin et al., 2023)。此外,多項研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人類生成的數據由于其固有的偏見和錯誤,可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題:是否有其他更有效和可擴展的數據收集方法可以克服當前的限制?

鑒于LLMs的最新進展,它們展示了生成與人類輸出相當的流暢文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說,合成數據旨在模仿真實世界數據的特征和模式(Liu et al., 2024)。一方面,LLMs通過廣泛的預訓練,積累了豐富的知識庫,并展現出卓越的語言理解能力(Kim et al., 2022; Ding et al., 2023a),這為生成真實的數據奠定了基礎。另一方面,LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性,從而能夠為特定應用創建定制的數據集,并設計更靈活的流程(Eldan and Li, 2023)。這兩個優勢使LLMs成為極具前景的合成數據生成器。

作為LLMs的一項關鍵應用,合成數據生成對于深度學習的發展具有重要意義。如圖1所示,LLMs驅動的合成數據生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整個模型訓練和評估過程實現自動化,最小化了人類參與的需求(Huang et al., 2023),從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外,LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的見解強調了數據質量對于有效模型學習的重要性,而LLMs賦予我們主動“設計”模型學習內容的能力,通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月,Hugging Face上已有超過300個被標記為“合成”的數據集,許多主流LLMs利用高質量的合成數據進行訓練,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。

盡管看似簡單,但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程,并涉及許多技巧(Gandhi et al., 2024),使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務(如預訓練(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微調(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、評估(Feng et al., 2023; Wei et al., 2024))和不同領域(如數學(Yu et al., 2023a; Luo et al., 2023a)、代碼(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))進行數據生成,但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題,并開發通用工作流程,本綜述調查了最近的研究,并根據生成、策展和評估三個密切相關的主題進行組織,如圖2所示。我們的主要目的是提供該領域的全面概述,確定關鍵關注領域,并突出需要解決的空白。我們希望為學術界和工業界帶來見解,并推動LLMs驅動的合成數據生成的進一步發展。

付費5元查看完整內容

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容

多語言大型語言模型利用強大的大型語言模型處理和響應多種語言的查詢,這在多語言自然語言處理任務中取得了顯著的成功。盡管取得了這些突破,但在這一領域仍缺乏一個全面的綜述來總結現有方法和最近的發展。為此,在本文中,我們提出了一個徹底的審查,并提供了一個統一的視角來總結多語言大型語言模型(MLLMs)文獻中的最新進展和新興趨勢。本文的貢獻可以總結如下:(1)第一份綜述:據我們所知,我們采取了第一步,在多語言對齊的基礎上對MLLMs研究領域進行了徹底的審查;(2)新分類法:我們提出了一個新的統一視角來總結MLLMs的當前進展;(3)新前沿:我們突出了幾個新興的前沿并討論了相應的挑戰;(4)豐富資源:我們收集了大量的開源資源,包括相關論文、數據語料庫和排行榜。我們希望我們的工作能為社區提供快速訪問并推動MLLMs的突破性研究。

近年來,大型語言模型(LLMs)在各種自然語言處理任務上取得了優異的表現(Brown et al., 2020; Touvron et al., 2023a; Bang et al., 2023; Zhao et al., 2023b; Pan et al., 2023; Nguyen et al., 2023a; Trivedi et al., 2023),并展示出了令人驚訝的突發能力,包括上下文學習(Min et al., 2022; Dong et al., 2022)、思維鏈推理(Wei et al., 2022; Huang et al., 2023a; Qin et al., 2023a)以及規劃(Driess et al., 2023; Hu et al., 2023b)。然而,大多數LLMs主要關注英語任務(Held et al., 2023; Zhang et al., 2023i),使其在多語言環境,尤其是低資源環境下表現不足。

實際上,全球有超過7000種語言。隨著全球化的加速,大型語言模型的成功應考慮服務于不同國家和語言。為此,多語言大型語言模型(MLLMs)具有全面處理多種語言的優勢,越來越受到關注。具體來說,現有的MLLMs可以根據不同階段大致分為兩組。第一系列工作(Xue et al., 2020; Workshop et al., 2022; Zhang et al., 2023g; Muennighoff et al., 2022)利用多語言數據調整參數以提升整體多語言性能。第二系列工作(Shi et al., 2022a; Qin et al., 2023b; Huang et al., 2023a)還采用先進的提示策略,在參數凍結推理階段挖掘MLLMs的更深層次多語言潛力。

盡管在MLLMs上取得了顯著成功,但仍缺乏對最近努力的全面回顧和分析,這阻礙了MLLMs的發展。為了彌補這一差距,我們首次嘗試對MLLMs進行全面而詳盡的分析。具體來說,我們首先介紹廣泛使用的數據資源(§3)。此外,由于跨語言對齊的關鍵挑戰,我們根據對齊策略引入了新的分類法(§4),旨在提供文獻中的統一視角,包括參數調整對齊和參數凍結對齊(如圖1所示)。具體來說,參數調整對齊需要在預訓練、監督微調、人類反饋學習和下游微調過程中調整模型參數以增強英語和目標語言之間的對齊。參數凍結對齊指的是通過跨語言提示實現的對齊,無需調整參數。最后,我們指出了一些潛在的前沿領域以及MLLMs面臨的相應挑戰,希望激發后續研究(§5)。

本工作的貢獻可以總結如下:(1)首次綜述:據我們所知,我們是第一個根據多語言對齊在MLLMs文獻中提出全面綜述的;(2)新分類法:我們引入了將MLLMs分類為參數凍結和參數調整兩種對齊類型的新分類法,為理解MLLMs文獻提供了統一視角;(3)新前沿:我們討論了一些新興的前沿,并突出了它們的挑戰和機遇,希望為未來研究的發展鋪路;(4)詳盡資源:我們首次嘗試組織MLLMs資源,包括開源軟件、多樣的語料庫和相關出版物的精選列表,可在//multilingual-llm.net訪問。 我們希望這項工作能成為研究者的寶貴資源,并激發未來研究的更多突破。

如圖4所示,我們引入了一種新的分類法,包括參數調整對齊(§4.1)和參數凍結對齊(§4.2),旨在為研究人員提供一個統一的視角,以理解MLLMs文獻。具體來說,參數調整對齊(PTA)包括一系列逐步進階的訓練和對齊策略,包括預訓練對齊、監督微調(SFT)對齊、人類反饋學習(RLHF)對齊,以及最終的下游微調對齊。這些階段的共同目標是系統地優化模型參數,以對齊多語言性能。相反,參數凍結對齊(PFA)側重于基于PTA的四種提示策略:直接提示、代碼切換提示、翻譯對齊提示和檢索增強對齊。這種方法保持原始模型參數,以實現預期結果。

付費5元查看完整內容

基于Transformer的大型語言模型取得了巨大成功。然而,在推理過程中產生的顯著內存和計算成本,使得在資源受限的設備上部署大型模型變得具有挑戰性。在本文中,我們從算法角度調查了大型語言模型的壓縮和高效推理方法。就分類而言,類似于較小的模型,大型語言模型的壓縮和加速算法仍可以分為量化、剪枝、蒸餾、緊湊架構設計、動態網絡。然而,與較小模型相比,大型語言模型有兩個突出的特點:(1)大多數壓縮算法在壓縮后需要進行微調甚至重新訓練模型。大型模型最顯著的方面是與模型微調或訓練相關的非常高成本。因此,許多針對大型模型的算法,如量化和剪枝,開始探索無需調整的算法。(2)大型模型強調的是通用性和泛化能力,而不是在單一任務上的性能。因此,許多算法,如知識蒸餾,關注于如何在壓縮后保持其通用性和泛化能力。由于這兩個特點在早期的大型模型中并不十分明顯,我們進一步將大型語言模型區分為中等模型和“真正”的大型模型。此外,我們還提供了一些成熟框架的介紹,這些框架可以支持大型模型的高效推理,支持基本的壓縮或加速算法,極大地便利了用戶的模型部署。

大型語言模型(LLMs)已成為人工智能領域中一個重要且受歡迎的話題。與以往的語言模型相比,LLMs(例如ChatGPT、LLaMA、Claude)對未見數據顯示出了更強的泛化能力。此外,它們甚至展現出了較小模型所不具備的能力(即,突現能力),如多步驟推理和指令跟隨能力。這些進展展示了LLMs的巨大潛力。然而,在推理過程中的高昂內存和計算預算也阻礙了LLMs的部署。例如,一個帶有float32權重的10B模型消耗37GB內存,更不用說隨著序列長度增加,推理內存成本會以平方速度進一步增加。為了在資源受限的設備上,甚至是移動設備上部署模型,許多LLMs采用模型壓縮方法,如量化,以減少推理內存和計算成本。深度學習模型的模型壓縮是一個比LLMs出現得早得多的領域。它假設我們已經有了一個預定義的(甚至是預訓練的)模型。模型壓縮致力于減少模型在推理過程中的內存和計算成本,以便模型可以在各種資源受限的設備上運行。從算法上講,常見的模型壓縮方法包括:

  • 量化將float32權重或激活轉換為低位的浮點數或整數。較少的位意味著較少的內存需求。此外,較少的位可能表示更高的并行性和更快的推理速度。
  • 剪枝致力于移除預設計模型中不重要的組件(例如,神經元,層等),從而減少推理成本中的內存和計算成本。
  • 知識蒸餾引入一個預訓練的大模型作為教師,并將其知識轉移到一個新的較小的模型上,后者稱為學生模型。然后,較小的模型將幾乎擁有與教師相同的能力,并享受較少的內存和計算成本。
  • 緊湊架構設計設計新的運算符,以較低的成本替換(通常是近似)原始模型中的笨重運算符。對于Transformer模型,自注意力是主要目標,通常被其他運算符替換。
  • 動態網絡對每個推理樣本進行不同的處理。原始模型是一個超網,每個樣本只選擇超網的一個子結構進行推理。專家混合(MoE)是一種動態推理。 此外,上述方法也可以組合使用,以進一步壓縮和加速。現有的壓縮方法為我們壓縮LLMs提供了重要的基石和見解。然而,LLMs也為模型壓縮帶來了許多新的挑戰:
  1. 許多之前的模型壓縮方法經常需要在壓縮后對模型進行微調。然而,由于微調LLMs的巨大預算,研究人員不得不探索免微調或至少更高效的微調方法。

  2. 與處理單一任務(如神經機器翻譯)不同,大型語言模型強調跨各種任務和未見數據的通用性和泛化能力,甚至是突現能力。因此,壓縮后的大型語言模型需要更仔細地驗證其通用性和泛化能力。 面對這些挑戰,提出了許多專門針對LLMs的壓縮方法。在本文中,我們將對這些方法進行全面綜述。為了更好地展示這些方法,我們進一步將參數約為十億或更少的語言模型,如BERT、GPT2,稱為中等模型,盡管它們通常被視為大型語言模型。參數超過十億的模型,如LLaMA、Claude、ChatGPT等,保持大型語言模型的名稱。原因是中等模型受上述兩個挑戰的影響較小,即中等模型相對容易進行微調,展示較少的突現能力。結果,許多針對中等模型的壓縮方法仍與較小模型的方法相似。 以下各節的組織如下:第2節將介紹一些初步知識。然后,我們將在第3、4、5、6、7、8節分別討論剪枝、知識蒸餾、量化、緊湊架構設計和動態網絡。

量化

量化是指將輸入值(在一個大的(通常是連續的)集合中)映射到輸出值(在一個小的(通常是有限的)集合中)的過程(例如,見圖2)。量化是減少內存成本和提高LLMs推理速度的最直接方法,特別是在支持低位數據類型(如INT4)快速操作的硬件上。值得注意的是,量化在神經網絡訓練和推理中都取得了令人印象深刻的成功,而本綜述的焦點僅在推理部分。量化方法相比其他壓縮方法(如剪枝和蒸餾)有幾個優勢。1)高壓縮比:將LLMs中的權重從32位浮點數量化為4位整數,可以將模型大小大幅壓縮至大約1/8,這對于內存受限的過程(如LLMs推理)至關重要。2)低成本:許多量化方法不需要重新訓練整個LLMs,使其對于計算資源有限的研究人員更加可行。3)高靈活性:量化與大多數其他壓縮方法兼容,為進一步提高性能引入了異常的機會。為了幫助讀者更好地理解量化方法,我們首先在3.1小節介紹標準量化方法和一些基本概念。然后,在3.2節,我們將簡要總結LLMs出現之前一些針對中等大小語言模型(如BERT,GPT2等)的最重要工作。3.3節和3.4節涵蓋了專注于LLMs推理的量化方法的最新進展。考慮到重新訓練擁有數十億參數的模型的困難,我們根據技術是否需要重新訓練,將LLMs量化方法分為兩部分。不需要重新訓練的方法(即,訓練后量化,PTQ)在3.3節討論,而需要重新訓練的方法(即,量化感知訓練,QAT)在3.4節討論。最后,在3.5節,我們討論了一些展現未來研究潛力但在前面章節中未覆蓋的高級話題。

剪枝

作為一種常規技術,用于壓縮和加速神經網絡,剪枝通過消除模型中非必需的權重或結構,同時保持網絡性能幾乎等同于它們原始狀態。盡管剪枝在卷積神經網絡(CNNs)中顯示出顯著結果,但與量化和蒸餾等其他壓縮技術相比,其對于LLMs的有效性較不穩健。剪枝效果減弱的原因來自于微調過程。由于模型參數數量龐大,微調的高成本使得實現剪枝的全部效果變得更加困難。然而,剪枝是壓縮模型的關鍵技術,需要進一步探索以增強和完善其在LLMs中取得改進結果的有效性。在接下來的部分,我們將在4.1節提供剪枝方法和基本概念的概覽。隨后,在4.2節,我們將詳細闡述為中等大小語言模型(即,參數達到數十億的模型)量身定制的剪枝技術,鑒于它們與LLMs的結構相似性。4.3節將深入探討專門為LLMs設計的剪枝方法論。最后,在4.4節,我們將介紹一些輔助技術,這些技術雖然不是剪枝方法,但與剪枝相關,用于改進LLMs的剪枝結果,并討論LLMs剪枝領域未來進步的挑戰。

知識蒸餾知識蒸餾(KD)是一種常用的模型壓縮和加速技術。具體實施過程包括將復雜教師模型獲得的知識轉移到一個更簡單的學生模型中,從而實現教師模型知識的更簡潔高效的表示。在5.1節中,我們將介紹知識蒸餾的一些基本概念,并提供知識蒸餾方法的簡要分類。然后我們將在5.2節總結使用中等大小語言模型(具有大約10億參數的語言模型)的各種知識蒸餾方法,并根據蒸餾發生在預訓練階段、微調階段還是兩者都有進行分類。最后,我們將在5.3節提供大型語言模型(具有超過10億參數的語言模型)知識蒸餾的詳細概述,將它們分類為黑盒蒸餾和白盒蒸餾。

緊湊架構設計是一種追求效率和簡化的設計哲學,其目標是通過優化網絡結構和算法,在減少計算資源和內存使用的同時,實現模型效率的顯著提升。具體而言,它可以分為微觀和宏觀兩個研究層次。本節將重點優化注意力計算和Transformer架構設計。由于Transformer層目前是LLM的主要組成部分,并且對于大型和中等大小模型來說沒有區別,因此我們在這里不會特別按模型大小分類方法。

動態網絡

擴大語言模型的規模已被證明是提升其在自然語言處理(NLP)任務上性能的有效方法。然而,擴展帶來的大量計算成本和內存需求構成了LLMs進步的主要挑戰。為了解決這些問題,同時仍然利用規模增加的好處,動態神經網絡(DyNNs)只針對每個輸入處理網絡的一個子集,使整個模型在資源受限的環境下更加靈活和高效地滿足計算需求。在NLP領域和LLMs領域,當前對DyNNs的研究主要包括以下三種方法:提前退出、級聯推理和專家混合(MoE)。提前退出旨在動態地在深度神經網絡(DNNs)的早期層次終止推理過程,從而減少計算成本并提高響應時間。直覺是,對于不太復雜的詞匯,往往可以在網絡的較早層次中準確完成預測。這些方法通常在網絡內部集成了一系列內部分類器,這些分類器在推理過程中提供提前退出的信號。已經提出了各種退出標準。這一系列工作主要關注并應用于小型或中型語言模型,如Bert。并且準確度可能不足以支持一般LLMs在更復雜和現實的場景中的應用。級聯推理利用不同大小的一系列語言模型處理不同復雜度級別的請求。Tabi提出了一個具有多級推理模型和基于概率的調度器的推理系統,以確定輸入查詢的處理策略,并平衡準確度和效率。FrugalGPT學會適應性地分類來自不同數據集和任務的查詢,并將它們引導至合適的LLMs API組合。EcoAssistant和另一個研究利用查詢緩存引用歷史數據以加快響應速度,并使用LLMs的層級結構來處理那些不匹配的新查詢。Mixture-of-Thoughts考慮了來自較弱LLMs的答案一致性作為問題難度的指標,以決定是否利用更強大的LLMs。一般來說,這一系列工作最近才出現,并顯示出發展更高效LLM系統的有希望的方向。與上述兩種方法相比,MoE的研究有著橫跨多個機器學習領域(包括NLP)的廣泛歷史。MoE通過多個子網絡水平擴展前饋網絡(FFN),其中只有一個或少數幾個會在單次前向傳播中被激活。它被廣泛地整合到今天的LLMs架構中,以提供高效而強大的服務。因此,在本節的剩余部分,我們將深入探討MoE的領域。7.1節首先介紹MoE的基本概念,接著是對將MoE整合到LLMs中的當代研究的廣泛綜述,包括算法和架構設計、訓練策略和實際應用。7.2節提供了一些代表性研究的簡要回顧,這些研究將MoE與之前討論的模型壓縮和加速技術集成在一起,突出了其在開發更全面和成本效益更高的LLM系統中的潛力。

隨著基于Transformer的模型的快速發展,出現了各種模型。由于不同的應用場景,它們在延遲、吞吐量、內存等方面有著額外的需求,這使得我們難以部署模型。在本節中,我們介紹了一些最近開發的針對LLM的推理加速框架,這些框架有效地提高了不同場景下模型的效率,如表6所示。我們根據通用性將框架分為通用框架和專用框架。這里還有一些特定于訓練的加速框架[351]、[352]、[353]、[354]、[355]、[356]、[357],由于本文關注于推理,我們不會具體討論它們。如果您想要部署訓練好的模型以快速獲得高效推理,可以參考這些框架[358]、[359]、[360]、[361]、[362]、[363]。

結論

在本文中,我們從算法角度對大型語言模型的壓縮和高效推理進行了全面調查,包括量化、剪枝、蒸餾、緊湊架構設計、動態網絡。此外,我們還介紹了一些為大型語言模型量身定制的流行壓縮和加速框架。然而,正如我們在引言中提到的,與較小模型相比,大型模型的壓縮和加速面臨更多挑戰。盡管現有算法已經做出了重大努力來應對這些挑戰,但許多算法仍然依賴于為壓縮小型模型而設計的框架,壓縮大型模型的挑戰依然存在。未來,需要進一步探索,以開發更高效、更有效的壓縮算法,同時確保大型模型的通用性和泛化能力。

付費5元查看完整內容

隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。

  1. ChatGPT:本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后,我們遵循與REBEL模型相同的步驟,以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗,我們將參數“溫度”的值設為0,以獲得更具確定性的輸出,因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容
北京阿比特科技有限公司