大型語言模型(LLMs)正在推動科學發現范式的轉變,從面向特定任務的自動化工具演變為日益自主的智能體,根本性地重塑了科研流程與人機協作模式。本文系統性地梳理了這一快速發展的研究領域,重點關注LLMs在科學中的角色變遷與能力提升。我們以科學方法為框架,提出了一個基礎的三層級分類體系——工具(Tool)、分析者(Analyst)與科學家(Scientist),以刻畫其自主性遞增及其在科研生命周期中職責的演變。此外,我們還識別了若干關鍵挑戰與未來研究方向,如機器人自動化、自我改進以及倫理治理等。總體而言,本文旨在提供一個概念性架構與戰略性前瞻,以助力AI驅動下的科學發現,實現快速創新與負責任的發展并重。
大型語言模型(LLMs)的持續進步催生出一系列新興能力,如規劃(Huang 等,2024b)、復雜推理(Huang 和 Chang,2023)以及指令遵循(Qin 等,2024)。此外,將代理型工作流(agentic workflows)整合進來,使得基于LLM的系統能夠執行更高級的功能,包括網頁導航(He 等,2024)、工具使用(Qu 等,2025)、代碼執行(Jiang 等,2024a)和數據分析(Sun 等,2024)。在科學發現領域,這種高級LLM能力與代理機制的融合正推動一場深刻的范式轉變。該轉變不僅有望加速科研生命周期,還將從根本上改變人類研究者與人工智能在知識探索中的協作關系。 然而,LLM應用的迅猛擴展及其在科學發現中所引發的范式變化,也帶來了諸多挑戰。LLM演化速度之快,以及其與復雜科研流程的深度融合,使得系統性的評估愈發困難,因此亟需結構化的概念框架來整理當前認知,并指引未來發展方向。盡管現有綜述已對LLM在多個科學領域的應用進行了有價值的概覽(Zhang 等,2024, 2025),或對科學中的特定AI技術進行了分類(Luo 等,2025;Reddy 和 Shojaee,2025),但它們往往聚焦于特定學科的應用,或僅呈現LLM能力的靜態快照。因此,這些綜述可能忽略了LLM自主性不斷增強的關鍵趨勢,以及其在整個科學方法流程中角色的動態演變,從而未能充分揭示其影響力的廣度與未來向更高獨立性演進的潛力。 為系統描繪這一演進圖景,并彌補上述空白,本文的分析框架以經典科學方法的六個階段(見圖1)為基礎(Popper,1935;Kuhn,1962):(1)觀察與問題定義,(2)假設提出,(3)實驗與數據收集,(4)數據分析與解釋,(5)得出結論,(6)迭代與優化。我們對LLM在這些階段中的應用進行分析,發現一個顯著趨勢:LLM正從在單一階段執行離散的、面向任務的功能,逐步發展為能貫穿多個階段的復雜代理型系統。值得注意的是,最新研究(Schmidgall 等,2025;Yamada 等,2025)正在探索幾乎能夠自主完成整個科學流程的LLM系統。 為了更有效地捕捉與描述LLM能力與獨立性日益增強的演化路徑,本文提出一個基礎性的三層級分類框架(見表1),用于定義LLM在科學發現中的不同角色:(i)工具型LLM(LLM as Tool):模型在直接監督下完成具體、明確的任務,輔助人類研究者;(ii)分析者型LLM(LLM as Analyst):模型具備更高的自主性,能夠處理復雜信息、執行分析并提供洞見,減少人工干預;(iii)科學家型LLM(LLM as Scientist):代表更高級階段的系統,能夠自主執行從假設構建到結果解釋及提出后續研究方向等主要科研流程。 在此分類體系基礎上,我們進一步識別出當前研究格局中的關鍵空白,并提出未來發展的核心挑戰與方向,包括:(1)實現無需人工干預的全自主科學發現流程;(2)將機器人自動化引入實驗室,實現物理世界的交互與操作;(3)基于以往研究經驗實現持續的自我改進與適應;(4)提升LLM主導科研的透明度與可解釋性;(5)建立符合倫理與社會價值的治理機制。解決上述多維挑戰,將是實現AI作為科學探索變革性合作伙伴的關鍵。
本文聚焦于LLM系統在科學發現中的應用,特別是其不同層級的自主性。雖然我們承認LLM在科學中的廣泛影響,但本文有意縮小研究范圍,不涵蓋通用科學LLM或面向特定領域的知識獲取與推理模型——這類內容已在現有綜述中有較充分的探討(Zhang 等,2024, 2025)。本文其余部分結構如下:第2節介紹我們的分類框架及其與科學方法的對應關系;第3節分析“工具型LLM”的應用,按科學方法各階段分類;第4節探討“分析者型LLM”的應用,按科學領域劃分;第5節聚焦于“科學家型LLM”的研究,分析其創意生成與優化機制;第6節討論未來面臨的挑戰與發展方向。
機器人視覺正持續受益于多模態融合技術與視覺-語言模型(Vision-Language Models, VLMs)的迅速發展。本文系統回顧了多模態融合技術在一系列關鍵機器人視覺任務中的應用,包括語義場景理解、同步定位與地圖構建(SLAM)、三維目標檢測、導航與定位以及機器人操作控制。 我們將基于大型語言模型(LLMs)的視覺-語言模型與傳統多模態融合方法進行了對比,分析了它們在性能、適用性、限制及協同潛力等方面的優劣。與此同時,本文深入剖析了當前常用的數據集,評估其在現實機器人場景中的適用性與挑戰。 我們進一步識別出該領域面臨的若干關鍵研究難題,如跨模態對齊、高效融合策略、實時部署能力以及領域自適應問題。為推動研究發展,本文提出若干未來研究方向,包括:用于魯棒多模態表示的自監督學習、基于Transformer的融合架構以及可擴展的多模態感知框架。 通過全面的文獻回顧、系統對比分析與前瞻性探討,本文為推動機器人視覺領域中的多模態感知與交互提供了有價值的參考。 完整論文列表可訪問://github.com/Xiaofeng-Han-Res/MF-RV
大型語言模型(LLMs)正在徹底改變生物信息學領域,為 DNA、RNA、蛋白質和單細胞數據的高級分析提供了強大支持。本綜述系統回顧了最新進展,重點關注基因組序列建模、RNA 結構預測、蛋白質功能推斷和單細胞轉錄組學。同時,我們還討論了數據稀缺性、計算復雜性和跨組學整合等關鍵挑戰,并探索了未來方向,如多模態學習、混合人工智能模型和臨床應用。通過提供全面的視角,本文強調了大型語言模型在推動生物信息學和精準醫學創新方面的變革潛力。1 引言生物信息學是一個跨學科領域,結合了生物學、計算機科學和信息技術,用于分析和解釋復雜的生物數據(Abdi 等,2024)。近年來,大型語言模型(LLMs)在自然語言處理(NLP)領域取得了顯著進展,其應用涵蓋了廣泛的任務(Min 等,2023;Raiaan 等,2024)。然而,生物數據的性質及相關任務與文本數據存在顯著差異,帶來了獨特的挑戰。如何準確且精確地處理生物醫學數據,以有效構建適合 LLMs 的特征和嵌入,是一個持續存在的挑戰,需要創新的解決方案。在生物學領域,任務具有高度的多樣性和特異性。這些任務包括 DNA 序列的功能預測與生成、RNA 結構與功能的預測、蛋白質結構的預測與設計,以及單細胞數據的分析(涵蓋降維、聚類、細胞注釋和發育軌跡分析等)。研究人員對利用 LLMs 推動生物信息學和計算生物學的發展越來越感興趣,并取得了顯著成果。如圖 1 所示,生物信息學中大型模型的開發、訓練和應用正在快速增長。盡管如此,針對這些多樣化任務的不同方法尚未得到系統總結和分析,這為全面回顧和綜合提供了機會。本綜述的組織結構:本文回顧了 LLMs 在生物信息學中的最新進展。我們首先介紹基本概念(§2),涵蓋關鍵架構及其與生物數據的相關性。接下來,表 1 展示了生物信息學中具有代表性的 LLMs。隨后,我們探討了 LLMs 在 DNA 與基因組學(§3)、RNA(§4)、蛋白質(§5)和單細胞分析(§6)中的創新應用。最后,我們討論了關鍵挑戰(§7.1)并提出了未來方向(§7.2),強調多模態學習、混合人工智能模型和臨床應用。總結部分,我們分析了本綜述的局限性,指出了需要進一步探索的領域,以全面把握 LLMs 在生物信息學中的發展動態。
具身多智能體系統(EMAS)因其在物流、機器人等領域解決復雜現實問題的潛力,吸引了越來越多的關注。近期基礎模型的進展為生成型智能體提供了更豐富的溝通能力和自適應問題解決能力,開辟了新的方向。本綜述系統性地探討了EMAS如何從這些生成型能力中受益。我們提出了一個分類法,通過系統架構和具身方式對EMAS進行分類,重點強調協作如何跨越物理和虛擬環境。接著,我們分析了感知、規劃、溝通和反饋等核心構件,展示了生成技術如何增強系統的魯棒性和靈活性。通過具體實例,我們展示了將基礎模型集成到具身多智能體框架中的變革性影響。最后,我們討論了挑戰和未來發展方向,強調了EMAS在重塑人工智能驅動協作領域的巨大潛力。
具身多智能體系統(EMAS)因其在智能交通、物流和制造等領域的巨大潛力,吸引了越來越多的關注 [YJ+13, IS+18]。通過將物理具身(從自動駕駛車輛到機器人操作臂)與多智能體系統(MAS)[DKJ18] 集成,EMAS 提供了一種去中心化、協作的方法,能夠高效地處理復雜任務。盡管這些優勢顯而易見,但設計和實現有效的 EMAS 仍然是一項非凡的挑戰,通常需要對控制論的專業知識、廣泛的訓練數據以及精心設計的強化學習范式 [LB08, OD23]。 在傳統的 MAS 中,智能體通過分配責任、共享狀態信息并共同適應動態環境來協作 [DKJ18]。雖然這些原則在某些特定領域取得了顯著成功,但傳統方法在以下方面面臨關鍵的局限性:難以推廣到新任務 [MS+22],難以擴展到大規模的智能體群體 [CTE+22],以及應對突發環境變化 [WR04]。這些方法通常依賴于狹窄訓練的模型,可能表現脆弱或僅限于特定領域 [YZ+23]。這些不足凸顯了需要更加靈活和穩健的解決方案的緊迫性,這些解決方案能夠在開放式和快速變化的具身場景中蓬勃發展。 近期基礎模型(FMs,例如大型語言模型、大型模型或視覺語言模型(VLMs))[ZLL+24] 的突破為推進 MAS 向更加自適應和生成行為的發展開辟了新的途徑。通過為智能體提供自然語言能力、情境推理以及生成新解決方案的能力,基于基礎模型的 MAS 超越了純信號驅動或強化學習框架中固有的局限性 [GCW+24, CLH+24, LP+24]。這些“生成型智能體”能夠以語義豐富的方式進行溝通,與人類級別的流暢度協作,并能夠迅速應對突發挑戰,調整策略。因此,基于 FM 的智能體可能會徹底改變多智能體協作的方式——無論是在由具身設備組成的物理空間,還是在智能體共享抽象知識和任務的虛擬空間中。 在此背景下,EMAS 領域將能夠從這些 FM 方面的最新進展中獲益。通過將物理具身與生成型多模態智能結合,未來的系統可能會采用更廣泛的設計空間,整合復雜的感知、高級語言和視覺推理能力,以及自適應決策能力。然而,現有文獻中關于具身 AI 和多智能體系統的綜述通常將這些領域視為孤立的,未能在它們的交集處進行系統性的探討 [IS+18, DYT+22, GCW+24, MS+24, HRS24]。基于 FM 的生成型智能體如何最好地融入 EMAS 的系統化視角仍在不斷發展中。 本綜述旨在提供對生成型多智能體協作在具身 AI 中現狀的全面和結構化的分析,如圖 1 所示。首先,在第 2 節中,我們提出了一種分類法,根據模型數量和具身類型對現有的 EMAS 解決方案進行分類,強調協作如何在物理智能體和純粹虛擬語義環境中產生。接下來,在第 3 節中,我們探討了多智能體協作的主要構建塊——系統感知、規劃、溝通和反饋,并分析了如何設計這些組件以利用基于 FM 的生成能力。超越理論視角,在第 4 節中,我們深入探討了實踐應用,展示了生成型多智能體協作如何增強不同具身場景中的功能。根據我們的了解,這是首次系統性地探討 MAS、具身 AI 和基礎模型的融合。最后,在第 5 節中,我們總結了開放的研究挑戰,勾畫了關鍵的未來發展方向,并討論了 EMAS 對更廣泛的 AI 和機器人領域的潛在影響。我們的目標是通過呈現這個迅速發展的領域的整體概述,來為研究人員、從業人員和利益相關者提供信息并激發靈感。
在前一節中概述的關鍵挑戰和機遇的基礎上,本節介紹了具身多智能體系統(EMAS)中的協作架構,如圖 2 所示。特別地,我們探討了生成型多智能體系統如何利用外部協作(跨多個具身實體)或內部協作(在單一具身實體內多個基礎模型之間)。我們還涵蓋了結合這些策略的混合方法,以滿足多樣化的系統需求。我們的目標是提供一種結構化的理解,說明如何協調多智能體協作,以最大化適應性、可擴展性和任務一致性,尤其是在與基礎模型(FM)集成時。
在多個具身實體之間展開的協作場景中,我們稱之為外部協作,智能體在物理或虛擬環境中互動,以實現共享的目標。借鑒長期以來的多機器人和傳統多智能體系統(MAS)文獻,外部協作可以通過集中式或去中心化策略組織。這些方法在可擴展性、通信開銷以及全局控制與局部控制之間存在不同的權衡。集中式架構 在集中式策略框架中,單一的統一模型控制多個機器人或智能體,提供集中式的任務分配和決策制定。該集中模型根據智能體的能力和系統目標分配任務,通過提供全局視角確保智能體之間的協調。已有研究探索了基于語言的任務分配方法 [LTW+24, OA+24, CYZ+24] 和基于代碼的任務分配方法 [KVM24, ZQW+24]。 集中式模型還在決策制定中發揮關鍵作用,通過整合來自所有智能體的信息來做出最終決策,確保一致性。例如,[YKC23] 使用集中式模型來確定導航目標,[TXL+20] 使用它來進行基于 3D-CNN-LSTM 的互動問答,[GAZ+24] 使用它在多機器人系統中通過引導領導機器人行動來解決死鎖問題。 集中控制策略通過使用單一模型進行任務分配和決策制定來確保協調。其優勢包括任務的最優分配和一致的決策。然而,它可能受到系統復雜性、高計算需求以及在大規模或動態環境中的可擴展性問題的限制。
在去中心化策略中,每個模型獨立控制其相應的具身實體,從而提供更大的靈活性和可擴展性。早期的研究使用強化學習進行去中心化控制,但基礎模型(FM)的興起使得智能體能夠自主處理多樣化的任務 [CJ+24],形成了更為先進的去中心化系統。 基礎模型通過利用推理能力來增強去中心化系統,基于局部部分觀察來改善個體決策。例如,[ZWL+24] 利用世界模型來輔助多智能體規劃,在該模型中,每個個體通過世界模型預測其他智能體的行為,并推斷自己的計劃。類似地,[AF+23] 引入了一個輔助的心智理論推理基礎模型來解釋合作伙伴智能體的行動和需求,從而支持個體決策。 此外,憑借基礎模型的推理和通信能力,基于FM的智能體表現出涌現的社交性。[CJ+23] 發現,當沒有明確指導采用哪種策略時,FM驅動的智能體主要遵循平均策略,這代表了智能體之間的一種平等主義組織結構。其他研究 [GHL+24, CJ+24] 強調了團隊中更為結構化角色的潛在好處。這表明,類似于人類的社會結構,FM智能體可以表現出涌現行為,通過適應組織框架來優化協作,從而增強它們在處理復雜任務時的集體能力。
外在協作涉及多個機器人和具身實體之間的合作,而內在協作則發生在單一系統的內部結構中,該系統可能包含多個基礎模型(FM)。這一概念與最近推動的各個FM模塊之間的協作工作流程密切相關,這些模塊各自專注于不同的角色,共同處理日益復雜的任務。這樣的內部協調擴展了傳統的多智能體協調概念,側重于在單一具身體內進行集中的決策。 在這一工作流程中,每個FM承擔特定的功能或角色,共同完成任務。研究已將這一范式應用于具身學習系統,例如 [QZL+24],該系統使用規劃者、部分處理器和執行者等模塊來解決Minecraft沙盒中的任務,和 [SSY+24],它將任務分解為觀察者、規劃者和執行者角色。LLaMAR [NO+24] 還采用了計劃-行動-糾正-驗證框架進行自我修正,無需預言機或模擬器。 內在協作可以通過提高規劃準確性、安全性和適應性來提升系統功能。例如,[LY+23] 使用基于FM的快思維和慢思維進行協作計劃生成和評估,而LLaMAC [ZMR+23] 則采用多個批評者和評估者來提供反饋并提高魯棒性。
在許多現實世界的應用中,嚴格區分外在協作和內在協作既不現實也沒有優勢。因此,混合協作架構結合了這些策略,利用了集中式、去中心化和內部FM工作流程的優勢。 隨著具身任務復雜性的增加,混合不同協作層次的靈活性——無論是在機器人之間,還是在智能體的內部結構中——變得越來越有價值。 內在協作通過模塊化FM增強模型能力,并且可以應用于集中式和去中心化系統。例如,CoELA [ZDS+24] 使用五個模塊——感知、記憶、通信、規劃和執行——而 [YPY+24] 為去中心化機器人協作構建了具有觀察、記憶和規劃模塊的智能體。集中式模型也可以使用模塊化FM,例如 [WTL+24],它使用任務和行動FM進行任務分配。 集中式和去中心化策略可以結合使用,不同階段的任務可以采用不同的方法。受到多智能體強化學習(MARL)中的集中訓練與去中心化執行(CTDE)框架的啟發,[CYZ+24] 和 [ZC+24] 提出了集中規劃與去中心化執行的方案,其中全球規劃指導任務執行,最大化全球監督與地方自治之間的協同效應。 通過展示這些不同的架構,我們闡明了實踐者如何在不同粒度和控制層級上有效地協調EMAS中的多智能體協作。下一節將基于這一架構視角,探討如何設計關鍵的系統組件——感知、規劃、通信和反饋——以利用基于FM的生成能力,進一步提升多智能體協作的魯棒性和適應性。
在第二節中,我們從結構層面探討了如何協調多智能體協作,接下來我們將轉向推動具身智能體之間有效團隊合作的功能性構建模塊。具體來說,我們重點介紹感知、規劃、通信和反饋機制如何被設計來利用基礎模型(FM)的生成能力。通過聚焦于這些關鍵模塊,我們展示了EMAS解決方案如何更加穩健地解讀物理環境、制定并適應計劃、交換信息,并從自身行為以及環境中迭代學習。這種方法補充了前述的協作架構,提供了一個更細化的視角,以促進具身智能體之間的動態和上下文感知協作。
盡管生成模型可以從文本和視覺中獲取語義知識,但具身智能體必須主動感知并解讀物理世界。這需要處理三維結構、動態條件和實時互動 [LCB+24]。因此,感知模塊至關重要,它將環境的詳細特征傳遞給后續的模型,確保生成能力植根于具體的上下文中 [PH+24]。
向FM提供物理上下文的最簡單方法是提供環境的口頭描述。盡管這些提示可以手動編寫,但許多方法使用自動化工具增強語言描述。例如,一些研究 [MJ+24, CZR+23] 使用視覺模型來檢測和描述物體,而其他研究 [BCF+23, HW+23] 則利用可操作性學習來豐富FM對物體在物理環境中如何被操作的理解。除了被動接收信息,最近的工作使智能體能夠決定何時以及觀察何種類型的信息,從而促進主動感知。例如,[QZL+24] 允許FM查詢經過微調的模型,獲取環境細節;這些響應逐步構建場景描述。
在多智能體系統中,協作感知旨在融合來自不同智能體的互補傳感輸入,從而提升整體性能 [YYZ+23]。在自動駕駛或無人機編隊中,這通常通過傳感器級的數據共享或輸出級融合實現 [SRC24]。在基于FM的系統中,協作智能體可以通過聚合每個智能體的本地地圖或視覺數據,共同構建環境的全局記憶。例如,[YKC23] 融合了來自多個智能體RGBD輸入的語義地圖,[TXL+20] 使用每個智能體觀察的3D重建形成共享環境的整體3D狀態和語義記憶。
規劃是多智能體具身系統的核心模塊,使得智能體能夠基于狀態、目標和個體能力進行戰略部署。有效的規劃對于任務分配、協調以及無縫整合生成FM的能力至關重要。
規劃方法通常采用基于語言或基于代碼的格式。基于語言的規劃使用自然語言引導任務流,具有直觀性和易適應性,尤其是在先進FM的出現之后 [MJ+24, YKC23]。相比之下,基于代碼的方法利用結構化編程或領域特定符號(例如PDDL)來實現更高的精確度。[KVM24] 使用Python代碼框架來描述整體任務流程,[ZQW+24] 將任務轉換為PDDL問題,以便分配給多個機器人。
除了個體決策外,多智能體協作還要求達成共識、解決沖突和共享資源。在集中式系統中,單一模型通常負責分配子任務。例如,[LTW+24] 根據每個智能體的能力生成行動列表,[OA+24] 集成FM和線性規劃來解決任務劃分,[CYZ+24] 則利用“機器人簡歷”來進行FM驅動的任務分配討論。在去中心化系統中,智能體直接溝通以優化集體計劃,并通過強大的信息交換得到支持,這將在下一小節中進一步探討。
通信是MAS的核心,使得智能體能夠共享情況更新、協調任務并達成共識。與傳統方法需要繁瑣的通信協議設計不同,生成智能體可以利用FM的零-shot語言生成能力,降低了構建高效通信接口的復雜度。 參考 [SWJ+22],我們將具身AI中的多生成智能體通信模式分為三種主要結構:
具身任務復雜且不確定,因此反饋機制對智能體改進至關重要。反饋使智能體能夠調整和優化行為,允許它們根據當前狀態、環境變化或外部指導進行持續學習。
系統反饋是指在采取行動之前由系統內部生成的信息。這涉及到智能體或集中模型重新審視其初始計劃,以識別缺陷或潛在改進之處。多個研究 [LZD+24, CYZ+24, ZMR+23] 實現了任務生成后的多智能體討論階段,通過同行反饋完善行動列表。[CAD+24] 和 [ZQW+24] 使用FM檢查器來驗證基于代碼的計劃,確保語法正確性。同時,[ZYB+24] 提出了優勢函數來評估并迭代優化計劃,[LY+23] 使用FM來預測計劃結果,隨后通過另一個FM評估計劃質量,從而推動迭代改進。
環境反饋發生在執行物理(或模擬)世界中的行動后。許多研究記錄現實世界的結果以指導未來決策。例如,[LTW+24] 和 [YPY+24] 將行動結果存儲在記憶中,以便未來規劃參考,而 [QZL+24] 和 [NO+24] 則評估失敗的根本原因并相應調整行動計劃。此外,多智能體的組織結構可以在任務執行過程中根據環境信號重新配置。[CSZ+23] 動態更新角色,[GHL+24] 使用FM批評者來評估智能體表現,甚至重新組織領導角色。
外部人類指導可以提供細致的干預和戰略方向,這是純自動化系統無法實現的。例如,[PL+23] 識別模糊或不可行的任務指令,要求人類提供幫助,而 [WHK24] 和 [RDB+23] 則結合了符合預測來衡量任務的不確定性并觸發人類幫助請求。除了請求幫助,[CK+23] 和 [SH+24] 允許人類操作者通過口頭指令實時調整機器人的動作,從而提高任務成功率。 總之,感知、規劃、通信和反饋成為將高層次協作架構轉化為實際生成多智能體解決方案的基礎支柱。無論智能體是通過分布式配置進行外在協作,還是通過單一具身內部的多個FM進行內在協作,強大的支持模塊都確保了在現實環境中的適應性和魯棒性。 下一節將深入探討具體的應用領域,展示這些功能模塊如何協同工作以應對多樣的具身任務。通過將架構原理(第2節)與模塊化功能結合,并將其植根于實際場景,我們旨在提供一個全面的視角,展示如何在EMAS中有效實現生成多智能體協作。
在前面的架構和功能模塊的基礎上,本節探討了生成式多智能體協作如何從受控的仿真環境過渡到現實世界應用。盡管許多進展是在虛擬平臺上驗證的,但這些仿真洞察為解決智能交通、家庭機器人學和具身問答等復雜問題奠定了基礎。
前面的部分介紹了多智能體協作如何在結構和功能上得到啟用。現在,仿真環境作為一個關鍵層次,用于測試這些設計,使研究人員能夠系統地改進智能體交互,而無需承擔現實世界操作的成本或風險。網格世界范式 網格世界具有基于單元格的結構,重點是決策制定和路徑規劃,同時抽象掉了物理細節。通過采用基于FM的翻譯和檢查框架,[CAD+24] 改進了多智能體在網格任務中的表現,[ZMR+23] 引入了反饋機制來增強網格運輸任務的表現。[CAZ+24] 進一步評估了在網格設置中各種基于FM的多機器人架構,強調了這些簡化的世界如何幫助快速驗證協作設計。基于游戲的協作場景 像《Overcooked》這樣的基于游戲的平臺提供了明確的規則、時間限制和智能體間強制協調的任務 [YJ+24, AF+23, ZYB+24]。FM協調還擴展到其他結構化游戲,如《Hanabi》和《Collab Games》,展示了生成式方法如何適應不同的基于團隊的挑戰。對于更具開放性的任務,《Minecraft》 [WXJ+23, PC+24] 推動了更大環境和無盡目標的應用。最近的研究 [PC+24, ZC+24, QZL+24] 聚焦于協作探索,而其他研究 [CJ+24, CSZ+23, ZMC+24] 則解決了資源收集或結構構建的問題。高級3D環境與機器人仿真 現實感仿真器旨在更緊密地模仿現實生活中的復雜性。AI2-THOR [KM+17] 提供了精細渲染的室內場景,并用于多智能體家庭任務 [KVM24, WHK24, LLG+22, SSY+24]。類似地,VirtualHomeSocial [GHL+24]、BEHAVIOR-1K [LTW+24] 和基于Habitat的基準平臺 [CYZ+24] 使智能體能夠在物體操作和導航中發展協作策略。這些平臺幫助架起了算法開發與物理部署之間的橋梁。
憑借驗證過的架構和強大的功能模塊,研究人員已開始面臨終極挑戰:將仿真學習轉化為可行的物理部署。從智能交通到家庭機器人學,以下小節展示了生成式多智能體協作如何適應現實世界的需求,突顯了這些系統的成熟度和面臨的挑戰。智能交通與配送 智能交通中的多智能體協作涵蓋了無人機/地面無人車(UAV/UGV)的協調任務,如貨物配送和環境監測。早期的研究主要利用多智能體強化學習(MARL),但現在基于FM的解決方案開始出現。[GW+24] 探討了基于FM的初步任務分配用于監視任務,[WTL+24] 將生成模型應用于跟蹤目標分配,表明基于語言的策略能夠迅速適應動態場景。家庭輔助機器人 許多3D仿真基準平臺,包括AI2-THOR和Habitat,最初是為了模擬家庭環境而設計的。家庭任務,如“清理桌子”或執行指令“打開書桌和地板燈并看電視”,要求具備強大的感知、規劃和通信能力。研究 [KVM24, WHK24, LGZL24, MJ+24, ZYB+24] 展示了多個智能體如何共享角色、解讀指令并劃分復雜任務。生成模型進一步簡化了協調,使得任務分配更具適應性,并豐富了人機交互。超越探索:具身問答(EQA) 具身問答(EQA)涉及在3D空間中的主動探索和推理。與強調物理交互的任務不同,EQA側重于信息的收集與解讀,通常需要對空間布局、物體關系或事件歷史有深刻的理解。多智能體版本通常利用基于團隊的感知來建立全局記憶和達成共識 [TGG+23, TXL+20, PD+24]。[CZR+23] 將專職功能的智能體定位在關鍵位置進行信息貢獻,展示了如何通過FM驅動的協作將觀察結果整合成連貫的答案。 本節通過強調這些仿真基準平臺和現實世界應用,突出了EMAS中的一個關鍵發展軌跡:首先通過結構化的測試平臺進行概念驗證,然后將解決方案過渡到高風險領域。既然已經明確了生成式多智能體協作可以部署的場所和方式,接下來的部分將討論剩余的挑戰,并勾畫出EMAS研究的前景。
隨著具身人工智能(AI)系統中多智能體協作領域的不斷發展,仍然存在一些開放的挑戰和有前景的未來方向。盡管取得了不少進展,但仍然存在諸多現實世界的障礙,限制了具身系統的應用。本節識別了關鍵挑戰,并概述了潛在的探索和創新領域,以應對這些問題。
一個主要的挑戰是缺乏標準化的評估標準。盡管在單一智能體系統和個體代理的基準測試方面取得了顯著進展,但對于具身多智能體協作的評估仍存在明顯的空白。現有的基準測試通常專注于特定任務的度量,未能充分考慮多智能體環境中互動、協調和涌現行為的復雜性。因此,亟需建立統一的評估標準來全面評估多智能體系統的性能,包括可擴展性、適應性、魯棒性和集體智能等因素。基準測試的發展對于確保不同領域的一致性至關重要,并能夠實現不同多智能體框架之間的有意義比較。
多智能體協作的另一個挑戰是數據稀缺性和異質性。收集具有不同物理特性和能力的多種系統的大規模、高質量數據是一項艱巨的任務。硬件、傳感器和環境交互的差異導致了數據的不一致性,這使得跨系統和任務的泛化變得困難。現實世界中可用的數據可能有限,阻礙了有效的訓練和評估。此外,由于實際限制,多數多智能體協作的研究是在仿真環境中進行的,只有少數研究采用了現實世界數據。因此,亟需建立標準化的數據收集方法,并且需要創新的方法來彌合仿真與現實應用之間的差距,連接理論與現實。
基礎模型的發展,尤其是面向具身智能體的基礎模型,預計將成為多智能體協作領域的一項突破性進展。目前,生成式智能體主要依賴FM來執行復雜任務,下一步自然是構建專門為具身系統設計的基礎模型。這些模型將作為多智能體協作的核心框架,整合感知、決策和行動。近期的工作,如RT-1 [BB+22] 和RDT [LW+24],在適應性和可擴展性系統的機器人基礎模型方面取得了顯著進展。基礎模型的演進將為更無縫的多智能體協作奠定基礎,使得智能體能夠在動態環境中進行全面的協作和工作。然而,將單智能體FM擴展到多智能體系統仍然面臨挑戰,這需要新的架構和方法。
目前,參與協作的智能體數量較少。隨著智能體數量的增加,計算、通信、協調、任務分配和資源管理的復雜性和難度也將增加。此外,在大規模多智能體系統中保持穩定性和魯棒性需要復雜的協調與調度技術。針對可擴展架構、有效的通信協議和協作策略的研究將是解鎖大規模具身系統全部潛力的關鍵。優化智能體工作流程和模式的發展對于在資源意識下擴展這些系統至關重要。
將機器人集成到以人為中心的環境中仍然是一個重要話題。在許多應用中,多智能體系統不僅需要相互協作,還需要與人類協作。確保機器人能夠在動態和非結構化的環境中與人類無縫合作,需要開發考慮人類認知能力、偏好和局限性的機器人-人類交互(HRI)協議。人機協作引入了額外的挑戰,如安全性、適應性和信任性。在人機團隊合作、共享自主性和直觀接口方面的研究將對促進機器人與人類之間的安全、富有成效的協作至關重要,特別是在醫療保健、工業自動化和服務機器人領域。
當前的具身多智能體協作方法,尤其是涉及FM的系統,通常缺乏堅實的理論基礎。盡管在開發實際系統方面取得了重大進展,但關于支配智能體交互的潛在原理和集體智能的理解仍然非常有限。對動態協作的深入理論探索,包括通信、協調和共識的作用,是推動該領域發展的關鍵。此外,具身多智能體系統和模型的可靠性與可解釋性在安全關鍵型環境中尤為重要,如自動駕駛和智能鐵路等應用場景。 6 結論
本綜述調查了一個具有潛力的研究領域——具身系統中的多智能體協作,重點探討了如何將生成式基礎模型(FM)集成到具身多智能體系統中。我們強調了基于FM的生成式智能體如何促進動態協作和涌現智能,并從內在和外在兩個角度系統地探索了多智能體協作架構,重點關注感知、規劃、通信和反饋機制等關鍵技術。通過研究從網格世界探索到家庭助理等多種應用場景,展示了基于FM的具身多智能體系統(EMAS)解決復雜問題的潛力,并討論了該領域快速發展過程中所面臨的挑戰和機遇。我們希望本綜述能為研究人員、從業者和相關方提供寶貴的參考,幫助他們全面了解當前的研究現狀,并激發更多先進且可擴展的解決方案,以實現具身多智能體AI的動態無縫協作。
近年來,大規模語言模型(LLMs)的快速發展已經徹底改變了科學研究的格局,為研究周期的各個階段提供了前所未有的支持。本文呈現了首個系統性綜述,專門探討大規模語言模型如何革新科學研究過程。我們分析了LLMs在四個關鍵研究階段中所發揮的獨特作用:假設發現、實驗規劃與實施、科學寫作以及同行評審。我們的綜述全面展示了任務特定的方法論和評估基準。通過識別當前面臨的挑戰并提出未來的研究方向,本綜述不僅突出了LLMs的變革潛力,還旨在激發并指導研究人員和實踐者利用LLMs推動科學探究的發展。相關資源可在以下倉庫訪問://github.com/du-nlp-lab/LLM4SR。
“如果我看得更遠,那是因為我站在巨人的肩膀上。” —— 艾薩克·牛頓科學研究流程是啟蒙時代系統性探究成就的見證 [17, 58, 58]。在這一傳統范式中,科學研究涉及一系列明確的步驟:研究人員首先收集背景知識,提出假設,設計并執行實驗,收集和分析數據,最后通過經過同行評審的手稿報告發現。這一循環過程促進了現代科學和技術的突破性進展,但仍受到人類研究人員所固有的創造力、專業知識、有限時間和資源的制約。幾十年來,科學界一直在努力通過自動化科學研究的各個方面來增強這一過程,旨在提高科學家的生產力。早期的計算機輔助研究可以追溯到1970年代,出現了如自動數學家(Automated Mathematician)[74, 75] 和 BACON [71] 等系統,這些系統展示了機器在定理生成和經驗法則識別等專門研究任務中的潛力。更近期,AlphaFold [62] 和 OpenFold [4] 等系統則展示了在某些特定研究任務中的開創性努力,顯著加速了相關領域的科學進展,提升速度達到數千倍。然而,直到基礎模型的出現和最近大規模語言模型(LLMs)[2, 154] 的爆發,跨多個研究領域的全面AI輔助才成為現實 [190]。近年來,LLMs取得了顯著的進展,改變了AI和自然語言處理(NLP)等多個領域。這些模型,如GPT-4 [2] 和LLaMA [154],在理解、生成和與人類語言互動方面設立了新的基準。通過大規模數據集和創新架構的支持,這些模型的能力已經超越了傳統的NLP任務,涉及更復雜和領域特定的挑戰。尤其是LLMs處理海量數據、生成類人文本以及在復雜決策中提供支持的能力,已經引起了科學界的廣泛關注 [92, 141]。這些突破表明,LLMs有潛力徹底革新科學研究的開展、記錄和評估方式 [156, 165, 174]。在這篇綜述中,我們探討了LLMs當前在科學研究過程中各個階段的應用。具體來說,我們識別了LLMs展現出顯著潛力的四項任務。首先,我們探討它們在科學假設發現中的應用,LLMs利用現有知識和實驗觀察來提出新的研究思路。接下來,我們回顧它們在實驗規劃和實施中的貢獻,LLMs在優化實驗設計、自動化工作流程和數據分析方面發揮了重要作用。我們還涵蓋了LLMs在科學寫作中的應用,包括生成引用、相關工作部分,甚至起草整篇論文。最后,我們討論了LLMs在同行評審中的潛力,LLMs通過自動化評審和識別錯誤或不一致來支持對科學論文的評估。對于每項任務,我們提供了方法論、基準和評估方法的全面綜述。此外,本綜述還識別了每項任務中的局限性,并突出了需要改進的領域。通過分析LLMs在研究周期各階段的貢獻,本綜述旨在激發研究人員探索新興概念、開發評估指標,并設計創新方法,推動LLMs在研究工作流程中的有效整合。
與之前的專門研究相比,本綜述提供了更廣泛和更全面的視角,涉及LLMs在整個科學研究周期中的應用。例如,Zhang等人 [187] 綜述了超過260種LLM在各學科科學發現中的應用,主要關注模型架構和數據集等技術層面,未將其角色置于更廣泛的研究過程背景中。類似地,其他綜述通常采用更狹窄的范圍,考察LLMs在一般應用中的特定能力,如規劃 [55] 或自動化 [158],而非其在科學研究工作流程中的集中應用。此外,一些研究討論了與特定研究階段相關的一般方法,但并未專注于LLMs本身,如相關工作和引用文本生成 [89] 或同行評審過程 [33]。相比之下,本綜述整合了這些零散的觀點,提供了LLMs在科學工作流程中貢獻的整體分析,并突出了它們在應對現代研究多樣化和不斷發展的需求中的潛力。
如圖2所示,本綜述的結構如下: * §2 討論了LLMs在科學假設發現中的應用,概述了相關方法論和關鍵挑戰。 * §3 聚焦于實驗規劃和實施,重點介紹LLMs如何優化和自動化這些過程。 * §4 深入探討了自動化論文寫作,包括引用和相關工作生成。 * §5 探索了LLMs輔助的同行評審。 對于每個主題,本綜述的結尾部分總結了當前的挑戰和未來方向,以應對這一快速發展的領域。
在“LLMs用于科學假設發現”這一領域出現之前,最相關的前沿研究領域是“基于文獻的發現”和“歸納推理”。我們首先總結了這兩個相關領域的研究(作為歷史背景),然后總結了方法、基準、評估發展趨勢和重要進展,最后總結了發現任務中的主要挑戰。
使用LLMs生成新的科學假設是一個新興的研究課題,主要源自兩個相關的研究領域,即“基于文獻的發現”和“歸納推理”。
基于文獻的發現(LBD)最早由Swanson[151]提出。其核心思想是“知識可以是公開的,但尚未被發現,如果獨立創建的片段在邏輯上相關但從未被檢索、匯集和解釋。”因此,如何檢索可以匯集以創造新知識的公共知識仍然是一個挑戰。Swanson[151]提出了LBD的經典形式化模型,即“ABC”模型,其中兩個概念A和C被假設為通過某個中間概念B在論文中共同出現而相關聯。最近的工作使用了詞向量[155]或鏈接預測模型[152; 160; 171]來發現概念之間的鏈接以組成假設。然而,經典的LBD方法沒有建模人類科學家在構思過程中考慮的上下文,并且僅限于預測離散概念之間的成對關系[47]。為了克服這些限制,Wang等人[159]首次嘗試將LBD置于自然語言上下文中以約束生成空間,并使用生成的句子作為輸出,而不僅僅是像傳統LBD那樣預測關系。LBD的另一個局限性是長期以來被認為僅適用于非常特定、狹窄類型的假設[159]。然而,科學發現的最新進展表明,LBD可能具有更廣泛的應用范圍。特別是,Yang等人[174]和Yang等人[176]分別與社會學和化學研究人員進行了廣泛討論,發現大多數現有的社會學和化學發表的假設(而不僅僅是狹窄類型的假設)都可以用LBD模式表述。這可能表明未來在社會學和化學中發表的假設也可能來自現有知識的正確鏈接和關聯。
歸納推理是從特定的“觀察”中找到一個具有廣泛適用性的“規則”或“假設”[175]。例如,地心說、日心說和牛頓的萬有引力定律都是基于對恒星和行星運動的“觀察”提出的“規則”。科學發現是歸納推理的極端任務,其中每個“規則”都是一個新穎的科學發現。科學哲學界總結了歸納推理中“規則”的三個基本要求[113]:(1)“規則”不應與“觀察”相沖突;(2)“規則”應反映現實;(3)“規則”應呈現一個可以應用于比“特定”觀察更大范圍的通用模式,涵蓋觀察中不存在的新信息。之前的歸納推理研究主要由“歸納邏輯編程”社區進行[26],該社區使用形式語言和符號推理器。Yang等人[173]首次在NLP領域進行了生成性歸納推理的研究,即從特定的自然語言觀察中生成自然語言規則,并引入了科學哲學界對歸納推理的要求。受語言模型傾向于生成模糊且不具體規則的經驗啟發,他們提出了第四個要求:(4)“規則”應清晰且足夠詳細。第四個要求可能被科學哲學界忽視了,因為它太明顯了。受這些要求的啟發,Yang等人[173]設計了一種過度生成然后過濾的機制,利用語言模型先生成許多初步規則,然后過濾掉不符合要求的規則。隨后,開發了使用自我精煉代替過濾并使用更多推理步驟以獲得更好規則的方法[120, 163, 191, 194]。然而,這些工作試圖歸納的“規則”要么是已知知識,要么不是科學知識,而是合成的模式。Yang等人[174]首次嘗試將經典的歸納推理任務設置(發現已知/合成知識)擴展到真實的科學發現設置:利用LLMs從公開的網頁數據中自主發現新穎且有效的社會科學科學假設。具體來說,他們收集了關于社會科學概念的新聞、商業評論和維基百科頁面作為網頁數據來發現假設。Majumder等人[107, 108]進一步提出了“數據驅動發現”的概念,即利用網絡上的所有公共實驗數據(以及手頭的私人實驗數據)跨學科發現假設。他們的動機是,大量公開可用的實驗數據的潛力尚未得到充分利用,許多新穎的科學假設可以從現有數據中發現。
在科學發現的方法中,有一個明確的方法發展軌跡。我們首先介紹這一軌跡,然后探討其他方法。
總的來說,科學發現的這一方法發展軌跡可以被視為將更多關鍵組件納入方法中。表1總結了我們認為重要的關鍵組件,并指出每種方法是否包含這些組件。具體來說,它們是“靈感檢索策略”、“新穎性檢查器”、“有效性檢查器”、“清晰度檢查器”、“進化算法”、“利用多個靈感”、“假設排名”和“自動研究問題構建”。在這里,每個“關鍵組件”指的是已被證明對科學發現任務有效的詳細且獨特的方法論。我們排除了可能直觀上有幫助但尚不清楚如何從概念中提取特定方法對該任務有效的廣泛通用概念(例如工具使用)。接下來,我們介紹這些關鍵組件。對于每個關鍵組件,我們使用一到兩段文字進行簡要概述,總結其發展軌跡。本節中提到的每種方法的參考信息可以在表1中找到。靈感檢索策略。除了依賴背景知識外,基于文獻的發現(LBD)還促進了額外知識的檢索,作為提出新假設的靈感來源。SciMON[159]首次將LBD的概念引入發現任務,展示了新知識可以通過現有知識的鏈接組成。至關重要的是,靈感不應在之前已知與背景相關,或者至少不應以已知的方式與背景相關聯[176]。否則,假設將不會新穎。受經典LBD形式化中“ABC”模型的啟發,給定背景知識,SciMON檢索語義相似的知識、知識圖譜鄰居和引用圖譜鄰居作為靈感。具體來說,如果兩個知識的SentenceBERT[127]嵌入具有高余弦相似度,則它們被識別為“語義相似”;他們構建的知識圖譜遵循“[方法,用于,任務]”格式。ResearchAgent嚴格遵循“ABC”模型,構建概念圖,其中鏈接表示兩個連接的概念節點曾在同一篇論文中出現過。它檢索與背景概念在概念圖上連接的概念(概念共現)。Scideator基于語義匹配(語義學者API推薦)和概念匹配(包含相似概念的論文,同一主題、同一子領域和不同子領域)檢索靈感論文。SciPIP[164]從語義相似的知識(基于SentenceBERT)、概念共現和引用圖譜鄰居中檢索靈感。它提出了過濾方法,以過濾掉對概念共現檢索無用的概念。與選擇語義或引用鄰居作為靈感不同,SciAgents隨機抽樣另一個與背景概念在引用圖譜中通過長或短路徑連接的概念作為靈感。MOOSE[174]提出使用LLM選擇的靈感:給定研究背景和一些靈感候選者,并要求LLM從候選者中選擇靈感。然后MOOSE-Chem[176]也采用了這種方法。MOOSE-Chem假設在訓練了數億篇科學論文后,最先進的LLMs可能已經具備了一定的能力來識別背景知識的靈感以組成新知識的發現。MOOSE-Chem通過注釋2024年發表的51篇化學論文(這些論文僅在2024年在線提供)的背景、靈感和假設,分析了這一假設,并查看僅使用截至2023年的訓練數據的LLMs是否可以在僅給出背景的情況下檢索到注釋的靈感。他們的結果顯示檢索率非常高,表明這一假設可能基本正確。然后Nova也采用了LLM選擇的靈感,動機是利用LLM的內部知識來確定新想法的有用知識,應該能夠超越傳統的實體或關鍵詞檢索方法。反饋模塊。下一個關鍵組件是對生成的假設在新穎性、有效性和清晰度方面的迭代反饋。這些反饋首先由MOOSE提出,受歸納推理中對假設的要求啟發[113, 173]。這三個方面足夠客觀,可以給出反饋,并且每個方面對于一個好的假設都是必不可少的。
在本節中,我們介紹了與“主要軌跡”中的方法不同的方法(§2.3.1)。這些方法本身非常多樣化,專注于科學發現的不同方面。例如,Dong等人[30]嘗試使用GPT-4解決極具挑戰性的研究問題:“P是否等于NP”。他們提出了“蘇格拉底推理”,鼓勵LLMs遞歸地發現、解決和整合問題,同時促進自我評估和細化。他們的方法在嘗試證明一個極具挑戰性的現有假設時可能有用。IdeaSynth[118]是一個研究想法開發系統,將想法概念表示為畫布上的鏈接節點。其效果在一個人機交互場景中進行了調查。他們通過實驗室研究發現,使用IdeaSynth的人類參與者可以探索更多替代想法,并與使用強大LLM基線的參與者相比,擴展初始想法的細節。Liu等人[96]首次嘗試將基于文獻的發現和數據驅動發現統一起來。給定一組初始實驗結果,它檢索相關文獻并采用迭代細化方法,不斷改進假設以使其與實驗結果一致,并利用檢索到的文獻中的發現。Weng等人[167]提出了一個雙系統,包括CycleResearcher和CycleReviewer,其中CycleResearcher負責想法制定和論文寫作,CycleReviewer負責對撰寫的論文進行評分。雙系統具有協同作用,CycleReviewer的評分可以組成偏好數據來訓練CycleResearcher。雙系統僅專注于想法制定和論文寫作,跳過實驗規劃和實施。Li等人[80]提出了微調LLMs以成為更好的想法生成器,并引入了一個新穎的框架,采用兩階段方法結合監督微調(SFT)和可控強化學習(RL)。他們專注于可行性、新穎性和有效性維度。維度控制器能夠動態調整生成過程。
總的來說,自動化科學發現中的任務可以分為“基于文獻的發現”和“數據驅動發現”。研究人員分別為每個任務設計了不同的基準。
基于文獻的發現通常是關于連接現有出版物中的知識(片段)并將它們關聯起來以創造新知識。在這個過程中,起始知識來自研究背景。研究背景可以看作由兩個部分組成:(1)一個研究問題,和(2)一個背景調查,討論研究問題的最先進方法或知識。有了研究背景中的起始知識,其他要連接的知識通常是通過搜索現有出版物獲得的。這里的其他知識被稱為“靈感”[159, 174]。然后研究背景和檢索到的靈感被關聯起來以創建一個“假設”。 表2總結了基于文獻的發現基準,旨在實現新穎的科學發現。關鍵組件是研究問題、背景調查、靈感識別和假設。假設從“摘要”部分[159]、“方法論”部分[174, 176]或“未來工作”和“局限性”部分[68]收集。表2還包括數據集的大小(分析的論文數量)、論文的學科和論文的發表日期。
一些基準可以用于訓練,因為它們的大小較大[119, 159],而一些主要用于評估,因為它們由博士生注釋[68, 174, 176]。
Majumder等人[107]提出了“數據驅動發現”的概念。這里的“數據”指的是實驗結果。他們的動機是,鑒于大量(公開和私人的)現有實驗結果在線可用,LLMs可能能夠找到這些數據的一般模式,其中一般模式可能是一個新穎的研究假設。鑒于具體觀察與一般假設之間的關系,“數據驅動發現”與歸納推理任務非常相關,其中觀察空間是網絡上所有公開可用的實驗結果和手頭的私人實驗結果。DiscoveryBench[108]是第一個數據驅動發現基準。它包含從20多篇已發表論文中手動提取的264個發現任務和903個合成任務。任務的輸入包括一個研究問題和一組實驗數據。目標是回答研究問題,并提供一個可以由實驗數據支持的假設。它還引入了生成假設的結構化形式化,即假設應由三個部分組成:上下文、變量和關系。具體來說,假設是關于在上下文中兩個變量之間的關系。DiscoveryWorld[57]是第一個具有虛擬環境的發現基準。其主要動機有兩個:(1)真實世界的實驗成本高昂且需要大量領域專業知識;(2)從任務特定細節中抽象出來鼓勵開發更通用的發現方法。為了解決這些挑戰,它建立了一個虛擬環境,供代理發現假設。它包括120個不同的挑戰任務,其中假設反映了世界的真實模式。
科學發現任務的評估方法多種多樣。可以說,幾乎每篇提出新方法論的論文都使用了不同的評估方法。然而,它們的指標表現出顯著的交叉點,并且可以觀察到這些工作中評估方法的一些新興趨勢。評估標準的交叉點是“新穎性”、“有效性”、“清晰度”和“顯著性”。一些較少使用的評估標準包括“相關性”、“趣味性”和“有用性”。“有效性”的替代名稱是“可行性”。在許多情況下,它們可以互換使用。“有效性”指的是發現的科學知識是否準確反映客觀世界,而“可行性”關注工程發現的實用性。“有用性”是一種主觀評估,基于發現系統的目標是作為研究人員的副駕駛;因此,研究人員對其感知的有用性可能被認為是重要的。在評估者選擇方面,評估方法可以分為基于LLM的評估和基于專家的評估。LLM的直接評估在社會科學中顯示出與專家評估的高度一致性[174]。然而,在自然科學學科如化學中,LLMs被認為缺乏提供可靠評估的能力[146]。專家評估通常被認為是可靠的。然而,在化學等具有挑戰性的領域,即使是專家的直接評估也可能缺乏足夠的可靠性[176]。這是由于(1)學科的復雜性;(2)研究主題的微小變化可能需要完全不同的背景知識進行評估,而專家通常有專門的研究重點,可能無法涵蓋相對可靠評估所需的全部知識。基于參考的需要,評估方法可以分為直接評估和基于參考的評估。由于直接評估的可靠性問題,基于參考的評估作為一種替代方法[68, 108, 176],它計算生成假設中提到的關鍵組件與真實假設的匹配程度。此外,除了直接為生成的假設分配標量評估分數外,Si等人[141]提出了基于比較的評估,以緩解LLM直接評分評估的不足:要求LLM評估者不斷比較生成的假設對,直到可以進行排名。它可以在比較兩種方法生成的假設質量時使用,但可能無助于判斷假設的絕對質量。然而,最終的評估應僅通過真實(濕實驗)實驗進行。這給機器人技術和自動實驗實施領域帶來了挑戰。
Yang等人[174]首次證明了LLMs能夠生成新穎且有效的科學假設,并通過專家評估確認。他們找到三名社會科學博士生直接評估生成的社會科學假設的新穎性和有效性。然后Si等人[141]提供了第一個關于LLM生成假設的大規模專家評估,雇傭了100多名NLP研究人員。他們得出了一個統計學上顯著的結論,即LLM可以生成比人類研究人員更新穎但略遜于有效性的研究假設。然后Yang等人[176]表明,基于LLM的框架可以重新發現2024年發表在《自然》、《科學》或類似水平上的許多化學和材料科學假設的主要創新(這些假設僅在2024年在線提供),使用僅在2023年10月之前的數據訓練的LLMs。
挑戰。科學發現是找到尚未通過濕實驗驗證的新知識。在某些學科如化學中,即使是專家對生成的新穎假設的評估也不夠可靠。這導致需要自動進行實驗以驗證大規模機器生成的假設。此外,當前的科學發現方法高度依賴現有可用LLMs的能力。在通用任務上能力更強的LLMs通常也能導致發現質量更好的假設[174]。因此,基于LLM的發現方法可能有一個性能上限,受限于最先進LLMs的能力。然而,我們如何增強LLMs在科學發現任務上的能力在很大程度上(如果不是完全)尚不清楚。第三,目前尚不清楚科學發現的充分內部推理結構:當前的工作嚴重依賴從高質量知識源(例如文獻)中檢索靈感以生成假設。但尚不清楚是否有任何更多的內部推理結構可以幫助這一過程。最后,構建準確且結構良好的基準高度依賴專家。然而,專家組成的基準的規模通常非常有限。目前尚不清楚如何擴展一個準確且結構良好的面向發現的基準。未來工作。第一條未來工作方向是增強自動實驗執行,因為它仍然是測試假設有效性的最可靠方法。這一過程可能因學科而異。在計算機科學中,瓶頸可能是編碼能力,尤其是編程大型系統的能力。在化學或生物學中,瓶頸可能在于進行實驗的機器人技術方法[14]。第二條未來工作方向是增強LLM在假設生成中的能力。目前,如何提高這一能力仍不十分清楚。可能的方面包括訓練數據收集方法和訓練策略。第三條未來工作方向是研究科學發現過程的其他內部推理結構。這可能需要一個跨學科的努力,涉及科學哲學(也稱為科學學)[36]。第四條未來工作方向是研究如何利用LLMs自動收集準確且結構良好的基準。
除了生成假設外,LLMs越來越多地用于科學研究中,以自動化實驗設計并簡化工作流程。LLMs具有全面的內部世界知識,使它們能夠在沒有特定領域數據訓練的情況下在現實世界中執行明智的行動。為了最大化其潛力,LLMs被設計為基于代理的形式,具有兩個關鍵屬性[64]:模塊化和工具集成。模塊化確保LLMs可以與外部系統(如數據庫、實驗平臺和計算工具)無縫交互,而工具增強框架使LLMs能夠作為工作流程中的中央控制器,與專門模塊接口,用于數據檢索、計算和實驗控制。本節探討了LLMs如何具體應用于支持研究想法的規劃和實施。
LLMs通過使科學研究中的工作流程更高效和自適應,正在改變實驗設計過程。它們處理和分析大量數據集的能力使研究人員能夠分解復雜任務,選擇最佳方法,并增強實驗的整體結構。本節探討了LLMs如何在不同領域中促進實驗設計優化。任務分解涉及將實驗分解為更小、可管理的子任務,這一過程通常由現實世界研究的復雜性所必需,以確保與特定研究目標的一致性[55]。許多研究[14, 15, 52, 125, 136, 168]展示了LLMs如何通過定義實驗條件和指定期望輸出來簡化復雜問題。例如,HuggingGPT[136]利用LLMs將用戶查詢解析為結構化任務列表,同時確定執行順序和資源依賴關系。同樣,CRISPR-GPT[52]通過促進選擇適當的CRISPR系統、設計引導RNA、推薦細胞傳遞方法、起草協議和規劃驗證實驗,自動化了基于CRISPR的基因編輯實驗設計。ChemCrow[15]采用迭代推理和動態規劃,使用結構化的“思考、行動、行動輸入、觀察”循環[177]根據實時反饋改進其方法。多LLM系統,如Coscientist[14]和LLM-RDF[131],進一步利用專門代理從文獻中提取方法,將自然語言描述翻譯為標準協議,生成自動化平臺的執行代碼,并在執行過程中自適應地糾正錯誤。高級提示技術,如上下文學習、思維鏈[166]和ReAct[177],通常用于上述研究中,以增強LLM輔助工作流程中實驗規劃的可靠性和準確性。此外,LLMs還能夠通過反思和細化[106, 139]增強實驗設計,這一過程使它們能夠持續評估和改進實驗計劃。例如,通過模擬專家討論,LLMs參與協作對話[81],挑戰假設,并通過迭代分析[90]改進其輸出。這種方法模仿了現實世界中的科學問題解決,其中專家意見之間的差異促進了問題空間的深入探索,并通過嚴格的辯論和綜合不同觀點達成共識。
LLMs通過自動化實驗過程中的重復和耗時的任務,徹底改變了科學研究。這種自動化顯著提高了生產力,使研究人員能夠將數據準備、實驗執行、分析和報告等勞動密集型過程委托給基于LLM的系統[158]。
研究中最耗時的方面之一是數據準備,包括清理[185, 21]、標記[153, 196]和特征工程[46]等任務。大語言模型(LLMs)可以自動化這些過程,特別是在處理大型數據集時,手動數據整理將效率低下。此外,在數據難以獲得的情況下,LLMs可以直接合成實驗數據[82, 85, 98]。例如,在社會科學中,進行人類受試者實驗通常既昂貴又不道德,Liu等人[98]設計了一個沙箱來模擬社交環境,并部署了多個代理(LLMs)進行交互。這種方法使研究人員能夠收集代理社交互動的數據以進行后續分析。
為了自動化科學研究中的實驗工作流程,基于LLM的代理可以通過預訓練[95, 128]、微調[44, 35]和工具增強學習的組合獲得任務特定能力。在大規模數據集上的預訓練提供了基礎知識,而在領域特定數據集上的微調則針對目標科學應用改進了這些知識。為了增強任務執行,LLMs通常與領域特定知識庫[14, 15, 157]或預配置的工作流程[99, 14]結合使用。高級提示技術,如上下文學習和思維鏈提示[99, 179],使LLMs能夠快速適應新的實驗協議。此外,具有任務特定反饋循環的迭代調整允許LLM根據實驗目標改進其輸出[124, 179]。基于這些原則,LLM在不同學科中自動化實驗工作流程中扮演了多樣化的角色。在化學中,ChemCrow[15],一個LLM化學代理,利用18個專家設計的工具自主規劃和執行復雜的化學合成,橋接計算和實驗領域。同樣,Coscientist[14]將LLM與實驗室自動化集成,優化如鈀催化合成等反應。LLMs還被用于進化搜索策略,以探索廣闊的化學空間[157],從而在減少實驗負擔的同時識別候選分子。Ramos等人[124]將自然語言輸入與貝葉斯優化相結合,用于催化劑合成,簡化了迭代設計周期。此外,LLMs還被用于假設情景測試和反應設計,通過假設預篩選最小化實驗迭代[145, 146]。在藥物發現中,ChatDrug[99]集成了提示、檢索和領域反饋模塊,以促進藥物編輯,而DrugAssist[179]通過人機對話迭代優化分子結構。在生物和醫學研究中,如ESM-1b[128]和ESM-2[95]等模型編碼蛋白質序列,捕捉結構特性以進行預測任務,如二級和三級結構預測,消除了勞動密集型實驗的需要。通過在蛋白質家族上微調LLMs,Ferruz和Hocker[35]生成了高度多樣化但功能性的蛋白質序列。此外,He等人[44]引入了一種抗體生成LLM,用于從頭設計SARS-CoV-2抗體,實現了特異性和多樣性,同時減少了對天然抗體的依賴。
除了自動化實驗執行外,LLMs還通過生成自然語言解釋和構建有意義的可視化來協助數據分析,這對于解釋復雜數據集并確保得出的見解可訪問和可操作至關重要[143]。傳統上,數據分析需要廣泛的統計專業知識、手動計算和大量實驗結果的解釋。LLMs通過自動化統計建模和假設檢驗等任務簡化了這一過程。例如,Li等人[79]展示了LLMs可以作為建模者,提出、擬合和細化基于現實世界數據的概率模型,同時通過后驗預測檢查等技術提供關于模型性能的關鍵反饋。此外,LLMs擅長揭示文本數據中的隱藏模式、趨勢和關系。在社交媒體數據分析中,LLMs提供了對公眾情緒和新興趨勢的見解[172],在環境數據解釋中,它們有助于提高理解和決策能力[114]。此外,它們還在主題分析[27, 126]中發揮了重要作用,幫助識別定性數據中的主題和模式。它們的應用還擴展到金融數據分析,增強了預測和風險評估能力[188]。AutoGen[168]提供了一個通用框架,使多個可定制代理(LLMs)能夠創建多樣化的應用程序。這些代理可以通過自然語言和代碼進行交互,支持廣泛的下游任務,如數據建模和數據分析[61]。
基準對于評估LLMs如何有效支持實驗工作流程的各個方面至關重要。雖然并非專門為LLM輔助的實驗實施創建,但許多基準足夠通用,可以應用于這些任務。例如,MLAgentBench[54]涵蓋了任務分解,幫助分解復雜的研究任務,數據處理,自動化數據加載和轉換等過程,以及工作流程管理,優化機器學習實驗執行。這些基準提供了不同的途徑,因此在方法上有所不同。評估方法從任務成功率、準確性和執行一致性到與人類基準的比較。這些差異突出了LLMs可以集成到研究過程中的多種方式。表3中提供了更多詳細信息。
挑戰。將LLMs用于實驗規劃和實施的挑戰既來自其固有局限性,也來自其在領域特定任務中的應用。一個基本限制是它們的規劃能力。正如Kambhampati等人[64]所澄清的那樣,處于自主模式的LLMs通常無法生成可執行的計劃。它們容易產生幻覺,這可能導致不合理的計劃、偏離任務提示或無法遵循復雜指令[55]。在多階段實驗環境中,提示的魯棒性構成了另一個關鍵挑戰。提示措辭的微小變化,即使傳達了相同的意圖,也可能導致整個規劃和執行過程中的指導不一致[195],可能影響實驗結果。此外,自回歸LLMs的慢處理速度可能會阻礙迭代和多步驟實驗規劃中的實時反饋,限制其效率。應用特定挑戰包括適應專門角色的困難,因為LLMs難以模擬領域特定的科學專業知識和認知過程,這對于跨研究領域的泛化至關重要[167]。例如,某些實驗可能需要模擬倫理敏感或容易出錯的場景,這通常與LLMs中嵌入的安全對齊價值觀相沖突。未來工作。未來的研究應通過增強核心模型能力并針對實驗任務的獨特需求進行定制來解決這些挑戰。為了減輕幻覺風險,可以在工作流程中集成穩健的驗證機制,例如與外部聲音驗證器交叉引用輸出[64]或采用實時反饋循環動態糾正不準確性[59]。提高提示魯棒性可能涉及開發自適應系統,監控和修改提示結構以響應上下文變化,確保規劃階段的一致性。效率提升可以通過創建更快的、蒸餾版本的LLMs,優化多步推理或結合LLMs與更小的、任務特定模型的混合系統來實現,以平衡速度和準確性。為了更有效地適應角色,可以使用高質量領域特定數據集微調LLMs或開發模塊化框架,以更精確地模擬專門科學推理。此外,設計自適應對齊協議可能允許LLMs在解決特定實驗目標時安全地模擬倫理復雜場景。
本節探討了LLMs在科學論文寫作中的三個關鍵領域的集成:引用文本生成(§4.2)、相關工作生成(§4.3)和起草與寫作(§4.4)。我們研究了使用的方法、這些模型的有效性以及自動化科學寫作中面臨的挑戰。此外,我們還討論了這些任務中使用的評估指標和基準。
在引用論文的上下文中,引用文本生成任務旨在為一組待引用論文生成準確的文本摘要。LLMs通過提供豐富的上下文理解和連貫性,在自動化引用文本生成的各個方面發揮了關鍵作用,采用了多種方法來增強準確性和可用性。Xing等人[170]的一項初步研究使用了一個指針生成器網絡,該網絡可以基于交叉注意力機制從手稿和引用論文的摘要中復制單詞來生成引用文本。Li和Ouyang[88]提示LLM生成強調引用網絡中論文對之間關系的自然語言描述。另一方面,像AutoCite[161]和BACO[40]這樣的模型通過采用多模態方法,將引用網絡結構與文本上下文相結合,生成上下文相關且語義豐富的引用文本。此外,Gu和Hahnloser[43]、Jung等人[63]允許用戶指定諸如引用意圖和關鍵詞等屬性,將這些屬性集成到結構化模板中,并微調語言模型以生成符合其需求的引用文本。
該任務涉及基于前沿參考論文為科學論文創建相關工作部分[45]。與傳統的多文檔摘要模型[23, 51]相比,LLMs在處理科學文檔特有的廣泛輸入長度和提供豐富的上下文理解方面展示了顯著的能力。LLMs在各種自然語言理解和生成任務中的成功,結合其大上下文窗口,最近實現了更全面和細致的文獻綜述,促進了跨不同研究領域的深入見解和聯系。Martin-Boyle等人[109]、Zimmermann等人[197]開發了案例研究,探索使用ChatGPT進行文獻綜述任務和相關工作生成,展示了其通過快速掃描大量科學出版物數據集并生成相關工作部分的初稿來協助研究人員的能力。然而,直接在學術寫作中使用LLMs可能會導致幻覺問題,生成的內容可能不基于事實數據,無法準確反映最先進的研究。為了解決這些問題,許多工作基于檢索增強生成(RAG)[76]的原則,通過從外部來源檢索事實內容來增強基于LLM的文獻綜述生成[3, 50, 138, 150, 181]。例如,LitLLM[3]利用RAG從網站上檢索相關論文并重新排序,減少了進行全面文獻綜述所需的時間和精力,同時最小化幻覺問題。HiReview[50]進一步將基于RAG的LLMs與基于圖的層次聚類相結合。該系統首先檢索引用網絡中的相關子社區,并生成層次分類樹。然后,LLMs為每個聚類生成摘要,確保全面覆蓋和邏輯組織。Nishimura等人[112]集成了LLMs,強調相關工作部分中的新穎性聲明。通過將新研究與現有工作進行比較,LLMs幫助生成相關工作部分,明確突出新內容和不同之處,從而為目標論文與先前文獻之間的比較做出更有影響力的貢獻。
在自動化科學寫作領域,LLMs被用于從生成特定文本元素到撰寫整篇研究論文的各種任務。對于更具體的寫作任務,August等人[8]提出了生成具有可控復雜性的科學定義,以適應不同的受眾,而SCICAP[48]則自動化了科學圖表的標題生成,能夠快速準確地描述視覺數據。更全面的系統,如PaperRobot[160],引入了增量起草方法,LLMs根據用戶輸入幫助組織和起草論文的各個部分。同樣,CoAuthor[73]采用了一種協作的人機方法,LLMs通過生成建議和擴展文本來幫助作者。對于完全自主的寫作,Ifargan等人[56]探索了LLMs如何從數據分析到最終草稿生成完整的研究論文,而AutoSurvey[165]展示了LLMs通過綜合和組織現有研究來自主撰寫全面綜述的能力。最后,AI Scientist[103]和CycleResearcher[167]提出了一個更廣泛的系統,不僅起草科學論文,還參與了整個科學過程,包括假設生成和實驗設計,突顯了完全自動化科學發現和寫作的潛力。
我們總結了自動化科學論文寫作系統的評估方法,涵蓋三個關鍵領域:引用文本生成、相關工作生成以及起草與寫作。表4提供了每個任務的具體數據集、指標和基準的全面總結。引用文本生成。ALCE[38]基準是主要標準。它從三個維度評估系統:流暢性、正確性和引用文本的質量。ALCE旨在測試模型在不同領域中生成帶有準確引用的長文本答案的能力。其數據集涵蓋了從維基百科到網絡規模文檔集合的廣泛問題類型。CiteBench[37]是另一個基準,它統一了多個現有任務,以標準化引用文本生成在不同設計和領域中的評估,使用定性和定量指標。相關工作生成。目前,沒有一個單一基準被普遍認可用于此任務,因為任務定義和簡化假設在各種研究中存在巨大差異[89]。然而,大多數工作都建立在語料庫級數據集上,常用的科學文章來源包括:ACL Anthology Network (AAN) Corpus[123]、SciSummNet[178]、Delve[5]、Semantic Scholar Open Research Corpus (S2ORC)[102]和Citation Oriented Related Work Annotation (CORWA)[86]。摘要指標ROUGE[93]是最常用的自動評估方法,一些工作還使用了翻譯指標BLEU[115]。此外,人工評估通常從流暢性、可讀性、與目標論文的一致性以及引用工作的相關性和信息量等方面進行評分,采用五點Likert量表。起草與寫作。SciGen[111]基準支持從科學表格中進行推理感知文本生成的評估,突顯了算術推理在文本生成中的挑戰。SciXGen[22]是另一個關鍵基準,評估上下文感知的文本生成,重點關注將外部信息集成到生成文本中。SciGen和SciXGen都使用了如BLEU[115]、METEOR[10]和MoverScore[189]等指標,以及人工評估。
挑戰。引用文本生成、相關工作生成以及起草與寫作中的挑戰主要源于LLMs的固有局限性,如保持事實準確性、確保上下文連貫性以及處理復雜信息。LLMs經常在幻覺[59]方面遇到困難,生成不正確或不相關的引用,并且受限于它們依賴的檢索系統[53]。有限的上下文窗口進一步限制了模型管理大量引用或全面整合相關文獻的能力[165],可能導致引用順序錯誤和引用分組不當。此外,確保科學嚴謹性并避免依賴表面或瑣碎來源仍然是持續存在的障礙,因為LLMs難以捕捉學術寫作所需的深度和推理[103]。此外,LLMs在學術寫作中的使用引發了重大的倫理問題,特別是關于學術誠信和抄襲[89]。這模糊了作者身份的界限,因為研究人員可能將機器生成的文本作為自己的作品呈現。LLMs還可能生成與現有文獻非常相似的文本,增加了無意中抄襲的風險,生成的文本可能不夠原創。使用LLMs起草論文部分的便利性可能會削弱傳統學術寫作所需的嚴格智力努力,潛在地貶低了學術研究中對學習過程和批判性思維技能的重視。未來工作。為了克服這些挑戰,未來的進展應側重于改進檢索系統并增強模型從多樣化、長上下文來源中綜合信息的能力[87]。這包括開發更好的引用驗證機制、改進多文檔綜合以及引入實時文獻發現,以保持生成內容的最新性。此外,結合領域特定的微調和推理感知模型將有助于生成更準確、上下文相關的科學文本[111]。對寫作過程的細粒度控制,如調整語氣和風格,也將對提高LLMs適應不同學術需求的適應性至關重要[22, 38, 103]。此外,集成人在回路系統,其中人類監督和干預是寫作過程的重要組成部分,可以確保學術工作中固有的智力嚴謹性和批判性思維得以保留[89, 109]。最后,為了解決潛在的倫理問題,學術界必須制定明確的指導方針和倫理標準,以確保學術工作的完整性和原創性。
同行評審是科學研究的基石。將LLMs集成到同行評審過程中代表了一項重大進展,解決了長期存在的挑戰,如評審者偏見、標準不一致和工作量不平衡[42, 117]。這種集成在學術界獲得了顯著關注,正如主要計算機科學會議采用LLM輔助評審實踐所證明的那樣。例如,ICLR 2025宣布實施基于LLM的系統以支持評審者的評估過程。LLMs在同行評審中的集成已經演變為兩種不同的方法,每種方法都針對評審過程中的特定需求。第一種方法,自動化評審生成,源于處理日益增加的提交量并通過使用LLMs獨立分析研究論文來減少評審者工作量的需求[66, 182]。這些系統旨在評估提交的多個方面,包括方法驗證、結果驗證和貢獻評估,從而在沒有直接人工干預的情況下提供全面的評審報告。第二種方法,LLM輔助評審工作流程,是在認識到人類專業知識在學術評估中仍然至關重要的同時,承認某些評審任務可以從自動化中受益[69]。這些工作流程將LLMs作為補充工具,協助人類評審者完成耗時但定義明確的任務,如論文摘要、參考文獻驗證和內部一致性檢查,同時將關鍵評估和判斷留給人類專家。這些方法采用多種方法來提高評審效率、一致性和質量。為了系統地評估和改進這些系統,研究社區開發了專門的同行評審基準,這些基準具有雙重目的:提供標準化的訓練數據集并建立性能評估指標。本章探討了這些方法、其評估框架,并總結了實施挑戰和未來研究方向。
自動化同行評審生成旨在通過探索LLMs如何以最少的人工干預生成全面的評審來簡化科學評估。通過輸入科學文章,這些系統專注于生成完整的同行評審或元評審,采用各種技術來增強反饋的深度、準確性和相關性。當前的自動化同行評審生成方法可以分為兩種主要策略:單一模型和多模型架構。單一模型方法通過復雜的提示技術和模塊化設計優化評審生成過程。這些系統通常采用精心設計的提示,以引導模型關注論文的特定方面,如方法、結果和貢獻[132]。在單一模型范式中,提出了幾種不同的架構方法。CGI2[184]超越了之前的方法:MetaGen[11]使用了兩階段管道,包括提取摘要和決策感知的細化;Kumar等人[67]開發了一種神經架構,用于聯合決策預測和評審生成;MReD[135]引入了使用句子級功能標簽的結構控制生成。基于這些基礎,CGI2通過模塊化設計實現了分階段評審過程,首先從論文中提取關鍵意見,然后總結優點和缺點,最后通過迭代反饋在清單引導的框架下細化這些輸出。這種迭代過程增強了評審的深度和相關性,但可能難以處理涉及高度復雜方法或超出上下文窗口的長篇內容。采用不同方法,CycleReviewer[167]使用強化學習實現了端到端的評審生成方法,通過反饋循環不斷改進評審質量。雖然CycleReviewer在提高評審精度和清晰度方面表現出色,但其對大量計算資源的依賴可能限制其可擴展性。同時,ReviewRobot[162]利用知識圖譜系統地識別和結構化知識元素,通過結構化生成過程將其轉化為詳細的評審評論。ReviewRobot展示了顯著的可解釋性和基于證據的推理,但其預定義模板的靈活性限制了其適應性。另一種策略采用多模型架構,通過利用多個專門模型來處理評審過程的不同方面,代表了一種更復雜的方法。這種方法提供了幾個優勢,包括更好地處理復雜論文和通過專門知識增強評審質量。Reviewer2[39]實施了兩階段過程:一個模型生成特定方面的提示,而另一個模型利用這些提示創建詳細、有針對性的反饋。這種提示生成和評審創建的分離允許更細致和有針對性的反饋,但由于缺乏集成框架,通常會導致部分或偏見的評審。為了解決這些限制,SEA[180]采用了單獨的模型進行標準化、評估和分析,提供了更全面和平衡的方法。該系統將多個評審統一為單一格式,顯著減少了反饋中的冗余和不一致性。此外,SEA引入了不匹配分數來衡量論文與生成評審之間的一致性,并結合自我糾正策略以迭代方式提高評審質量。雖然這些功能使SEA在一致性和全面性方面超越了Reviewer2,但協調多個模型的輸出增加了復雜性。基于專業化但解決不同挑戰,MARG[28]解決了處理超出典型LLM上下文限制的論文的問題。通過引入多代理框架,MARG將評審任務分配給多個專門模型,允許對較長論文進行全面評審,同時在整個文檔中保持對細節的關注。這種創新方法確保了詳細、特定方面的反饋,但也帶來了新的挑戰,如協調各種代理的通信和輸出,增加了確保一致性和對齊的難度。每種架構方法都提供了獨特的優勢并面臨獨特的挑戰。單一模型方法受益于更簡單的實現和對評審過程的更直接控制,但可能難以處理較長或更復雜的論文。多模型架構提供了更大的可擴展性和更好地處理復雜評審任務的能力,但它們需要仔細協調,并面臨組件之間的一致性挑戰。例如,ReviewRobot的結構化方法提供了可解釋性和可操作的見解,但不太適應不斷發展的研究領域,而CycleReviewer的迭代改進提高了動態適應性,而無需大量訓練資源。隨著這一領域的研究進展,結合單一模型的簡單性和多模型設計的適應性,為提高評審質量、一致性和全面性提供了一個有前途的途徑。
與完全自動化的評審生成不同,LLM輔助的同行評審工作流程專注于增強人類評審者的能力,而不是取代他們。最近的研究強調了這種人類-AI協作方法在學術同行評審中的關鍵重要性。[31, 12, 133]的研究強調,雖然LLM可以提高效率,但人類監督對于維護倫理標準和評審完整性仍然至關重要。像AgentReview[60]這樣的系統在實踐中展示了這種協同作用,其中LLM生成初步見解,人類評審者隨后進行細化和驗證。LLM輔助的同行評審工作流程增強了科學評審過程中的三個主要功能:(1)信息提取和摘要,幫助評審者快速掌握論文內容;(2)手稿驗證和質量保證,支持系統驗證論文主張;(3)評審寫作支持,協助生成結構良好的反饋。在信息提取和摘要功能中,系統自動化文檔理解和綜合以支持評審者理解。PaperMage[101]是一個基礎工具包,集成了自然語言處理和計算機視覺模型,處理視覺豐富的科學文檔,實現了跨多種模態的邏輯結構、圖表和文本內容的復雜提取。補充這種結構分析,CocoSciSum[29]專注于內容摘要,提供可定制的論文摘要,精確控制長度和關鍵詞包含,同時通過其組合控制架構保持高事實準確性。對于手稿驗證和質量保證功能,系統在不同分析層次上運作以確保科學嚴謹性。在局部層次上,ReviewerGPT[97]專門從事系統錯誤檢測和指南合規性,在驗證提交要求的同時有效識別單個手稿中的數學錯誤和概念不一致性。雖然ReviewerGPT專注于內部手稿驗證,PaperQA2[144]通過檢查主張與更廣泛的科學文獻進行全局驗證,采用復雜的語言代理檢測矛盾并驗證斷言。該系統通過識別每篇論文平均2.34個驗證矛盾,同時在其跨文獻分析中保持高事實準確性,展示了強大的性能。此外,Scideator[122]旨在促進想法驗證,通過面重組識別論文之間的新穎和科學基礎的類比。Scideator還包括一個新穎性檢查器,評估主張的獨特性和對既定研究范式的遵守,為評審者提供了增強的能力以嚴格審查手稿。在評審寫作支持功能中,系統采取不同但互補的方法,協助不同專業水平的評審者。ReviewFlow[149]通過上下文反思提示和筆記綜合指導提供智能支架,模擬專家實踐以幫助新手評審者生成結構良好的評審。該系統的逐步方法通過將復雜任務分解為可管理的組件,使那些剛接觸同行評審的人受益。雖然ReviewFlow專注于個別評審者指導,CARE[198]通過集成平臺強調評審寫作的協作方面,具有NLP增強的內聯注釋和實時協作功能,使評審者能夠更有效地合作,同時提供詳細和建設性的反饋[83, 19]。進一步補充這些功能,DocPilot[110]利用模塊化任務規劃和代碼生成能力,自動化文檔工作流程中的重復和復雜任務。其結構化方法管理和注釋科學PDF,確保評審者可以專注于實質性反饋而不是程序障礙,顯著提高了他們的效率。
隨著自動化評審生成和LLM輔助工作流程的不斷發展,研究社區面臨一個關鍵挑戰:系統地評估和比較這些方法。這些基準的開發依賴于標準化的基準,評估LLM生成的評審的不同方面,從生成高質量評審到支持人類評審者的有效性。這些基準可以大致分為三種主要類型:(1)支持整體評估的綜合評審數據集,包括編輯決策、評分和語用分析;(2)專注于特定方面的專門評估數據集,如意見綜合和一致性分析;(3)通過缺陷識別和接受預測來衡量評審有效性的質量評估數據集。表5概述了這些關鍵基準及其相關的評估框架。這些數據集主要來自公開的學術會議,服務于同行評審任務中的多種目的。像MOPRD[94]和NLPeer[33]這樣的綜合數據集提供了廣泛的覆蓋范圍,支持從編輯決策預測到語用標簽的任務。更專門的數據集專注于評審過程的特定方面:ASAP-Review[183]和Reviewer2[39]強調接受預測和覆蓋評估。最近的補充,如ReviewCritique[32],引入了比較人類和LLM生成評審的新機制。這些基準的評估框架涵蓋了多個維度,如表5所詳述。語義相似性衡量生成評審與參考文本的接近程度,通常使用ROUGE和BertScore等指標。連貫性和相關性評估評審的邏輯流程和主題適當性,而多樣性和特異性評估提供的反饋范圍和深度。人工評估,結合專家對評審質量的評估,提供了自動指標的關鍵驗證。這四個評估組件——語義相似性、連貫性和相關性、多樣性和特異性以及人工評估——形成了一個多方面的評估方法,確保全面評估LLM生成的評審在各種質量維度上的表現。
挑戰。將LLMs集成到學術同行評審中代表了學術評估的重大轉變[91, 92]。隨著學術機構和出版商探索這項技術,理解其局限性和潛力對于學術界至關重要。同行評審的核心在于需要深厚的專業知識、細致的理解和謹慎的判斷。雖然LLMs在支持這一過程中顯示出潛力,但其局限性揭示了自動化學術評估的復雜性。一個基本挑戰是LLMs通常難以完全掌握學術領域中的專門術語和復雜概念。例如,在生物化學中,LLMs可能會誤解特定蛋白質相互作用的重要性,而在理論物理中,它可能無法識別數學模型中微妙但關鍵的假設[192]。這種有限的技術理解直接影響LLMs評估研究方法的能力。當LLMs無法完全理解領域特定概念時,它無法可靠地評估研究方法是否適當或證據是否支持結論。例如,在跨學科研究中,方法標準因領域而異,LLMs通常難以識別關鍵問題,如樣本量不足、不適當的統計測試或缺失的實驗控制[129]。這一限制在確保研究質量和科學完整性的高風險的同行評審中尤為令人擔憂。學術寫作的復雜性引入了額外的挑戰,特別是在處理較長手稿時。即使上下文窗口擴展,LLMs也難以在跨多個部分的復雜論證中保持連貫分析。這一限制經常導致不一致或矛盾的評估[18]。更令人擔憂的是幻覺的持續問題——模型有時會生成令人信服但不正確的評估,特別是在評審新穎研究方法時[28]。此外,在同行評審中實施LLMs面臨超出技術性能限制的額外挑戰。一個基本的基礎設施問題是缺乏專門的訓練數據[65, 184],這在學術學科中造成了不平衡的格局。這種數據稀缺性特別影響了研究社區較小或詞匯專門的領域。同樣令人擔憂的是LLM輔助同行評審的倫理影響。算法偏見和透明度問題[133]與新的學術不端行為形式一起出現,如“抄襲洗錢”[117]。此外,一個關鍵問題是,如果許多研究人員依賴相同的LLM系統進行同行評審,學術反饋的同質化潛力[91]。廣泛使用類似的AI工具可能會減少觀點的多樣性,并削弱來自個體人類評審者獨特思維過程的創造性見解。未來工作。為了推進LLMs在學術論文評審中的能力,必須優先解決幾個基本技術挑戰。首先,當前的LLMs在不同學術領域中的專門技術概念方面遇到困難,需要改進處理和理解領域特定術語的方法。其次,我們需要增強引用分析能力,以驗證參考文獻的相關性并評估引用如何有效支持論文的論點。第三,分析長學術文檔需要新的方法來保持連貫性——從跨部分引用到驗證方法、結果和結論之間的一致性。除了技術改進外,開發有效的人類-AI協作框架至關重要。下一代評審系統必須創建直觀的界面,突出潛在問題并無縫集成到人類工作流程中[31]。這些協作系統必須適應不同的學術領域,特別考慮計算資源有限的學科[132]。對這些人類-AI系統的嚴格評估框架必須確保它們真正提高評審者的效率和有效性[81, 169]。隨著LLM在同行評審中的普及,強大的治理機制變得至關重要。這包括開發可靠的方法來檢測LLM生成的內容,確保透明跟蹤LLM的貢獻,并保持評審者的真實性[91]。此外,我們需要標準化的協議,以安全地將LLM評審工具與現有期刊平臺集成[6]。最后,必須通過全面的評估框架來衡量這些領域的進展。對于技術能力,我們需要系統評估語言理解、引用分析和文檔連貫性方面的改進。人類-AI協作指標應評估LLM建議的質量及其對評審者效率的影響。治理評估必須評估LLM檢測系統的可靠性和平臺集成的安全性。關鍵的是,這些框架應檢查不同學術學科、出版格式和語言背景下的潛在偏見,以確保為所有學術社區提供公平的支持。通過這些有針對性的評估,我們可以指導LLM系統的開發,使其有意義地增強同行評審過程,同時保持其完整性。
本綜述全面探討了LLMs在整個科學生命周期中的變革作用,從假設生成、實驗到寫作和同行評審。通過識別將LLMs應用于這些任務的機遇和挑戰,我們強調了它們當前的能力、局限性和增強科學生產力的潛力。總之,LLMs代表了先進的生產力工具,提供了現代科學研究所有階段的新方法。盡管受到固有局限性、技術障礙和領域特定任務中的倫理考量的限制,LLM能力的持續進步有望徹底改變研究實踐。隨著這些系統的發展,它們集成到科學工作流程中不僅將加速發現,還將促進科學社區中前所未有的創新和合作。
多生成智能體系統(MGASs)自大規模語言模型(LLMs)興起以來,已成為研究的熱點。然而,隨著新相關研究的不斷涌現,現有的綜述文章難以全面覆蓋這些進展。本文對這些研究進行了全面的綜述。我們首先討論了MGAS的定義,并提供了一個框架,涵蓋了大量的前期工作。接著,我們概述了MGAS在以下幾個方面的應用:(i)解決復雜任務,(ii)模擬特定場景,以及(iii)評估生成智能體。此外,基于以往的研究,我們還重點指出了一些挑戰,并提出了該領域未來研究的方向。
多智能體系統(MAS)因其適應性和解決復雜分布式問題的能力,得到了顯著擴展(Balaji 和 Srinivasan,2010)。與單智能體設置(Gronauer 和 Diepold,2022)相比,MAS 更能準確地反映現實世界,因為許多實際應用自然涉及多個決策者的同時互動。然而,由于傳統強化學習(RL)智能體的參數限制以及缺乏通用知識和能力,智能體無法解決復雜的決策任務,例如與其他智能體合作進行開發(Qian 等,2024b)。近年來,大規模語言模型(LLMs),如 Llama 3(Dubey 等,2024)和 GPT-4(OpenAI 等,2024),在大量網絡語料庫上進行訓練并取得了顯著成功(Radford 等)。與強化學習相比,以 LLM 為核心控制智能體的生成智能體,即使沒有經過訓練,也能在推理、長時間決策等方面表現得更好(Shinn 等,2023)。此外,生成智能體提供了自然語言接口,便于與人類進行互動,使這些互動更加靈活且更易于解釋(Park 等,2023)。
基于這些優勢,多生成智能體系統(MGAS)應運而生。研究人員已經對這些新興工作進行了綜述,并提出了一個通用框架(Guo 等,2024)。然而,隨著相關研究數量的不斷增長,出現了一些超出原框架范圍的工作。本文基于以往對多生成智能體系統(MGASs)的綜述,提供了一個新的視角,重點討論了最新的進展并探討了潛在的研究方向。我們收集了 2023 和 2024 年在頂級人工智能會議(如 *ACL、NeurIPS、AAAI 和 ICLR)上發表的 125 篇論文,并結合一些尚未發表但有價值的 arXiv 論文。根據 MGAS 的應用目的,我們將其應用總結為:任務求解、特定問題的仿真以及生成智能體的評估。圖 1 展示了我們提出的 MGAS 應用框架。(i)解決復雜任務。多智能體將自然地將任務拆分為子任務,從而提高任務的執行性能。(ii)特定場景的仿真。研究人員將 MGAS 視為一個沙盒,用于模擬特定領域中的問題。(iii)生成智能體的評估。與傳統任務評估相比,MGAS 具備動態評估的能力,更加靈活且更難發生數據泄漏。對于每一類應用,我們將討論代表性的 MGAS、資源及其評估。 與之前的綜述(Wang 等,2024a;Zhao 等,2024c;Chuang 和 Rogers,2023;Guo 等,2024;Gao 等,2023a;Gronauer 和 Diepold,2022)相比,本文的獨特貢獻如下:(i)與當前趨勢高度相關的分類法:我們基于 MGAS 應用目的,提出了一個更為近期的分類法(如圖 1 所示)。(ii)更多的資源:我們分析了開放源代碼框架以及具有基準或數據集的研究工作,以便為研究社區提供便利。(iii)挑戰與未來:我們討論了 MGAS 中的挑戰,并闡明了未來的研究方向。
本文探討了通過機器學習(ML)技術增強計算流體力學(CFD)任務的最新進展。我們首先介紹了基本概念、傳統方法和基準數據集,然后考察了ML在改進CFD中的各種角色。本文系統地回顧了近五年內的文獻,并為前向建模提出了一種新的分類方法:數據驅動的代理模型、物理驅動的代理模型和ML輔助數值解。此外,我們還回顧了逆向設計和控制中的最新ML方法,提出了新的分類,并進行了深入討論。接著,我們重點介紹了ML在CFD中的實際應用,涵蓋了空氣動力學、燃燒、大氣與海洋科學、生物流體、等離子體、符號回歸和降階建模等關鍵科學和工程領域。除此之外,我們還識別了關鍵挑戰,并倡導未來研究方向來應對這些挑戰,例如多尺度表示、物理知識編碼、科學基礎模型和自動科學發現。本綜述旨在為快速擴展的ML在CFD領域的社區提供指南,激發未來進步的洞見。我們得出的結論是,ML有望通過提高仿真精度、減少計算時間并實現對流體動力學更復雜的分析,顯著變革CFD研究。論文資源可在//github.com/WillDreamer/Awesome-AI4CFD查看。
流體動力學是一門研究流體流動運動和行為的基礎學科,它為包括空氣動力學、化學工程、生物學和環境科學在內的廣泛科學與工程領域提供了基礎。計算流體力學(CFD)通過偏微分方程(PDEs)來模擬流體動力學的數學模型。CFD的主要目標是在各種工況下獲得模擬結果,從而減少實際實驗的高昂成本,并加速工程設計和控制過程。
盡管在研究和工程實踐中取得了幾十年的進展,CFD技術仍然面臨重大挑戰。這些挑戰包括由于對空間或時間分辨率的嚴格限制導致的高計算成本,捕捉湍流等次級動力學的困難,以及數值算法的穩定性問題等。另一方面,ML因其從觀測數據中學習模式和動力學的能力而聞名,最近已經成為可以重塑或增強任何一般科學學科的趨勢。ML技術與近年來積累的大量流體動力學數據的結合,提供了一種變革性的方式來增強CFD實踐(見圖1)。隨著ML領域的迅速擴展,研究人員越來越難以跟上最新進展。因此,本綜述旨在揭示ML在增強CFD中的多方面作用。
實際上,已有一些關于ML在CFD領域應用的綜述。然而,這些綜述大多有以下兩點局限性:1)僅限于早期嘗試。例如,Wang等人和Huang等人都詳細討論了將物理建模融入ML的方法,強調了動態系統和混合方法。同樣,Vinuesa等人從CFD領域的角度探討了ML的前景方向,如直接數值模擬、大渦模擬(LES)、湍流譜圖、雷諾平均Navier-Stokes(RANS)模擬以及降維方法。然而,他們僅回顧了2021年前PDEs的早期ML應用。2)概述不完整。現有關于ML在CFD中的應用綜述主要集中在物理知識的整合和PDEs的常見模型架構上。Zhang等人研究了PDEs的前向建模和逆向建模中的ML,強調了四個關鍵挑戰,但忽略了系統分類及其在這一領域的潛在應用。同時,Lino等人大致區分了物理驅動和數據驅動的方法,并討論了一些方法學上的限制,但同樣忽略了對每種方法動機的系統分類。盡管這些貢獻存在,但ML在CFD中的全面、前沿和深刻的系統化仍然存在空白。我們的工作代表了第一個將這些分散的見解整合為一個連貫框架的綜述。我們系統地回顧了該領域的基礎知識、數據、方法、應用、挑戰和未來方向。本文的結構如圖2所示,組織如下:
在第2部分中,我們介紹了CFD的基本概念和知識,并附有所回顧文獻中涉及的所有類型PDEs的注釋列表。然后,我們系統地回顧了近五年的文獻,將所選研究分為三個主要類別,并在圖4中展示:數據驅動的代理模型(第3部分),依賴于觀測數據進行訓練;物理驅動的代理模型(第4部分),將選定的物理先驗整合到ML建模中;以及ML輔助數值解(第5部分),部分替代傳統的數值求解器,以在效率、準確性和泛化之間實現平衡。此外,我們介紹了逆向設計和控制問題的設置(第6部分),這是將CFD應用于現實世界問題的兩個基本問題。前者優化設計參數,如初始和邊界條件,以達到特定的設計目標;后者則通過施加時變外力來控制物理系統以實現特定目標。
接著,第7部分討論了這些方法在關鍵科學和工程領域中的應用,展示了它們的影響和潛力。最后,第8部分探討了當前技術狀態中的關鍵挑戰和局限性,并概述了未來的研究方向。我們旨在引起更廣泛的ML社區對本綜述的關注,通過豐富的CFD基礎知識和先進的發展,激發該領域未來的研究。
與現有綜述的不同之處。與現有綜述相比,我們的綜述具有四個獨特特點:(1)最新總結。本綜述基于當前的發展狀況,重點關注2020年至2024年的最新論文。相比之下,現有的相關綜述均在2022年之前發表。(2)創新分類。本綜述系統地回顧了CFD領域中的ML方法,并首次根據前向建模和逆向問題的方法設計動機提出了新的分類。(3)全面討論。本綜述提供了全面的討論,涵蓋背景、數據、前向建模/逆向設計方法和應用,幫助研究人員快速而全面地理解該領域。(4)未來指導。我們的工作總結了CFD的最新進展,強調了當前CFD研究中的挑戰,并為該領域未來的工作提供了指導和方向,例如科學基礎模型。 廣泛影響。我們的綜述的影響體現在兩點:(1)對科學相關社區。我們的綜述總結了CFD中的有效ML方法,可以幫助物理和力學領域的研究人員找到解決方案并從ML中受益。(2)對ML社區。我們的綜述還可以為ML研究人員提供指導,幫助他們將知識應用于CFD中的現實科學應用。
數據驅動的代理模型是完全依賴觀測數據來訓練算法,以模擬復雜的流體動力學模型。這些模型在近年來取得了迅速的發展,具有重要的影響。根據其對空間離散化的處理方式,這些模型可以大致分為兩類:1)依賴離散化的方法,2)獨立于離散化的方法。前者需要將數據域劃分為特定的網格、網片或粒子結構,并設計相應的模型架構,而后者則不依賴離散化技術,而是直接在連續空間中學習解。
盡管數據驅動模型在CFD模擬中展現了潛力,但它們也面臨一些挑戰,如數據收集的高成本以及對模型泛化能力和魯棒性的擔憂。因此,將物理先驗知識融入模型至關重要,這有助于利用物理定律的力量來提高模型的可靠性和適用性。我們根據嵌入知識的類型將這些方法分為兩類:1)物理信息驅動,2)約束信息驅動。前者將物理知識轉化為神經網絡的約束,確保預測符合已知的物理原理。后者則從傳統的PDE求解器中汲取靈感,將這些方法整合到神經網絡的訓練過程中。
總之,本文系統地探討了利用機器學習(ML)在計算流體力學(CFD)中取得的重要進展。我們提出了一種針對前向建模和逆問題的新分類方法,并詳細介紹了過去五年中開發的最新方法。我們還重點介紹了ML在關鍵科學和工程領域中的有前途的應用。此外,我們討論了這一快速發展的領域中的挑戰和未來研究方向。總體而言,顯而易見的是,ML具有顯著變革CFD研究的潛力。
在不斷發展的深度學習領域,數據的數量和質量問題一直是一個長期存在的難題。最近大語言模型(LLMs)的出現為合成數據生成提供了一種以數據為中心的解決方案,緩解了現實世界數據的限制。然而,目前對這一領域的研究缺乏統一的框架,大多停留在表面。因此,本文基于合成數據生成的一般工作流程,整理了相關研究。通過這樣做,我們突出了現有研究中的空白,并概述了未來研究的潛在方向。本研究旨在引導學術界和工業界向更深入、更系統地探究LLMs驅動的合成數據生成的能力和應用。
在深度學習領域不斷演變的背景下,數據數量和質量的問題一直是一個長期存在的困境。大語言模型(LLMs)的革命性出現引發了深度學習領域的顯著范式轉變(Zhang et al., 2023a; Guo et al., 2023; Bang et al., 2023)。盡管有這些進展,大量高質量數據仍然是構建穩健自然語言處理(NLP)模型的基礎(Gandhi et al., 2024)。具體來說,這里的高質量數據通常指的是包含豐富監督信號(通常以標簽形式)并與人類意圖緊密對齊的多樣化數據。然而,由于高成本、數據稀缺、隱私問題等原因,依賴于人類數據來滿足這些需求有時是具有挑戰性甚至是不現實的(Kurakin et al., 2023)。此外,多項研究(Hosking et al., 2023; Singh et al., 2023; Gilardi et al., 2023)表明,人類生成的數據由于其固有的偏見和錯誤,可能并不是模型訓練或評估的最佳選擇。這些考慮促使我們更深入地探討一個問題:是否有其他更有效和可擴展的數據收集方法可以克服當前的限制?
鑒于LLMs的最新進展,它們展示了生成與人類輸出相當的流暢文本的能力(Hartvigsen et al., 2022; Sahu et al., 2022; Ye et al., 2022a; Tang et al., 2023; Gao et al., 2023a),由LLMs生成的合成數據成為了人類生成數據的一種可行替代品或補充。具體來說,合成數據旨在模仿真實世界數據的特征和模式(Liu et al., 2024)。一方面,LLMs通過廣泛的預訓練,積累了豐富的知識庫,并展現出卓越的語言理解能力(Kim et al., 2022; Ding et al., 2023a),這為生成真實的數據奠定了基礎。另一方面,LLMs深厚的指令遵循能力允許在生成過程中實現更好的可控性和適應性,從而能夠為特定應用創建定制的數據集,并設計更靈活的流程(Eldan and Li, 2023)。這兩個優勢使LLMs成為極具前景的合成數據生成器。
作為LLMs的一項關鍵應用,合成數據生成對于深度學習的發展具有重要意義。如圖1所示,LLMs驅動的合成數據生成(Li et al., 2023c; Wang et al., 2021; Seedat et al., 2023)使整個模型訓練和評估過程實現自動化,最小化了人類參與的需求(Huang et al., 2023),從而使深度學習模型的優勢可以應用于更廣泛的領域。除了提供可擴展的訓練和測試數據供應之外,LLMs驅動的合成數據生成還可能為開發下一代LLMs鋪平道路。來自TinyStories(Eldan and Li, 2023)和Phi系列(Gunasekar et al., 2023; Li et al., 2023b)的見解強調了數據質量對于有效模型學習的重要性,而LLMs賦予我們主動“設計”模型學習內容的能力,通過數據操作顯著提高了模型訓練的效率和可控性。截至2024年6月,Hugging Face上已有超過300個被標記為“合成”的數據集,許多主流LLMs利用高質量的合成數據進行訓練,包括Alpaca(Taori et al., 2023)、Vicuna(Zheng et al., 2023)、OpenHermes 2.5和Openchat 3.5(Wang et al., 2023a)。
盡管看似簡單,但生成同時具有高正確性和足夠多樣性的合成數據集需要精心設計過程,并涉及許多技巧(Gandhi et al., 2024),使得LLMs驅動的合成數據生成成為一個非平凡的問題。雖然大多數現有工作通常針對各種任務(如預訓練(Gunasekar et al., 2023; Li et al., 2023b; Eldan and Li, 2023)、微調(Mukherjee et al., 2023; Mitra et al., 2023; Xu et al., 2023a)、評估(Feng et al., 2023; Wei et al., 2024))和不同領域(如數學(Yu et al., 2023a; Luo et al., 2023a)、代碼(Luo et al., 2023b; Wei et al., 2023b)、指令(Honovich et al., 2023a; Wang et al., 2023d))進行數據生成,但它們共享許多共同的理念。為了應對LLMs驅動的合成數據生成這一新興領域中缺乏統一框架的問題,并開發通用工作流程,本綜述調查了最近的研究,并根據生成、策展和評估三個密切相關的主題進行組織,如圖2所示。我們的主要目的是提供該領域的全面概述,確定關鍵關注領域,并突出需要解決的空白。我們希望為學術界和工業界帶來見解,并推動LLMs驅動的合成數據生成的進一步發展。
近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。
我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。
在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。
隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。
盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?
為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。
本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。
大型語言模型(LLMs)在自然語言處理方面展示了令人印象深刻的能力。然而,它們的內部機制仍然不清楚,這種不透明性對下游應用帶來了不希望的風險。因此,理解和解釋這些模型對于闡明它們的行為、局限性和社會影響至關重要。在本文中,我們引入了可解釋性技術的分類體系,并提供了關于解釋基于Transformer的語言模型方法的結構化概述。我們根據LLMs的訓練范式對技術進行分類:傳統的微調范式和基于提示的范式。對于每個范式,我們總結了生成個體預測的局部解釋和總體模型知識的全局解釋的目標和主要方法。我們還討論了用于評估生成解釋的度量標準,并討論了如何利用解釋來調試模型和提高性能。最后,我們比較了LLMs時代解釋技術面臨的關鍵挑戰和新興機會與傳統機器學習模型。
大型語言模型(LLMs),如BERT(Devlin等,2019a)、GPT-3(Brown等,2020)、GPT-4(Bubeck等,2023)、LLaMA-2(Touvron等,2023b)和Claude(AnthropicAI,2023),在各種自然語言處理(NLP)任務中展示出了令人印象深刻的性能。主要科技公司,如微軟、谷歌和百度,已在其商業產品和服務中部署了LLMs以增強功能。例如,微軟利用GPT-3.5來改善新Bing的搜索相關性排名(Mehdi,2023)。由于LLMs通常是復雜的“黑盒子”系統,其內部工作機制是不透明的,高復雜性使模型解釋變得更加具有挑戰性。這種模型不透明性的缺乏有時會導致生成有害內容或幻覺的產生(Weidinger等,2021)。因此,開發解釋能力以揭示這些強大模型的工作方式至關重要。
可解釋性指的是以人類可理解的方式解釋或呈現模型行為的能力(Doshi-Velez和Kim,2017;Du等,2019a)。提高LLMs的可解釋性至關重要,有兩個關鍵原因。首先,對于一般終端用戶,可解釋性通過以可理解的方式闡明模型預測背后的推理機制來建立適當的信任,無需技術專業知識。通過這種方式,終端用戶能夠理解LLMs的能力、局限性和潛在缺陷。其次,對于研究人員和開發人員,解釋模型行為提供了洞察力,以識別意外偏見、風險和性能改進的領域。換句話說,可解釋性充當了一個調試輔助工具,可以快速提高下游任務上的模型性能(Strobelt等,2018;Bastings等,2022;Yuksekgonul等,2023)。它有助于追蹤模型能力隨時間的變化,進行不同模型之間的比較,并開發可靠、道德和安全的模型,以供實際部署使用。 由于LLMs的獨特屬性,其可解釋性技術與傳統機器學習(ML)模型的技術有所不同。LLMs和傳統ML模型之間的差異可以歸因于多個方面。從數據的角度來看,ML模型以監督方式依賴人工構建的特征,而LLMs旨在自動從原始輸入數據中學習特征(Chai和Li,2019)。解釋LLMs捕捉了哪些特征以及這些特征中包含了什么知識是重要的。從模型的角度來看,傳統ML模型通常是針對具體任務設計的,具有不同的模型架構(Liu和Sun,2023)。相比之下,經過廣泛數據集的預訓練的LLMs可以通過微調泛化到各種下游任務(Yang等,2023)。此外,LLMs的注意力機制已被廣泛用于通過為輸入的相關部分分配更高的值來確定輸入的重要性(Hu,2020)。由于注意力權重中編碼的知識和模式可能提示了模型的理解,注意力權重可以被認為是精細調校模型的另一個重要解釋標準。此外,由于LLMs的性能更好,還應進一步研究transformer的組件,包括神經元、層和模塊,學到了什么以及它們是否有不同的功能。從應用的角度來看,傳統ML模型專注于低級模式識別任務,如解析和形態分析,而LLMs可以處理高級推理任務,如回答問題和常識推理(Lauriola等,2022)。特別是,理解LLMs在上下文學習和思維鏈提示以及幻覺現象方面的獨特能力對于解釋和改進模型至關重要。為了更好地理解和改進LLMs,有必要回顧和總結專為LLMs定制的解釋技術。 在本文中,我們提供了一種解釋基于Transformer的語言模型的方法的全面概述。在第2節中,我們介紹了應用LLMs的兩個主要范式:1)傳統的下游微調范式和2)提示范式。基于這一分類,我們在第3節中回顧了適用于微調LLMs的解釋方法,并在第4節中回顧了適用于提示LLMs的解釋方法。在第5節中,我們討論了解釋方法的評估。最后,在第6節中,我們進一步討論了與傳統機器學習模型相比解釋LLMs所面臨的研究挑戰,并提供了有關潛在未來研究方向的見解。本文旨在全面整理關于解釋復雜語言模型的最新研究進展。 LLMs的訓練范式
LLMs的訓練可以基本分為兩個范式,傳統微調和提示,根據它們如何用于適應下游任務。由于這兩個范式之間存在重大區別,因此分別提出了各種類型的解釋(如圖1所示)。 傳統微調范式
在這個范式中,首先對語言模型進行了大規模無標簽文本數據的預訓練,然后在特定下游領域的一組標記數據上進行微調,例如GLUE基準測試中的SST-2、MNLI和QQP(Wang等人,2019)。在微調過程中,很容易在語言模型的最終編碼器層上方添加完全連接的層,使其適應各種下游任務(Rogers等人,2021)。這個范式已經在包含多達十億參數的中型語言模型上取得了成功。例如,包括BERT(Devlin等人,2019a)、RoBERTa(Liu等人,2019)、ELECTRA(Clark等人,2020)、DeBERTa(He等人,2021)等。對于這個范式的解釋重點在于兩個關鍵領域:1)理解自監督預訓練如何使模型獲得語言的基礎理解(例如句法、語義和上下文關系);以及2)分析微調過程如何賦予這些預訓練模型有效解決下游任務的能力。
**提示范式 **
提示范式涉及使用提示,例如自然語言句子中的空白,以便模型填充,實現零樣本學習或少樣本學習,而無需額外的訓練數據。根據其開發階段,這個范式下的模型可以分為兩種類型: 基礎模型:隨著LLMs的規模和訓練數據的增加,它們展示了令人印象深刻的新能力,無需額外的訓練數據。其中一種能力是通過提示實現少樣本學習。這種類型的范式通常適用于大規模語言模型(擁有數十億參數)(例如GPT-3(Brown等人,2020)、OPT(Zhang等人,2022b)、LLaMA-1(Touvron等人,2023a)、LLaMA-2(Touvron等人,2023b)、Falcon(Almazrouei等人,2023))。這些模型被稱為基礎模型或基礎模型,它們可以與用戶進行對話,無需進一步與人類喜好對齊。大規模模型通常適用于這種范式,規模超過10億。例如,LLaMA-2(Touvron等人,2023b)擁有高達700億個參數。基礎模型的解釋旨在理解模型如何學習在回應提示時利用其預訓練知識。 助手模型:基礎模型存在兩個主要限制:1)它們不能按照用戶的指令進行操作,因為預訓練數據包含少量指令-響應示例,2)它們傾向于生成有偏見和有毒的內容(Carlini等人,2023)。為了解決這些限制,基礎模型通過監督微調進一步進行微調(見圖2),以實現人類級別的能力,例如開放域對話。關鍵思想是通過將模型的響應與人類反饋和喜好對齊來實現。這個過程最典型的方式是通過(提示,響應)演示對和來自人類反饋的強化學習(RLHF)進行指導調整。模型通過自然語言反饋進行訓練,以進行復雜的多輪對話。屬于這一類別的模型包括OpenAI的GPT-3.5和GPT4(Bubeck等人,2023)、Anthropic的Claude(AnthropicAI,2023)以及一些開源模型,如Meta的LLaMA-2-Chat(Touvron等人,2023b)、Alpaca(Taori等人,2023)和Vicuna(Chiang等人,2023)。這些模型也可以稱為助手模型、聊天助手或對話模型。助手模型的解釋重點在于理解模型如何從對話中學習開放式互動行為。
**傳統微調范式的解釋 **
在本節中,我們回顧了針對采用預訓練和下游微調范式訓練的LLMs的解釋技術。首先,我們介紹了提供局部解釋(第3.1節)和全局解釋(第3.2節)的方法。在這里,局部解釋旨在提供對語言模型如何對特定輸入實例進行預測的理解,而全局解釋旨在提供對LLM整體工作方式的廣泛理解。接下來,我們討論了如何利用解釋來調試和改進模型(第3.3節)。
局部解釋
解釋的第一類別涉及解釋LLMs生成的預測。讓我們考慮這樣一種情景,我們有一個語言模型,并將特定文本輸入模型。模型隨后產生分類輸出,例如情感分類或下一個標記的預測。在這種情景下,解釋的作用是闡明模型生成特定分類或標記預測的過程。由于目標是解釋LLM如何為特定輸入做出預測,我們將其稱為局部解釋。這個類別包括四個主要方法流,包括基于特征歸因的解釋、基于注意力的解釋、基于示例的解釋和自然語言解釋。
**全局解釋 **
不同于旨在解釋模型的個體預測的局部解釋,全局解釋有助于從模型的角度理解LLMs的工作方式。全局解釋旨在理解個體組件(神經元、隱藏層和較大模塊)編碼了什么,以及解釋了個體組件所學習的知識/語言屬性。我們考察了三種主要的全局解釋方法:探測方法,用于分析模型表示和參數;神經元激活分析,用于確定模型對輸入的響應性;以及基于概念的方法。
**提示范式的解釋 **
在本節中,我們介紹了解釋屬于提示范式的模型的技術,包括1)解釋基礎模型,如LLaMA-2(第4.1節),2)解釋助手模型,如LLaMA-2-Chat(第4.2節),以及3)如何利用LLMs的推理和解釋能力生成用戶友好的解釋(第4.3節)。
基礎模型解釋
隨著語言模型的規模增大,它們展示出了新的能力,如少樣本學習,即僅從少量示例中學習概念的能力。它們還展示了一種思維鏈(CoT)提示能力。鑒于這些新興屬性,解釋性研究有三個主要目標:1)研究提供解釋是否實際有助于模型自身更快地從僅有少量示例中“理解”新任務,2)理解這些大型語言模型如何能夠迅速從有限示例中掌握新任務,從而幫助終端用戶解釋模型的推理,以及3)解釋思維鏈提示。
**助手模型解釋 **
由于大規模無監督預訓練和有監督對齊微調,屬于這一范式的LLMs具有強大的推理能力。然而,它們的巨大規模也使它們容易生成問題輸出,如幻覺。解釋性研究旨在:1)闡明對齊微調的作用,2)分析幻覺產生的原因。
結論
在本文中,我們提供了對LLMs的可解釋性技術的全面概述。我們總結了基于模型訓練范式的局部和全局解釋方法。我們還討論了如何利用解釋來改進模型、評估以及主要挑戰。未來的重要發展選項包括開發針對不同LLMs的解釋方法、評估解釋的忠實性,以及提高人類可解釋性。隨著LLMs的不斷進步,可解釋性將變得極其重要,以確保這些模型具有透明性、公平性和益處。我們希望這份調查為這一新興研究領域提供了有用的組織,同時突顯了未來工作的開放性問題。