亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

基于大語言模型(LLM)的智能體的興起為人工智能應用開辟了全新的邊界,然而,這類智能體的評估仍是一個復雜且尚不成熟的研究領域。本文綜述了LLM智能體評估這一新興方向,提出了一個二維分類體系,從兩個維度組織已有研究:(1)評估目標——評估內容,包括智能體的行為、能力、可靠性與安全性;(2)評估過程——評估方法,涵蓋交互模式、數據集與基準、指標計算方法以及相關工具。此外,本文還特別強調了企業級場景中面臨的評估挑戰,如基于角色的數據訪問權限、對系統可靠性的要求、涉及動態與長期交互的任務,以及合規性問題,而這些問題在當前研究中往往被忽視。我們進一步指出了未來的研究方向,包括更全面、更真實且可擴展的評估方法。本文旨在為當前碎片化的智能體評估研究提供清晰的視角,并構建一個系統性評估框架,幫助研究人員與開發者更好地評估LLM智能體在現實世界中的部署能力。

1 引言

基于大語言模型(LLM)的智能體是能夠自主或半自主地進行推理、規劃與行動的系統,它們正成為人工智能領域快速發展的前沿方向之一 [69, 105]。從客戶服務機器人、編程助手到數字助理,LLM智能體正在重新定義智能系統的構建方式。 隨著這類智能體從研究原型逐步邁向真實應用場景 [23, 62],如何對它們進行嚴謹的評估成為一項緊迫而復雜的任務。與孤立評估LLM模型不同,LLM智能體的評估更具挑戰性。傳統LLM評估通常聚焦于文本生成或問答性能,而LLM智能體則運行在動態、交互性的環境中,它們需要推理并制定計劃,調用工具、使用記憶,甚至與人類或其他智能體協作 [20]。這種復雜行為與現實環境緊密耦合,使得標準的LLM評估方法已難以勝任。打個比方,LLM評估就像是測試一臺引擎的性能,而LLM智能體的評估則更像是要在各種駕駛條件下全面評估一輛汽車的性能。

LLM智能體的評估方式也不同于傳統軟件系統的測試。傳統軟件測試依賴確定性的、靜態的行為,而LLM智能體本質上具有概率性和動態性,因此需要全新的評估方法。LLM智能體的評估處于自然語言處理(NLP)、人機交互(HCI)和軟件工程等多個領域的交匯點,這對評估方法提出了更高的多學科要求。 盡管該領域的研究興趣日益增長,目前的綜述多聚焦于LLM模型本身的評估,或零散地討論某些智能體能力,而缺乏系統化的整體視角 [121]。此外,企業級應用對智能體提出了額外的需求,如對數據和系統的安全訪問控制、高可靠性保障(以滿足審計和合規需求)、更復雜的交互模式等,這些在現有文獻中往往被忽略 [107]。本文旨在為從事智能體評估的研究人員與工程實踐者提供有價值的參考資料。

本綜述的主要貢獻包括:

提出了一套LLM智能體評估的分類體系,從兩個維度系統梳理已有研究: (1)評估目標(評估什么),包括智能體的行為、能力、可靠性與安全性; (2)評估過程(如何評估),涵蓋交互模式、數據集與基準、指標計算方法、評估工具與評估環境。

強調了企業級應用中的特有挑戰,包括基于角色的訪問控制、可靠性保障、長期交互支持以及合規性要求。

本文其余部分結構如下:第2節介紹用于分析當前智能體評估研究的分類體系;第3節探討第一個維度“評估目標”,聚焦于應當評估智能體的哪些方面;第4節討論第二個維度“評估過程”,聚焦評估方法的具體實現;第5節分析企業場景下的評估挑戰;第6節則總結當前未解的問題并提出未來研究方向,以推動LLM智能體評估的持續發展。

付費5元查看完整內容

相關內容

專門化大型語言模型(LLMs)的快速發展已經從單純的領域自適應演進到更為復雜的原生架構設計,標志著人工智能發展范式的轉變。本文系統性地回顧了這一進程,涵蓋醫療、金融、法律和技術等領域。除了專門化LLMs的廣泛應用外,近期在LLM智能體中也出現了一系列技術突破,例如:超越微調的領域原生設計、通過稀疏計算與量化提升參數效率、以及日益增強的多模態能力集成等。我們的分析揭示了這些創新如何解決通用LLMs在專業應用中的根本局限性,并顯示專門化模型在特定領域基準測試上持續取得性能提升。此外,本綜述還強調了其在電子商務領域的應用潛力,以彌補該領域的研究空白。

1 引言

大型語言模型(Large Language Models, LLMs)的快速發展開啟了人工智能的新紀元,正在深刻改變我們處理信息、解決問題以及與技術交互的方式。雖然通用型LLM(如GPT-4)在廣泛任務上展現了卓越的能力,但在面對專業化、領域特定的挑戰時,其性能往往會顯著下降。這一局限催生了一種重要的范式轉變——專門化LLM的興起,它們旨在滿足醫學、法律、金融和工程等專業領域的嚴格需求。 領域專門化的需求源于多個關鍵因素,而這些往往是通用模型難以充分應對的。首先,專業領域通常需要對技術術語和概念框架進行精確理解,而這些內容遠超日常語言的使用范圍。例如,在醫療領域,模型必須能夠準確解讀臨床術語、診斷編碼以及復雜的醫學關系,才能具有臨床實用價值。其次,專業領域涉及的推理模式和知識結構常常與日常語言使用存在顯著差異。金融分析依賴于對市場趨勢的時間序列推理,法律實踐要求對法規條文進行精確解釋,而醫學診斷則取決于概率性的臨床推理——所有這些方面都是通用LLM存在明顯缺陷的地方。 專門化LLM的發展經歷了若干階段,每一階段都伴隨著針對既有局限性的技術創新。早期方法主要集中于在通用模型的基礎上繼續進行領域特定語料的預訓練,例如BioGPT將GPT-2改造為適應生物醫學應用(Luo et al., 2022)。隨后,出現了引入領域感知組件的架構創新,例如BloombergGPT引入金融時間序列嵌入,Med-PaLM 2則集成了臨床推理模塊(Singhal et al., 2023)。最近,又出現了結合LLM與符號知識庫及動態適應機制的混合系統,如BLADE的知識注入框架(Xu et al., 2024b)和Self-MoE的專家路由機制(Yang et al., 2024)。 當前的專門化LLM格局呈現出幾個重要趨勢。首先,研究界日益認識到模型規模本身并不能保證領域能力——一些較小但經過精心設計的模型(如BioMedLM,參數規模2.7B)(Bolton et al., 2024),在專門任務中甚至能夠超越規模更大的通用模型。其次,評估方法更加嚴格,逐漸引入專家評估和領域特定基準,而不僅僅依賴于通用語言理解指標。例如,一項牙科種植學研究采用了由資深專家進行的多維度評估,涵蓋40個專業問題和5個復雜案例(Zhang et al., 2025)。第三,越來越強調真實場景的適用性,模型不僅需要在靜態問答中表現良好,還需要能夠應對動態、交互式的場景,以更好地模擬專業實踐。 然而,專門化LLM的發展與部署仍面臨重大挑戰。知識時效性是一個長期問題,尤其在醫學和金融等快速演化的領域中,過時的信息可能帶來嚴重后果。評估方法仍難以全面捕捉專業判斷的細微差別,往往依賴于代理指標而非直接衡量真實世界的有效性。偏見、責任與適當使用等倫理問題也持續使其在高風險領域的部署更加復雜。或許最根本的挑戰在于:當前LLM的靜態特性限制了其適應新信息和不斷演化的專業標準的能力,這也推動了對自進化架構(self-evolving architectures)的日益濃厚興趣(Yao et al., 2023)。 本綜述旨在對專門化LLM的發展格局進行全面梳理,分析其架構創新、應用成效及持續存在的挑戰(Chen et al., 2023; Wu et al., 2023)。我們系統性地考察了2022年至2025年間提出的48個前沿模型,識別其關鍵技術趨勢與性能特征。我們的分析揭示了不同專門化策略(從持續預訓練到混合增強)如何影響模型在各專業領域的能力。同時,我們還探討了專門化LLM發展的新興方向,包括自進化架構、多模態集成以及輕量化部署策略。

付費5元查看完整內容

大型語言模型(LLMs)正迅速從被動的文本生成引擎演化為具備計劃、記憶、調用外部工具以及彼此協作能力的智能體實體。本文以觀點論文的形式探討了此類LLM智能體(及其組成的社會)如何重塑推薦系統的設計空間。

我們提出了一套統一的形式化框架,該框架:(i)將單個智能體建模為一個由語言核心、工具集和分層記憶組成的元組;(ii)將多智能體推薦系統建模為一個由智能體集合、共享環境以及通信協議組成的三元組。在此框架下,我們展示了四個端到端的應用案例——互動派對策劃、用于離線評估的合成用戶模擬、多模態家具推薦,以及符合品牌調性的解釋生成——每個案例都體現了由智能體編排所解鎖的一項關鍵能力。 隨后,我們提出了五大跨領域的挑戰類別:協議復雜性、系統可擴展性、幻覺與錯誤傳播、涌現的不一致性(包括隱蔽串通),以及品牌一致性問題。對于每一類挑戰,我們均進行了問題形式化、初步緩解策略回顧,并指出了亟待解決的開放研究問題。

最終成果既是藍圖也是議程:藍圖展示了如何將具備記憶增強與工具使用能力的LLM智能體組裝成穩健的推薦流程;議程則號召推薦系統(RecSys)社區開發新的基準、理論保障機制以及治理工具,以應對這類高度自主系統的快速演進。 通過將智能體抽象與推薦目標相融合,本文為構建新一代個性化、可信賴且具備豐富上下文感知能力的推薦服務奠定了基礎。

1 引言與動機

大型語言模型(LLM)驅動的智能體不僅僅是傳統意義上的聊天機器人,它們展現出智能體行為,而非僅通過基于 token 的預測來回應用戶查詢。本質上,它們被設計用于處理多步驟任務、編排信息流,并在必要時自主調用各種工具或功能【50, 54, 67】。這一點與傳統聊天機器人形成了鮮明對比——后者可能僅在一次對話輪次中提供簡短回答,而智能體系統則能夠主動組織復雜問題并通過一系列有條理的步驟加以解決。換言之,LLM 智能體不僅是被動的對話伙伴,更是具備將任務分解并調用外部資源以達成目標的動態問題求解者【20, 25, 69】。 使用 LLM 智能體的一個根本原因在于現實任務的復雜性和多階段性。面對旅行規劃、多維度研究或迭代設計流程等復雜情境,單個靜態提示往往無法滿足需求。這些任務通常涉及多輪決策與外部數據交互,而智能體系統能夠將復雜目標拆分為較小的子任務,并逐步加以解決。這種方法規避了傳統文本查詢的局限,使得決策過程更具魯棒性和上下文感知能力,并更貼近人類的推理方式【52, 59】。此外,通過將“認知負擔”分散到不同的組件中,智能體框架還能降低“幻覺”或回答不完整的風險,確保最終結果不再依賴單次 token 預測【26】。 記憶機制是 LLM 智能體中的關鍵組成部分,它確保與用戶的對話隨著時間推移保持一致性和個性化。與傳統聊天機器人每輪對話獨立、無法追蹤歷史內容不同,現代智能體結合了多種互補的記憶結構,每種記憶類型都針對不同目標進行優化(詳見第3節): * 工作記憶(短期):幫助智能體回憶當前會話中的近期對話內容。例如,當用戶提出“推薦一本懸疑小說”后緊接著說“像上次那本一樣”,工作記憶會保留原始推薦內容,從而響應后續請求,而無需用戶重復前述查詢。 * 情節記憶(長期):記錄具體的過去事件及其上下文與元數據。例如,一周前用戶請求推薦意大利餐廳,如今提出“上次提到的那家餐廳”,情節記憶能準確檢索出對應推薦,并回溯其提出時間與理由。 * 語義記憶(長期):從多次交互中提煉并積累通用事實或用戶偏好。例如,經過多次對話,智能體可能推斷出用戶偏好意大利菜,即使在當前會話中未提及,也能主動將意式選項優先排序。 * 程序性記憶(長期):編碼已習得的技能、流程或腳本,使智能體能高效地自動執行重復性任務。例如,若用戶頻繁請求“總結會議記錄并發送郵件”,智能體可學會這一工作流;下次用戶只需說“發送之前的總結”,即可自動完成任務。

綜合運用這些不同類型的記憶,使得智能體始終掌握之前的步驟、用戶偏好及外部知識,從而實現更流暢且具上下文感知的交互【18, 83】。 LLM 智能體的另一項核心優勢在于其自主調用工具的能力,這極大增強了其處理復雜任務和提供專業信息的能力(見第2.1節)。這些智能體不僅依賴靜態模型參數,還能主動調用專用模塊或外部服務,以獲取精確信息、執行特定分析或開展領域任務【23, 47】。例如,在推薦場景中,當用戶請求推薦餐廳時,智能體可使用專業檢索工具或數據庫查詢當前評分與可預訂信息,而非依賴記憶中的舊數據。同樣地,在推薦適配用戶上傳房間圖像與風格偏好的家具時,智能體可能調用圖像分析工具提取視覺特征,再檢索產品數據庫,篩選出符合審美與空間要求的商品(見第4節)。這些工具的使用也可與記憶機制相輔相成——如語義記憶(用戶偏好、物品屬性)與情節記憶(先前推薦記錄)結合,從而提供更精確且具上下文關聯性的推薦。最終,工具集成將 LLM 智能體的功能擴展到傳統對話之外,使其具備更強的適應性與個性化處理能力。 綜上所述——多步驟任務處理、記憶保持與工具調用——共同賦予 LLM 智能體超越傳統問答式聊天機器人的自主能力。通過將任務拆解為可管理的組件【52】、保留關鍵上下文【38】、并在合適時調用外部工具【55】,LLM 智能體能提供更具思考性與整體性的解決方案,為對話系統與推薦系統帶來更智能與靈活的變革。

付費5元查看完整內容

 大型語言模型(LLMs)正在推動科學發現范式的轉變,從面向特定任務的自動化工具演變為日益自主的智能體,根本性地重塑了科研流程與人機協作模式。本文系統性地梳理了這一快速發展的研究領域,重點關注LLMs在科學中的角色變遷與能力提升。我們以科學方法為框架,提出了一個基礎的三層級分類體系——工具(Tool)、分析者(Analyst)與科學家(Scientist),以刻畫其自主性遞增及其在科研生命周期中職責的演變。此外,我們還識別了若干關鍵挑戰與未來研究方向,如機器人自動化、自我改進以及倫理治理等。總體而言,本文旨在提供一個概念性架構與戰略性前瞻,以助力AI驅動下的科學發現,實現快速創新與負責任的發展并重。

1 引言

大型語言模型(LLMs)的持續進步催生出一系列新興能力,如規劃(Huang 等,2024b)、復雜推理(Huang 和 Chang,2023)以及指令遵循(Qin 等,2024)。此外,將代理型工作流(agentic workflows)整合進來,使得基于LLM的系統能夠執行更高級的功能,包括網頁導航(He 等,2024)、工具使用(Qu 等,2025)、代碼執行(Jiang 等,2024a)和數據分析(Sun 等,2024)。在科學發現領域,這種高級LLM能力與代理機制的融合正推動一場深刻的范式轉變。該轉變不僅有望加速科研生命周期,還將從根本上改變人類研究者與人工智能在知識探索中的協作關系。 然而,LLM應用的迅猛擴展及其在科學發現中所引發的范式變化,也帶來了諸多挑戰。LLM演化速度之快,以及其與復雜科研流程的深度融合,使得系統性的評估愈發困難,因此亟需結構化的概念框架來整理當前認知,并指引未來發展方向。盡管現有綜述已對LLM在多個科學領域的應用進行了有價值的概覽(Zhang 等,2024, 2025),或對科學中的特定AI技術進行了分類(Luo 等,2025;Reddy 和 Shojaee,2025),但它們往往聚焦于特定學科的應用,或僅呈現LLM能力的靜態快照。因此,這些綜述可能忽略了LLM自主性不斷增強的關鍵趨勢,以及其在整個科學方法流程中角色的動態演變,從而未能充分揭示其影響力的廣度與未來向更高獨立性演進的潛力。 為系統描繪這一演進圖景,并彌補上述空白,本文的分析框架以經典科學方法的六個階段(見圖1)為基礎(Popper,1935;Kuhn,1962):(1)觀察與問題定義,(2)假設提出,(3)實驗與數據收集,(4)數據分析與解釋,(5)得出結論,(6)迭代與優化。我們對LLM在這些階段中的應用進行分析,發現一個顯著趨勢:LLM正從在單一階段執行離散的、面向任務的功能,逐步發展為能貫穿多個階段的復雜代理型系統。值得注意的是,最新研究(Schmidgall 等,2025;Yamada 等,2025)正在探索幾乎能夠自主完成整個科學流程的LLM系統。 為了更有效地捕捉與描述LLM能力與獨立性日益增強的演化路徑,本文提出一個基礎性的三層級分類框架(見表1),用于定義LLM在科學發現中的不同角色:(i)工具型LLM(LLM as Tool):模型在直接監督下完成具體、明確的任務,輔助人類研究者;(ii)分析者型LLM(LLM as Analyst):模型具備更高的自主性,能夠處理復雜信息、執行分析并提供洞見,減少人工干預;(iii)科學家型LLM(LLM as Scientist):代表更高級階段的系統,能夠自主執行從假設構建到結果解釋及提出后續研究方向等主要科研流程。 在此分類體系基礎上,我們進一步識別出當前研究格局中的關鍵空白,并提出未來發展的核心挑戰與方向,包括:(1)實現無需人工干預的全自主科學發現流程;(2)將機器人自動化引入實驗室,實現物理世界的交互與操作;(3)基于以往研究經驗實現持續的自我改進與適應;(4)提升LLM主導科研的透明度與可解釋性;(5)建立符合倫理與社會價值的治理機制。解決上述多維挑戰,將是實現AI作為科學探索變革性合作伙伴的關鍵。

本文聚焦于LLM系統在科學發現中的應用,特別是其不同層級的自主性。雖然我們承認LLM在科學中的廣泛影響,但本文有意縮小研究范圍,不涵蓋通用科學LLM或面向特定領域的知識獲取與推理模型——這類內容已在現有綜述中有較充分的探討(Zhang 等,2024, 2025)。本文其余部分結構如下:第2節介紹我們的分類框架及其與科學方法的對應關系;第3節分析“工具型LLM”的應用,按科學方法各階段分類;第4節探討“分析者型LLM”的應用,按科學領域劃分;第5節聚焦于“科學家型LLM”的研究,分析其創意生成與優化機制;第6節討論未來面臨的挑戰與發展方向。

付費5元查看完整內容

具身多智能體系統(EMAS)因其在物流、機器人等領域解決復雜現實問題的潛力,吸引了越來越多的關注。近期基礎模型的進展為生成型智能體提供了更豐富的溝通能力和自適應問題解決能力,開辟了新的方向。本綜述系統性地探討了EMAS如何從這些生成型能力中受益。我們提出了一個分類法,通過系統架構和具身方式對EMAS進行分類,重點強調協作如何跨越物理和虛擬環境。接著,我們分析了感知、規劃、溝通和反饋等核心構件,展示了生成技術如何增強系統的魯棒性和靈活性。通過具體實例,我們展示了將基礎模型集成到具身多智能體框架中的變革性影響。最后,我們討論了挑戰和未來發展方向,強調了EMAS在重塑人工智能驅動協作領域的巨大潛力。

1 引言

具身多智能體系統(EMAS)因其在智能交通、物流和制造等領域的巨大潛力,吸引了越來越多的關注 [YJ+13, IS+18]。通過將物理具身(從自動駕駛車輛到機器人操作臂)與多智能體系統(MAS)[DKJ18] 集成,EMAS 提供了一種去中心化、協作的方法,能夠高效地處理復雜任務。盡管這些優勢顯而易見,但設計和實現有效的 EMAS 仍然是一項非凡的挑戰,通常需要對控制論的專業知識、廣泛的訓練數據以及精心設計的強化學習范式 [LB08, OD23]。 在傳統的 MAS 中,智能體通過分配責任、共享狀態信息并共同適應動態環境來協作 [DKJ18]。雖然這些原則在某些特定領域取得了顯著成功,但傳統方法在以下方面面臨關鍵的局限性:難以推廣到新任務 [MS+22],難以擴展到大規模的智能體群體 [CTE+22],以及應對突發環境變化 [WR04]。這些方法通常依賴于狹窄訓練的模型,可能表現脆弱或僅限于特定領域 [YZ+23]。這些不足凸顯了需要更加靈活和穩健的解決方案的緊迫性,這些解決方案能夠在開放式和快速變化的具身場景中蓬勃發展。 近期基礎模型(FMs,例如大型語言模型、大型模型或視覺語言模型(VLMs))[ZLL+24] 的突破為推進 MAS 向更加自適應和生成行為的發展開辟了新的途徑。通過為智能體提供自然語言能力、情境推理以及生成新解決方案的能力,基于基礎模型的 MAS 超越了純信號驅動或強化學習框架中固有的局限性 [GCW+24, CLH+24, LP+24]。這些“生成型智能體”能夠以語義豐富的方式進行溝通,與人類級別的流暢度協作,并能夠迅速應對突發挑戰,調整策略。因此,基于 FM 的智能體可能會徹底改變多智能體協作的方式——無論是在由具身設備組成的物理空間,還是在智能體共享抽象知識和任務的虛擬空間中。 在此背景下,EMAS 領域將能夠從這些 FM 方面的最新進展中獲益。通過將物理具身與生成型多模態智能結合,未來的系統可能會采用更廣泛的設計空間,整合復雜的感知、高級語言和視覺推理能力,以及自適應決策能力。然而,現有文獻中關于具身 AI 和多智能體系統的綜述通常將這些領域視為孤立的,未能在它們的交集處進行系統性的探討 [IS+18, DYT+22, GCW+24, MS+24, HRS24]。基于 FM 的生成型智能體如何最好地融入 EMAS 的系統化視角仍在不斷發展中。 本綜述旨在提供對生成型多智能體協作在具身 AI 中現狀的全面和結構化的分析,如圖 1 所示。首先,在第 2 節中,我們提出了一種分類法,根據模型數量和具身類型對現有的 EMAS 解決方案進行分類,強調協作如何在物理智能體和純粹虛擬語義環境中產生。接下來,在第 3 節中,我們探討了多智能體協作的主要構建塊——系統感知、規劃、溝通和反饋,并分析了如何設計這些組件以利用基于 FM 的生成能力。超越理論視角,在第 4 節中,我們深入探討了實踐應用,展示了生成型多智能體協作如何增強不同具身場景中的功能。根據我們的了解,這是首次系統性地探討 MAS、具身 AI 和基礎模型的融合。最后,在第 5 節中,我們總結了開放的研究挑戰,勾畫了關鍵的未來發展方向,并討論了 EMAS 對更廣泛的 AI 和機器人領域的潛在影響。我們的目標是通過呈現這個迅速發展的領域的整體概述,來為研究人員、從業人員和利益相關者提供信息并激發靈感。

2 協作架構

在前一節中概述的關鍵挑戰和機遇的基礎上,本節介紹了具身多智能體系統(EMAS)中的協作架構,如圖 2 所示。特別地,我們探討了生成型多智能體系統如何利用外部協作(跨多個具身實體)或內部協作(在單一具身實體內多個基礎模型之間)。我們還涵蓋了結合這些策略的混合方法,以滿足多樣化的系統需求。我們的目標是提供一種結構化的理解,說明如何協調多智能體協作,以最大化適應性、可擴展性和任務一致性,尤其是在與基礎模型(FM)集成時。

**2.1 外部協作

在多個具身實體之間展開的協作場景中,我們稱之為外部協作,智能體在物理或虛擬環境中互動,以實現共享的目標。借鑒長期以來的多機器人和傳統多智能體系統(MAS)文獻,外部協作可以通過集中式或去中心化策略組織。這些方法在可擴展性、通信開銷以及全局控制與局部控制之間存在不同的權衡。集中式架構 在集中式策略框架中,單一的統一模型控制多個機器人或智能體,提供集中式的任務分配和決策制定。該集中模型根據智能體的能力和系統目標分配任務,通過提供全局視角確保智能體之間的協調。已有研究探索了基于語言的任務分配方法 [LTW+24, OA+24, CYZ+24] 和基于代碼的任務分配方法 [KVM24, ZQW+24]。 集中式模型還在決策制定中發揮關鍵作用,通過整合來自所有智能體的信息來做出最終決策,確保一致性。例如,[YKC23] 使用集中式模型來確定導航目標,[TXL+20] 使用它來進行基于 3D-CNN-LSTM 的互動問答,[GAZ+24] 使用它在多機器人系統中通過引導領導機器人行動來解決死鎖問題。 集中控制策略通過使用單一模型進行任務分配和決策制定來確保協調。其優勢包括任務的最優分配和一致的決策。然而,它可能受到系統復雜性、高計算需求以及在大規模或動態環境中的可擴展性問題的限制。

去中心化架構

在去中心化策略中,每個模型獨立控制其相應的具身實體,從而提供更大的靈活性和可擴展性。早期的研究使用強化學習進行去中心化控制,但基礎模型(FM)的興起使得智能體能夠自主處理多樣化的任務 [CJ+24],形成了更為先進的去中心化系統。 基礎模型通過利用推理能力來增強去中心化系統,基于局部部分觀察來改善個體決策。例如,[ZWL+24] 利用世界模型來輔助多智能體規劃,在該模型中,每個個體通過世界模型預測其他智能體的行為,并推斷自己的計劃。類似地,[AF+23] 引入了一個輔助的心智理論推理基礎模型來解釋合作伙伴智能體的行動和需求,從而支持個體決策。 此外,憑借基礎模型的推理和通信能力,基于FM的智能體表現出涌現的社交性。[CJ+23] 發現,當沒有明確指導采用哪種策略時,FM驅動的智能體主要遵循平均策略,這代表了智能體之間的一種平等主義組織結構。其他研究 [GHL+24, CJ+24] 強調了團隊中更為結構化角色的潛在好處。這表明,類似于人類的社會結構,FM智能體可以表現出涌現行為,通過適應組織框架來優化協作,從而增強它們在處理復雜任務時的集體能力。

2.2 內在協作

外在協作涉及多個機器人和具身實體之間的合作,而內在協作則發生在單一系統的內部結構中,該系統可能包含多個基礎模型(FM)。這一概念與最近推動的各個FM模塊之間的協作工作流程密切相關,這些模塊各自專注于不同的角色,共同處理日益復雜的任務。這樣的內部協調擴展了傳統的多智能體協調概念,側重于在單一具身體內進行集中的決策。 在這一工作流程中,每個FM承擔特定的功能或角色,共同完成任務。研究已將這一范式應用于具身學習系統,例如 [QZL+24],該系統使用規劃者、部分處理器和執行者等模塊來解決Minecraft沙盒中的任務,和 [SSY+24],它將任務分解為觀察者、規劃者和執行者角色。LLaMAR [NO+24] 還采用了計劃-行動-糾正-驗證框架進行自我修正,無需預言機或模擬器。 內在協作可以通過提高規劃準確性、安全性和適應性來提升系統功能。例如,[LY+23] 使用基于FM的快思維和慢思維進行協作計劃生成和評估,而LLaMAC [ZMR+23] 則采用多個批評者和評估者來提供反饋并提高魯棒性。

2.3 混合協作架構

在許多現實世界的應用中,嚴格區分外在協作和內在協作既不現實也沒有優勢。因此,混合協作架構結合了這些策略,利用了集中式、去中心化和內部FM工作流程的優勢。 隨著具身任務復雜性的增加,混合不同協作層次的靈活性——無論是在機器人之間,還是在智能體的內部結構中——變得越來越有價值。 內在協作通過模塊化FM增強模型能力,并且可以應用于集中式和去中心化系統。例如,CoELA [ZDS+24] 使用五個模塊——感知、記憶、通信、規劃和執行——而 [YPY+24] 為去中心化機器人協作構建了具有觀察、記憶和規劃模塊的智能體。集中式模型也可以使用模塊化FM,例如 [WTL+24],它使用任務和行動FM進行任務分配。 集中式和去中心化策略可以結合使用,不同階段的任務可以采用不同的方法。受到多智能體強化學習(MARL)中的集中訓練與去中心化執行(CTDE)框架的啟發,[CYZ+24] 和 [ZC+24] 提出了集中規劃與去中心化執行的方案,其中全球規劃指導任務執行,最大化全球監督與地方自治之間的協同效應。 通過展示這些不同的架構,我們闡明了實踐者如何在不同粒度和控制層級上有效地協調EMAS中的多智能體協作。下一節將基于這一架構視角,探討如何設計關鍵的系統組件——感知、規劃、通信和反饋——以利用基于FM的生成能力,進一步提升多智能體協作的魯棒性和適應性。

3 推進協作功能

在第二節中,我們從結構層面探討了如何協調多智能體協作,接下來我們將轉向推動具身智能體之間有效團隊合作的功能性構建模塊。具體來說,我們重點介紹感知、規劃、通信和反饋機制如何被設計來利用基礎模型(FM)的生成能力。通過聚焦于這些關鍵模塊,我們展示了EMAS解決方案如何更加穩健地解讀物理環境、制定并適應計劃、交換信息,并從自身行為以及環境中迭代學習。這種方法補充了前述的協作架構,提供了一個更細化的視角,以促進具身智能體之間的動態和上下文感知協作。

3.1 感知

盡管生成模型可以從文本和視覺中獲取語義知識,但具身智能體必須主動感知并解讀物理世界。這需要處理三維結構、動態條件和實時互動 [LCB+24]。因此,感知模塊至關重要,它將環境的詳細特征傳遞給后續的模型,確保生成能力植根于具體的上下文中 [PH+24]。

**基于FM的物理感知

向FM提供物理上下文的最簡單方法是提供環境的口頭描述。盡管這些提示可以手動編寫,但許多方法使用自動化工具增強語言描述。例如,一些研究 [MJ+24, CZR+23] 使用視覺模型來檢測和描述物體,而其他研究 [BCF+23, HW+23] 則利用可操作性學習來豐富FM對物體在物理環境中如何被操作的理解。除了被動接收信息,最近的工作使智能體能夠決定何時以及觀察何種類型的信息,從而促進主動感知。例如,[QZL+24] 允許FM查詢經過微調的模型,獲取環境細節;這些響應逐步構建場景描述。

**協作感知

在多智能體系統中,協作感知旨在融合來自不同智能體的互補傳感輸入,從而提升整體性能 [YYZ+23]。在自動駕駛或無人機編隊中,這通常通過傳感器級的數據共享或輸出級融合實現 [SRC24]。在基于FM的系統中,協作智能體可以通過聚合每個智能體的本地地圖或視覺數據,共同構建環境的全局記憶。例如,[YKC23] 融合了來自多個智能體RGBD輸入的語義地圖,[TXL+20] 使用每個智能體觀察的3D重建形成共享環境的整體3D狀態和語義記憶。

3.2 規劃

規劃是多智能體具身系統的核心模塊,使得智能體能夠基于狀態、目標和個體能力進行戰略部署。有效的規劃對于任務分配、協調以及無縫整合生成FM的能力至關重要。

**規劃格式

規劃方法通常采用基于語言或基于代碼的格式。基于語言的規劃使用自然語言引導任務流,具有直觀性和易適應性,尤其是在先進FM的出現之后 [MJ+24, YKC23]。相比之下,基于代碼的方法利用結構化編程或領域特定符號(例如PDDL)來實現更高的精確度。[KVM24] 使用Python代碼框架來描述整體任務流程,[ZQW+24] 將任務轉換為PDDL問題,以便分配給多個機器人。

**規劃過程

除了個體決策外,多智能體協作還要求達成共識、解決沖突和共享資源。在集中式系統中,單一模型通常負責分配子任務。例如,[LTW+24] 根據每個智能體的能力生成行動列表,[OA+24] 集成FM和線性規劃來解決任務劃分,[CYZ+24] 則利用“機器人簡歷”來進行FM驅動的任務分配討論。在去中心化系統中,智能體直接溝通以優化集體計劃,并通過強大的信息交換得到支持,這將在下一小節中進一步探討。

3.3 通信

通信是MAS的核心,使得智能體能夠共享情況更新、協調任務并達成共識。與傳統方法需要繁瑣的通信協議設計不同,生成智能體可以利用FM的零-shot語言生成能力,降低了構建高效通信接口的復雜度。 參考 [SWJ+22],我們將具身AI中的多生成智能體通信模式分為三種主要結構:

  • 星型結構:一個虛擬的中央智能體控制消息流動,向其他智能體廣播計劃或指令。許多集中式架構的工作都探索了這種方法 [KVM24, YKC23]。
  • 完全連接(FC):每個智能體與其他所有智能體自由通信,利用FM驅動的消息。例如,[MJ+24] 使用兩個機器人臂之間的FM對話來協調操作任務。在CoELA [ZDS+24] 中,每個智能體通過記憶檢索當前狀態信息,并通過FM生成通信內容。
  • 層次結構:通過建立領導結構來提升可擴展性并減少通信開銷。[CJ+24, LYZ+24, GHL+24] 顯示了如何通過領導角色來引導或過濾通信,從而提高效率和結果。

3.4 反饋

具身任務復雜且不確定,因此反饋機制對智能體改進至關重要。反饋使智能體能夠調整和優化行為,允許它們根據當前狀態、環境變化或外部指導進行持續學習。

**系統反饋

系統反饋是指在采取行動之前由系統內部生成的信息。這涉及到智能體或集中模型重新審視其初始計劃,以識別缺陷或潛在改進之處。多個研究 [LZD+24, CYZ+24, ZMR+23] 實現了任務生成后的多智能體討論階段,通過同行反饋完善行動列表。[CAD+24] 和 [ZQW+24] 使用FM檢查器來驗證基于代碼的計劃,確保語法正確性。同時,[ZYB+24] 提出了優勢函數來評估并迭代優化計劃,[LY+23] 使用FM來預測計劃結果,隨后通過另一個FM評估計劃質量,從而推動迭代改進。

**環境反饋

環境反饋發生在執行物理(或模擬)世界中的行動后。許多研究記錄現實世界的結果以指導未來決策。例如,[LTW+24] 和 [YPY+24] 將行動結果存儲在記憶中,以便未來規劃參考,而 [QZL+24] 和 [NO+24] 則評估失敗的根本原因并相應調整行動計劃。此外,多智能體的組織結構可以在任務執行過程中根據環境信號重新配置。[CSZ+23] 動態更新角色,[GHL+24] 使用FM批評者來評估智能體表現,甚至重新組織領導角色。

**人類反饋

外部人類指導可以提供細致的干預和戰略方向,這是純自動化系統無法實現的。例如,[PL+23] 識別模糊或不可行的任務指令,要求人類提供幫助,而 [WHK24] 和 [RDB+23] 則結合了符合預測來衡量任務的不確定性并觸發人類幫助請求。除了請求幫助,[CK+23] 和 [SH+24] 允許人類操作者通過口頭指令實時調整機器人的動作,從而提高任務成功率。 總之,感知、規劃、通信和反饋成為將高層次協作架構轉化為實際生成多智能體解決方案的基礎支柱。無論智能體是通過分布式配置進行外在協作,還是通過單一具身內部的多個FM進行內在協作,強大的支持模塊都確保了在現實環境中的適應性和魯棒性。 下一節將深入探討具體的應用領域,展示這些功能模塊如何協同工作以應對多樣的具身任務。通過將架構原理(第2節)與模塊化功能結合,并將其植根于實際場景,我們旨在提供一個全面的視角,展示如何在EMAS中有效實現生成多智能體協作。

4 下游任務:從仿真到現實世界部署

在前面的架構和功能模塊的基礎上,本節探討了生成式多智能體協作如何從受控的仿真環境過渡到現實世界應用。盡管許多進展是在虛擬平臺上驗證的,但這些仿真洞察為解決智能交通、家庭機器人學和具身問答等復雜問題奠定了基礎。

**4.1 仿真平臺

前面的部分介紹了多智能體協作如何在結構和功能上得到啟用。現在,仿真環境作為一個關鍵層次,用于測試這些設計,使研究人員能夠系統地改進智能體交互,而無需承擔現實世界操作的成本或風險。網格世界范式 網格世界具有基于單元格的結構,重點是決策制定和路徑規劃,同時抽象掉了物理細節。通過采用基于FM的翻譯和檢查框架,[CAD+24] 改進了多智能體在網格任務中的表現,[ZMR+23] 引入了反饋機制來增強網格運輸任務的表現。[CAZ+24] 進一步評估了在網格設置中各種基于FM的多機器人架構,強調了這些簡化的世界如何幫助快速驗證協作設計。基于游戲的協作場景 像《Overcooked》這樣的基于游戲的平臺提供了明確的規則、時間限制和智能體間強制協調的任務 [YJ+24, AF+23, ZYB+24]。FM協調還擴展到其他結構化游戲,如《Hanabi》和《Collab Games》,展示了生成式方法如何適應不同的基于團隊的挑戰。對于更具開放性的任務,《Minecraft》 [WXJ+23, PC+24] 推動了更大環境和無盡目標的應用。最近的研究 [PC+24, ZC+24, QZL+24] 聚焦于協作探索,而其他研究 [CJ+24, CSZ+23, ZMC+24] 則解決了資源收集或結構構建的問題。高級3D環境與機器人仿真 現實感仿真器旨在更緊密地模仿現實生活中的復雜性。AI2-THOR [KM+17] 提供了精細渲染的室內場景,并用于多智能體家庭任務 [KVM24, WHK24, LLG+22, SSY+24]。類似地,VirtualHomeSocial [GHL+24]、BEHAVIOR-1K [LTW+24] 和基于Habitat的基準平臺 [CYZ+24] 使智能體能夠在物體操作和導航中發展協作策略。這些平臺幫助架起了算法開發與物理部署之間的橋梁。

**4.2 新興應用

憑借驗證過的架構和強大的功能模塊,研究人員已開始面臨終極挑戰:將仿真學習轉化為可行的物理部署。從智能交通到家庭機器人學,以下小節展示了生成式多智能體協作如何適應現實世界的需求,突顯了這些系統的成熟度和面臨的挑戰。智能交通與配送 智能交通中的多智能體協作涵蓋了無人機/地面無人車(UAV/UGV)的協調任務,如貨物配送和環境監測。早期的研究主要利用多智能體強化學習(MARL),但現在基于FM的解決方案開始出現。[GW+24] 探討了基于FM的初步任務分配用于監視任務,[WTL+24] 將生成模型應用于跟蹤目標分配,表明基于語言的策略能夠迅速適應動態場景。家庭輔助機器人 許多3D仿真基準平臺,包括AI2-THOR和Habitat,最初是為了模擬家庭環境而設計的。家庭任務,如“清理桌子”或執行指令“打開書桌和地板燈并看電視”,要求具備強大的感知、規劃和通信能力。研究 [KVM24, WHK24, LGZL24, MJ+24, ZYB+24] 展示了多個智能體如何共享角色、解讀指令并劃分復雜任務。生成模型進一步簡化了協調,使得任務分配更具適應性,并豐富了人機交互。超越探索:具身問答(EQA) 具身問答(EQA)涉及在3D空間中的主動探索和推理。與強調物理交互的任務不同,EQA側重于信息的收集與解讀,通常需要對空間布局、物體關系或事件歷史有深刻的理解。多智能體版本通常利用基于團隊的感知來建立全局記憶和達成共識 [TGG+23, TXL+20, PD+24]。[CZR+23] 將專職功能的智能體定位在關鍵位置進行信息貢獻,展示了如何通過FM驅動的協作將觀察結果整合成連貫的答案。 本節通過強調這些仿真基準平臺和現實世界應用,突出了EMAS中的一個關鍵發展軌跡:首先通過結構化的測試平臺進行概念驗證,然后將解決方案過渡到高風險領域。既然已經明確了生成式多智能體協作可以部署的場所和方式,接下來的部分將討論剩余的挑戰,并勾畫出EMAS研究的前景。

5 開放挑戰與未來趨勢

隨著具身人工智能(AI)系統中多智能體協作領域的不斷發展,仍然存在一些開放的挑戰和有前景的未來方向。盡管取得了不少進展,但仍然存在諸多現實世界的障礙,限制了具身系統的應用。本節識別了關鍵挑戰,并概述了潛在的探索和創新領域,以應對這些問題。

**基準測試與評估

一個主要的挑戰是缺乏標準化的評估標準。盡管在單一智能體系統和個體代理的基準測試方面取得了顯著進展,但對于具身多智能體協作的評估仍存在明顯的空白。現有的基準測試通常專注于特定任務的度量,未能充分考慮多智能體環境中互動、協調和涌現行為的復雜性。因此,亟需建立統一的評估標準來全面評估多智能體系統的性能,包括可擴展性、適應性、魯棒性和集體智能等因素。基準測試的發展對于確保不同領域的一致性至關重要,并能夠實現不同多智能體框架之間的有意義比較。

**數據收集與異質性

多智能體協作的另一個挑戰是數據稀缺性和異質性。收集具有不同物理特性和能力的多種系統的大規模、高質量數據是一項艱巨的任務。硬件、傳感器和環境交互的差異導致了數據的不一致性,這使得跨系統和任務的泛化變得困難。現實世界中可用的數據可能有限,阻礙了有效的訓練和評估。此外,由于實際限制,多數多智能體協作的研究是在仿真環境中進行的,只有少數研究采用了現實世界數據。因此,亟需建立標準化的數據收集方法,并且需要創新的方法來彌合仿真與現實應用之間的差距,連接理論與現實。

**具身AI的基礎模型

基礎模型的發展,尤其是面向具身智能體的基礎模型,預計將成為多智能體協作領域的一項突破性進展。目前,生成式智能體主要依賴FM來執行復雜任務,下一步自然是構建專門為具身系統設計的基礎模型。這些模型將作為多智能體協作的核心框架,整合感知、決策和行動。近期的工作,如RT-1 [BB+22] 和RDT [LW+24],在適應性和可擴展性系統的機器人基礎模型方面取得了顯著進展。基礎模型的演進將為更無縫的多智能體協作奠定基礎,使得智能體能夠在動態環境中進行全面的協作和工作。然而,將單智能體FM擴展到多智能體系統仍然面臨挑戰,這需要新的架構和方法。

**智能體的可擴展性

目前,參與協作的智能體數量較少。隨著智能體數量的增加,計算、通信、協調、任務分配和資源管理的復雜性和難度也將增加。此外,在大規模多智能體系統中保持穩定性和魯棒性需要復雜的協調與調度技術。針對可擴展架構、有效的通信協議和協作策略的研究將是解鎖大規模具身系統全部潛力的關鍵。優化智能體工作流程和模式的發展對于在資源意識下擴展這些系統至關重要。

**以人為中心的協作

將機器人集成到以人為中心的環境中仍然是一個重要話題。在許多應用中,多智能體系統不僅需要相互協作,還需要與人類協作。確保機器人能夠在動態和非結構化的環境中與人類無縫合作,需要開發考慮人類認知能力、偏好和局限性的機器人-人類交互(HRI)協議。人機協作引入了額外的挑戰,如安全性、適應性和信任性。在人機團隊合作、共享自主性和直觀接口方面的研究將對促進機器人與人類之間的安全、富有成效的協作至關重要,特別是在醫療保健、工業自動化和服務機器人領域。

**理論基礎與可解釋性

當前的具身多智能體協作方法,尤其是涉及FM的系統,通常缺乏堅實的理論基礎。盡管在開發實際系統方面取得了重大進展,但關于支配智能體交互的潛在原理和集體智能的理解仍然非常有限。對動態協作的深入理論探索,包括通信、協調和共識的作用,是推動該領域發展的關鍵。此外,具身多智能體系統和模型的可靠性與可解釋性在安全關鍵型環境中尤為重要,如自動駕駛和智能鐵路等應用場景。 6 結論

本綜述調查了一個具有潛力的研究領域——具身系統中的多智能體協作,重點探討了如何將生成式基礎模型(FM)集成到具身多智能體系統中。我們強調了基于FM的生成式智能體如何促進動態協作和涌現智能,并從內在和外在兩個角度系統地探索了多智能體協作架構,重點關注感知、規劃、通信和反饋機制等關鍵技術。通過研究從網格世界探索到家庭助理等多種應用場景,展示了基于FM的具身多智能體系統(EMAS)解決復雜問題的潛力,并討論了該領域快速發展過程中所面臨的挑戰和機遇。我們希望本綜述能為研究人員、從業者和相關方提供寶貴的參考,幫助他們全面了解當前的研究現狀,并激發更多先進且可擴展的解決方案,以實現具身多智能體AI的動態無縫協作。

付費5元查看完整內容

近年來,大規模語言模型(LLMs)的快速發展已經徹底改變了科學研究的格局,為研究周期的各個階段提供了前所未有的支持。本文呈現了首個系統性綜述,專門探討大規模語言模型如何革新科學研究過程。我們分析了LLMs在四個關鍵研究階段中所發揮的獨特作用:假設發現、實驗規劃與實施、科學寫作以及同行評審。我們的綜述全面展示了任務特定的方法論和評估基準。通過識別當前面臨的挑戰并提出未來的研究方向,本綜述不僅突出了LLMs的變革潛力,還旨在激發并指導研究人員和實踐者利用LLMs推動科學探究的發展。相關資源可在以下倉庫訪問://github.com/du-nlp-lab/LLM4SR。

1 引言

“如果我看得更遠,那是因為我站在巨人的肩膀上。” —— 艾薩克·牛頓科學研究流程是啟蒙時代系統性探究成就的見證 [17, 58, 58]。在這一傳統范式中,科學研究涉及一系列明確的步驟:研究人員首先收集背景知識,提出假設,設計并執行實驗,收集和分析數據,最后通過經過同行評審的手稿報告發現。這一循環過程促進了現代科學和技術的突破性進展,但仍受到人類研究人員所固有的創造力、專業知識、有限時間和資源的制約。幾十年來,科學界一直在努力通過自動化科學研究的各個方面來增強這一過程,旨在提高科學家的生產力。早期的計算機輔助研究可以追溯到1970年代,出現了如自動數學家(Automated Mathematician)[74, 75] 和 BACON [71] 等系統,這些系統展示了機器在定理生成和經驗法則識別等專門研究任務中的潛力。更近期,AlphaFold [62] 和 OpenFold [4] 等系統則展示了在某些特定研究任務中的開創性努力,顯著加速了相關領域的科學進展,提升速度達到數千倍。然而,直到基礎模型的出現和最近大規模語言模型(LLMs)[2, 154] 的爆發,跨多個研究領域的全面AI輔助才成為現實 [190]。近年來,LLMs取得了顯著的進展,改變了AI和自然語言處理(NLP)等多個領域。這些模型,如GPT-4 [2] 和LLaMA [154],在理解、生成和與人類語言互動方面設立了新的基準。通過大規模數據集和創新架構的支持,這些模型的能力已經超越了傳統的NLP任務,涉及更復雜和領域特定的挑戰。尤其是LLMs處理海量數據、生成類人文本以及在復雜決策中提供支持的能力,已經引起了科學界的廣泛關注 [92, 141]。這些突破表明,LLMs有潛力徹底革新科學研究的開展、記錄和評估方式 [156, 165, 174]。在這篇綜述中,我們探討了LLMs當前在科學研究過程中各個階段的應用。具體來說,我們識別了LLMs展現出顯著潛力的四項任務。首先,我們探討它們在科學假設發現中的應用,LLMs利用現有知識和實驗觀察來提出新的研究思路。接下來,我們回顧它們在實驗規劃和實施中的貢獻,LLMs在優化實驗設計、自動化工作流程和數據分析方面發揮了重要作用。我們還涵蓋了LLMs在科學寫作中的應用,包括生成引用、相關工作部分,甚至起草整篇論文。最后,我們討論了LLMs在同行評審中的潛力,LLMs通過自動化評審和識別錯誤或不一致來支持對科學論文的評估。對于每項任務,我們提供了方法論、基準和評估方法的全面綜述。此外,本綜述還識別了每項任務中的局限性,并突出了需要改進的領域。通過分析LLMs在研究周期各階段的貢獻,本綜述旨在激發研究人員探索新興概念、開發評估指標,并設計創新方法,推動LLMs在研究工作流程中的有效整合。

與現有綜述的比較

與之前的專門研究相比,本綜述提供了更廣泛和更全面的視角,涉及LLMs在整個科學研究周期中的應用。例如,Zhang等人 [187] 綜述了超過260種LLM在各學科科學發現中的應用,主要關注模型架構和數據集等技術層面,未將其角色置于更廣泛的研究過程背景中。類似地,其他綜述通常采用更狹窄的范圍,考察LLMs在一般應用中的特定能力,如規劃 [55] 或自動化 [158],而非其在科學研究工作流程中的集中應用。此外,一些研究討論了與特定研究階段相關的一般方法,但并未專注于LLMs本身,如相關工作和引用文本生成 [89] 或同行評審過程 [33]。相比之下,本綜述整合了這些零散的觀點,提供了LLMs在科學工作流程中貢獻的整體分析,并突出了它們在應對現代研究多樣化和不斷發展的需求中的潛力。

本綜述的結構

如圖2所示,本綜述的結構如下: * §2 討論了LLMs在科學假設發現中的應用,概述了相關方法論和關鍵挑戰。 * §3 聚焦于實驗規劃和實施,重點介紹LLMs如何優化和自動化這些過程。 * §4 深入探討了自動化論文寫作,包括引用和相關工作生成。 * §5 探索了LLMs輔助的同行評審。 對于每個主題,本綜述的結尾部分總結了當前的挑戰和未來方向,以應對這一快速發展的領域。

2. LLMs在科學假設發現中的應用

概述

在“LLMs用于科學假設發現”這一領域出現之前,最相關的前沿研究領域是“基于文獻的發現”和“歸納推理”。我們首先總結了這兩個相關領域的研究(作為歷史背景),然后總結了方法、基準、評估發展趨勢和重要進展,最后總結了發現任務中的主要挑戰。

科學發現的歷史

使用LLMs生成新的科學假設是一個新興的研究課題,主要源自兩個相關的研究領域,即“基于文獻的發現”和“歸納推理”。

**2.2.1 基于文獻的發現

基于文獻的發現(LBD)最早由Swanson[151]提出。其核心思想是“知識可以是公開的,但尚未被發現,如果獨立創建的片段在邏輯上相關但從未被檢索、匯集和解釋。”因此,如何檢索可以匯集以創造新知識的公共知識仍然是一個挑戰。Swanson[151]提出了LBD的經典形式化模型,即“ABC”模型,其中兩個概念A和C被假設為通過某個中間概念B在論文中共同出現而相關聯。最近的工作使用了詞向量[155]或鏈接預測模型[152; 160; 171]來發現概念之間的鏈接以組成假設。然而,經典的LBD方法沒有建模人類科學家在構思過程中考慮的上下文,并且僅限于預測離散概念之間的成對關系[47]。為了克服這些限制,Wang等人[159]首次嘗試將LBD置于自然語言上下文中以約束生成空間,并使用生成的句子作為輸出,而不僅僅是像傳統LBD那樣預測關系。LBD的另一個局限性是長期以來被認為僅適用于非常特定、狹窄類型的假設[159]。然而,科學發現的最新進展表明,LBD可能具有更廣泛的應用范圍。特別是,Yang等人[174]和Yang等人[176]分別與社會學和化學研究人員進行了廣泛討論,發現大多數現有的社會學和化學發表的假設(而不僅僅是狹窄類型的假設)都可以用LBD模式表述。這可能表明未來在社會學和化學中發表的假設也可能來自現有知識的正確鏈接和關聯。

**2.2.2 歸納推理

歸納推理是從特定的“觀察”中找到一個具有廣泛適用性的“規則”或“假設”[175]。例如,地心說、日心說和牛頓的萬有引力定律都是基于對恒星和行星運動的“觀察”提出的“規則”。科學發現是歸納推理的極端任務,其中每個“規則”都是一個新穎的科學發現。科學哲學界總結了歸納推理中“規則”的三個基本要求[113]:(1)“規則”不應與“觀察”相沖突;(2)“規則”應反映現實;(3)“規則”應呈現一個可以應用于比“特定”觀察更大范圍的通用模式,涵蓋觀察中不存在的新信息。之前的歸納推理研究主要由“歸納邏輯編程”社區進行[26],該社區使用形式語言和符號推理器。Yang等人[173]首次在NLP領域進行了生成性歸納推理的研究,即從特定的自然語言觀察中生成自然語言規則,并引入了科學哲學界對歸納推理的要求。受語言模型傾向于生成模糊且不具體規則的經驗啟發,他們提出了第四個要求:(4)“規則”應清晰且足夠詳細。第四個要求可能被科學哲學界忽視了,因為它太明顯了。受這些要求的啟發,Yang等人[173]設計了一種過度生成然后過濾的機制,利用語言模型先生成許多初步規則,然后過濾掉不符合要求的規則。隨后,開發了使用自我精煉代替過濾并使用更多推理步驟以獲得更好規則的方法[120, 163, 191, 194]。然而,這些工作試圖歸納的“規則”要么是已知知識,要么不是科學知識,而是合成的模式。Yang等人[174]首次嘗試將經典的歸納推理任務設置(發現已知/合成知識)擴展到真實的科學發現設置:利用LLMs從公開的網頁數據中自主發現新穎且有效的社會科學科學假設。具體來說,他們收集了關于社會科學概念的新聞、商業評論和維基百科頁面作為網頁數據來發現假設。Majumder等人[107, 108]進一步提出了“數據驅動發現”的概念,即利用網絡上的所有公共實驗數據(以及手頭的私人實驗數據)跨學科發現假設。他們的動機是,大量公開可用的實驗數據的潛力尚未得到充分利用,許多新穎的科學假設可以從現有數據中發現。

方法的發展

在科學發現的方法中,有一個明確的方法發展軌跡。我們首先介紹這一軌跡,然后探討其他方法。

**2.3.1 主要軌跡

總的來說,科學發現的這一方法發展軌跡可以被視為將更多關鍵組件納入方法中。表1總結了我們認為重要的關鍵組件,并指出每種方法是否包含這些組件。具體來說,它們是“靈感檢索策略”、“新穎性檢查器”、“有效性檢查器”、“清晰度檢查器”、“進化算法”、“利用多個靈感”、“假設排名”和“自動研究問題構建”。在這里,每個“關鍵組件”指的是已被證明對科學發現任務有效的詳細且獨特的方法論。我們排除了可能直觀上有幫助但尚不清楚如何從概念中提取特定方法對該任務有效的廣泛通用概念(例如工具使用)。接下來,我們介紹這些關鍵組件。對于每個關鍵組件,我們使用一到兩段文字進行簡要概述,總結其發展軌跡。本節中提到的每種方法的參考信息可以在表1中找到。靈感檢索策略。除了依賴背景知識外,基于文獻的發現(LBD)還促進了額外知識的檢索,作為提出新假設的靈感來源。SciMON[159]首次將LBD的概念引入發現任務,展示了新知識可以通過現有知識的鏈接組成。至關重要的是,靈感不應在之前已知與背景相關,或者至少不應以已知的方式與背景相關聯[176]。否則,假設將不會新穎。受經典LBD形式化中“ABC”模型的啟發,給定背景知識,SciMON檢索語義相似的知識、知識圖譜鄰居和引用圖譜鄰居作為靈感。具體來說,如果兩個知識的SentenceBERT[127]嵌入具有高余弦相似度,則它們被識別為“語義相似”;他們構建的知識圖譜遵循“[方法,用于,任務]”格式。ResearchAgent嚴格遵循“ABC”模型,構建概念圖,其中鏈接表示兩個連接的概念節點曾在同一篇論文中出現過。它檢索與背景概念在概念圖上連接的概念(概念共現)。Scideator基于語義匹配(語義學者API推薦)和概念匹配(包含相似概念的論文,同一主題、同一子領域和不同子領域)檢索靈感論文。SciPIP[164]從語義相似的知識(基于SentenceBERT)、概念共現和引用圖譜鄰居中檢索靈感。它提出了過濾方法,以過濾掉對概念共現檢索無用的概念。與選擇語義或引用鄰居作為靈感不同,SciAgents隨機抽樣另一個與背景概念在引用圖譜中通過長或短路徑連接的概念作為靈感。MOOSE[174]提出使用LLM選擇的靈感:給定研究背景和一些靈感候選者,并要求LLM從候選者中選擇靈感。然后MOOSE-Chem[176]也采用了這種方法。MOOSE-Chem假設在訓練了數億篇科學論文后,最先進的LLMs可能已經具備了一定的能力來識別背景知識的靈感以組成新知識的發現。MOOSE-Chem通過注釋2024年發表的51篇化學論文(這些論文僅在2024年在線提供)的背景、靈感和假設,分析了這一假設,并查看僅使用截至2023年的訓練數據的LLMs是否可以在僅給出背景的情況下檢索到注釋的靈感。他們的結果顯示檢索率非常高,表明這一假設可能基本正確。然后Nova也采用了LLM選擇的靈感,動機是利用LLM的內部知識來確定新想法的有用知識,應該能夠超越傳統的實體或關鍵詞檢索方法。反饋模塊。下一個關鍵組件是對生成的假設在新穎性、有效性和清晰度方面的迭代反饋。這些反饋首先由MOOSE提出,受歸納推理中對假設的要求啟發[113, 173]。這三個方面足夠客觀,可以給出反饋,并且每個方面對于一個好的假設都是必不可少的。

  • 新穎性檢查器。生成的假設應與現有文獻相比是一個新穎的發現。當假設傾向于與現有假設相似時,提供增強其新穎性的反饋可能有助于假設的制定。現有的新穎性反饋方法都基于LLMs。一般來說,有三種提供新穎性反饋的方法。第一種方法將每個生成的假設與相關綜述進行比較(MOOSE);第二種方法迭代檢索相關論文進行比較(SciM SciAgents, Scideator, CoI);第三種方法直接利用LLMs的內部知識進行評估(Qi, ResearchAgent, AIScientist, MOOSE-Chem, VirSci)。
  • 有效性檢查器。生成的假設應是有效的科學/工程發現,準確反映客觀宇宙[113]。真正的有效性反饋應來自實驗結果。然而,為每個生成的假設進行實驗既耗時又昂貴。因此,目前有效性反饋幾乎完全依賴于LLMs或其他訓練過的神經模型的啟發式方法。例外是FunSearch, HypoGeniC, LLM-SR, 和 SGA。具體來說,FunSearch是關于生成數學問題的代碼。編譯器和驗證代碼自然是高效且有效的驗證器;HypoGeniC和LLM-SR專注于數據驅動發現,這意味著它們可以訪問觀察示例,用于檢查與每個生成假設的一致性;SGA創建了一個虛擬物理模擬環境來模擬真實實驗。然而,有效性檢查器仍然是科學發現社區的一個重大挑戰。未來的研究方向包括機器人技術和自動化實驗室,可以自動進行濕實驗(例如生物學和化學實驗)以驗證生成的假設。對于計算機科學相關的假設,未來的研究方向可能是更先進的自動代碼實現系統。
  • 清晰度檢查器。生成的假設應足夠清晰地傳達信息并提供足夠的細節[173]。然而,LLMs傾向于生成細節不足的假設[159]。因此,提供清晰度反饋以細化假設并擴展細節將是有益的[174]。當前的方法(MOOSE, ResearchAgent, MOOSE-Chem, 和 VirSci)都采用LLMs進行自我評估清晰度。 進化算法。進化算法是受生物進化原理啟發的優化算法的一個子集。它假設存在一個“環境”,其中無法適應它的實體將被“淘汰”,而超級實體將從具有某種適應性的實體之間的特征“重組”中進化出來(此過程也稱為“突變”)。這一關鍵組件很重要,因為(1)真實的實驗評估和生成的假設的啟發式評估自然充當“環境”。(2)科學假設發現的本質從根本上可以看作是從僅已知知識輸入到未知但有效知識的突變。盡管目標相似,當前的科學發現方法以不同的方式利用進化算法。FunSearch首次將進化算法引入科學發現任務。他們采用了一種基于島嶼的進化算法,其中每個島嶼是一組相似的方法,每個島嶼不斷突變為新的假設。在某些時間間隔,一些排名最低的島嶼被“淘汰”,并由每個島嶼中表現最好的假設組成的新島嶼形成,鼓勵島嶼之間的優點“重組”。LLM-SR采用了類似的基于島嶼的進化算法。SGA將其作為“進化搜索”,即在每次迭代中生成多個后代并保留最佳選擇。他們還采用了進化交叉,其中LLMs從各種過去的實驗中生成新的假設,以更好地進行探索。MOOSE-Chem將其設計為“進化單元”,以更好地關聯背景知識和靈感知識。具體來說,給定背景和靈感知識,他們首先生成多個獨特的假設來關聯兩者。然后每個假設獨立細化,最后將細化的假設重新組合,以更好地將背景和靈感知識整合成一個連貫的假設。它鼓勵從相同輸入中進行不同的突變變體,并匯集每個突變變體的優點。利用多個靈感。這里討論的“利用多個靈感”(LMI)組件是關于明確識別多個靈感,以便這些識別的靈感將被全部利用到最終假設中(例如,以順序方式)。這很重要,不同的方法有不同的原因。MOOSE-Chem是第一個引入這一組件的,動機是觀察到許多學科如化學和材料科學通常需要多個靈感來制定一個完整且可發表的假設。具體來說,他們將看似無法解決的問題P(hypothesis|research background)分解為許多更小、更實際和可執行的步驟。他們通過為分解制定數學證明來實現這一點。一般來說,較小的步驟涉及識別起始靈感,基于背景和靈感組成初步假設,找到另一個靈感以解決初步假設中的空白,然后使用新靈感組成更新的假設,依此類推。他們通過利用多個靈感的目標是重新發現發表在《自然》或《科學》等高影響力期刊上的化學和材料科學假設。除了MOOSE-Chem,Nova還以連續的方式檢索多個靈感,但目標不同,即生成更多樣化和新穎的研究假設。他們的動機來自IGA的實驗結果,即生成的假設的多樣性趨于飽和。他們確定主要原因之一是輸入背景信息相同,而結合不同的靈感集可以通過引入靈活的輸入在很大程度上緩解這一問題。假設排名。這一關鍵組件是關于提供生成假設的完整排名。這很重要,因為LLMs可以在短時間內生成大量假設,而驗證每個假設的真實實驗室實驗既耗時又昂貴。因此,科學家們知道應該首先測試哪個假設將非常有益。一些方法(例如MOOSE)采用自動評估方法來提供對生成假設的初步理解。自動評估方法自然可以用于排名,但表1僅關注排名在方法論部分的使用方式(而不是在自動評估部分)。大多數方法采用LLMs的評分作為獎勵值,可以用于排名(MCR [145], AIScientist, MOOSE-Chem, CycleResearcher)。FunSearch專注于代碼生成問題,因此可以直接通過運行代碼并檢查結果來精確評估生成的代碼。ChemReasoner[146]微調了一個任務特定的圖神經網絡模型以獲得獎勵。HypoGeniC[193]和LLM-SR[140]專注于數據驅動發現,這意味著他們可以訪問觀察示例,用于檢查與生成假設的一致性,其中一致示例的數量可以用作排名的獎勵值。與直接預測獎勵分數不同,IGA采用成對比較,因為他們發現當直接要求預測最終分數或決策時,LLMs的校準效果較差,但在要求判斷哪篇論文更好時可以達到非平凡的準確性。受IGA[141]啟發,CoI[77]提出了一個成對自動評估系統,名為Idea Arena。Nova[49]也采用了成對自動評估方法。自動研究問題構建。這一關鍵組件是關于自動構建研究問題,以便自動化科學發現方法可以將其作為輸入來發現假設。這表明LLM系統在科學發現中的不同角色:沒有它,LLM作為副駕駛,依賴研究人員提出好的研究問題;有了它,系統以“全自動駕駛”模式運行,能夠獨立發現而無需人工輸入。“全自動駕駛”模式首先由MOOSE引入,并被視為科學發現的“自動化”設置。具體來說,他們采用基于LLM的代理不斷搜索與學科相關的網絡語料庫以找到有趣的研究問題。AIScientist通過利用起始代碼實現作為輸入來探索研究方向。MLR-Copilot通過分析輸入論文的研究空白來找到研究方向。SciAgents和Scideator通過直接基于概念配對生成假設來跳過研究問題。VirSci通過利用基于LLM的科學家代理進行頭腦風暴來生成研究問題。CoI通過收集方法的發展線并預測下一步來找到研究問題。Nova直接從輸入論文和常見想法提案模式生成種子想法,跳過研究問題構建步驟。

**2.3.2 其他方法

在本節中,我們介紹了與“主要軌跡”中的方法不同的方法(§2.3.1)。這些方法本身非常多樣化,專注于科學發現的不同方面。例如,Dong等人[30]嘗試使用GPT-4解決極具挑戰性的研究問題:“P是否等于NP”。他們提出了“蘇格拉底推理”,鼓勵LLMs遞歸地發現、解決和整合問題,同時促進自我評估和細化。他們的方法在嘗試證明一個極具挑戰性的現有假設時可能有用。IdeaSynth[118]是一個研究想法開發系統,將想法概念表示為畫布上的鏈接節點。其效果在一個人機交互場景中進行了調查。他們通過實驗室研究發現,使用IdeaSynth的人類參與者可以探索更多替代想法,并與使用強大LLM基線的參與者相比,擴展初始想法的細節。Liu等人[96]首次嘗試將基于文獻的發現和數據驅動發現統一起來。給定一組初始實驗結果,它檢索相關文獻并采用迭代細化方法,不斷改進假設以使其與實驗結果一致,并利用檢索到的文獻中的發現。Weng等人[167]提出了一個雙系統,包括CycleResearcher和CycleReviewer,其中CycleResearcher負責想法制定和論文寫作,CycleReviewer負責對撰寫的論文進行評分。雙系統具有協同作用,CycleReviewer的評分可以組成偏好數據來訓練CycleResearcher。雙系統僅專注于想法制定和論文寫作,跳過實驗規劃和實施。Li等人[80]提出了微調LLMs以成為更好的想法生成器,并引入了一個新穎的框架,采用兩階段方法結合監督微調(SFT)和可控強化學習(RL)。他們專注于可行性、新穎性和有效性維度。維度控制器能夠動態調整生成過程。

基準

總的來說,自動化科學發現中的任務可以分為“基于文獻的發現”和“數據驅動發現”。研究人員分別為每個任務設計了不同的基準。

**2.4.1 基于文獻的發現

基于文獻的發現通常是關于連接現有出版物中的知識(片段)并將它們關聯起來以創造新知識。在這個過程中,起始知識來自研究背景。研究背景可以看作由兩個部分組成:(1)一個研究問題,和(2)一個背景調查,討論研究問題的最先進方法或知識。有了研究背景中的起始知識,其他要連接的知識通常是通過搜索現有出版物獲得的。這里的其他知識被稱為“靈感”[159, 174]。然后研究背景和檢索到的靈感被關聯起來以創建一個“假設”。 表2總結了基于文獻的發現基準,旨在實現新穎的科學發現。關鍵組件是研究問題、背景調查、靈感識別和假設。假設從“摘要”部分[159]、“方法論”部分[174, 176]或“未來工作”和“局限性”部分[68]收集。表2還包括數據集的大小(分析的論文數量)、論文的學科和論文的發表日期。  一些基準可以用于訓練,因為它們的大小較大[119, 159],而一些主要用于評估,因為它們由博士生注釋[68, 174, 176]。

**2.4.2 數據驅動發現

Majumder等人[107]提出了“數據驅動發現”的概念。這里的“數據”指的是實驗結果。他們的動機是,鑒于大量(公開和私人的)現有實驗結果在線可用,LLMs可能能夠找到這些數據的一般模式,其中一般模式可能是一個新穎的研究假設。鑒于具體觀察與一般假設之間的關系,“數據驅動發現”與歸納推理任務非常相關,其中觀察空間是網絡上所有公開可用的實驗結果和手頭的私人實驗結果。DiscoveryBench[108]是第一個數據驅動發現基準。它包含從20多篇已發表論文中手動提取的264個發現任務和903個合成任務。任務的輸入包括一個研究問題和一組實驗數據。目標是回答研究問題,并提供一個可以由實驗數據支持的假設。它還引入了生成假設的結構化形式化,即假設應由三個部分組成:上下文、變量和關系。具體來說,假設是關于在上下文中兩個變量之間的關系。DiscoveryWorld[57]是第一個具有虛擬環境的發現基準。其主要動機有兩個:(1)真實世界的實驗成本高昂且需要大量領域專業知識;(2)從任務特定細節中抽象出來鼓勵開發更通用的發現方法。為了解決這些挑戰,它建立了一個虛擬環境,供代理發現假設。它包括120個不同的挑戰任務,其中假設反映了世界的真實模式。

評估發展趨勢

科學發現任務的評估方法多種多樣。可以說,幾乎每篇提出新方法論的論文都使用了不同的評估方法。然而,它們的指標表現出顯著的交叉點,并且可以觀察到這些工作中評估方法的一些新興趨勢。評估標準的交叉點是“新穎性”、“有效性”、“清晰度”和“顯著性”。一些較少使用的評估標準包括“相關性”、“趣味性”和“有用性”。“有效性”的替代名稱是“可行性”。在許多情況下,它們可以互換使用。“有效性”指的是發現的科學知識是否準確反映客觀世界,而“可行性”關注工程發現的實用性。“有用性”是一種主觀評估,基于發現系統的目標是作為研究人員的副駕駛;因此,研究人員對其感知的有用性可能被認為是重要的。在評估者選擇方面,評估方法可以分為基于LLM的評估和基于專家的評估。LLM的直接評估在社會科學中顯示出與專家評估的高度一致性[174]。然而,在自然科學學科如化學中,LLMs被認為缺乏提供可靠評估的能力[146]。專家評估通常被認為是可靠的。然而,在化學等具有挑戰性的領域,即使是專家的直接評估也可能缺乏足夠的可靠性[176]。這是由于(1)學科的復雜性;(2)研究主題的微小變化可能需要完全不同的背景知識進行評估,而專家通常有專門的研究重點,可能無法涵蓋相對可靠評估所需的全部知識。基于參考的需要,評估方法可以分為直接評估和基于參考的評估。由于直接評估的可靠性問題,基于參考的評估作為一種替代方法[68, 108, 176],它計算生成假設中提到的關鍵組件與真實假設的匹配程度。此外,除了直接為生成的假設分配標量評估分數外,Si等人[141]提出了基于比較的評估,以緩解LLM直接評分評估的不足:要求LLM評估者不斷比較生成的假設對,直到可以進行排名。它可以在比較兩種方法生成的假設質量時使用,但可能無助于判斷假設的絕對質量。然而,最終的評估應僅通過真實(濕實驗)實驗進行。這給機器人技術和自動實驗實施領域帶來了挑戰。

主要進展/成就

Yang等人[174]首次證明了LLMs能夠生成新穎且有效的科學假設,并通過專家評估確認。他們找到三名社會科學博士生直接評估生成的社會科學假設的新穎性和有效性。然后Si等人[141]提供了第一個關于LLM生成假設的大規模專家評估,雇傭了100多名NLP研究人員。他們得出了一個統計學上顯著的結論,即LLM可以生成比人類研究人員更新穎但略遜于有效性的研究假設。然后Yang等人[176]表明,基于LLM的框架可以重新發現2024年發表在《自然》、《科學》或類似水平上的許多化學和材料科學假設的主要創新(這些假設僅在2024年在線提供),使用僅在2023年10月之前的數據訓練的LLMs。

挑戰與未來工作

挑戰。科學發現是找到尚未通過濕實驗驗證的新知識。在某些學科如化學中,即使是專家對生成的新穎假設的評估也不夠可靠。這導致需要自動進行實驗以驗證大規模機器生成的假設。此外,當前的科學發現方法高度依賴現有可用LLMs的能力。在通用任務上能力更強的LLMs通常也能導致發現質量更好的假設[174]。因此,基于LLM的發現方法可能有一個性能上限,受限于最先進LLMs的能力。然而,我們如何增強LLMs在科學發現任務上的能力在很大程度上(如果不是完全)尚不清楚。第三,目前尚不清楚科學發現的充分內部推理結構:當前的工作嚴重依賴從高質量知識源(例如文獻)中檢索靈感以生成假設。但尚不清楚是否有任何更多的內部推理結構可以幫助這一過程。最后,構建準確且結構良好的基準高度依賴專家。然而,專家組成的基準的規模通常非常有限。目前尚不清楚如何擴展一個準確且結構良好的面向發現的基準。未來工作。第一條未來工作方向是增強自動實驗執行,因為它仍然是測試假設有效性的最可靠方法。這一過程可能因學科而異。在計算機科學中,瓶頸可能是編碼能力,尤其是編程大型系統的能力。在化學或生物學中,瓶頸可能在于進行實驗的機器人技術方法[14]。第二條未來工作方向是增強LLM在假設生成中的能力。目前,如何提高這一能力仍不十分清楚。可能的方面包括訓練數據收集方法和訓練策略。第三條未來工作方向是研究科學發現過程的其他內部推理結構。這可能需要一個跨學科的努力,涉及科學哲學(也稱為科學學)[36]。第四條未來工作方向是研究如何利用LLMs自動收集準確且結構良好的基準。

3. LLMs在實驗規劃與實施中的應用

概述

除了生成假設外,LLMs越來越多地用于科學研究中,以自動化實驗設計并簡化工作流程。LLMs具有全面的內部世界知識,使它們能夠在沒有特定領域數據訓練的情況下在現實世界中執行明智的行動。為了最大化其潛力,LLMs被設計為基于代理的形式,具有兩個關鍵屬性[64]:模塊化和工具集成。模塊化確保LLMs可以與外部系統(如數據庫、實驗平臺和計算工具)無縫交互,而工具增強框架使LLMs能夠作為工作流程中的中央控制器,與專門模塊接口,用于數據檢索、計算和實驗控制。本節探討了LLMs如何具體應用于支持研究想法的規劃實施

優化實驗設計

LLMs通過使科學研究中的工作流程更高效和自適應,正在改變實驗設計過程。它們處理和分析大量數據集的能力使研究人員能夠分解復雜任務,選擇最佳方法,并增強實驗的整體結構。本節探討了LLMs如何在不同領域中促進實驗設計優化。任務分解涉及將實驗分解為更小、可管理的子任務,這一過程通常由現實世界研究的復雜性所必需,以確保與特定研究目標的一致性[55]。許多研究[14, 15, 52, 125, 136, 168]展示了LLMs如何通過定義實驗條件和指定期望輸出來簡化復雜問題。例如,HuggingGPT[136]利用LLMs將用戶查詢解析為結構化任務列表,同時確定執行順序和資源依賴關系。同樣,CRISPR-GPT[52]通過促進選擇適當的CRISPR系統、設計引導RNA、推薦細胞傳遞方法、起草協議和規劃驗證實驗,自動化了基于CRISPR的基因編輯實驗設計。ChemCrow[15]采用迭代推理和動態規劃,使用結構化的“思考、行動、行動輸入、觀察”循環[177]根據實時反饋改進其方法。多LLM系統,如Coscientist[14]和LLM-RDF[131],進一步利用專門代理從文獻中提取方法,將自然語言描述翻譯為標準協議,生成自動化平臺的執行代碼,并在執行過程中自適應地糾正錯誤。高級提示技術,如上下文學習、思維鏈[166]和ReAct[177],通常用于上述研究中,以增強LLM輔助工作流程中實驗規劃的可靠性和準確性。此外,LLMs還能夠通過反思和細化[106, 139]增強實驗設計,這一過程使它們能夠持續評估和改進實驗計劃。例如,通過模擬專家討論,LLMs參與協作對話[81],挑戰假設,并通過迭代分析[90]改進其輸出。這種方法模仿了現實世界中的科學問題解決,其中專家意見之間的差異促進了問題空間的深入探索,并通過嚴格的辯論和綜合不同觀點達成共識。

自動化實驗過程

LLMs通過自動化實驗過程中的重復和耗時的任務,徹底改變了科學研究。這種自動化顯著提高了生產力,使研究人員能夠將數據準備、實驗執行、分析和報告等勞動密集型過程委托給基于LLM的系統[158]。

**3.3.1 數據準備

研究中最耗時的方面之一是數據準備,包括清理[185, 21]、標記[153, 196]和特征工程[46]等任務。大語言模型(LLMs)可以自動化這些過程,特別是在處理大型數據集時,手動數據整理將效率低下。此外,在數據難以獲得的情況下,LLMs可以直接合成實驗數據[82, 85, 98]。例如,在社會科學中,進行人類受試者實驗通常既昂貴又不道德,Liu等人[98]設計了一個沙箱來模擬社交環境,并部署了多個代理(LLMs)進行交互。這種方法使研究人員能夠收集代理社交互動的數據以進行后續分析。

**3.3.2 實驗執行與工作流程自動化

為了自動化科學研究中的實驗工作流程,基于LLM的代理可以通過預訓練[95, 128]、微調[44, 35]和工具增強學習的組合獲得任務特定能力。在大規模數據集上的預訓練提供了基礎知識,而在領域特定數據集上的微調則針對目標科學應用改進了這些知識。為了增強任務執行,LLMs通常與領域特定知識庫[14, 15, 157]或預配置的工作流程[99, 14]結合使用。高級提示技術,如上下文學習和思維鏈提示[99, 179],使LLMs能夠快速適應新的實驗協議。此外,具有任務特定反饋循環的迭代調整允許LLM根據實驗目標改進其輸出[124, 179]。基于這些原則,LLM在不同學科中自動化實驗工作流程中扮演了多樣化的角色。在化學中,ChemCrow[15],一個LLM化學代理,利用18個專家設計的工具自主規劃和執行復雜的化學合成,橋接計算和實驗領域。同樣,Coscientist[14]將LLM與實驗室自動化集成,優化如鈀催化合成等反應。LLMs還被用于進化搜索策略,以探索廣闊的化學空間[157],從而在減少實驗負擔的同時識別候選分子。Ramos等人[124]將自然語言輸入與貝葉斯優化相結合,用于催化劑合成,簡化了迭代設計周期。此外,LLMs還被用于假設情景測試和反應設計,通過假設預篩選最小化實驗迭代[145, 146]。在藥物發現中,ChatDrug[99]集成了提示、檢索和領域反饋模塊,以促進藥物編輯,而DrugAssist[179]通過人機對話迭代優化分子結構。在生物和醫學研究中,如ESM-1b[128]和ESM-2[95]等模型編碼蛋白質序列,捕捉結構特性以進行預測任務,如二級和三級結構預測,消除了勞動密集型實驗的需要。通過在蛋白質家族上微調LLMs,Ferruz和Hocker[35]生成了高度多樣化但功能性的蛋白質序列。此外,He等人[44]引入了一種抗體生成LLM,用于從頭設計SARS-CoV-2抗體,實現了特異性和多樣性,同時減少了對天然抗體的依賴。

**3.3.3 數據分析與解釋

除了自動化實驗執行外,LLMs還通過生成自然語言解釋和構建有意義的可視化來協助數據分析,這對于解釋復雜數據集并確保得出的見解可訪問和可操作至關重要[143]。傳統上,數據分析需要廣泛的統計專業知識、手動計算和大量實驗結果的解釋。LLMs通過自動化統計建模和假設檢驗等任務簡化了這一過程。例如,Li等人[79]展示了LLMs可以作為建模者,提出、擬合和細化基于現實世界數據的概率模型,同時通過后驗預測檢查等技術提供關于模型性能的關鍵反饋。此外,LLMs擅長揭示文本數據中的隱藏模式、趨勢和關系。在社交媒體數據分析中,LLMs提供了對公眾情緒和新興趨勢的見解[172],在環境數據解釋中,它們有助于提高理解和決策能力[114]。此外,它們還在主題分析[27, 126]中發揮了重要作用,幫助識別定性數據中的主題和模式。它們的應用還擴展到金融數據分析,增強了預測和風險評估能力[188]。AutoGen[168]提供了一個通用框架,使多個可定制代理(LLMs)能夠創建多樣化的應用程序。這些代理可以通過自然語言和代碼進行交互,支持廣泛的下游任務,如數據建模和數據分析[61]。

基準

基準對于評估LLMs如何有效支持實驗工作流程的各個方面至關重要。雖然并非專門為LLM輔助的實驗實施創建,但許多基準足夠通用,可以應用于這些任務。例如,MLAgentBench[54]涵蓋了任務分解,幫助分解復雜的研究任務,數據處理,自動化數據加載和轉換等過程,以及工作流程管理,優化機器學習實驗執行。這些基準提供了不同的途徑,因此在方法上有所不同。評估方法從任務成功率、準確性和執行一致性到與人類基準的比較。這些差異突出了LLMs可以集成到研究過程中的多種方式。表3中提供了更多詳細信息。

挑戰與未來工作

挑戰。將LLMs用于實驗規劃和實施的挑戰既來自其固有局限性,也來自其在領域特定任務中的應用。一個基本限制是它們的規劃能力。正如Kambhampati等人[64]所澄清的那樣,處于自主模式的LLMs通常無法生成可執行的計劃。它們容易產生幻覺,這可能導致不合理的計劃、偏離任務提示或無法遵循復雜指令[55]。在多階段實驗環境中,提示的魯棒性構成了另一個關鍵挑戰。提示措辭的微小變化,即使傳達了相同的意圖,也可能導致整個規劃和執行過程中的指導不一致[195],可能影響實驗結果。此外,自回歸LLMs的慢處理速度可能會阻礙迭代和多步驟實驗規劃中的實時反饋,限制其效率。應用特定挑戰包括適應專門角色的困難,因為LLMs難以模擬領域特定的科學專業知識和認知過程,這對于跨研究領域的泛化至關重要[167]。例如,某些實驗可能需要模擬倫理敏感或容易出錯的場景,這通常與LLMs中嵌入的安全對齊價值觀相沖突。未來工作。未來的研究應通過增強核心模型能力并針對實驗任務的獨特需求進行定制來解決這些挑戰。為了減輕幻覺風險,可以在工作流程中集成穩健的驗證機制,例如與外部聲音驗證器交叉引用輸出[64]或采用實時反饋循環動態糾正不準確性[59]。提高提示魯棒性可能涉及開發自適應系統,監控和修改提示結構以響應上下文變化,確保規劃階段的一致性。效率提升可以通過創建更快的、蒸餾版本的LLMs,優化多步推理或結合LLMs與更小的、任務特定模型的混合系統來實現,以平衡速度和準確性。為了更有效地適應角色,可以使用高質量領域特定數據集微調LLMs或開發模塊化框架,以更精確地模擬專門科學推理。此外,設計自適應對齊協議可能允許LLMs在解決特定實驗目標時安全地模擬倫理復雜場景。

4. LLMs在科學論文寫作中的應用

概述

本節探討了LLMs在科學論文寫作中的三個關鍵領域的集成:引用文本生成(§4.2)、相關工作生成(§4.3)和起草與寫作(§4.4)。我們研究了使用的方法、這些模型的有效性以及自動化科學寫作中面臨的挑戰。此外,我們還討論了這些任務中使用的評估指標和基準。

引用文本生成

在引用論文的上下文中,引用文本生成任務旨在為一組待引用論文生成準確的文本摘要。LLMs通過提供豐富的上下文理解和連貫性,在自動化引用文本生成的各個方面發揮了關鍵作用,采用了多種方法來增強準確性和可用性。Xing等人[170]的一項初步研究使用了一個指針生成器網絡,該網絡可以基于交叉注意力機制從手稿和引用論文的摘要中復制單詞來生成引用文本。Li和Ouyang[88]提示LLM生成強調引用網絡中論文對之間關系的自然語言描述。另一方面,像AutoCite[161]和BACO[40]這樣的模型通過采用多模態方法,將引用網絡結構與文本上下文相結合,生成上下文相關且語義豐富的引用文本。此外,Gu和Hahnloser[43]、Jung等人[63]允許用戶指定諸如引用意圖和關鍵詞等屬性,將這些屬性集成到結構化模板中,并微調語言模型以生成符合其需求的引用文本。

相關工作生成

該任務涉及基于前沿參考論文為科學論文創建相關工作部分[45]。與傳統的多文檔摘要模型[23, 51]相比,LLMs在處理科學文檔特有的廣泛輸入長度和提供豐富的上下文理解方面展示了顯著的能力。LLMs在各種自然語言理解和生成任務中的成功,結合其大上下文窗口,最近實現了更全面和細致的文獻綜述,促進了跨不同研究領域的深入見解和聯系。Martin-Boyle等人[109]、Zimmermann等人[197]開發了案例研究,探索使用ChatGPT進行文獻綜述任務和相關工作生成,展示了其通過快速掃描大量科學出版物數據集并生成相關工作部分的初稿來協助研究人員的能力。然而,直接在學術寫作中使用LLMs可能會導致幻覺問題,生成的內容可能不基于事實數據,無法準確反映最先進的研究。為了解決這些問題,許多工作基于檢索增強生成(RAG)[76]的原則,通過從外部來源檢索事實內容來增強基于LLM的文獻綜述生成[3, 50, 138, 150, 181]。例如,LitLLM[3]利用RAG從網站上檢索相關論文并重新排序,減少了進行全面文獻綜述所需的時間和精力,同時最小化幻覺問題。HiReview[50]進一步將基于RAG的LLMs與基于圖的層次聚類相結合。該系統首先檢索引用網絡中的相關子社區,并生成層次分類樹。然后,LLMs為每個聚類生成摘要,確保全面覆蓋和邏輯組織。Nishimura等人[112]集成了LLMs,強調相關工作部分中的新穎性聲明。通過將新研究與現有工作進行比較,LLMs幫助生成相關工作部分,明確突出新內容和不同之處,從而為目標論文與先前文獻之間的比較做出更有影響力的貢獻。

起草與寫作

在自動化科學寫作領域,LLMs被用于從生成特定文本元素到撰寫整篇研究論文的各種任務。對于更具體的寫作任務,August等人[8]提出了生成具有可控復雜性的科學定義,以適應不同的受眾,而SCICAP[48]則自動化了科學圖表的標題生成,能夠快速準確地描述視覺數據。更全面的系統,如PaperRobot[160],引入了增量起草方法,LLMs根據用戶輸入幫助組織和起草論文的各個部分。同樣,CoAuthor[73]采用了一種協作的人機方法,LLMs通過生成建議和擴展文本來幫助作者。對于完全自主的寫作,Ifargan等人[56]探索了LLMs如何從數據分析到最終草稿生成完整的研究論文,而AutoSurvey[165]展示了LLMs通過綜合和組織現有研究來自主撰寫全面綜述的能力。最后,AI Scientist[103]和CycleResearcher[167]提出了一個更廣泛的系統,不僅起草科學論文,還參與了整個科學過程,包括假設生成和實驗設計,突顯了完全自動化科學發現和寫作的潛力。

基準

我們總結了自動化科學論文寫作系統的評估方法,涵蓋三個關鍵領域:引用文本生成、相關工作生成以及起草與寫作。表4提供了每個任務的具體數據集、指標和基準的全面總結。引用文本生成。ALCE[38]基準是主要標準。它從三個維度評估系統:流暢性、正確性和引用文本的質量。ALCE旨在測試模型在不同領域中生成帶有準確引用的長文本答案的能力。其數據集涵蓋了從維基百科到網絡規模文檔集合的廣泛問題類型。CiteBench[37]是另一個基準,它統一了多個現有任務,以標準化引用文本生成在不同設計和領域中的評估,使用定性和定量指標。相關工作生成。目前,沒有一個單一基準被普遍認可用于此任務,因為任務定義和簡化假設在各種研究中存在巨大差異[89]。然而,大多數工作都建立在語料庫級數據集上,常用的科學文章來源包括:ACL Anthology Network (AAN) Corpus[123]、SciSummNet[178]、Delve[5]、Semantic Scholar Open Research Corpus (S2ORC)[102]和Citation Oriented Related Work Annotation (CORWA)[86]。摘要指標ROUGE[93]是最常用的自動評估方法,一些工作還使用了翻譯指標BLEU[115]。此外,人工評估通常從流暢性、可讀性、與目標論文的一致性以及引用工作的相關性和信息量等方面進行評分,采用五點Likert量表。起草與寫作。SciGen[111]基準支持從科學表格中進行推理感知文本生成的評估,突顯了算術推理在文本生成中的挑戰。SciXGen[22]是另一個關鍵基準,評估上下文感知的文本生成,重點關注將外部信息集成到生成文本中。SciGen和SciXGen都使用了如BLEU[115]、METEOR[10]和MoverScore[189]等指標,以及人工評估。

挑戰與未來工作

挑戰。引用文本生成、相關工作生成以及起草與寫作中的挑戰主要源于LLMs的固有局限性,如保持事實準確性、確保上下文連貫性以及處理復雜信息。LLMs經常在幻覺[59]方面遇到困難,生成不正確或不相關的引用,并且受限于它們依賴的檢索系統[53]。有限的上下文窗口進一步限制了模型管理大量引用或全面整合相關文獻的能力[165],可能導致引用順序錯誤和引用分組不當。此外,確保科學嚴謹性并避免依賴表面或瑣碎來源仍然是持續存在的障礙,因為LLMs難以捕捉學術寫作所需的深度和推理[103]。此外,LLMs在學術寫作中的使用引發了重大的倫理問題,特別是關于學術誠信和抄襲[89]。這模糊了作者身份的界限,因為研究人員可能將機器生成的文本作為自己的作品呈現。LLMs還可能生成與現有文獻非常相似的文本,增加了無意中抄襲的風險,生成的文本可能不夠原創。使用LLMs起草論文部分的便利性可能會削弱傳統學術寫作所需的嚴格智力努力,潛在地貶低了學術研究中對學習過程和批判性思維技能的重視。未來工作。為了克服這些挑戰,未來的進展應側重于改進檢索系統并增強模型從多樣化、長上下文來源中綜合信息的能力[87]。這包括開發更好的引用驗證機制、改進多文檔綜合以及引入實時文獻發現,以保持生成內容的最新性。此外,結合領域特定的微調和推理感知模型將有助于生成更準確、上下文相關的科學文本[111]。對寫作過程的細粒度控制,如調整語氣和風格,也將對提高LLMs適應不同學術需求的適應性至關重要[22, 38, 103]。此外,集成人在回路系統,其中人類監督和干預是寫作過程的重要組成部分,可以確保學術工作中固有的智力嚴謹性和批判性思維得以保留[89, 109]。最后,為了解決潛在的倫理問題,學術界必須制定明確的指導方針和倫理標準,以確保學術工作的完整性和原創性。

5. LLMs在同行評審中的應用

概述

同行評審是科學研究的基石。將LLMs集成到同行評審過程中代表了一項重大進展,解決了長期存在的挑戰,如評審者偏見、標準不一致和工作量不平衡[42, 117]。這種集成在學術界獲得了顯著關注,正如主要計算機科學會議采用LLM輔助評審實踐所證明的那樣。例如,ICLR 2025宣布實施基于LLM的系統以支持評審者的評估過程。LLMs在同行評審中的集成已經演變為兩種不同的方法,每種方法都針對評審過程中的特定需求。第一種方法,自動化評審生成,源于處理日益增加的提交量并通過使用LLMs獨立分析研究論文來減少評審者工作量的需求[66, 182]。這些系統旨在評估提交的多個方面,包括方法驗證、結果驗證和貢獻評估,從而在沒有直接人工干預的情況下提供全面的評審報告。第二種方法,LLM輔助評審工作流程,是在認識到人類專業知識在學術評估中仍然至關重要的同時,承認某些評審任務可以從自動化中受益[69]。這些工作流程將LLMs作為補充工具,協助人類評審者完成耗時但定義明確的任務,如論文摘要、參考文獻驗證和內部一致性檢查,同時將關鍵評估和判斷留給人類專家。這些方法采用多種方法來提高評審效率、一致性和質量。為了系統地評估和改進這些系統,研究社區開發了專門的同行評審基準,這些基準具有雙重目的:提供標準化的訓練數據集并建立性能評估指標。本章探討了這些方法、其評估框架,并總結了實施挑戰和未來研究方向。

自動化同行評審生成

自動化同行評審生成旨在通過探索LLMs如何以最少的人工干預生成全面的評審來簡化科學評估。通過輸入科學文章,這些系統專注于生成完整的同行評審或元評審,采用各種技術來增強反饋的深度、準確性和相關性。當前的自動化同行評審生成方法可以分為兩種主要策略:單一模型多模型架構。單一模型方法通過復雜的提示技術和模塊化設計優化評審生成過程。這些系統通常采用精心設計的提示,以引導模型關注論文的特定方面,如方法、結果和貢獻[132]。在單一模型范式中,提出了幾種不同的架構方法。CGI2[184]超越了之前的方法:MetaGen[11]使用了兩階段管道,包括提取摘要和決策感知的細化;Kumar等人[67]開發了一種神經架構,用于聯合決策預測和評審生成;MReD[135]引入了使用句子級功能標簽的結構控制生成。基于這些基礎,CGI2通過模塊化設計實現了分階段評審過程,首先從論文中提取關鍵意見,然后總結優點和缺點,最后通過迭代反饋在清單引導的框架下細化這些輸出。這種迭代過程增強了評審的深度和相關性,但可能難以處理涉及高度復雜方法或超出上下文窗口的長篇內容。采用不同方法,CycleReviewer[167]使用強化學習實現了端到端的評審生成方法,通過反饋循環不斷改進評審質量。雖然CycleReviewer在提高評審精度和清晰度方面表現出色,但其對大量計算資源的依賴可能限制其可擴展性。同時,ReviewRobot[162]利用知識圖譜系統地識別和結構化知識元素,通過結構化生成過程將其轉化為詳細的評審評論。ReviewRobot展示了顯著的可解釋性和基于證據的推理,但其預定義模板的靈活性限制了其適應性。另一種策略采用多模型架構,通過利用多個專門模型來處理評審過程的不同方面,代表了一種更復雜的方法。這種方法提供了幾個優勢,包括更好地處理復雜論文和通過專門知識增強評審質量。Reviewer2[39]實施了兩階段過程:一個模型生成特定方面的提示,而另一個模型利用這些提示創建詳細、有針對性的反饋。這種提示生成和評審創建的分離允許更細致和有針對性的反饋,但由于缺乏集成框架,通常會導致部分或偏見的評審。為了解決這些限制,SEA[180]采用了單獨的模型進行標準化、評估和分析,提供了更全面和平衡的方法。該系統將多個評審統一為單一格式,顯著減少了反饋中的冗余和不一致性。此外,SEA引入了不匹配分數來衡量論文與生成評審之間的一致性,并結合自我糾正策略以迭代方式提高評審質量。雖然這些功能使SEA在一致性和全面性方面超越了Reviewer2,但協調多個模型的輸出增加了復雜性。基于專業化但解決不同挑戰,MARG[28]解決了處理超出典型LLM上下文限制的論文的問題。通過引入多代理框架,MARG將評審任務分配給多個專門模型,允許對較長論文進行全面評審,同時在整個文檔中保持對細節的關注。這種創新方法確保了詳細、特定方面的反饋,但也帶來了新的挑戰,如協調各種代理的通信和輸出,增加了確保一致性和對齊的難度。每種架構方法都提供了獨特的優勢并面臨獨特的挑戰。單一模型方法受益于更簡單的實現和對評審過程的更直接控制,但可能難以處理較長或更復雜的論文。多模型架構提供了更大的可擴展性和更好地處理復雜評審任務的能力,但它們需要仔細協調,并面臨組件之間的一致性挑戰。例如,ReviewRobot的結構化方法提供了可解釋性和可操作的見解,但不太適應不斷發展的研究領域,而CycleReviewer的迭代改進提高了動態適應性,而無需大量訓練資源。隨著這一領域的研究進展,結合單一模型的簡單性和多模型設計的適應性,為提高評審質量、一致性和全面性提供了一個有前途的途徑。

LLM輔助的同行評審工作流程

與完全自動化的評審生成不同,LLM輔助的同行評審工作流程專注于增強人類評審者的能力,而不是取代他們。最近的研究強調了這種人類-AI協作方法在學術同行評審中的關鍵重要性。[31, 12, 133]的研究強調,雖然LLM可以提高效率,但人類監督對于維護倫理標準和評審完整性仍然至關重要。像AgentReview[60]這樣的系統在實踐中展示了這種協同作用,其中LLM生成初步見解,人類評審者隨后進行細化和驗證。LLM輔助的同行評審工作流程增強了科學評審過程中的三個主要功能:(1)信息提取和摘要,幫助評審者快速掌握論文內容;(2)手稿驗證和質量保證,支持系統驗證論文主張;(3)評審寫作支持,協助生成結構良好的反饋。在信息提取和摘要功能中,系統自動化文檔理解和綜合以支持評審者理解。PaperMage[101]是一個基礎工具包,集成了自然語言處理和計算機視覺模型,處理視覺豐富的科學文檔,實現了跨多種模態的邏輯結構、圖表和文本內容的復雜提取。補充這種結構分析,CocoSciSum[29]專注于內容摘要,提供可定制的論文摘要,精確控制長度和關鍵詞包含,同時通過其組合控制架構保持高事實準確性。對于手稿驗證和質量保證功能,系統在不同分析層次上運作以確保科學嚴謹性。在局部層次上,ReviewerGPT[97]專門從事系統錯誤檢測和指南合規性,在驗證提交要求的同時有效識別單個手稿中的數學錯誤和概念不一致性。雖然ReviewerGPT專注于內部手稿驗證,PaperQA2[144]通過檢查主張與更廣泛的科學文獻進行全局驗證,采用復雜的語言代理檢測矛盾并驗證斷言。該系統通過識別每篇論文平均2.34個驗證矛盾,同時在其跨文獻分析中保持高事實準確性,展示了強大的性能。此外,Scideator[122]旨在促進想法驗證,通過面重組識別論文之間的新穎和科學基礎的類比。Scideator還包括一個新穎性檢查器,評估主張的獨特性和對既定研究范式的遵守,為評審者提供了增強的能力以嚴格審查手稿。在評審寫作支持功能中,系統采取不同但互補的方法,協助不同專業水平的評審者。ReviewFlow[149]通過上下文反思提示和筆記綜合指導提供智能支架,模擬專家實踐以幫助新手評審者生成結構良好的評審。該系統的逐步方法通過將復雜任務分解為可管理的組件,使那些剛接觸同行評審的人受益。雖然ReviewFlow專注于個別評審者指導,CARE[198]通過集成平臺強調評審寫作的協作方面,具有NLP增強的內聯注釋和實時協作功能,使評審者能夠更有效地合作,同時提供詳細和建設性的反饋[83, 19]。進一步補充這些功能,DocPilot[110]利用模塊化任務規劃和代碼生成能力,自動化文檔工作流程中的重復和復雜任務。其結構化方法管理和注釋科學PDF,確保評審者可以專注于實質性反饋而不是程序障礙,顯著提高了他們的效率。

基準

隨著自動化評審生成和LLM輔助工作流程的不斷發展,研究社區面臨一個關鍵挑戰:系統地評估和比較這些方法。這些基準的開發依賴于標準化的基準,評估LLM生成的評審的不同方面,從生成高質量評審到支持人類評審者的有效性。這些基準可以大致分為三種主要類型:(1)支持整體評估的綜合評審數據集,包括編輯決策、評分和語用分析;(2)專注于特定方面的專門評估數據集,如意見綜合和一致性分析;(3)通過缺陷識別和接受預測來衡量評審有效性的質量評估數據集。表5概述了這些關鍵基準及其相關的評估框架。這些數據集主要來自公開的學術會議,服務于同行評審任務中的多種目的。像MOPRD[94]和NLPeer[33]這樣的綜合數據集提供了廣泛的覆蓋范圍,支持從編輯決策預測到語用標簽的任務。更專門的數據集專注于評審過程的特定方面:ASAP-Review[183]和Reviewer2[39]強調接受預測和覆蓋評估。最近的補充,如ReviewCritique[32],引入了比較人類和LLM生成評審的新機制。這些基準的評估框架涵蓋了多個維度,如表5所詳述。語義相似性衡量生成評審與參考文本的接近程度,通常使用ROUGE和BertScore等指標。連貫性和相關性評估評審的邏輯流程和主題適當性,而多樣性和特異性評估提供的反饋范圍和深度。人工評估,結合專家對評審質量的評估,提供了自動指標的關鍵驗證。這四個評估組件——語義相似性、連貫性和相關性、多樣性和特異性以及人工評估——形成了一個多方面的評估方法,確保全面評估LLM生成的評審在各種質量維度上的表現。

挑戰與未來工作

挑戰。將LLMs集成到學術同行評審中代表了學術評估的重大轉變[91, 92]。隨著學術機構和出版商探索這項技術,理解其局限性和潛力對于學術界至關重要。同行評審的核心在于需要深厚的專業知識、細致的理解和謹慎的判斷。雖然LLMs在支持這一過程中顯示出潛力,但其局限性揭示了自動化學術評估的復雜性。一個基本挑戰是LLMs通常難以完全掌握學術領域中的專門術語和復雜概念。例如,在生物化學中,LLMs可能會誤解特定蛋白質相互作用的重要性,而在理論物理中,它可能無法識別數學模型中微妙但關鍵的假設[192]。這種有限的技術理解直接影響LLMs評估研究方法的能力。當LLMs無法完全理解領域特定概念時,它無法可靠地評估研究方法是否適當或證據是否支持結論。例如,在跨學科研究中,方法標準因領域而異,LLMs通常難以識別關鍵問題,如樣本量不足、不適當的統計測試或缺失的實驗控制[129]。這一限制在確保研究質量和科學完整性的高風險的同行評審中尤為令人擔憂。學術寫作的復雜性引入了額外的挑戰,特別是在處理較長手稿時。即使上下文窗口擴展,LLMs也難以在跨多個部分的復雜論證中保持連貫分析。這一限制經常導致不一致或矛盾的評估[18]。更令人擔憂的是幻覺的持續問題——模型有時會生成令人信服但不正確的評估,特別是在評審新穎研究方法時[28]。此外,在同行評審中實施LLMs面臨超出技術性能限制的額外挑戰。一個基本的基礎設施問題是缺乏專門的訓練數據[65, 184],這在學術學科中造成了不平衡的格局。這種數據稀缺性特別影響了研究社區較小或詞匯專門的領域。同樣令人擔憂的是LLM輔助同行評審的倫理影響。算法偏見和透明度問題[133]與新的學術不端行為形式一起出現,如“抄襲洗錢”[117]。此外,一個關鍵問題是,如果許多研究人員依賴相同的LLM系統進行同行評審,學術反饋的同質化潛力[91]。廣泛使用類似的AI工具可能會減少觀點的多樣性,并削弱來自個體人類評審者獨特思維過程的創造性見解。未來工作。為了推進LLMs在學術論文評審中的能力,必須優先解決幾個基本技術挑戰。首先,當前的LLMs在不同學術領域中的專門技術概念方面遇到困難,需要改進處理和理解領域特定術語的方法。其次,我們需要增強引用分析能力,以驗證參考文獻的相關性并評估引用如何有效支持論文的論點。第三,分析長學術文檔需要新的方法來保持連貫性——從跨部分引用到驗證方法、結果和結論之間的一致性。除了技術改進外,開發有效的人類-AI協作框架至關重要。下一代評審系統必須創建直觀的界面,突出潛在問題并無縫集成到人類工作流程中[31]。這些協作系統必須適應不同的學術領域,特別考慮計算資源有限的學科[132]。對這些人類-AI系統的嚴格評估框架必須確保它們真正提高評審者的效率和有效性[81, 169]。隨著LLM在同行評審中的普及,強大的治理機制變得至關重要。這包括開發可靠的方法來檢測LLM生成的內容,確保透明跟蹤LLM的貢獻,并保持評審者的真實性[91]。此外,我們需要標準化的協議,以安全地將LLM評審工具與現有期刊平臺集成[6]。最后,必須通過全面的評估框架來衡量這些領域的進展。對于技術能力,我們需要系統評估語言理解、引用分析和文檔連貫性方面的改進。人類-AI協作指標應評估LLM建議的質量及其對評審者效率的影響。治理評估必須評估LLM檢測系統的可靠性和平臺集成的安全性。關鍵的是,這些框架應檢查不同學術學科、出版格式和語言背景下的潛在偏見,以確保為所有學術社區提供公平的支持。通過這些有針對性的評估,我們可以指導LLM系統的開發,使其有意義地增強同行評審過程,同時保持其完整性。

6. 結論

本綜述全面探討了LLMs在整個科學生命周期中的變革作用,從假設生成、實驗到寫作和同行評審。通過識別將LLMs應用于這些任務的機遇和挑戰,我們強調了它們當前的能力、局限性和增強科學生產力的潛力。總之,LLMs代表了先進的生產力工具,提供了現代科學研究所有階段的新方法。盡管受到固有局限性、技術障礙和領域特定任務中的倫理考量的限制,LLM能力的持續進步有望徹底改變研究實踐。隨著這些系統的發展,它們集成到科學工作流程中不僅將加速發現,還將促進科學社區中前所未有的創新和合作。

付費5元查看完整內容

多生成智能體系統(MGASs)自大規模語言模型(LLMs)興起以來,已成為研究的熱點。然而,隨著新相關研究的不斷涌現,現有的綜述文章難以全面覆蓋這些進展。本文對這些研究進行了全面的綜述。我們首先討論了MGAS的定義,并提供了一個框架,涵蓋了大量的前期工作。接著,我們概述了MGAS在以下幾個方面的應用:(i)解決復雜任務,(ii)模擬特定場景,以及(iii)評估生成智能體。此外,基于以往的研究,我們還重點指出了一些挑戰,并提出了該領域未來研究的方向。

1 引言

多智能體系統(MAS)因其適應性和解決復雜分布式問題的能力,得到了顯著擴展(Balaji 和 Srinivasan,2010)。與單智能體設置(Gronauer 和 Diepold,2022)相比,MAS 更能準確地反映現實世界,因為許多實際應用自然涉及多個決策者的同時互動。然而,由于傳統強化學習(RL)智能體的參數限制以及缺乏通用知識和能力,智能體無法解決復雜的決策任務,例如與其他智能體合作進行開發(Qian 等,2024b)。近年來,大規模語言模型(LLMs),如 Llama 3(Dubey 等,2024)和 GPT-4(OpenAI 等,2024),在大量網絡語料庫上進行訓練并取得了顯著成功(Radford 等)。與強化學習相比,以 LLM 為核心控制智能體的生成智能體,即使沒有經過訓練,也能在推理、長時間決策等方面表現得更好(Shinn 等,2023)。此外,生成智能體提供了自然語言接口,便于與人類進行互動,使這些互動更加靈活且更易于解釋(Park 等,2023)。

基于這些優勢,多生成智能體系統(MGAS)應運而生。研究人員已經對這些新興工作進行了綜述,并提出了一個通用框架(Guo 等,2024)。然而,隨著相關研究數量的不斷增長,出現了一些超出原框架范圍的工作。本文基于以往對多生成智能體系統(MGASs)的綜述,提供了一個新的視角,重點討論了最新的進展并探討了潛在的研究方向。我們收集了 2023 和 2024 年在頂級人工智能會議(如 *ACL、NeurIPS、AAAI 和 ICLR)上發表的 125 篇論文,并結合一些尚未發表但有價值的 arXiv 論文。根據 MGAS 的應用目的,我們將其應用總結為:任務求解、特定問題的仿真以及生成智能體的評估。圖 1 展示了我們提出的 MGAS 應用框架。(i)解決復雜任務。多智能體將自然地將任務拆分為子任務,從而提高任務的執行性能。(ii)特定場景的仿真。研究人員將 MGAS 視為一個沙盒,用于模擬特定領域中的問題。(iii)生成智能體的評估。與傳統任務評估相比,MGAS 具備動態評估的能力,更加靈活且更難發生數據泄漏。對于每一類應用,我們將討論代表性的 MGAS、資源及其評估。 與之前的綜述(Wang 等,2024a;Zhao 等,2024c;Chuang 和 Rogers,2023;Guo 等,2024;Gao 等,2023a;Gronauer 和 Diepold,2022)相比,本文的獨特貢獻如下:(i)與當前趨勢高度相關的分類法:我們基于 MGAS 應用目的,提出了一個更為近期的分類法(如圖 1 所示)。(ii)更多的資源:我們分析了開放源代碼框架以及具有基準或數據集的研究工作,以便為研究社區提供便利。(iii)挑戰與未來:我們討論了 MGAS 中的挑戰,并闡明了未來的研究方向。

付費5元查看完整內容

移動智能體在復雜和動態的移動環境中自動化任務方面至關重要。隨著基礎模型的不斷演進,對能夠實時適應并處理多模態數據的智能體需求也隨之增加。本綜述全面回顧了移動智能體技術,重點關注提升實時適應性和多模態交互的最新進展。近期開發的評估基準更好地反映了移動任務中的靜態和交互式環境,從而對智能體的性能提供更準確的評估。

我們將這些進展分為兩大主要方法:基于提示的方法,利用大型語言模型(LLM)執行基于指令的任務;以及基于訓練的方法,對多模態模型進行微調,以適應特定的移動應用。此外,我們還探討了增強智能體性能的互補技術。通過討論關鍵挑戰并概述未來的研究方向,本綜述為推進移動智能體技術提供了寶貴的見解。完整的資源列表可訪問://github.com/aialt/awesomemobile-agents

1 引言

移動智能體在處理復雜的移動環境中取得了顯著的成功,能夠在各種應用中實現任務執行的自動化,且僅需最少的人為干預 (Zhang等, 2023a; Li等, 2024; Bai等, 2024)。這些智能體被設計用于感知、規劃和執行任務,以適應動態環境,特別適用于需要實時適應性的移動平臺。多年來,關于移動智能體的研究顯著發展,從簡單的基于規則的系統演變為能夠處理多模態和動態環境中復雜任務的先進模型 (Shi等, 2017; Rawles等, 2023)。

在早期階段,移動智能體主要關注通過輕量級的基于規則的系統執行預定義的工作流程,這些系統針對移動設備上的特定任務進行了優化。這些早期智能體通常受限于硬件的計算和存儲約束,主要依賴基本的交互模式和靜態流程。然而,移動技術的快速進步為更先進的智能體架構鋪平了道路,使其能夠執行更豐富的任務。 評估移動智能體面臨獨特的挑戰,因為傳統的靜態評估方法往往無法捕捉現實移動任務的動態和交互特性。為了解決這一問題,最近的基準如AndroidEnv (Toyama等, 2021)和Mobile-Env (Zhang等, 2023a) 提供了交互式環境,以評估智能體在真實條件下的適應性和表現。這些基準不僅測量任務完成情況,還評估智能體在應對不斷變化的移動環境方面的反應能力,從而對其能力進行更全面的評估。

移動智能體研究的最新進展可分為兩種方法:基于提示的方法和基于訓練的方法。基于提示的方法利用大型語言模型(LLM),如ChatGPT (OpenAI, 2023)和GPT-4 (OpenAI, 2023),通過指令提示和鏈式思維(CoT)推理處理復雜任務。OmniAct (Kapoor等, 2024) 和AppAgent (Yang等, 2023)等著名研究展示了基于提示的系統在交互式移動環境中的潛力,但其在可擴展性和穩健性方面仍面臨挑戰。另一方面,基于訓練的方法專注于微調多模態模型,例如LLaVA (Liu等, 2023a)和Llama (Touvron等, 2023),專門用于移動應用。這些模型能夠通過整合視覺和文本輸入來處理豐富的多模態數據,從而提升其在界面導航和任務執行等任務中的表現 (Ma等, 2024; Dorka等, 2024)。

本綜述對移動智能體技術進行了深入分析,重點關注感知、規劃、行動和記憶的基本組成部分。我們將現有研究分為基于提示和基于訓練的方法。此外,我們還探討了用于評估移動智能體性能的基準和指標,并討論了互補技術在增強智能體與移動環境交互中的作用。通過本次綜述,我們旨在識別當前的挑戰和未來在推進移動智能體研究方面的機遇。

付費5元查看完整內容

在蓬勃發展的大型語言模型(LLMs)領域,開發一種健全的安全機制,也就是俗稱的“保護措施”或“護欄”,已成為確保LLMs在規定范圍內倫理使用的當務之急。本文對這一關鍵機制的當前狀態進行了系統的文獻綜述。文章討論了其主要挑戰,并探討了如何將其增強為一個全面的機制,以應對各種情境下的倫理問題。首先,本文闡明了主要LLM服務提供商和開源社區所采用的現有保護機制的現狀。接著,本文介紹了評估、分析和增強護欄可能需要執行的一些(不)理想屬性的技術,例如幻覺、公平性、隱私等。在此基礎上,我們回顧了繞過這些控制(即攻擊)、防御攻擊以及強化護欄的技術。盡管上述技術代表了當前的狀態和活躍的研究趨勢,我們還討論了一些不能輕易用這些方法處理的挑戰,并提出了我們對如何通過充分考慮多學科方法、神經-符號方法和系統開發生命周期來實現全面護欄的愿景。

近年來,生成式人工智能(GenAI)顯著加快了人類邁向智能時代的步伐。像ChatGPT和Sora [1]這樣的技術已經成為推動新一代產業轉型的關鍵力量。然而,大型語言模型(LLMs)的快速部署和整合引發了關于其風險的重大關注,包括但不限于倫理使用、數據偏見、隱私和魯棒性 [2]。在社會背景下,擔憂還包括惡意行為者通過傳播虛假信息或協助犯罪活動等方式的潛在濫用 [3]。在科學背景下,LLMs可以在專業領域使用,并需要專門考慮科學研究中的倫理問題和風險 [4]。

為了解決這些問題,模型開發者實施了各種安全協議,以將這些模型的行為限制在更安全的功能范圍內。LLMs的復雜性,包括復雜的網絡和眾多參數,以及閉源性質(如ChatGPT),都帶來了巨大的挑戰。這些復雜性需要不同于前LLM時代的策略,當時主要關注白盒技術,通過各種正則化和架構調整來增強模型訓練。因此,除了從人類反饋中進行強化學習(RLHF)和其他訓練技能如上下文訓練外,社區還傾向于采用黑盒、事后策略,特別是護欄 [5], [6],它們監控和過濾訓練后的LLMs的輸入和輸出。護欄是一種算法,它將一組對象(例如LLMs的輸入和輸出)作為輸入,并確定是否以及如何采取某些強制措施來減少對象中嵌入的風險。如果輸入與兒童剝削有關,護欄可能會阻止輸入或調整輸出以變得無害 [7]。換句話說,護欄用于在查詢階段識別潛在的濫用,并防止模型提供不應給出的答案。

構建護欄的難點往往在于確定其要求。不同國家的AI法規可能不同,在公司背景下,數據隱私可能不如公共領域那么嚴格。然而,LLMs的護欄可能包括一個或多個類別的要求:幻覺、公平性、隱私、魯棒性、毒性、合法性、分布外、不確定性等。本文不包括典型的要求,即準確性,因為它們是LLMs的基準,嚴格來說不是護欄的責任。也就是說,LLMs和護欄之間在責任(尤其是魯棒性)方面可能沒有明確的界限,兩者應協作以實現共同的目標。然而,對于具體應用,需要精確定義要求及其相應的度量標準,并需要采用多學科方法。緩解給定的要求(如幻覺、毒性、公平性、偏見等)已經很復雜,如第5節所討論的那樣。當涉及多個要求時,這種復雜性更加嚴重,特別是當一些要求可能相互沖突時。這樣的復雜性需要復雜的解決方案設計方法來管理。在護欄設計方面,雖然可能沒有“一統天下”的方法,但一種可行的護欄設計是神經-符號的,學習代理和符號代理在處理LLMs的輸入和輸出方面協作。多種類型的神經-符號代理 [8]。然而,現有的護欄解決方案,如Llama Guard [9]、Nvidia NeMo [10]和Guardrails AI [11]使用的是最簡單、松散耦合的解決方案。鑒于護欄的復雜性,探討其他更深度耦合的神經-符號解決方案設計將是有趣的。

像安全關鍵軟件一樣,需要一個系統化的過程來涵蓋開發周期(從規范、設計、實施、集成、驗證、確認到生產發布),以謹慎地構建護欄,如ISO-26262和DO-178B/C等工業標準所示。本綜述從第2節的一些背景介紹開始。目標是(1)了解現有的護欄框架,這些框架用于控制LLM服務中的模型輸出,以及評估、分析和增強護欄以應對特定理想屬性的技術(第3節);(2)了解用于克服這些護欄的技術,以及防御攻擊和強化護欄的技術(第4節);然后討論如何實現完整的護欄解決方案,包括為特定應用背景設計護欄的一些系統化設計問題(第5節)。

大型語言模型的背景

大型語言模型(LLMs)主要基于Transformer架構 [12],由多個Transformer塊組成的深度神經網絡構成。每個塊集成了一個自注意力層和一個通過殘差連接的前饋層。特定的自注意力機制使模型在分析特定詞元時能夠專注于鄰近詞元。最初,Transformer架構是專為機器翻譯開發的。新開發的利用Transformer架構的語言模型可以進行微調,從而無需針對特定任務的專用架構 [13]。通常,這些網絡包含數千億(或更多)的參數,并在大規模文本語料庫上進行訓練。示例包括ChatGPT-3 [14]、ChatGPT-4 [1]、LLaMA [15]和PaLM [16]。

LLMs被用于各種復雜任務,如對話式AI [17]、翻譯 [18]和故事生成 [19]。當前的LLMs利用的架構和訓練目標類似于較小語言模型,如Transformer架構和以語言建模為中心的任務。然而,LLMs在模型尺寸、數據量、應用范圍的廣度和計算成本等方面顯著擴大。構建離線模型包括三個主要階段 [2]:預訓練、適應性調優和使用改進。通常,預訓練階段類似于傳統的機器學習訓練,包括數據收集、選擇架構和進行訓練。適應性調優包括指令調優 [20]和對齊調優 [21],以從任務特定指令中學習并遵循人類價值觀。最后,使用改進可以增強用戶交互,包括上下文學習 [14]和思維鏈學習 [22]。

在訓練完LLM后,其性能是否符合預期非常重要。此評估通常包括三個維度:評估基本性能,進行安全分析以了解實際應用中的潛在后果,以及利用公開可用的基準數據集。主要的性能評審集中在語言生成和復雜推理等基本能力上。安全分析深入研究LLM與人類價值觀的對齊、與外部環境的交互以及整合到更廣泛應用中的情況,如搜索引擎。此外,基準數據集和可訪問工具支持這一綜合評估。評估結果決定了LLM是否符合預定標準并準備部署。如果不符合,則回到早期訓練階段之一,以解決發現的問題。在部署階段,LLM可以在網頁平臺上用于直接用戶交互,如ChatGPT,或整合到搜索引擎中,如新Bing。無論應用如何,標準做法是在LLM和用戶之間的交互中實施護欄,以確保遵守AI法規。

**護欄的設計與實施技術 **

本節介紹了由LLM服務提供商或開源社區提出的幾種現有護欄技術。然后,我們回顧了根據期望的理想屬性評估、分析和增強LLMs的方法。

護欄框架和支持軟件包

LLM護欄構成了一套旨在監督和規范用戶與LLM應用交互的安全措施。這些措施是可編程的、基于規則的系統,位于用戶和基礎模型之間。其主要功能是確保LLM模型遵守組織的既定原則,并在規定的倫理和操作框架內運行。護欄在用戶與已部署的LLMs交互階段應用,這是LLM生命周期的最后一步。圖1展示了通用護欄機制的生命周期和潛在漏洞。開發者通過數據處理、護欄模型訓練和模型定制或微調(例如,Llama Guard和NeMo Guardrails)完成護欄的開發,如圖1黃色區域所示。這些護欄隨后部署在LLMs中,以促進與用戶的交互。通常,用戶預定義需要保護的內容,也稱為自定義規則。隨后,用戶通過提示與LLMs進行交互并等待生成的響應。護欄根據預定義規則評估輸出以確定其合規性。如果內容被認為不安全,護欄可能會直接阻止或向用戶發出預設警告。相反,如果輸出符合標準,則直接顯示給用戶,如圖1橙色區域所示。值得注意的是,一些現有攻擊方法允許不安全內容繞過護欄保護,如圖1紅框所示;有關這些攻擊方法的詳細討論,請參閱第4節。

欄中(不)理想屬性的技術

在本節中,我們討論幾種不同的屬性,詳細說明它們的標準定義以及如何使用護欄來保護這些屬性。需要注意的是,屬性的數量過于龐大,無法全面覆蓋,因此我們重點關注幻覺、公平性、隱私、魯棒性、毒性、合法性、分布外和不確定性。

克服與增強護欄

如第3節所述,實施先進的保護技術在增強LLMs的安全性和可靠性方面發揮了重要作用。然而,[125]指出,使用護欄并不能增強LLMs抵御攻擊的魯棒性。他們研究了諸如ModerationEndpoint、OpenChatKitModeration Model和Nemo等外部護欄,發現它們僅在一定程度上減少了越獄攻擊的平均成功率。越獄攻擊(“jailbreaks”)旨在通過操縱模型的響應來利用語言模型的固有偏見或漏洞。這些成功的攻擊允許用戶繞過模型的保護機制、限制和對齊,可能導致生成非常規或有害內容,或者任何由對手控制的內容。通過繞過這些約束,越獄攻擊使模型能夠產生超出其安全訓練和對齊邊界的輸出。 因此,本節我們探討了當前用于繞過LLMs護欄的方法。在表2中,我們比較了不同的越獄攻擊: 1. 攻擊者訪問類型: 白盒、黑盒和灰盒。在白盒場景中,攻擊者可以完全查看模型的參數。黑盒情況限制了攻擊者觀察模型的輸出。在灰盒背景下,攻擊者通常對部分訓練數據有部分訪問權限。 1. 提示級別的操控: 用戶提示或系統提示。用戶提示是由用戶指定的輸入提示,允許個性化或針對性的輸入。系統提示則是由模型自動生成的,可能包括攻擊者巧妙設計以欺騙或操縱系統響應的輸出。 1. 核心技術: 用于攻擊LLM的主要技術。 1. 隱蔽性: 高隱蔽性意味著攻擊難以被人類察覺,應該是一些邏輯、語義和有意義的對話,而不是一些無意義的內容。 1. GPT-4 評估: 由于許多越獄攻擊并未直接針對帶有護欄的LLMs,而GPT-4有其默認護欄,因此對GPT-4的評估可以看作是比較的替代指標。 1. 目標操縱的生成響應屬性: 毒性、隱私、公平性和幻覺。

付費5元查看完整內容

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容

智能規劃又叫自動規劃,主要研究在復雜環境下,如何通過自動化的方式生成可行的行動序列,以實現從初始狀態到達目標狀態。大語言模型是指使用大量文本數據訓練的深度學習生成式模型,可以生成自然語言文本或理解語言文本的含義。當前圍繞如何讓大語言模型在強大的常識性知識基礎上獲得生成式智能規劃能力已然成為當下研究的熱潮。本文從大語言模型的視角入手,首先對智能規劃的定義和發展進行概述、簡要介紹了傳統智能規劃的方法;其次基于大語言智能體與智能規劃的緊密關系,介紹了大語言模型的架構和典型的大模型智能體;再次重點圍繞大模型的智能規劃,梳理了規劃語言學習、思維鏈推理、反饋優化和流程自動化共4類規劃方法;最后結合當前的挑戰與困難,介紹大模型進行智能規劃的前沿研究展望。

付費5元查看完整內容
北京阿比特科技有限公司