亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要:大語言模型(LLMs)的快速發展正在深刻變革交通與運輸研究領域。2023至2025年間,LLMs在各類交通應用中的采納與適配呈現爆發式增長,標志著該領域研究范式的重大轉變。然而,現有研究仍缺乏系統性梳理與整合。為此,本文全面綜述了LLMs在交通領域的方法論體系與應用實踐,重點闡釋其處理非結構化文本數據以推動運輸研究的獨特能力。研究涵蓋自動駕駛、出行行為預測和通用交通咨詢等關鍵應用場景,以及零樣本/小樣本學習、提示工程和微調等核心技術方法。

通過系統分析,本文揭示了兩大維度的研究空白:方法論層面,可通過LLMs與傳統工具的融合及模型架構優化予以突破;應用層面,基于現有研究基礎存在大量待探索的交通挑戰解決方案。本綜述不僅明確了LLMs在交通領域應用現狀,更為構建智能化可持續交通系統提出了未來研究方向。

關鍵詞:大語言模型;自然語言處理;交通運輸;交通流;物流引言自古以來,交通與運輸始終是推動人類文明演進的核心動力。從公元前20世紀海上貿易路線主導的帝國興衰,到復雜路網支撐的城市擴張(Gianpaolo等,2013),人員與貨物的流動構成了社會發展的基石。高效運輸系統既促進了經濟增長、文化交流與技術進步,也帶來了擁堵、安全與環境影響等挑戰。20世紀計算機技術的興起徹底變革了交通研究范式。優化算法與預測模型的出現,使得運輸網絡規劃更具系統性與效率。這些進步顯著提升了交通管理、路徑優化和需求預測能力。然而,現代運輸系統產生的多源異構數據(包括數值指標、視頻圖像,以及來自交通報告、社交媒體和傳感器日志的非結構化文本),仍令傳統算法難以有效整合與解析。人工智能的最新進展,尤其是大語言模型(LLMs),為應對這些挑戰提供了新思路。基于Transformer架構(Vaswani等,2017)的GPT-4、BERT等模型,通過海量數據訓練展現出卓越的語言理解與生成能力。其優勢不僅限于自然語言處理(NLP),更體現在:多模態數據融合與推理非結構化信息自動化提取文本與數值數據的協同分析這些特性使LLMs能夠:? 提升交通預測精度? 生成應急規劃場景? 優化資源配置決策? 減少碳排放促進可持續性本文旨在系統梳理LLMs在交通領域的方法創新與應用實踐,重點探討:LLMs最具應用潛力的交通研究場景針對特定交通問題的適配方法選擇現存挑戰與未來機遇全文結構如下:第2章闡述LLMs方法論基礎;第3章按交通/運輸兩大維度分類應用;第4章量化研究趨勢;第5章總結展望。縮寫詞見表1。

付費5元查看完整內容

相關內容

智慧交通的前身是智能交通(Intelligent Transport System,簡稱ITS),ITS是20世紀90年代初美國提出的理念。到了2009年,IBM提出了智慧交通的理念。是將先進的信息技術、通訊技術、傳感技術、控制技術及計算機技術等有效率地集成運用于整個交通運輸管理體系,而創建起的一種在大范圍內及全方位發揮作用的,實時、準確及高效率的綜合的運輸和管理系統。美國、日本、歐洲率先展開相應的研究并成為ITS發展的三強,此外加拿大、中國、韓國、新加坡、澳大利亞等國家的研究也具有相當規模。智能交通系統由多個系統構成,其中包括出行者信息系統(ATIS)、先進交通管理系統(ATMS)、先進公共交通系統(APTS)、先進車輛控制系統(AVCS)、電子不停車收費系統(ETC)、商用車輛運營系統(CVOS)等

 大型語言模型(LLMs)正在推動科學發現范式的轉變,從面向特定任務的自動化工具演變為日益自主的智能體,根本性地重塑了科研流程與人機協作模式。本文系統性地梳理了這一快速發展的研究領域,重點關注LLMs在科學中的角色變遷與能力提升。我們以科學方法為框架,提出了一個基礎的三層級分類體系——工具(Tool)、分析者(Analyst)與科學家(Scientist),以刻畫其自主性遞增及其在科研生命周期中職責的演變。此外,我們還識別了若干關鍵挑戰與未來研究方向,如機器人自動化、自我改進以及倫理治理等。總體而言,本文旨在提供一個概念性架構與戰略性前瞻,以助力AI驅動下的科學發現,實現快速創新與負責任的發展并重。

1 引言

大型語言模型(LLMs)的持續進步催生出一系列新興能力,如規劃(Huang 等,2024b)、復雜推理(Huang 和 Chang,2023)以及指令遵循(Qin 等,2024)。此外,將代理型工作流(agentic workflows)整合進來,使得基于LLM的系統能夠執行更高級的功能,包括網頁導航(He 等,2024)、工具使用(Qu 等,2025)、代碼執行(Jiang 等,2024a)和數據分析(Sun 等,2024)。在科學發現領域,這種高級LLM能力與代理機制的融合正推動一場深刻的范式轉變。該轉變不僅有望加速科研生命周期,還將從根本上改變人類研究者與人工智能在知識探索中的協作關系。 然而,LLM應用的迅猛擴展及其在科學發現中所引發的范式變化,也帶來了諸多挑戰。LLM演化速度之快,以及其與復雜科研流程的深度融合,使得系統性的評估愈發困難,因此亟需結構化的概念框架來整理當前認知,并指引未來發展方向。盡管現有綜述已對LLM在多個科學領域的應用進行了有價值的概覽(Zhang 等,2024, 2025),或對科學中的特定AI技術進行了分類(Luo 等,2025;Reddy 和 Shojaee,2025),但它們往往聚焦于特定學科的應用,或僅呈現LLM能力的靜態快照。因此,這些綜述可能忽略了LLM自主性不斷增強的關鍵趨勢,以及其在整個科學方法流程中角色的動態演變,從而未能充分揭示其影響力的廣度與未來向更高獨立性演進的潛力。 為系統描繪這一演進圖景,并彌補上述空白,本文的分析框架以經典科學方法的六個階段(見圖1)為基礎(Popper,1935;Kuhn,1962):(1)觀察與問題定義,(2)假設提出,(3)實驗與數據收集,(4)數據分析與解釋,(5)得出結論,(6)迭代與優化。我們對LLM在這些階段中的應用進行分析,發現一個顯著趨勢:LLM正從在單一階段執行離散的、面向任務的功能,逐步發展為能貫穿多個階段的復雜代理型系統。值得注意的是,最新研究(Schmidgall 等,2025;Yamada 等,2025)正在探索幾乎能夠自主完成整個科學流程的LLM系統。 為了更有效地捕捉與描述LLM能力與獨立性日益增強的演化路徑,本文提出一個基礎性的三層級分類框架(見表1),用于定義LLM在科學發現中的不同角色:(i)工具型LLM(LLM as Tool):模型在直接監督下完成具體、明確的任務,輔助人類研究者;(ii)分析者型LLM(LLM as Analyst):模型具備更高的自主性,能夠處理復雜信息、執行分析并提供洞見,減少人工干預;(iii)科學家型LLM(LLM as Scientist):代表更高級階段的系統,能夠自主執行從假設構建到結果解釋及提出后續研究方向等主要科研流程。 在此分類體系基礎上,我們進一步識別出當前研究格局中的關鍵空白,并提出未來發展的核心挑戰與方向,包括:(1)實現無需人工干預的全自主科學發現流程;(2)將機器人自動化引入實驗室,實現物理世界的交互與操作;(3)基于以往研究經驗實現持續的自我改進與適應;(4)提升LLM主導科研的透明度與可解釋性;(5)建立符合倫理與社會價值的治理機制。解決上述多維挑戰,將是實現AI作為科學探索變革性合作伙伴的關鍵。

本文聚焦于LLM系統在科學發現中的應用,特別是其不同層級的自主性。雖然我們承認LLM在科學中的廣泛影響,但本文有意縮小研究范圍,不涵蓋通用科學LLM或面向特定領域的知識獲取與推理模型——這類內容已在現有綜述中有較充分的探討(Zhang 等,2024, 2025)。本文其余部分結構如下:第2節介紹我們的分類框架及其與科學方法的對應關系;第3節分析“工具型LLM”的應用,按科學方法各階段分類;第4節探討“分析者型LLM”的應用,按科學領域劃分;第5節聚焦于“科學家型LLM”的研究,分析其創意生成與優化機制;第6節討論未來面臨的挑戰與發展方向。

付費5元查看完整內容

視覺-語言-動作(Vision-Language-Action, VLA)模型標志著人工智能領域的一項變革性進展,旨在在一個統一的計算框架中融合感知、自然語言理解與具身動作執行。本文作為一篇基礎性綜述,圍繞該快速演進領域的五大主題支柱,對近期 VLA 模型的發展進行了系統性梳理與綜合分析。 我們首先建立了 VLA 系統的概念基礎,回顧其從跨模態學習架構演變為深度整合視覺-語言模型(VLMs)、動作規劃器和層級控制器的通用智能體的過程。本文采用嚴格的文獻綜述方法,覆蓋了過去三年內發表的80余種 VLA 模型。

關鍵進展涵蓋了架構創新、參數高效的訓練策略以及實時推理的加速方法。我們還系統探討了 VLA 模型在多種應用領域中的實踐,包括類人機器人、自動駕駛、醫療與工業機器人、精準農業以及增強現實導航等。 此外,本文還深入分析了該領域面臨的主要挑戰,如實時控制、多模態動作表示、系統可擴展性、對未見任務的泛化能力,以及倫理部署風險等。基于當前技術前沿,我們提出了若干應對方案,包括智能體型人工智能(agentic AI)適配跨具身泛化以及統一的神經-符號規劃(neuro-symbolic planning)

在前瞻性討論部分,我們描繪了一個未來藍圖:VLA 模型、VLMs 與 agentic AI 相互融合,共同驅動具備社會適應性、靈活性和通用性的具身智能體系統。本文旨在為推進智能化、現實世界機器人系統與通用人工智能(AGI)發展提供一個基礎性參考。

關鍵詞:視覺-語言-動作、VLA、人工智能、機器人、視覺-語言模型、AI 智能體、智能體型人工智能

1. 引言

在視覺-語言-動作(Vision-Language-Action,VLA)模型出現之前,機器人技術和人工智能的進展主要分布在彼此割裂的幾個子領域:視覺系統能夠“看”并識別圖像 [44, 69];語言系統能夠理解和生成文本 [164, 137];動作系統則能夠控制物體運動 [49]。這些系統在各自領域表現良好,但在協同工作或應對新穎、不可預見的情況時表現乏力 [46, 21],從而限制了它們理解復雜環境或靈活應對真實世界挑戰的能力。 如圖1所示,傳統計算機視覺模型(主要基于卷積神經網絡 CNNs)通常針對如目標檢測或分類等窄域任務進行優化,嚴重依賴大量標注數據,且即便是環境或任務目標的微小變化也需耗費大量精力進行重新訓練 [156, 62]。這些視覺模型雖然具備“看”的能力(例如識別果園中的蘋果),但無法理解語言或將視覺洞察轉化為有目的的動作。 另一方面,語言模型,尤其是大型語言模型(LLMs),在文本理解與生成方面取得了革命性進展 [23],但它們依然局限于語言模態,缺乏對物理世界的感知與推理能力 [76](如圖1中“果園中的成熟蘋果”一例所示)。與此同時,動作系統在機器人中的應用,主要依賴手工設計的策略或強化學習方法 [122],雖可實現特定行為(如操控物體),但通常難以泛化,且開發成本高昂 [119]。 盡管視覺-語言模型(VLMs)通過融合視覺與語言實現了令人印象深刻的多模態理解 [149, 25, 148],但系統在生成或執行連貫動作方面依然存在顯著的集成缺口 [121, 107]。如圖1進一步所示,大多數 AI 系統至多只能融合兩種模態(如視覺-語言、視覺-動作或語言-動作),而難以在統一框架中整合三者。結果是,機器人可以識別物體(如“蘋果”),理解相應的文本指令(如“摘下蘋果”),或執行預定義的動作(如抓取),但要將這些能力整合為流暢且具適應性的行為仍十分困難。這導致系統架構呈碎片化特征,難以適應新任務或新環境,泛化能力弱,開發過程繁瑣,成為具身智能發展的關鍵瓶頸:如果系統無法同時感知、理解并采取行動,真正的智能自主行為將無從談起。 這一迫切需求促使 VLA 模型的興起。VLA 模型構想于 2021-2022 年,并在 Google DeepMind 的 Robotic Transformer 2(RT-2) [224] 等研究工作中得到率先實踐,提出了一種將感知、推理與控制統一于單一架構的變革性方法。作為圖1中所揭示限制的解決方案,VLA 模型整合了視覺輸入、語言理解與運動控制能力,使具身智能體能夠感知環境、理解復雜指令并動態地執行相應動作。 早期的 VLA 方法通過在視覺-語言模型中引入動作標記(action tokens)——即用于表示機器人動作指令的數值或符號形式,實現了這種三模態融合。模型可借助配對的圖像、語言與軌跡數據進行訓練 [121],大幅提升了機器人對未見物體的泛化能力、對新穎語言指令的解釋能力,以及在非結構化環境中的多步推理能力 [83]。 VLA 模型在實現統一多模態智能的道路上邁出了關鍵一步,打破了長期以來視覺、語言與動作分立建模的局限 [121]。借助大規模互聯網級數據集,這些數據集整合了圖像、文本與行為信息,VLA 模型不僅能夠識別與描述環境,還可以進行語境推理并在復雜、動態的場景中執行合適的動作 [196]。如圖1所展示,從各模態割裂的孤立系統發展到集成式的 VLA 模型,標志著朝著真正具備適應性與泛化能力的具身智能體邁出了根本性的一步。 鑒于該范式轉變具有深遠影響,亟需開展一項系統、深入的綜述研究,基于豐富的文獻資料與批判性分析,全面梳理 VLA 模型的發展: 1. 首先,該綜述有助于明確 VLA 的基本概念與架構原則,從而區分其與以往多模態系統的本質差異; 1. 其次,梳理該領域快速發展的進程與關鍵技術節點,幫助研究人員與從業者把握其技術演進路徑; 1. 第三,深入探討 VLA 在現實世界中已展現變革潛力的多個應用場景,如家庭機器人、工業自動化、輔助技術等; 1. 第四,分析當前亟待解決的挑戰,包括數據效率、安全性、泛化能力及倫理風險等,為未來部署提供指導; 1. 第五,通過綜合這些研究洞見,向更廣泛的 AI 與機器人研究社群傳達新興研究方向與工程考量,促進協同創新。

本綜述系統分析了 VLA 模型的概念基礎、發展進展與技術挑戰,旨在凝聚當前研究成果,明確尚存的技術瓶頸,并提出未來的研究方向。 我們首先將深入剖析 VLA 模型的核心概念(圖2),包括其構成要素、歷史演化、多模態融合機制以及基于語言的編碼策略,這些內容為理解 VLA 在模態間的協調提供了基礎。 在此基礎上,我們梳理了近年來的技術進展與訓練效率策略(圖3),涵蓋使 VLA 更具泛化能力的架構創新、數據高效學習機制、參數優化建模方法及推理加速技術。這些進展對實現 VLA 在現實環境中的應用至關重要。 接著,我們全面討論了當前 VLA 系統所面臨的關鍵挑戰(圖4),包括推理瓶頸、安全問題、計算資源開銷、有限的泛化能力及倫理風險。我們不僅指出了這些問題,還從分析角度提出了潛在解決思路。 上述三幅圖共同構建了本綜述的視覺化框架,輔助文本內容展示其概念圖景、創新亮點與亟待解決的問題。本綜述旨在為未來的研究提供指導,促進更加穩健、高效、倫理的 VLA 系統的發展。

付費5元查看完整內容

 摘 要:大語言模型在多個垂直領域應用中展現出卓越性能,但其生成內容存在可解釋性不足與幻覺問題,嚴 重制約實際部署,而知識圖譜以結構化語義網絡形式存儲事實知識,為增強大語言模型的可控性與知識約束 提供了新路徑。為此,文章系統梳理知識圖譜與大語言模型融合的技術路線,從預訓練、模型架構改造、微調 優化三階段分析代表性方法,總結其提升模型可解釋性與緩解幻覺的作用機制,并探討多模態知識表示對齊、 動態知識更新滯后等核心挑戰。分析表明,知識圖譜的深度融合可顯著提升大語言模型生成內容的事實一致 性,但未來需突破多模態知識對齊、輕量化增量式融合及復雜推理驗證等技術瓶頸,推動大語言模型向知識語 言協同驅動范式演進,為構建可信、可解釋的智能系統提供理論支撐與技術方向。

關鍵詞:大語言模型;知識圖譜;可解釋性;幻覺問題;知識語言協同

付費5元查看完整內容

近年來,大規模語言模型(LLMs)的快速發展已經徹底改變了科學研究的格局,為研究周期的各個階段提供了前所未有的支持。本文呈現了首個系統性綜述,專門探討大規模語言模型如何革新科學研究過程。我們分析了LLMs在四個關鍵研究階段中所發揮的獨特作用:假設發現、實驗規劃與實施、科學寫作以及同行評審。我們的綜述全面展示了任務特定的方法論和評估基準。通過識別當前面臨的挑戰并提出未來的研究方向,本綜述不僅突出了LLMs的變革潛力,還旨在激發并指導研究人員和實踐者利用LLMs推動科學探究的發展。相關資源可在以下倉庫訪問://github.com/du-nlp-lab/LLM4SR。

1 引言

“如果我看得更遠,那是因為我站在巨人的肩膀上。” —— 艾薩克·牛頓科學研究流程是啟蒙時代系統性探究成就的見證 [17, 58, 58]。在這一傳統范式中,科學研究涉及一系列明確的步驟:研究人員首先收集背景知識,提出假設,設計并執行實驗,收集和分析數據,最后通過經過同行評審的手稿報告發現。這一循環過程促進了現代科學和技術的突破性進展,但仍受到人類研究人員所固有的創造力、專業知識、有限時間和資源的制約。幾十年來,科學界一直在努力通過自動化科學研究的各個方面來增強這一過程,旨在提高科學家的生產力。早期的計算機輔助研究可以追溯到1970年代,出現了如自動數學家(Automated Mathematician)[74, 75] 和 BACON [71] 等系統,這些系統展示了機器在定理生成和經驗法則識別等專門研究任務中的潛力。更近期,AlphaFold [62] 和 OpenFold [4] 等系統則展示了在某些特定研究任務中的開創性努力,顯著加速了相關領域的科學進展,提升速度達到數千倍。然而,直到基礎模型的出現和最近大規模語言模型(LLMs)[2, 154] 的爆發,跨多個研究領域的全面AI輔助才成為現實 [190]。近年來,LLMs取得了顯著的進展,改變了AI和自然語言處理(NLP)等多個領域。這些模型,如GPT-4 [2] 和LLaMA [154],在理解、生成和與人類語言互動方面設立了新的基準。通過大規模數據集和創新架構的支持,這些模型的能力已經超越了傳統的NLP任務,涉及更復雜和領域特定的挑戰。尤其是LLMs處理海量數據、生成類人文本以及在復雜決策中提供支持的能力,已經引起了科學界的廣泛關注 [92, 141]。這些突破表明,LLMs有潛力徹底革新科學研究的開展、記錄和評估方式 [156, 165, 174]。在這篇綜述中,我們探討了LLMs當前在科學研究過程中各個階段的應用。具體來說,我們識別了LLMs展現出顯著潛力的四項任務。首先,我們探討它們在科學假設發現中的應用,LLMs利用現有知識和實驗觀察來提出新的研究思路。接下來,我們回顧它們在實驗規劃和實施中的貢獻,LLMs在優化實驗設計、自動化工作流程和數據分析方面發揮了重要作用。我們還涵蓋了LLMs在科學寫作中的應用,包括生成引用、相關工作部分,甚至起草整篇論文。最后,我們討論了LLMs在同行評審中的潛力,LLMs通過自動化評審和識別錯誤或不一致來支持對科學論文的評估。對于每項任務,我們提供了方法論、基準和評估方法的全面綜述。此外,本綜述還識別了每項任務中的局限性,并突出了需要改進的領域。通過分析LLMs在研究周期各階段的貢獻,本綜述旨在激發研究人員探索新興概念、開發評估指標,并設計創新方法,推動LLMs在研究工作流程中的有效整合。

與現有綜述的比較

與之前的專門研究相比,本綜述提供了更廣泛和更全面的視角,涉及LLMs在整個科學研究周期中的應用。例如,Zhang等人 [187] 綜述了超過260種LLM在各學科科學發現中的應用,主要關注模型架構和數據集等技術層面,未將其角色置于更廣泛的研究過程背景中。類似地,其他綜述通常采用更狹窄的范圍,考察LLMs在一般應用中的特定能力,如規劃 [55] 或自動化 [158],而非其在科學研究工作流程中的集中應用。此外,一些研究討論了與特定研究階段相關的一般方法,但并未專注于LLMs本身,如相關工作和引用文本生成 [89] 或同行評審過程 [33]。相比之下,本綜述整合了這些零散的觀點,提供了LLMs在科學工作流程中貢獻的整體分析,并突出了它們在應對現代研究多樣化和不斷發展的需求中的潛力。

本綜述的結構

如圖2所示,本綜述的結構如下: * §2 討論了LLMs在科學假設發現中的應用,概述了相關方法論和關鍵挑戰。 * §3 聚焦于實驗規劃和實施,重點介紹LLMs如何優化和自動化這些過程。 * §4 深入探討了自動化論文寫作,包括引用和相關工作生成。 * §5 探索了LLMs輔助的同行評審。 對于每個主題,本綜述的結尾部分總結了當前的挑戰和未來方向,以應對這一快速發展的領域。

2. LLMs在科學假設發現中的應用

概述

在“LLMs用于科學假設發現”這一領域出現之前,最相關的前沿研究領域是“基于文獻的發現”和“歸納推理”。我們首先總結了這兩個相關領域的研究(作為歷史背景),然后總結了方法、基準、評估發展趨勢和重要進展,最后總結了發現任務中的主要挑戰。

科學發現的歷史

使用LLMs生成新的科學假設是一個新興的研究課題,主要源自兩個相關的研究領域,即“基于文獻的發現”和“歸納推理”。

**2.2.1 基于文獻的發現

基于文獻的發現(LBD)最早由Swanson[151]提出。其核心思想是“知識可以是公開的,但尚未被發現,如果獨立創建的片段在邏輯上相關但從未被檢索、匯集和解釋。”因此,如何檢索可以匯集以創造新知識的公共知識仍然是一個挑戰。Swanson[151]提出了LBD的經典形式化模型,即“ABC”模型,其中兩個概念A和C被假設為通過某個中間概念B在論文中共同出現而相關聯。最近的工作使用了詞向量[155]或鏈接預測模型[152; 160; 171]來發現概念之間的鏈接以組成假設。然而,經典的LBD方法沒有建模人類科學家在構思過程中考慮的上下文,并且僅限于預測離散概念之間的成對關系[47]。為了克服這些限制,Wang等人[159]首次嘗試將LBD置于自然語言上下文中以約束生成空間,并使用生成的句子作為輸出,而不僅僅是像傳統LBD那樣預測關系。LBD的另一個局限性是長期以來被認為僅適用于非常特定、狹窄類型的假設[159]。然而,科學發現的最新進展表明,LBD可能具有更廣泛的應用范圍。特別是,Yang等人[174]和Yang等人[176]分別與社會學和化學研究人員進行了廣泛討論,發現大多數現有的社會學和化學發表的假設(而不僅僅是狹窄類型的假設)都可以用LBD模式表述。這可能表明未來在社會學和化學中發表的假設也可能來自現有知識的正確鏈接和關聯。

**2.2.2 歸納推理

歸納推理是從特定的“觀察”中找到一個具有廣泛適用性的“規則”或“假設”[175]。例如,地心說、日心說和牛頓的萬有引力定律都是基于對恒星和行星運動的“觀察”提出的“規則”。科學發現是歸納推理的極端任務,其中每個“規則”都是一個新穎的科學發現。科學哲學界總結了歸納推理中“規則”的三個基本要求[113]:(1)“規則”不應與“觀察”相沖突;(2)“規則”應反映現實;(3)“規則”應呈現一個可以應用于比“特定”觀察更大范圍的通用模式,涵蓋觀察中不存在的新信息。之前的歸納推理研究主要由“歸納邏輯編程”社區進行[26],該社區使用形式語言和符號推理器。Yang等人[173]首次在NLP領域進行了生成性歸納推理的研究,即從特定的自然語言觀察中生成自然語言規則,并引入了科學哲學界對歸納推理的要求。受語言模型傾向于生成模糊且不具體規則的經驗啟發,他們提出了第四個要求:(4)“規則”應清晰且足夠詳細。第四個要求可能被科學哲學界忽視了,因為它太明顯了。受這些要求的啟發,Yang等人[173]設計了一種過度生成然后過濾的機制,利用語言模型先生成許多初步規則,然后過濾掉不符合要求的規則。隨后,開發了使用自我精煉代替過濾并使用更多推理步驟以獲得更好規則的方法[120, 163, 191, 194]。然而,這些工作試圖歸納的“規則”要么是已知知識,要么不是科學知識,而是合成的模式。Yang等人[174]首次嘗試將經典的歸納推理任務設置(發現已知/合成知識)擴展到真實的科學發現設置:利用LLMs從公開的網頁數據中自主發現新穎且有效的社會科學科學假設。具體來說,他們收集了關于社會科學概念的新聞、商業評論和維基百科頁面作為網頁數據來發現假設。Majumder等人[107, 108]進一步提出了“數據驅動發現”的概念,即利用網絡上的所有公共實驗數據(以及手頭的私人實驗數據)跨學科發現假設。他們的動機是,大量公開可用的實驗數據的潛力尚未得到充分利用,許多新穎的科學假設可以從現有數據中發現。

方法的發展

在科學發現的方法中,有一個明確的方法發展軌跡。我們首先介紹這一軌跡,然后探討其他方法。

**2.3.1 主要軌跡

總的來說,科學發現的這一方法發展軌跡可以被視為將更多關鍵組件納入方法中。表1總結了我們認為重要的關鍵組件,并指出每種方法是否包含這些組件。具體來說,它們是“靈感檢索策略”、“新穎性檢查器”、“有效性檢查器”、“清晰度檢查器”、“進化算法”、“利用多個靈感”、“假設排名”和“自動研究問題構建”。在這里,每個“關鍵組件”指的是已被證明對科學發現任務有效的詳細且獨特的方法論。我們排除了可能直觀上有幫助但尚不清楚如何從概念中提取特定方法對該任務有效的廣泛通用概念(例如工具使用)。接下來,我們介紹這些關鍵組件。對于每個關鍵組件,我們使用一到兩段文字進行簡要概述,總結其發展軌跡。本節中提到的每種方法的參考信息可以在表1中找到。靈感檢索策略。除了依賴背景知識外,基于文獻的發現(LBD)還促進了額外知識的檢索,作為提出新假設的靈感來源。SciMON[159]首次將LBD的概念引入發現任務,展示了新知識可以通過現有知識的鏈接組成。至關重要的是,靈感不應在之前已知與背景相關,或者至少不應以已知的方式與背景相關聯[176]。否則,假設將不會新穎。受經典LBD形式化中“ABC”模型的啟發,給定背景知識,SciMON檢索語義相似的知識、知識圖譜鄰居和引用圖譜鄰居作為靈感。具體來說,如果兩個知識的SentenceBERT[127]嵌入具有高余弦相似度,則它們被識別為“語義相似”;他們構建的知識圖譜遵循“[方法,用于,任務]”格式。ResearchAgent嚴格遵循“ABC”模型,構建概念圖,其中鏈接表示兩個連接的概念節點曾在同一篇論文中出現過。它檢索與背景概念在概念圖上連接的概念(概念共現)。Scideator基于語義匹配(語義學者API推薦)和概念匹配(包含相似概念的論文,同一主題、同一子領域和不同子領域)檢索靈感論文。SciPIP[164]從語義相似的知識(基于SentenceBERT)、概念共現和引用圖譜鄰居中檢索靈感。它提出了過濾方法,以過濾掉對概念共現檢索無用的概念。與選擇語義或引用鄰居作為靈感不同,SciAgents隨機抽樣另一個與背景概念在引用圖譜中通過長或短路徑連接的概念作為靈感。MOOSE[174]提出使用LLM選擇的靈感:給定研究背景和一些靈感候選者,并要求LLM從候選者中選擇靈感。然后MOOSE-Chem[176]也采用了這種方法。MOOSE-Chem假設在訓練了數億篇科學論文后,最先進的LLMs可能已經具備了一定的能力來識別背景知識的靈感以組成新知識的發現。MOOSE-Chem通過注釋2024年發表的51篇化學論文(這些論文僅在2024年在線提供)的背景、靈感和假設,分析了這一假設,并查看僅使用截至2023年的訓練數據的LLMs是否可以在僅給出背景的情況下檢索到注釋的靈感。他們的結果顯示檢索率非常高,表明這一假設可能基本正確。然后Nova也采用了LLM選擇的靈感,動機是利用LLM的內部知識來確定新想法的有用知識,應該能夠超越傳統的實體或關鍵詞檢索方法。反饋模塊。下一個關鍵組件是對生成的假設在新穎性、有效性和清晰度方面的迭代反饋。這些反饋首先由MOOSE提出,受歸納推理中對假設的要求啟發[113, 173]。這三個方面足夠客觀,可以給出反饋,并且每個方面對于一個好的假設都是必不可少的。

  • 新穎性檢查器。生成的假設應與現有文獻相比是一個新穎的發現。當假設傾向于與現有假設相似時,提供增強其新穎性的反饋可能有助于假設的制定。現有的新穎性反饋方法都基于LLMs。一般來說,有三種提供新穎性反饋的方法。第一種方法將每個生成的假設與相關綜述進行比較(MOOSE);第二種方法迭代檢索相關論文進行比較(SciM SciAgents, Scideator, CoI);第三種方法直接利用LLMs的內部知識進行評估(Qi, ResearchAgent, AIScientist, MOOSE-Chem, VirSci)。
  • 有效性檢查器。生成的假設應是有效的科學/工程發現,準確反映客觀宇宙[113]。真正的有效性反饋應來自實驗結果。然而,為每個生成的假設進行實驗既耗時又昂貴。因此,目前有效性反饋幾乎完全依賴于LLMs或其他訓練過的神經模型的啟發式方法。例外是FunSearch, HypoGeniC, LLM-SR, 和 SGA。具體來說,FunSearch是關于生成數學問題的代碼。編譯器和驗證代碼自然是高效且有效的驗證器;HypoGeniC和LLM-SR專注于數據驅動發現,這意味著它們可以訪問觀察示例,用于檢查與每個生成假設的一致性;SGA創建了一個虛擬物理模擬環境來模擬真實實驗。然而,有效性檢查器仍然是科學發現社區的一個重大挑戰。未來的研究方向包括機器人技術和自動化實驗室,可以自動進行濕實驗(例如生物學和化學實驗)以驗證生成的假設。對于計算機科學相關的假設,未來的研究方向可能是更先進的自動代碼實現系統。
  • 清晰度檢查器。生成的假設應足夠清晰地傳達信息并提供足夠的細節[173]。然而,LLMs傾向于生成細節不足的假設[159]。因此,提供清晰度反饋以細化假設并擴展細節將是有益的[174]。當前的方法(MOOSE, ResearchAgent, MOOSE-Chem, 和 VirSci)都采用LLMs進行自我評估清晰度。 進化算法。進化算法是受生物進化原理啟發的優化算法的一個子集。它假設存在一個“環境”,其中無法適應它的實體將被“淘汰”,而超級實體將從具有某種適應性的實體之間的特征“重組”中進化出來(此過程也稱為“突變”)。這一關鍵組件很重要,因為(1)真實的實驗評估和生成的假設的啟發式評估自然充當“環境”。(2)科學假設發現的本質從根本上可以看作是從僅已知知識輸入到未知但有效知識的突變。盡管目標相似,當前的科學發現方法以不同的方式利用進化算法。FunSearch首次將進化算法引入科學發現任務。他們采用了一種基于島嶼的進化算法,其中每個島嶼是一組相似的方法,每個島嶼不斷突變為新的假設。在某些時間間隔,一些排名最低的島嶼被“淘汰”,并由每個島嶼中表現最好的假設組成的新島嶼形成,鼓勵島嶼之間的優點“重組”。LLM-SR采用了類似的基于島嶼的進化算法。SGA將其作為“進化搜索”,即在每次迭代中生成多個后代并保留最佳選擇。他們還采用了進化交叉,其中LLMs從各種過去的實驗中生成新的假設,以更好地進行探索。MOOSE-Chem將其設計為“進化單元”,以更好地關聯背景知識和靈感知識。具體來說,給定背景和靈感知識,他們首先生成多個獨特的假設來關聯兩者。然后每個假設獨立細化,最后將細化的假設重新組合,以更好地將背景和靈感知識整合成一個連貫的假設。它鼓勵從相同輸入中進行不同的突變變體,并匯集每個突變變體的優點。利用多個靈感。這里討論的“利用多個靈感”(LMI)組件是關于明確識別多個靈感,以便這些識別的靈感將被全部利用到最終假設中(例如,以順序方式)。這很重要,不同的方法有不同的原因。MOOSE-Chem是第一個引入這一組件的,動機是觀察到許多學科如化學和材料科學通常需要多個靈感來制定一個完整且可發表的假設。具體來說,他們將看似無法解決的問題P(hypothesis|research background)分解為許多更小、更實際和可執行的步驟。他們通過為分解制定數學證明來實現這一點。一般來說,較小的步驟涉及識別起始靈感,基于背景和靈感組成初步假設,找到另一個靈感以解決初步假設中的空白,然后使用新靈感組成更新的假設,依此類推。他們通過利用多個靈感的目標是重新發現發表在《自然》或《科學》等高影響力期刊上的化學和材料科學假設。除了MOOSE-Chem,Nova還以連續的方式檢索多個靈感,但目標不同,即生成更多樣化和新穎的研究假設。他們的動機來自IGA的實驗結果,即生成的假設的多樣性趨于飽和。他們確定主要原因之一是輸入背景信息相同,而結合不同的靈感集可以通過引入靈活的輸入在很大程度上緩解這一問題。假設排名。這一關鍵組件是關于提供生成假設的完整排名。這很重要,因為LLMs可以在短時間內生成大量假設,而驗證每個假設的真實實驗室實驗既耗時又昂貴。因此,科學家們知道應該首先測試哪個假設將非常有益。一些方法(例如MOOSE)采用自動評估方法來提供對生成假設的初步理解。自動評估方法自然可以用于排名,但表1僅關注排名在方法論部分的使用方式(而不是在自動評估部分)。大多數方法采用LLMs的評分作為獎勵值,可以用于排名(MCR [145], AIScientist, MOOSE-Chem, CycleResearcher)。FunSearch專注于代碼生成問題,因此可以直接通過運行代碼并檢查結果來精確評估生成的代碼。ChemReasoner[146]微調了一個任務特定的圖神經網絡模型以獲得獎勵。HypoGeniC[193]和LLM-SR[140]專注于數據驅動發現,這意味著他們可以訪問觀察示例,用于檢查與生成假設的一致性,其中一致示例的數量可以用作排名的獎勵值。與直接預測獎勵分數不同,IGA采用成對比較,因為他們發現當直接要求預測最終分數或決策時,LLMs的校準效果較差,但在要求判斷哪篇論文更好時可以達到非平凡的準確性。受IGA[141]啟發,CoI[77]提出了一個成對自動評估系統,名為Idea Arena。Nova[49]也采用了成對自動評估方法。自動研究問題構建。這一關鍵組件是關于自動構建研究問題,以便自動化科學發現方法可以將其作為輸入來發現假設。這表明LLM系統在科學發現中的不同角色:沒有它,LLM作為副駕駛,依賴研究人員提出好的研究問題;有了它,系統以“全自動駕駛”模式運行,能夠獨立發現而無需人工輸入。“全自動駕駛”模式首先由MOOSE引入,并被視為科學發現的“自動化”設置。具體來說,他們采用基于LLM的代理不斷搜索與學科相關的網絡語料庫以找到有趣的研究問題。AIScientist通過利用起始代碼實現作為輸入來探索研究方向。MLR-Copilot通過分析輸入論文的研究空白來找到研究方向。SciAgents和Scideator通過直接基于概念配對生成假設來跳過研究問題。VirSci通過利用基于LLM的科學家代理進行頭腦風暴來生成研究問題。CoI通過收集方法的發展線并預測下一步來找到研究問題。Nova直接從輸入論文和常見想法提案模式生成種子想法,跳過研究問題構建步驟。

**2.3.2 其他方法

在本節中,我們介紹了與“主要軌跡”中的方法不同的方法(§2.3.1)。這些方法本身非常多樣化,專注于科學發現的不同方面。例如,Dong等人[30]嘗試使用GPT-4解決極具挑戰性的研究問題:“P是否等于NP”。他們提出了“蘇格拉底推理”,鼓勵LLMs遞歸地發現、解決和整合問題,同時促進自我評估和細化。他們的方法在嘗試證明一個極具挑戰性的現有假設時可能有用。IdeaSynth[118]是一個研究想法開發系統,將想法概念表示為畫布上的鏈接節點。其效果在一個人機交互場景中進行了調查。他們通過實驗室研究發現,使用IdeaSynth的人類參與者可以探索更多替代想法,并與使用強大LLM基線的參與者相比,擴展初始想法的細節。Liu等人[96]首次嘗試將基于文獻的發現和數據驅動發現統一起來。給定一組初始實驗結果,它檢索相關文獻并采用迭代細化方法,不斷改進假設以使其與實驗結果一致,并利用檢索到的文獻中的發現。Weng等人[167]提出了一個雙系統,包括CycleResearcher和CycleReviewer,其中CycleResearcher負責想法制定和論文寫作,CycleReviewer負責對撰寫的論文進行評分。雙系統具有協同作用,CycleReviewer的評分可以組成偏好數據來訓練CycleResearcher。雙系統僅專注于想法制定和論文寫作,跳過實驗規劃和實施。Li等人[80]提出了微調LLMs以成為更好的想法生成器,并引入了一個新穎的框架,采用兩階段方法結合監督微調(SFT)和可控強化學習(RL)。他們專注于可行性、新穎性和有效性維度。維度控制器能夠動態調整生成過程。

基準

總的來說,自動化科學發現中的任務可以分為“基于文獻的發現”和“數據驅動發現”。研究人員分別為每個任務設計了不同的基準。

**2.4.1 基于文獻的發現

基于文獻的發現通常是關于連接現有出版物中的知識(片段)并將它們關聯起來以創造新知識。在這個過程中,起始知識來自研究背景。研究背景可以看作由兩個部分組成:(1)一個研究問題,和(2)一個背景調查,討論研究問題的最先進方法或知識。有了研究背景中的起始知識,其他要連接的知識通常是通過搜索現有出版物獲得的。這里的其他知識被稱為“靈感”[159, 174]。然后研究背景和檢索到的靈感被關聯起來以創建一個“假設”。 表2總結了基于文獻的發現基準,旨在實現新穎的科學發現。關鍵組件是研究問題、背景調查、靈感識別和假設。假設從“摘要”部分[159]、“方法論”部分[174, 176]或“未來工作”和“局限性”部分[68]收集。表2還包括數據集的大小(分析的論文數量)、論文的學科和論文的發表日期。  一些基準可以用于訓練,因為它們的大小較大[119, 159],而一些主要用于評估,因為它們由博士生注釋[68, 174, 176]。

**2.4.2 數據驅動發現

Majumder等人[107]提出了“數據驅動發現”的概念。這里的“數據”指的是實驗結果。他們的動機是,鑒于大量(公開和私人的)現有實驗結果在線可用,LLMs可能能夠找到這些數據的一般模式,其中一般模式可能是一個新穎的研究假設。鑒于具體觀察與一般假設之間的關系,“數據驅動發現”與歸納推理任務非常相關,其中觀察空間是網絡上所有公開可用的實驗結果和手頭的私人實驗結果。DiscoveryBench[108]是第一個數據驅動發現基準。它包含從20多篇已發表論文中手動提取的264個發現任務和903個合成任務。任務的輸入包括一個研究問題和一組實驗數據。目標是回答研究問題,并提供一個可以由實驗數據支持的假設。它還引入了生成假設的結構化形式化,即假設應由三個部分組成:上下文、變量和關系。具體來說,假設是關于在上下文中兩個變量之間的關系。DiscoveryWorld[57]是第一個具有虛擬環境的發現基準。其主要動機有兩個:(1)真實世界的實驗成本高昂且需要大量領域專業知識;(2)從任務特定細節中抽象出來鼓勵開發更通用的發現方法。為了解決這些挑戰,它建立了一個虛擬環境,供代理發現假設。它包括120個不同的挑戰任務,其中假設反映了世界的真實模式。

評估發展趨勢

科學發現任務的評估方法多種多樣。可以說,幾乎每篇提出新方法論的論文都使用了不同的評估方法。然而,它們的指標表現出顯著的交叉點,并且可以觀察到這些工作中評估方法的一些新興趨勢。評估標準的交叉點是“新穎性”、“有效性”、“清晰度”和“顯著性”。一些較少使用的評估標準包括“相關性”、“趣味性”和“有用性”。“有效性”的替代名稱是“可行性”。在許多情況下,它們可以互換使用。“有效性”指的是發現的科學知識是否準確反映客觀世界,而“可行性”關注工程發現的實用性。“有用性”是一種主觀評估,基于發現系統的目標是作為研究人員的副駕駛;因此,研究人員對其感知的有用性可能被認為是重要的。在評估者選擇方面,評估方法可以分為基于LLM的評估和基于專家的評估。LLM的直接評估在社會科學中顯示出與專家評估的高度一致性[174]。然而,在自然科學學科如化學中,LLMs被認為缺乏提供可靠評估的能力[146]。專家評估通常被認為是可靠的。然而,在化學等具有挑戰性的領域,即使是專家的直接評估也可能缺乏足夠的可靠性[176]。這是由于(1)學科的復雜性;(2)研究主題的微小變化可能需要完全不同的背景知識進行評估,而專家通常有專門的研究重點,可能無法涵蓋相對可靠評估所需的全部知識。基于參考的需要,評估方法可以分為直接評估和基于參考的評估。由于直接評估的可靠性問題,基于參考的評估作為一種替代方法[68, 108, 176],它計算生成假設中提到的關鍵組件與真實假設的匹配程度。此外,除了直接為生成的假設分配標量評估分數外,Si等人[141]提出了基于比較的評估,以緩解LLM直接評分評估的不足:要求LLM評估者不斷比較生成的假設對,直到可以進行排名。它可以在比較兩種方法生成的假設質量時使用,但可能無助于判斷假設的絕對質量。然而,最終的評估應僅通過真實(濕實驗)實驗進行。這給機器人技術和自動實驗實施領域帶來了挑戰。

主要進展/成就

Yang等人[174]首次證明了LLMs能夠生成新穎且有效的科學假設,并通過專家評估確認。他們找到三名社會科學博士生直接評估生成的社會科學假設的新穎性和有效性。然后Si等人[141]提供了第一個關于LLM生成假設的大規模專家評估,雇傭了100多名NLP研究人員。他們得出了一個統計學上顯著的結論,即LLM可以生成比人類研究人員更新穎但略遜于有效性的研究假設。然后Yang等人[176]表明,基于LLM的框架可以重新發現2024年發表在《自然》、《科學》或類似水平上的許多化學和材料科學假設的主要創新(這些假設僅在2024年在線提供),使用僅在2023年10月之前的數據訓練的LLMs。

挑戰與未來工作

挑戰。科學發現是找到尚未通過濕實驗驗證的新知識。在某些學科如化學中,即使是專家對生成的新穎假設的評估也不夠可靠。這導致需要自動進行實驗以驗證大規模機器生成的假設。此外,當前的科學發現方法高度依賴現有可用LLMs的能力。在通用任務上能力更強的LLMs通常也能導致發現質量更好的假設[174]。因此,基于LLM的發現方法可能有一個性能上限,受限于最先進LLMs的能力。然而,我們如何增強LLMs在科學發現任務上的能力在很大程度上(如果不是完全)尚不清楚。第三,目前尚不清楚科學發現的充分內部推理結構:當前的工作嚴重依賴從高質量知識源(例如文獻)中檢索靈感以生成假設。但尚不清楚是否有任何更多的內部推理結構可以幫助這一過程。最后,構建準確且結構良好的基準高度依賴專家。然而,專家組成的基準的規模通常非常有限。目前尚不清楚如何擴展一個準確且結構良好的面向發現的基準。未來工作。第一條未來工作方向是增強自動實驗執行,因為它仍然是測試假設有效性的最可靠方法。這一過程可能因學科而異。在計算機科學中,瓶頸可能是編碼能力,尤其是編程大型系統的能力。在化學或生物學中,瓶頸可能在于進行實驗的機器人技術方法[14]。第二條未來工作方向是增強LLM在假設生成中的能力。目前,如何提高這一能力仍不十分清楚。可能的方面包括訓練數據收集方法和訓練策略。第三條未來工作方向是研究科學發現過程的其他內部推理結構。這可能需要一個跨學科的努力,涉及科學哲學(也稱為科學學)[36]。第四條未來工作方向是研究如何利用LLMs自動收集準確且結構良好的基準。

3. LLMs在實驗規劃與實施中的應用

概述

除了生成假設外,LLMs越來越多地用于科學研究中,以自動化實驗設計并簡化工作流程。LLMs具有全面的內部世界知識,使它們能夠在沒有特定領域數據訓練的情況下在現實世界中執行明智的行動。為了最大化其潛力,LLMs被設計為基于代理的形式,具有兩個關鍵屬性[64]:模塊化和工具集成。模塊化確保LLMs可以與外部系統(如數據庫、實驗平臺和計算工具)無縫交互,而工具增強框架使LLMs能夠作為工作流程中的中央控制器,與專門模塊接口,用于數據檢索、計算和實驗控制。本節探討了LLMs如何具體應用于支持研究想法的規劃實施

優化實驗設計

LLMs通過使科學研究中的工作流程更高效和自適應,正在改變實驗設計過程。它們處理和分析大量數據集的能力使研究人員能夠分解復雜任務,選擇最佳方法,并增強實驗的整體結構。本節探討了LLMs如何在不同領域中促進實驗設計優化。任務分解涉及將實驗分解為更小、可管理的子任務,這一過程通常由現實世界研究的復雜性所必需,以確保與特定研究目標的一致性[55]。許多研究[14, 15, 52, 125, 136, 168]展示了LLMs如何通過定義實驗條件和指定期望輸出來簡化復雜問題。例如,HuggingGPT[136]利用LLMs將用戶查詢解析為結構化任務列表,同時確定執行順序和資源依賴關系。同樣,CRISPR-GPT[52]通過促進選擇適當的CRISPR系統、設計引導RNA、推薦細胞傳遞方法、起草協議和規劃驗證實驗,自動化了基于CRISPR的基因編輯實驗設計。ChemCrow[15]采用迭代推理和動態規劃,使用結構化的“思考、行動、行動輸入、觀察”循環[177]根據實時反饋改進其方法。多LLM系統,如Coscientist[14]和LLM-RDF[131],進一步利用專門代理從文獻中提取方法,將自然語言描述翻譯為標準協議,生成自動化平臺的執行代碼,并在執行過程中自適應地糾正錯誤。高級提示技術,如上下文學習、思維鏈[166]和ReAct[177],通常用于上述研究中,以增強LLM輔助工作流程中實驗規劃的可靠性和準確性。此外,LLMs還能夠通過反思和細化[106, 139]增強實驗設計,這一過程使它們能夠持續評估和改進實驗計劃。例如,通過模擬專家討論,LLMs參與協作對話[81],挑戰假設,并通過迭代分析[90]改進其輸出。這種方法模仿了現實世界中的科學問題解決,其中專家意見之間的差異促進了問題空間的深入探索,并通過嚴格的辯論和綜合不同觀點達成共識。

自動化實驗過程

LLMs通過自動化實驗過程中的重復和耗時的任務,徹底改變了科學研究。這種自動化顯著提高了生產力,使研究人員能夠將數據準備、實驗執行、分析和報告等勞動密集型過程委托給基于LLM的系統[158]。

**3.3.1 數據準備

研究中最耗時的方面之一是數據準備,包括清理[185, 21]、標記[153, 196]和特征工程[46]等任務。大語言模型(LLMs)可以自動化這些過程,特別是在處理大型數據集時,手動數據整理將效率低下。此外,在數據難以獲得的情況下,LLMs可以直接合成實驗數據[82, 85, 98]。例如,在社會科學中,進行人類受試者實驗通常既昂貴又不道德,Liu等人[98]設計了一個沙箱來模擬社交環境,并部署了多個代理(LLMs)進行交互。這種方法使研究人員能夠收集代理社交互動的數據以進行后續分析。

**3.3.2 實驗執行與工作流程自動化

為了自動化科學研究中的實驗工作流程,基于LLM的代理可以通過預訓練[95, 128]、微調[44, 35]和工具增強學習的組合獲得任務特定能力。在大規模數據集上的預訓練提供了基礎知識,而在領域特定數據集上的微調則針對目標科學應用改進了這些知識。為了增強任務執行,LLMs通常與領域特定知識庫[14, 15, 157]或預配置的工作流程[99, 14]結合使用。高級提示技術,如上下文學習和思維鏈提示[99, 179],使LLMs能夠快速適應新的實驗協議。此外,具有任務特定反饋循環的迭代調整允許LLM根據實驗目標改進其輸出[124, 179]。基于這些原則,LLM在不同學科中自動化實驗工作流程中扮演了多樣化的角色。在化學中,ChemCrow[15],一個LLM化學代理,利用18個專家設計的工具自主規劃和執行復雜的化學合成,橋接計算和實驗領域。同樣,Coscientist[14]將LLM與實驗室自動化集成,優化如鈀催化合成等反應。LLMs還被用于進化搜索策略,以探索廣闊的化學空間[157],從而在減少實驗負擔的同時識別候選分子。Ramos等人[124]將自然語言輸入與貝葉斯優化相結合,用于催化劑合成,簡化了迭代設計周期。此外,LLMs還被用于假設情景測試和反應設計,通過假設預篩選最小化實驗迭代[145, 146]。在藥物發現中,ChatDrug[99]集成了提示、檢索和領域反饋模塊,以促進藥物編輯,而DrugAssist[179]通過人機對話迭代優化分子結構。在生物和醫學研究中,如ESM-1b[128]和ESM-2[95]等模型編碼蛋白質序列,捕捉結構特性以進行預測任務,如二級和三級結構預測,消除了勞動密集型實驗的需要。通過在蛋白質家族上微調LLMs,Ferruz和Hocker[35]生成了高度多樣化但功能性的蛋白質序列。此外,He等人[44]引入了一種抗體生成LLM,用于從頭設計SARS-CoV-2抗體,實現了特異性和多樣性,同時減少了對天然抗體的依賴。

**3.3.3 數據分析與解釋

除了自動化實驗執行外,LLMs還通過生成自然語言解釋和構建有意義的可視化來協助數據分析,這對于解釋復雜數據集并確保得出的見解可訪問和可操作至關重要[143]。傳統上,數據分析需要廣泛的統計專業知識、手動計算和大量實驗結果的解釋。LLMs通過自動化統計建模和假設檢驗等任務簡化了這一過程。例如,Li等人[79]展示了LLMs可以作為建模者,提出、擬合和細化基于現實世界數據的概率模型,同時通過后驗預測檢查等技術提供關于模型性能的關鍵反饋。此外,LLMs擅長揭示文本數據中的隱藏模式、趨勢和關系。在社交媒體數據分析中,LLMs提供了對公眾情緒和新興趨勢的見解[172],在環境數據解釋中,它們有助于提高理解和決策能力[114]。此外,它們還在主題分析[27, 126]中發揮了重要作用,幫助識別定性數據中的主題和模式。它們的應用還擴展到金融數據分析,增強了預測和風險評估能力[188]。AutoGen[168]提供了一個通用框架,使多個可定制代理(LLMs)能夠創建多樣化的應用程序。這些代理可以通過自然語言和代碼進行交互,支持廣泛的下游任務,如數據建模和數據分析[61]。

基準

基準對于評估LLMs如何有效支持實驗工作流程的各個方面至關重要。雖然并非專門為LLM輔助的實驗實施創建,但許多基準足夠通用,可以應用于這些任務。例如,MLAgentBench[54]涵蓋了任務分解,幫助分解復雜的研究任務,數據處理,自動化數據加載和轉換等過程,以及工作流程管理,優化機器學習實驗執行。這些基準提供了不同的途徑,因此在方法上有所不同。評估方法從任務成功率、準確性和執行一致性到與人類基準的比較。這些差異突出了LLMs可以集成到研究過程中的多種方式。表3中提供了更多詳細信息。

挑戰與未來工作

挑戰。將LLMs用于實驗規劃和實施的挑戰既來自其固有局限性,也來自其在領域特定任務中的應用。一個基本限制是它們的規劃能力。正如Kambhampati等人[64]所澄清的那樣,處于自主模式的LLMs通常無法生成可執行的計劃。它們容易產生幻覺,這可能導致不合理的計劃、偏離任務提示或無法遵循復雜指令[55]。在多階段實驗環境中,提示的魯棒性構成了另一個關鍵挑戰。提示措辭的微小變化,即使傳達了相同的意圖,也可能導致整個規劃和執行過程中的指導不一致[195],可能影響實驗結果。此外,自回歸LLMs的慢處理速度可能會阻礙迭代和多步驟實驗規劃中的實時反饋,限制其效率。應用特定挑戰包括適應專門角色的困難,因為LLMs難以模擬領域特定的科學專業知識和認知過程,這對于跨研究領域的泛化至關重要[167]。例如,某些實驗可能需要模擬倫理敏感或容易出錯的場景,這通常與LLMs中嵌入的安全對齊價值觀相沖突。未來工作。未來的研究應通過增強核心模型能力并針對實驗任務的獨特需求進行定制來解決這些挑戰。為了減輕幻覺風險,可以在工作流程中集成穩健的驗證機制,例如與外部聲音驗證器交叉引用輸出[64]或采用實時反饋循環動態糾正不準確性[59]。提高提示魯棒性可能涉及開發自適應系統,監控和修改提示結構以響應上下文變化,確保規劃階段的一致性。效率提升可以通過創建更快的、蒸餾版本的LLMs,優化多步推理或結合LLMs與更小的、任務特定模型的混合系統來實現,以平衡速度和準確性。為了更有效地適應角色,可以使用高質量領域特定數據集微調LLMs或開發模塊化框架,以更精確地模擬專門科學推理。此外,設計自適應對齊協議可能允許LLMs在解決特定實驗目標時安全地模擬倫理復雜場景。

4. LLMs在科學論文寫作中的應用

概述

本節探討了LLMs在科學論文寫作中的三個關鍵領域的集成:引用文本生成(§4.2)、相關工作生成(§4.3)和起草與寫作(§4.4)。我們研究了使用的方法、這些模型的有效性以及自動化科學寫作中面臨的挑戰。此外,我們還討論了這些任務中使用的評估指標和基準。

引用文本生成

在引用論文的上下文中,引用文本生成任務旨在為一組待引用論文生成準確的文本摘要。LLMs通過提供豐富的上下文理解和連貫性,在自動化引用文本生成的各個方面發揮了關鍵作用,采用了多種方法來增強準確性和可用性。Xing等人[170]的一項初步研究使用了一個指針生成器網絡,該網絡可以基于交叉注意力機制從手稿和引用論文的摘要中復制單詞來生成引用文本。Li和Ouyang[88]提示LLM生成強調引用網絡中論文對之間關系的自然語言描述。另一方面,像AutoCite[161]和BACO[40]這樣的模型通過采用多模態方法,將引用網絡結構與文本上下文相結合,生成上下文相關且語義豐富的引用文本。此外,Gu和Hahnloser[43]、Jung等人[63]允許用戶指定諸如引用意圖和關鍵詞等屬性,將這些屬性集成到結構化模板中,并微調語言模型以生成符合其需求的引用文本。

相關工作生成

該任務涉及基于前沿參考論文為科學論文創建相關工作部分[45]。與傳統的多文檔摘要模型[23, 51]相比,LLMs在處理科學文檔特有的廣泛輸入長度和提供豐富的上下文理解方面展示了顯著的能力。LLMs在各種自然語言理解和生成任務中的成功,結合其大上下文窗口,最近實現了更全面和細致的文獻綜述,促進了跨不同研究領域的深入見解和聯系。Martin-Boyle等人[109]、Zimmermann等人[197]開發了案例研究,探索使用ChatGPT進行文獻綜述任務和相關工作生成,展示了其通過快速掃描大量科學出版物數據集并生成相關工作部分的初稿來協助研究人員的能力。然而,直接在學術寫作中使用LLMs可能會導致幻覺問題,生成的內容可能不基于事實數據,無法準確反映最先進的研究。為了解決這些問題,許多工作基于檢索增強生成(RAG)[76]的原則,通過從外部來源檢索事實內容來增強基于LLM的文獻綜述生成[3, 50, 138, 150, 181]。例如,LitLLM[3]利用RAG從網站上檢索相關論文并重新排序,減少了進行全面文獻綜述所需的時間和精力,同時最小化幻覺問題。HiReview[50]進一步將基于RAG的LLMs與基于圖的層次聚類相結合。該系統首先檢索引用網絡中的相關子社區,并生成層次分類樹。然后,LLMs為每個聚類生成摘要,確保全面覆蓋和邏輯組織。Nishimura等人[112]集成了LLMs,強調相關工作部分中的新穎性聲明。通過將新研究與現有工作進行比較,LLMs幫助生成相關工作部分,明確突出新內容和不同之處,從而為目標論文與先前文獻之間的比較做出更有影響力的貢獻。

起草與寫作

在自動化科學寫作領域,LLMs被用于從生成特定文本元素到撰寫整篇研究論文的各種任務。對于更具體的寫作任務,August等人[8]提出了生成具有可控復雜性的科學定義,以適應不同的受眾,而SCICAP[48]則自動化了科學圖表的標題生成,能夠快速準確地描述視覺數據。更全面的系統,如PaperRobot[160],引入了增量起草方法,LLMs根據用戶輸入幫助組織和起草論文的各個部分。同樣,CoAuthor[73]采用了一種協作的人機方法,LLMs通過生成建議和擴展文本來幫助作者。對于完全自主的寫作,Ifargan等人[56]探索了LLMs如何從數據分析到最終草稿生成完整的研究論文,而AutoSurvey[165]展示了LLMs通過綜合和組織現有研究來自主撰寫全面綜述的能力。最后,AI Scientist[103]和CycleResearcher[167]提出了一個更廣泛的系統,不僅起草科學論文,還參與了整個科學過程,包括假設生成和實驗設計,突顯了完全自動化科學發現和寫作的潛力。

基準

我們總結了自動化科學論文寫作系統的評估方法,涵蓋三個關鍵領域:引用文本生成、相關工作生成以及起草與寫作。表4提供了每個任務的具體數據集、指標和基準的全面總結。引用文本生成。ALCE[38]基準是主要標準。它從三個維度評估系統:流暢性、正確性和引用文本的質量。ALCE旨在測試模型在不同領域中生成帶有準確引用的長文本答案的能力。其數據集涵蓋了從維基百科到網絡規模文檔集合的廣泛問題類型。CiteBench[37]是另一個基準,它統一了多個現有任務,以標準化引用文本生成在不同設計和領域中的評估,使用定性和定量指標。相關工作生成。目前,沒有一個單一基準被普遍認可用于此任務,因為任務定義和簡化假設在各種研究中存在巨大差異[89]。然而,大多數工作都建立在語料庫級數據集上,常用的科學文章來源包括:ACL Anthology Network (AAN) Corpus[123]、SciSummNet[178]、Delve[5]、Semantic Scholar Open Research Corpus (S2ORC)[102]和Citation Oriented Related Work Annotation (CORWA)[86]。摘要指標ROUGE[93]是最常用的自動評估方法,一些工作還使用了翻譯指標BLEU[115]。此外,人工評估通常從流暢性、可讀性、與目標論文的一致性以及引用工作的相關性和信息量等方面進行評分,采用五點Likert量表。起草與寫作。SciGen[111]基準支持從科學表格中進行推理感知文本生成的評估,突顯了算術推理在文本生成中的挑戰。SciXGen[22]是另一個關鍵基準,評估上下文感知的文本生成,重點關注將外部信息集成到生成文本中。SciGen和SciXGen都使用了如BLEU[115]、METEOR[10]和MoverScore[189]等指標,以及人工評估。

挑戰與未來工作

挑戰。引用文本生成、相關工作生成以及起草與寫作中的挑戰主要源于LLMs的固有局限性,如保持事實準確性、確保上下文連貫性以及處理復雜信息。LLMs經常在幻覺[59]方面遇到困難,生成不正確或不相關的引用,并且受限于它們依賴的檢索系統[53]。有限的上下文窗口進一步限制了模型管理大量引用或全面整合相關文獻的能力[165],可能導致引用順序錯誤和引用分組不當。此外,確保科學嚴謹性并避免依賴表面或瑣碎來源仍然是持續存在的障礙,因為LLMs難以捕捉學術寫作所需的深度和推理[103]。此外,LLMs在學術寫作中的使用引發了重大的倫理問題,特別是關于學術誠信和抄襲[89]。這模糊了作者身份的界限,因為研究人員可能將機器生成的文本作為自己的作品呈現。LLMs還可能生成與現有文獻非常相似的文本,增加了無意中抄襲的風險,生成的文本可能不夠原創。使用LLMs起草論文部分的便利性可能會削弱傳統學術寫作所需的嚴格智力努力,潛在地貶低了學術研究中對學習過程和批判性思維技能的重視。未來工作。為了克服這些挑戰,未來的進展應側重于改進檢索系統并增強模型從多樣化、長上下文來源中綜合信息的能力[87]。這包括開發更好的引用驗證機制、改進多文檔綜合以及引入實時文獻發現,以保持生成內容的最新性。此外,結合領域特定的微調和推理感知模型將有助于生成更準確、上下文相關的科學文本[111]。對寫作過程的細粒度控制,如調整語氣和風格,也將對提高LLMs適應不同學術需求的適應性至關重要[22, 38, 103]。此外,集成人在回路系統,其中人類監督和干預是寫作過程的重要組成部分,可以確保學術工作中固有的智力嚴謹性和批判性思維得以保留[89, 109]。最后,為了解決潛在的倫理問題,學術界必須制定明確的指導方針和倫理標準,以確保學術工作的完整性和原創性。

5. LLMs在同行評審中的應用

概述

同行評審是科學研究的基石。將LLMs集成到同行評審過程中代表了一項重大進展,解決了長期存在的挑戰,如評審者偏見、標準不一致和工作量不平衡[42, 117]。這種集成在學術界獲得了顯著關注,正如主要計算機科學會議采用LLM輔助評審實踐所證明的那樣。例如,ICLR 2025宣布實施基于LLM的系統以支持評審者的評估過程。LLMs在同行評審中的集成已經演變為兩種不同的方法,每種方法都針對評審過程中的特定需求。第一種方法,自動化評審生成,源于處理日益增加的提交量并通過使用LLMs獨立分析研究論文來減少評審者工作量的需求[66, 182]。這些系統旨在評估提交的多個方面,包括方法驗證、結果驗證和貢獻評估,從而在沒有直接人工干預的情況下提供全面的評審報告。第二種方法,LLM輔助評審工作流程,是在認識到人類專業知識在學術評估中仍然至關重要的同時,承認某些評審任務可以從自動化中受益[69]。這些工作流程將LLMs作為補充工具,協助人類評審者完成耗時但定義明確的任務,如論文摘要、參考文獻驗證和內部一致性檢查,同時將關鍵評估和判斷留給人類專家。這些方法采用多種方法來提高評審效率、一致性和質量。為了系統地評估和改進這些系統,研究社區開發了專門的同行評審基準,這些基準具有雙重目的:提供標準化的訓練數據集并建立性能評估指標。本章探討了這些方法、其評估框架,并總結了實施挑戰和未來研究方向。

自動化同行評審生成

自動化同行評審生成旨在通過探索LLMs如何以最少的人工干預生成全面的評審來簡化科學評估。通過輸入科學文章,這些系統專注于生成完整的同行評審或元評審,采用各種技術來增強反饋的深度、準確性和相關性。當前的自動化同行評審生成方法可以分為兩種主要策略:單一模型多模型架構。單一模型方法通過復雜的提示技術和模塊化設計優化評審生成過程。這些系統通常采用精心設計的提示,以引導模型關注論文的特定方面,如方法、結果和貢獻[132]。在單一模型范式中,提出了幾種不同的架構方法。CGI2[184]超越了之前的方法:MetaGen[11]使用了兩階段管道,包括提取摘要和決策感知的細化;Kumar等人[67]開發了一種神經架構,用于聯合決策預測和評審生成;MReD[135]引入了使用句子級功能標簽的結構控制生成。基于這些基礎,CGI2通過模塊化設計實現了分階段評審過程,首先從論文中提取關鍵意見,然后總結優點和缺點,最后通過迭代反饋在清單引導的框架下細化這些輸出。這種迭代過程增強了評審的深度和相關性,但可能難以處理涉及高度復雜方法或超出上下文窗口的長篇內容。采用不同方法,CycleReviewer[167]使用強化學習實現了端到端的評審生成方法,通過反饋循環不斷改進評審質量。雖然CycleReviewer在提高評審精度和清晰度方面表現出色,但其對大量計算資源的依賴可能限制其可擴展性。同時,ReviewRobot[162]利用知識圖譜系統地識別和結構化知識元素,通過結構化生成過程將其轉化為詳細的評審評論。ReviewRobot展示了顯著的可解釋性和基于證據的推理,但其預定義模板的靈活性限制了其適應性。另一種策略采用多模型架構,通過利用多個專門模型來處理評審過程的不同方面,代表了一種更復雜的方法。這種方法提供了幾個優勢,包括更好地處理復雜論文和通過專門知識增強評審質量。Reviewer2[39]實施了兩階段過程:一個模型生成特定方面的提示,而另一個模型利用這些提示創建詳細、有針對性的反饋。這種提示生成和評審創建的分離允許更細致和有針對性的反饋,但由于缺乏集成框架,通常會導致部分或偏見的評審。為了解決這些限制,SEA[180]采用了單獨的模型進行標準化、評估和分析,提供了更全面和平衡的方法。該系統將多個評審統一為單一格式,顯著減少了反饋中的冗余和不一致性。此外,SEA引入了不匹配分數來衡量論文與生成評審之間的一致性,并結合自我糾正策略以迭代方式提高評審質量。雖然這些功能使SEA在一致性和全面性方面超越了Reviewer2,但協調多個模型的輸出增加了復雜性。基于專業化但解決不同挑戰,MARG[28]解決了處理超出典型LLM上下文限制的論文的問題。通過引入多代理框架,MARG將評審任務分配給多個專門模型,允許對較長論文進行全面評審,同時在整個文檔中保持對細節的關注。這種創新方法確保了詳細、特定方面的反饋,但也帶來了新的挑戰,如協調各種代理的通信和輸出,增加了確保一致性和對齊的難度。每種架構方法都提供了獨特的優勢并面臨獨特的挑戰。單一模型方法受益于更簡單的實現和對評審過程的更直接控制,但可能難以處理較長或更復雜的論文。多模型架構提供了更大的可擴展性和更好地處理復雜評審任務的能力,但它們需要仔細協調,并面臨組件之間的一致性挑戰。例如,ReviewRobot的結構化方法提供了可解釋性和可操作的見解,但不太適應不斷發展的研究領域,而CycleReviewer的迭代改進提高了動態適應性,而無需大量訓練資源。隨著這一領域的研究進展,結合單一模型的簡單性和多模型設計的適應性,為提高評審質量、一致性和全面性提供了一個有前途的途徑。

LLM輔助的同行評審工作流程

與完全自動化的評審生成不同,LLM輔助的同行評審工作流程專注于增強人類評審者的能力,而不是取代他們。最近的研究強調了這種人類-AI協作方法在學術同行評審中的關鍵重要性。[31, 12, 133]的研究強調,雖然LLM可以提高效率,但人類監督對于維護倫理標準和評審完整性仍然至關重要。像AgentReview[60]這樣的系統在實踐中展示了這種協同作用,其中LLM生成初步見解,人類評審者隨后進行細化和驗證。LLM輔助的同行評審工作流程增強了科學評審過程中的三個主要功能:(1)信息提取和摘要,幫助評審者快速掌握論文內容;(2)手稿驗證和質量保證,支持系統驗證論文主張;(3)評審寫作支持,協助生成結構良好的反饋。在信息提取和摘要功能中,系統自動化文檔理解和綜合以支持評審者理解。PaperMage[101]是一個基礎工具包,集成了自然語言處理和計算機視覺模型,處理視覺豐富的科學文檔,實現了跨多種模態的邏輯結構、圖表和文本內容的復雜提取。補充這種結構分析,CocoSciSum[29]專注于內容摘要,提供可定制的論文摘要,精確控制長度和關鍵詞包含,同時通過其組合控制架構保持高事實準確性。對于手稿驗證和質量保證功能,系統在不同分析層次上運作以確保科學嚴謹性。在局部層次上,ReviewerGPT[97]專門從事系統錯誤檢測和指南合規性,在驗證提交要求的同時有效識別單個手稿中的數學錯誤和概念不一致性。雖然ReviewerGPT專注于內部手稿驗證,PaperQA2[144]通過檢查主張與更廣泛的科學文獻進行全局驗證,采用復雜的語言代理檢測矛盾并驗證斷言。該系統通過識別每篇論文平均2.34個驗證矛盾,同時在其跨文獻分析中保持高事實準確性,展示了強大的性能。此外,Scideator[122]旨在促進想法驗證,通過面重組識別論文之間的新穎和科學基礎的類比。Scideator還包括一個新穎性檢查器,評估主張的獨特性和對既定研究范式的遵守,為評審者提供了增強的能力以嚴格審查手稿。在評審寫作支持功能中,系統采取不同但互補的方法,協助不同專業水平的評審者。ReviewFlow[149]通過上下文反思提示和筆記綜合指導提供智能支架,模擬專家實踐以幫助新手評審者生成結構良好的評審。該系統的逐步方法通過將復雜任務分解為可管理的組件,使那些剛接觸同行評審的人受益。雖然ReviewFlow專注于個別評審者指導,CARE[198]通過集成平臺強調評審寫作的協作方面,具有NLP增強的內聯注釋和實時協作功能,使評審者能夠更有效地合作,同時提供詳細和建設性的反饋[83, 19]。進一步補充這些功能,DocPilot[110]利用模塊化任務規劃和代碼生成能力,自動化文檔工作流程中的重復和復雜任務。其結構化方法管理和注釋科學PDF,確保評審者可以專注于實質性反饋而不是程序障礙,顯著提高了他們的效率。

基準

隨著自動化評審生成和LLM輔助工作流程的不斷發展,研究社區面臨一個關鍵挑戰:系統地評估和比較這些方法。這些基準的開發依賴于標準化的基準,評估LLM生成的評審的不同方面,從生成高質量評審到支持人類評審者的有效性。這些基準可以大致分為三種主要類型:(1)支持整體評估的綜合評審數據集,包括編輯決策、評分和語用分析;(2)專注于特定方面的專門評估數據集,如意見綜合和一致性分析;(3)通過缺陷識別和接受預測來衡量評審有效性的質量評估數據集。表5概述了這些關鍵基準及其相關的評估框架。這些數據集主要來自公開的學術會議,服務于同行評審任務中的多種目的。像MOPRD[94]和NLPeer[33]這樣的綜合數據集提供了廣泛的覆蓋范圍,支持從編輯決策預測到語用標簽的任務。更專門的數據集專注于評審過程的特定方面:ASAP-Review[183]和Reviewer2[39]強調接受預測和覆蓋評估。最近的補充,如ReviewCritique[32],引入了比較人類和LLM生成評審的新機制。這些基準的評估框架涵蓋了多個維度,如表5所詳述。語義相似性衡量生成評審與參考文本的接近程度,通常使用ROUGE和BertScore等指標。連貫性和相關性評估評審的邏輯流程和主題適當性,而多樣性和特異性評估提供的反饋范圍和深度。人工評估,結合專家對評審質量的評估,提供了自動指標的關鍵驗證。這四個評估組件——語義相似性、連貫性和相關性、多樣性和特異性以及人工評估——形成了一個多方面的評估方法,確保全面評估LLM生成的評審在各種質量維度上的表現。

挑戰與未來工作

挑戰。將LLMs集成到學術同行評審中代表了學術評估的重大轉變[91, 92]。隨著學術機構和出版商探索這項技術,理解其局限性和潛力對于學術界至關重要。同行評審的核心在于需要深厚的專業知識、細致的理解和謹慎的判斷。雖然LLMs在支持這一過程中顯示出潛力,但其局限性揭示了自動化學術評估的復雜性。一個基本挑戰是LLMs通常難以完全掌握學術領域中的專門術語和復雜概念。例如,在生物化學中,LLMs可能會誤解特定蛋白質相互作用的重要性,而在理論物理中,它可能無法識別數學模型中微妙但關鍵的假設[192]。這種有限的技術理解直接影響LLMs評估研究方法的能力。當LLMs無法完全理解領域特定概念時,它無法可靠地評估研究方法是否適當或證據是否支持結論。例如,在跨學科研究中,方法標準因領域而異,LLMs通常難以識別關鍵問題,如樣本量不足、不適當的統計測試或缺失的實驗控制[129]。這一限制在確保研究質量和科學完整性的高風險的同行評審中尤為令人擔憂。學術寫作的復雜性引入了額外的挑戰,特別是在處理較長手稿時。即使上下文窗口擴展,LLMs也難以在跨多個部分的復雜論證中保持連貫分析。這一限制經常導致不一致或矛盾的評估[18]。更令人擔憂的是幻覺的持續問題——模型有時會生成令人信服但不正確的評估,特別是在評審新穎研究方法時[28]。此外,在同行評審中實施LLMs面臨超出技術性能限制的額外挑戰。一個基本的基礎設施問題是缺乏專門的訓練數據[65, 184],這在學術學科中造成了不平衡的格局。這種數據稀缺性特別影響了研究社區較小或詞匯專門的領域。同樣令人擔憂的是LLM輔助同行評審的倫理影響。算法偏見和透明度問題[133]與新的學術不端行為形式一起出現,如“抄襲洗錢”[117]。此外,一個關鍵問題是,如果許多研究人員依賴相同的LLM系統進行同行評審,學術反饋的同質化潛力[91]。廣泛使用類似的AI工具可能會減少觀點的多樣性,并削弱來自個體人類評審者獨特思維過程的創造性見解。未來工作。為了推進LLMs在學術論文評審中的能力,必須優先解決幾個基本技術挑戰。首先,當前的LLMs在不同學術領域中的專門技術概念方面遇到困難,需要改進處理和理解領域特定術語的方法。其次,我們需要增強引用分析能力,以驗證參考文獻的相關性并評估引用如何有效支持論文的論點。第三,分析長學術文檔需要新的方法來保持連貫性——從跨部分引用到驗證方法、結果和結論之間的一致性。除了技術改進外,開發有效的人類-AI協作框架至關重要。下一代評審系統必須創建直觀的界面,突出潛在問題并無縫集成到人類工作流程中[31]。這些協作系統必須適應不同的學術領域,特別考慮計算資源有限的學科[132]。對這些人類-AI系統的嚴格評估框架必須確保它們真正提高評審者的效率和有效性[81, 169]。隨著LLM在同行評審中的普及,強大的治理機制變得至關重要。這包括開發可靠的方法來檢測LLM生成的內容,確保透明跟蹤LLM的貢獻,并保持評審者的真實性[91]。此外,我們需要標準化的協議,以安全地將LLM評審工具與現有期刊平臺集成[6]。最后,必須通過全面的評估框架來衡量這些領域的進展。對于技術能力,我們需要系統評估語言理解、引用分析和文檔連貫性方面的改進。人類-AI協作指標應評估LLM建議的質量及其對評審者效率的影響。治理評估必須評估LLM檢測系統的可靠性和平臺集成的安全性。關鍵的是,這些框架應檢查不同學術學科、出版格式和語言背景下的潛在偏見,以確保為所有學術社區提供公平的支持。通過這些有針對性的評估,我們可以指導LLM系統的開發,使其有意義地增強同行評審過程,同時保持其完整性。

6. 結論

本綜述全面探討了LLMs在整個科學生命周期中的變革作用,從假設生成、實驗到寫作和同行評審。通過識別將LLMs應用于這些任務的機遇和挑戰,我們強調了它們當前的能力、局限性和增強科學生產力的潛力。總之,LLMs代表了先進的生產力工具,提供了現代科學研究所有階段的新方法。盡管受到固有局限性、技術障礙和領域特定任務中的倫理考量的限制,LLM能力的持續進步有望徹底改變研究實踐。隨著這些系統的發展,它們集成到科學工作流程中不僅將加速發現,還將促進科學社區中前所未有的創新和合作。

付費5元查看完整內容

摘 要 隨著大語言模型技術的快速發展,其在網絡空間認知域作戰中的應用展現出巨大潛力。基于大語言模型的發展歷程和獨 特優勢,聚焦于網絡空間認知戰領域,從態勢感知、態勢認知、鑒定識別和信息作戰4個方面梳理了大語言模型關鍵技術路線,并 詳細分析了將其應用在網絡空間認知戰中的具體方案及未來挑戰,為我國在該新興領域取得新質戰斗力提供理論和技術支持。 關鍵詞 大語言模型,網絡空間,認知戰,技術與挑戰 《孫子兵法》云:“不戰而屈人之兵”,從作戰效率 和作戰效果而言,這是一種費效比極佳、“善之善 者”的作戰方案。在現代戰爭中,網絡空間認知域作 戰構成了一個多維度戰略框架,通過融合物理領域 的行動、信息領域的利用和認知領域的防御與攻擊, 旨在在網絡空間奪取敵人的意志、信念、心理和思 維主導權。網絡空間認知域作戰方式融合了傳統的 輿論戰、心理戰、法律戰,以及政治戰、經濟戰、文 化戰等多種戰術手段,形成了一個綜合性的作戰體 系,具有“全天候、不宣而戰”的特點,極大程度上助 力實現“不戰而勝”的戰略目標,對我軍新型戰斗力 的塑造起到了關鍵作用。 網絡空間的認知戰是利用先進的網絡信息技術 和傳播媒介,在現實物理戰場之外構建的思想認識、 公共輿論和意識形態的斗爭領域。這種戰斗形式通 過主導和影響公眾的情感認同和認知,爭取主導權 和話語權,目的是引導事件的發展至有利于本國利 益的方向。在網絡空間認知戰中,一方面充分利用 算法和數字智能的優勢,以實現對公眾認知的操縱; 另一方面,基于分布式協同控制技術進行智能技術 賦能,通過網絡實現作戰資源的協調、戰場態勢的 感知和上下級指令共享,進而達成分布式的智能化 作戰,實現自主決策和協同行動。各個國家對于未 來戰爭作戰力量的部署都向著動態/分布式作戰體系 發展[1] 。在認知戰領域,隨著大語言模型(large lan? guage models,LLMs)的進步,特別是通過內容創建和 虛假信息活動執行過程的自動化,可以實現在態勢 感知和態勢認知的基礎上,由識別虛假信息和生成 虛假信息兩方面協同控制戰場局勢,實現分布式體 系部署,為網絡空間認知戰的發展提供了更多的可能性,使整個網絡空間認知戰的作戰方式更加靈活。 LLMs基于機器學習技術,借助其強大的生成能 力和理解能力,能夠被用來為認知層面的攻擊提供 支持[2] ,也使得生成面向特定語境的高復雜度的信息 成為可能。這些信息能夠更深刻地觸動目標群體, 同時使得影響活動更不易被察覺和消除。不僅為更 多不同類型的行為者發起虛假信息宣傳活動打開了 大門,也為覆蓋大量受眾的高度可擴展的宣傳活動 創造了潛力。

付費5元查看完整內容

摘要—多模態情感計算(MAC)由于其在人類行為和意圖分析中的廣泛應用,尤其是在以文本為主導的多模態情感計算領域中,受到了越來越多的關注。本綜述從自然語言處理(NLP)視角出發,介紹了多模態情感計算的最新趨勢,涵蓋四個熱門任務:多模態情感分析、多模態對話情感識別、多模態基于方面的情感分析以及多模態多標簽情感識別。本綜述的目標是探索當前多模態情感研究的現狀,識別發展趨勢,突出不同任務之間的相似性和差異性,并為多模態情感計算在NLP視角下的最新進展提供全面報告。本綜述涵蓋了任務的形式化,概述了相關研究工作,描述了基準數據集,并詳細介紹了每個任務的評估指標。此外,本文簡要討論了涉及面部表情、聲學信號、生理信號和情感原因的多模態情感計算研究。我們還討論了多模態情感計算中的技術方法、挑戰及未來發展方向。為了支持進一步的研究,我們發布了一個匯集了多模態情感計算相關工作的資源庫,提供了詳細的資源和參考文獻,供研究社區使用。

情感計算結合了計算機科學、心理學和認知科學的專業知識,其目標是賦予機器識別、解釋和模擬人類情感的能力【1】–【6】。當今世界充滿了各種模態——我們通過視覺感知物體,通過聽覺感受聲音,通過觸覺感受物體的質地,通過嗅覺聞到氣味,等等。模態是指體驗的感知或發生方式,通常與視覺或觸覺等感官模態相關,這些模態對交流和感知至關重要。在多個領域的多模態學習取得重大進展【7】【8】后,多模態情感計算的進展加速并受到越來越多的關注。

多模態情感計算旨在開發能夠在多種模態下解釋和推理情感或情緒狀態的模型。在其早期階段,情感計算的研究主要集中在單一模態任務上,分別研究基于文本、音頻和視覺的情感計算。例如,D-MILN【9】是一個文本情感分類模型,而工作【10】利用訓練在原始音頻上的雙向長短期記憶(BiLSTM)模型預測群體反應的平均情感。如今,情感分析已廣泛應用于各種模態中,用于市場研究、品牌監測、客戶服務分析和社交媒體監控等應用。多媒體技術的最新進展【11】–【14】拓寬了信息傳播的渠道,新聞、微博等社交媒體平臺以及視頻內容的涌現將文本(口語特征)、聲學(節奏、音高)和視覺(面部屬性)信息整合起來,用于全面分析人類情感。例如,Xu等人【15】將圖像模態數據引入傳統的基于文本的方面級情感分析,創建了多模態基于方面的情感分析新任務。同樣,Wang等人【16】將文本情感原因對提取擴展到多模態對話環境中,利用多模態信號(文本、音頻和視頻)增強模型理解情感及其原因的能力。

多模態情感計算任務與機器學習中的多個學習范式密切相關,包括遷移學習【17】–【19】、多模態學習【20】【21】、多任務學習【22】–【24】和語義理解【25】【26】。在遷移學習方面,它使得在一個領域訓練的情感分析模型能夠適應其他領域的有效表現。通過在目標領域有限的數據上微調預訓練模型,這些模型可以遷移到新領域,從而提升其在多模態情感計算任務中的表現。在多模態學習中,跨模態注意力動態對齊并聚焦于來自不同模態的相關信息,通過突出關鍵特征及其交互來增強模型捕捉情感的能力。在多任務學習中,跨情感計算任務和模態的共享表示通過從文本、音頻和視頻中捕捉共同的情感相關特征來提升表現。 最近,多模態學習的研究通過在大規模多模態數據集上預訓練多模態模型,進一步提升了下游任務的性能,如多模態情感分析【27】–【30】。隨著預訓練模型規模的擴大,參數高效的遷移學習方法如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等不斷涌現。越來越多的多模態情感計算研究利用這些參數高效的遷移學習方法,將預訓練模型(如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,通過進一步微調預訓練模型來提升模型性能。例如,Zou等人【36】設計了一個多模態提示Transformer(MPT)用于跨模態信息融合。UniMSE【37】提出了一種基于適配器的模態融合方法,它將聲學和視覺信號注入T5模型中,與多層次的文本信息進行融合。

多模態情感計算涵蓋了情感分析、觀點挖掘和情感識別等任務,使用的模態包括文本、音頻、圖像、視頻、生理信號和觸覺反饋。本綜述主要關注三種關鍵模態:自然語言、視覺信號和聲音信號。我們在本綜述中突出了四個主要任務:多模態情感分析(MSA)、多模態對話中的情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。多模態情感計算領域已有大量研究,且已有多篇綜述【14】【38】–【40】發表。然而,這些綜述主要集中于特定的情感計算任務或單一模態,忽略了跨多任務的多模態情感計算的總體概況,以及這些任務之間的一致性和差異性。

本綜述的目標有兩點。首先,旨在為初學者提供多模態情感計算的全面概述,探索情感分析中的深度學習,詳細介紹任務、輸入、輸出及相關數據集。其次,為研究人員提供反思過去發展、探索未來趨勢的視角,并研究多模態情感分析和情感識別領域的技術方法、挑戰及研究方向。


綜述的結構

第III節概述了多模態情感任務的任務形式化及應用場景。第IV節介紹了特征提取方法和最近的多模態預訓練模型(如CLIP、BLIP、BLIP2)。第V節從多模態融合和多模態對齊兩個角度分析了多模態情感研究,并簡要總結了用于進一步微調預訓練模型的參數高效遷移方法。第VI節回顧了關于MSA、MERC、MABSA和MMER的文獻,重點討論了多任務學習、預訓練模型、增強知識和上下文信息。此外,第VII節總結了多模態數據集,第VIII節涵蓋了每個多模態情感計算任務的評估指標。在回顧多模態情感計算工作后,第IX節簡要回顧了基于面部表情、聲學信號、生理信號和情感原因的多模態情感計算工作,突出其一致性、差異性及其最新趨勢。第X節從三個方面展望了未來工作:多模態情感計算任務的統一、外部知識的引入以及較少研究的模態情感計算。最后,第XI節總結了本綜述及其對多模態情感計算社區的貢獻。

多模態情感計算中的多模態學習

多模態學習涉及從不同模態中學習表示。通常,多模態模型應首先基于語義對模態進行對齊,然后再融合多模態信號。在對齊后,模型將多個模態組合成一個表示向量。

A. 初步概述

隨著預訓練模型規模的擴大,出現了諸如適配器【31】、提示【32】、指令微調【33】和上下文學習【34】【35】等參數高效的遷移學習方法。在這種范式下,預訓練的語言模型(LMs)不再通過目標工程適應下游任務,而是通過提示、指令微調和上下文學習,將下游任務重新格式化,使其更像原始LM訓練期間解決的任務。例如,在視覺語言模型(VLMs)中,像GPT-4V【65】和Flamingo【67】的提示使用,使模型能夠基于視覺和文本輸入的結合來解釋和生成輸出。與提示不同,指令微調屬于提示學習范式。此外,像InstructBLIP【70】和FLAN【72】這樣的模型表明,指令微調不僅提高了模型對指令的遵循性,還增強了其跨任務的泛化能力。在多模態情感計算領域,研究人員可以利用這些參數高效的遷移學習方法(例如適配器、提示和指令微調),將預訓練模型(例如單模態預訓練模型或多模態預訓練模型)的知識遷移到下游情感任務中,并通過情感數據集進一步微調預訓練模型。鑒于多模態情感計算涉及多模態學習,因此我們從多模態融合和多模態對齊的角度分析多模態情感計算的相關工作,如圖1所示。

B. 多模態融合

多模態信號是異質的,來源于各種信息源,因此將多模態信號整合為一個表示至關重要。Tasi等人【74】根據融合階段將多模態融合總結為早期融合、晚期融合和中間融合。早期融合在模型處理之前,將來自不同模態的特征在輸入級別進行組合。晚期融合則通過單獨的子網絡分別處理來自不同模態的特征,并在做出最終決策之前的晚期階段將這些子網絡的輸出進行組合。晚期融合使用單模態的決策值,并通過如平均【121】、投票方案【122】、基于通道噪聲的加權【123】和信號方差【124】等機制將它們結合起來,或者通過學習模型【6】【125】進行融合。這兩種融合策略面臨一些問題。例如,特征級別的早期融合在融合操作后可能低估模態內的動態,而決策級別的晚期融合在融合操作之前可能難以捕捉模態間的動態。不同于前兩種方法的地方在于,中間融合是在模型學習器的中間層結合來自不同模態的特征,允許模態在不同的處理階段進行更多的交互,從而可能產生更豐富的表示【37】【126】【127】。基于這些融合策略,我們從三個方面回顧了多模態融合:跨模態學習、模態一致性與差異性、多階段模態融合。圖2展示了模態融合的三個方面。

**1) 跨模態學習

跨模態學習關注的是通過引入模態間的依賴關系和交互來實現更好的模態融合。早期的多模態融合工作【73】主要在特征空間中進行幾何操作,以融合多種模態。最近,跨模態學習的常見方式是引入基于注意力的學習方法來建模模態間和模態內的交互。例如,MuLT【74】提出了多模態Transformer,用于學習模態間的交互。Chen等人【75】通過三模態協同交互增強了模態內和模態間的特征,并統一了三種模態的特性(跨模態)。楊等人【76】提出了跨模態BERT(CM-BERT),旨在基于預訓練的BERT模型對文本和音頻模態的交互進行建模。Lin等人【77】探討了模態內和模態間表示的復雜關系,用于情感提取。最近,Tang等人【78】提出了多模態動態增強模塊,用于捕捉模態內的情感上下文,減少輔助模態的模態內冗余。Huang等人【79】提出了一個基于跨模態注意力的文本中心融合網絡(TeFNA),這個多模態融合網絡利用跨模態注意力建模未對齊的多模態時間信息。

在情感識別領域,CMCF-SRNet【80】是一個跨模態上下文融合和語義精煉網絡,包含一個跨模態局部約束Transformer和基于圖的語義精煉Transformer,旨在探索話語間的多模態交互和依賴關系。Shi等人【81】提出了一個基于注意力的相關性感知多模態融合框架MultiEMO,該框架基于雙向多頭跨注意力層捕捉文本、音頻和視覺模態間的映射關系。總之,跨模態學習主要關注模態間關系的建模。

**2) 模態一致性與差異性

模態一致性是指對于同一樣本,不同模態之間共享的特征空間,而模態差異性則突出每種模態提供的獨特信息。大多數多模態融合方法將表示分為模態不變(一致性)和模態特定(差異性)兩個組成部分。模態一致性有助于處理缺失模態,而模態差異性則利用每個模態的互補信息來改進整體數據理解。例如,幾項研究【86】【87】通過對比學習探索了模態一致性與差異性的學習。Han等人【85】通過最大化模態間及模態內的互信息來探索模態一致性。另一項研究【86】提出了一個混合對比學習框架,該框架同時進行模態內/模態間對比學習和半對比學習,建模跨模態交互,保持類間關系,并減少模態差距。此外,Zheng等人【87】將模態對之間的互信息最大化與輸入數據和相應特征之間的互信息最小化相結合。該方法旨在提取模態不變且任務相關的信息。模態一致性也可以被視為將多種模態投射到共同潛在空間(模態不變表示)的過程,而模態差異性則指將模態投射到模態特定的表示空間。例如,Hazarika等人【88】提出了一種方法,將每種模態投射到模態不變和模態特定的空間中。他們實現了一個解碼器,通過模態不變和模態特定特征來重建原始模態表示。AMuSE【84】提出了一個多模態注意力網絡,通過聯合學習模式特定的外周和中央網絡,捕捉不同層次空間抽象下的跨模態交互。對于細粒度的情感分析,Xiao等人【89】提出了CoolNet,以提高視覺語言模型在無縫整合視覺和語言信息方面的性能。Zhang等人【90】通過探索模態一致性,提出了一個基于融合判別注意力網絡的方面級情感分類模型。

**3) 多階段模態融合

多階段多模態融合【128】【129】指的是將從多個階段或多個尺度提取的模態信息結合起來,以融合模態表示。Li等人【94】設計了一個兩階段對比學習任務,學習相同情感類別數據的相似特征,并為不同情感類別的數據學習可區分的特征。HFFN【95】將多模態融合過程分為分解、征服和組合三個部分,在每個局部塊學習局部交互,并通過跨局部交互傳遞信息來探索全局交互。與HFFN的工作不同,Li等人【96】對齊并融合了文本和圖像的token級特征,設計了基于標簽的對比學習和基于數據的對比學習,以捕捉多模態數據中與情感相關的共同特征。一些工作【97】將融合過程分解為多個階段,每個階段專注于部分多模態信號,以實現更專門和有效的融合。此外,CTFN【130】提出了一種新的特征融合策略,按照層次化的方式進行,首先兩兩融合模態,然后再融合三種模態。此外,在多個層次的模態融合方面也取得了進展,例如,Li等人【99】提出了一種基于多層次相關性挖掘和自監督多任務學習的多模態情感分析方法,Peng等人【100】提出了一種細粒度模態標簽的多階段網絡(FmlMSN),利用來自文本、音頻、圖像及其組合的七種情感標簽,在不同粒度上進行信息整合。研究人員通常專注于模型決策前的尺度級模態對齊和模態融合。Sharafi等人【93】提出了一種新的融合方法,利用不同的尺度進行多模態情感識別。

C. 多模態對齊

多模態對齊涉及在融合多模態數據之前對模態語義進行同步。一個關鍵挑戰是處理缺失模態的情況,例如由于攝像頭關閉、用戶沉默或設備故障導致語音和文本同時缺失。由于始終擁有所有模態的假設在現實中通常不切實際,因此多模態對齊必須解決這些缺失。此外,它還涉及通過語義對齊來對齊圖像、文本和音頻中的對象。因此,我們從處理缺失模態和實現語義對齊的角度討論多模態對齊。圖3展示了多模態對齊的示意圖。

**1) 缺失模態的對齊

在實際場景中,數據收集有時會由于不可預見的事件同時丟失某些模態。雖然多模態情感計算通常假設所有模態都可用,但這一假設在實踐中經常失敗,這可能會導致在缺少某些模態時,模態融合和對齊模型出現問題。我們將現有的處理缺失模態的方法分為四類。第一類是數據增強方法,通過隨機刪除輸入來模擬缺失模態的情況。Parthasarathy等人【107】提出了一種策略,在訓練過程中隨機刪除視頻輸入的剪輯或幀,模擬現實世界場景。Wang等人【108】通過訓練情感識別模型,迭代性地進行數據增強,處理話語級模態缺失問題。第二類基于生成方法,直接預測給定可用模態的缺失模態【131】。例如,Zhao等人【106】提出了缺失模態想象網絡(MMIN),在不同缺失模態條件下,根據可用模態預測任何缺失模態的表示,以應對不確定的缺失模態問題。Zeng等人【109】提出了基于集成的缺失模態重建(EMMR)網絡,以檢測并恢復關鍵缺失模態的語義特征。Yuan等人【110】提出了一種基于Transformer的特征重建網絡(TFR-Net),該網絡通過增強模型在非對齊模態序列中隨機缺失的魯棒性。Luo等人【111】提出了多模態重建與對齊網絡(MRAN),專門處理缺失模態問題,尤其是緩解文本模態缺失帶來的性能下降。

第三類旨在學習聯合多模態表示,這些表示能夠包含基于組合的視覺和文本輸入的相關信息。例如,Ma等人【133】提出了一個統一的深度學習框架,通過相關分析有效處理音視頻情感識別中的缺失標簽和缺失模態問題。Zeng等人【113】提出了一個標簽輔助Transformer編碼器網絡(TATE),用于處理不確定的缺失模態問題,該網絡設計了一個標簽編碼模塊,以覆蓋單模態和多模態缺失的情況,從而引導網絡對缺失模態的關注。Zuo等人【114】提出使用不變特征的缺失模態想象網絡(IF-MMIN),該網絡包含不變特征學習策略和基于不變特征的想象模塊(IF-IM)。通過這兩種策略,IF-MMIN能夠在預測缺失模態時緩解模態差距,從而提高多模態聯合表示的魯棒性。Zhou等人【116】在缺失一種或多種模態的情況下,提出了一種新穎的腦腫瘤分割網絡。該網絡由三個子網絡組成:一個特征增強生成器、一個相關性約束模塊和一個分割網絡。 最后一類是基于翻譯的方法。Tang等人【98】提出了耦合翻譯融合網絡(CTFN),通過耦合學習建模雙向交互,確保在缺失模態情況下的魯棒性。Liu等人【115】提出了一種基于模態翻譯的多模態情感分析模型(MTMSA),該模型對不確定的缺失模態具有魯棒性。總而言之,關于缺失模態對齊的研究集中在基于現有模態信息的缺失模態重建和學習。

**2) 跨模態語義對齊

語義對齊旨在找到同一樣本中多種模態之間的連接,指的是通過一種模態信息搜索另一種模態信息,反之亦然。在多模態情感分析領域,Tsai等人【74】利用跨模態和多尺度模態對齊,分別在語義層面實現模態一致性。ScaleVLAD【200】提出了一種融合模型,通過共享的局部聚合描述符向量,從文本、視頻和音頻中聚集多尺度表示,以改進未對齊的多模態情感分析。Yang等人【104】將未對齊的多模態序列數據轉換為一個具有異質節點和邊的圖,捕捉模態間和時間上的豐富交互。Lee等人【201】將音頻和基礎文本信號按相同步長分段,使得順序信號的相同時間步覆蓋信號的相同時間跨度。Zong等人【202】利用多次雙向翻譯,與傳統的翻譯方法相比,產生了雙倍的多模態融合嵌入。Wang等人【203】提出了一種基于Transformer的多模態編碼–解碼翻譯網絡,并采用了以文本為主要信息、聲音和圖像為次要信息的聯合編碼–解碼方法。Zhang等人【120】提出了一種新穎的多級對齊方法,用于彌合聲學和詞匯模態之間的差距,該方法可以有效對比實例級和原型級的關系,在潛在空間中分離多模態特征。Yu等人【204】提出了一種無監督方法,通過最小化兩種模態之間的Wasserstein距離,強迫兩種編碼器產生更合適的表示,以便最終對文本和圖像進行對齊。 Lai等人【119】提出了一種基于協方差矩陣的深度模態共享信息學習模塊,用于捕捉模態之間的共享信息。此外,我們使用了一個基于自監督學習策略的標簽生成模塊,以捕捉模態的私有信息。我們的模塊在多模態任務中是即插即用的,并且通過改變參數化,它可以調整模式之間的信息交換關系,學習特定模式之間的私有或共享信息。我們還采用了多任務學習策略,幫助模型專注于模態差異的訓練數據。為了增強模型的魯棒性,Robust-MSA【118】提出了一個交互式平臺,可視化模態噪聲的影響,以幫助研究人員提高模型能力。

多模態情感計算中的模型

在多模態情感計算領域,相關工作在技術路線發展上表現出顯著的一致性。為了更清晰地展示,我們根據多任務學習、預訓練模型、增強知識、上下文信息這四個方面對這些工作進行了分類。同時,我們簡要總結了在多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)任務中的進展。圖4總結了在這些方面的典型多模態情感計算工作,表II展示了多模態情感計算的分類。

A. 多任務學習

多任務學習是在多個相關任務上同時訓練模型,通過共享信息來提升性能。損失函數結合了所有任務的損失,通過梯度下降來更新模型參數。在多模態情感計算中,多任務學習有助于區分模態不變和模態特定特征,并將與情感相關的子任務整合到統一框架中。圖5展示了多模態情感學習任務中多任務學習的范式。

**1) 多模態情感分析

在多模態情感分析領域,Self-MM【134】為單一模態生成偽標簽【205】–【207】,然后基于生成的和原始標簽共同訓練單模態和多模態表示。此外,還使用了一種模態間的翻譯框架ARGF,作為輔助任務將一種模態翻譯到另一種模態,從而規范多模態表示學習【135】。Akhtar等人【136】利用情感和情緒任務的相互依賴性來提高模型在這兩個任務上的性能。Chen等人【137】提出了一個基于視頻的跨模態輔助網絡(VCAN),該網絡由一個音頻特征映射模塊和一個跨模態選擇模塊組成,以利用輔助信息。Zheng等人【138】提出了帶有松弛重建的解耦翻譯網絡(DTN),用于捕捉期望的信息屬性,獲取統一的特征分布,并減少冗余。Zheng等人【87】結合了模態對之間的互信息最大化(MMMIE)與輸入數據和相應特征之間的互信息最小化,在單一架構中共同提取模態不變和任務相關的信息。

**2) 多模態對話情感識別

在多模態情感識別社區中,Zheng等人【24】提出了一個名為面部表情感知多模態多任務學習的兩階段框架(FacialMMT),該框架在統一架構中共同訓練多模態面部識別、無監督面部聚類和面部匹配,以利用幀級別的面部情感分布來幫助改進基于多任務學習的話語級情感識別。Zhang等人【208】設計了兩種多任務學習解碼器,即單級解碼器和多級解碼器,以探索其潛力。更具體地說,單級解碼器的核心是掩蔽的外模態自注意機制。Sun等人【139】設計了兩個輔助任務,以緩解模態間融合不足的問題,并引導網絡捕捉和對齊與情感相關的特征。Zhao等人【140】提出了基于Transformer的深度融合網絡(TDFNet)用于多模態情感識別,解決了上述問題。TDFNet中的多模態嵌入(ME)模塊通過使用大量無標簽數據為模型提供多模態信息的先驗知識,來緩解數據稀缺問題。Ren等人【141】提出了一種新穎的多模態對抗學習網絡(MALN),該網絡首先從上下文序列中挖掘說話者的特征,然后將其與單模態特征結合起來。Liu等人【142】提出了LGCCT,一種輕量級的門控和交叉互補Transformer,用于多模態語音情感識別。

**3) 多模態基于方面的情感分析

Yang等人【144】提出了一個名為跨模態多任務Transformer(CMMT)的多任務學習框架,該框架包含兩個輔助任務,用于學習方面/情感感知的模態內表示,并引入了一個文本引導的跨模態交互模塊,以動態控制視覺信息對每個詞的模態間交互表示的貢獻。Jain等人【145】提出了一個分層多模態生成方法(AbCoRD),用于基于方面的投訴和理由檢測,將多任務問題重新表述為多模態文本生成任務。Ju等人【146】是第一個聯合執行多模態ATE(MATE)和多模態ASC(MASC)的人,并提出了一個聯合框架JML,用于基于多模態方面級情感分析(MALSA)的輔助跨模態關系檢測,以控制視覺信息的適當利用。Zou等人【36】設計了一個多模態提示Transformer(MPT)進行跨模態信息融合。同時,該工作使用了混合對比學習(HCL)策略,以優化模型處理少量標簽樣本的能力。Chen等人【82】設計了音頻模塊應比文本模塊更具表現力,并將單一模態情感表示動態融合到多模態情感表示中,提出了相應的基于規則的多模態多任務網絡(MMRBN),用于限制表示學習。

**4) 多模態多標簽情感識別

對于多模態多標簽情感識別,Ge等人【92】設計了對抗性時間掩蔽策略和對抗性參數擾動策略,以分別增強其他模態的編碼和模型的泛化能力。MER-MULTI【147】是一種標簽分布自適應方法,適應了訓練集和測試集之間的標簽分布,以消除與測試集特征不匹配的訓練樣本。Akhtar等人【209】提出了一個深度多任務學習框架,該框架聯合執行情感和情緒分析,利用兩個相關任務(即情感和情緒)的相互依賴性來提高它們各自的性能。

B. 預訓練模型

近年來,大語言模型(LLM)【56】【210】和多模態預訓練模型【21】【26】【211】【212】取得了顯著進展【25】【210】【213】。與非預訓練模型相比,預訓練模型包含大量轉移知識【27】【31】,可以引入到多模態表示學習中,以探索更豐富的信息。圖6展示了預訓練模型在多模態情感學習任務中的使用。

**1) 多模態情感分析

在多模態情感分析領域,Rahman等人【21】提出了一種附加到預訓練模型BERT和XLNet上的多模態適應門(MAG),該適應門允許BERT和XLNet通過生成一個基于視覺和聲學模態的偏移來接受多模態的非語言數據。UniMSE【37】是基于T5模型【57】的統一情感共享框架,該框架將非語言信號注入預訓練的Transformer模型中,以探索LLM中存儲的知識。AOBERT【148】引入了一種單流Transformer結構,將所有模態整合到一個BERT模型中。Qian等人【149】在詞級別嵌入情感信息到預訓練的多模態表示中,以便在有限的標注數據上進行進一步學習。TEASAL【150】是一個基于Transformer的語音前綴語言模型,它利用一個傳統的預訓練語言模型作為跨模態Transformer編碼器。Yu等人【151】研究了面向目標的多模態情感分類(TMSC),并提出了一個多模態BERT架構,用于多模態情感分析任務。Cheng等人【152】設置了分層參數共享和分解的共同注意機制,以便在跨注意力塊之間共享參數,從而允許多模態信號在每一層進行交互。ALMT【153】結合了一個自適應超模態學習(AHL)模塊,用于在語言特征的指導下從視覺和音頻特征中學習無關性/沖突抑制的表示。

**2) 多模態對話情感識別

在多模態對話情感識別領域,FacialMMT【24】是一個兩階段框架,使用RoBERTa【214】和Swin Transformer作為表示學習的主干。Qiu等人【215】采用VATT【30】分別編碼視覺、文本和音頻,并使學到的模態表示進行對齊。QAP【19】是一個量子啟發的自適應優先學習模型,采用ALBERT作為文本編碼器,并引入了量子理論(QT)以自適應地學習模態優先級。UniMSE【37】提出了一種基于預訓練模型T5的多模態融合方法,旨在通過預訓練的知識融合模態信息。GraphSmile【154】采用RoBERTa【214】逐層跟蹤多模態對話中的復雜情感線索,逐層吸收模態內和模態間的情感依賴關系,充分捕捉跨模態線索,同時有效避免融合沖突。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【47】首次提出了多模態基于方面的情感分析任務,并提出了一種新穎的多交互記憶網絡(MIMN),該網絡包含兩個交互記憶網絡,分別用于監督文本和視覺信息與給定方面的關聯,并學習跨模態數據之間的交互影響以及單模態數據中的自我影響。Yang等人【17】提出了一種新穎的生成多模態提示(GMP)模型,用于MABSA,該模型包含多模態編碼器模塊和N流解碼器模塊,并通過少量標注的多模態樣本執行三項MABSA相關任務。Liu等人【155】提出了一種基于視覺提示的實體相關無監督預訓練,用于MABSA。Ling等人【156】提出了一個任務特定的視覺-語言預訓練框架(VLPMABSA),這是一個統一的多模態編碼器-解碼器架構,適用于所有的預訓練和下游任務。Zhang等人【157】構建了一個動態重加權的BERT(DR-BERT),設計用于學習基于BERT的動態方面導向語義。

**4) 多模態多標簽情感識別

一些關于多模態多標簽情感識別的工作利用了預訓練模型來提高模型性能。據我們所知,TAILOR【91】是一個新穎的多模態學習框架,用于多標簽情感識別,它對多個模態之間的共性和差異進行了對抗性描繪。TAILOR通過對抗性地提取私有和共性模態表示來執行這些任務。

C. 增強知識

在機器學習和人工智能中,外部知識是指來自訓練數據集之外的信息,包括知識庫、文本語料庫、知識圖譜、預訓練模型和專家見解。整合這些知識可以提高模型的性能、泛化能力、可解釋性以及對噪聲或有限數據的魯棒性。圖7展示了在多模態情感學習任務中整合外部知識的常見方法。

**1) 多模態情感分析

在多模態情感分析研究領域,Rahmani等人【18】通過層次劃分用戶構建了自適應樹,并利用基于注意力的融合來在樹內轉移認知導向的知識。TETFN【163】是一種新穎的方法,名為文本增強Transformer融合網絡,它學習面向文本的成對跨模態映射,以獲得有效的統一多模態表示。Zhu等人【164】提出了情感知識增強的注意力融合網絡(SKEAFN),這是一個新穎的端到端融合網絡,通過整合來自外部知識庫的附加情感知識表示來增強多模態融合。

**2) 多模態對話情感識別

在多模態對話情感識別領域的研究中,Fu等人【166】將上下文建模、知識豐富和多模態(文本和音頻)學習集成到基于GCN的架構中。Li等人【167】提出了一種解耦的多模態蒸餾(DMD)方法,旨在通過靈活和自適應的跨模態知識蒸餾來增強每種模態的判別特征。Sun等人【168】研究了一種基于粗集理論的多模態融合Transformer網絡,通過粗集跨注意力促進了多模態信息的交互和特征引導。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Xu等人【172】引入了外部知識,包括文本語法和跨模態關聯知識,通過知識誘導矩陣切斷文本或跨模態模態之間的無關連接。Yang等人【173】提煉了視覺情感線索,并將其與文本內容對齊,以選擇性地與文本模態中的目標方面匹配和融合。CoolNet【174】是一個跨模態的細粒度對齊和融合網絡,旨在提高視覺-語言模型在無縫整合視覺和語言信息方面的表現。

**4) 多模態多標簽情感識別

在多模態多標簽情感識別研究領域,Zheng等人【176】提出通過使用效價-喚醒(VA)空間來表示每個情感類別,以捕捉情感類別之間的相關性,并設計了一種基于VA的對比學習算法。CARAT【177】提出了基于對比的特征重建和聚合機制,用于MMER任務。具體而言,CARAT設計了一種基于重建的融合機制,通過對比學習模態分離和標簽特定特征,來更好地建模細粒度的模態與標簽之間的依賴關系。

D. 上下文信息

上下文是指圍繞某個詞或短語的單詞、句子或段落,這些信息為該詞或短語賦予了特定的含義。理解上下文對于對話系統或情感分析等任務至關重要。在對話中,上下文包括之前話語的歷史,而對于新聞來說,它指的是整篇文章提供的總體描述。總的來說,上下文信息幫助機器做出更準確的預測。圖8展示了上下文信息在多模態情感學習任務中的重要性。

**1) 多模態情感分析

在多模態情感分析領域,Chauhan等人【180】采用了一個上下文感知的注意力模塊,通過編碼器-解碼器結構學習參與模態之間的模態內交互。Poria等人【181】提出了一個帶有多級多重注意的遞歸模型,以捕捉話語之間的上下文信息,并設計了一個遞歸模型來捕捉話語之間的上下文信息,引入了基于注意力的網絡,以提高上下文學習和動態特征融合的效果。

**2) 多模態對話情感識別

在多模態對話情感識別研究領域,Hu等人【185】有效利用了多模態依賴關系,并利用說話者信息來建模說話者之間和說話者內部的依賴關系。Zhang等人【80】提出了一個跨模態上下文融合和語義精煉網絡(CMCF-SRNet),解決了話語之間語義關系信息不足的局限性。Zhang等人【187】構建了多個特定模態的圖,以建模多模態上下文的異質性。Chen等人【188】提出了一個基于GNN的模型,該模型探索了多變量關系,并通過評估多頻信號的情感差異和共性的不同重要性來捕捉這些關系。

**3) 多模態基于方面的情感分析

在多模態基于方面的情感分析研究中,Yu等人【158】提出了一種無監督的方法,該方法最小化了兩個模態之間的Wasserstein距離,強制兩個編碼器生成更適合最終提取的表示。Xu等人【192】設計并構建了一個多模態中文產品評論數據集(MCPR),以支持MABSA的研究。

**4) 多模態多標簽情感識別

MMS2S【197】是一種多模態序列到集合的模型,用于有效建模標簽依賴和模態依賴。MESGN【198】首次提出了這一任務,該模型同時建模模態到標簽和標簽到標簽的依賴關系。Zhao等人【199】提出了一個通用的多模態對話感知交互框架(MDI),用于建模對話上下文對情感識別的影響。 結論

多模態情感計算(MAC)已成為人工智能領域中的一個重要研究方向,并在理解和解釋情感方面取得了顯著進展。本文綜述了與多模態情感計算相關的多種任務,涵蓋了其研究背景、定義、相關工作、技術方法、基準數據集和評估指標。我們將多模態情感計算中的任務劃分為四類:多任務學習、預訓練模型、增強知識和上下文信息,涉及多模態情感分析(MSA)、多模態對話情感識別(MERC)、多模態基于方面的情感分析(MABSA)和多模態多標簽情感識別(MMER)。此外,我們總結了不同情感計算任務之間的一致性和差異性,并報告了多模態情感分析中固有的挑戰,探索了未來研究和發展的潛在方向。

付費5元查看完整內容

近年來,大型語言模型(LLM)的集成徹底改變了機器人技術領域,使機器人能夠以類似人類的熟練程度進行交流、理解和推理。本文探討了LLM對機器人學的多方面影響,討論了利用這些模型的關鍵挑戰和機遇。通過對LLM在機器人核心元素——通信、感知、規劃和控制中的應用進行分類和分析,我們旨在為尋求將LLM集成到其機器人系統中的研究者提供可行的見解。

我們的研究主要集中在GPT-3.5之后開發的LLM上,主要是基于文本的模式,同時也考慮了用于感知和控制的多模態方法。我們提供全面的指導原則和示例,以便初學者能夠輕松接觸基于LLM的機器人解決方案。通過教程級別的示例和結構化的提示構建,我們展示了如何將LLM引導的增強功能無縫集成到機器人應用中。本綜述為研究人員在不斷發展的LLM驅動的機器人技術領域中的導航提供了路線圖,提供了全面的概述和實用的指導,以利用語言模型在機器人開發中的潛力。

在過去的十年中,我們見證了機器人學領域在應用語言模型(LMs)方面取得了顯著的進展。這些進展不僅包括類似人類的交流能力,還包括機器人的理解和推理能力,從而顯著提高了它們在從家庭雜務到工業操作等各種任務中的效率。在早期工作中,這些成功源于統計模型分析和預測語言表達中的詞匯。這些模型使機器人能夠解釋人類命令,理解上下文,表征世界,并與人類互動,盡管理解的深度有限。隨后,采用了具有自我注意機制的Transformer架構,尤其是像BERT這樣的預訓練語言模型,提高了捕捉復雜模式的能力,同時為特定任務進行微調。然而,這些模型的性能通常取決于有限的數據集,限制了它們把握更深層次上下文理解和在不同場景中泛化的能力。

隨著大型語言模型(LLMs)的發展,基于語言的機器人引入了各個領域的創新變化,如信息檢索、推理任務、環境適應、持續學習和改進等。這些LLMs,以其龐大的參數規模和在互聯網規模數據集上的訓練為特征,為下游任務提供了零次和少次學習能力,而不需要額外的參數更新。這些顯著的進步來自于文獻中定義為“在小模型中不存在但在大模型中出現的能力”的突現能力。這些能力顯著增強了機器人在理解、推斷和響應開放式指令方面的性能,利用了廣泛的常識知識。此外,稱為提示工程的提示創建技術使LLMs能夠通過自由形式的語言描述或互動對話,整合更豐富的上下文信息,促進了泛化推理。引入上下文學習能力使LLMs能夠根據提供的指示或示例中的提示生成預期格式的輸出,如JSON、YAML或PDDL,甚至代碼。最近的LLMs,如GPT-4,通過與外部機器人工具(如規劃器或翻譯器)的整合,進一步擴展了能力。

盡管LLMs具有多樣的能力,但它們的利用面臨幾個挑戰。首先,LLMs經常生成不準確或意外的響應。由于機器人執行的安全性是最重要的部署因素,基于LLM的機器人應用需要過濾和糾正機制以確保安全。其次,如上下文學習等突現能力尚不可預測且不一致。即使是對輸入文本的輕微更改也可能導致響應的不可預測變化。第三,精心設計的提示使機器人能夠有效地利用LLMs的能力,但缺乏支持機器人系統關鍵組件的系統化指導,阻礙了無縫集成。因此,我們需要研究LLMs在機器人中的逐部件參與,以了解其限制和安全性。 當前,各種綜述已開始探索LLMs與機器人的交集,主要關注LLM驅動的機器人應用或互動維度。然而,仍然存在在機器人系統的關鍵元素,包括通信、感知、規劃和控制方面提供全面評論和可操作見解的空白。此外,研究者們還在探索廣泛的預訓練大容量模型領域,稱為基礎模型,尋求跨模態Transformer模型的泛化能力。然而,這一廣闊領域涵蓋了廣泛的機器人學和多樣的方法論,使得新興研究者錯過深入的評論和指導。 在本文中,如圖1所示,我們旨在分類和分析LLMs如何增強機器人系統的核心元素,以及我們如何指導新興研究者在每個領域內整合LLMs,以促進智能機器人的發展。我們根據三個關鍵問題結構化本文: ? Q1: LLMs在每個機器人領域中如何被利用? ? Q2: 研究人員如何克服LLMs的集成限制? ? Q3: 在每個領域產生最低功能所需的基本提示結構是什么?

為了回答這些問題,我們專注于在引入GPT-3.5之后開發的LLMs。我們主要考慮基于文本的模式,但也審查了感知和控制領域的多模態。然而,為了進行深入審查,我們將調查限制在LLMs而非基礎模型上。 此外,我們提供了全面的提示工程指南和示例,旨在使初學者能夠訪問基于LLM的機器人解決方案。我們的教程級示例展示了如何通過引入四種類型的示例提示——對話提示用于互動定位,指令提示用于場景圖生成,計劃提示用于少次計劃,以及代碼生成提示用于獎勵生成——增強或替換機器人組件的基本功能。通過提供提示構建的規則和技巧,我們概述了生成預期格式輸出的良好設計提示的過程。這些原則確保了機器人應用中有效的LLM引導增強,無需參數調整。

本文的其余部分安排如下。第2節概述了機器人學中LMs和LLMs的歷史背景。第3節評審了LLMs賦能機器人通過語言理解和生成進行交流的方式。第4節調查了LLMs如何感知各種傳感器模態并推進感知行為。第5節和第6節分別組織了基于LLM的計劃和控制研究。在第7節中,我們提供了提示工程的全面指南,作為LLM在機器人中集成的起點。最后,第8節總結了這篇綜述。

付費5元查看完整內容

摘要 —— 隨著ChatGPT的興起,大型模型的使用顯著增加,迅速在整個行業中脫穎而出,并在互聯網上廣泛傳播。本文是對大型模型微調方法的全面綜述。本文研究了最新的技術進展以及在諸如任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調和動態微調等方面應用先進方法。 索引術語 —— 大型語言模型(LLMs)、任務適應性微調、領域適應性微調、小樣本學習、知識蒸餾、多任務學習、高效參數微調、動態微調 I. 引言 變換器(Transformer)模型的出現標志著自然語言處理(NLP)領域的一個重要里程碑。變換器架構最初是為了解決循環神經網絡(RNNs [143])和卷積神經網絡(CNNs [55])在處理長距離依賴關系中的局限而設計的,該架構由Vaswani等人在2017年引入[126],徹底改變了我們處理語言理解和生成任務的方式。 變換器架構背景:變換器模型源于對比傳統模型更有效處理序列數據的需求。其獨特的架構,不依賴遞歸和卷積,利用注意力機制來抽取輸入與輸出之間的全局依賴關系,顯著提高了處理效率和模型性能。 編碼器[19]、解碼器[95] [96] [13]以及編解碼器[100]架構:變換器架構主要由其編碼器和解碼器組成。編碼器處理輸入序列,創建每個詞的豐富上下文表征。相比之下,解碼器通常在語言翻譯任務中生成輸出序列,使用編碼信息。 兩者的區別在于它們的角色:編碼器是輸入的上下文感知處理器,而解碼器基于編碼輸入生成預測。編解碼器架構常用于序列到序列的任務,結合這兩個組件,便于處理復雜任務,如機器翻譯,編碼器處理源語言,解碼器生成目標語言。 大型模型中的微調興起:微調大型語言模型的概念源于將這些模型從訓練于龐大、多樣的數據集適應到特定任務或領域的挑戰。微調調整模型的權重,針對特定任務,增強其從廣泛語言模式到特定應用需求的泛化能力。隨著模型規模和復雜性的增長,這種方法變得越來越重要,需要更精細的適應技術來充分發揮其潛力。 本文的結構旨在提供關于微調大型語言模型的方法論和進展的全面概覽。后續部分的組織如下: 文獻回顧:審視語言模型的發展,突出變換器架構的關鍵發展和基礎概念。 理論基礎:深入探討變換器模型的理論基礎,包括注意力機制、編碼器和解碼器的機制。 微調策略:討論各種微調方法,如任務特定、領域特定的適應和高級技術,如小樣本學習和動態微調。 挑戰與未來方向:識別微調方法中的當前挑戰,并探索這一迅速發展領域的潛在未來研究方向。 本文介紹了基于變換器架構的大型語言模型的范式,并提供了常用的大模型微調方法的詳細概述。文章以一個比較實驗結束,聚焦于六個文本分類數據集上的模型大小和LoRA微調范式。實驗代碼已在GitHub上提供。

付費5元查看完整內容

摘要: 深度學習的可解釋性研究是人工智能、機器學習、認知心理學、邏輯學等眾多學科的交叉研究課題,其在信息推送、醫療研究、金融、信息安全等領域具有重要的理論研究意義和實際應用價值.從深度學習可解釋性研究起源、研究探索期、模型構建期3方面回顧了深度學習可解釋性研究歷史,從可視化分析、魯棒性擾動分析、敏感性分析3方面展現了深度學習現有模型可解釋性分析研究現狀,從模型代理、邏輯推理、網絡節點關聯分析、傳統機器學習模型改進4方面剖析了可解釋性深度學習模型構建研究,同時對當前該領域研究存在的不足作出了分析,展示了可解釋性深度學習的典型應用,并對未來可能的研究方向作出了展望.

付費5元查看完整內容
北京阿比特科技有限公司