亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近年來,大型語言模型(LLM)的突破性進展提供了前所未有的自然語言理解和生成能力。然而,現有關于生物醫學領域LLM的綜述通常側重于特定應用或模型架構,缺乏對跨越多個生物醫學領域的最新進展的綜合分析。本綜述基于對來自PubMed、Web of Science和arXiv等數據庫的484篇文獻的分析,深入探討了LLM在生物醫學中的現狀、應用、挑戰及未來前景,其獨特之處在于關注這些模型在實際生物醫學環境中的應用效果

首先,我們探討了LLM在廣泛的生物醫學任務中的零樣本學習能力,包括診斷輔助、藥物發現和個性化醫療等領域,并結合137項關鍵研究提供了深入見解。接著,我們討論了LLM的適應策略,包括通過微調方法增強單模態和多模態LLM在特定生物醫學背景下的表現,特別是在零樣本學習效果不佳的領域,如醫學問答和生物醫學文獻的高效處理。最后,我們分析了LLM在生物醫學領域面臨的挑戰,包括數據隱私問題、模型可解釋性有限、數據集質量問題,以及由于生物醫學數據的敏感性而帶來的倫理問題、對高度可靠模型輸出的需求,以及將人工智能應用于醫療領域的倫理影響。

為應對這些挑戰,我們還提出了LLM在生物醫學領域未來的研究方向,包括通過聯邦學習方法來保護數據隱私,以及整合可解釋的AI方法來提高LLM的透明度。隨著LLM領域的快速發展,持續的研究與開發對于充分利用LLM在生物醫學中的能力,同時確保其負責任且有效的部署至關重要。

引言

通用大型語言模型(LLM),如PaLM [1]、LLaMA [2, 3]以及GPT系列[4, 5],展示了其在廣泛任務中的多功能性。這些模型在復雜的語言理解和生成任務中表現出色,包括翻譯、摘要和細致的問題回答[6]。LLM能力的進步主要得益于深度學習算法的演進,特別是Transformer架構的引入及其后續優化[7]。隨著LLM的不斷成熟,其在各個領域的潛在應用日益顯現,生物醫學領域成為一個特別有前途的影響領域。圖1展示了從2019年到2024年LLM及其變體在生物醫學應用中的時間線,這一時間線說明了單模態和多模態LLM的快速發展。 生物醫學LLM的顯著成就展示了其廣泛和深遠的影響。例如,MedPaLM [8]在提供詳細的醫學答案和達成科學共識方面與臨床專家達到了92.9%的一致性。在基因組學領域,scBERT [9]通過改進的Performer架構為每個基因生成嵌入,增強了單細胞基因組數據的分析。像HuatuoGPT [10]、ChatDoctor [11]和BenTsao [12]這樣的領域特定LLM的開發展示了其在可靠醫學對話中的能力,顯示了LLM在臨床交流和決策支持中的潛力。從主要以單模態LLM為主的進展到越來越多的多模態LLM方法,反映了LLM在解決復雜生物醫學挑戰中的日益適應性。這種轉變使得不同數據類型(如文本、圖像和結構化臨床數據)的整合成為可能。 大型語言模型(LLM)在生物醫學領域研究的快速增長和多樣化進一步通過圖2中的趨勢得到了證實。對2018年至2024年生物醫學領域LLM研究論文的時間分析表明,相關文獻的數量逐年增加,并在2021年開始激增(圖2a)。這一趨勢表明人們對將LLM應用于生物醫學挑戰的興趣和投入正在不斷增加,反映了技術進步以及LLM在滿足醫療保健和科研需求方面潛力的認可。這些研究論文在不同生物醫學領域的分布顯示,“醫學”和“神經科學”是主要的研究重點領域(圖2b)。這一分布表明LLM在不同醫學專業和研究領域的廣泛適用性,同時也指出了未來擴展和發展的潛在領域。

生物醫學領域涵蓋了從基礎生物學研究到復雜臨床應用的廣泛學科,每個學科都有其專業術語和不斷發展的知識體系[13]。這一廣度和深度為LLM在生物醫學中的應用帶來了挑戰。新研究成果、治療方式和藥物發展的不斷涌現要求模型能夠快速適應和整合新信息[14]。此外,生物醫學應用的高風險性質要求LLM在準確性和可靠性方面達到極高標準,而這一標準目前的模型尚未始終如一地滿足[15, 16]。這一缺陷源于許多LLM的通用特性,當面對生物醫學文本中復雜且依賴于上下文的語言時,模型可能會產生誤解和推斷偏差[17]。同時,生物醫學領域對敏感患者數據的依賴增加了實施難度,要求嚴格遵守數據保護和隱私法規,這給技術和倫理帶來了雙重挑戰[18]。

盡管面臨這些障礙,LLM在生物醫學領域的應用潛力仍然值得期待。像BioMedLM [19]這樣的模型展示了加速科學洞察獲取的能力,而BianQue [20]和DISC-MedLLM [21]等方法在患者咨詢過程中提供醫學建議,可能有助于減輕臨床工作負擔。然而,這些應用的廣泛采用依賴于LLM的專門訓練和優化,以提高其在生物醫學背景下的可靠性和專業性。

雖然已有若干綜述探討了LLM在生物醫學中的應用,但我們的綜述因其全面性和跨學科方法而與眾不同。與以往通常專注于特定應用或模型架構的綜述不同,我們深入分析了LLM在各個生物醫學領域的應用,從基因組學到臨床實踐。涵蓋2019年至2024年的發展,我們提供了對最新進展和未來趨勢的洞察,包括單模態和多模態LLM方法。本綜述基于對來自多個數據庫的484篇文獻的分析,全面考察了LLM在生物醫學領域的現狀、應用、挑戰及前景。我們評估了LLM在不同生物醫學任務中的零樣本性能,分析了單模態和多模態方法的適應策略,并指出了LLM在生物醫學應用中面臨的具體挑戰,提出了潛在的解決方案。通過探索LLM對醫療實踐、生物醫學研究和醫療系統的潛在影響,我們的目標是為研究人員、醫療專業人員和政策制定者提供清晰的路線圖,以便理解和利用LLM在生物醫學中的應用,促進明智決策并指導未來的研究工作。

2 背景

通過廣泛的預訓練和微調,LLM能夠學習并捕捉語言中的復雜模式和語義關系。在以下章節中,我們將詳細介紹LLM的核心結構、常見的模型架構以及微調技術。LLM的設計通常依賴于Transformer架構,并可分為三種主要類型:僅編碼器、僅解碼器和編碼器-解碼器[22]。每種架構都有其獨特的優勢,適用于不同類型的任務。

**2.1 僅編碼器架構

僅編碼器模型側重于理解和表示輸入文本[23]。這些模型特別擅長需要深度上下文理解的任務,如文本分類、命名實體識別和情感分析。雙向編碼器表示(BERT)[23]是該架構的一個例子。BERT的關鍵創新在于其雙向特性,能夠捕捉句子中每個詞的左側和右側上下文。這種雙向編碼相比于以前的單向模型提供了更豐富的文本表示。BERT通過“掩碼語言模型”的預訓練目標實現這一點,模型學習預測句子中隨機掩碼的詞,從而迫使其考慮完整的上下文。另一個值得注意的僅編碼器模型是對比語言-圖像預訓練(CLIP)模型[24]。CLIP擴展了編碼器架構到多模態學習,整合了文本和圖像輸入。通過使用對比學習,CLIP學習在共享的嵌入空間中對齊文本和視覺表示。僅編碼器模型在專業科學領域,尤其是生物醫學領域,取得了顯著的進展。值得注意的例子包括scBERT[9],它生成精細的基因嵌入以處理生物醫學數據,在基因組分析中表現出色。另一個重要的模型是專為生物醫學文本挖掘設計的BioBERT[25],增強了科學文獻中的命名實體識別和關系抽取任務。這些專門的適應性展示了僅編碼器模型在應對復雜生物醫學挑戰中的多樣性。

**2.2 僅解碼器架構

僅解碼器模型用于生成任務,按從左到右的順序生成輸出序列。這些模型在文本生成、對話系統和創意寫作應用中表現出色。生成式預訓練Transformer(GPT)系列,以最新的GPT-4為代表,展示了這種架構[4, 5],它通過單向解碼器結構,根據前面的上下文預測每個詞元。此方法允許生成連貫且上下文相關的文本。GPT模型在龐大的文本語料庫上進行訓練,使其能夠捕捉復雜的語言模式并在各個領域生成類似人類的文本。其他值得注意的僅解碼器模型包括LLaMA[2]和PaLM[1]。這些模型優化了解碼器架構以提高效率和可擴展性。例如,LLaMA以更少的參數表現出強大的性能,而PaLM則展示了在各種自然語言處理基準上改進的多任務學習能力。僅解碼器架構也被擴展到多模態應用。例如,DALL·E[26]使用解碼器根據文本描述生成圖像。在生物醫學領域,僅解碼器模型已顯示出有希望的應用。例如,它們已被用于醫學報告生成和藥物發現任務,如BioGPT[27]、CancerGPT[28]和Med-PaLM[29]。

**2.3 編碼器-解碼器架構

編碼器-解碼器架構,也稱為序列到序列(seq2seq)模型,結合了編碼器和解碼器組件的優勢。該設計適用于將一個序列轉換為另一個序列的任務,如機器翻譯、文本摘要和問答。在這種架構中,編碼器處理輸入序列并將其壓縮為潛在表示。解碼器則利用這種表示生成目標序列[30]。這種編碼與解碼的分離使模型能夠有效處理長度和結構不同的輸入和輸出序列。編碼器-解碼器模型的兩個例子是文本到文本轉換Transformer(T5)[31]和雙向自回歸Transformer(BART)[32]。T5采用了統一的方法,將所有NLP任務框定為文本到文本問題,展示了出色的多任務處理能力。而BART則將BERT編碼器的雙向特性與GPT解碼器的自回歸生成結合起來,使其在文本生成和修復任務中表現尤為出色。在生物醫學應用中,編碼器-解碼器模型顯示了巨大的潛力。例如,BioBART[33]被用于生物醫學文本生成和摘要任務。另一個顯著的例子是GeneCompass[34],一個用于解讀基因調控機制的跨物種大型語言模型。這些應用展示了該架構在應對復雜生物醫學挑戰中的多功能性,從文本處理到解開不同物種間基因調控的復雜性。

3 LLM在零樣本生物醫學應用中的表現

通用LLM的潛力引起了生物醫學領域的廣泛興趣。圖3a展示了評估不同LLM在零樣本生物醫學任務中的研究分布。GPT-4和GPT-3.5是研究最多的模型,分別有36篇和35篇研究,其次是ChatGPT,共有19篇研究。這一分布表明了當前生物醫學研究對OpenAI模型的關注,且不同模型之間的重疊研究趨勢表明對比分析的傾向。盡管這些LLM在各個領域表現出色,但它們在解決生物醫學領域獨特挑戰方面的有效性仍不確定。生物醫學術語的專業性和整合特定臨床背景的必要性為這些LLM提出了挑戰。為了解決這一問題,許多研究直接探討了通用LLM在生物醫學各學科中的應用,重點研究了它們在臨床診斷、決策支持、藥物開發、基因組學、個性化醫學和生物醫學文獻分析等領域的表現[15, 35, 36]。

**3.1 診斷輔助

診斷輔助是一項涵蓋臨床診斷和決策支持的生物醫學技術[37]。它分析患者的臨床數據和癥狀,結合醫學知識與算法處理,提供幫助醫生進行疾病診斷和治療決策的建議[38]。其目標是提高診斷的準確性和效率,幫助醫生更好地了解患者的情況并制定個性化的治療計劃。為了評估通用LLM在生物醫學診斷中的零樣本能力,研究人員設計了一系列跨多個專業的問題。研究評估了LLM在腫瘤學[39, 40]、急診醫學[41]、眼科[42, 43]和護理學[44]等領域的表現,結果表明LLM在這些領域的診斷任務中可以達到與人類專家相當的準確度。Ward等人[45]對LLM在神經外科情景中的表現進行了對比研究。他們創建了30個具有共識要點的臨床情景,邀請不同經驗水平的醫生對診斷問題作答。結果顯示,GPT-4在分診和診斷方面達到了100%的準確率,而GPT-3.5的準確率為92.59%。這些結果突顯了GPT-4的卓越診斷準確性,表明其在臨床決策中具有作為可靠工具的潛力。在腫瘤學領域,Deng等人[46]發現GPT-4在乳腺癌臨床情景中的分診和診斷中達到了100%的準確率,與高級醫學專家的表現高度一致。同樣,Haver等人[39]展示了GPT-4在神經外科中的有效性,診斷和分診神經外科病例的準確率為100%,并且敏感性和特異性都達到了完美水平。這些發現表明,GPT-4在多個醫學領域中作為可靠臨床決策工具的潛力日益增長。

**3.2 生物醫學組學和藥物發現

生物醫學科學是一個跨學科領域,涵蓋了藥物開發、基因組學和蛋白質研究等多個領域[47, 48]。它結合了工程學、生物學和醫學,利用先進的生物技術手段研究疾病的預防、診斷和治療[49]。通過探索生命過程的分子機制,該領域旨在開發新的生物醫學方法和藥物,以提高人類健康和疾病管理。例如,一項研究利用LLM進行候選基因優先排序和選擇,顯著提高了識別潛在基因-疾病關聯的效率。該方法利用先進的自然語言處理技術分析大量基因和生物醫學數據,最終優先選擇了與特定疾病高度相關的基因[50]。在另一項研究中,BERT被用于識別整個PubMed數據庫中的藥物-靶點相互作用,達到了99%的準確率,并識別出60萬篇包含相關數據的新文章[51]。此外,Hou等人[52]利用GPT-4對單細胞RNA-seq分析中的細胞類型進行注釋,結果顯示GPT-4能夠使用標記基因信息準確注釋細胞類型。在大多數研究和組織中,該方法與人工注釋的符合率超過了75%,展示了其減少細胞類型注釋所需的人力和專業知識的潛力。這些進展總體上表明,AI驅動的模型具有改變生物醫學研究的潛力,提供了更精確和高效的工具來理解疾病并開發治療方法。

**3.3 個性化醫學

LLM在通過在線醫學咨詢普及醫學知識方面也展示了潛力[40, 53-55]。這一能力確保了生物醫學信息的廣泛獲取,并允許根據個人狀況進行個性化定制,這對遠程醫療有著深遠的影響[15, 56]。然而,使用LLM開發個性化治療方案需要嚴格遵守醫學倫理和患者隱私的規定。確保所有數據的收集、存儲和使用符合法律法規和倫理標準是至關重要的。Ferrario等人[57]評估了GPT-4在應對各種醫學倫理案例中的表現。研究結果表明,雖然GPT-4能夠識別和表達復雜的醫學倫理問題,但它在更深入編碼現實倫理困境方面仍需改進。Sandmann等人[58]對LLM在臨床決策中的表現進行了評估。他們使用ChatGPT、LLaMA和一個樸素基線模型,對不同臨床學科的110個病例的初步診斷、檢查步驟和治療進行了臨床準確性評估。結果表明,GPT-4在測試模型中表現最佳。更重要的是,這項研究表明,開源LLM可能是解決個性化醫學應用中數據隱私問題的可行方案。

**3.4 生物醫學文獻和研究

LLM與生物醫學研究和寫作的結合提高了研究效率、公正性和可訪問性[59]。這種協同作用使專家和研究人員能夠更有效地獲取、理解和應用最新的生物醫學信息,從而提高研究生產力。LLM已在生物醫學文獻的多個關鍵領域展示了效用,包括文獻檢索、大綱準備、摘要寫作和翻譯任務。Mojadeddi等人[60]評估了ChatGPT在文章寫作中的表現。研究結果表明,雖然ChatGPT可以加快寫作過程,但尚未達到專業生物醫學寫作者的水平,仍存在一定的局限性。這凸顯了進一步研究AI在科學寫作能力方面的必要性。Huespe[61]評估了GPT-3.5撰寫重癥監護臨床研究問題背景部分的能力。在這項研究中,邀請了80位研究人員區分人工撰寫內容與LLM生成內容。結果表明,GPT-3.5在這一特定任務中的寫作能力與生物醫學研究人員相當。

**3.5 基準數據集和評估指標

在評估LLM對生物醫學問題的表現時,使用了多種基準數據集。表1展示了近期研究中使用的基準數據集。這些數據集涵蓋了從基本文本響應到復雜多模態數據的廣泛任務。文本數據集如MedSTS[62]、PubMedQA[63]和MedQA[64]專注于評估LLM在語義相似性、問答和內容摘要等生物醫學任務中的表現。專門的數據集如GenBank[65]測試LLM處理基因組序列的能力,這對于基因組學和個性化醫學中的應用至關重要。多模態基準如MultiMedBench[66]挑戰LLM整合和解釋來自多個來源的數據,如醫學圖像和隨附的文本描述,反映了醫學診斷的復雜性。用于評估模型在不同任務中表現的常用指標包括準確率、BLEU-1、F1評分和ROUGE-L[65, 67, 68]。在評估LLM在生物醫學對話場景中的表現時,開發了專業性、流暢性和安全性等特定指標,以捕捉生物醫學交流的細微要求[69-71]。

**3.6 總結

我們的分析表明,未經專門訓練的LLM在沒有太多上下文提示的情況下,可以展示對生物醫學術語和概念的基本理解。然而,它們在不同生物醫學學科和任務中的表現有所不同。圖3b提供了LLM在不同生物醫學專業水平中的相對表現的寶貴見解。小提琴圖表明,雖然LLM在所有專業水平上總體表現高于基線,但其表現最為一致的是中級水平。在高級和專家級水平上,表現的波動性更大,表明LLM在處理需要高級專業知識的復雜任務時可能會遇到困難[59]。不同生物醫學學科的評估結果突顯了LLM在零樣本生物醫學應用中的潛力和局限性[45, 77, 78]。在某些特定的生物醫學領域,LLM的表現可與經驗豐富的醫生相媲美。然而,在需要深入生物醫學知識和臨床推理的更專業的上下文或復雜任務中,LLM可能表現出不足或完全失效。在大多數生物醫學應用場景中,LLM的零樣本表現尚不足以滿足直接臨床應用的要求,尤其是在罕見病診斷或復雜外科規劃等極具挑戰性的任務中[79, 80]。這些發現強調了在將LLM直接應用于復雜的生物醫學任務時需要謹慎,除非進行微調或重新訓練。盡管LLM在生物醫學領域的前景令人期待,但在生物醫學應用中的局限性必須得到考慮,并謹慎定義其在倫理和臨床決策過程中的角色。

4 將通用LLM適應生物醫學領域

當通用大型語言模型(LLM)以零樣本方式應用于生物醫學領域時,往往會遇到各種挑戰,主要原因在于該領域的高度專業化。生物醫學領域使用獨特的詞匯、命名法和概念框架,通用LLM可能無法理解這些內容[113]。這種特異性不僅限于術語,還包括生物實體之間的復雜關系、復雜的疾病機制以及細微的臨床背景。此外,生物醫學領域涵蓋了多樣化的任務,從文獻分析和臨床筆記解讀到支持診斷決策和藥物發現過程。這種多樣性要求LLM能夠執行廣泛的專業功能,每項任務都需要領域特定的知識和推理能力[114, 115]。此外,生物醫學研究越來越依賴多模態數據的整合,這些數據類型包括文本、圖像(如放射學掃描、組織學切片)和分子序列(如DNA、蛋白質結構)[116, 117]。有效處理和綜合這些不同來源的信息對LLM提出了額外的挑戰。為了應對這些挑戰并提高通用LLM在生物醫學應用中的適用性,已經開發了幾種適應策略。這些策略包括領域特定的微調、架構修改以及從頭開始創建專門的生物醫學LLM。圖4展示了適應或創建LLM用于生物醫學應用的過程,概述了從數據預處理和整理到模型訓練、微調和評估的關鍵階段。適應過程涉及整理高質量的、領域特定的數據集,以捕捉生物醫學語言和知識的細微差別。然后,使用這些數據集對現有LLM進行微調或訓練新模型,結合在生物醫學語料庫上繼續預訓練、任務特定微調和多任務學習等技術,以提高在各種生物醫學任務中的表現[12, 88]。通過這些努力,出現了多種專門針對生物醫學研究和臨床實踐的LLM模型。表2提供了這些微調和定制模型的概述,展示了它們在生物醫學領域內的多樣性和專業性。

**4.1 單模態適應策略

為了將通用LLM適應生物醫學領域,微調可以使模型深入理解該領域的專業術語、復雜概念和語言習慣。這增強了它們在處理生物醫學文本等專業數據時提供更準確和深入分析與生成的能力。微調方法包括全參數微調、指令微調、參數高效微調和混合微調。

全參數微調

全參數微調涉及使用領域特定的數據更新預訓練LLM的所有參數。與傳統的微調方法(如僅微調頂層)不同,全參數微調允許模型的每一層都學習任務特定的知識。例如,GatorTron[81]是一種在臨床數據上微調的模型,在醫學問答中達到了93.01%的F1分數,超過了之前的基準7.77%。盡管全參數微調通常可以帶來最佳表現,但它也伴隨著高昂的計算成本。例如,微調GatorTronGPT-20M[17]耗費了超過268,800 GPU小時(使用A100 GPU),這使得資源受限的環境難以承擔。

指令微調

指令微調(IFT)是一種通過修改預訓練模型的基礎指令來優化其在生物醫學領域特定任務或領域中的適應性的技術[118]。這一方法在提高模型在專門醫學任務上的表現方面顯示出了良好的效果。例如,MEDITRON[96]是一種在LLaMA-2上使用IFT微調的模型,在多個醫學基準測試中平均表現提高了1.8%。同樣,AlpaCare[100]利用了精心整理的52,000條醫學指令,在HeadQA基準測試中實現了30.4%的性能提升,展示了精心設計的指令集在提升模型能力方面的潛力。IFT的主要優勢在于,它能夠使用相對較少的數據將模型適應特定的生物醫學領域。然而,IFT的有效性在很大程度上依賴于所用指令的質量和多樣性。設計不良或有偏見的指令可能導致模型行為不一致或不可靠,從而在關鍵的醫學應用中削弱模型的實用性。

參數高效微調

參數高效微調(PEFT)包括一組旨在通過調整模型的少部分參數來提高LLM性能和訓練效率的技術[119]。兩個顯著的PEFT方法是LoRA(低秩適應)[120]和QLoRA(量化LoRA)[121],通過向模型添加可訓練的小矩陣來實現任務特定的適應,而不修改整個模型架構。PEFT方法的效率令人矚目,通常可以減少99%以上的可訓練參數,同時保持與全微調相當的性能。例如,MMedLM 2[68]使用LoRA在多語言醫學問答任務中取得了競爭性的表現,同時只微調了模型參數的一小部分。這種方法減少了計算需求,使得在資源有限的環境(如小型醫院或研究實驗室)中部署定制的醫療AI模型成為可能。然而,當任務需要對基礎模型知識進行大量修改時,PEFT方法可能會面臨局限,因為它們主要側重于適應現有知識,而不是引入全新的信息。這一限制可能會影響其在高度專業化或快速發展的生物醫學領域中的有效性。

混合微調

混合微調是一種結合多種參數高效調優技術以提高模型性能和訓練效率,同時盡量減少額外參數引入的方法。例如,HuatuoGPT[10]通過監督微調和RLAIF[122],在GPT-4評估、人類評估和醫學基準數據集上表現出了在開源LLM中執行醫療咨詢的最新成果。混合微調策略在性能和效率之間提供了平衡,解決了單一技術的一些局限性。它們允許模型更靈活地適應醫療AI的獨特挑戰,如既需要廣泛的醫學知識,又需要專業的醫學知識。然而,這些方法通常需要更復雜的實現和多個組件的精細調優。

**4.2 多模態適應策略

多模態LLM可以整合不同的數據類型,從而提供全面的見解。該模型的核心優勢在于能夠融合來自不同模態的信息,包括文本、圖像、基因序列和蛋白質結構。這種融合不僅彌合了跨學科的差距,還反映了醫療診斷和研究的多面性[123]。在臨床環境中,患者評估通常涉及多種數據類型,包括文本信息(如醫療報告)、視覺數據(如X光和MRI)以及數值測量(如實驗室結果和生命體征)。多模態LLM旨在整合這些不同來源的數據,以提供更準確和全面的生物醫學見解。例如,通過將醫學影像與臨床文本報告和其他相關數據結合,這些模型可以提高診斷的準確性和穩健性[124]。此外,多模態模型還可以促進基因組數據與表型信息的整合,從而更全面地研究疾病機制并發現新藥物[112]。 微調策略在生物醫學多模態模型的應用中發揮了關鍵作用,確保這些模型能夠充分理解和處理跨模態數據。這些策略包括通過LoRA[120]和層歸一化[125]技術優化視覺編碼器。此類優化旨在增強模型解讀醫學圖像中關鍵特征的能力。同時,這些策略整合了視覺和文本輸入,利用注意力機制和多層感知器(MLP)層增強模型在生成放射學報告中的能力,例如ClinicalBLIP[110]模型。具體而言,ClinicalBLIP在使用MIMIC-CXR[126]數據集的放射學報告生成任務中表現優異,通過這些微調策略獲得了0.534的METEOR評分[127],顯著超越了其他模型的表現,突出展示了ClinicalBLIP在處理復雜多模態數據方面的卓越能力。同樣,Med-Gemini[111]采用了構建聯合嵌入空間的策略,能夠在統一的潛在空間內直接比較和整合來自不同模態的數據。這一策略在復雜的醫療任務中表現出色,特別是在癌癥診斷方面,整合基因組數據和病理圖像顯著提高了診斷準確性。這些微調策略通過優化模型在生物醫學多模態任務中的表現,展示了多模態模型在醫學領域應用的巨大潛力。此外,它們強調了微調在提高模型泛化能力和任務適應性中的關鍵作用。

**4.3 訓練數據與處理策略

將通用LLM適應生物醫學領域的關鍵在于數據的質量、多樣性和處理方式。本小節將探討開發和改進生物醫學LLM時使用的關鍵數據集和有效策略。 4.3.1 數據集概述

用于LLM訓練和評估的生物醫學數據集主要分為三類:基于文本、基于圖像和多模態。表3總結了最近研究中使用的數據集。基于文本的數據集如PubMed,在訓練模型如BioGPT[27]中起到了重要作用。同樣,包含超過40,000名患者去識別健康記錄的MIMIC-III數據集為GatorTron[81]等模型提供了學習真實世界臨床數據的機會。多模態數據集整合了各種數據類型,促進了更全面的模型訓練。MultiMedBench[66]數據集通過將臨床筆記與醫學測量和影像數據對齊,體現了這一方法。基于這些數據集訓練的模型如Med-PaLM M[66]在需要整合異質數據類型的任務中表現出色,彌合了文本和視覺醫學信息之間的差距。 4.3.2 數據處理策略

為了最大限度地利用這些數據集,研究人員采用了多種數據處理技術。 數據增強

數據增強旨在增加數據集的大小和多樣性,從而提高模型的穩健性和泛化能力。Chen等人[20]在開發BianQue時結合了自動數據清理和基于ChatGPT的數據優化。這一方法不僅提高了訓練數據的質量,還使模型在醫療咨詢任務中的表現提高了15%。 數據混合

整合多樣化的數據源也能增強模型能力。Bao等人[21]在DISC-MedLLM中展示了這一點,采用了數據融合策略。通過結合來自醫學知識圖譜的結構化信息與人工篩選的樣本,他們在處理醫療查詢方面相比于僅在單一數據源上訓練的模型提升了20%。 4.3.3 LLM中的聯邦學習

在生物醫學LLM領域,由于嚴格的醫療法規,直接的數據共享通常不可行。聯邦學習(FL)[128]作為一種變革性解決方案,可能會重新塑造未來的LLM訓練方式。與在單一專有數據中心訓練的傳統LLM不同,生物醫學LLM需要通過FL有效訪問多樣化的數據集。OpenFedLLM框架[129]促進了跨地理分布數據集的聯邦學習,同時推動了倫理對齊。對此,Wu等人[130]提出了專門設計用于增強醫學語言建模的FedMed框架,以緩解聯邦學習環境中的性能下降。Zhang等人[131]進一步推進了這一領域,展示了將聯邦學習與基于提示的方法結合用于臨床應用的有效性,增強了模型的適應性,同時保護了患者隱私。Nagy等人[132]探討了用于訓練大型語言模型(如BERT和GPT-3)的隱私保護技術,提供了在不影響性能的情況下保持隱私的見解。為應對多語言挑戰,Weller等人[133]研究了在多個語言環境中使用預訓練語言模型進行聯邦學習的方法,重點關注醫學領域的各種NLP任務。最后,Kim等人[134]提出通過在預訓練的LLM中集成適配器機制來提高聯邦學習中的計算效率,展示了使用較小的Transformer模型來降低計算需求的好處。

**4.4 總結

本節探討了將通用LLM適應生物醫學領域的過程,重點介紹了數據質量、處理策略與模型適應技術之間的重要關系。我們回顧了多樣化數據集和先進數據處理方法在開發穩健的生物醫學LLM中的基礎作用,并考察了從全參數微調到更高效的指令微調和參數高效技術的各種適應方法。盡管取得了這些進展,數據隱私、模型可解釋性和公平性方面的挑戰仍然存在。未來的研究可以著眼于開發更高效、可解釋且符合倫理的適應技術。重點領域包括提高模型透明性、解決公平性問題,以及探索高級聯邦學習方法,以在保護患者隱私的同時利用分散的醫療數據。多模態方法的整合也為更全面的醫療解決方案提供了有希望的途徑。隨著生物醫學LLM的持續發展,在平衡技術創新與倫理考量方面將變得尤為重要。通過解決當前的挑戰并抓住新興的機遇,這些模型有望徹底改變醫療保健,從提高臨床決策支持到加速生物醫學研究,最終實現更有效和更公平的醫療服務提供。

結論

在本研究中,我們探討了通用大型語言模型(LLM)在生物醫學領域的潛力和應用。通過評估單模態和多模態LLM在處理醫學文本、圖像以及綜合數據方面的表現,我們驗證了這些LLM在提高醫學研究效率和準確性方面的潛力。我們的研究首先概述了LLM在生物醫學領域的現狀,指出了直接應用通用LLM的局限性,并強調了微調策略的重要性。盡管LLM具有廣泛的應用前景,但其在生物醫學領域的應用仍面臨諸多挑戰,包括數據隱私和安全問題、模型可解釋性、數據集的質量和多樣性以及高計算資源需求。這些挑戰限制了LLM的廣泛應用。為應對這些挑戰,我們提出了未來的研究方向,包括提高數據質量和多樣性、增強模型可解釋性、開發高效且經濟的微調方法、探索多模態數據融合技術以及促進跨學科合作。這些措施將進一步推動LLM在生物醫學領域的應用和發展。

付費5元查看完整內容

相關內容

在多模態模型訓練和推理過程中,由于傳感器限制、成本約束、隱私問題、數據丟失以及時間和空間因素,數據樣本可能會缺失某些模態,導致模型性能下降。本綜述概述了在缺失模態的多模態學習(MLMM)領域的最新進展,重點關注深度學習技術。這是第一個全面的綜述,涵蓋了MLMM的歷史背景以及其與標準多模態學習設置的區別,隨后詳細分析了當前的MLMM方法、應用和數據集,并討論了該領域面臨的挑戰和未來可能的發展方向。

1 引言

多模態學習已成為人工智能(AI)領域的關鍵領域,專注于整合和分析各種數據類型,包括視覺、文本、聽覺和傳感器信息(圖1a)。這種方法反映了人類通過結合多種感官來更好地理解和與環境互動的能力。現代多模態模型利用深度學習的強大泛化能力,揭示單模態系統可能無法檢測到的復雜模式和關系。這種能力推動了多個領域的工作進展,包括計算機視覺。最近在這些領域的調查顯示,多模態方法的顯著影響,證明了它們能夠提高性能并實現更復雜的AI應用【7,224】。

然而,多模態系統在實際應用中往往面臨數據缺失或不完整的問題。這種情況的發生可能是由于傳感器故障、硬件限制、隱私問題、環境干擾和數據傳輸問題等多種因素造成的。如圖1b所示,在三模態的情況下,數據樣本可以分為全模態(包含所有三種模態的信息)或缺失模態(完全缺失一種或多種模態的數據)。這些問題可能在數據收集到部署的任何階段發生,顯著影響模型性能。現實世界中此類問題在多個領域廣泛存在。在情感計算領域,研究人員【31,150】發現,由于相機遮擋或麥克風噪聲過大,樣本中僅包含可用的圖像或音頻。同樣,在太空探索中,NASA的“機智號”火星直升機【36】由于火星上的極端溫度循環導致其傾角儀失效,面臨缺失模態的挑戰。為了解決這一問題,NASA應用了一項軟件補丁,修改了導航算法的初始化【169】。在醫療AI領域,由于隱私問題,某些數據樣本中某些模態可能不可用,導致多模態數據集中固有的模態缺失【222】。現實場景的不可預測性和數據來源的多樣性進一步加劇了這一挑戰。因此,開發能夠在模態缺失情況下有效運行的多模態系統,已成為該領域的關鍵研究方向。

在本綜述中,我們將處理缺失模態的挑戰稱為“缺失模態問題”。我們將解決該問題的方法稱為“缺失模態的多模態學習”(MLMM)。這一方法與傳統的全模態多模態學習(MLFM)形成對比。具體而言,在MLFM任務中,給定一個包含HHH模態的數據集,通常要求訓練模型能夠處理和融合所有HHH種模態的信息以進行預測。在訓練和測試過程中,使用來自所有HHH種模態的完整信息樣本。而在MLMM任務中,由于數據收集限制或部署環境中的約束,在訓練或測試時使用少于HHH種模態的數據。MLMM的主要挑戰在于在訓練和測試過程中動態且穩健地處理和融合任意數量的可用模態信息,同時保持與全模態樣本相當的性能。

本綜述涵蓋了MLMM的最新進展及其在信息檢索、遙感和機器人視覺等多個領域的應用。我們提供了對MLMM方法論、應用場景和相關數據集的細致分類。我們的工作擴展了現有專注于特定領域(如醫學診斷【5,151,235】、情感分析【179】和多視圖聚類【17】)的MLMM綜述。通過提供對當前研究的全面概述并識別未來工作的有前景方向,本綜述旨在為開發更穩健且適應性強的多模態學習系統做出貢獻。這些進展對于將智能系統部署在從行星探索的惡劣條件到日常生活中的動態和不可預測環境中至關重要。

本綜述的主要貢獻有三點:

  1. 對MLMM在各個領域的應用進行了全面的綜述,并收集了大量相關數據集,突顯了MLMM在應對現實挑戰中的多功能性。
  2. 提出了一個新穎的、細致的MLMM方法論分類體系,基于恢復策略、集成階段、參數效率方法和注意力機制等多方面的分類框架。
  3. 在所提出的分類框架下,深入分析了當前的MLMM方法、其挑戰以及未來的研究方向。

2 方法論

我們根據四個主要維度的分類框架對現有的深度缺失模態多模態學習(MLMM)方法進行分類和討論:模態增強、特征空間工程、架構工程和模型選擇。

**2.1 模態增強

我們將解決缺失模態問題的模態增強方法分為兩類,針對模態層次上的原始數據。第一類是模態組成方法,該方法使用零值/隨機值、從相似實例中直接復制的數據,或通過檢索算法獲得的匹配樣本,與缺失模態樣本組合形成全模態樣本。第二類是模態生成方法,它使用生成模型(如自動編碼器(AEs)[55],生成對抗網絡(GANs)[42],或擴散模型[56])生成缺失模態的原始數據。

2.1.1 模態組成方法 當數據集中缺失模態樣本較少時,刪除這些樣本是多模態數據集預處理中的常見方法。但這種方法會減少數據集的規模,并在數據集中包含許多缺失模態樣本時導致一些稀有樣本消失。模態組成方法因其簡單有效而廣泛使用,且可以保持數據集的規模。典型方法之一是零值/隨機值組成方法,用零值/隨機值替換缺失模態數據,如圖3所示。在最近的研究中[28, 102, 114, 163],這些方法經常作為基線與提出的方法進行比較。針對缺失序列數據問題,例如視頻中的缺失幀,提出了類似的幀-零值方法[135],用零幀替換缺失幀并與可用幀組合。這些方法在典型的多模態學習訓練過程中非常常見。通過這些方法,多模態模型可以在預測時平衡和整合來自不同模態的信息,從而避免模型過度依賴一個或幾個模態,增強其魯棒性。然而,當數據集中大多數樣本都是缺失模態樣本時,這些方法難以很好地泛化。另一種組成方法基于檢索算法(圖3),通過從具有相同模態和類別的檢索樣本中復制/平均原始數據來填充缺失模態數據。一些簡便的方法會隨機選擇一個具有相同類別和所需模態的樣本,并與輸入的缺失模態組合,形成用于訓練的全模態樣本。例如,研究人員[204]提出了Modal-mixup,隨機補充缺失模態樣本來完成訓練數據集。然而,這類方法在測試階段無法解決缺失模態問題。針對視頻等流數據中的缺失幀問題,研究人員提出了使用幀重復法[135],通過使用過去的幀來補足缺失幀。一些工作[14, 41, 204]嘗試使用K近鄰(KNN)或其變體來檢索最佳匹配樣本進行組合。實驗表明,基于KNN的方法在處理測試階段的缺失模態問題時,表現優于隨機選擇等方法。但簡單的聚類方法往往存在高計算復雜度、對不平衡數據敏感及高內存開銷等問題。此外,基于檢索的模態組合方法不適用于像素級任務(如分割),僅適用于簡單任務(如分類),因為它們可能導致模型混淆。此外,上述所有方法雖然能夠完成缺失模態的數據集,但它們會降低數據集的多樣性。這對于高模態缺失率(大部分樣本都是缺失模態樣本)的數據集尤其成問題,因為這增加了過擬合到某些少量全模態樣本類別的風險。

2.1.2 模態生成方法 在缺失數據研究中,提出了各種矩陣填充方法[41],利用矩陣元素之間的潛在相關性。然而,在多模態數據集中,缺失數據通常以大塊形式出現,使得傳統方法在大規模處理和高維計算中效率低下。隨著深度學習的發展,生成缺失模態變得更加高效。當前生成缺失模態原始數據的方法分為單模態生成方法和統一模態生成方法。單模態生成方法為每個模態訓練單獨的生成模型,以應對任意缺失模態的情況,如圖5a所示。早期工作使用高斯過程[117]或玻爾茲曼機[159]從可用輸入生成缺失模態數據。隨著深度學習的發展,諸如AEs和U-Net[147]等方法被用于生成原始模態數據。Li等人[87]使用3D-CNN從磁共振成像(MRI)數據生成正電子發射斷層掃描(PET)數據。Chen等人[24]通過訓練U-Net模型,從MRI數據中生成其他兩種模態以解決MRI分割中的缺失模態問題。最近的工作[113]將AEs作為基線方法之一,通過為每個模態訓練一個AE來完成數據集。在領域自適應中,Zhang等人[220]提出了一個多模態數據生成模塊,通過領域對抗學習生成每個缺失模態,學習領域不變特征。GANs通過使用生成器創建逼真的數據,并讓鑒別器區分其與真實數據,顯著提高了圖像生成的質量。研究人員開始用GANs代替AEs和U-Nets生成缺失模態。例如,GANs通過現有模態的潛在表示生成缺失模態的原始數據,在乳腺癌預測中得到了應用[3],而WGANs則應用于情感分析[184]。在遙感領域,Bischke等人[8]使用GANs生成深度數據,改善了RGB模型的分割性能。GANs還用于機器人識別中生成RGB和深度圖像[45]。最近的研究[113]表明,GANs在生成更真實的缺失模態時表現優于AEs,并能帶來更好的下游任務模型性能。最近,擴散模型的引入進一步提高了圖像生成質量。Wang等人提出了IMDer方法[190],利用可用模態作為條件,幫助擴散模型生成缺失模態。實驗表明,擴散模型減少了恢復模態與缺失模態之間的語義模糊性,并且在泛化性能方面優于以往的方法。然而,為每個模態訓練一個單獨的生成器效率低下,且無法捕捉模態之間的潛在相關性。研究人員開發了另一種生成方法,即統一模態生成方法,訓練一個統一模型可以同時生成所有模態(圖5b)。代表性模型之一是Cascade AE[174],通過堆疊AEs來捕捉缺失模態與現有模態之間的差異,從而生成所有缺失模態。最近的研究人員,如Zhang等人[221],嘗試使用注意力機制和最大池化層來整合現有模態的特征,使得模態特定的解碼器能夠生成每個缺失模態。實驗表明,該方法比僅使用最大池化[19]來整合多個模態特征生成缺失模態更加有效。盡管上述方法在一定程度上能夠緩解性能下降的問題,但訓練能夠生成高質量、類似真實世界分布的缺失模態的生成器仍然具有挑戰性,尤其是在訓練數據集中包含較少全模態樣本的情況下。此外,模態生成模型顯著增加了存儲需求。隨著模態數量的增加,這些生成模型的復雜性也隨之增加,進一步增加了訓練過程和資源需求的復雜性。

**2.2 特征空間工程

以下介紹在特征空間層次解決缺失模態問題的方法。首先,我們介紹兩種基于約束的方法,通過施加特定約束來增強更具辨別力和魯棒性的表示學習(圖6)。一種方法是通過正則化來提高學習表示的有效性和泛化能力。另一種方法側重于最大化相關性,使用特定的度量來加強特征之間的關系。接下來,表示組成方法可以借鑒2.1.1節討論的解決方案,在模態的特征層次上操作,或使用算術運算來處理動態數量的模態。最后,我們介紹表示生成方法,該方法能夠生成缺失模態的特征表示。

**2.3 架構工程

與上述生成模態或模態表示的方法不同,一些研究人員通過調整模型架構來適應缺失模態的情況。根據其在處理缺失模態中的核心貢獻,我們將其分為四類:基于注意力的方法、基于蒸餾的方法、基于圖學習的方法和多模態大語言模型(MLLMs)。

**2.4 模型選擇

模型選擇方法旨在使用一個或多個選定的模型進行下游任務,同時增強其魯棒性和性能。這些方法可以分為集成方法、專用方法和離散調度方法。集成方法通過投票、加權平均等方式組合多個選定模型的預測結果,以提高最終決策的準確性和穩定性。專用方法則為不同的子任務(如不同的缺失模態情況)分配專門的個體模型,專注于特定的子任務或子數據集。在離散調度方法中,用戶可以使用自然語言指令讓大型語言模型(LLMs)根據模態類型和下游任務自主選擇合適的模型。

3 應用與數據集

在過去十年中,基于深度學習的多模態學習經歷了爆炸式增長,在學術界和工業界得到了廣泛應用。與這些應用相伴的是各種形式的多模態數據集的出現。然而,此類數據集的收集往往需要大量人力和成本。在某些特定的應用方向上,諸如用戶隱私問題、數據收集設備的傳感器故障等因素,可能導致數據集中存在缺失模態。在嚴重的情況下,多達90%的樣本可能存在缺失模態問題,使得傳統的全模態多模態學習(MLFM)在模型訓練時難以取得良好的性能。這催生了缺失模態多模態學習(MLMM)的任務。由于導致數據集不完整的因素通常來自不同的應用方向,下面我們根據這些應用方向介紹相應的數據集:情感分析、醫療診斷、檢索/描述、遙感、機器人視覺等。我們還根據應用和數據類型在表3中對這些數據集進行了分類。

結論

在本綜述中,我們首次對缺失模態的深度多模態學習進行了全面回顧。我們首先簡要介紹了缺失模態問題的歷史發展及其在現實世界中的重要性原因。隨后,我們從兩個角度對該領域的當前進展進行了細致的分類和總結:方法論、應用與數據集。最后,我們討論了該領域現存的挑戰和未來可能的發展方向。盡管越來越多的研究人員參與到缺失模態問題的研究中,我們也關注到一些亟待解決的緊迫問題,例如統一的測試基準(如多模態大語言模型)以及更廣泛的應用需求(如自然科學)。通過我們的全面且詳細的綜述,我們希望能夠激勵更多的研究人員探索缺失模態的深度多模態學習技術,最終為開發出魯棒且高性能的AI系統做出貢獻。

付費5元查看完整內容

在許多科學領域,大型語言模型(LLMs)徹底改變了處理文本和其他數據模式(例如分子和蛋白質)的方式,在各種應用中實現了卓越的性能,并增強了科學發現過程。然而,以往關于科學LLMs的綜述往往集中在一到兩個領域或單一模式上。本文旨在通過揭示科學LLMs在其架構和預訓練技術方面的跨領域和跨模式連接,提供一個更全面的研究視角。為此,我們全面調查了250多種科學LLMs,討論了它們的共性和差異,并總結了每個領域和模式的預訓練數據集和評估任務。此外,我們還探討了LLMs如何部署以促進科學發現。與本綜述相關的資源可在//github.com/yuzhimanhua/Awesome-Scientific-Language-Models獲取。

大型語言模型(LLMs)的出現(Zhao et al., 2023c)為自然語言處理(NLP)帶來了新的范式,取代了為每個任務設計的專用模型,使用統一的模型來有效地解決廣泛的問題。在科學領域,這種范式不僅重塑了人們處理與自然語言相關任務(如科學論文、醫療記錄和氣候報告)的策略,還激發了處理其他類型數據(如分子、蛋白質、表格和元數據)的類似想法。除了理解現有的科學數據外,LLMs還展示了通過生成、規劃等方式加速科學發現的潛力(Wang et al., 2023c; Zhang et al., 2023f; Wang et al., 2024b)。 鑒于LLMs在各種科學領域和多種模式中的廣泛而深遠的影響,有必要全面回顧這一方向的相關工作。然而,現有的科學LLMs綜述通常只關注一到兩個領域(如生物醫學(Wang et al., 2023a; He et al., 2024; Pei et al., 2024)和化學(Xia et al., 2023; Zhang et al., 2024c))或單一模式(如文本(Ho et al., 2024))。事實上,如果我們全面觀察研究領域,可以看到不同領域和模式中開發LLMs所使用的類似和相互關聯的技術。

圖1展示了三種主要的科學LLM預訓練策略(即第1到3列),每種策略我們給出4個例子(即A到D類型)。在第1列,繼BERT(Devlin et al., 2019)和RoBERTa(Liu et al., 2019)之后,現有研究使用掩碼語言模型(MLM)來預訓練編碼器語言模型。這里,輸入可以是自然序列(如各領域的論文、FASTA格式(Lipman and Pearson, 1985)的蛋白質/DNA/RNA序列)或人為線性化的序列(如SMILES格式(Weininger, 1988)的分子、引文圖中的場所/作者/參考節點序列)。

在第2列,受到GPT(Brown et al., 2020)和LLaMA(Touvron et al., 2023a)的啟發,先前的研究采用下一個標記預測來預訓練(編碼器-)解碼器語言模型,其中一些進一步采用指令微調和偏好優化(Ouyang et al., 2022)。除了純文本輸入(如知識庫或考試中的問答對)外,我們看到更多序列化復雜科學數據的方法,如展平表格單元格并使用粒子坐標描述晶體。即使是圖像,在數學(Gao et al., 2023)和生物醫學(Li et al., 2023a)中也有研究利用視覺編碼器將圖像投射到幾個視覺標記上,并將它們作為線性化的LLM輸入預先附加到文本標記前。

在第3列,繼DPR(Karpukhin et al., 2020)和CLIP(Radford et al., 2021)之后,兩個編碼器通過對比學習預訓練,以使相關數據對在潛在空間中更接近。

當兩種模態都是序列化的(例如文本-文本或文本-蛋白質)時,模型建立在兩個LLM編碼器之上。當我們希望保持一種模式的非序列性質時(例如分子圖(Edwards et al., 2021)、胸部X光(Zhang et al., 2022)和航拍圖像(Yan et al., 2024)),可以采用相應的圖形或圖像編碼器。總之,跨領域跨模式的綜述將更準確地描繪不同科學LLMs之間的聯系,展示它們的共性,并可能指導其未來的設計。

貢獻:在本文中,受上述討論的啟發,我們系統地調查了250多種科學LLMs,涵蓋了各個領域(如一般科學、數學、物理、化學、材料科學、生物學、醫學和地球科學)、模式(如語言、圖形、視覺、表格、分子、蛋白質、基因組和氣候時間序列)和規模(從約1億到約1000億參數)。對于每個領域/模式,我們研究了科學LLMs常用的預訓練數據集、模型架構和評估任務。基于我們的動機,當我們詳細討論模型架構時,會將它們與圖1聯系起來,構建跨領域跨模式的連接。此外,我們在表A1-表A6(附錄A)中提供了這些科學LLMs的結構化總結。此外,對于不同領域,我們介紹了LLMs如何通過增強科學發現過程的不同方面和階段(如假設生成、定理證明、實驗設計、藥物發現和天氣預報)來促進科學進步。

2 科學領域的大型語言模型(LLMs)

**2.1 語言

科學LLMs最常用的預訓練語料庫是來自書目數據庫的研究論文,例如AMiner(Tang et al., 2008)、Microsoft Academic Graph(MAG)(Sinha et al., 2015)和Semantic Scholar(Ammar et al., 2018)。其中一些來源(如S2ORC(Lo et al., 2020))包含論文的全文信息,而其他來源則僅有標題和摘要。

科學LLMs的發展與通用領域LLMs的發展具有相似性。具體來說,早期模型在預訓練期間以自監督的方式利用論文文本,旨在從大規模未標注語料庫中獲取科學知識。例如,掩碼語言模型(MLM)是基于BERT骨干的科學LLMs的默認預訓練任務(圖1中的類型1.A,如SciBERT(Beltagy et al., 2019));下一個標記預測被廣泛用于基于GPT的科學LLMs(圖1中的類型2.A,如SciGPT(Luu et al., 2021))。最近,受到LLMs可以被訓練成遵循自然語言指令這一事實的啟發(Wei et al., 2022a;Ouyang et al., 2022),研究人員更多地投入于通過指令調優LLMs以解決復雜的科學問題(類型2.A,如Galactica(Taylor et al., 2022)和SciGLM(Zhang et al., 2024a))。指令調優數據通常來自下游任務的數據集,如考試問答(Welbl et al., 2017),并由人類或現有的LLMs(如GPT-4(Achiam et al., 2023))進一步過濾/增強。

通用科學LLMs通常在常見的NLP任務上進行評估,例如命名實體識別(NER)、關系抽取(RE)(Luan et al., 2018)、問答(QA)(Wang et al., 2023g)和分類(Cohan et al., 2019)。

**2.2 語言 + 圖

除了純文本外,科學論文還關聯有豐富的元數據,包括出版地點、作者和引用(Zhang et al., 2023h)。這些元數據將論文連接成一個圖,補充文本信號以表征論文語義。為了利用元數據,一些研究(類型1.B,如OAG-BERT(Liu et al., 2022b))將論文文本與出版地點/作者作為輸入進行MLM;其他研究(類型3.A,如SPECTER(Cohan et al., 2020))將引用鏈接作為監督,訓練LLMs使鏈接的論文在嵌入空間中更接近。最近的方法進一步修改了LLMs中的Transformer架構,使用適配器(Adapters)(Singh et al., 2023)、嵌入GNN的Transformers(Jin et al., 2023b)和專家混合Transformers(Mixture-of-Experts Transformers)(Zhang et al., 2023g)以更好地捕捉圖信號。

圖感知的科學LLMs通常在涉及兩個文本單元(如論文-論文或查詢-論文)關系的任務上進行評估,包括鏈接預測、檢索、推薦和作者名消歧。SciDocs(Cohan et al., 2020)和SciRepEval(Singh et al., 2023)是廣泛采用的基準數據集。

**2.3 在科學發現中的應用

高性能的科學LLMs可以在整個科學發現過程中與研究人員協同工作。在后續章節將詳細討論領域特定的應用,這里強調LLMs在頭腦風暴和評估中的一般用途:Lahav et al.(2022)將LLMs集成到搜索引擎中,用于發現科學挑戰和方向;Wang et al.(2023f)和Baek et al.(2024)利用LLMs生成基于先前文獻的新科學思想;Zhang et al.(2023i)依靠LLMs為每篇投稿找到專家評審;Liu and Shah(2023)、Liang et al.(2023a)和D'Arcy et al.(2024)探索了GPT-4在提供研究論文反饋以促進自動評審生成方面的能力。

3 數學領域的大型語言模型(LLMs)

3.1 語言

數學LLMs的預訓練文本語料庫可以分為兩類:(1)多項選擇問答,代表數據集包括MathQA(Amini et al., 2019)、Ape210K(Zhao et al., 2020)和Math23K(Wang et al., 2017);(2)生成式問答,代表數據集包括GSM8K(Cobbe et al., 2021a)、MATH(Hendrycks et al., 2021)和MetaMathQA(Yu et al., 2023b)。

類似于通用科學LLMs,早期數學LLMs的骨干模型是BERT(類型1.A,如GenBERT(Geva et al., 2020)和MathBERT(Shen et al., 2021))。這些模型大多通過MLM進行訓練,唯一的例外是BERT-TD(Li et al., 2022c),其中采用了對比損失。對于基于GPT的數學LLMs(類型2.A,如GSM8K-GPT(Cobbe et al., 2021b)和NaturalProver(Welleck et al., 2022)),我們發現預訓練任務多樣化:監督微調、下一個標記預測和指令微調。最新的數學LLMs(類型2.A,如Rho-Math(Lin et al., 2024a)和MAmmoTH2(Yue et al., 2024))基于LLaMA并被訓練成遵循自然語言指令。然而,當可用的預訓練數據集非常龐大(如550億標記)時,下一個標記預測仍然是唯一的預訓練任務(Azerbayev et al., 2023;Lin et al., 2024a)或用于構建基礎模型的輔助任務(Shao et al., 2024;Ying et al., 2024)。

問答(QA)和數學世界問題(MWP)一直是最常見的評估任務。此外,定量推理包含更難的問題,因為模型必須提供完整且自洽的解決方案而不依賴外部工具(Shao et al., 2024;Lin et al., 2024a)。GSM8K和MATH在問答中占主導地位,而MathQA和Math23K則在數學世界問題中占主導地位。對于定量推理,MMLU-STEM(Hendrycks et al., 2020)和Big-Bench Hard(Suzgun et al., 2023)是最廣泛采用的。

**3.2 語言 + 視覺

幾何學是數學中最重要的分支之一,它通過文本和圖表共同表達。因此,幾何LLMs必須涉及視覺模式。幾何LLMs最常用的預訓練數據集包括Geometry3K(Lu et al., 2021)和GeoQA(Chen et al., 2021),它們都包含多項選擇的幾何問題。

將視覺模式融入LLMs的關鍵是對圖像進行編碼并獲得線性化的視覺表示。具體而言,InterGPS(Lu et al., 2021)(類型2.D)使用RetinaNet(Lin et al., 2017)將圖像轉換為一組關系,然后應用BART(Lewis et al., 2020a)生成解決方案;G-LLaVA(Gao et al., 2023)(類型2.D)通過預訓練的視覺Transformer(ViT)對視覺輸入進行編碼,將視覺嵌入與文本嵌入連接,然后將連接結果輸入LLaMA-2(Touvron et al., 2023b)。這些模型默認通過序列到序列任務進行預訓練,其中問題作為輸入,真實答案和可選的推理作為輸出。為了更好地進行視覺建模,可以選擇添加輔助損失,如掩碼圖像建模、圖像構建或文本-圖像匹配。

幾何LLMs通過解決幾何問題進行評估,模型需要在給定圖表及其說明、問題和答案選項的情況下選擇正確答案。著名的評估數據集包括Geometry3K(Lu et al., 2021)、GEOS(Seo et al., 2015)和MathVista(Lu et al., 2023b)。

**3.3 表格

大量數學知識以表格數據的形式存儲。對于“表格”模式,預訓練的著名資源包括WikiTableQuestions(Pasupat and Liang, 2015)、WikiSQL(Zhong et al., 2017)和WDC Web Table(Lehmberg et al., 2016)。

表格中的挑戰與圖表中的相似,即獲得線性化的表格表示。在大多數情況下,表格被壓縮成線性文本序列,作為上下文的一部分,并在模型輸入中加入問題文本。作為這一研究領域的首批工作之一,TAPAS(Herzig et al., 2020)(類型1.A)采用MLM對象來預測文本和表格上下文中的掩碼標記。最近的發展(Li et al., 2023c;Zhang et al., 2024d)類似于TableLlama(Zhang et al., 2023d)(類型2.B)的設計,以LLaMA-2為骨干,并以指令微調作為預訓練任務。

表格LLMs通過表格問答進行驗證,模型需要在給定表格結構、數據值和問題文本的情況下生成正確答案。大多數現有研究在WikiTableQuestions和WikiSQL數據集上進行了評估。TableInstruct(Zhang et al., 2023d)是最新開發的綜合基準,集成了跨11個任務的14個數據集。

**3.4 在科學發現中的應用

數學LLMs具有很大的潛力來輔助人類提供潛在的解決方案。例如,AlphaGeometry(Trinh et al., 2024)將LLM與符號推理引擎結合,LLM生成有用的構造,符號引擎應用形式邏輯來尋找解決方案。AlphaGeometry解決了國際數學奧林匹克競賽的30個經典幾何問題中的25個。Sinha et al.(2024)通過添加吳氏方法(Wu's method)(Chou, 1988)擴展了AlphaGeometry,進一步解決了30個中的27個,超過了人類金牌得主。FunSearch(Romera-Paredes et al., 2024)將LLM與程序搜索結合起來。FunSearch的一個顯著成就是能夠找到組合優化中帽子集問題的新解決方案。這些生成的解決方案比人類專家設計的更快更有效。在Li et al.(2024a)中,LLMs通過利用上下文學習和鏈式推理(Wei et al., 2022b)迭代提出和評估統計模型。

4 物理領域的大型語言模型(LLMs)

現有的物理LLMs主要集中在天文學和“語言”模式上。作為BERT的衍生產品,astroBERT(Grezes et al., 2021)(類型1.A)通過MLM和下一句預測進一步使用與天文學相關的論文進行預訓練。它在命名實體識別(NER)任務上進行評估。同樣,AstroLLaMA(Nguyen et al., 2023b)(類型2.A)使用來自arXiv的超過30萬篇天文學摘要對LLaMA-2進行微調。它在論文生成和論文推薦任務上進行評估。AstroLLaMA-chat(Perkowski et al., 2024)(類型2.A)是AstroLLaMA的聊天版本。它在GPT-4生成的特定領域對話數據集上持續訓練。

5 化學與材料科學領域的大型語言模型(LLMs)

**5.1 語言

化學和材料科學領域的LLMs預訓練語料庫通常來自研究論文和數據庫(例如,Materials Project(Jain et al., 2013))。此外,最近的工作采用了從PubChem(Kim et al., 2019)、MoleculeNet(Wu et al., 2018)等來源派生的領域特定指令微調數據集(例如,MolInstructions(Fang et al., 2023a)和SMolInstruct(Yu et al., 2024))。

早期的化學LLMs大多采用中等規模的僅編碼器架構,通過MLM預訓練(類型1.A,如ChemBERT(Guo et al., 2022)、MatSciBERT(Gupta et al., 2022)和BatteryBERT(Huang and Cole, 2022))。這些模型通常在下游任務上進行評估,包括反應角色標注(Guo et al., 2022)和摘要分類(Gupta et al., 2022)。最近,研究人員更多地關注通過下一個標記預測和指令微調訓練的大規模僅解碼器LLMs(類型2.A)。示例包括ChemDFM(Zhao et al., 2024)、ChemLLM(Zhang et al., 2024b)和LlaSMol(Yu et al., 2024)。鑒于這些模型的廣泛推廣能力,它們在多樣化的任務集上進行評估,如名稱轉換(Kim et al., 2019)、反應預測(Jin et al., 2017)、逆合成(Schneider et al., 2016)、基于文本的分子設計(Edwards et al., 2022)和晶體生成(Antunes et al., 2023;Flam-Shepherd和Aspuru-Guzik, 2023;Gruver et al., 2024)。

**5.2 語言 + 圖

圖是表征分子的合適數據結構(Jin et al., 2023a)。包含分子圖的流行數據集包括ChEBI-20(Edwards et al., 2021, 2022)、ZINC(Sterling和Irwin, 2015)和PCDes(Zeng et al., 2022)。 在某些場景中,分子圖與文本信息同時出現,因此現有工作探索了如何有效地編碼兩者。第一類模型采用GNN作為圖編碼器,LLM作為文本編碼器。兩種模式通過對比學習連接(Liu et al., 2023d)(類型3.C)。例如,Text2Mol(Edwards et al., 2021)使用GCN(Kipf和Welling, 2016)和SciBERT分別編碼分子及其相應的自然語言描述,以進行文本到分子的檢索。第二類模型同時使用LLM編碼文本和圖(Zeng et al., 2022)。圖可以線性化為SMILES字符串(Edwards et al., 2022)(類型2.C),或通過圖編碼器投射到虛擬標記上(Zhao et al., 2023a;Liu et al., 2023f)(類型2.D)。例如,3D-MoLM(Li et al., 2024b)使用3D分子編碼器將分子表示為標記,并與指令一起輸入LLaMA-2以進行分子到文本的檢索和分子描述。

**5.3 語言 + 視覺

補充文本和圖模式,分子圖像構成了化學中的視覺模式。現有工作采用類似于BLIP-2(Li et al., 2023b)的理念,將每個圖像表示為標記并輸入LLM(類型2.D)。例如,GIT-Mol(Liu et al., 2024)將包括圖和圖像在內的所有模式投射到潛在文本空間,并使用T5(Raffel et al., 2020)進行編碼和解碼。

**5.4 分子

不同于5.2節,本節介紹不含相關文本信息的分子模型。也就是說,受到LLMs啟發的類似方法被用來開發分子語言模型(Flam-Shepherd et al., 2022)。具體來說,大多數研究采用SMILES或SELFIES(Krenn et al., 2020)字符串作為分子的序列表示。類似于“語言”模式的趨勢,先驅分子LLMs關注雙向Transformer編碼器的表示學習(類型1.C,如SMILES-BERT(Wang et al., 2019)和MoLFormer(Ross et al., 2022))。例如,ChemBERTa(Chithrananda et al., 2020)采用與RoBERTa(Liu et al., 2019)類似的架構和預訓練策略。這些模型在分子理解任務中表現出色,如分子性質預測(例如毒性分類(Wu et al., 2018)和原子化能量回歸(Ramakrishnan et al., 2014))以及虛擬篩選(Riniker和Landrum, 2013)。后來的工作探索了以自回歸方式表示分子(類型2.C,如BARTSmiles(Chilingaryan et al., 2022)和ChemGPT(Frey et al., 2023))。例如,T5Chem(Lu和Zhang, 2022)采用T5骨干和序列到序列預訓練目標。這些模型在生成任務中進行評估,包括分子生成(Gaulton et al., 2017)、反應預測和逆合成。除了線性化分子,還有研究修改Transformer架構以接納分子圖,如MAT(Maziarka et al., 2020)和R-MAT(Maziarka et al., 2024)。

**5.5 在科學發現中的應用

先前的研究表明,LLMs促進了自主化學研究。例如,Bran et al.(2024)提出了一個化學LLM代理ChemCrow,可以集成專家設計的工具用于有機合成、藥物發現和材料設計;Boiko et al.(2023)開發了一個由LLM驅動的智能系統Coscientist,可以設計、規劃和執行化學研究。LLMs還幫助藥物和催化劑設計。例如,ChatDrug(Liu et al., 2023e)探索了使用LLMs進行藥物編輯,采用提示模塊、領域反饋模塊和對話模塊;DrugAssist(Ye et al., 2023a)被提議為一種基于LLM的交互模型,通過人機對話進行分子優化;Sprueill et al.(2023, 2024)使用LLMs作為代理,通過蒙特卡羅樹搜索和原子神經網絡模型的反饋尋找有效催化劑。

6 生物學與醫學領域的大型語言模型(LLMs)

**6.1 語言

生物醫學LLMs的預訓練語料庫包括研究文章(例如,來自PubMed的標題/摘要(Lu, 2011)和PMC的全文(Beck和Sequeira, 2003))、電子健康記錄(例如,MIMIC-III(Johnson et al., 2016),MIMIC-IV(Johnson et al., 2023))、知識庫(例如,UMLS(Bodenreider, 2004))以及健康相關的社交媒體帖子(例如,COVID-19推文(Müller et al., 2023))。最近的研究進一步從醫學考試問題、知識圖譜和醫生-患者對話中收集監督微調和偏好優化數據集。例子包括ChiMed(Ye et al., 2023b),MedInstruct-52k(Zhang et al., 2023e),以及BiMed1.3M(Acikgoz et al., 2024),其中許多包含非英語成分(例如中文和阿拉伯語)。

生物醫學LLMs發展的分水嶺時刻是十億參數架構和指令微調的出現。在此之前,探索了各種中等規模的骨干,包括基于編碼器的(類型1.A,例如,BioBERT(Lee et al., 2020),Bio-ELECTRA(Ozyurt, 2020),BioRoBERTa(Lewis et al., 2020b),BioALBERT(Naseem et al., 2022),以及Clinical-Longformer(Li et al., 2022a))和基于編碼器-解碼器的(類型2.A,例如,SciFive(Phan et al., 2021),BioBART(Yuan et al., 2022a),以及BioGPT(Luo et al., 2022))。這些模型的評估任務從生物醫學命名實體識別、關系抽取、句子相似度估計、文檔分類和問答(即BLURB基準(Gu et al., 2021))到自然語言推理(NLI)(Romanov和Shivade, 2018)和實體鏈接(Dogan et al., 2014)。分水嶺之后的趨勢是指令微調十億參數LLMs(類型2.A,例如,Med-PaLM(Singhal et al., 2023a),MedAlpaca(Han et al., 2023),以及BioMistral(Labrak et al., 2024))。相應地,評估任務變為單輪問答(Jin et al., 2021;Pal et al., 2022)和多輪對話(Wang et al., 2023h)。與此同時,有研究提出了專門針對生物醫學檢索任務的雙編碼器架構(類型3.A,例如,Jin et al., 2023c和Xu et al., 2024),其基準包括NFCorpus(Boteva et al., 2016),TREC-COVID(Voorhees et al., 2021)等。

**6.2 語言 + 圖

生物醫學本體捕捉了實體之間的豐富關系。類似地,引用鏈接表征了生物醫學論文之間的連接。直觀上,共同利用文本和圖信息為問答中的多跳推理鋪平了道路。例如,Yasunaga et al.(2022a)提出使用LLM和GNN分別編碼文本和本體信號,并深度融合它們(類型3.C);Yasunaga et al.(2022b)將來自兩個關聯論文的文本段落連接起來,并將序列輸入LLM進行預訓練,這本質上是將元數據鄰居(即引用)作為上下文附加到MLM中(類型1.B)。這兩種方法在需要復雜推理的問答任務上展示了顯著的改進。

**6.3 語言 + 視覺

生物醫學文本-圖像對通常來自兩種來源:(1)醫學報告,如胸部X光片(例如,MIMIC-CXR(Johnson et al., 2019))和病理報告(Huang et al., 2023b);以及(2)從生物醫學論文中提取的圖表-標題對(例如,ROCO(Pelka et al., 2018)和MedICaT(Subramanian et al., 2020))。

大多數生物醫學視覺語言模型利用CLIP架構(Radford et al., 2021),其中一個文本編碼器和一個圖像編碼器通過對比學習共同訓練,將配對的文本和圖像映射得更近(類型3.D)。文本編碼器的選擇從BERT(Zhang et al., 2022)和GPT-2(Huang et al., 2023b)演變到LLaMA(Wu et al., 2023)和LLaMA-2(Liu et al., 2023b),而圖像編碼器則從ResNet(Huang et al., 2021)演變到ViT(Zhang et al., 2023c)和Swin Transformer(Thawkar et al., 2023)。MLM、掩碼圖像建模和文本-文本/圖像-圖像對比學習(即,通過在語言/視覺模式內創建增強視圖)有時作為輔助預訓練任務。除了CLIP,其他通用領域的視覺語言架構,如LLaVA(Li et al., 2023a)、PaLM-E(Tu et al., 2024)和Gemini(Saab et al., 2024)也被探索。例如,LLaVA-Med(類型2.D)將圖像編碼為幾個視覺標記,并將它們附加到文本標記之前作為LLM輸入。這些模型的評估任務包括圖像分類、分割、目標檢測、視覺問答、文本到圖像/圖像到文本的檢索和報告生成,其基準包括CheXpert(Irvin et al., 2019)、PadChest(Bustos et al., 2020)、SLAKE(Liu et al., 2021a)等。

**6.4 蛋白質、DNA、RNA和多組學

FASTA格式(Lipman和Pearson, 1985)自然地將蛋白質表示為氨基酸序列,將DNA/RNA表示為核苷酸序列,使得模型可以將它們視為“語言”。這些序列的代表資源包括蛋白質的UniRef(Suzek et al., 2015)和SwissProt(Bairoch和Apweiler, 2000),DNA的GRCh38(Harrow et al., 2012)和1000 Genomes Project(Consortium, 2015),以及RNA的RNAcentral(Consortium, 2019)。

僅編碼器的蛋白質、DNA和RNA LLMs(類型1.D),如ESM-2(Lin et al., 2023b),DNABERT(Ji et al., 2021),和RNABERT(Akiyama和Sakakibara, 2022),采用類似BERT的架構,并以MLM作為預訓練任務(即預測掩碼氨基酸、核苷酸、k-mers或密碼子);僅解碼器的模型,如ProGen(Madani et al., 2023)和DNAGPT(Zhang et al., 2023a),利用類似GPT的架構,并以下一個標記預測作為預訓練任務。也有研究共同考慮文本和蛋白質模式。例如,ProtST(Xu et al., 2023b)通過對比學習(類型3.B)將蛋白質序列與其文本描述(即名稱和功能)匹配;BioMedGPT(Luo et al., 2023c)首先將蛋白質投射到標記上,然后將這些標記與文本一起輸入LLaMA-2進行指令微調,類似于類型2.D。

現有的多組學LLMs主要集中在單細胞轉錄組學(例如scRNA-seq)數據上,例如單細胞內基因的表達水平(Franzén et al., 2019)。除了基于BERT的(例如,Geneformer(Theodoris et al., 2023))和基于GPT的(例如,scGPT(Cui et al., 2024))架構外,由于其在處理長scRNA-seq數據時的線性注意力復雜性,Performer(Yang et al., 2022a;Hao et al., 2024)被廣泛使用。

**6.5 在科學發現中的應用

類似于化學,LLMs可以在生物學和醫學研究中自動化實驗。例如,CRISPR-GPT(Huang et al., 2024)增強了一個LLM代理的領域知識,以改進CRISPR基因編輯實驗的設計過程。

7 地理、地質與環境科學領域的大型語言模型(LLMs)

**7.1 語言

地球科學LLMs的預訓練語料庫包括地球科學研究論文、氣候相關新聞文章、維基百科頁面、企業可持續性報告、知識庫(例如,GAKG(Deng et al., 2021))和興趣點(POI)數據(例如,OpenStreetMap(Haklay and Weber, 2008))。

地球科學LLMs的初步研究主要集中在使用Transformer編碼器骨干的雙向LLMs的預訓練(類型1.A,例如,ClimateBERT(Webersinke et al., 2021),SpaBERT(Li et al., 2022b)和MGeo(Ding et al., 2023))。例如,SpaBERT和MGeo在地理實體鏈接和查詢-POI匹配中對地理位置序列執行MLM。最近,相關研究集中在擴展地球科學中自回歸LLMs的解碼風格(類型2.A,例如,K2(Deng et al., 2024),OceanGPT(Bi et al., 2023b)和GeoGalactica(Lin et al., 2024b))。例如,K2和OceanGPT分別通過領域特定指令的監督微調,將LLaMA適應于地球科學和海洋科學。這些模型的評估在地球科學基準(例如,GeoBench(Deng et al., 2024)和OceanBench(Bi et al., 2023b))上進行,涵蓋廣泛的任務,包括問答、分類、知識探測、推理、摘要和生成。

**7.2 語言 + 圖

一些地球科學應用涉及圖信號,例如異構POI網絡和知識圖譜。為了共同處理這些信號和文本,ERNIE-GeoL(Huang et al., 2022)在基于BERT的架構中引入了一個基于Transformer的聚合層,以深度融合文本和POI信息;PK-Chat(Deng et al., 2023)結合LLM和指針生成網絡在知識圖譜上構建了一個知識驅動的對話系統。

**7.3 語言 + 視覺

航拍圖像與位置描述共同描繪了城市區域。為了共同處理語言和視覺模式,UrbanCLIP(Yan et al., 2024)考慮了CLIP架構(類型3.D),這也是生物醫學視覺語言模型廣泛采用的架構(參見6.3節),用于城市指標預測的文本-圖像對比學習。

**7.4 氣候時間序列

LLMs的直覺和方法論也促進了氣候基礎模型的構建。基于氣候時間序列的ERA5(Hersbach et al., 2020)和CMIP6(Eyring et al., 2016)數據集,以前的研究利用ViT和Swin Transformer架構預訓練天氣預報的基礎模型。代表模型包括FourCastNet(Pathak et al., 2022)、Pangu-Weather(Bi et al., 2023a)等。

**7.5 在科學發現中的應用

在地理學中,Wang et al.(2023b)和Zhou et al.(2024)強調了LLMs在可持續性、生活、經濟、災害和環境視角下城市規劃中的潛力。在地質學中,除了氣候和天氣預報外,基礎模型還應用于同時地震檢測和相位挑選(Mousavi et al., 2020)。在環境科學中,ChatClimate(Vaghefi et al., 2023)通過提供對氣候變化外部、科學準確知識的訪問,增強了GPT-4,以構建氣候科學對話AI。

8 挑戰與未來方向

在本綜述中,我們匯編了有關科學LLMs預訓練數據、架構和任務的文獻,以及科學LLMs如何應用于科學發現的下游應用。特別地,我們強調了在不同領域和模式中科學LLMs演變過程中觀察到的類似架構、任務和趨勢。除了回顧先前的研究外,我們提出了一些挑戰,以激發對這一主題的進一步探索。

**深入細化主題

大多數現有的科學LLMs針對的是一個粗粒度的領域(例如化學),而一些任務依賴于細粒度主題的高度專業知識(例如鈴木耦合)。當LLMs在更通用的語料庫上進行預訓練時,頻繁出現的信號可能主導模型參數空間,而領域特定的尾部知識可能被忽略。我們認為,自動策劃深入的、主題集中的知識圖譜(Hope et al., 2021)并用它們來指導生成過程將是解決這一問題的有前景的方向。

**泛化到分布外的科學數據

在科學領域,測試分布與訓練分布的變化是常見的(Zhang et al., 2023f):新發表的論文中不斷出現新的科學概念;測試期間可能出現具有不同骨架的未知分子和具有不同肽鏈數量的未知蛋白質。處理這種分布外數據仍然是預訓練科學LLMs的挑戰。據我們所知,不變學習(Arjovsky et al., 2019)可以作為分布外分析的理論基礎,如何將其整合到LLM預訓練中值得探索。

**促進可信的預測

LLMs可能會生成聽起來合理但實際上不正確的輸出,這通常被稱為幻覺(Ji et al., 2023),在化學和生物醫學等高風險科學領域尤其危險。為了減輕這一問題,檢索增強生成(RAG)為LLMs提供了相關的、最新的和可信的信息。然而,以前在科學領域的RAG研究主要集中在檢索文本(Xiong et al., 2024)和知識(Jin et al., 2024),而科學數據是異構和多模式的。我們預計,跨模式RAG(例如,通過相關的化學物質和蛋白質指導文本生成)將提供額外的機會,進一步增強科學LLMs的可信性。

局限性

本綜述主要涵蓋了數學和自然科學領域的LLMs。我們知道LLMs也可以通過在代表性任務中取得顯著成績(Ziems et al., 2024)并作為社會模擬實驗的代理(Horton, 2023)顯著影響社會科學,但由于篇幅限制,我們將這些努力的綜述留作未來工作。此外,本文重點介紹了在科學數據上預訓練或通過領域特定知識增強以促進科學發現的LLMs。還有一些研究(Wang et al., 2023g;Guo et al., 2023)提出了新的科學問題基準數據集,但僅評估了通用LLMs的性能,我們未將這些工作包括在我們的綜述中。此外,根據本文的分類標準,一些LLMs可能屬于多個領域或模式類別。例如,BioMedGPT(Luo et al., 2023c)同時在生物學和化學數據上進行預訓練;GIT-Mol(Liu et al., 2024)同時考慮了語言、圖形和視覺模式。為了簡潔起見,我們僅在一個小節中介紹每個模型。

付費5元查看完整內容

大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。

自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。

傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。

當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。

當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。

關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。

圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。

RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。

盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。

付費5元查看完整內容

因果推斷在提高自然語言處理(NLP)模型的預測準確性、公平性、魯棒性和可解釋性方面顯示出潛力,它通過捕捉變量間的因果關系來實現這一點。生成式大型語言模型(LLMs)的出現顯著影響了各種NLP領域,特別是通過它們先進的推理能力。本綜述集中于從因果視角評估和改進LLMs,在以下幾個方面:理解和提升LLMs的推理能力,解決LLMs中的公平性和安全性問題,為LLMs提供解釋,以及處理多模態問題。同時,LLMs的強大推理能力反過來也可以通過幫助發現因果關系和估計因果效應來促進因果推斷領域的發展。本文探討了因果推斷框架與LLMs之間的相互作用,從兩個角度強調它們共同的潛力,以進一步發展更高級和更公平的人工智能系統。 //www.zhuanzhi.ai/paper/a6cd1586ee23edc1bc238d9cfa310439

近年來,大型語言模型(LLMs)在一系列關鍵任務中展現出了非凡的多功能性。LLM擅長的任務包括文案創作、用其獨特的風格和聲音增強原始句子、響應知識庫查詢、生成代碼、解決數學問題以及根據用戶需求執行分類或生成任務。此外,最近還擴展到了多模態變體,如大型視覺語言模型(LVLMs)或大型多模態語言模型,這些變體擴大了它們的輸入/輸出能力,以涵蓋各種模態。這種演變顯著提高了這些模型的潛力和應用范圍。 在本綜述中,我們主要關注基于變換器(Transformers)的大型語言模型(LLMs)。LLMs的能力根本上源于它們的推理能力,這決定了它們在理解、處理和提供各種查詢的解決方案方面的熟練程度,以及它們適應對社會有影響的領域的能力。因此,大量研究工作致力于測量和增強這些能力,范圍從評估LLMs的推理能力到審查它們的決策過程,并解決概念在不同模態間對齊以及減少幻覺等挑戰。此外,由于LLMs在數十億參數的基礎上訓練了大量人類知識,它們有時面臨在不同場景下適當優先級或淡化所學的挑戰。這可能導致領域偏移,即模型在與訓練集不同的數據上的性能下降,以及長尾偏差,即不常見的示例處理不夠有效。 在許多情況下,語言任務不僅需要基于數據中的模式預測或生成文本,還需要理解驅動這些模式的潛在因果機制。因果推斷在提高自然語言處理(NLP)模型的預測準確性、公平性、魯棒性和可解釋性方面顯示出了巨大的潛力。隨著生成式LLMs的出現,各個NLP領域發生了重大變革,吸引了越來越多的研究興趣,應用因果推斷來解決與LLM相關的挑戰并增強其功能。這種轉變也激勵了本綜述概述因果方法及其在LLMs中的實施,強調它們在豐富我們對語言模型的理解和應用中的作用。 同時,本綜述還旨在探索LLMs如何幫助因果推斷框架。因果推斷正式定義為一個智力學科,它考慮了允許研究者基于數據得出因果結論的假設、研究設計和估計策略。因果推斷有三個主要來源:潛在結果、圖表和結構方程,每個來源都有獨特的用途。潛在結果框架側重于通過統計推斷和治療比較來估計因果效應。圖形模型則擅長繪制因果路徑和可視化關系,節點代表變量,邊表示方向性影響。在本綜述中,我們主要討論Pearl對因果圖的公式化,它用有向無環圖(DAGs)形式化了表示隨機變量間條件獨立關系的因果圖形模型。 我們總結了LLMs如何在其兩個重要組成部分中幫助因果推斷,即因果關系發現和治療效果估計。確定變量間的因果關系是因果推斷框架的一個基本步驟,因為估計變量A對變量B的因果效應需要對與A和B相關的其他變量的因果關系進行因果假設。傳統上,研究人員依靠具有主題知識的專家為這些因果關系奠定基礎。因果發現方法為從觀察數據中發現因果圖提供了一種替代方法。LLMs已經展示了根據預訓練知識或給定文本確定這種因果關系的能力。它們也可以與因果發現方法結合,進一步提高結果的可靠性。估計治療效果是因果推斷的核心,但在許多情況下由于缺乏反事實數據而受阻。利用LLMs強大的反事實推理能力,研究人員開發了各種方法來生成高質量的反事實,以實現治療效果估計。 本綜述的結構如圖1所示。我們從第2節開始介紹大型語言模型的最新進展。然后我們在第3節提供了用于改進LLMs的因果推斷方法概述。在論文的前半部分,我們討論了這些方法在LLM社區的各種問題中的應用:第4.1節概述了因果方法用于衡量和改進LLM的推理能力,第4.2節和第4.3節關注公平性和安全性問題,而第4.4節介紹了因果推斷方法如何處理LLM的可解釋性。我們還在第4.5節討論了構建和開發多模態大型模型的擴展。最后,我們在第4.6節列出了從因果視角對LLMs進行評估和基準測試的現有工作。在綜述的后半部分,我們轉向LLMs如何擴展因果推斷的邊界。第5.1節解釋了因果推斷的當前假設、限制和瓶頸。第5.3節和第5.2節陳述了改進治療效果估計和因果發現的當前工作。我們在第6節突出了幾個未來方向。 LLMs可以顯著受益于因果推斷,因為它增強了它們理解和推理數據內因果關系的能力。在本節中,我們回顧LLMs如何從以下幾個角度受益于因果視角,包括理解和提升LLMs的推理能力(第4.1節)、解決LLMs中的公平性問題(第4.2節)和安全性問題(第4.3節)、用解釋補充LLMs(第4.4節)以及處理多模態問題(第4.5節)。然后我們在第4.6節中從這些角度組織基準數據集。 大型語言模型用于因果推斷

因果推斷作為解決LLMs挑戰的有力工具,重度依賴于世界知識。如前所述,因果推斷有三個主要來源:潛在結果框架、基于圖的因果方法和結構方程社區。潛在結果框架在很大程度上依賴于幾個假設,以促進對群體/個體之間治療效果的比較。應用潛在結果框架的最具挑戰性的方面之一在于確保這些假設在現實中成立。在本節中,我們首先審查這些假設,隨后說明現有文獻是如何放寬這些假設的。基于圖的因果方法和結構方程模型也需要對潛在的因果圖有一定水平的理解。例如,有向無環圖(DAGs)作為一個基本假設,許多結構方程模型假設一定程度的線性或者輸入分布遵循特定的概率分布。在我們的回顧中,我們還探索了現有方法如何驗證輸入數據中的分布,并在LLMs的幫助下擴展當前方法以容納更復雜的分布。 結論 在其核心,一個大型語言模型(LLM)就像一個龐大的知識庫。一個持續的挑戰是如何有效地提取和使用這些知識。改進LLM的關鍵在于增強它們理解因果關系的能力——本質上,理解事物之間是如何連接的。因果推理對于讓LLM更智能至關重要。從因果推斷的角度來看,我們發現了一個寶貴的框架,有助于提高LLM的效果。同時,作為人類知識的保管者,LLM甚至可以通過提供超越現有限制的廣泛專業知識,幫助克服因果推斷中的局限性,重新塑造我們在這一重要領域的理解,并為該領域帶來新的活力。 在這篇綜述中,我們提供了一個徹底的考察,探索了大型語言模型(LLM)與因果推斷交匯處的當前景觀。我們深入探討了因果推斷如何對LLM做出貢獻,增強了推理、公平性、安全性以及LLM的可解釋性等方面。此外,我們探索了LLM反過來如何拓寬因果推斷的視野。跨越這些類別,我們的綜述提供了深入的討論、比較和對審視方法的簡潔總結,提供了一個全面的研究現狀概覽。可用的基準數據集和這些方法的開源代碼也被列出。 對因果推斷和大型語言模型當前進展的考察服務于雙重目的。首先,它增強了我們對這兩個領域如何相互受益的理解。其次,它催生了新的問題,推動我們更接近于實現人工通用智能。此外,這一探索有潛力擴展到多個領域,并在現實世界場景中找到應用,展示了因果推斷與LLM之間協同作用的深遠影響。

付費5元查看完整內容

盡管大型語言模型(LLMs)的表現令人印象深刻,但由于在推理過程中需要大量的計算和內存資源,它們的廣泛應用面臨挑戰。最近在模型壓縮和系統級優化方法方面的進展旨在增強LLM的推理能力。本綜述提供了這些方法的概覽,強調了近期的發展。通過對LLaMA(/2)-7B的實驗,我們評估了各種壓縮技術,為高效部署LLM提供了實用的見解。在LLaMA(/2)-7B上的實證分析突出了這些方法的有效性。借鑒綜述洞察,我們識別了當前的局限性,并討論了提高LLM推理效率的潛在未來方向。我們在//github.com/nyunAI/Faster-LLM-Survey上發布了代碼庫,以復現本文中呈現的結果。

大型語言模型(LLMs)的出現,特別是通過如GPT [Brown et al., 2020]和LLaMa [Touvron et al., 2023a; Touvron et al., 2023b]系列等模型的顯著標志,為與語言相關的任務開啟了新的革命,這些任務范圍從文本理解和總結到語言翻譯和生成。這些通常由數十億參數組成的模型,在捕捉復雜模式、細節豐富的上下文和自然語言的語義表達方面展現出了卓越的性能。因此,它們已成為各種應用中不可或缺的工具,推動了人工智能、信息檢索和人機交互等多個領域的發展。 盡管LLMs的性能無與倫比,但它們廣泛應用受到了巨大的計算和內存需求的阻礙,這在資源受限的環境中部署它們時構成了挑戰。例如,加載一個LLaMa-70B模型需要140GB的VRAM,這還不包括模型推理所需的內存。對高效部署的需求促使近期研究開始關注模型壓縮以及特別為LLMs量身定制的系統級修改技術。這些早期工作已經識別出改進LLMs推理效率的潛在方法。然而,當前的改進往往伴隨著模型性能的顯著下降,需要確定新的研究方向來找到解決這一問題的理想解決方案。 最近的一項綜述研究提供了最新提出的LLM壓縮方法的簡明概覽,以及用于基準測試它們的評估指標和數據[Zhu et al., 2023]。然而,為了進一步推動研究前沿,朝著LLMs的實際推理改進方向努力,還缺少一項全面的研究。在本綜述論文中,我們探索旨在通過模型壓縮以及系統級優化使LLMs高效的現有方法。為了公平比較各種方法,我們提供了使用不同壓縮技術對LLaMa(/2)-7B應用的經驗觀察。我們的評估包括了提供實際優勢的方法,包括現有文獻中不同推理引擎提供的結構化剪枝、量化和系統級優化。我們分享從這些實驗中獲得的寶貴見解,以呈現高效LLMs的有用和實際理解。此外,我們還將與實驗相關的代碼和基準測試公開。我們還檢查了當前壓縮方法在通用深度學習以及特別為LLMs提出的方法中的困難,并討論了克服這些問題的潛在研究方向。 總的來說,本文的貢獻如下。

我們提供了模型壓縮領域的簡要概述,強調了對輕量化和加速LLMs領域作出顯著貢獻的基本方法。

作為模型壓縮的補充,系統級修改在加速LLM推理中發揮了重要作用,我們也討論了這些方法。

為了提供一個實踐視角,我們對在標準化設置下的LLMs的知名壓縮方法進行了實證分析。從中得到的洞察可以幫助根據部署環境做出有關選擇LLM壓縮方法的明智決定。

基于我們的綜述和實證分析得出的見解,我們系統地指出了現有的局限性,并提出了實現LLM推理最佳效率的可行途徑

付費5元查看完整內容

大型語言模型(LLMs)的出現代表了自然語言處理(NLP)領域的一個顯著突破,為文本理解和生成方面的顯著進展做出了貢獻。然而,在這些進展中,值得注意的是,LLMs在上下文長度外推方面常常面臨限制。理解并擴展LLMs的上下文長度對于提高它們在各種NLP應用中的性能至關重要。在這份調查報告中,我們深入探討了為什么它是重要的多方面因素以及卓越技術可能為NLP應用帶來的潛在變革。我們研究了與擴展上下文長度相關的固有挑戰,并對研究人員采用的現有策略進行了有組織的概述。此外,我們討論了評估上下文擴展技術的復雜性,并強調了研究人員在該領域面臨的未解之謎。此外,我們探討了研究社區是否就評估標準達成共識,并確定了需要進一步協商的領域。這份全面的調查旨在為研究人員提供有價值的資源,引導他們了解上下文長度擴展技術的細微之處,并促進對這一不斷發展領域未來進展的討論。

大型語言模型(LLMs)的成功案例隨處可見,隨著現代LLMs的出現,它們顯著推動了眾多自然語言處理(NLP)挑戰的發展,達到了前所未有的高度。科學努力的自然進展是朝著新的和具有挑戰性的領域前進。在雄心勃勃的倡議中,一個值得注意的努力是擴展LLMs的可理解性以包括非常長的上下文。OpenAI提出了128頁上下文可理解性的概念,而Anthropic最近提出了超過200頁的更長上下文。然而,這些商業發布和公告中存在顯著的科學嚴謹不足。在這個背景下,引發了幾個問題:(a) 有哪些應用需要理解如此擴展的上下文?(b) 當LLMs理解更長的上下文時,我們如何有效地衡量應用程序的改進性能?(c) 雖然注意力機制在NLP中得到了廣泛研究,但是否需要設計一種專門針對更長上下文的新型注意力形式?

采用旨在處理長上下文的高級技術有望重塑語言模型的格局。改進的長上下文管理方法可以提高模型性能,從而實現更準確和細致入微的語言理解。這些進步有望增強模型捕捉長距離依賴性的能力,從而提高其在各種語言任務中的整體有效性,如:(接下來列舉具體的任務)。

? 文檔摘要:改進長上下文處理有助于更加連貫和簡明地進行文檔摘要,捕捉擴展文本段落中的關鍵信息,并提高生成摘要的質量。全面理解整個文檔,同時識別關鍵詞和主題,需要熟練管理廣泛的上下文范圍。在這種情況下使用較短的窗口將限制生成能力,可能導致關鍵細節的忽視。此外,使用較長的上下文窗口有助于減少歧義,因為它妨礙了沒有對文檔的復雜性進行全面把握的情況下利用微妙信息。這反過來使LLM能夠以更高的洞察力和準確性進行摘要過程的導航。

? 問答系統:考慮長上下文的能力提高了模型對復雜的問答關系的理解,從而產生更準確和上下文相關的回答。此外,LLMs在處理問答任務方面表現出更高的熟練度,因為解決代詞的共指問題與上下文實體密切相關。此外,在面對多輪對話時,擴展上下文窗口在促進連續對話中話題一致性跟蹤方面發揮了關鍵作用。

? 語言翻譯:在更大文本段落中改進上下文保留增強了模型提供準確翻譯的能力,特別是在上下文微妙性起關鍵作用的情況下。多義詞匯在翻譯領域(Falkum和Vicente,2015)中構成了重要障礙,而擴展上下文窗口是在上下文中定位這種詞匯的明顯輔助。此外,在面對技術術語時,LLMs在擁有擴展的輸入范圍時表現出更高的效能,尤其是在容納特定領域上下文微妙性方面。

? 指代消解:高級處理長上下文有助于解決擴展文本跨度內對實體的引用,從而提高了指代消解的準確性。指代消解過程涉及建立代詞與其對應的先行詞之間的聯系。LLMs中上下文窗口的擴展有助于更全面地評估信息,因此通過包括遠程引用和上下文相關的詳細信息來協助精確的代詞解析。

? 對話型人工智能:通過長上下文模型促進對擴展對話的更好跟蹤和理解,可以在對話型人工智能系統中產生更具上下文適應性的回應。擴展上下文窗口在為LLMs定位幽默、諷刺或微妙表達在對話環境中的作用方面起到關鍵作用。這對于生成符合正在進行的對話中的語氣和風格微妙之處的回應至關重要。

盡管持續的研究工作,仍然缺乏一份全面的涵蓋了用于外推上下文長度的技術范圍的概述。此外,LLMs的不斷發展已經引入了用于外推上下文長度的創新方面,這給現有的擴展方法帶來了挑戰,并強調了需要全面、多樣化的外推方法的必要性。 本文標志著LLMs上下文長度擴展技術的第一次全面調查。如圖1所示,我們深入研究了在微調期間可以實現的上下文長度擴展的現有工作。隨后,我們探討了LLMs上下文長度外推的潛在未來挑戰。 當代技術 已經引入了多種方法來增強LLMs的上下文能力。為了進行系統分類和增強清晰度,我們提出了一個分類法,如圖1所示。該分類法劃分為兩個主要類別:插值和外推技術。插值包括從不同的來源或上下文中融合信息以提高預測精度。這種技術適用于混合來自不同文本段落或包含不同上下文長度的不同模型的信息。相反,外推涉及對觀察數據的范圍之外的值進行預測,旨在擴展模型的理解能力超出其規定的訓練上下文長度。然后,還有用于進一步分類的零樣本(Rashid等人,2021)和微調技術。分類法中的其他小節將在隨后的部分中討論。

位置技術

與絕對位置嵌入不同,相對位置嵌入是基于鍵(keys)和查詢(queries)之間的差異制定的(Shaw等人,2018)。相對位置嵌入的一種普遍變體在Transformer-XL中引入(Dai等人,2019b;Yang等人,2019)。計算鍵和查詢之間的注意力得分已經改變,以集成與相對位置對應的可訓練嵌入。與絕對位置嵌入相比,配備相對位置嵌入的Transformer展示了能夠推廣到超出訓練中遇到的長度的序列的能力,表現出了外推的熟練性(Press等人,2021b)。與位置編碼相關的一個重復約束是無法擴展到訓練期間觀察到的上下文窗口之外。已經進行了一些工作來克服這些限制。

外推在這次探索中,我們將其分類并深入探討了兩種主要策略:外推和插值。外推技術旨在擴展模型對超出其最初觀察到的長度的序列的理解,采用創新策略來捕捉在擴展范圍內的依賴關系。另一方面,插值技術集中于改進模型在觀察范圍內平滑擴展對上下文的理解能力,從而提高了在最初遇到的上下文長度內的序列性能。以下部分詳細介紹了每個類別內的技術,提供了有關應對LLMs上下文長度動態特性所采用的多種方法的見解。

插值在上下文長度外推的背景下,插值技術專注于對模型進行微調或優化,以有效處理在訓練期間遇到的上下文長度范圍內的序列。重點是改進模型平滑擴展其對觀察范圍內上下文的理解能力,從而提高其在最初遇到的上下文長度內序列的性能。這些技術有助于更加微妙和改進的上下文理解,確保模型在訓練期間接觸到的上下文長度內表現最佳。

總結而言,本文全面審查了擴展LLMs上下文長度的多種技術和方法。所提供的分類法將這些方法分為兩種廣泛的策略 - 外推和插值。外推技術旨在擴展模型處理超出其最初訓練上下文長度的序列的能力。這包括利用專門組件,如位置編碼、注意機制和記憶增強來實現即時泛化的零樣本方法。還探討了微調策略,以使模型適應在預訓練期間未遇到的更長上下文。插值技術專注于優化模型,以在觀察訓練長度內平滑擴展上下文理解。專門的注意機制和提示壓縮有助于高效處理長上下文。微調插值適應模型以在序列開始超過訓練長度時實現優雅過渡。本調查提供了有關技術的多樣性的見解,涵蓋提示工程、注意機制、位置編碼和記憶增強等領域。它突出了模型體系結構和訓練方法的創新,旨在解決上下文長度的限制。廣泛的經驗分析證實了這些多樣化技術在基準測試和下游任務上的有效性。通過提供結構化分類法和對現有文獻的綜述,本文有助于更清晰地理解LLMs上下文長度擴展領域的不斷演變。討論確定了有前景的研究方向,強調了繼續努力開發能夠處理廣泛上下文信息的模型的重要性。隨著對長篇文本生成和對大型語料庫進行推理的興趣不斷增加,改進的上下文處理將在未來幾年繼續是一個活躍的研究領域。

付費5元查看完整內容

大型語言模型(LLMs)已成為增強自然語言理解的轉型力量,代表了向人工通用智能邁出的重要步伐。LLMs的應用超越了傳統語言學邊界,包括了各個科學學科內發展的特殊語言系統。這一日益增長的興趣促成了科學LLMs的出現,這是一種專為促進科學發現而精心設計的新型子類。作為AI用于科學領域中的一個新興領域,科學LLMs值得全面探索。然而,目前缺乏一項系統的、最新的綜述來介紹它們。在本文中,我們努力系統地闡述“科學語言”的概念,同時提供對科學LLMs最新進展的詳盡回顧。鑒于科學學科的廣泛領域,我們的分析采用了聚焦的視角,專注于生物學和化學領域。這包括對LLMs在文本知識、小分子、大分子蛋白、基因組序列及其組合的深入考察,并從模型架構、能力、數據集和評估方面進行分析。最后,我們批判性地審視當前的挑戰,并指出與LLMs進展相關的有前途的研究方向。通過提供該領域技術發展的全面概述,這篇綜述旨在成為研究者在探索科學LLMs錯綜復雜的領域時的寶貴資源。

//www.zhuanzhi.ai/paper/1741b30343c8826898d7c39dafe9df20

人類通過感知和認知獲取對世界的知識,其中自然語言(即人類語言)是表達這種世界知識的典型媒介。從歷史上看,這種豐富的世界知識已通過自然語言表達、記錄和傳播。目前,大型語言模型(LLMs)成為處理自然語言和收集世界知識的前沿工具。通常,LLMs指的是基于Transformer架構的,具有數億(甚至數十億)可訓練參數的模型,它們在廣泛的文本語料庫上進行訓練[218]。典型的例子包括GPT-3 [32]、PaLM [47]、Galactica [233]、LLaMA [239]、ChatGLM [288]和百川2[14]。它們已展現出強大的理解自然語言和處理復雜任務(如文本生成)的能力,并在學術和工業領域引起了極大的興趣。LLMs的卓越表現讓人們希望它們可能會在我們當前的時代進化成為人工通用智能(AGI)。

除了自然語言,為了封裝更專業的科學知識,開發了一系列的科學語言,如圖1所示。這包括科研領域的文本表達、定義數學公式的數學語言、代表分子結構的化學語言(如SMILES),以及描述蛋白質或基因組的生物語言,詳細說明生物體的復雜構成。這些科學語言帶有它們獨特的詞匯,每個術語都有特定的含義,與自然語言完全不同。例如,英文中的字符“C”在蛋白質語言中代表氨基酸半胱氨酸[87],而在SMILES語言系統中,它代表一個碳原子[262]。此外,特定領域的專家制定語法規則來組織這些術語,使構建的句子具有精確的語義功能。例如,計算化學家創建語法規則以確保機器生成分子的準確性,使用的是SELFIES格式[128]。經過數十年的演變,科學語言已成為無價的工具,顯著加速了科學發現。由于科學語言與自然語言之間可能存在的語義和語法差異,現有的通用LLMs(如ChatGPT 1或GPT-4 [190])通常無法正確處理分子和蛋白質等科學數據[5]。正如著名的奧地利哲學家路德維希·維特根斯坦所指出的,“我的語言的極限意味著我的世界的極限。”[202] 通用LLMs的世界可能僅限于自然語言。

為了促進對科學語言的理解,研究人員設計了專門針對各種科學領域和學科的科學大型語言模型(Sci-LLMs)。例如,分子語言模型已被開發出來,將分子結構表示為一串原子和化學鍵[140]。這些模型有助于預測分子屬性[252]、設計新藥[298]、提出逆合成路線[215]。類似地,蛋白質語言模型基于氨基酸序列運作[30, 205]。它們用于預測3D蛋白質結構和功能[149]、改善現有蛋白質以提高適應性[187]、創造具有特定功能的新蛋白質[184]。作為AI-for-Science研究領域內的一個新興領域,許多Sci-LLMs已被提出,它們具有修改后的架構、學習方法、訓練語料庫、評估基準和標準。盡管它們取得了顯著成就,這些模型大多在各自的研究領域內被探索。目前尚缺乏一個全面的綜述,能夠統一這些語言建模的進展。

在這篇綜述中,我們旨在通過系統地回顧Sci-LLMs的技術進步來填補這一空白,同時密切參考通用LLMs。考慮到科學語言的廣泛范圍,我們將調查重點放在生物和化學語言上。具體而言,我們的審查涵蓋了分子語言、蛋白質語言和基因組語言。除了這些專門的科學語言外,我們也認識到教科書、專利和研究論文中蘊含的巨大科學知識,這些文獻都是用自然語言撰寫的。因此,我們探索了強調科學知識的文本LLMs,更重要的是,研究了包含各種類型科學語言的多模態LLMs。

在深入探討每種語言系統時,我們首先回顧了LLM的架構,并將它們分類為三類:僅編碼器、僅解碼器和編碼器-解碼器。然后,我們報告了模型的能力,并總結了Sci-LLMs可以執行的典型下游任務。在模型訓練和評估方面,我們收集了一系列常用的訓練語料庫和評估基準。最后,我們提出了科學語言建模的區分性和生成性任務的適當標準。

這項綜述受限于特定邊界。首先,我們關注科學語言,特別是化學和生物語言。我們排除了那些既沒有通用定義的詞匯表,也沒有語法結構的語言,如數學語言。其次,在討論文本LLMs時,我們的重點仍然是表達在自然語言中的化學和生物領域知識。這一選擇確保了與化學和生物學特定語言(如分子和蛋白質語言)的一致和連貫互動。第三,我們的技術探索主要局限于基于Transformer的語言模型。盡管圖神經網絡和擴散模型等替代神經架構在分子和蛋白質建模中廣泛應用,但我們沒有包括它們。圖2描述了這項綜述中Sci-LLMs的研究范圍。

這項綜述的獨特邊界使其不同于其他關于LLMs和分子、蛋白質和基因組計算建模的回顧。與主要集中在自然語言[281, 304]的那些不同,我們的重點更傾向于科學語言。與僅專注于分子[64, 269]、蛋白質[23, 105, 241, 246]或基因組數據[52]的綜述不同,我們旨在提供一個關于化學和生物研究的語言模型的全面視角。此外,我們深入探討了多模態LLMs,探索文本與分子/蛋白質/基因組語言之間的互動。據我們所知,這種微妙的探索在以前的綜述中尚未涵蓋。本綜述的貢獻可總結如下: ? 我們提供了一個關于科學領域內語言建模的全面回顧,包括文本、分子、蛋白質和基因組語言,強調領域特定知識。 ?我們提供了現有Sci-LLMs的詳細總結,涵蓋了模型架構、能力、訓練數據、評估基準和評估標準。我們還在圖3中展示了Sci-LLMs的演化樹。 ? 我們列舉了Sci-LLMs的可用資源,開源并在 ?** 據我們所知,這項綜述代表了第一個全面概述多模態Sci-LLMs的嘗試**,旨在探索各種科學語言之間的互動。 本綜述的其余部分組織如下:第2節介紹LLMs的背景并闡述相關概念。第3、4、5、6和7節分別介紹文本、分子、蛋白質、基因組和多模態LLMs。最后,在第8節中,我們分析了現有模型的局限性,指出潛在的研究方向,并總結本綜述。

**文本科學大型語言模型 **

在本節中,我們旨在探索和深入研究專門使用文本語料庫(即文本Sci-LLMs)訓練的科學大型語言模型,特別強調它們獲取化學和生物知識的能力。我們將簡要回顧現有的文本Sci-LLMs,并檢查它們的能力、所用數據集以及評估方法。本節的概覽如圖6所示。

**分子大型語言模型 **

大型語言模型在加速化學分子發現方面顯示出巨大潛力。在本節中,我們將回顧在分子語言(Mol-LLMs)中訓練的LLMs,包括它們的模型架構、能力、使用的數據集和評估標準的洞察。本節的概覽如圖8所示。

**蛋白質大型語言模型 **

在過去的幾年中,大型語言模型在蛋白質研究中變得越來越有影響力,提供了新穎的見解和能力,用于理解和操縱蛋白質。在本節中,我們提供了一個關于蛋白質的LLMs(稱為Prot-LLMs)的全面回顧,包括對它們的模型架構、使用的數據集、各種能力和相應評估標準的詳細討論。本節的概覽如圖9所示。

**基因組大型語言模型 **

在計算生物學領域,基因組數據顯示出與自然語言中觀察到的基于序列的信息的相似性,使得大型語言模型能夠用于分析基因組序列。在本節中,我們將回顧專為基因組語言(Gene-LLMs)量身定制的LLMs,包括對它們的模型架構、數據集和評估的洞察。本節的概覽如圖10所示。

多模態科學大型語言模型

多模態大型語言模型已成為一個突出的研究領域,利用強大的LLMs作為核心來處理多模態數據。這些模型具有將不同數據類型(如文本、圖像、音頻和其他形式的信息)結合起來的獨特能力,使得它們能夠在各個領域進行全面的探索和問題解決。這些多模態模型在生物和化學科學領域,特別是蛋白質、分子和基因組研究中,展現出有希望的前景。在本節中,我們探索了這些科學領域內多模態模型的最新進展(即MM-Sci-LLMs),強調它們的能力和利用的數據集。請注意,這項綜述專注于跨語言的多模態模型,涉及至少兩種來自不同領域的語言,例如文本和分子。因此,我們排除了MM-Sci-LLMs中的單語言多模態方法,如蛋白質序列和結構的聯合建模[228, 261, 302]。圖4展示了不同語言和模態的多樣形式,本節的概覽如圖11所示。

付費5元查看完整內容

這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。

**1 引言 **

在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。

2 概述

大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。

3 大型語言模型的解釋性

3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。

3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。

4 利用解釋性

在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。

4.1 模型編輯

盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。

4.2 增強模型能力

雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。

4.3 可控生成

盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。

5 評估

近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。

6 結論

在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。

付費5元查看完整內容

大模型如何落地?

在快速發展的人工智能(AI)領域中,生成型大型語言模型(LLMs)站在前沿,徹底改變了我們與數據的互動方式。然而,部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰,特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統(MLSys)研究的角度出發,應對高效LLM服務方法論的緊迫需求,站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析,涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解,為研究人員和實踐者提供寶貴的見解,幫助他們克服有效LLM部署的障礙,從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117

生成型大型語言模型(LLMs)已成為推動人工智能(AI)重大進展的驅動力,并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成,這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構,如GPT系列(Generative Pre-trained Transformer)[195]、LLaMA系列[247]以及其他最新的公開LLMs(例如,OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290])在這種范式轉變中發揮了關鍵作用,徹底改變了自然語言處理(NLP)任務的處理方式。除了NLP,這些模型還在更廣泛的應用領域中實現了轉型,包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197],展現了它們的多功能性和在各個行業的深遠影響。

然而,LLMs的空前成功也帶來了幾個挑戰,最值得注意的是,在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性,加上對廣泛計算資源的需求,已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂,阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。

這篇綜述旨在解決高效LLM服務的關鍵需求,并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍,所有這些都旨在優化大型語言模型的推理過程。

目標 這項綜述的主要目標是提供一個全面的概述,關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術,基于它們的底層方法,突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論,包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。

** 結構 本文的結構如下**:第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類,從兩個方面重新審視這些相關工作:算法創新(§ 3.1)和系統優化(§ 3.2)。之后,我們在第4節列出了一些代表性的LLM服務框架,并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后,在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向,以激發未來的研究。

分類法

目前提高LLM服務效率的努力大致可分為兩類,包括算法創新和系統優化,這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析,這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。

** 解碼算法**。在這一部分中,我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率。

非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出標記。為解決這一問題,一種代表性的工作方向是放棄自回歸生成范式,并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出,通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低,一些后續研究如半自回歸解碼[98],通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152],進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層,以并行預測多個未來位置,然后退回到基模型驗證的最長前綴。然而,這些方法需要昂貴地重建一個新的LLM以及新的依賴,或調整原始LLM的部分層,這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記,無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統,利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出,以總結這一方向的最新進展。到目前為止,由于不了解輸出標記之間的條件依賴性,盡管解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。

投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性,解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行,例如決定接下來生成哪個標記。已提出投機解碼[51, 155],首先以高效的方式(例如,使用較小的草稿模型,模型參數較少)進行多步解碼預測,并與LLM同時驗證這些預測。然而,將投機解碼應用于LLMs時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制(被[48, 118, 168, 185, 229, 236, 274, 310]直接采用),提出了一個低延遲LLM服務系統實現(§ 4)。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證,并且當預測出錯時,回退機制[145]生效。

提前退出。其他一些研究試圖利用現有LLMs的深層多層架構,并利用提前退出機制[243]加速解碼過程。直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量以攤銷總推理成本,即對更容易的推理請求采取較少的計算。廣泛來說,這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。

級聯推理。由于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型(即非生成型LLMs)進行了優化,但采取了類似的方法,結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說,級聯推理是提高推理效率的有希望的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。

架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。

配置縮小:為了減少LLM推理的計算成本,一種直接的方法是縮小模型配置,例如使用淺層編碼器[101, 183]或解碼器[137],權重共享和詞匯表縮減[225]。然而,減少模型參數的數量也會影響下游任務的性能。

注意力簡化:與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2),它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案,用于非常長的序列任務,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。

提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構,并利用提前退出[243]機制來加速解碼過程。其直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量,以攤銷總推理成本,即對更容易的推理請求采取較少的計算。然而,由于這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。

級聯推理。鑒于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢,CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型(即非生成型LLMs)進行了優化,但采用了類似的方法,將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務,以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言,級聯推理是提高推理效率的一個有前景的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。

架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。 * 注意力簡化:自注意力計算的一個突出挑戰是計算復雜度O(??^2),隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。

模型壓縮。在這里,我們深入探討了模型壓縮技術,旨在通過創建更高效、更緊湊的模型,減少LLMs的內存占用和計算需求,同時不會對性能造成顯著損失。

知識蒸餾:一種方法是知識蒸餾,它訓練一個小型的學生模型,以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于API的LLM服務(例如,ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注,例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數,但與原始LLMs(例如,GPT-4[195])相比,在各種下游任務上表現出了有前景的性能。

網絡剪枝:過去幾年中,網絡剪枝方法[180, 215, 215]已被廣泛研究,但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面,這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs,刪除整個結構化LLM組件,促進GPU加速。例如,Deja Vu[172]在不修改預訓練模型的情況下,根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276],通常實現LLM壓縮的50-60%稀疏性。值得注意的是,它們可以進一步概括為半結構化N:M稀疏性(即2:4和4:8)[182],通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問,并提出了一個GPU-CPU混合推理引擎,讓GPU和CPU處理不同的神經元。

系統優化本節研究LLM推理系統優化技術,以加速LLM推理,而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架,提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術,這些技術能夠高效地表示模型權重和激活。通過使用更少的比特(即少于32比特)來表示數值,這些方法顯著減少了內存消耗,并加速了硬件平臺上的推理。一種方法是量化LLM,這些量化方法大致可以分為兩個方向:量化感知訓練(QAT)和訓練后量化(PTQ)[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4,通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率,例如W8A16(即INT8僅權重量化和FP16或BF16激活),GPTQ中的W4A16[88],SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是,NVIDIA的最新架構,如Turing和Ampere已經包含了INT8和INT4張量核心,最新的Hopper架構雖然取消了INT4支持,但引入了FP8張量核心以獲得更好的數值精度(例如,H100 GPU的FP8與FP32相比可達60倍TFLOPS)。現有方法通常采用各種量化函數,包括均勻方法(即最近舍入)和非均勻方法[143]。為了緩解低精度帶來的性能損失,QAT在模型訓練期間集成了量化[70, 171]。值得注意的是,由于底層系統實現的挑戰,低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求,但也有研究表明,量化方法由于存在比例定律,可能對模型的推理性能產生顯著影響[72]。此外,量化還被應用于上下文壓縮(例如,CacheGen[169])和內存高效微調(例如,QLoRA[70],PEQA[142]),結果導致LLM推理的內存消耗降低。

并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力,這些方法將計算分布在多個核心或設備上,從而在推理期間顯著加速。

內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一,特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長,與模型權重和其他激活所需工作空間相比,KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小,簡單的方法(例如,FasterTransformer)是預先分配一塊連續的內存,假設最大序列長度。這對于1)請求長度不同的輸入批次和2)并行生成多個輸出序列的復雜解碼場景(例如,波束搜索、并行解碼)來說,嚴重浪費了內存。vLLM[150]提出了分頁注意力,將KV緩存劃分為非連續的內存塊,顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷,以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制,進一步減少了內存使用。然而,這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下,這些細粒度內存管理方法可能只提供邊際吞吐量收益,同時大幅增加了推理延遲。顯然,LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好,但它們可能相互抵消,導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。

請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標(SLO)內的響應時間,并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處,因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而,由于其獨特的特性,如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理,LLM服務也帶來了獨特的挑戰。

早期的LLM服務系統(例如,NVIDIA Triton上的FasterTransformer)僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度,它在迭代粒度上調度引擎執行,并以先來先服務(FCFS)的順序,使得選定的操作集批處理,以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略,例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外,SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證,擴展到了投機解碼。FastServe[261]關注作業完成時間(JCT),涉及迭代級搶占,以優先處理輸入長度較短的請求,而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算,它將輸入提示劃分為均勻塊,并在可能的情況下,將塊插槽與其他請求的解碼迭代結合起來,這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器,并幫助在GPU內存限制內安排更多并發請求,以實現更大的批量大小和更高的推理吞吐量。

內核優化。在本小節中,我們深入探討了針對特定操作的內核級優化,這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。

軟件框架

生成型LLM服務需要一系列優化,許多最新工作已經開始開發軟件框架,以提供高效的LLM推理部署服務。下面,我們將重新審視這些系統,并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析,如表2所示。這些分析不包括一些流行的相關項目,包括1) 專門針對其他硬件的解決方案(例如,PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14])和2) 構建在其他系統之上的部署解決方案,如OpenLLM[26](vLLM)、xinference[30](ggml + vLLM + xFormers)、LMDeploy[20](FasterTransformer)、gpt-fast[15](PyTorch)、DeepSpeed-MII和DeepSpeed-FastGen[11](DeepSpeed-Inference)以及RayLLM和RayServe[27](vLLM)。

我們比較了這些最先進的LLM服務系統,并在幾個方面總結了它們的差異。首先,大多數系統支持張量并行性,以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載,以分別支持多節點或資源受限環境下的推理。其次,部分系統從Orca學習,并實現了迭代級調度。第三,我們調查了這些系統的注意力內核,并分別介紹了它們在初始和增量階段的實現。對于初始階段,它們通常采用批量通用矩陣乘法(GEMM)方法(例如,cuBLAS、torch、Relay),有些利用在線softmax技巧減少HBM訪問(例如,Flash-attention、xFormers)。增量階段更具挑戰性,因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率,FasterTransformer手動融合了注意力計算(例如,線性投影、位置偏差、點積、softmax等)到一個高性能的內核模板中,并涉及多種內核優化技術,例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加(HMMA)以及多精度支持。FlexFlow-Serve啟用了投機解碼,并提供了一個基于樹的并行解碼內核,以零內存冗余和最大線程并行性驗證來自多個序列(即來自多個小型模型或不同波束或并行采樣)的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力(MHA)內核,通過將KV緩存分割成頁面來消除冗余內存使用,特別適用于并行采樣場景。LightLLM采用后續方法,將KV緩存劃分為更細粒度的標記級片段。

值得注意的是,上述討論并未涵蓋其他一些值得注意的方面。例如,即使對于最受歡迎的Flash和Paged注意力內核,它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫,LightLLM采用了OpenAI Triton實現的內核,MLC-LLM通過TVM生成內核,TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段,TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外,對于線性投影運算符,最近有一種趨勢是用通用矩陣-向量乘積(GEMV)替換GEMM,以更有效地處理小批量大小(即1)的情況。這些系統還具有許多其他不同的特性,如編程語言(即C++、Python)、低精度支持(即FP16、INT8)、支持的硬件和模型。總之,這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如,vLLM提出分頁注意力以提高批量大小,從而實現更高的吞吐量(??????),而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲(??????)。基本上,低延遲和高吞吐量是LLM服務系統的雙重優化目標,代表了互補但往往相互沖突的目標,需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度,其中TTFT代表首個標記的時間,TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動,而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益,導致不同的系統設計選擇和用戶體驗(例如,更快的應用響應性[169],更長的提示[9])。此外,降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案,但我們相信未來的LLM服務系統將繼續整合這些不同的特性,從而不斷提高系統效率和硬件利用率。

結論

高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解,使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果,本文希望加速進步,并在追求高效LLM服務解決方案的過程中促進創新。

付費5元查看完整內容
北京阿比特科技有限公司