本論文評估了大語言模型(LLMs)在不同模型規模和架構下的多語言事件提取能力,以探索使用生成模型進行多語言事件提取的可行性。論文使用了一個由翻譯成 18 種語言的抗議事件文章合成生成的數據集,評估了來自四個不同系列(Phi-3、Qwen 2.5、Gemma 2 和 Mistral)的 12 個模型在三個規模層級上的表現。研究采用了一種生成式提取方法,在所有模型中使用單一提示,從描述抗議事件的新聞文章中提取四個關鍵部分:參與者、目標、地點和日期。該研究使用相同的方法將事件分為五類:暴亂、示威、阻撓、罷工或抵制。結果表明,較大的模型都能實現一致的多語言性能,其中 Gemma 2 和 Qwen 2.5 表現尤為出色。性能模式表明,不同領域的提取難度存在系統性差異,結構化信息(日期、地點)和分類(類型)比語義元素(行為者、目標)更容易處理。這項研究有助于了解 LLMs 在信息提取和分類方面的多語言能力,對分析大量多語言新聞源(如開源情報、信息環境中的行動或政治事件分析)具有重要意義。
隨著軍事和情報機構在處理大量多語言信息方面面臨越來越多的挑戰,自動提取和分類跨語言事件的能力對于態勢感知和決策變得至關重要。本論文評估了生成式大語言模型(LLMs)從新聞源中提取信息的多語言能力,以探索使用生成式模型進行多語言政治事件提取的可行性。
該研究僅限于抗議事件,抗議事件是政治事件的一個子集,通常包含旨在政治變革的集體行動,有時可能是政治動亂或沖突的前兆。這項研究既有助于從理論上理解 LLM 的能力,也有助于多語言信息提取系統的實際應用,可直接應用于信息環境中的行動(OIE)、軍事情報和全球局勢監測。研究結果表明,即使是相對較小的、開放式的模型也能有效處理多語言信息,從而有可能在不久的將來改變軍事組織管理各級外語情報的方式。
本研究評估了四個模型系列(Gemma2、Qwen 2.5、Mistral 和 Phi-3)和三個規模層級的 12 個開放式 LLMs 在 19 種語言中提取關鍵事件信息(行為者、目標、地點、日期)和對抗議事件類型(暴亂、示威、阻撓、罷工或抵制)進行分類的能力。我們設計了一個新穎的評估框架,使用合成新聞文章作為基本事實,并通過語義相似性和精確匹配等各種指標來衡量提取的準確性。
主要研究結果表明,與原始參數數量相比,模型架構和預訓練方法對多語種性能的影響可能更大。較小的、專門設計的模型在不同語言中的表現可以與較大的模型相媲美,甚至超過后者。結構化信息(日期、地點、事件類型)的提取比語義信息(參與者、目標)更準確,這表明定義明確的提取任務在實際應用中更可靠。
通過成功改進現有的抗議活動數據集,還展示了一項實際應用。通過基于 LLM 的分類,數據集的質量得到了顯著提高,正確分類抗議事件的比例從 39% 提高到 66%。這一改進證明了 LLM 在政治事件分析應用中提高數據質量的直接實用性。
研究結果與情報和信息部隊特別相關。例如,在監測整個中東地區的抗議運動時,情報分析師可以使用 LLMs 同時快速處理阿拉伯語、波斯語和希伯來語新聞來源,對結構化信息的提取具有很高的信心,同時對更細微的行為者分析保持人工監督。
研究結果還表明,LLMs 可以衡量所使用的信息部隊能力的有效性,從而為 OIE 做出貢獻。在動用信息部隊應對地區動亂時,部隊可利用這些模型快速處理當地語言媒體,跟蹤信息環境如何隨其行動而變化。例如,在抗議活動期間反擊對手的言論時,OIE 單位可以監控多種語言的報道,以發現當地媒體如何描述事件的變化。這種近乎實時的反饋使各單位能夠評估行動效果,調整 OIE 戰略,并驗證其行動是否達到預期效果。
1.軍隊應探索在 OIE 中使用 LLMs 進行作戰決策,特別是快速處理多語言信息來源
2.為支持這一努力,應開發 LLM 評估的穩健方法
3.小型、高性能模型有利于本地部署,因此應優先考慮
4.結構化信息提取和分類顯示出最高的可靠性,因此最初應將工作重點放在此類任務上。
本文探討了如何利用遷移學習和合成數據來提高卷積神經網絡(CNN)在海上船只探測方面的性能,重點是自主無人水面航行器(USV)。所面臨的挑戰是標注夜間數據的可用性有限,而夜間數據對于在低能見度條件下檢測船只至關重要。該模型最初是在真實世界的數據上進行訓練,以探測 Mokai USV 和其他船只。然后使用合成的日間數據進行遷移學習,使數據集多樣化,包含更多的船只類型和條件。此外,還對 Sionyx NightWave 攝像機的圖像進行了直方圖均衡化處理,使模型能夠在夜間進行檢測,而無需大量真實世界的標注夜間數據。在真實世界、合成日間和合成夜間數據集上,使用平均精度 (AP)、召回率和漏檢率指標對模型的性能進行了評估。雖然該模型在日間條件下表現良好,但在夜間檢測時性能卻有所下降,尤其是對于較小的物體。這些結果凸顯了領域適應性的挑戰,同時也證明了合成數據和遷移學習在解決海洋環境中標記數據稀缺問題方面的潛力。這種方法為改進 USV 在各種條件下的自主操作提供了一種經濟有效的解決方案。
美國海軍部(DON)的《2021 年智能自主系統(IAS)科技戰略》強調,在復雜和不可預測的海洋環境中,越來越依賴自主平臺來增強作戰能力[1]。正如該戰略所概述的那樣,海軍正越來越多地集成像無人水面航行器(USV)這樣的智能自主系統,以執行從監視和偵察到后勤和威脅探測等各種任務[1]。該領域的一個關鍵挑戰是確保這些無人系統(UxS)能夠在各種環境條件下有效運行,包括夜間行動等低能見度場景以及雨、霧等惡劣天氣條件。在這種條件下,可靠的目標探測和分類對于任務的成功至關重要,因為 USV 的運行需要最少的人工干預。
然而,由于標注的夜間數據稀缺以及現實世界數據集的限制,傳統的目標檢測模型在夜間環境中往往難以發揮良好的性能。這一不足阻礙了海軍在需要在不利照明條件下進行精確探測的行動中部署 USV 的能力。海軍部的戰略強調需要先進的機器學習(ML)和人工智能(AI)技術,以適應各種環境挑戰,確保自主平臺在任何條件下都能保持高水平的態勢感知能力。
此外,部署配備紅外(IR)攝像機等先進傳感器技術的 USV 的成本效益和操作靈活性也是重要的考慮因素。雖然紅外攝像機可提高低光照條件下的可視性,但其成本往往較高,而且需要專門的培訓。相比之下,在可行的情況下,利用日光下訓練的模型進行夜間應用可能會節省成本并提高運行效率,因為與紅外標記的數據集相比,日光標記的數據集更為豐富。
這項工作的動機源于海軍部實現自主系統現代化、減少人類工作量和提高運行效率的目標[1]。隨著海軍繼續將 UxS 集成到其艦隊中,開發先進、彈性和適應性強的目標檢測模型的能力將在確保自主海上行動在所有照明和天氣條件下取得成功方面發揮至關重要的作用,從而為海軍部在 IAS 領域的技術優勢做出貢獻。
開發用于海上目標檢測的 CNN: 創建專門用于檢測海洋環境中船只的 CNN 是一項關鍵技術貢獻。該模型可以區分幾種類型的船只,包括 Mokai USV 和其他水面艦艇,為 USV 在實際海軍行動中的自主性提供了實用的解決方案。
利用合成數據進行遷移學習: 本論文展示了合成數據的使用,以克服標注圖像稀缺的問題,這是在此類環境中訓練模型的常見限制。通過使用合成日間數據訓練 CNN,然后將遷移學習技術應用于夜間條件,該研究為在沒有大量真實世界標記數據的情況下提高模型性能做出了新的貢獻。
利用直方圖均衡化創新領域適應性: 應用直方圖均衡化技術來增強 Sionyx NightWave 攝像機的圖像,并隨后在合成夜間數據上進行遷移學習,是一項顯著的方法創新。通過利用圖像處理技術和遷移學習,這種方法有助于改進低照度場景下的物體檢測,為更廣泛的領域適應性研究領域做出了貢獻。
摘要—基于大規模預訓練基礎模型(PFMs)的生成性人工智能(AI)系統,如視覺-語言模型、大型語言模型(LLMs)、擴散模型和視覺-語言-行動(VLA)模型,已經展示了在廣泛領域和情境中解決復雜且真正非平凡的AI問題的能力。特別是,多模態大型語言模型(MLLMs)通過從大量且多樣的數據源中學習,能夠提供豐富且細致的世界表示,從而具備廣泛的能力,包括推理、進行有意義的對話、與人類及其他代理共同協作解決復雜問題,并理解人類的社會和情感方面。盡管取得了這一令人印象深刻的成就,但基于大規模數據集訓練的最先進LLMs的認知能力仍然表面化且脆弱。因此,通用LLMs在其通才能力方面存在嚴重限制。要使LLMs實現人類級別的通用智能,需要解決一些基礎性問題——具身性、符號基礎、因果性和記憶機制。這些概念更符合人類認知,并為LLMs提供了固有的人類認知特性,從而支持實現具有物理可行性、語義意義、靈活性和更強泛化能力的知識和智能。在本研究中,我們討論了上述基礎性問題,并綜述了實現這些概念的最先進方法。具體而言,我們討論了如何利用具身性、符號基礎、因果性和記憶的原則,以有機的方式促進人工通用智能(AGI)的實現。
關鍵詞—大型語言模型、具身性、符號基礎、因果推理、記憶機制、人工通用智能。
智能與一個系統(無論是生物系統還是其他類型的系統)在特定環境(或多個環境)中實現一個或多個預期目標的能力相關。一個智能系統能夠推斷自身的狀態以及環境的狀態,并能夠將這些推斷轉化為適當的響應,從而實現預期目標。智能是高級生物體的獨特特征,在開發其人工對應物——人工智能的過程中,研究人員常常借鑒生物學的概念。生物智能的一個重要特征是其普遍性,即它能夠處理廣泛不同的問題,適應多種環境。尤其是人類的智能,其復雜性、豐富性和多樣性令人驚嘆,能夠輕松處理許多新穎的任務。人類智能相較于其他高級動物的普遍優越性,主要源于人類通過社會和文化構建(如藝術、規范、儀式、信仰體系和習俗)來組織和傳遞知識的能力 [1]。語言在這些過程中起著至關重要的作用。 盡管創造這種類型的通用智能的想法具有吸引力,但在機器中實現如此高度的復雜性和普適性是極其具有挑戰性的。直到最近,取得顯著成果的AI技術往往集中于特定領域或受限領域,解決單一問題(如面部識別、醫學圖像分割、文本翻譯、股市預測、行人跟蹤等)。近來,基于變分自編碼器(VAE) [2] 和生成對抗網絡(GAN) [3] 的生成式AI技術在革命化AI能力方面作出了巨大貢獻,使得單一模型能夠同時處理多種復雜任務 [4]。更近期的進展是,大規模預訓練基礎模型的出現,如大型語言模型(LLMs) [5]、擴散模型(DMs) [6]、視覺-語言模型(VLMs) [7] 和視覺-語言-行動(VLA)模型 [8],為復制人工智能中的通用性特征帶來了現實的前景。由于它們能夠處理廣泛的開放領域問題 [9],[10],[11],[12],尤其是多模態大型語言模型,大規模預訓練基礎模型重新激發了對發展人工通用智能的興趣 [10]。本文的主要目的是介紹支撐人工通用智能實現的認知基本原理,并綜述在大型語言模型中實現這些概念的最先進技術。
1.2.1 語言作為知識獲取、表示和組織的媒介 研究表明,使用自然語言進行交流是學習現實世界通用知識最有效的方式之一 [13],雖然人類的感官和運動能力通常不優于其他高級動物(包括靈長類動物)(見 [14],[15],[16],[17],[18],[19],[20]),但人類的認知能力遠遠超越其他動物。人類認知能力優于其他動物王國成員,尤其是與人類最親近的靈長類動物,這主要歸因于人類使用語言的能力 [21],[22],[23]。 語言在人體內的抽象概念表示、解釋和推理中發揮著核心作用 [24]。在人的社會中,語言最重要的功能之一是促進新知識的獲取與共享。通過語言——無論是文學、演講還是藝術——人類能夠輕松從他人處學習,不僅通過觀察或與世界的互動,還能獲取其他人積累的知識。此外,語言為表示和內化知識提供了概念框架 [22]。研究表明,一個群體所使用的特定語言結構和詞匯會影響他們對世界的推理和解釋。實際上,語言差異(例如詞匯差異)已被證明影響不同語言群體成員如何記住和描述他們的經歷 [25],[26],[27],[28]。在這方面,語言可以塑造或重塑認知 [29],從而影響主體如何理解和與世界互動 [30],[31]。1.2.2 語言作為認知信息處理工具
除了創建抽象表示來組織感知信息和知識的表示外,語言在促進認知計算操作中起著根本作用 [24]。Lupyan [31] 認為,基本語言元素(如詞語)為其他認知成分提供了構建意義的線索。因此,語言不僅僅是一個用于指代現實世界物體、現象和經驗的靜態符號集合,它還是一個操作這些符號的工具。Clark [24] 專門描述了語言在促進人類認知信息處理和推理中的六種不同方式。研究表明,語言不僅有助于晶化智能(即與表示相關的認知機制),如經驗/刺激的分類 [26] 和記憶 [25],[28],還促進流動智能(即分析性問題解決技能),如感知 [32],[33],[34] 和推理 [24],[31]。此外,接觸多種語言框架已被證明能夠拓寬個體的視野,并幫助他們以更細致的方式理解概念。由于其在生物學認知能力中的中心地位,語言被多次描述為“認知接口” [21]、“智能放大器” [35],并且人類認知本身也被描述為“語言增強的認知” [31]。
雖然文獻中對人工通用智能(AGI)有不同的解釋 [9],[36],[37],[38],[39],[40],但這一概念通常理解為具有廣泛智力能力的AI系統,能夠執行高級認知任務,如感知——包括情境理解和一定程度的自我意識 [41],[42],推理、規劃,以及在新情境下應用學習到的知識。AGI系統是能夠在多個領域成功完成復雜和多樣化的認知任務的強大模型,無需額外訓練。術語“人類水平的智能” [37],[43],[44] 經常被松散地用來指代展示通用智能的AI系統。AGI不應理解為超級全知和全能的機器。這種假設級別的能力被稱為人工超智能 [45],[46]。實際的AGI系統是具備有限但足夠強大且靈活的知識系統,能夠解決涉及傳感-運動控制、感知、情境理解、常識和分析推理能力的廣泛問題。對人工通用智能的這種理解,實際上反映了不僅在嵌入或學習所有相關知識和技能時的實際困難,也反映了這種方法的性能限制。此外,將人工通用智能概念化為有限范圍但適應性強、靈活且可擴展,與生物智能在高級生物體(如人類)中的性質和特性是一致的。盡管文獻中有各種定義,但幾乎對AGI的一些定義特征達成了一致。具體而言,典型AGI系統的最重要特征是(參見例如 [9],[36],[43],[47],[48]):它能夠學習并靈活應用有限且不確定的知識,解決不同情境下的廣泛問題;它的學習和行動是自主且目標驅動的;它能在記憶中保留并積累相關信息,并在未來任務中重新使用這些知識;它能夠理解情境并執行高級認知任務,如抽象和常識推理。 需要強調的是,AGI本質上與強AI(參見 [49],[50],[51])不同。AGI的重點是開發具有廣泛認知能力、能夠解決真正非平凡問題的智能系統,而強AI旨在創造極其強大的智能,不僅在功能層面模仿人類的認知能力,還具有如內在心理狀態和主觀經驗(包括意圖性、道德、情感和自我意識等) [52],[53],在意識和感知方面具有真實的人類認知特征。對此感興趣的讀者可以參考 [54],[55],[56],[57],[58],以獲得關于強AI概念的更詳細討論,包括意識 [54],[56],[57],意識 [55],[57],[59] 和AI系統的道德問題 [60],[61]。
在這項工作中,我們詳細討論了實現通用智能的核心原理。我們還討論了在人工智能和LLM系統中實現這些概念的各種方法。這里討論的概念不是實現AGI的算法解決方案,而是生物智能的一般原理和特性,這些原理和特性必須嵌入到基于大型語言模型的AI系統中 事實上,這些核心概念本質上是與算法無關的,即它們的實現并不局限于任何特定的技術或一組方法。然而,需要注意的是,特定的認知功能(如感知、推理、規劃、行動等)可以通過這些通用概念和原理得到增強。本文的其余部分安排如下: 在第2節,我們概述了大型語言模型(LLM)的關鍵要素,這些要素使其具有強大的能力,并能夠解決需要人類水平通用智能的復雜問題。 第3至第6節討論了實現通用智能所需的重要基礎性原則,包括具身性(第3節)、符號基礎(第4節)、因果性(第5節)和記憶機制(第6節)。 在第7節,我們探討了這些認知原則之間的相互關系和交互作用,并基于這些相互作用合成了一個整體的認知模型。 最后,在第8節中,我們對所討論的概念進行了總結,并在第9節給出了結論。
本文報告了一項正在進行的調查,該調查比較了大型語言模型(LLM)在為現實的紅隊代理生成滲透測試腳本方面的性能。目標是在自動化網絡操作環境中開發人類級別的對手(紅隊代理),并通過儀器訓練藍隊代理團隊。定義了五種方法,用于構建生成 Metasploit 腳本的提示,以利用常見漏洞暴露(CVE)中描述的漏洞。使用三種 LLM(即 GPT-4o、WhiteRabbitNeo 和 Mistral-7b)對這些方法進行了測試。GPT-4o 被用作比較研究的基線。結果表明,GPT-4o 在所有實驗中都優于其他 LLM。不過,結果還表明,由于參數數量較少,Mistral-7b 可以進行微調,以達到可接受的性能,同時在執行過程中消耗更少的計算和內存資源: Mistral-7b 的參數數量為 70 億個,而 GPT-4o 的參數數量為 1.76 萬億個。
索引詞條-大型語言模型、滲透測試、自主攻擊代理、聯盟網絡
最近的文獻表明,大型語言模型(LLMs)可以自動執行人類級別的滲透測試任務,并且性能良好[1]-[4]。這些 ndings 促使本研究使用 LLMs 創建可自動執行網絡攻擊的真實紅隊代理。我們的目標是將紅隊代理部署到自動網絡操作 (ACO) 健身房中,以訓練強大的藍隊代理,讓它們以團隊的形式保衛軍事聯盟網絡 [5]-[7]。我們首先假設,可以使用 LLM 生成滲透測試腳本,利用 Metasploit 模塊[8]利用常見漏洞和暴露(CVE)中描述的已知漏洞。
然而,帶有大量參數的 LLMs 需要大量的處理能力和內存,從而增加了運行成本和對環境的影響。對較小的 LLM 進行微調可以為特定任務實現類似的性能,從而降低 財務成本和環境影響。微調和量化方法的最新進展徹底改變了 LLM 的性能和功能,使更大的模型也能在消費級個人電腦圖形處理器(GPU)上訓練和高效運行。
因此,本文定義了一種對生成 Metasploit 腳本的 LLM 進行比較評估的方法。我們選擇了三種參數數量不同的 LLM,即 GPT-4o(封閉源代碼,超過一萬億個參數)、WhiteRabbitNeo(330 億個參數)和 Mistral-7b(70 億個參數)。GPT-4o 是比較的基準,因為它是本次調查時的前沿模型[9]、[10]。WhiteRabbitNeo 是專為網絡安全領域定制的 LLama-33B 微調版本,可通過其專門網站使用 [11],[12]。最后,2023 年 9 月發布的模型 Mistral-7b [13] 是本次比較的低端基線。盡管 Mistral-7b 的尺寸較小,但它在自然語言理解和生成任務中的強勁性能卻備受關注[14]。特別是,由于采用了參數效率高的技術(如低秩自適應(Low-Rank Adaptation,LoRA)[15]),Mistral-7b 易于微調,因此開發人員可以使用消費級 GPU 高效地調整 Mistral-7b。簡而言之,本文的主要貢獻在于
簡而言之,本文的主要貢獻是
本文其余部分安排如下。第二節討論了也使用微調 LLMs 進行自主網絡防御/反擊的相關研究,以及本次調查的動機。第三節介紹了生成 Metasploit 腳本的實驗,并討論了紅隊代理架構的主要功能模塊,以及用于評估的人工在環管道。第四部分討論了在五種不同提示方法下使用三種不同 LLM 觀察到的定量結果。最后,第五節總結了本文并列舉了未來的工作。
近年來,大型語言模型(LLM)的突破性進展提供了前所未有的自然語言理解和生成能力。然而,現有關于生物醫學領域LLM的綜述通常側重于特定應用或模型架構,缺乏對跨越多個生物醫學領域的最新進展的綜合分析。本綜述基于對來自PubMed、Web of Science和arXiv等數據庫的484篇文獻的分析,深入探討了LLM在生物醫學中的現狀、應用、挑戰及未來前景,其獨特之處在于關注這些模型在實際生物醫學環境中的應用效果。
首先,我們探討了LLM在廣泛的生物醫學任務中的零樣本學習能力,包括診斷輔助、藥物發現和個性化醫療等領域,并結合137項關鍵研究提供了深入見解。接著,我們討論了LLM的適應策略,包括通過微調方法增強單模態和多模態LLM在特定生物醫學背景下的表現,特別是在零樣本學習效果不佳的領域,如醫學問答和生物醫學文獻的高效處理。最后,我們分析了LLM在生物醫學領域面臨的挑戰,包括數據隱私問題、模型可解釋性有限、數據集質量問題,以及由于生物醫學數據的敏感性而帶來的倫理問題、對高度可靠模型輸出的需求,以及將人工智能應用于醫療領域的倫理影響。
為應對這些挑戰,我們還提出了LLM在生物醫學領域未來的研究方向,包括通過聯邦學習方法來保護數據隱私,以及整合可解釋的AI方法來提高LLM的透明度。隨著LLM領域的快速發展,持續的研究與開發對于充分利用LLM在生物醫學中的能力,同時確保其負責任且有效的部署至關重要。
通用大型語言模型(LLM),如PaLM [1]、LLaMA [2, 3]以及GPT系列[4, 5],展示了其在廣泛任務中的多功能性。這些模型在復雜的語言理解和生成任務中表現出色,包括翻譯、摘要和細致的問題回答[6]。LLM能力的進步主要得益于深度學習算法的演進,特別是Transformer架構的引入及其后續優化[7]。隨著LLM的不斷成熟,其在各個領域的潛在應用日益顯現,生物醫學領域成為一個特別有前途的影響領域。圖1展示了從2019年到2024年LLM及其變體在生物醫學應用中的時間線,這一時間線說明了單模態和多模態LLM的快速發展。 生物醫學LLM的顯著成就展示了其廣泛和深遠的影響。例如,MedPaLM [8]在提供詳細的醫學答案和達成科學共識方面與臨床專家達到了92.9%的一致性。在基因組學領域,scBERT [9]通過改進的Performer架構為每個基因生成嵌入,增強了單細胞基因組數據的分析。像HuatuoGPT [10]、ChatDoctor [11]和BenTsao [12]這樣的領域特定LLM的開發展示了其在可靠醫學對話中的能力,顯示了LLM在臨床交流和決策支持中的潛力。從主要以單模態LLM為主的進展到越來越多的多模態LLM方法,反映了LLM在解決復雜生物醫學挑戰中的日益適應性。這種轉變使得不同數據類型(如文本、圖像和結構化臨床數據)的整合成為可能。 大型語言模型(LLM)在生物醫學領域研究的快速增長和多樣化進一步通過圖2中的趨勢得到了證實。對2018年至2024年生物醫學領域LLM研究論文的時間分析表明,相關文獻的數量逐年增加,并在2021年開始激增(圖2a)。這一趨勢表明人們對將LLM應用于生物醫學挑戰的興趣和投入正在不斷增加,反映了技術進步以及LLM在滿足醫療保健和科研需求方面潛力的認可。這些研究論文在不同生物醫學領域的分布顯示,“醫學”和“神經科學”是主要的研究重點領域(圖2b)。這一分布表明LLM在不同醫學專業和研究領域的廣泛適用性,同時也指出了未來擴展和發展的潛在領域。
生物醫學領域涵蓋了從基礎生物學研究到復雜臨床應用的廣泛學科,每個學科都有其專業術語和不斷發展的知識體系[13]。這一廣度和深度為LLM在生物醫學中的應用帶來了挑戰。新研究成果、治療方式和藥物發展的不斷涌現要求模型能夠快速適應和整合新信息[14]。此外,生物醫學應用的高風險性質要求LLM在準確性和可靠性方面達到極高標準,而這一標準目前的模型尚未始終如一地滿足[15, 16]。這一缺陷源于許多LLM的通用特性,當面對生物醫學文本中復雜且依賴于上下文的語言時,模型可能會產生誤解和推斷偏差[17]。同時,生物醫學領域對敏感患者數據的依賴增加了實施難度,要求嚴格遵守數據保護和隱私法規,這給技術和倫理帶來了雙重挑戰[18]。
盡管面臨這些障礙,LLM在生物醫學領域的應用潛力仍然值得期待。像BioMedLM [19]這樣的模型展示了加速科學洞察獲取的能力,而BianQue [20]和DISC-MedLLM [21]等方法在患者咨詢過程中提供醫學建議,可能有助于減輕臨床工作負擔。然而,這些應用的廣泛采用依賴于LLM的專門訓練和優化,以提高其在生物醫學背景下的可靠性和專業性。
雖然已有若干綜述探討了LLM在生物醫學中的應用,但我們的綜述因其全面性和跨學科方法而與眾不同。與以往通常專注于特定應用或模型架構的綜述不同,我們深入分析了LLM在各個生物醫學領域的應用,從基因組學到臨床實踐。涵蓋2019年至2024年的發展,我們提供了對最新進展和未來趨勢的洞察,包括單模態和多模態LLM方法。本綜述基于對來自多個數據庫的484篇文獻的分析,全面考察了LLM在生物醫學領域的現狀、應用、挑戰及前景。我們評估了LLM在不同生物醫學任務中的零樣本性能,分析了單模態和多模態方法的適應策略,并指出了LLM在生物醫學應用中面臨的具體挑戰,提出了潛在的解決方案。通過探索LLM對醫療實踐、生物醫學研究和醫療系統的潛在影響,我們的目標是為研究人員、醫療專業人員和政策制定者提供清晰的路線圖,以便理解和利用LLM在生物醫學中的應用,促進明智決策并指導未來的研究工作。
通過廣泛的預訓練和微調,LLM能夠學習并捕捉語言中的復雜模式和語義關系。在以下章節中,我們將詳細介紹LLM的核心結構、常見的模型架構以及微調技術。LLM的設計通常依賴于Transformer架構,并可分為三種主要類型:僅編碼器、僅解碼器和編碼器-解碼器[22]。每種架構都有其獨特的優勢,適用于不同類型的任務。
僅編碼器模型側重于理解和表示輸入文本[23]。這些模型特別擅長需要深度上下文理解的任務,如文本分類、命名實體識別和情感分析。雙向編碼器表示(BERT)[23]是該架構的一個例子。BERT的關鍵創新在于其雙向特性,能夠捕捉句子中每個詞的左側和右側上下文。這種雙向編碼相比于以前的單向模型提供了更豐富的文本表示。BERT通過“掩碼語言模型”的預訓練目標實現這一點,模型學習預測句子中隨機掩碼的詞,從而迫使其考慮完整的上下文。另一個值得注意的僅編碼器模型是對比語言-圖像預訓練(CLIP)模型[24]。CLIP擴展了編碼器架構到多模態學習,整合了文本和圖像輸入。通過使用對比學習,CLIP學習在共享的嵌入空間中對齊文本和視覺表示。僅編碼器模型在專業科學領域,尤其是生物醫學領域,取得了顯著的進展。值得注意的例子包括scBERT[9],它生成精細的基因嵌入以處理生物醫學數據,在基因組分析中表現出色。另一個重要的模型是專為生物醫學文本挖掘設計的BioBERT[25],增強了科學文獻中的命名實體識別和關系抽取任務。這些專門的適應性展示了僅編碼器模型在應對復雜生物醫學挑戰中的多樣性。
僅解碼器模型用于生成任務,按從左到右的順序生成輸出序列。這些模型在文本生成、對話系統和創意寫作應用中表現出色。生成式預訓練Transformer(GPT)系列,以最新的GPT-4為代表,展示了這種架構[4, 5],它通過單向解碼器結構,根據前面的上下文預測每個詞元。此方法允許生成連貫且上下文相關的文本。GPT模型在龐大的文本語料庫上進行訓練,使其能夠捕捉復雜的語言模式并在各個領域生成類似人類的文本。其他值得注意的僅解碼器模型包括LLaMA[2]和PaLM[1]。這些模型優化了解碼器架構以提高效率和可擴展性。例如,LLaMA以更少的參數表現出強大的性能,而PaLM則展示了在各種自然語言處理基準上改進的多任務學習能力。僅解碼器架構也被擴展到多模態應用。例如,DALL·E[26]使用解碼器根據文本描述生成圖像。在生物醫學領域,僅解碼器模型已顯示出有希望的應用。例如,它們已被用于醫學報告生成和藥物發現任務,如BioGPT[27]、CancerGPT[28]和Med-PaLM[29]。
編碼器-解碼器架構,也稱為序列到序列(seq2seq)模型,結合了編碼器和解碼器組件的優勢。該設計適用于將一個序列轉換為另一個序列的任務,如機器翻譯、文本摘要和問答。在這種架構中,編碼器處理輸入序列并將其壓縮為潛在表示。解碼器則利用這種表示生成目標序列[30]。這種編碼與解碼的分離使模型能夠有效處理長度和結構不同的輸入和輸出序列。編碼器-解碼器模型的兩個例子是文本到文本轉換Transformer(T5)[31]和雙向自回歸Transformer(BART)[32]。T5采用了統一的方法,將所有NLP任務框定為文本到文本問題,展示了出色的多任務處理能力。而BART則將BERT編碼器的雙向特性與GPT解碼器的自回歸生成結合起來,使其在文本生成和修復任務中表現尤為出色。在生物醫學應用中,編碼器-解碼器模型顯示了巨大的潛力。例如,BioBART[33]被用于生物醫學文本生成和摘要任務。另一個顯著的例子是GeneCompass[34],一個用于解讀基因調控機制的跨物種大型語言模型。這些應用展示了該架構在應對復雜生物醫學挑戰中的多功能性,從文本處理到解開不同物種間基因調控的復雜性。
通用LLM的潛力引起了生物醫學領域的廣泛興趣。圖3a展示了評估不同LLM在零樣本生物醫學任務中的研究分布。GPT-4和GPT-3.5是研究最多的模型,分別有36篇和35篇研究,其次是ChatGPT,共有19篇研究。這一分布表明了當前生物醫學研究對OpenAI模型的關注,且不同模型之間的重疊研究趨勢表明對比分析的傾向。盡管這些LLM在各個領域表現出色,但它們在解決生物醫學領域獨特挑戰方面的有效性仍不確定。生物醫學術語的專業性和整合特定臨床背景的必要性為這些LLM提出了挑戰。為了解決這一問題,許多研究直接探討了通用LLM在生物醫學各學科中的應用,重點研究了它們在臨床診斷、決策支持、藥物開發、基因組學、個性化醫學和生物醫學文獻分析等領域的表現[15, 35, 36]。
診斷輔助是一項涵蓋臨床診斷和決策支持的生物醫學技術[37]。它分析患者的臨床數據和癥狀,結合醫學知識與算法處理,提供幫助醫生進行疾病診斷和治療決策的建議[38]。其目標是提高診斷的準確性和效率,幫助醫生更好地了解患者的情況并制定個性化的治療計劃。為了評估通用LLM在生物醫學診斷中的零樣本能力,研究人員設計了一系列跨多個專業的問題。研究評估了LLM在腫瘤學[39, 40]、急診醫學[41]、眼科[42, 43]和護理學[44]等領域的表現,結果表明LLM在這些領域的診斷任務中可以達到與人類專家相當的準確度。Ward等人[45]對LLM在神經外科情景中的表現進行了對比研究。他們創建了30個具有共識要點的臨床情景,邀請不同經驗水平的醫生對診斷問題作答。結果顯示,GPT-4在分診和診斷方面達到了100%的準確率,而GPT-3.5的準確率為92.59%。這些結果突顯了GPT-4的卓越診斷準確性,表明其在臨床決策中具有作為可靠工具的潛力。在腫瘤學領域,Deng等人[46]發現GPT-4在乳腺癌臨床情景中的分診和診斷中達到了100%的準確率,與高級醫學專家的表現高度一致。同樣,Haver等人[39]展示了GPT-4在神經外科中的有效性,診斷和分診神經外科病例的準確率為100%,并且敏感性和特異性都達到了完美水平。這些發現表明,GPT-4在多個醫學領域中作為可靠臨床決策工具的潛力日益增長。
生物醫學科學是一個跨學科領域,涵蓋了藥物開發、基因組學和蛋白質研究等多個領域[47, 48]。它結合了工程學、生物學和醫學,利用先進的生物技術手段研究疾病的預防、診斷和治療[49]。通過探索生命過程的分子機制,該領域旨在開發新的生物醫學方法和藥物,以提高人類健康和疾病管理。例如,一項研究利用LLM進行候選基因優先排序和選擇,顯著提高了識別潛在基因-疾病關聯的效率。該方法利用先進的自然語言處理技術分析大量基因和生物醫學數據,最終優先選擇了與特定疾病高度相關的基因[50]。在另一項研究中,BERT被用于識別整個PubMed數據庫中的藥物-靶點相互作用,達到了99%的準確率,并識別出60萬篇包含相關數據的新文章[51]。此外,Hou等人[52]利用GPT-4對單細胞RNA-seq分析中的細胞類型進行注釋,結果顯示GPT-4能夠使用標記基因信息準確注釋細胞類型。在大多數研究和組織中,該方法與人工注釋的符合率超過了75%,展示了其減少細胞類型注釋所需的人力和專業知識的潛力。這些進展總體上表明,AI驅動的模型具有改變生物醫學研究的潛力,提供了更精確和高效的工具來理解疾病并開發治療方法。
LLM在通過在線醫學咨詢普及醫學知識方面也展示了潛力[40, 53-55]。這一能力確保了生物醫學信息的廣泛獲取,并允許根據個人狀況進行個性化定制,這對遠程醫療有著深遠的影響[15, 56]。然而,使用LLM開發個性化治療方案需要嚴格遵守醫學倫理和患者隱私的規定。確保所有數據的收集、存儲和使用符合法律法規和倫理標準是至關重要的。Ferrario等人[57]評估了GPT-4在應對各種醫學倫理案例中的表現。研究結果表明,雖然GPT-4能夠識別和表達復雜的醫學倫理問題,但它在更深入編碼現實倫理困境方面仍需改進。Sandmann等人[58]對LLM在臨床決策中的表現進行了評估。他們使用ChatGPT、LLaMA和一個樸素基線模型,對不同臨床學科的110個病例的初步診斷、檢查步驟和治療進行了臨床準確性評估。結果表明,GPT-4在測試模型中表現最佳。更重要的是,這項研究表明,開源LLM可能是解決個性化醫學應用中數據隱私問題的可行方案。
LLM與生物醫學研究和寫作的結合提高了研究效率、公正性和可訪問性[59]。這種協同作用使專家和研究人員能夠更有效地獲取、理解和應用最新的生物醫學信息,從而提高研究生產力。LLM已在生物醫學文獻的多個關鍵領域展示了效用,包括文獻檢索、大綱準備、摘要寫作和翻譯任務。Mojadeddi等人[60]評估了ChatGPT在文章寫作中的表現。研究結果表明,雖然ChatGPT可以加快寫作過程,但尚未達到專業生物醫學寫作者的水平,仍存在一定的局限性。這凸顯了進一步研究AI在科學寫作能力方面的必要性。Huespe[61]評估了GPT-3.5撰寫重癥監護臨床研究問題背景部分的能力。在這項研究中,邀請了80位研究人員區分人工撰寫內容與LLM生成內容。結果表明,GPT-3.5在這一特定任務中的寫作能力與生物醫學研究人員相當。
在評估LLM對生物醫學問題的表現時,使用了多種基準數據集。表1展示了近期研究中使用的基準數據集。這些數據集涵蓋了從基本文本響應到復雜多模態數據的廣泛任務。文本數據集如MedSTS[62]、PubMedQA[63]和MedQA[64]專注于評估LLM在語義相似性、問答和內容摘要等生物醫學任務中的表現。專門的數據集如GenBank[65]測試LLM處理基因組序列的能力,這對于基因組學和個性化醫學中的應用至關重要。多模態基準如MultiMedBench[66]挑戰LLM整合和解釋來自多個來源的數據,如醫學圖像和隨附的文本描述,反映了醫學診斷的復雜性。用于評估模型在不同任務中表現的常用指標包括準確率、BLEU-1、F1評分和ROUGE-L[65, 67, 68]。在評估LLM在生物醫學對話場景中的表現時,開發了專業性、流暢性和安全性等特定指標,以捕捉生物醫學交流的細微要求[69-71]。
我們的分析表明,未經專門訓練的LLM在沒有太多上下文提示的情況下,可以展示對生物醫學術語和概念的基本理解。然而,它們在不同生物醫學學科和任務中的表現有所不同。圖3b提供了LLM在不同生物醫學專業水平中的相對表現的寶貴見解。小提琴圖表明,雖然LLM在所有專業水平上總體表現高于基線,但其表現最為一致的是中級水平。在高級和專家級水平上,表現的波動性更大,表明LLM在處理需要高級專業知識的復雜任務時可能會遇到困難[59]。不同生物醫學學科的評估結果突顯了LLM在零樣本生物醫學應用中的潛力和局限性[45, 77, 78]。在某些特定的生物醫學領域,LLM的表現可與經驗豐富的醫生相媲美。然而,在需要深入生物醫學知識和臨床推理的更專業的上下文或復雜任務中,LLM可能表現出不足或完全失效。在大多數生物醫學應用場景中,LLM的零樣本表現尚不足以滿足直接臨床應用的要求,尤其是在罕見病診斷或復雜外科規劃等極具挑戰性的任務中[79, 80]。這些發現強調了在將LLM直接應用于復雜的生物醫學任務時需要謹慎,除非進行微調或重新訓練。盡管LLM在生物醫學領域的前景令人期待,但在生物醫學應用中的局限性必須得到考慮,并謹慎定義其在倫理和臨床決策過程中的角色。
當通用大型語言模型(LLM)以零樣本方式應用于生物醫學領域時,往往會遇到各種挑戰,主要原因在于該領域的高度專業化。生物醫學領域使用獨特的詞匯、命名法和概念框架,通用LLM可能無法理解這些內容[113]。這種特異性不僅限于術語,還包括生物實體之間的復雜關系、復雜的疾病機制以及細微的臨床背景。此外,生物醫學領域涵蓋了多樣化的任務,從文獻分析和臨床筆記解讀到支持診斷決策和藥物發現過程。這種多樣性要求LLM能夠執行廣泛的專業功能,每項任務都需要領域特定的知識和推理能力[114, 115]。此外,生物醫學研究越來越依賴多模態數據的整合,這些數據類型包括文本、圖像(如放射學掃描、組織學切片)和分子序列(如DNA、蛋白質結構)[116, 117]。有效處理和綜合這些不同來源的信息對LLM提出了額外的挑戰。為了應對這些挑戰并提高通用LLM在生物醫學應用中的適用性,已經開發了幾種適應策略。這些策略包括領域特定的微調、架構修改以及從頭開始創建專門的生物醫學LLM。圖4展示了適應或創建LLM用于生物醫學應用的過程,概述了從數據預處理和整理到模型訓練、微調和評估的關鍵階段。適應過程涉及整理高質量的、領域特定的數據集,以捕捉生物醫學語言和知識的細微差別。然后,使用這些數據集對現有LLM進行微調或訓練新模型,結合在生物醫學語料庫上繼續預訓練、任務特定微調和多任務學習等技術,以提高在各種生物醫學任務中的表現[12, 88]。通過這些努力,出現了多種專門針對生物醫學研究和臨床實踐的LLM模型。表2提供了這些微調和定制模型的概述,展示了它們在生物醫學領域內的多樣性和專業性。
為了將通用LLM適應生物醫學領域,微調可以使模型深入理解該領域的專業術語、復雜概念和語言習慣。這增強了它們在處理生物醫學文本等專業數據時提供更準確和深入分析與生成的能力。微調方法包括全參數微調、指令微調、參數高效微調和混合微調。
全參數微調
全參數微調涉及使用領域特定的數據更新預訓練LLM的所有參數。與傳統的微調方法(如僅微調頂層)不同,全參數微調允許模型的每一層都學習任務特定的知識。例如,GatorTron[81]是一種在臨床數據上微調的模型,在醫學問答中達到了93.01%的F1分數,超過了之前的基準7.77%。盡管全參數微調通常可以帶來最佳表現,但它也伴隨著高昂的計算成本。例如,微調GatorTronGPT-20M[17]耗費了超過268,800 GPU小時(使用A100 GPU),這使得資源受限的環境難以承擔。
指令微調
指令微調(IFT)是一種通過修改預訓練模型的基礎指令來優化其在生物醫學領域特定任務或領域中的適應性的技術[118]。這一方法在提高模型在專門醫學任務上的表現方面顯示出了良好的效果。例如,MEDITRON[96]是一種在LLaMA-2上使用IFT微調的模型,在多個醫學基準測試中平均表現提高了1.8%。同樣,AlpaCare[100]利用了精心整理的52,000條醫學指令,在HeadQA基準測試中實現了30.4%的性能提升,展示了精心設計的指令集在提升模型能力方面的潛力。IFT的主要優勢在于,它能夠使用相對較少的數據將模型適應特定的生物醫學領域。然而,IFT的有效性在很大程度上依賴于所用指令的質量和多樣性。設計不良或有偏見的指令可能導致模型行為不一致或不可靠,從而在關鍵的醫學應用中削弱模型的實用性。
參數高效微調
參數高效微調(PEFT)包括一組旨在通過調整模型的少部分參數來提高LLM性能和訓練效率的技術[119]。兩個顯著的PEFT方法是LoRA(低秩適應)[120]和QLoRA(量化LoRA)[121],通過向模型添加可訓練的小矩陣來實現任務特定的適應,而不修改整個模型架構。PEFT方法的效率令人矚目,通常可以減少99%以上的可訓練參數,同時保持與全微調相當的性能。例如,MMedLM 2[68]使用LoRA在多語言醫學問答任務中取得了競爭性的表現,同時只微調了模型參數的一小部分。這種方法減少了計算需求,使得在資源有限的環境(如小型醫院或研究實驗室)中部署定制的醫療AI模型成為可能。然而,當任務需要對基礎模型知識進行大量修改時,PEFT方法可能會面臨局限,因為它們主要側重于適應現有知識,而不是引入全新的信息。這一限制可能會影響其在高度專業化或快速發展的生物醫學領域中的有效性。
混合微調
混合微調是一種結合多種參數高效調優技術以提高模型性能和訓練效率,同時盡量減少額外參數引入的方法。例如,HuatuoGPT[10]通過監督微調和RLAIF[122],在GPT-4評估、人類評估和醫學基準數據集上表現出了在開源LLM中執行醫療咨詢的最新成果。混合微調策略在性能和效率之間提供了平衡,解決了單一技術的一些局限性。它們允許模型更靈活地適應醫療AI的獨特挑戰,如既需要廣泛的醫學知識,又需要專業的醫學知識。然而,這些方法通常需要更復雜的實現和多個組件的精細調優。
多模態LLM可以整合不同的數據類型,從而提供全面的見解。該模型的核心優勢在于能夠融合來自不同模態的信息,包括文本、圖像、基因序列和蛋白質結構。這種融合不僅彌合了跨學科的差距,還反映了醫療診斷和研究的多面性[123]。在臨床環境中,患者評估通常涉及多種數據類型,包括文本信息(如醫療報告)、視覺數據(如X光和MRI)以及數值測量(如實驗室結果和生命體征)。多模態LLM旨在整合這些不同來源的數據,以提供更準確和全面的生物醫學見解。例如,通過將醫學影像與臨床文本報告和其他相關數據結合,這些模型可以提高診斷的準確性和穩健性[124]。此外,多模態模型還可以促進基因組數據與表型信息的整合,從而更全面地研究疾病機制并發現新藥物[112]。 微調策略在生物醫學多模態模型的應用中發揮了關鍵作用,確保這些模型能夠充分理解和處理跨模態數據。這些策略包括通過LoRA[120]和層歸一化[125]技術優化視覺編碼器。此類優化旨在增強模型解讀醫學圖像中關鍵特征的能力。同時,這些策略整合了視覺和文本輸入,利用注意力機制和多層感知器(MLP)層增強模型在生成放射學報告中的能力,例如ClinicalBLIP[110]模型。具體而言,ClinicalBLIP在使用MIMIC-CXR[126]數據集的放射學報告生成任務中表現優異,通過這些微調策略獲得了0.534的METEOR評分[127],顯著超越了其他模型的表現,突出展示了ClinicalBLIP在處理復雜多模態數據方面的卓越能力。同樣,Med-Gemini[111]采用了構建聯合嵌入空間的策略,能夠在統一的潛在空間內直接比較和整合來自不同模態的數據。這一策略在復雜的醫療任務中表現出色,特別是在癌癥診斷方面,整合基因組數據和病理圖像顯著提高了診斷準確性。這些微調策略通過優化模型在生物醫學多模態任務中的表現,展示了多模態模型在醫學領域應用的巨大潛力。此外,它們強調了微調在提高模型泛化能力和任務適應性中的關鍵作用。
將通用LLM適應生物醫學領域的關鍵在于數據的質量、多樣性和處理方式。本小節將探討開發和改進生物醫學LLM時使用的關鍵數據集和有效策略。 4.3.1 數據集概述
用于LLM訓練和評估的生物醫學數據集主要分為三類:基于文本、基于圖像和多模態。表3總結了最近研究中使用的數據集。基于文本的數據集如PubMed,在訓練模型如BioGPT[27]中起到了重要作用。同樣,包含超過40,000名患者去識別健康記錄的MIMIC-III數據集為GatorTron[81]等模型提供了學習真實世界臨床數據的機會。多模態數據集整合了各種數據類型,促進了更全面的模型訓練。MultiMedBench[66]數據集通過將臨床筆記與醫學測量和影像數據對齊,體現了這一方法。基于這些數據集訓練的模型如Med-PaLM M[66]在需要整合異質數據類型的任務中表現出色,彌合了文本和視覺醫學信息之間的差距。 4.3.2 數據處理策略
為了最大限度地利用這些數據集,研究人員采用了多種數據處理技術。 數據增強
數據增強旨在增加數據集的大小和多樣性,從而提高模型的穩健性和泛化能力。Chen等人[20]在開發BianQue時結合了自動數據清理和基于ChatGPT的數據優化。這一方法不僅提高了訓練數據的質量,還使模型在醫療咨詢任務中的表現提高了15%。 數據混合
整合多樣化的數據源也能增強模型能力。Bao等人[21]在DISC-MedLLM中展示了這一點,采用了數據融合策略。通過結合來自醫學知識圖譜的結構化信息與人工篩選的樣本,他們在處理醫療查詢方面相比于僅在單一數據源上訓練的模型提升了20%。 4.3.3 LLM中的聯邦學習
在生物醫學LLM領域,由于嚴格的醫療法規,直接的數據共享通常不可行。聯邦學習(FL)[128]作為一種變革性解決方案,可能會重新塑造未來的LLM訓練方式。與在單一專有數據中心訓練的傳統LLM不同,生物醫學LLM需要通過FL有效訪問多樣化的數據集。OpenFedLLM框架[129]促進了跨地理分布數據集的聯邦學習,同時推動了倫理對齊。對此,Wu等人[130]提出了專門設計用于增強醫學語言建模的FedMed框架,以緩解聯邦學習環境中的性能下降。Zhang等人[131]進一步推進了這一領域,展示了將聯邦學習與基于提示的方法結合用于臨床應用的有效性,增強了模型的適應性,同時保護了患者隱私。Nagy等人[132]探討了用于訓練大型語言模型(如BERT和GPT-3)的隱私保護技術,提供了在不影響性能的情況下保持隱私的見解。為應對多語言挑戰,Weller等人[133]研究了在多個語言環境中使用預訓練語言模型進行聯邦學習的方法,重點關注醫學領域的各種NLP任務。最后,Kim等人[134]提出通過在預訓練的LLM中集成適配器機制來提高聯邦學習中的計算效率,展示了使用較小的Transformer模型來降低計算需求的好處。
本節探討了將通用LLM適應生物醫學領域的過程,重點介紹了數據質量、處理策略與模型適應技術之間的重要關系。我們回顧了多樣化數據集和先進數據處理方法在開發穩健的生物醫學LLM中的基礎作用,并考察了從全參數微調到更高效的指令微調和參數高效技術的各種適應方法。盡管取得了這些進展,數據隱私、模型可解釋性和公平性方面的挑戰仍然存在。未來的研究可以著眼于開發更高效、可解釋且符合倫理的適應技術。重點領域包括提高模型透明性、解決公平性問題,以及探索高級聯邦學習方法,以在保護患者隱私的同時利用分散的醫療數據。多模態方法的整合也為更全面的醫療解決方案提供了有希望的途徑。隨著生物醫學LLM的持續發展,在平衡技術創新與倫理考量方面將變得尤為重要。通過解決當前的挑戰并抓住新興的機遇,這些模型有望徹底改變醫療保健,從提高臨床決策支持到加速生物醫學研究,最終實現更有效和更公平的醫療服務提供。
在本研究中,我們探討了通用大型語言模型(LLM)在生物醫學領域的潛力和應用。通過評估單模態和多模態LLM在處理醫學文本、圖像以及綜合數據方面的表現,我們驗證了這些LLM在提高醫學研究效率和準確性方面的潛力。我們的研究首先概述了LLM在生物醫學領域的現狀,指出了直接應用通用LLM的局限性,并強調了微調策略的重要性。盡管LLM具有廣泛的應用前景,但其在生物醫學領域的應用仍面臨諸多挑戰,包括數據隱私和安全問題、模型可解釋性、數據集的質量和多樣性以及高計算資源需求。這些挑戰限制了LLM的廣泛應用。為應對這些挑戰,我們提出了未來的研究方向,包括提高數據質量和多樣性、增強模型可解釋性、開發高效且經濟的微調方法、探索多模態數據融合技術以及促進跨學科合作。這些措施將進一步推動LLM在生物醫學領域的應用和發展。
大型語言模型(LLMs)已在自然語言處理(NLP)領域催生了重大進展,然而它們面臨著諸如幻覺錯誤和對特定領域知識需求等挑戰。為了緩解這些問題,最近的方法學已將從外部資源檢索到的信息與LLMs整合,顯著提升了它們在NLP任務中的表現。這篇綜述論文針對缺乏對檢索增強語言模型(RALMs)、包括檢索增強生成(RAG)和檢索增強理解(RAU)的全面概述,提供了它們的范式、演變、分類和應用的深入考察。文章討論了RALMs的基本組件,包括檢索器、語言模型和增強組件,以及它們的互動如何導致多樣化的模型結構和應用。RALMs在從翻譯和對話系統到知識密集型應用的廣泛任務中顯示出其實用性。綜述還包括了幾種評估RALMs的方法,強調在評估中穩健性、準確性和相關性的重要性。同時也指出了RALMs的限制,特別是在檢索質量和計算效率方面,提供了未來研究的方向。總之,這篇綜述旨在提供對RALMs的結構化洞見、其潛力以及NLP未來發展的途徑。論文還附帶了一個包含已調研工作和進一步研究資源的Github倉庫://github.com/2471023025/RALM_Survey。
自然語言處理(NLP)是計算機科學和人工智能領域內的一個重要研究方向,致力于研究使人與計算機之間能夠使用自然語言有效溝通的理論和方法學框架。作為一個多學科領域,NLP整合了語言學、計算機科學和數學,旨在實現人類語言與計算機數據之間的相互轉換。其最終目標是賦予計算機處理和“理解”自然語言的能力,從而便于執行自動翻譯、文本分類和情感分析等任務。NLP的復雜性體現在它包括的眾多步驟上,如詞匯分割、詞性標注、解析、詞干提取、命名實體識別等,這些都增加了在人工智能系統中復制人類語言理解的難度。
傳統的自然語言處理任務通常使用基于統計的算法(Hogenboom et al., 2010)(Serra et al., 2013)(Aussenac-Gilles and S?rgel, 2005)和深度學習算法,如卷積神經網絡(CNN)(Yin et al., 2017)、遞歸神經網絡(RNN)(Banerjee et al., 2019)、長短時記憶網絡(LSTM)(Yao and Guan, 2018)等。最近,隨著變壓器架構(Vaswani et al., 2017)作為自然語言處理的代表性技術的出現,其受歡迎程度顯著提高。變壓器架構作為一個突出的大語言模型(Lewis et al., 2019)(Raffel et al., 2020)在自然語言處理領域已經持續展示出優越的性能,吸引了越來越多研究者的關注,他們致力于研究其能力。
當前最流行的語言模型是GPT系列(Radford et al., 2019)(Brown et al., 2020)(Achiam et al., 2023)和Bert系列(Liu et al., 2019)(Devlin et al., 2018)(Sanh et al., 2019),這些模型已經在多種自然語言處理任務中表現出色。其中,自編碼語言模型特別擅長于自然語言理解任務,而自回歸語言模型更適合于自然語言生成任務。雖然增加參數(Touvron et al., 2023b)和模型調優(Han et al., 2023)可以提升LLMs的性能,但“幻覺”現象(Ji et al., 2023)仍然存在。此外,語言模型在有效處理知識密集型工作(Feng et al., 2023)和更新其知識的能力不足(Mousavi et al., 2024)方面的限制也一直很明顯。因此,許多研究者(Lewis et al., 2020)(Izacard and Grave, 2020b)(Khandelwal et al., 2019)采用了檢索技術來獲取外部知識,這可以幫助語言模型在多種任務中獲得更好的性能。
當前關于使用檢索增強來提升LLMs性能的綜述還很少。Zhao et al.(2023)提供了關于多模態RAG的全面概述。Zhao et al.(2024a)專注于人工智能生成內容(AIGC)領域的檢索增強生成技術的利用。這篇文章提供了最近RAG工作的全面概述,但它沒有覆蓋所有相關領域。此外,文章缺乏足夠的細節來提供整體發展的全面時間線。Gao et al.(2023)研究了對大模型的RAG的增強。這篇文章總結了一些最近的RAG工作,但它獨立地介紹了檢索器和生成器,這不利于后續工作的組件升級和互動。Li et al.(2022b)專注于文本生成。文章中的圖表較少,內容更抽象,不利于讀者的理解。
關于NLP中的檢索增強方法,僅有關于RAG的綜述只講述了部分故事。不僅與自然語言生成(NLG)相關的任務需要檢索增強技術,自然語言理解(NLU)任務也需要外部信息。迄今為止,全面綜述NLP全譜系中應用增強檢索技術的文章還很少。為了改善當前狀況,本文提出以下貢獻: (1) 本文不僅關注與RAG相關的工作,還重點強調了RALM,并與NLP的概念保持一致。與生成相關的工作與NLG對齊,而其余的工作與NLU對齊。 (2) RALM的兩個組成部分,檢索器和語言模型,都進行了詳細描述,這兩個組件的不同交互模式也首次被準確定義。 (3) 提供了RALM工作計劃的全面概述,總結了當前RALM的常見和新穎應用,并分析了相關限制。提出了這些限制的潛在解決方案,并推薦了未來研究方向。
圖1提供了RALM方法框架的總體概述。以下是本文的摘要:第2節定義RALM。第3節提供了RALM中檢索器的詳細分類和總結。第4節提供了RALM中語言模型的詳細分類和總結。第5節對RALM的特定增強進行了分類和總結。第6節是RALM檢索數據來源的分類和總結。第7節是RALM應用的總結。第8節是RALM評估和基準的總結。最后,第9節討論了現有RALM的限制和未來工作的方向。
RALMs的整合代表了NLP系統能力的重大進步。本綜述提供了對RALMs的廣泛回顧,突出了它們的架構、應用和所面臨的挑戰。通過檢索和整合外部知識,RALMs增強了語言模型,從而在包括翻譯、對話生成和知識圖譜補全等多種NLP任務中提升了性能。
盡管取得了成功,RALMs仍面臨幾個限制。值得注意的是,它們對對抗性輸入的魯棒性、檢索結果的質量、部署相關的計算成本以及應用領域多樣性的缺乏被認為是需要進一步關注的領域。為了解決這些問題,研究社區提出了幾種策略,例如改進評估方法、完善檢索技術和探索在性能與效率之間保持平衡的成本效益解決方案。 未來,RALMs的進步將依賴于增強其魯棒性、提高檢索質量和擴展其應用范圍。通過采用更復雜的技術并將RALMs與其他AI技術整合,這些模型可以被用來應對更廣泛的挑戰。在這一領域持續的研究和開發預計將帶來更具韌性、效率和多功能性的RALMs,從而推動NLP及其它領域所能達到的界限。隨著RALMs的不斷演進,它們有望賦予AI系統更深入的理解力和更接近人類的語言能力,從而在廣泛的領域中開辟新的可能性。
這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。
**1 引言 **
在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。
2 概述
大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。
3 大型語言模型的解釋性
3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。
3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。
4 利用解釋性
在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。
4.1 模型編輯
盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。
4.2 增強模型能力
雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。
4.3 可控生成
盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。
5 評估
近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。
6 結論
在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。
大模型如何落地?
在快速發展的人工智能(AI)領域中,生成型大型語言模型(LLMs)站在前沿,徹底改變了我們與數據的互動方式。然而,部署這些模型的計算強度和內存消耗在提供效率方面提出了重大挑戰,特別是在需要低延遲和高吞吐量的場景中。這篇綜述從機器學習系統(MLSys)研究的角度出發,應對高效LLM服務方法論的緊迫需求,站在先進AI創新和實際系統優化的交匯點上。我們提供了深入的分析,涵蓋了從尖端算法修改到系統設計的根本性變革的一系列解決方案。這篇綜述旨在提供對高效LLM服務當前狀態和未來方向的全面理解,為研究人員和實踐者提供寶貴的見解,幫助他們克服有效LLM部署的障礙,從而重塑AI的未來。 //www.zhuanzhi.ai/paper/c3dbc58e4807518391a872141c664117
生成型大型語言模型(LLMs)已成為推動人工智能(AI)重大進展的驅動力,并在廣泛的語言相關任務中展現出卓越的性能。從機器翻譯到情感分析、問答和文本生成,這些模型在理解、生成和操縱人類語言方面顯示出了它們的能力。基于Transformer的架構,如GPT系列(Generative Pre-trained Transformer)[195]、LLaMA系列[247]以及其他最新的公開LLMs(例如,OPT [300]、BLOOM [260]、Mistral [129]、DeciLM [241]、Baichuan [277]、GLM [290])在這種范式轉變中發揮了關鍵作用,徹底改變了自然語言處理(NLP)任務的處理方式。除了NLP,這些模型還在更廣泛的應用領域中實現了轉型,包括自動編程[54]、科學發現[135]、個性化數字助理[75]、創意藝術[208]以及下一代計算架構[197],展現了它們的多功能性和在各個行業的深遠影響。
然而,LLMs的空前成功也帶來了幾個挑戰,最值得注意的是,在服務過程中它們龐大的計算需求。巨大的模型規模和復雜性,加上對廣泛計算資源的需求,已經阻礙了它們在實際應用中的廣泛部署。這些模型對資源的密集型需求引發了關于能源消耗、可擴展性和可訪問性的擔憂,阻礙了它們在沒有像大公司那樣豐富計算資源的更廣泛社區中的采用。
這篇綜述旨在解決高效LLM服務的關鍵需求,并對研究界提出的應對這一挑戰的多方面策略進行了全面探討。我們深入考察了從算法創新到新型系統架構的整個解決方案范圍,所有這些都旨在優化大型語言模型的推理過程。
目標 這項綜述的主要目標是提供一個全面的概述,關于最新的LLM服務和推理方面的進展。我們將系統地回顧和分類現有技術,基于它們的底層方法,突出它們的優勢和局限性。該綜述將涵蓋廣泛的方法論,包括解碼算法、架構設計、模型壓縮、低比特量化、并行計算、內存管理、請求調度和內核優化。
** 結構 本文的結構如下**:第2節介紹LLM服務的背景信息。第3節包括我們對高效LLM服務現有方法的分類,從兩個方面重新審視這些相關工作:算法創新(§ 3.1)和系統優化(§ 3.2)。之后,我們在第4節列出了一些代表性的LLM服務框架,并提供了分析。第5節討論LLM服務系統的基準測試。第6節闡明了這項綜述與其他相關文獻之間的聯系。最后,在第7節我們提出了一些提高生成型LLM服務效率的有前景的探索方向,以激發未來的研究。
分類法
目前提高LLM服務效率的努力大致可分為兩類,包括算法創新和系統優化,這兩類將分別進行討論。 算法創新本節提供了對各種算法和技術的全面分析,這些算法和技術旨在優化語言模型推理效率。這些工作旨在通過算法進步解決大規模Transformer模型的固有性能缺陷。
** 解碼算法**。在這一部分中,我們回顧了在圖2中展示的優化LLMs推理過程的新穎解碼算法。這些算法旨在減少計算復雜度,并提高語言模型推理在生成任務中的總體效率。
非自回歸解碼。現有LLMs的一個主要限制是默認的自回歸解碼機制,它逐個順序生成輸出標記。為解決這一問題,一種代表性的工作方向是放棄自回歸生成范式,并并行解碼輸出標記。非自回歸解碼[97, 104, 108]首先為機器翻譯加速提出,通過在解碼過程中打破單詞依賴并假設一定程度的條件獨立性。為了減輕翻譯質量的降低,一些后續研究如半自回歸解碼[98],通過模擬輸出依賴[105, 294]或迭代細化輸出標記[152],進一步擴展了這些非自回歸方法。塊狀并行解碼[230]在基礎LLM中插入一個單一前饋層,以并行預測多個未來位置,然后退回到基模型驗證的最長前綴。然而,這些方法需要昂貴地重建一個新的LLM以及新的依賴,或調整原始LLM的部分層,這并不總是可行的。最近的一些努力致力于在一個解碼步驟中生成多個標記,無需對模型進行任何訓練或修改。并行解碼[217]將貪婪的自回歸解碼重構為可并行求解的非線性方程系統,利用雅可比和高斯-塞德爾固定點迭代方法進行快速推理。關于非自回歸翻譯的詳盡綜述[271]已經提出,以總結這一方向的最新進展。到目前為止,由于不了解輸出標記之間的條件依賴性,盡管解碼速度有所提高,但大多數非自回歸方法的輸出質量仍不如自回歸方法可靠。
投機解碼。另一項工作通過利用投機執行[47]并提高解碼并行性,解決了順序執行的限制。自回歸LLM推理過程中的每個解碼步驟都可以視為帶有條件分支的程序執行,例如決定接下來生成哪個標記。已提出投機解碼[51, 155],首先以高效的方式(例如,使用較小的草稿模型,模型參數較少)進行多步解碼預測,并與LLM同時驗證這些預測。然而,將投機解碼應用于LLMs時仍然存在一些實際挑戰,例如,如何使解碼預測足夠輕量且準確,以及如何使用LLMs實現高效的并行驗證。SpecInfer [177]首次通過引入多個小型草稿模型以及一種新型基于樹的投機推理和標記驗證機制(被[48, 118, 168, 185, 229, 236, 274, 310]直接采用),提出了一個低延遲LLM服務系統實現(§ 4)。投機解碼的主要優勢是它在不改變輸出的情況下增加了并行性。這種保證來自于預測輸出總是由原始LLM驗證,并且當預測出錯時,回退機制[145]生效。
提前退出。其他一些研究試圖利用現有LLMs的深層多層架構,并利用提前退出機制[243]加速解碼過程。直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。它們也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量以攤銷總推理成本,即對更容易的推理請求采取較少的計算。廣泛來說,這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。由于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性地選擇合適的模型。Tabi[257]針對服務鑒別模型(即非生成型LLMs)進行了優化,但采取了類似的方法,結合小型模型和LLMs處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法來自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體來說,級聯推理是提高推理效率的有希望的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。
配置縮小:為了減少LLM推理的計算成本,一種直接的方法是縮小模型配置,例如使用淺層編碼器[101, 183]或解碼器[137],權重共享和詞匯表縮減[225]。然而,減少模型參數的數量也會影響下游任務的性能。
注意力簡化:與自注意力計算相關的一個突出挑戰是計算復雜度O(??^2),它與輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為更高效的替代方案,用于非常長的序列任務,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除不必要的注意力。
提前退出。一些其他研究嘗試利用現有LLMs的深層多層架構,并利用提前退出[243]機制來加速解碼過程。其直覺是,早期模型層的輸出有潛力自信地推斷目標分布。它們可以基于內部分類器發出預測,而不是運行整個LLM,并且已經探索了各種退出條件[117, 147, 163, 167, 234, 272, 282, 291, 308]。這些方法也被稱為自適應計算[68, 219],因為它們調整每個請求的計算量,以攤銷總推理成本,即對更容易的推理請求采取較少的計算。然而,由于這些方法大多受限于內部表示攜帶的信息不足,可能無法忠實地進行準確預測。
級聯推理。鑒于推理請求的復雜性不同,級聯推理采用不同規模的LLM套件來最小化響應時間。而不是直接使用龐大的模型來處理每個查詢,CascadeBERT[157]涉及一系列與不同模型深度相對應的內部分類器,以級聯方式組織它們,并根據實例難度適應性選擇合適的模型。Tabi[257]專為服務鑒別模型(即非生成型LLMs)進行了優化,但采用了類似的方法,將小型模型和LLMs結合起來處理不同置信度的查詢。FrugalGPT[53]利用基于學習的方法自適應地將查詢分配給不同的LLM API,優化成本和性能。一項同時進行的工作[312]聯合優化了模型復用和查詢緩存,并分析了最小化推理成本的最優性。Mixture-of-thought[288]將級聯思想擴展到LLM推理任務,以節省成本,它從Chain-of-Thought[258]和Program-of-Thought[57]提示中抽樣答案。總體而言,級聯推理是提高推理效率的一個有前景的方向,但設計準確的調度機制以避免損害模型質量仍然是一個挑戰。
架構設計。這一小節探討了針對大型語言模型的創新架構設計。研究人員已經提出了新穎的模型架構[115],超越了原始的Transformer,實現了模型規模、性能和效率之間的平衡,為更快和資源高效的推理開辟了新途徑。 * 注意力簡化:自注意力計算的一個突出挑戰是計算復雜度O(??^2),隨輸入序列長度??呈二次方增長。許多Transformer變體[240]被提出來將標準注意力簡化為非常長的序列任務的更高效替代方案,例如稀疏化[289]、核化[139]和分解[254]。最近,有一種趨勢從之前的注意力簡化方法中借鑒思想,將它們概括和結合起來,以縮短上下文,減少KV緩存的大小,以及注意力復雜度,同時略微降低解碼質量(例如,滑動窗口注意力[129, 299]、基于哈希的注意力[198]、擴張注意力[74])。這些方法中的一個類別是通過壓縮上下文到更少的軟標記(例如,替換為摘要標記[58]或地標標記[184],利用額外的自編碼器方案[95, 169])或直接根據不同的重要性指導[85, 130, 159, 186](或稱為語義壓縮)刪除或改寫不重要的上下文標記來進行上下文壓縮。例如,自適應稀疏注意力[36]采用基于學習的方法來消除非信息性上下文標記的動態化。
模型壓縮。在這里,我們深入探討了模型壓縮技術,旨在通過創建更高效、更緊湊的模型,減少LLMs的內存占用和計算需求,同時不會對性能造成顯著損失。
知識蒸餾:一種方法是知識蒸餾,它訓練一個小型的學生模型,以大型的教師模型為監督。大多數之前的方法都在探索白盒蒸餾[106, 133, 214, 233, 255],需要訪問整個教師模型的參數。由于基于API的LLM服務(例如,ChatGPT)的出現,一些黑盒蒸餾模型吸引了很多關注,例如Alpaca[238]、Vicuna[59]、WizardLM[273]等[201, 313]。這些模型通常具有更少的模型參數,但與原始LLMs(例如,GPT-4[195])相比,在各種下游任務上表現出了有前景的性能。
網絡剪枝:過去幾年中,網絡剪枝方法[180, 215, 215]已被廣泛研究,但并非所有方法都可以直接應用于LLMs。在考慮重新訓練可能帶來的過高計算成本以及評估剪枝是否基于底層系統的實現提高了推理效率方面,這是必不可少的。一些最近的方法[80, 149, 174, 216]將結構化剪枝方法應用于LLMs,刪除整個結構化LLM組件,促進GPU加速。例如,Deja Vu[172]在不修改預訓練模型的情況下,根據上下文稀疏性假設剪切特定的注意力頭和MLP參數。還有一些最新的非結構化方法[40, 87, 232, 251, 276],通常實現LLM壓縮的50-60%稀疏性。值得注意的是,它們可以進一步概括為半結構化N:M稀疏性(即2:4和4:8)[182],通過NVIDIA稀疏張量核心的加速實現顯著的推理加速。LoSparse[161]和DSFormer[49]使用低秩分解將模型權重近似為一個小的密集矩陣和一個稀疏的半結構化矩陣。Flash-LLM[267]通過提供一種適用于非結構化剪枝的內存高效SpMM實現放寬了這一要求。PowerInfer[228]假設這些稀疏激活神經元的偏向訪問,并提出了一個GPU-CPU混合推理引擎,讓GPU和CPU處理不同的神經元。
系統優化本節研究LLM推理系統優化技術,以加速LLM推理,而無需修改LLM計算語義。這一系列工作的目標是通過改進用于大型語言模型推理的底層系統和框架,提高系統效率。 低比特量化。本節探討了最先進的低比特量化技術,這些技術能夠高效地表示模型權重和激活。通過使用更少的比特(即少于32比特)來表示數值,這些方法顯著減少了內存消耗,并加速了硬件平臺上的推理。一種方法是量化LLM,這些量化方法大致可以分為兩個方向:量化感知訓練(QAT)和訓練后量化(PTQ)[280]。PTQ將模型權重[69, 71, 88, 89, 125, 164]甚至激活[268, 281, 287]的計算精度降低到INT8或INT4,通過使用自定義CUDA內核[158, 199]或編譯[302]來提高效率,例如W8A16(即INT8僅權重量化和FP16或BF16激活),GPTQ中的W4A16[88],SmoothQuant中的W8A8[268]和W4A4[266]。硬件的發展也滿足了這些要求。一個支持的證據是,NVIDIA的最新架構,如Turing和Ampere已經包含了INT8和INT4張量核心,最新的Hopper架構雖然取消了INT4支持,但引入了FP8張量核心以獲得更好的數值精度(例如,H100 GPU的FP8與FP32相比可達60倍TFLOPS)。現有方法通常采用各種量化函數,包括均勻方法(即最近舍入)和非均勻方法[143]。為了緩解低精度帶來的性能損失,QAT在模型訓練期間集成了量化[70, 171]。值得注意的是,由于底層系統實現的挑戰,低精度量化方法可能導致比如FP16這樣的傳統精度水平的推理速度更慢[69]。雖然低精度方法顯著降低了模型部署的資源要求,但也有研究表明,量化方法由于存在比例定律,可能對模型的推理性能產生顯著影響[72]。此外,量化還被應用于上下文壓縮(例如,CacheGen[169])和內存高效微調(例如,QLoRA[70],PEQA[142]),結果導致LLM推理的內存消耗降低。
并行計算。本節檢查了針對大型語言模型的并行計算策略。利用現代硬件架構的并行處理能力,這些方法將計算分布在多個核心或設備上,從而在推理期間顯著加速。
內存管理。高效的內存管理仍然是LLM服務面臨的主要挑戰之一,特別是考慮到Transformer架構固有的內存密集型特性。隨著對長序列推理需求的增長,與模型權重和其他激活所需工作空間相比,KV緩存的內存占用成為了優化的主要目標。由于KV緩存內存在增量解碼過程中動態且不可預測地增長和縮小,簡單的方法(例如,FasterTransformer)是預先分配一塊連續的內存,假設最大序列長度。這對于1)請求長度不同的輸入批次和2)并行生成多個輸出序列的復雜解碼場景(例如,波束搜索、并行解碼)來說,嚴重浪費了內存。vLLM[150]提出了分頁注意力,將KV緩存劃分為非連續的內存塊,顯著提高了批量大小和吞吐量。SpecInfer[177]提出樹狀注意力和深度優先樹遍歷,以消除共享相同前綴的多個輸出序列的冗余KV緩存分配。LightLLM[21]采用更精細的標記級內存管理機制,進一步減少了內存使用。然而,這種碎片化內存管理機制的開銷帶來了新的挑戰。特別是在其他優化用于提高批量大小的情況下,這些細粒度內存管理方法可能只提供邊際吞吐量收益,同時大幅增加了推理延遲。顯然,LLM推理中的內存減少與其他算法創新和系統級優化密切相關。雖然有些方法可能對特定工作負載效果很好,但它們可能相互抵消,導致整體性能下降。在內存效率和LLM推理系統的計算性能之間找到正確的平衡仍然是該領域的一個開放而迫切的挑戰。
請求調度。高效地調度傳入的推理請求對于優化LLM服務至關重要。本節回顧了最大化資源利用、保證在延遲服務水平目標(SLO)內的響應時間,并有效處理不同請求負載的請求調度算法。LLM服務的請求調度與一般的ML服務技術有共同之處,因為兩者都旨在高效管理傳入的請求并優化資源利用。這些共同方面包括動態批處理[33]、搶占[114]、優先級[191]、交換[39]、模型選擇[107]、成本效率[295]、負載平衡和資源分配[259]。然而,由于其獨特的特性,如龐大的模型規模、迭代式自回歸解碼機制、未知的可變輸出長度和上下文信息的狀態管理,LLM服務也帶來了獨特的挑戰。
早期的LLM服務系統(例如,NVIDIA Triton上的FasterTransformer)僅支持與之前方法類似的請求級調度。Orca[285]首先注意到了生成型LLMs與之前ML推理系統的請求級調度之間的差距。考慮到可變的輸出序列長度,它在迭代粒度上調度引擎執行,并以先來先服務(FCFS)的順序,使得選定的操作集批處理,以更好地利用硬件。許多后續方法繼承了選擇性批處理和迭代級調度策略,例如vLLM和RayLLM[27]中的連續批處理以及TensorRT-LLM[25]中的流程批處理。此外,SpecInfer通過迭代選擇一批請求來執行一次推測推理和驗證,擴展到了投機解碼。FastServe[261]關注作業完成時間(JCT),涉及迭代級搶占,以優先處理輸入長度較短的請求,而不是FCFS。SARATHI[31]針對分布式推理中由不同長度輸入請求的初始迭代引起的管道泡沫。為了飽和GPU計算,它將輸入提示劃分為均勻塊,并在可能的情況下,將塊插槽與其他請求的解碼迭代結合起來,這也被DeepSpeed-FastGen稱為動態SplitFuse[9]采用。S3[134]涉及輸出序列長度預測器,并幫助在GPU內存限制內安排更多并發請求,以實現更大的批量大小和更高的推理吞吐量。
內核優化。在本小節中,我們深入探討了針對特定操作的內核級優化,這些優化針對語言模型推理管道中的關鍵計算內核。這些優化利用硬件特定特性和軟件技術來加速關鍵計算內核。
軟件框架
生成型LLM服務需要一系列優化,許多最新工作已經開始開發軟件框架,以提供高效的LLM推理部署服務。下面,我們將重新審視這些系統,并對幾個代表性的開源GPU基礎上的LLM服務系統進行全面分析,如表2所示。這些分析不包括一些流行的相關項目,包括1) 專門針對其他硬件的解決方案(例如,PopTransformer[17]、CTranslate2[8]、lammap.cpp和ggml[14])和2) 構建在其他系統之上的部署解決方案,如OpenLLM[26](vLLM)、xinference[30](ggml + vLLM + xFormers)、LMDeploy[20](FasterTransformer)、gpt-fast[15](PyTorch)、DeepSpeed-MII和DeepSpeed-FastGen[11](DeepSpeed-Inference)以及RayLLM和RayServe[27](vLLM)。
我們比較了這些最先進的LLM服務系統,并在幾個方面總結了它們的差異。首先,大多數系統支持張量并行性,以實現多GPU推理并提高系統性能。其中一些還支持流水線并行性或卸載,以分別支持多節點或資源受限環境下的推理。其次,部分系統從Orca學習,并實現了迭代級調度。第三,我們調查了這些系統的注意力內核,并分別介紹了它們在初始和增量階段的實現。對于初始階段,它們通常采用批量通用矩陣乘法(GEMM)方法(例如,cuBLAS、torch、Relay),有些利用在線softmax技巧減少HBM訪問(例如,Flash-attention、xFormers)。增量階段更具挑戰性,因為每個標記的生成方案導致較低的計算強度。為了提高GPU利用率,FasterTransformer手動融合了注意力計算(例如,線性投影、位置偏差、點積、softmax等)到一個高性能的內核模板中,并涉及多種內核優化技術,例如使用共享內存的緩存、用于歸約的warp-shuffle指令、張量核心的半矩陣乘法和累加(HMMA)以及多精度支持。FlexFlow-Serve啟用了投機解碼,并提供了一個基于樹的并行解碼內核,以零內存冗余和最大線程并行性驗證來自多個序列(即來自多個小型模型或不同波束或并行采樣)的推測標記。vLLM從FasterTransformer擴展了融合的多頭注意力(MHA)內核,通過將KV緩存分割成頁面來消除冗余內存使用,特別適用于并行采樣場景。LightLLM采用后續方法,將KV緩存劃分為更細粒度的標記級片段。
值得注意的是,上述討論并未涵蓋其他一些值得注意的方面。例如,即使對于最受歡迎的Flash和Paged注意力內核,它們通常在這些系統中以不同方式實現。TGI直接導入了原始的Flash/Paged注意力庫,LightLLM采用了OpenAI Triton實現的內核,MLC-LLM通過TVM生成內核,TensorRT-LLM修改了FasterTransformer的融合注意力內核以支持分頁注意力。另一個例子是關于輸入感知內核選擇。對于初始階段,TensorRT-LLM根據上下文長度從cuBLAS和Flash注意力中選擇。除了注意力計算外,對于線性投影運算符,最近有一種趨勢是用通用矩陣-向量乘積(GEMV)替換GEMM,以更有效地處理小批量大小(即1)的情況。這些系統還具有許多其他不同的特性,如編程語言(即C++、Python)、低精度支持(即FP16、INT8)、支持的硬件和模型。總之,這些不同的設計和實現選擇主要取決于它們優先考慮的優化目標。例如,vLLM提出分頁注意力以提高批量大小,從而實現更高的吞吐量(??????),而FlexFlow-Serve利用SpecInfer加速解碼以降低延遲(??????)。基本上,低延遲和高吞吐量是LLM服務系統的雙重優化目標,代表了互補但往往相互沖突的目標,需要平衡策略來優化個別任務的快速響應和在特定時間框架內處理的任務量最大化之間的權衡。一些最近的研究[66]進一步將響應延遲分解為TTFT+TPOT × 輸出序列長度,其中TTFT代表首個標記的時間,TPOT代表每個輸出標記的時間。前者由初始階段處理速度驅動,而后者直接取決于增量解碼期間的每次迭代執行時間。區分這兩個指標對LLM服務提供商有益,導致不同的系統設計選擇和用戶體驗(例如,更快的應用響應性[169],更長的提示[9])。此外,降低貨幣成本也是一些LLM服務系統的設計和實現的重要且實際目標[178]。盡管不太可能有一種適用于所有情況的解決方案,但我們相信未來的LLM服務系統將繼續整合這些不同的特性,從而不斷提高系統效率和硬件利用率。
結論
高效的LLM服務是實現普及先進人工智能技術的基本步驟。本綜述旨在為研究人員、實踐者和開發者提供對現有方法論的全面理解,使他們在實際環境中部署LLM時能夠做出明智的決策。通過匯總算法和系統方面的最新研究成果,本文希望加速進步,并在追求高效LLM服務解決方案的過程中促進創新。
本報告探討了 GHOSTS 框架的非玩家角色(NPC)客戶端生成的活動(包括軟件使用)與 GHOSTS 的默認行為和大型語言模型(LLM)生成的活動之間的比較。還探討了基本結果在復雜性和情感方面的比較。在研究中,利用了生成式人工智能(AI)系統的高級自然語言處理能力,特別是 LLMs(即 OpenAI 的 GPT-3.5 Turbo 和 GPT-4)來指導 GHOSTS 框架中的虛擬智能體(即 NPC),GHOSTS 框架是一種在計算機上模擬現實人類活動的工具。設計了一種配置,通過使用 LLM 使活動完全自動化,其中文本輸出成為可執行的智能體指令。初步研究結果表明,LLM 可以生成指令,從而在模擬環境中產生連貫、逼真的智能體行為。然而,某些任務的復雜性和指令到行動的轉換帶來了獨特的挑戰。這項研究對于提高模擬的逼真度和推動類人活動建模中的人工智能應用具有潛在的意義。建議開展進一步研究,以優化智能體對 LLM 指令的理解和響應。
網絡靶場是一個模擬環境,里面有各種登錄到計算機和網絡上的 NPC。這些 NPC 在組織內執行其角色所應執行的任務。現有的 GHOSTS 框架采用客戶機-服務器安裝方式,客戶機安裝在不同的操作系統(OS)上,執行所模擬角色的預期活動。服務器組件收集已執行活動的日志,并能根據一系列可用數據為每個智能體的新活動提供指導。
每個智能體在執行活動時都有各種考慮因素,包括智能體的特定參數、智能體過去的活動以及環境因素。固定參數包括姓名、身體特征、教育程度、工作經歷等。智能體還可能具有可變的特征,如偏好、信念、動機以及隨時間演變的過去活動歷史。
標準的 GHOSTS 配置提供了一套合理的默認值,可以充分隨機化這些考慮因素,以達到 T&E 的目的。團隊成員和其他人(如研究人員、培訓/練習用戶)都使用過這些隨機化策略;我們認為這種方法已經成熟,足以應對大多數情況。例如,模擬運營部門角色的智能體可能會在工作日每 20 分鐘創建一份文檔,同時交替使用互聯網瀏覽時間,以模擬文檔創建與必要的相關研究相結合的情況。
將 OpenAI 開發的不同 LLM 集成到 GHOSTS Animator [SEI 2023b]中,以便其他研究人員和網絡練習社區能夠繼續嘗試我們在本報告中討論的功能。每個 LLM 都充當了智能體的決策功能,生成文本輸出,我們將其轉化為智能體活動的指令。
為了實現這一整合,開發了一個系統,用于解釋 LLM 的輸出,并將其映射到 GHOSTS 框架中智能體可以執行的潛在行動上。該系統考慮到了語言解釋的可變性和智能體可用行動的限制。在將范圍廣泛的可能 LLM 輸出映射到更具體的智能體行動集時,我們面臨著獨特的挑戰。(我們將在下面的章節中描述這些挑戰。)這種集成方法能夠為我們的研究目的提供最廣泛的 LLM 響應,而不管它們與 GHOSTS 的執行是否相關。
為了在 GHOSTS NPC 中模擬更復雜的行為,將人類推理和行為的幾個方面整合到了智能體的決策過程中。這些方面都是在每次系統迭代或周期中執行的詢問過程中考慮的。在這種情況下,詢問是 LLM 分析智能體屬性和過去活動以決定下一步行動的機會。
每個 tick 或周期的持續時間是可配置的,可以是每個 CPU 周期所需的時間,也可以是更長的持續時間,如五分鐘。在每個 tick 期間,服務器會隨機選擇幾個智能體,并詢問它們以確定潛在的行動。這些行動可以包括學習新信息、與其他智能體建立聯系或執行一項活動。
這些詢問使用我們現有的隨機化策略。其中一些策略涉及純粹的隨機決策,而另一些則依賴于基于真實世界數據的預定義范圍或概率內的隨機化。目前實施的策略圍繞四個關鍵概念:
動機: 為了更準確地模擬智能體參與特定內容或執行特定操作的原因,我們需要了解他們的動機。在現實世界中,個人目的、目標和興趣往往是個人活動的驅動力。通過將動機納入模擬,我們可以模擬真實用戶的各種目標驅動行為。為此,我們采用了史蒂文-雷斯博士(Steven Reiss)設計的心理評估工具--雷斯動機檔案(Reiss Motivational Profile,RMP)[Reiss 2012]。RMP 根據人類的 16 種基本欲望來確定個人的核心價值觀和動機:權力、獨立、好奇、接受、秩序、節約、榮譽、理想主義、社會接觸、家庭、地位、復仇、浪漫、飲食、體育鍛煉和寧靜。通過模擬智能體對這些 RMP 欲望的獨特組合,我們模擬出了在整個演習過程中促使他們做出某些決定的內在動機。因此,這種理解揭示了智能體的行為傾向,有助于以更接近人類的方式指導其模擬行動。
關系: 人際關系對人類行為的影響是毋庸置疑的,它塑造了我們在社交圈中的學習、決策和互動方式。為了在模擬中更好地模擬這些關系的動態變化,我們在智能體的框架中加入了關系紐帶。這種方法包括在智能體之間建立聯系,考察它們之間關系的深度,以及研究它們對彼此的影響。這種方法使我們能夠模擬大量的社會互動,例如智能體向其信任的同伴尋求建議、與同事分享內容或參與各種話題的討論。這一特點不僅增強了智能體互動的真實性,還促進了智能體之間的知識獲取過程,這與人類在家庭、工作或公共場所從社交互動中學習的方式如出一轍。因此,在我們的模擬框架中引入關系可以增強智能體行為的真實性,更好地反映現實世界中人類互動的復雜性和細微差別。
知識: 人類用戶的一個顯著特點是他們在不同領域的知識廣度和深度。根據這一特點,我們為每個智能體配備了一個獨特的知識庫,以幫助塑造他們的模擬交互。這些知識庫為智能體如何尋求信息、分享專業知識或參與討論提供了信息,而所有這些都會受到他們對特定主題的理解的影響。智能體之間的動態知識獲取過程在我們的模擬中也發揮著至關重要的作用。知識獲取不僅增強了智能體互動的真實性,還通過潛在的內部威脅識別為模擬提供了額外的深度。例如,智能體知識庫中的異常變化可能表明其未經授權獲取了敏感信息,或者其關注點轉向了可能出于惡意目的而感興趣的主題。因此,將知識及其動態獲取納入智能體框架不僅能豐富模擬互動,還能增強內部威脅檢測和預防模擬的潛力。
信念: 個人持有的不同信念體系是其網絡行為的基礎,包括個人價值觀、觀點以及對爭議問題的立場。這些信念左右著互動和對話,往往會影響討論的動態。為了在智能體中模擬這種信念系統,我們將貝葉斯模型集成到智能體的推理過程中,使其能夠受到觀察到的支持某種信念的證據的影響。這種整合使智能體能夠就各種問題表達自己的立場,為自己的觀點辯護,甚至參與辯論,從而模擬現實世界中的人類行為。在社交媒體的背景下,對智能體的信念進行建模有助于表現分歧話題上的兩極分化觀點,使模擬更能代表真實世界的社會動態。
總之,通過將動機、關系、知識和信念整合到智能體推理框架中,我們成功地在 NPC 中創建了更全面、更真實的人類行為模擬。有了上述這么多組合的優勢,團隊就可以配置豐富的決策詢問,以確定任何智能體可能采取的行動方案。下一步是將這些詢問完全外包給 LLM,并比較結果,以便在大多數 T&E 場景中使用。
為了嚴格控制系統對 LLM 的訪問,我們設計了一種方法,即只有 GHOSTS 的服務器組件與人工智能進行交互。然后,服務器將人工智能生成的結果傳播給相關客戶端。這一過程的執行過程如下:
1.智能體(即 NPC)根據其默認配置,利用我們現有的隨機化方法啟動并執行一項任務,如文檔創建和網頁瀏覽。
2.智能體每隔幾分鐘向服務器報告其完成的活動。
3.同時,在這五步過程中,服務器作業每輪都會詢問一個隨機的智能體子集。至關重要的是,在每一輪開始時,步驟 2 中的活動歷史記錄都是可用的,并且可以作為代理下一步應該執行什么活動的決策因素。
4.服務器將新確定的活動傳達給客戶端,然后由客戶端執行。
5.該過程循環往復。如果智能體已經在運行,它只需尋找下一個要執行的活動。
在步驟 3 中,目標是將決定智能體活動的任務委托給 LLM,同時考慮 (A) 有關智能體的具體信息和 (B) 已執行活動的歷史記錄。考慮到 LLM 可能需要處理大量信息所帶來的成本影響,我們將 (A) 中的信息限制為最相關的細節,如個人數據、教育和組織歷史以及軟件賬戶。(B) 中的活動信息及其執行參數則用于提供智能體已完成任務的歷史記錄。
許多 LLM 應用程序編程接口(API)會根據系統或用戶直接輸入信息的不同來區分信息提示。我們使用系統級提示,以便對我們傳輸的信息和預期響應進行更嚴格的控制。這種方法使我們能夠以更精確、更可控的方式引導 LLM 的行為。
本論文旨在利用深度學習技術提高從二維目標圖像中估計目標姿態的能力。為此,我們采用了一種名為高分辨率網絡(High-Resolution Net)的尖端卷積神經網絡來訓練關鍵點檢測模型并評估其性能。實驗使用了兩個不同的數據集,包括 600,000 張合成圖像和 77,077 張高能激光束控制研究試驗臺(HBCRT)圖像。這些圖像來自六種不同的無人駕駛飛行器,用于訓練和評估目的,高分辨率網在 80% 的圖像上進行訓練,在其余 20% 的圖像上進行測試。運行高分辨率網絡時使用了 MMPose 框架,這是一個 Python 庫,其中包含多種卷積神經網絡選項。研究結果表明,High-Resolution Net 在姿勢估計方面表現良好,但由于目標形狀的對稱性,在左右反轉方面仍存在明顯差距。這項研究為今后利用高分辨率網絡進行目標姿態估計研究奠定了基礎。進一步的研究將集中式提高圖書館中左右分辨的準確性,以增強這些成果。
本論文分為五章。第一章是引言,介紹了本課題的概況及其相關性,以及如何進行實驗。第二章是文獻綜述,通過相關的學術和行業資料更詳細地介紹了這一研究領域。第三章是問題的提出和方法,介紹了將要解決的問題和解決問題的方法。第四章是模擬結果和深度學習性能評估,對結果進行評估,看是否取得了有意義的進展。第五章是結論,從更廣闊的視角看待結果,并討論未來工作的可能性。
知識圖譜是關于實體及其關系的集合,是非常有用資源。然而,由于知識圖通常是不完備的,所以進行知識圖補全或鏈接預測是有用的,即預測一個不在知識圖譜中的關系是否可能是真的。本文綜述了用于知識圖譜完成的實體和關系嵌入模型,總結了在標準基準數據集上最新的實驗結果,并指出了未來可能的研究方向。