亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要—人工智能(AI)的快速發展已徹底改變了眾多領域,尤其是大規模語言模型(LLMs)和計算機視覺(CV)系統,分別推動了自然語言理解和視覺處理的進步。這些技術的融合催生了多模態人工智能,能夠實現跨文本、視覺、音頻和視頻等模態的更豐富的跨模態理解。尤其是多模態大規模語言模型(MLLMs)作為一種強大的框架,展現了在圖像-文本生成、視覺問答和跨模態檢索等任務中的卓越能力。盡管取得了這些進展,MLLMs的復雜性和規模也帶來了可解釋性和可解釋性方面的重大挑戰,而這些挑戰對于在高風險應用中建立透明性、可信度和可靠性至關重要。本文提供了關于MLLMs可解釋性和可解釋性的全面綜述,提出了一個新穎的框架,將現有研究從以下三個角度進行分類:(I) 數據,(II) 模型,(III) 訓練與推理。我們系統地分析了從詞匯級到嵌入級表示的可解釋性,評估了與架構分析和設計相關的方法,并探討了增強透明度的訓練和推理策略。通過比較各種方法論,我們識別了它們的優缺點,并提出了未來研究方向,以解決多模態可解釋性中尚未解決的挑戰。本文綜述為推動MLLMs的可解釋性和透明度提供了基礎資源,旨在引導研究人員和實踐者開發更加負責任和穩健的多模態人工智能系統。

關鍵詞—多模態大規模語言模型、可解釋性、可解釋性、綜述

引言 人工智能(AI)的快速發展已經顯著改變了眾多領域。最近,AI領域最具影響力的進展之一是大規模語言模型(LLMs)的發展,這些模型在文本生成、翻譯和對話式AI等一系列自然語言任務中表現出卓越的語言理解和生成能力[1]。同樣,計算機視覺(CV)的進展使得系統能夠有效處理和解釋復雜的視覺數據,推動了物體檢測、動作識別和語義分割等任務的高精度實現[2]。最近,這些技術的融合激發了對多模態人工智能的興趣,它旨在整合文本、視覺、音頻和視頻等多種模態,實現更加豐富和全面的多模態理解[3, 4, 5, 6, 7, 8, 9, 10, 11]。多模態大規模語言模型(MLLMs)在深度學習技術的重大進展推動下,經歷了快速的發展[12, 13, 14, 15, 16, 17]。通過整合多種數據源,MLLMs在一系列多模態任務中展示了先進的理解、推理和生成能力,包括圖像-文本生成[18, 19, 20]、視覺問答[21, 22, 23, 24, 25, 26, 27, 28]、跨模態檢索[29, 30, 31]、視頻理解[32, 33, 34, 35, 36, 37, 38]。因此,MLLMs在多個領域找到了廣泛的應用[39, 40, 41],包括自然語言處理(NLP)[42, 43]、計算機視覺(CV)[44, 45]、視頻[15, 46, 47]、自動駕駛[3, 48, 49]、醫學[50, 51, 52]和機器人技術[53, 54, 55, 56, 57, 58]。然而,隨著MLLMs的復雜性和規模的增長,出現了一個關鍵挑戰:解碼MLLMs的決策過程[6, 59, 60]。 可解釋人工智能(XAI)領域已經成為使復雜AI系統的決策過程更加透明和易于理解的關鍵[61, 62, 63]。可解釋性和可解釋性被定義為能夠以人類可理解的方式解釋或呈現[64, 65]。盡管在單模態的可解釋性和可解釋性方面已經取得了顯著進展,例如在卷積神經網絡(CNN)[66, 67]和變換器(transformers)[68]在圖像上的應用,以及LLMs[69]在文本中的應用,但多模態領域存在獨特的挑戰,如不同模態的對齊和分解。此外,MLLMs的可解釋性和可解釋性對于確保透明性和可信度至關重要,特別是在人工智能決策對人類產生重大影響的高風險應用中,這涉及如何在模型中結合不同的數據類型,以及它們的相互作用如何影響輸出。根據近期的研究[64, 70, 71],本文定義了在MLLMs中,可解釋性指的是那些本質上易于理解的內部結構,使得輸入如何轉化為輸出能夠直觀地理解。另一方面,MLLMs的可解釋性涉及提供關于模型決策背后的外部分析的后置技術。 本文提出了一種新的視角來分類MLLMs的可解釋性和可解釋性,通過整合數據、模型、訓練與推理的視角。正如圖1所示,我們從三個角度考察MLLMs的可解釋性和可解釋性:數據(第III節)、模型(第IV節)、訓練與推理(第V節)。繼數據驅動的可解釋性研究[72, 73, 74, 75]之后,我們探討了數據視角(第III節),分析輸入和輸出數據如何歸因于模型的決策。我們還分析了基準和應用,以評估各種任務中的可信度和可靠性,從而確保其在現實場景中的魯棒性和適用性[76, 77]。在模型的可解釋性和可解釋性方面[78, 79, 80, 81, 82, 83, 84],從模型視角(第IV節),我們深入分析了從詞匯級、嵌入級、神經元級、層級到架構級的各個層面。在詞匯級[85, 86, 87, 88, 89],我們研究了單個詞匯對模型輸出的影響,并探索了增強可解釋性的方法。在嵌入級[90],我們評估了多模態嵌入如何影響MLLMs的性能和可解釋性,提供了對底層表示機制的更深刻理解。對于神經元級[91, 92, 93],我們分析了單個單元和特定神經元組的作用,以理解它們對整體模型行為的貢獻。在層級級[67, 78, 94],我們研究了不同層次如何影響模型內的決策過程。在架構方面,我們區分了架構分析和架構設計[95, 96, 97, 98]的可解釋性方法,強調了促進透明性和更好理解模型操作的策略。 此外,我們還探討了增強模型透明性和可解釋性的訓練與推理策略(第V節)。在訓練階段[79],我們總結了各種訓練機制和權重調整如何影響MLLMs的可解釋性。我們討論了旨在改善對齊、減少幻覺并促進核心知識和泛化能力獲取的技術。在推理階段,我們研究了如何在不需要重新訓練的情況下,緩解諸如幻覺等問題,包括過度信任懲罰機制和鏈式推理技術。 通過整合這些視角[3, 99, 100],我們的綜述提供了對MLLMs可解釋性和可解釋性挑戰與進展的全面理解。我們相信,這一全面分析將為致力于開發更透明、可靠和可信的多模態模型的研究人員和實踐者提供寶貴的資源。本研究的主要貢獻總結如下: * 我們首次提供了對現有多模態大規模語言模型(MLLMs)可解釋性和可解釋性的深入和全面回顧。 * 我們展示了當前多模態大規模語言模型可解釋性和可解釋性方法的結構化和比較分析,提出了一種新穎的分類方法,將這些方法組織為數據、模型、訓練與推理視角。 * 我們突出顯示了可能推動該領域發展的研究方向,為研究人員進一步發展MLLMs的可解釋性和可解釋性方法提供了有價值的指導。

II. 綜述框架

A. 綜述范圍 近年來,多模態模型和可解釋人工智能(XAI)取得了顯著進展,許多研究探索了使這些復雜模型更加透明和可解釋的方法[72, 73, 74]。為了將本綜述的范圍縮小到一個可管理的范圍,我們聚焦于多模態大規模語言模型(MLLMs)的可解釋性和可解釋性。MLLMs的可解釋性指的是那些本質上易于理解的內部結構,能夠為輸入如何被處理并轉化為輸出提供直觀的洞察[78, 79]。可解釋的MLLMs使研究人員和實踐者能夠深入理解這些跨模態的動態,澄清每個模態如何影響和塑造模型的決策過程[90]。可解釋性涉及使用外部技術來闡明模型決策背后的原因,這在MLLMs中對于理解多模態間復雜的交互作用至關重要[95]。這種重點不僅增強了我們對多模態集成的理解,也回應了對復雜AI系統透明度日益增長的需求[79]。 在本綜述中,我們集中探討MLLMs中四個主要維度的可解釋性和可解釋性: * 數據可解釋性 —— 探討來自不同模態的輸入數據如何預處理、對齊和表示,以支持跨模態的可解釋性,以及如何應用因果歸因方法來增強對模型決策的理解[72, 75]。 * 模型可解釋性 —— 闡明多模態模型本身的結構和功能,提供關于神經元、層次和架構如何貢獻于可解釋性的洞察[67, 78, 79, 80, 85, 86, 87, 90, 91, 95]。 * 訓練與推理可解釋性 —— 理解MLLMs的訓練和推理過程如何影響可解釋性,這對于在學習階段和實際應用中提升透明度至關重要。

為了保持焦點,我們將單一模態的可解釋性方法排除在本綜述的主要范圍之外,如變換器(Transformer)的可解釋性、卷積神經網絡(CNN)的可解釋性或LLMs的可解釋性,僅作為簡要的背景信息進行介紹。類似地,一些不涉及多模態交互獨特挑戰的通用可解釋性方法也不在本綜述的主要范圍之內。相反,我們將重點放在那些專門設計用于解釋和闡明多模態之間交互作用的方法和模型上。 B. 綜述方法論 為了提供對MLLMs可解釋性和可解釋性的全面概述,我們進行了廣泛的文獻回顧,涵蓋了機器學習、自然語言處理(NLP)、計算機視覺(CV)和多模態系統等領域的研究論文。我們重點審查了過去十年(2010–2024)間發表的論文,特別是研究這些領域中可解釋性和可解釋性的不斷增長的文獻。我們的研究方法包括幾個關鍵步驟。首先,我們使用“多模態大模型”、“可解釋性”和“可解釋性”等關鍵詞,在Google Scholar等數據庫中搜索相關論文,具體細節見表I。為了進一步確保綜述的完整性,我們還審查了關鍵論文的參考文獻,并包括了對該領域具有影響力的早期工作。 在收集候選論文后,我們進行了多步驟的篩選過程。首先通過標題篩選潛在相關的論文,然后進行摘要篩查以確認相關性。如果標題和摘要不足以做出決策,我們會進一步查閱完整的文本。如圖2所示,最終選擇的文獻涵蓋了應用于MLLMs的各種可解釋性和可解釋性技術,包括輸入輸出分析、模型組件和訓練動態等。

結論

本綜述系統地探討了多模態大規模語言模型(MLLMs)的可解釋性和可解釋性,強調了決策過程透明性的重要性。我們將可解釋性方法分為三個主要領域——數據、模型和訓練與推理——提供了一個結構化框架來組織研究并指導未來的研究工作。盡管已經取得了顯著進展,但在可解釋性方法和確保廣泛適用性方面仍然存在挑戰。未來的努力應著眼于填補這些空白,構建對MLLMs的統一理解,推動創新,使多模態系統變得更加可靠和可信。

付費5元查看完整內容

相關內容

摘要—隨著數據可用性的擴展,機器學習(ML)在學術界和工業界取得了顯著的突破。然而,不平衡的數據分布在各種原始數據中普遍存在,并且通過偏倚決策過程嚴重影響了機器學習的性能。為了深入理解不平衡數據并促進相關研究和應用,本文系統分析了各種現實世界的數據格式,并將現有研究針對不同數據格式的工作歸納為四個主要類別:數據重平衡、特征表示、訓練策略和集成學習。這一結構化分析幫助研究人員全面理解不平衡在不同數據格式中的廣泛存在,從而為實現特定研究目標鋪平了道路。我們還提供了相關開源庫的概述,突出當前面臨的挑戰,并提出了旨在推動該關鍵研究領域未來進展的新見解。 關鍵詞—機器學習、不平衡數據學習、深度學習。

I. 引言

隨著數據可用性的擴展,機器學習(ML)已成為學術界和工業界技術進步的前沿。這些機器學習模型被精心設計,以適應特定的數據分布,并隨后應用于各種下游任務,從預測分析到自動決策系統。因此,機器學習模型的性能受到訓練數據質量和分布的深刻影響。具有代表性、多樣化且經過精心預處理的數據確保模型不僅準確,而且在不同的環境和挑戰中具有魯棒性和廣泛的泛化能力。 然而,自然數據分布本質上復雜且經常存在缺陷。在這些挑戰中,不平衡數據分布尤其突出,反映了各個領域普遍存在和自然產生的差異。例如,在金融領域,欺詐行為的實例相較于合法交易來說相對稀少,這使得模型難以準確地檢測這些異常。在醫療領域,稀有疾病在醫學數據集中可能被低估,這為開發穩健的診斷模型帶來了重大挑戰。在工業領域,質量控制系統常常需要識別稀有的產品缺陷,而這些缺陷可能會被大量合格產品所掩蓋。這些情境不僅使機器學習模型的訓練更加復雜,而且對系統的魯棒性提出了更高要求。 通常,不平衡的數據分布顯著影響機器學習模型的性能和實用性。這些模型通常在高資源組上表現良好,這些組的數據充足,但在低資源組上表現較差,后者的數據稀缺,導致數據分布的界限模糊。因此,盡管機器學習模型可能在整體上表現令人滿意,但在這些低資源組中的有效性會顯著降低。然而,這些低資源組往往在現實世界的應用中更為重要。例如,在醫學診斷中,由于數據不足未能檢測到稀有疾病,可能導致漏診和不充分的患者護理。同樣,在金融系統中,無法識別稀有的欺詐實例可能導致重大財務損失和安全性受損。機器學習模型忽視這些稀有但關鍵的實例,降低了自動決策系統在實際應用中的效用和安全性。 為應對這些挑戰,機器學習領域已提出了一系列方法,我們將其組織為四個基本類別——數據重平衡、特征表示、訓練策略和集成學習——每個類別都與機器學習過程中的關鍵環節相對應。數據重平衡技術對于調整數據分布以更好地進行表示至關重要,采用了如過采樣少數類和欠采樣多數類等方法。這一調整對于防止模型過度偏向多數類樣本至關重要,符合機器學習中的數據準備階段。特征表示策略增強了準確捕捉和表示與少數類樣本相關信息的能力。這一改進在特征工程階段至關重要,使得模型能夠有效地從所有樣本中學習并做出預測。先進的訓練策略調整學習算法,以最小化其對多數類樣本的內在偏見。這一訓練階段的關鍵調整確保了學習過程的包容性,平等地考慮所有樣本。最后,集成方法通過組合多個模型,屬于機器學習過程中的模型集成部分。這些方法利用多個算法的優勢,以潛在地減少由不平衡數據引發的偏差,從而提高最終模型輸出的魯棒性和準確性。通過根據機器學習的基礎過程對方法進行分類,這一分類不僅有助于全面的領域調查,還闡明了這些策略背后的動機,幫助實現特定目標。此調查還探討了不平衡在不同數據格式中的表現,包括圖像、文本和圖形,突出了每種格式的差異、獨特的挑戰和所需的適應性。這一探索至關重要,因為它加深了對每種數據格式的理解,并有助于為復雜數據格式場景制定針對性的機器學習策略。 本調查的貢獻總結如下:

  • 我們提供了關于不平衡數據學習的全面文獻綜述,系統地概述了基于機器學習基礎過程的方法。
  • 我們對不平衡在各種數據格式中的表現進行了深入分析,包括圖像、文本和圖形,提供了每種格式特有的挑戰和方法的詳細探索。
  • 我們突出了可用于解決不平衡數據問題的資源,并探討了當前面臨的挑戰和未來的研究方向。這一討論旨在幫助那些在應對不平衡問題時掙扎的研究人員,幫助他們有效和高效地開發策略。

本調查的結構安排如下:第二節對處理不平衡問題的方法進行了詳細調查,并按我們的分類法進行組織;第三節廣泛討論了不平衡在各種數據格式中的表現;第四節對不平衡數據方法的評估指標進行了詳細研究;第五節介紹了可用于學習不平衡數據的資源;最后,第六節總結了該領域的挑戰與未來發展方向。

付費5元查看完整內容

摘要—大型語言模型(LLMs)在廣泛的任務中展現出了卓越的能力,但在專業領域的應用仍面臨挑戰,主要原因在于需要深厚的領域專業知識。檢索增強生成(RAG)作為一種有前景的解決方案,通過無縫集成外部知識庫,使大型語言模型能夠在推理過程中實時訪問領域特定的專業知識,從而實現定制化。然而,傳統基于平面文本檢索的RAG系統面臨三個關鍵挑戰:(i)專業領域中復雜的查詢理解,(ii)跨分布式源的知識整合困難,和(iii)大規模下的系統效率瓶頸。本綜述提出了一種系統性的分析,重點討論了基于圖的檢索增強生成(GraphRAG),這是一種通過圖結構革命性地改變領域特定大型語言模型應用的新范式。GraphRAG通過三項關鍵創新解決了傳統RAG的局限性:(i)圖結構的知識表示,顯式捕捉實體關系和領域層次,(ii)高效的基于圖的檢索技術,支持多跳推理的上下文保持型知識檢索,和(iii)結構感知的知識整合算法,通過利用檢索到的知識進行準確且邏輯連貫的LLM生成。本文對GraphRAG的技術基礎進行了系統分析,并考察了在多個專業領域中的現有實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在//github.com/DEEP-PolyU/Awesome-GraphRAG供社區使用。

關鍵詞—檢索增強生成,知識圖譜,大型語言模型,GraphRAG

I. 引言

大型語言模型(LLMs),如GPT系列 [1],憑借其在廣泛任務中的卓越能力,令世界為之一驚,在文本理解 [2]、問答 [3] 和內容生成 [4]–[6] 等領域取得了突破性進展。然而,盡管LLMs在許多任務上表現出色,它們在處理需要領域專業知識的知識密集型任務時仍面臨批評 [7]。具體而言,LLMs在專業領域中的應用仍然面臨三大挑戰: ? 知識局限性:LLMs的預訓練知識廣泛,但在專業領域中較為淺薄。它們的訓練數據主要來自通用領域內容,導致在專業領域的知識深度不足,并且可能與當前的領域特定標準和實踐存在不一致。 ? 推理復雜性:專業領域要求精確的多步驟推理,涉及領域特定的規則和約束。LLMs往往難以在擴展的推理鏈中保持邏輯一致性和專業準確性,尤其是在處理技術約束或領域特定協議時。 ? 上下文敏感性:專業領域通常涉及依賴于上下文的解釋,相同的術語或概念在特定情況下可能具有不同的含義或影響。LLMs往往無法捕捉這些細微的上下文差異,導致潛在的誤解或不當概括。 為了將LLMs適配到特定或私有領域,最初的策略是通過使用專業數據集對LLMs進行微調 [8]。這種方法通過增加有限的參數并固定預訓練中學習到的參數來提高性能 [9]。然而,領域特定數據集與預訓練語料庫之間的顯著分布差距使得LLMs在不妥協現有理解的情況下整合新知識變得困難 [10]。谷歌研究的一項最新研究進一步突出了使用監督微調更新知識的風險,特別是在新知識與已有信息沖突時;通過監督微調獲取新知識可能導致模型生成新的幻覺,甚至遭遇嚴重的災難性遺忘 [11]。 檢索增強生成(RAG) 提供了一個有前景的解決方案來定制LLMs以適應特定領域 [12]。RAG并不是通過重新訓練LLMs來整合更新,而是通過利用外部知識庫增強這些模型,無需修改其架構或參數。這種方法使LLMs不僅能利用其預訓練知識,還能實時檢索領域特定信息,從而生成更加準確和可靠的回答。傳統的RAG系統通過三個關鍵步驟進行操作:知識準備、檢索和整合。在知識準備階段,外部資源(如文檔、數據庫或網頁)被分割成可管理的文本塊,并轉換為向量表示以便高效索引。在檢索階段,當用戶提交查詢時,系統通過關鍵詞匹配或向量相似度度量來搜索相關的文本塊。整合階段將這些檢索到的文本塊與原始查詢結合,以生成用于LLM響應的知情提示。近年來,一些先進的RAG系統已經超越了簡單的文本塊檢索,提供了更為復雜的知識增強方法。這些方法包括:通過多級檢索保持文檔結構的層次化RAG [13][14],實施兩階段檢索以提高召回率和精確度的重排序系統 [15][16],自動分解復雜查詢的自查詢RAG [17],以及根據查詢類型動態調整檢索策略的自適應RAG [18][19]。這些先進的RAG系統通過提升上下文感知能力、檢索準確性,并更有效地處理復雜查詢,旨在克服傳統RAG方法的局限性。 RAG的出現為定制LLMs提供了一個有前景的方法,但盡管如此,RAG仍面臨若干關鍵限制,影響其在實際應用中的效果。這些限制可大致分為四個主要挑戰,顯著影響RAG增強的LLMs的性能和實用性。主要挑戰在于復雜查詢理解。專業領域通常涉及復雜的術語和行業特定的行話,需要精確的解釋 [20]。這些領域中的用戶查詢通常包含大量技術性術語和行業特有的表達,解決方案往往需要跨多個相關概念進行推理。傳統的RAG方法依賴于簡單的關鍵詞匹配和向量相似度技術,這些方法無法有效捕捉準確和全面的深層語義差異和多步驟推理過程 [21]。例如,當詢問概念A與概念D之間的關系時,這些系統通常只檢索直接相關的信息,而忽略了可能橋接這一關系的關鍵中介概念,如B和C。這種狹隘的檢索范圍限制了RAG對廣泛上下文理解和復雜推理的能力。 另一個關鍵挑戰是從分布式來源整合領域知識。領域知識通常來自不同的資源,如教科書、研究論文、行業報告、技術手冊和維護日志。這些文本文檔可能具有不同的質量、準確性和完整性。檢索到的知識通常是平坦的、廣泛的且復雜的,而領域概念通常分散在多個文檔中,且不同概念之間缺乏清晰的層次關系 [7][22][23]。盡管RAG系統通過將文檔分割成較小的塊以便高效索引來管理這種復雜性,但這種方法不經意間犧牲了重要的上下文信息,顯著妥協了檢索準確性和上下文理解能力。這一限制妨礙了在相關知識點之間建立穩固聯系,導致理解片面,進而降低了領域專業知識的利用效果。 第三個限制來自LLMs固有的限制。盡管RAG系統可以從龐大的知識庫中檢索相關信息,但LLM處理這些信息的能力受限于其固定的上下文窗口(通常為2K-32K個token) [1][24]。復雜文檔中的長程依賴關系無法完全捕捉,因為超出上下文窗口的內容必須被截斷或總結,這會打斷自然的語義單元和邏輯流程。在專業領域中,保持跨廣泛知識背景的一致性變得更加棘手,因為在上下文窗口截斷過程中,關鍵信息可能會丟失。這一固有限制直接影響了系統從大規模知識庫中處理和綜合信息的能力。 最后的挑戰與系統效率和可擴展性有關。整個RAG管道——從初步的語料預處理和索引到實時檢索和生成——面臨顯著的效率瓶頸 [25][26]。外部知識庫中包含大量與領域無關的信息,而領域特定的術語通常在這些文檔中分布稀疏。RAG系統計算成本高且耗時 [25],特別是在處理大規模知識源時,因為模型需要搜索大量未結構化的文本以尋找相關信息。此外,實時檢索和跨文檔推理可能引入相當大的延遲,影響用戶體驗。隨著知識庫規模的增長,RAG的可擴展性受到檢索質量和準確性的下降限制 [26],這進一步限制了其在廣泛且動態的專業環境中的實際部署。 為了應對這些限制,圖檢索增強生成(GraphRAG)作為一種新范式應運而生,旨在通過組織良好的背景知識和改進的上下文推理定制LLMs [25][27]–[29]。基于圖結構,現有的GraphRAG模型可分為三大類:? 基于知識的GraphRAG,將圖作為知識載體;? 基于索引的GraphRAG,使用圖作為索引工具,從語料庫中檢索相關的原始文本;? 混合型GraphRAG,結合了基于知識和基于索引框架的優勢,為復雜推理任務提供了更先進的解決方案。基于知識的GraphRAG和基于索引的GraphRAG代表了兩種不同的增強LLMs的圖結構方法。基于知識的GraphRAG側重于將非結構化文本文檔轉化為明確且結構化的知識圖譜,其中節點表示領域概念,邊表示它們之間的語義關系,從而更好地表示層次關系和復雜的知識依賴性。相比之下,基于索引的GraphRAG保持原始文本形式,同時主要利用圖結構作為索引機制來高效地組織和檢索相關文本塊。通過將圖結構融入文本索引,基于索引的GraphRAG方法在文本塊之間建立語義連接,便于高效的查找操作和檢索。雖然基于知識的GraphRAG強調通過圖轉換明確建模領域知識和語義關系,而基于索引的GraphRAG則優先優化信息檢索和通過圖形索引策略提升文本信息的可訪問性。這兩種方法在目的上有所不同:基于知識的GraphRAG旨在通過圖結構推理能力創建結構化的知識表示,幫助更好地理解復雜關系;而基于索引的GraphRAG則側重于通過圖結構索引策略優化相關文本信息的檢索和可達性。 在本文中,我們系統地分析了GraphRAG的技術基礎,并考察了在各個專業領域中的當前實現,識別了關鍵的技術挑戰和有前景的研究方向。所有與GraphRAG相關的資源,包括研究論文、開源數據和項目,已匯集在

本綜述對GraphRAG進行了全面分析,詳細介紹了其分類、機制、挑戰和未來的研究方向,并將內容組織為七個主要部分,逐步從基礎概念到實際應用展開。具體來說,我們在第二部分(Section 2 II)首先建立了基礎框架,追溯了GraphRAG從傳統RAG系統的演變,探討了RAG在處理結構化知識時的局限性,并介紹了GraphRAG在復雜推理任務中的核心概念和優勢。接下來的三部分系統地探討了GraphRAG系統的關鍵組件:包括知識承載圖和索引圖(第三部分Section 3 IV)兩種主要的結構化知識組織范式;從結構化知識庫中提取與查詢相關的事實信息的檢索技術(第四部分Section 4 V);以及有效地將檢索到的知識整合到LLM中的知識集成方法(第五部分Section 5 VI)。隨著向實際應用的推進,第六部分(Section 6 VIII)通過提供詳細的實施指南、回顧開源項目,并呈現由全面數據集和評估基準支持的領域特定案例研究,討論了GraphRAG的實施方面。最后,第七部分(Section 7 VII)通過識別未來的研究方向,并討論知識質量、檢索效率、系統泛化能力和安全性等潛在挑戰,結合實踐指導,總結了構建領域特定GraphRAG系統的建議。 本綜述在現有的綜述 [28]–[30] 基礎上進行了進一步擴展,采用了更加系統和全面的方法分析GraphRAG系統。盡管之前的綜述提供了Graph基索引、圖引導檢索和圖增強生成的基本工作流描述,我們引入了一個更為復雜且全面的分類法,將GraphRAG方法清晰地分為三類(基于知識的、基于索引的和混合型GraphRAG),從而提供了對該領域更加細致的理解。我們的綜述采用了更為系統的六部分結構,邏輯地從理論基礎到實踐應用展開,詳細探討了每個組成部分,包括知識組織范式、檢索技術和集成方法。

與之前的綜述不同,我們通過詳細回顧開源項目、領域特定案例研究以及提供全面的數據集和評估基準,提供了豐富的實踐指導。我們還對多個維度的挑戰和解決方案進行了更為深入的分析,包括知識質量、檢索效率、系統泛化能力和安全性問題。最后,盡管現有綜述廣泛討論了潛在應用,我們提供了更多基于實證證據和實施示例的可操作性見解,使我們的綜述成為在生產環境中部署GraphRAG系統的實踐者更具價值的資源。

付費5元查看完整內容

 摘要—生成性人工智能(AI)通過使機器能夠以空前的復雜性創建和解釋視覺數據,迅速推動了計算機視覺領域的發展。這一變革建立在生成模型的基礎上,能夠生成逼真的圖像、視頻以及3D/4D內容。傳統上,生成模型主要關注視覺逼真度,而往往忽視了生成內容的物理合理性。這一差距限制了其在需要遵守現實世界物理法則的應用中的效果,如機器人技術、自動化系統和科學模擬。隨著生成性人工智能不斷融入物理現實和動態仿真,其作為“世界模擬器”的潛力不斷擴大——能夠模擬由物理法則主導的交互,架起虛擬與物理現實之間的橋梁。本綜述系統地回顧了這一新興領域——計算機視覺中的物理感知生成性AI,按其如何融入物理知識對方法進行了分類——無論是通過顯式仿真還是隱式學習。我們分析了關鍵范式,討論了評估協議,并指出了未來的研究方向。通過提供全面的概述,本綜述旨在幫助未來在視覺領域的物理基礎生成方面的發展。綜述中提到的論文匯總在

//github.com/BestJunYu/Awesome-Physics-aware-Generation

1 引言生成學習一直是現代計算機視覺的基礎支柱,解決了理解、合成和操作視覺數據中的關鍵挑戰。在過去的十年里,該領域見證了多種生成模型的快速發展,包括變分自編碼器(VAE)[1]、生成對抗網絡(GAN)[3]、擴散模型(DM)[4]、[5]、[6]、神經輻射場(NeRF)[7]、高斯濺射(GS)[8] 和視覺自回歸模型(VAR)[9]。這些模型不斷推動生成學習的邊界,利用越來越強大的架構來捕捉視覺數據的潛在分布。其目標是使機器能夠以類似人類的創造性和理解方式推理視覺世界,通過在未見過的場景中想象新的視覺內容實例。在這些進展中,擴散模型因其能夠生成高度逼真的輸出而成為特別值得注意的技術。通過通過學習到的去噪過程迭代地精煉隨機噪聲,擴散模型展現出卓越的魯棒性和多功能性,成為近期生成方法學的基石。生成模型的應用跨越了多種視覺內容的模態,包括具有語義理解的圖像生成、具有動態時間理解的視頻生成、具有增強空間理解的3D內容生成[10]、[11]、[12]以及具有更復雜和綜合理解的4D內容[13]、[14]、[15]、[16]、[17]、[18]、[19]。這些進展突顯了生成學習在日益復雜的視覺任務中的巨大潛力。在這些不同的視覺模態中,視頻生成最近在生成學習領域獲得了顯著關注,它為擴展大型生成模型處理更高維數據提供了一個更加具有挑戰性的試驗平臺。這一復雜性不僅源于單個幀的空間復雜性,還來自于跨序列所需的時間一致性。許多商業視頻生成模型已被開發并引起了廣泛的公眾關注,如OpenAI的Sora [20]、Google的Veo2 [21]、騰訊的Hunyuan [22]和快手的Kling [23]。視頻生成已在多種形式和設置中得到深入研究,從最基本的無條件生成[24]、[25]到圖像到視頻生成[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、文本到視頻生成[24]、[25]、[26]、[29]、[30]、[30]、[34]、[35]、[36]、[37]、視頻到視頻生成[38]、[39]、以及視頻編輯或定制[40]、[41]、[42]、[43]。這些設置各自解決了獨特的挑戰,從保持時間連續性到結合來自文本或視覺輸入的語義引導。更重要的是,視頻在生成AI視覺的未來中占據了關鍵地位。互聯網上可用的大量視頻數據封裝了關于現實世界的豐富信息,使視頻成為生成AI可以學習建模復雜現實世界現象的媒介。在這個背景下,視頻可以被視為現實世界決策的“語言”,具有彌合數字和物理領域的潛力[44]。視頻生成有望提供一個統一的接口作為“世界模型”[45],處理物理知識,類似于文本大語言模型(LLM)處理抽象知識的方式。這種模型可以促進大量下游任務的執行,包括自動駕駛、科學仿真、機器人[46]、[47]、[48]、[49]、[50]以及其他形式的具身智能。為了實現這一潛力,生成過程應能夠與人類或其他系統的外部控制進行交互。這種互動性促進了動態決策制定和基于互動優化結果的能力,催生了可以描述為生成交互環境的概念[44]、[51]、[52]、[53]。視頻生成已經與多種交互控制信號相結合,如運動向量或軌跡[54]、[55]、[56]、[57]、[58]、手部掩碼[59]、潛在動作[53]、[60]、機器人操作[47]、相機運動[61]、演示[62]和自然語言描述[63]、[64]、[65]。這些互動元素突顯了生成視頻模型的多功能性和適應性,為其演變為世界模型鋪平了道路。然而,從生成到穩健世界建模的過渡仍然存在一個關鍵差距:真實世界物理的忠實理解和復制能力[66](見圖1)。當前的最先進模型主要針對像素空間中的視覺真實感進行優化,而非在實體或概念空間中的物理合理性。為了使生成模型能夠作為物理世界的模擬器,它們必須融入對物理法則的深刻理解,如動力學、因果關系和材料屬性。這種物理意識對于超越僅生成視覺上吸引人的輸出至關重要,以確保內容與物理世界的約束和行為一致。因此,我們提供本綜述,作為對現有文獻的及時而全面的回顧,旨在將物理感知嵌入生成模型。通過審視這些努力,我們希望突出至今所取得的進展,提供清晰的范式結構,并識別未來的潛在研究方向。綜述范圍:本綜述的范圍是關于增強生成輸出物理感知的計算機視覺生成模型。因此,我們不包括將物理原理作為先驗知識或歸納偏置融入模型或神經架構設計的文獻,例如物理信息神經網絡(PINN)[67]、[68],即使任務與生成學習相關,例如[69]、[70]、[71]。我們專注于生成任務,因此不包括圖像處理任務,如去模糊、去霧和增強,盡管我們注意到這些工作中有大量的物理相關內容。為了專注于計算機視覺,我們還排除了純圖形和渲染研究與物理仿真相結合的文獻。與其他綜述的比較:如同在我們的范圍中所述,本綜述與現有的關于物理信息機器學習[72]、物理信息計算機視覺[73]和物理信息人工智能[74]的綜述不同,因為它們強調的是在物理先驗知識下的模型設計方面。我們的綜述專注于具有物理感知的生成,因此與現有的關于生成模型[75]、擴散模型[76]、[77]、視頻擴散模型[78]、基于擴散的視頻編輯[79]的綜述有所不同。與專注于特定領域的綜述,如人類視頻或運動生成[80]、[81]、[82]相比,我們的綜述也有不同的范圍。

付費5元查看完整內容

摘要——近年來,自動駕駛領域的突破性進展徹底改變了車輛感知和與周圍環境互動的方式。特別是,世界模型作為一種關鍵技術應運而生,提供了對駕駛環境的高保真表示,能夠整合多傳感器數據、語義信息和時間動態。這類模型將感知、預測和規劃統一起來,使得自動駕駛系統能夠在復雜且經常不可預測的條件下快速做出知情決策。研究趨勢涉及多個領域,包括4D占用預測和生成數據合成,這些都能增強場景理解和軌跡預測。值得注意的是,近期的研究利用大規模預訓練和先進的自監督學習,擴大了模型在稀有事件模擬和實時互動方面的能力。在應對諸多關鍵挑戰時——包括領域適應、長尾異常檢測以及多模態融合——這些世界模型為更強大、可靠且適應性更強的自動駕駛解決方案鋪平了道路。本綜述系統地回顧了當前的技術前沿,將相關技術按其在未來預測、行為規劃以及兩者之間的互動方面的側重點進行了分類。我們還識別了未來研究的潛在方向,強調了整體集成、計算效率提升和高級仿真等方面。我們的綜合分析凸顯了世界模型在推動下一代自動駕駛系統朝著更安全、更公平的出行方向發展的變革性作用。

關鍵詞——自動駕駛、世界模型、自監督學習、行為規劃、生成方法 1 引言 1.1 概述 完全自動駕駛的追求已經迅速成為全球科學研究和工業努力的焦點。其核心目標是同時減少交通事故、緩解擁堵,并提升不同社會群體的出行能力[1]。現有統計數據顯示,人為錯誤仍然是道路事故的主要原因[2],這表明,減少人工干預可以顯著降低與交通相關的死亡和傷害的發生率。除了安全性,經濟因素(例如,減少擁堵和優化物流)也推動了自動駕駛技術的發展[3]。 盡管這些激勵因素令人信服,實現高水平的自動駕駛仍需克服相當大的技術難題。最重要的挑戰之一是感知和理解動態交通場景,這要求將異構傳感器數據流(例如激光雷達、雷達、攝像頭)融合成一個統一的環境表示[4],[5]。從復雜的城市布局到高速公路,自動駕駛車輛必須快速吸收多模態數據,檢測關鍵物體(如車輛、行人、自行車騎行者),并預測它們在不同條件下的運動——例如惡劣天氣、無結構道路或繁忙的交通[6],[7]。此外,實時決策還帶來了嚴格的計算約束,要求系統在毫秒級響應時間內應對突發障礙物或異常行為[8],[9]。同樣關鍵的是,系統在極端或長尾場景(例如嚴重天氣、施工區或異常駕駛行為)下的魯棒性,在這些情況下,性能不足可能會危及整體安全性[10],[11]。 在這一背景下,構建穩健且穩定的世界模型已成為基礎性要素。世界模型的概念包括創建一個高保真的駕駛環境表示——涵蓋靜態結構(如道路、建筑)和動態實體(如車輛、行人)[3],[8]。一個全面的世界模型不斷捕獲語義和幾何信息,同時實時更新這些表示,從而為下游任務(如物理世界預測)提供支持[12],[13]。近期的進展通過集成多傳感器數據來細化這些表示,例如生成性方法[14],[15],這些方法通過模擬物理世界來進行訓練,將異構傳感器輸入統一為一致的自上而下的視角[16],[17]。 這些穩健的世界模型利用環境表示來優化智能體的行為規劃,為更安全和更高效的自動駕駛應用奠定了基石。通過實現主動軌跡優化、實時危險檢測和自適應路線規劃,它們能夠直接降低突發危險所帶來的風險[5],并與不斷發展的車聯網(V2X)系統相契合[9]。最終,世界模型促進了感知和控制子系統之間更緊密的集成,簡化了閉環自動駕駛管道[18],[19]。 現有關于世界模型在自動駕駛中的綜述通常可分為兩類。一類主流綜述側重于描述廣泛應用于多個領域的世界模型[20]–[22],其中自動駕駛只是一個特定應用領域。第二類綜述[23],[24]則專注于世界模型在自動駕駛領域中的應用,嘗試總結該領域的現狀。目前,關于自動駕駛中世界模型的綜述較少,它們通常對這些研究進行大致分類,且常常僅關注世界仿真或缺乏對行為規劃與物理世界預測交互的討論,導致該領域缺乏清晰的分類體系。本文的目標不僅是正式定義和分類自動駕駛中的世界模型,還提供對近期技術進展的全面回顧,并探索其在多個領域的廣泛應用,特別強調它們在自動駕駛中的變革性潛力。這一結構化的分類方法使我們能夠突出這些模型如何根據汽車行業的挑戰進行塑造和適應。 1.2 貢獻 本文綜述的指導思想是世界模型是理解動態場景的核心,旨在提供一個全面、結構化的現有方法論回顧。我們將最前沿的研究分類為三個關鍵領域: 物理世界的未來預測:聚焦于動態物體和靜態實體的物理世界演化[11],[25]; 智能體的行為規劃:研究生成式和基于規則的規劃方法,這些方法在不確定的駕駛條件下生成安全、有效的路徑[12],[13]; 行為規劃與未來預測之間的交互:強調統一框架如何捕捉智能體之間的交互,并利用預測性洞察進行協同優化[18],[26],[27]。 具體來說,我們提供: 未來預測模型的深入分析:我們討論了基于圖像/鳥瞰圖/物體圖/點云的研究如何在動態場景中實現幾何和語義的高保真度,包括4D占用預測和基于擴散的生成方法。 行為規劃研究:我們探索了基于規則和基于學習的方法在行為規劃中的應用,展示了在魯棒性和避碰性能上的顯著提升。 交互模型研究的提案:我們系統回顧了交互模型,這些模型共同解決未來預測和智能體行為問題,并說明這種協同如何大幅提升現實世界的適應性和操作安全性。 我們總結了目前的開放挑戰,如自監督方法的無縫集成[26]、稀有事件增強的大規模仿真[10],[28]、以及實時多智能體協調[27],并為未來的研究提供了方向。隨著研究領域的不斷擴展以及現實世界應用的緊迫性,本綜述旨在為研究人員和實踐者提供有價值的參考,為更安全、更穩健的自動駕駛解決方案奠定基礎。 1.3 結構 本文的結構概覽見圖1,具體如下:第1節介紹了世界模型在自動駕駛中的重要性,并概述了它們解決的社會和技術挑戰。第2節提供了世界模型在自動駕駛中的背景知識,重點討論了物理世界的未來預測和智能體的行為規劃。第3節詳細介紹了方法的分類:第3.1節討論了物理世界的未來預測方法,涉及動態物體和靜態實體的物理世界演化;第3.2節討論了強調生成安全、有效駕駛策略的先進行為規劃方法;第3.3節研究了未來預測與行為規劃之間的交互關系,重點介紹了復雜場景下的協同優化技術。第4節探討了數據和訓練范式的不同方法,包括監督學習、自監督學習和數據生成技術。第5節考察了世界模型應用的領域和任務,討論了這些技術在感知、預測、仿真和系統集成等多個領域的影響。第6節對自動駕駛中的世界模型進行了詳細評估,評估了它們在不同任務和指標中的有效性。第7節探討了開放挑戰、潛在研究方向和進一步創新的有前景的方向。第8節總結了本綜述,并重申了世界模型在自動駕駛中不可或缺的作用。

付費5元查看完整內容

摘要——基礎模型的快速發展——在多樣化、廣泛的數據集上訓練的大規模神經網絡——已經徹底改變了人工智能,推動了自然語言處理、計算機視覺和科學發現等領域的前所未有的進展。然而,這些模型龐大的參數量,往往達到數十億甚至數萬億,給將其適應于特定下游任務帶來了顯著挑戰。低秩適應(LoRA)作為一種非常有前景的方法,已成為緩解這些挑戰的有效手段,提供了一種參數高效的機制,能夠以最小的計算開銷微調基礎模型。本綜述首次全面回顧了低秩適應技術,除了對大規模語言模型的研究,還包括了其在基礎模型中的應用,涵蓋了低秩適應在多個領域的技術基礎、前沿進展及應用。最后,本文討論了理論理解、可擴展性和魯棒性等方面的關鍵挑戰及未來研究方向。本綜述為從事高效基礎模型適應研究和實踐的學者與從業者提供了寶貴的資源。

關鍵詞——基礎模型、大規模語言模型、低秩適應、參數高效微調、多任務學習

1 引言基礎模型代表了人工智能中的一種范式轉變,其中在廣泛和多樣化的數據集上預訓練的大規模神經網絡架構,建立了可泛化的表示框架,可以適應廣泛的下游應用[1],[2]。這些模型跨越多個領域,包括自然語言處理(如 GPT-3.5 [3]、LLaMA [4])、計算機視覺(如 Swin Transformer [5]、MAE [6]、SAM [7])、語音處理(如 Wav2vec2 [8]、Whisper [9])、多模態學習(如 Stable Diffusion [10]、DALL·E 2 [11])和科學應用(如 AlphaFold [12]、ChemBERTa [13]、ESM-2 [14])。基礎模型的特點是其前所未有的規模,參數數量達到數十億甚至數萬億,并且表現出涌現性質——即在沒有明確訓練的情況下自發產生的能力[1]。這些架構已成為現代人工智能系統的基礎構件,推動了多個領域的突破性進展[1],[2]。盡管這些模型展現了廣泛的能力,但通過微調進行任務特定優化仍然是提升模型泛化能力[15]、促進算法公平性[16]、實現定制化[17]以及符合倫理和社會標準[18],[19]的必要手段。然而,它們的規模帶來了顯著的計算挑戰,特別是在訓練和微調所需的計算資源方面[20]。盡管傳統的微調方法(涉及對全部參數進行更新)在各種任務中已證明有效[21],[22],但其計算需求通常使得在基礎模型中應用變得不切實際[23],[24]。因此,參數高效微調(PEFT)方法應運而生,作為應對這些計算挑戰的解決方案[17],[24],[25],[26],[27],[28]。這些方法通過最小化可訓練參數的數量,使得模型適應能夠顯著降低計算需求,而不會影響任務性能。在這些方法中,低秩適應(LoRA)[17]及其變種因其簡便性、實證效果以及在各種模型架構和領域中的廣泛適用性而受到廣泛關注,如圖1所示。LoRA基于兩個關鍵見解:在微調過程中,權重更新通常位于低維子空間中[29],[30],并且任務特定的適應可以通過低秩矩陣有效捕捉[17]。通過在凍結原始模型參數的同時優化這些低秩矩陣,LoRA實現了高效的適應,并能夠在不增加推理延遲的情況下組合多個任務特定的適應[17],[31]。貢獻。本綜述提供了迄今為止,超越大規模語言模型(LLMs)領域[32],針對LoRA技術的首個全面回顧,擴展分析至基礎模型的更廣泛領域。我們的主要貢獻包括: 1. 技術基礎的系統分析:我們提供了對LoRA近期技術進展的結構化分析,包括參數高效策略、秩適應機制、訓練過程改進以及新興的理論視角。 1. 新興前沿的廣泛調查:我們探討了新興的研究前沿,包括融合多個LoRA組成部分和專家混合方法的先進架構,以及持續學習、遺忘、聯邦學習、長序列建模和高效服務基礎設施的方法。 1. 應用的綜合回顧:我們呈現了在多個領域的實際應用綜述,包括自然語言處理、計算機視覺、語音識別、科學發現,以及在代碼工程、推薦系統、圖學習和時空預測等專門應用中的使用。 本綜述通過圖3組織了現有的LoRA研究,識別了第六節中的關鍵挑戰和未來研究方向,為該領域的研究人員和從業者提供了寶貴的資源。

2 基礎知識LoRA [17] 是參數高效微調(PEFT)領域的重要進展。盡管最初是為大規模語言模型(LLMs)開發的,但后續研究已證明它在各種基礎模型中都表現出色。LoRA的數學公式核心思想是在微調過程中將更新矩陣 ?W 限制為低秩,如圖2所示,這一過程通過矩陣分解實現:

參數初始化策略

LoRA采用特定的初始化策略以確保訓練的穩定性和高效性。矩陣A通常使用從隨機高斯分布中抽取的值進行初始化,而矩陣B則初始化為零,這確保在訓練開始時,?W = BA 實際上是一個零矩陣。微調過程

在LoRA中,微調過程遵循以下關鍵原則: * 原始預訓練權重 W? 被保持凍結,在訓練過程中不接受梯度更新。 * 低秩矩陣 A 和 B 是唯一可訓練的參數,用于捕捉任務特定的調整。 * W? 和 ?W 分別作用于輸入向量 x,并將它們的輸出結合起來。 * 輸出 ?W x 被 α/r 縮放。 * 最終輸出向量逐元素相加:

其中 α/r 是一個縮放因子,用于控制低秩更新的幅度。在使用 Adam [33] 優化時,調節縮放因子 α 大致相當于調整學習率 [17],前提是初始化時進行適當的縮放。在實際操作中,α 的值可以根據秩 r 設置,從而消除廣泛的超參數調優需求。LoRA 相比全量微調的優勢

LoRA 在應用于大規模基礎模型時,相比全量微調提供了幾個關鍵優勢: 1. 參數效率:LoRA 通過低秩分解引入了最小的一組可訓練參數,通常將任務特定的參數數量降低幾個數量級。這種方法在資源受限的環境和多任務場景中尤為有利,其中需要對基礎模型進行多次適配。 1. 增強的訓練效率:與更新所有模型參數的傳統全量微調不同,LoRA 僅優化低秩適應矩陣。這大大減少了計算成本和內存需求,尤其是在具有數十億參數的模型中。減少的參數空間通常會導致訓練過程中的更快收斂。 1. 無延遲推理:LoRA 不會引入額外的推理延遲,因為更新矩陣 ?W 可以顯式地與原始凍結權重 W 結合使用。這種集成確保了適應后的模型在部署和推理時保持高效。 1. 靈活的模塊化適應:LoRA 使得創建輕量級的、任務特定的適配器成為可能,這些適配器可以在不修改基礎模型架構的情況下進行互換。這種模塊化有助于高效的多任務學習和任務切換,同時相比為每個任務維護獨立的模型實例,顯著減少了存儲需求。 1. 強大的知識保留能力:通過保留預訓練權重,LoRA 有效地緩解了災難性遺忘問題,這是傳統微調中常見的挑戰。這種方法在獲取任務特定能力的同時,保持了模型的基礎知識。 1. 多樣的部署方式:LoRA 適應的緊湊性有助于高效的部署和系統集成。多個適應器可以方便地組合或在不同任務或領域之間切換,與傳統微調方法相比,提供了更大的靈活性。

3 基礎在本節中,我們將從四個關鍵維度探討LoRA的基本技術方面:參數效率提升、秩適應策略、訓練過程改進和理論基礎。這些組件構成了LoRA有效性的技術基礎。3.1 參數效率提升盡管通過LoRA及其投影矩陣 A(project-down)和 B(project-up)實現了參數效率的提升,但該方法仍然需要大量的可訓練參數。例如,將LoRA應用于LLaMA-2-70B模型 [4] 時,需要更新超過1600萬個參數 [34],這一數字超過了一些BERT架構的總參數數量 [35]。當前的研究通過四種主要方法來應對這一挑戰:參數分解、剪枝、凍結與共享以及量化。圖4展示了這些技術的示例。

3.2 秩適應秩是LoRA中的一個關鍵參數,直接影響模型的適應性和可訓練參數的數量。原始的LoRA方法在所有層中使用固定的低秩,這對于不同的下游任務和模型架構可能并非最優。為了解決這些局限性,近期的研究提出了多種優化LoRA中秩分配的方法,這些方法可以大致分為兩個主要方面:秩細化和秩增強。圖5展示了這兩種方法的示意圖。

3.3 訓練過程改進盡管LoRA在參數高效微調方面已經取得了顯著成功,但優化其訓練動態仍然是最大化適應性能的關鍵。在本節中,我們將討論旨在改進訓練過程的最新進展,特別是學習率、丟棄策略和縮放因子。 4 前沿發展在上述技術基礎的基礎上,本節探討了擴展LoRA能力的新方向的前沿發展。這些前沿發展利用并結合LoRA的基本原理,以實現新的功能、處理更復雜的任務,并解決模型適應中的挑戰。4.1 高級架構盡管原始的LoRA方法顯著提高了微調的效率,并且展示了與全量微調相當的性能,但在靈活性、泛化能力和同時處理多個多樣化任務方面存在局限性。為了解決這些局限性,研究人員開發了先進的LoRA架構,以進一步提高性能、參數效率和泛化能力。4.2 LoRA 在持續學習中的應用LoRA 的參數高效特性使得在新任務上逐步更新模型成為可能,同時可以有效緩解災難性遺忘問題 [98],[99]。使用 LoRA 進行持續學習(CL)有幾個關鍵優勢:(1)與全量微調相比,計算成本降低;(2)自然地將任務特定知識隔離;(3)靈活地組合任務特定的適應。基于 LoRA 的現有持續學習方法大致可以分為三種方法:正則化方法、任務算術方法和集成方法。

4.3 LoRA 在遺忘中的應用

LoRA 使得從基礎模型中有針對性地移除特定知識成為可能,而無需進行大規模的重新訓練。以下是利用 LoRA 實現遺忘的三種主要方法分類:

  1. 模塊化分解方法:通過將模型的適應部分模塊化,實現對特定知識的局部調整或移除,而不影響模型的整體性能。
  2. 基于優化的方法:通過優化特定的參數或子集來刪除或遺忘特定的知識,優化過程通常專注于減少與特定任務相關的影響。
  3. 漸進式遺忘管道:通過逐步更新模型的知識庫,實現在模型訓練過程中逐漸刪除不再需要的知識,同時保證模型的穩定性和性能。

4.4 LoRA 在聯邦學習中的應用在數據隱私問題日益嚴重的時代,聯邦學習(Federated Learning, FL)提供了一種有前景的方式,可以在保護個人數據隱私的同時,利用集體知識。LoRA 與聯邦基礎模型(Federated Foundation Models, FFM)的結合,使得基礎模型在資源受限的設備上變得更加可訪問,尤其是在邊緣計算場景下,有望徹底改變物聯網(IoT)和移動應用領域。

4.5 LoRA 在長序列建模中的應用

處理長序列的能力對于許多由基礎模型處理的任務至關重要【125】【126】【127】。然而,標準的基礎模型通常受到最大上下文長度的限制,這是由于自注意力機制相對于序列長度的二次計算復雜度。為了應對這一局限性,已經提出了幾種基于 LoRA 的方法,用于擴展基礎模型的上下文窗口。

4.6 LoRA服務系統

高效地提供多個LoRA模型的服務同樣至關重要。近期的進展包括改進的GPU內存管理 [129],高效的批處理技術 [130],用于緩解冷啟動延遲的CPU輔助策略 [131],以及針對資源受限的個人設備的適應性方法 [132]。

5 應用

LoRA在微調基礎模型方面的有效性和高效性,促使其在多個領域得到廣泛應用,包括語言處理、計算機視覺、語音識別、多模態、代碼工程、科學發現、推薦系統、圖學習、時空預測等。

6 結論 在本次綜述中,我們對LoRA進行了系統分析,探討了其理論基礎、技術進展以及在適應基礎模型方面的多種應用。LoRA在多個領域的廣泛應用——從自然語言處理和計算機視覺到語音識別和科學計算——突顯了其多功能性和有效性。LoRA能夠在顯著減少計算和存儲需求的同時保持模型性能,這使得它在資源受限的環境和特定領域的適配中尤為寶貴。盡管取得了這些成就,但仍然存在若干關鍵挑戰。LoRA有效性的理論框架需要進一步發展,特別是在理解低秩適配與模型能力之間的相互作用方面。此外,關于可擴展性、魯棒性和在生產環境中安全部署的問題,仍然是當前研究的重要方向。

付費5元查看完整內容

摘要—近年來,三維視覺已成為計算機視覺領域的關鍵方向,推動了自動駕駛、機器人技術、增強現實(AR)和醫學成像等廣泛應用。該領域依賴于從圖像和視頻等二維數據源中準確感知、理解和重建三維場景。擴散模型最初設計用于二維生成任務,但它們提供了更靈活的概率方法,更好地捕捉了真實世界三維數據中的多樣性和不確定性。然而,傳統方法往往在效率和可擴展性方面面臨挑戰。本文綜述了當前最先進的擴散模型在三維視覺任務中的應用,包括但不限于三維物體生成、形狀補全、點云重建和場景理解。我們深入討論了擴散模型的基本數學原理,概述了其前向和反向過程,并介紹了支持這些模型處理三維數據集的各種架構進展。我們還探討了擴散模型在三維視覺中應用所面臨的主要挑戰,如處理遮擋和點密度變化,以及高維數據的計算需求。最后,我們討論了包括提升計算效率、增強多模態融合、探索大規模預訓練以改善三維任務泛化能力在內的潛在解決方案。本文為這一快速發展的領域的未來探索和開發奠定了基礎。

關鍵詞—擴散模型,三維視覺,生成模型。

I. 引言

近年來,三維視覺已成為計算機視覺領域中的重要方向,推動了自動駕駛、機器人、增強現實和醫學成像等各種應用。這些應用依賴于從圖像和視頻等二維數據源中對三維場景的準確感知、理解和重建。隨著三維視覺任務的日益復雜,傳統方法常常在效率和可擴展性方面遇到挑戰。 擴散模型[1]–[5]最初在生成建模領域提出,并迅速發展,展現出在許多計算機視覺領域的顯著潛力。基于通過一系列隨機步驟轉換數據的理念,這些模型在圖像生成[6]–[9]、去噪[10]和修復任務[11]中取得了成功。尤其是,擴散模型在生成高質量、多樣化輸出方面表現出強大的生成能力,同時對噪聲具備魯棒性。 近年來,擴散模型的發展已從二維拓展到更具挑戰性的三維任務[12]–[14],如三維物體生成[15]–[17]、形狀補全[18]、點云重建[20]等,標志著擴散建模與三維視覺的新時代的到來。 將擴散模型應用于三維視覺任務展現出前景,主要原因在于它們能夠建模復雜的數據分布,并且在噪聲處理上具備固有的魯棒性。擴散模型為需要三維數據合成、補全或增強的任務(如形狀生成[21]或深度估計[22])提供了強大的框架。與依賴確定性算法的傳統三維建模技術不同,擴散模型提供了更靈活的概率方法,可以更好地捕捉真實三維數據中的多樣性和不確定性。 對擴散模型的日益關注源于它們在二維任務中生成精細高質量結果的能力,這促使研究人員探索其在三維中的應用。本文綜述了將擴散模型用于三維視覺的最新方法,討論了其潛在的優勢,如在三維重建中提升精度、更好地處理遮擋和稀疏數據等。 盡管將擴散模型應用于三維視覺前景廣闊,但其并非沒有挑戰。其中一個主要技術障礙是三維數據的復雜性增加,它可以以多種形式表示,如網格、體素或點云,每種形式都有其特定的處理需求。將擴散模型與這些異構數據結構集成仍然是一個挑戰,同時三維任務的計算需求常常遠遠高于二維任務,導致可擴展性問題。 另一個挑戰在于建模三維數據中的長距離依賴關系,擴散模型并非原生具備該能力。此外,許多三維視覺任務缺乏大規模標注數據集,這進一步增加了擴散模型的訓練難度,要求大量高質量數據以實現有效泛化。 本綜述聚焦于擴散模型在廣泛三維視覺任務中的應用,包括但不限于三維物體生成、點云去噪、三維重建及場景理解[23]。我們回顧了多種擴散模型架構及其在三維視覺中的適應性,涵蓋了過去五年的早期階段和最新進展。特別關注于這些模型如何應對三維數據的特定挑戰以及大規模三維視覺問題的計算限制。本文的主要貢獻如下: * 對現有將擴散模型應用于三維視覺任務的研究進行了全面分類和總結,分析其優缺點。 * 深入分析和比較了用于三維數據的關鍵技術、框架和方法。 * 詳細討論了該領域當前的挑戰和開放問題,以及未來研究方向,以改進三維視覺應用中的擴散模型。 * 對用于評估三維視覺任務中擴散模型的相關數據集和基準進行了廣泛的回顧。

為完成本綜述,我們采用了全面的文獻檢索策略,以確保深入探索該領域。首先確定了與主題相關的關鍵詞和短語,如“擴散模型”、“三維視覺”以及相關概念(如“生成模型”和“三維數據的神經網絡”)。我們在多個學術數據庫(包括IEEE Xplore、arXiv和Google Scholar)中進行檢索,重點關注過去五年的出版物,以捕捉最新進展。此外,我們優先選擇經過同行評審的期刊文章、會議論文和預印本,確保包含高質量的前沿研究。通過此策略,我們旨在提供關于三維視覺中擴散模型的全面、最新的綜述。 本文其余部分的組織結構如下:第二節概述擴散模型的理論基礎及其在二維和三維視覺任務中的關鍵發展。第三節深入探討三維視覺的核心概念,討論不同數據表示及其挑戰。第四節對擴散模型在不同三維視覺任務中的應用進行了詳細回顧。第五節總結了用于評估的可用數據集和基準。最后,第六節討論了未來方向和開放問題。

第七節為結論。

**擴散模型基礎

A. 擴散模型簡介 擴散模型(Diffusion Models)是一類生成模型,通過逐步將隨機噪聲轉換為結構化數據來學習生成數據的分布。該過程包括前向擴散過程,在此過程中噪聲逐步添加到數據中,以及反向過程,利用去噪算法從噪聲中重建數據。這種方法旨在通過迭代去噪來建模數據分布,已證明能夠在多個領域(包括三維視覺)生成高質量的樣本。 擴散模型最早作為一種受非平衡熱力學啟發的隨機過程被引入,發展迅速。尤其是在Ho等人提出去噪擴散概率模型(DDPMs)之后,擴散模型在可擴展性和采樣效率方面有了顯著提升。擴散模型的關鍵特性在于其迭代生成過程,主要包括: * 前向過程:逐步向數據添加高斯噪聲。 * 反向過程:通過去噪還原數據,生成新樣本。

這種框架允許擴散模型避免模式崩潰,與生成對抗網絡(GANs)相比,生成出多樣性更高的樣本。B. 擴散模型的數學基礎

 C. 擴散模型的變體 1. 去噪擴散概率模型(DDPMs):在DDPM中,前向過程逐步將高斯噪聲添加到數據中,使原始數據分布轉變為已知先驗(通常為標準高斯分布)。反向過程則由神經網絡參數化,并訓練為逐步去噪。DDPM通過優化變分下界,實現高保真度圖像生成(Diffusion Models in 3D …)。 1. 基于得分的生成模型(Score-Based Generative Models):這種變體使用得分匹配技術,以更直接地估計數據分布的梯度(Diffusion Models in 3D …)。 1. 隨機微分方程(SDE):此類擴散模型的連續時間公式使其在三維生成任務中更具靈活性,例如生成點云和體素網格(Diffusion Models in 3D …)。 D. 三維視覺中的生成過程 與生成對抗網絡(GANs)和變分自編碼器(VAEs)相比,擴散模型在三維視覺任務中具有更強的生成能力,能夠生成光滑的連續表面,并處理復雜的高維數據。這對于需要詳細幾何結構的應用(如三維形狀重建)特別有利。

三維視覺基礎

三維視覺領域是現代計算機視覺中不可或缺的一部分,涉及各種數據表示方法及深度學習技術,以理解和處理三維信息。三維視覺廣泛應用于增強現實、虛擬現實以及自動駕駛等領域,這些應用都依賴于準確的三維場景感知與分析。

**A. 三維表示

三維數據表示是三維視覺的核心,提供了建模、分析和交互的手段。不同的表示方式各有其特點、優缺點,通常用于不同的三維任務。 二維表示

二維表示使用平面圖像推斷三維信息,適用于渲染與理解三維場景。通過多視圖圖像或深度圖,可以從多個角度獲取場景或物體的三維結構。

深度圖:深度圖表示從特定視角到場景中物體的距離,將深度信息編碼成圖像。它在三維重建、場景理解等應用中十分重要,因為它提供了一種整合二維圖像處理技術的有效方式。 顯式表示

顯式表示直接定義了三維模型的幾何形狀,如點云、體素網格和網格。它們直觀易操作,但存儲復雜形狀時空間需求較大。

點云:點云通過三維坐標表示物體或場景的形狀。其主要優勢在于對幾何數據的直接捕獲。然而,由于缺乏拓撲信息,點云通常需要進一步處理,以實現渲染或仿真。 1. 隱式表示 隱式表示通過數學函數定義三維幾何,例如有符號距離場(SDF)和占用場。它們通常用于生成平滑、連續的表面,并能處理復雜的幾何形狀。

**B. 三維視覺中的深度學習方法

深度學習的進步推動了三維視覺的發展,使得自動駕駛、機器人導航等領域能夠高效地分析和解釋三維數據。

基于卷積的神經網絡 三維卷積神經網絡(3D CNN)將二維卷積擴展到體素數據,捕捉三維空間的關系,適用于體素網格處理任務。然而,三維CNN計算需求高,因此多視圖CNN和球面CNN等變體在實際應用中被廣泛采用。

直接點云處理方法 點云數據的處理逐步由PointNet等方法引領,這些方法通過直接操作點云數據而無需將其轉換為其他形式,從而保留了數據的稀疏性與不規則性。

圖神經網絡 在點云上應用圖神經網絡(GNN)通過捕獲非歐幾里得結構中的關系,適合于對拓撲信息的建模。

占用網絡與深度有符號距離場 占用網絡和深度有符號距離場(DeepSDF)模型能有效地在復雜場景中生成詳細的三維形狀,在物體重建和場景理解中具有優勢。

基于Transformer的架構 Transformer的引入使得長距離依賴關系的建模成為可能,尤其在三維點云數據上,表現出在自適應分割和語義理解方面的能力。

**C. 三維視覺中的挑戰

遮擋 遮擋問題在三維視覺中普遍存在,尤其在物體間相互重疊的場景中。這會導致數據缺失或失真,影響物體識別和場景重建。多視圖聚合和深度完成是應對此問題的常用技術。

點密度變化 由于掃描設備距離和角度的不同,點云密度可能不均勻,導致重建和特征提取的復雜度增加。點云上采樣和表面插值技術被用來處理這些問題。

噪聲與離群值 三維數據采集過程中常伴有噪聲和離群值,影響數據的準確性。去噪濾波和離群值去除是常見的應對手段,但在精度和計算需求之間的平衡仍具挑戰性。

三維視覺的復雜性及其數據的高維特性使得這一領域充滿了挑戰,但隨著深度學習技術的不斷進步,三維視覺的準確性和效率正在顯著提高,為實際應用帶來了新的突破。

三維擴散生成任務

擴散模型在三維數據生成任務中表現出極大的潛力,能夠生成高質量的三維模型及其相關內容。這些任務涵蓋了各種生成和處理三維數據的方式,使擴散模型成為三維視覺研究的重要工具。

**A. 無條件生成

無條件生成指的是不依賴于任何輸入或條件(如類標簽、圖像或文本提示)生成三維形狀或物體。在這種生成模式下,模型從隨機噪聲或潛在變量出發,基于學習到的數據模式生成多樣化的三維結構。無條件生成常用于三維設計、虛擬環境和游戲等應用,其目的是在沒有外部指導的情況下捕捉數據的底層分布,生成逼真且多樣的三維輸出。

Zhou等人提出的Point-Voxel Diffusion框架,是最早利用擴散模型生成三維物體的工作之一。該方法將去噪擴散模型與三維形狀的概率生成模型結合,使用點-體素混合表示進行生成。模型通過一系列去噪步驟,將觀察到的點云數據逆擴散回到高斯噪聲狀態,從而生成新的三維形狀。

**B. 條件生成

在條件生成任務中,擴散模型會根據特定輸入(例如圖像或文本提示)生成對應的三維數據。該方法通常用于圖像到三維、文本到三維轉換等場景。這類任務對于三維數據合成的控制性較強,允許模型根據輸入生成具有特定特征的三維結構。例如,Ren等人提出的模型結合卷積和Transformer架構,生成動態掩模以在生成過程中實現特征融合,從而在不同階段優化全局和局部特征的平衡(Diffusion Models in 3D …)。

**C. 三維編輯與操作

三維編輯任務涉及對已有的三維數據進行修改或增強。擴散模型在這一領域展示了顯著的靈活性,允許對三維場景進行細致的控制。Zheng等人開發的PointDif方法,應用擴散模型進行點云預訓練,有助于在分類、分割和檢測等任務中提高性能。該方法將點云預訓練任務視為條件點對點生成問題,通過循環均勻采樣優化策略,使模型在不同噪聲水平下實現一致的恢復(Diffusion Models in 3D …)。

**D. 新視角合成

新視角合成任務主要集中于從給定的視角生成不同角度的三維圖像。擴散模型能夠有效處理三維數據的長距離依賴關系,并生成新的視角。Shue等人提出的Triplane Diffusion模型將三維訓練場景轉換為一組二維特征平面(稱為triplanes),然后利用現有的二維擴散模型對這些表示進行訓練,從而生成高質量的三維神經場。

**E. 深度估計

擴散模型在深度估計任務中的應用表現在通過噪聲抑制的方式改善深度信息提取質量。在復雜的場景中,模型可以利用擴散過程生成連續的深度數據,有效應對噪聲和不完整信息的問題。擴散模型通過生成更為平滑和準確的深度圖,為三維視覺系統在動態場景中的應用提供了新的解決方案。 綜上所述,擴散模型為三維視覺中的多項任務提供了有效的生成和增強工具。模型的應用不僅在無條件生成和條件生成方面取得了顯著成果,還在三維數據的編輯、合成和估計等任務中展現了出色的性能。這一領域的研究仍在不斷發展,未來可通過結合物理約束和多模態數據進一步提升模型的表現,為復雜和動態場景中的三維任務提供更強大的支持。

結論

本文對擴散模型在三維視覺任務中的應用進行了全面綜述。擴散模型最初是為二維生成任務設計的,但隨著三維數據(如點云、網格和體素網格)的處理需求增長,這些模型逐步適應了三維數據的復雜性。我們詳細回顧了將擴散模型應用于三維對象生成、形狀補全、點云重建和場景生成等任務的關鍵方法,并深入討論了擴散模型的數學基礎,包括其前向和反向過程及架構改進,使之能夠處理三維數據。

此外,本文分類和分析了擴散模型在不同三維任務中的顯著影響,包括從文本生成三維數據、網格生成以及新視角合成等。我們還探討了擴散模型在三維視覺中面臨的主要挑戰,如遮擋處理、點密度變化以及高維數據的計算需求。針對這些挑戰,我們提出了一些潛在解決方案,包括提升計算效率、增強多模態融合,以及探索使用大規模預訓練以更好地在三維任務中實現泛化。

通過整合當前擴散模型在三維視覺領域的研究現狀,并識別出其中的不足與機遇,本文為未來在這一快速發展的領域進行更深入的探索和開發奠定了基礎。擴散模型在三維視覺中的應用還在不斷進步,未來的研究有望繼續優化模型的計算效率和多任務處理能力,為三維數據的生成、重建和理解開拓新的可能性。

付費5元查看完整內容

摘要. 自動疾病診斷在臨床實踐中變得越來越有價值。大型語言模型(LLMs)的出現推動了人工智能領域的范式轉變,越來越多的證據支持LLMs在診斷任務中的有效性。盡管該領域受到越來越多的關注,但許多關鍵的研究問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務的研究?如何為臨床決策選擇合適的LLM技術和評估方法?為解答這些問題,我們對基于LLM的疾病診斷方法進行了全面分析。本次范圍綜述審查了現有研究中報告的疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和診斷任務的評估策略提供了指南。我們還評估了當前研究的局限性,并劃定了該研究領域的挑戰與未來方向。總之,我們的綜述為基于LLM的疾病診斷勾勒了藍圖,幫助簡化并指導未來的研究工作。

引言

自動疾病診斷通過將臨床數據輸入算法,分析數據模式并生成診斷結果,幾乎無需或完全不需要人工干預。其在臨床場景中的重要性是多方面的。首先,它提高了診斷的準確性,支持醫生的臨床決策,并通過提供更多高質量的診斷服務,解決了醫療資源獲取不平等的問題。其次,它提高了診斷效率,尤其是在人口老齡化和臨床醫生短缺的情況下,診斷的復雜性即便對經驗豐富的醫生來說也需要花費大量時間。最后,它通過在線診斷服務為患者提供了更大的便利,促進了早期診斷并減少了傳統臨床就診所帶來的延誤。 人工智能的進步推動了自動診斷系統的發展,經歷了兩個階段。最初,采用支持向量機(SVM)和決策樹等機器學習技術進行疾病分類1,2,通常包括四個步驟:數據處理、特征提取、模型優化和疾病預測。隨著數據集規模的擴大和計算能力的提升,深度學習方法后來在診斷任務中占據主導地位3,4。這些方法利用深度神經網絡(DNN),包括卷積神經網絡(CNN)5、循環神經網絡(RNN)6和生成對抗網絡(GAN)7,實現了端到端的特征提取和模型訓練。例如,具有34層的卷積神經網絡在心律失常診斷中達到了心臟病專家級別的表現8。然而,這些模型需要大量標注數據進行訓練,且通常針對特定任務,限制了它們在其他任務中的適應性5,8。 近年來,人工智能的范式從傳統的深度學習轉向了大型語言模型(LLM)的興起。與監督學習不同,LLM如生成式預訓練轉換器(GPT)和LLaMA9,是通過自監督學習在大量未標注數據上預訓練的生成模型。這些模型通常包含數十億個參數,擅長處理語言,并能夠適應多種任務。迄今為止,LLM在臨床場景中展示了卓越的性能,包括問答10、信息檢索11和臨床報告生成12,13。

最近,越來越多的研究驗證了LLM在診斷任務中的有效性。例如,PathChat14,一個經過數十萬條指令微調的視覺語言通用LLM,在人類病理學中取得了最先進的性能。Med-MLLM13,一個在廣泛的醫學數據(包括胸部X光片、CT掃描和臨床筆記)上預訓練和微調的多模態LLM,在COVID-19診斷中表現出了顯著的準確性。此外,Kim等人15使用GPT-4結合提示工程,發現它在識別強迫癥方面超越了心理健康專家。 盡管該研究領域備受關注,但許多關鍵問題仍未得到充分探索。例如,哪些疾病和LLM技術已被用于診斷任務?研究人員如何利用LLM分析各種類型的醫學數據進行疾病診斷?哪些評估方法適合評估模型性能?盡管已有大量關于LLM在醫學中應用的綜述論文16,17,18,19,20,它們通常提供了對各種臨床應用的廣泛概述,但并未特別強調疾病診斷。例如,Pressman等人21提供了LLM在臨床中的潛在應用的綜合總結,包括術前咨詢、治療、術后管理、出院和患者教育。然而,這些調查并未涉及LLM在疾病診斷中的細微差別和挑戰,未能回答上述問題,凸顯了研究中的一個關鍵空白。 本綜述的主要目的是對LLM在疾病診斷中的應用進行全面分析。我們審查了現有研究中涉及的各種疾病類型、相關器官系統、臨床數據、LLM技術和評估方法。此外,我們為數據預處理、選擇適當的LLM技術和采用合適的評估策略提供了指南。我們還分析了當前研究的局限性,全面呈現了該領域的挑戰和未來方向。總之,本綜述為基于LLM的疾病診斷勾勒了藍圖,并幫助啟發和簡化未來的研究工作。

研究范圍概述

本節概述了本研究中涉及的疾病、臨床數據和LLM。圖2展示了疾病相關的器官系統、臨床數據、所研究的LLM數據模式和相關LLM技術。值得注意的是,LLM涵蓋了多種數據模式,包括文本、圖像、視頻、音頻、表格數據和時間序列。圖3展示了隨時間變化的出版趨勢以及本綜述中數據隱私和評估方法的統計。表1總結了用于疾病診斷的主流LLM技術分類,而表2則展示了常用的評估指標。

付費5元查看完整內容

摘要—近年來,聚類算法的研究主要集中在提高其準確性和效率,往往以犧牲可解釋性為代價。然而,隨著這些方法越來越多地應用于高風險領域,如醫療保健、金融和自動化系統,透明且可解釋的聚類結果的需求已成為關鍵問題。這不僅是為了贏得用戶的信任,還為了滿足這些領域日益增長的倫理和監管要求。確保從聚類算法中得出的決策能夠被清楚理解和合理化現已成為基本要求。為應對這一需求,本文對當前可解釋聚類算法的現狀進行了全面而系統的綜述,并識別出區分不同方法的關鍵標準。這些見解能夠有效地幫助研究人員在特定應用場景中做出關于最合適的可解釋聚類方法的明智決策,同時也促進了既高效又透明的聚類算法的發展和采用。

關鍵詞—可解釋聚類、算法可解釋性、可解釋機器學習與數據挖掘、可解釋人工智能(XAI) 導論

聚類分析 [1], [2] 是數據挖掘領域中的一項關鍵任務,旨在根據數據中的內在特征和模式將數據劃分為不同的組。這個過程有助于揭示數據點之間的有意義結構和關系,從而促進各種應用和進一步的分析。 幾十年來,已經提出了許多算法來解決不同應用中的聚類問題,并取得了很高的準確性。然而,在大多數情況下,聚類模型作為一個“黑箱”存在,導致了常見的問題,例如:聚類結果是如何形成的?人們能否理解聚類結果形成的邏輯?模型是否可信?模型解釋這些問題的能力被暫時定義為模型的聚類可解釋性或可解釋性 [3]。鑒于數據挖掘和機器學習領域的多數研究者在使用可解釋性和解釋性時常常互換使用,本論文將全程使用“可解釋性”一詞。

至今,可解釋性仍缺乏一個精確的或數學的定義。不同來源提供了略有不同的定義——例如,在文獻 [4] 中定義為“向人類解釋或以人類可理解的術語呈現的能力”,在文獻 [5] 中定義為“人類能夠理解決策原因的程度”,而在文獻 [6] 中定義為“使機器學習系統的行為和預測對人類可理解”。這些定義從整體上都能捕捉到可解釋性的本質。

然而,模型的可解釋性可能因用戶的實際需求而異,并且可以在不同維度上表現出來。在某些疾病研究中,醫生通常更關心識別患者特征,這些特征表明患病的可能性較高,以及這些特征是否能有助于早期診斷。相比之下,數據科學家則關注設計可解釋的模型,為患者提供有說服力的解釋,并有效闡明每個患者被歸類為特定疾病類型的原因,從而幫助理解各種特征對結果的影響。因此,盡管各種可解釋方法可以在多個維度上提供不同程度的可解釋性,但仍然有必要對這些方法進行系統的總結和區分。

據我們所知,已經有一些綜述文章總結了與可解釋性相關的方法。然而,這些綜述要么沒有專注于聚類領域 [7], [8], [9], [10], [11],要么因發表時間過早而未能包含最新的研究成果 [12]。為填補這一空白,我們全面收集了現有的可解釋聚類方法,并提出了一套分類標準,以確保所有與可解釋聚類相關的方法都能歸入這些標準之一。此外,我們將聚類過程劃分為三個階段,并根據不同階段的可解釋性對所有可解釋聚類方法進行分類,構建了本綜述的總體框架:(1)特征選擇階段(聚類前),(2)模型構建階段(聚類中),和(3)模型解釋階段(聚類后)。我們相信,本綜述將為讀者提供對可解釋聚類的新理解,并為該領域未來的研究奠定基礎。

本文的其余部分組織如下。第2節討論了可解釋聚類的需求。第3節提供了可解釋聚類方法的分類法。第4至6節分別根據聚類過程中不同階段的可解釋性,回顧了可解釋的聚類前、聚類中和聚類后方法。最后,第7節總結了本文,并討論了未來的研究方向。

2 可解釋聚類的必要性

隨著人工智能和機器學習算法的進步并在各種任務中表現出色,它們正被應用于多個領域。然而,它們在醫療、司法、制造、國防和金融等風險敏感領域的應用仍然有限。在這些領域應用AI系統及其背后的機器學習算法涉及三個關鍵的人類角色 [13]:開發者、相關領域的最終用戶以及社會層面的監管者。對于這些角色中的任何一方來說,理解和信任算法如何得出結果至關重要。例如,開發者需要理解算法如何產生有意義的結果,并認識到其局限性,從而能夠糾正錯誤或進行進一步評估。最終用戶需要評估算法的結果是否包含領域特定的知識,并且是否有充分的依據。監管者需要考慮算法結果的影響,例如公平性、潛在的歧視,以及風險和責任所在。這要求整個算法過程具備透明性和可信度。

為應對這些挑戰,可解釋機器學習的研究已迅速發展 [6]。許多下游分析通常是在聚類級別上構建的,聚類方法旨在通過生成模式作為數據的初步理解。在這一階段,聚類的可解釋性以及算法機制的透明性需求變得愈發重要。

**2.1 什么是可解釋聚類?

傳統的聚類算法通常注重提供聚類結果,將準確性和效率作為首要任務,尤其是在復雜的高維數據中。它們所采用的模型大多是“黑箱”,尤其是當使用表示學習技術和深度學習的高級聚類方法時。這些方法會考慮數據的所有維度和特征值,并將它們積極地納入聚類結果的生成中。然而,“為什么”以及“如何”產生這些結果的推理對于算法設計者來說仍不透明,使得最終用戶更難理解。

相比之下,可解釋的聚類方法明確旨在解釋聚類結果,使人類能夠理解為什么算法過程會產生有意義的聚類結果。任何能夠增強聚類分析可解釋性的技術或工具都可以歸類為可解釋聚類的范疇。此類方法的標志是在聚類過程的任何階段引入可解釋的模型 [14]。這些可解釋元素伴隨最終的聚類結果,使其對人類而言可理解、可信并可使用。這些元素可能包括但不限于使用特定特征值(如年齡、收入)來識別導致聚類結果的關鍵因素。最終用戶可以依賴這些信息來理解聚類結果,并評估從中得出的結論是否可信。

**2.2 什么是好的可解釋聚類方法?

好的可解釋聚類方法應提供明確的證據,解釋聚類結果是如何得出的,為最終用戶提供理解算法行為及其背后邏輯的機會。然而,最終用戶是否選擇信任這些證據,可能取決于具體應用需求或專家知識。作為機器學習研究人員和數據科學家,我們主要從數據驅動的角度來評估什么構成好的可解釋聚類方法。

首先,可解釋證據的形式應盡可能簡單。例如,用于生成某一聚類的特征值的數量應盡量減少,這可以大大降低最終用戶理解結果的復雜性。其次,每個聚類應包含與其他聚類相比獨特且可區分的信息。換句話說,理想情況下,同樣的可解釋證據應僅對應一個特定的聚類,而不會與其他聚類重疊。這種獨特性增強了證據的可信度,確保最終用戶相信它與特定的聚類緊密相關,從而減少了與其他不同功能的聚類混淆的可能性。

為了確定可解釋聚類方法的好壞,甚至量化其效果,必須考慮所使用的具體可解釋模型。例如,當使用決策樹模型時,通過樹的分裂,可以清晰地定義每個聚類的證據是高度獨特的,從而滿足了基本的獨特性要求。此外,可以通過檢查樹的結構參數(如葉節點的數量,即聚類的數量,和樹的平均深度)來衡量最終用戶理解結果的難易程度。從根節點到葉節點的路徑表示了從數據到聚類的過程,每個分支節點記錄了導致聚類的決策(分裂特征值)。使用更少的特征值可以生成更簡潔的可解釋證據,使最終用戶更容易理解和信任聚類結果。

3 可解釋聚類方法的分類

在本節中,通過收集和總結現有的可解釋聚類方法,我們建立了以下分類標準以系統地對它們進行分類: 首先,基于廣泛認可的聚類過程,現有的可解釋聚類方法可以分為三類:聚類前方法、聚類中方法和聚類后方法。具體來說,聚類前方法通常在聚類過程之前執行,通常與可解釋特征的選擇相關。聚類中方法則為樣本構建可解釋的聚類模型,能夠在不需要額外操作的情況下生成準確的劃分。而聚類后方法通常側重于解釋現有聚類模型的結果,試圖通過可解釋模型來解釋黑箱模型生成的結果。

其次,大多數方法,尤其是聚類中和聚類后方法,可以根據它們使用的不同可解釋模型來區分(如圖1所示),這些模型包括以下幾類:

  • 決策樹:決策樹模型在機器學習中廣泛被認為是一種可解釋模型,常用于分類和回歸任務。其可解釋性來自于基于特征值對數據進行遞歸、分層的劃分以生成中間結果,最終輸出可通過用于分裂的特征值進行追蹤。根據特定標準,通過清晰透明的路徑從根節點(代表整個數據集)到達分支節點,實例被分配到由特定分裂點確定的不同葉節點(聚類),這對于最終用戶來說易于理解。
  • 規則:與基于決策樹的模型不同,用戶需要通過樹的層級路徑來理解聚類是如何從整個數據集中導出的,隨著樹的深入,這種理解變得越來越復雜。基于規則的方法則提供了一種更直接的方式來理解聚類是如何提取的。規則方法中的可解釋性來源于基于特征值生成的候選規則,通常以邏輯組合的形式表達(例如有意義的模式),用戶更容易理解。
  • 原型:原型的概念(也稱為“示例”)可以類似于k-means算法中的質心。每個原型作為其對應聚類的代表,靠近某個原型的樣本被認為是該聚類的成員。同時,不同原型代表的樣本可以重疊。
  • 凸多面體:這種可解釋模型本質上是將二維空間的凸多邊形擴展到更高維空間,其中每個聚類由一組限制平面包圍。每個多面體由若干半空間的交集形成,有效地定義了高維空間中聚類的邊界。
  • 描述:描述可以定義為某一特定概念的關鍵特征或屬性的簡潔且可解釋的表示。例如,在社區分析中,某個社區的描述可能概括了該社區的顯著特征,如共同的人口統計學、行為或屬性,從而有效地總結了該社區的內部結構,并將其與其他社區區分開來。

第三,現有方法可以根據它們的可解釋程度分為模型級別和特征級別的可解釋性。雖然本文討論的大多數方法都側重于設計可解釋模型以獲得聚類結果或擬合第三方算法的結果,但也有一些方法強調從復雜數據中提取可解釋特征,或研究特定聚類及其相關特征之間的關系,從而增強可解釋性。

最后,方法還可以根據它們所處理的數據性質進行分類。這些數據類型包括表格數據(數值型、類別型或兩者的組合)、序列數據(如離散序列和時間序列)、圖像、文本以及圖數據。

圖2所示的分類框架為根據四個不同標準對聚類方法進行分類提供了框架。這些標準是描述現有可解釋聚類方法的維度。同時,它們也可以用于識別符合特定可解釋性和性能要求的方法。

4 可解釋的聚類前方法

在研究可解釋的聚類模型時,雖然我們的目標是實現更透明的模型,但同樣重要的是仔細考慮用于生成可解釋結果的模型輸入特征。具體來說,現有的可解釋聚類前方法,重點研究在聚類之前進行的工作,可以從兩個角度來探討:(1) 特征提取 和 (2) 特征選擇。盡管這兩個問題在機器學習領域得到了廣泛研究,但它們很少與可解釋性聯系起來,尤其是在如何挖掘更容易被人類理解的特征以用于后續聚類任務方面。因此,我們匯編了一份通過詳盡搜索識別的與聚類前可解釋特征提取或選擇相關的論文列表,并在以下兩個小節中詳細說明。

**4.1 特征提取

從特征提取角度來看,可解釋的聚類前方法通常集中在復雜數據類型上,例如多變量時間序列(MTS)。提取有意義和信息豐富的特征可以幫助開發出更簡單的模型,這些模型能夠更好地捕捉復雜數據中的顯著特征,從而增強可解釋性并促進更好的理解。 在多變量時間序列領域,文獻 [16] 提出的系統自動從信號中提取特征,涵蓋了描述每個信號的信號內特征和通過可解釋度量評估信號之間關系的信號間特征。為了選擇最重要的特征,作者提出了兩種方法:一種是采用主特征分析(PFA)的無監督模式,另一種是結合用戶在小樣本數據集上的注釋的半監督模式,顯著減少了特征數量而不影響準確性。Salles等人 [17] 利用神經網絡中的自適應門控動態選擇每個實例的最相關特征。使用Gumbel-SoftMax技術處理離散選擇,并使用退火均方誤差正則化鼓勵稀疏性,模型識別出對預測性能貢獻最大的特征。這些選擇的特征隨后用于聚類,增強了聚類的相關性和可解釋性。 基于格式塔理論,文獻 [18] 提出了一種可解釋的波段選擇算法,其中高光譜圖像被視為基于接近性和連續性原則連續變化的點。該模型使用相似性和不變性原則構建,從高光譜圖像序列中提取三個波段形成偽彩色圖像,增強了類別內部的一致性和類別之間的差異。RGB顏色被分為十種類型,通過歐幾里得距離最小化三個通道與標準顏色之間的差異,實現不同波段的偽彩色映射,直觀地顯示特定光譜波段內的目標差異,符合視覺感知的原則。

**4.2 特征選擇

另一類可解釋的聚類前方法側重于在聚類之前從一組冗余和復雜的特征中準確選擇具有強辨別能力的特征,以適應不同的數據結構。這些方法能夠顯著提高聚類模型的可解釋性,同時保持其準確性。 Svirsky等人 [19] 提出訓練自監督的局部門控,以學習每個輸入樣本特定的稀疏門控向量。然后,使用學習到的向量通過自動編碼器進行重構。這種方法通過選定的特征集為每個樣本提供實例級別的解釋,使得模型在保持可解釋性的同時為每個實例使用更少的特征。

為了應對患者臨床事件日志聚類中的可解釋性不足問題,Balabaeva等人 [20] 提出了擴展二元特征集的方法。通過貝葉斯推理,他們識別出與聚類結構相關的特定特征,并將這些特征與專家描述聚類時使用的特征進行比較。該方法顯著增強了臨床路徑聚類的解釋性。

Effenberger等人 [21] 使用貪心算法選擇了一組有用的特征。該方法每次考慮一個特征,從權重最高的特征開始,選擇它,除非它非常稀有、幾乎用于所有解決方案或與已選特征過于相似。Jaccard系數用于衡量兩個特征之間的相似性,計算特征集合的交集與并集的比率。

5 可解釋的聚類中方法

可解釋的聚類中方法作為可解釋聚類方法中的直接來源,將可解釋性嵌入到聚類算法過程中。這種可解釋性通常被視為一種可優化的目標,與傳統的聚類標準(如k-means中的SSE)結合在一起。一些方法將可解釋性與傳統聚類標準結合起來,作為一個多目標優化問題 [22],而大多數方法則將其視為與某些結構參數相關的附加項 [23]。 有兩個典型的場景(S1和S2)可能使可解釋的聚類中方法與相應的聚類前或聚類后方法混淆,具體取決于可解釋性是在何階段被考慮的: S1: 是否需要第三方算法的輸入? 在這些聚類中方法中使用的可解釋模型可以直接產生聚類結果(如使用通過樹生長派生聚類的決策樹模型),也可以通過聯合優化目標函數與各種算法的成本合作。這些方法不依賴或附屬于第三方算法的參考聚類結果。即使某些方法使用初始聚類結果作為輸入,它們對聚類成本的定義仍然不明確 [24]。這些方法與聚類后方法之間的界限有時會模糊。若聚類是由可解釋性驅動的,而不是通過擬合第三方算法的結果來保證近似性,則該方法更傾向于可解釋的聚類中方法。

為了更清晰地說明聚類中方法與聚類后方法之間的區別,我們可以考慮以下示例: S1 示例參考:盡管[25]和[23]都優化了其算法中決策樹結構的特定可解釋性度量,前者代表了一種聚類后方法,而后者則是一種聚類中方法。文獻[25]假設一個固定的參考聚類,并根據該聚類擬合決策樹,而文獻[23]允許參考聚類的變化,以發現更具可解釋性的聚類。因此,它們在過程中何時考慮可解釋性方面有所不同,決策樹模型在聚類的不同階段被使用。可解釋的聚類中方法的關鍵強調其在聚類階段的探索性特征,使得聚類結果在整個算法過程中可以根據需要進行修改。當聚類是由黑箱算法生成的,任何后續解釋都可能被視為事后合理化,這可能使其不太可靠。理想情況下,可信的聚類結果應由可解釋模型直接產生 [14],減少對第三方聚類算法的依賴,并增強過程中的透明性和可控性。

S2: 數據集中的特征是否固有可解釋? 可解釋的聚類中方法處理各種形式的數據,并根據數據集特征的特性進行調整。對于典型的向量數據,特征通常是可解釋的 [26]:(1)對于數值特征,可以通過確定特征值是否大于或小于閾值來切分特征向量,這是決策樹聚類中常用的方法;(2)對于類別特征,值也可以基于是否包含或排除特定類別進行解釋。然而,對于缺乏顯式特征的社會和生物網絡數據 [27],可解釋的社區檢測方法旨在為節點尋找簡潔的描述性特征 [28]。對于圖像,其特征可能缺乏固有的可解釋性(例如,沒有清晰結構意義的像素矩陣),發現結構化或可解釋的特征變得更加具有挑戰性。在涉及語義內容的圖像任務中,如描述性聚類領域 [29],重點轉向識別可解釋的標簽。總而言之,處理這些具有不可解釋特征的復雜數據時,通常需要結合深度學習技術 [30],[31]。對于類別順序數據集,每個樣本是一個長度可變的離散序列,一些常規的序列聚類方法需要將序列轉換為特征向量。然而,這種轉換通常會導致從原始序列空間中喪失可解釋性。文獻[32]提出,在構建可解釋的聚類方法之前,需要進行區分性序列模式挖掘。 某些方法將解釋性特征的搜索與聚類過程本身緊密結合,這會模糊聚類中方法與聚類前方法的界限。這些方法通常強調聚類級別的可解釋性,而不是對象/實例級別的可解釋性。以下是一些示例,這些方法清楚地說明了解釋性特征提取過程如何與聚類中階段集成在一起:

S2 示例參考:Kim等人 [33] 提出了一種生成方法,用于識別高維二元數據聚類中區分維度,促進數據探索和假設生成。他們的系統將可解釋性標準嵌入到模型中,使用基于邏輯的特征提取將維度分組為可解釋的集合,從而區分聚類。Huang等人 [34] 開發了一種用于聚類中特征選擇的深度聚類算法。該模型基于圖拉普拉斯理論的K-并行自重構學習,通過探索未知特征關聯并執行自動特征加權來最小化聚類特定的損失,增強了聚類性能和可解釋性。

在澄清了這兩種場景下聚類中方法在某些情況下可能與聚類前或聚類后方法混淆之后,以下小節將進一步回顧和識別定義可解釋聚類中研究領域的關鍵方面。討論將重點放在可解釋性目標如何與聚類算法過程集成,特別關注典型的可解釋模型類型。

**5.1 基于決策樹的方法

決策樹模型在機器學習中廣泛被認為是一種可解釋模型,常用于分類和回歸任務。其可解釋性來源于基于特征值對數據進行遞歸、分層的劃分以生成中間結果,最終輸出可以通過用于分裂的特征值進行追蹤。實例根據特定的分裂點分配到不同的葉節點(聚類),遵循從根節點(代表整個數據集)向下經過分支節點的清晰透明路徑,最終用戶易于理解。 早期將決策樹應用于聚類的嘗試可以在文獻 [41] 中找到,使用均勻分布的合成數據作為輔助數據來構建標準(監督)決策樹。這種方法旨在通過修改標準的分裂標準(如信息增益)最大化原始數據與合成數據之間的分離度。盡管該方法使用了二元分裂,易于理解,但依賴于數據生成引入了額外的假設,使得難以聲稱分裂是真正可解釋的。相比之下,文獻 [42] 直接基于原始特征開發了無監督的決策樹。作者提出了四種不同的選擇最合適特征的度量標準,并為每個分支節點分裂數據提出了兩種算法。然而,要選擇用于計算這些度量的候選分裂點,需要先將數值特征域劃分為區間。文獻[35]引入了CUBT,提出了一種更簡單的分裂標準和更直觀的算法框架,并進一步擴展到分類數據 [43]。CUBT采用了類似于CART的通用方法,包括三個步驟:最大樹結構構建,隨后修剪和合并以簡化樹結構。該無監督的決策樹聚類模型也被擴展到可解釋模糊聚類領域 [44],其中在分支節點使用模糊分裂來增長初始樹,隨后合并相似的聚類以創建更緊湊的樹結構。 上述無監督決策樹模型采用自頂向下的方法,在當前分支節點級別考慮所有可能的候選分裂點,并計算異質性等標準,以便樹根據從父節點傳遞下來的最佳分裂貪婪地(貪婪搜索)增長。然而,這種類型的算法缺乏全局指導,意味著每次分裂都是局部優化,而不是在整個數據集上實現全局優化。 一些使用決策樹的高級可解釋聚類中方法利用了現代優化技術。這些現代優化技術包括,但不限于,文獻[36]中使用的混合整數線性優化(MIO)技術 [45],文獻[24]中使用的樹交替優化(TAO)技術 [46],以及文獻[23]中使用的單調優化技術(如分支減少和界限(BRB)算法)[47]。這些方法旨在通過明確優化應用于整個數據集的目標函數來構建全局最優的聚類樹。與傳統的自頂向下方法不同,這些方法直接建立了分配到不同葉節點(聚類)的實例與可解釋性目標之間的關系,并在目標函數中明確編碼了可解釋性。這些方法以更定量和形式化的方式表達可解釋性,通常通過指定樹的結構度量 [15](例如葉節點的數量),文獻[23],[24]中使用的葉節點數量(nLeaf)較少,通常表示較低的樹復雜性和相應的更好可解釋性。在這一全局優化框架的基礎上,還提出了一些可解釋的模糊聚類算法。例如,文獻[48]采用核密度決策樹(KDDTs)通過交替優化策略構建模糊決策樹,而文獻[49]則在目標函數中引入了分裂的軟(概率)版本,并通過受約束的連續優化模型獲得最優分裂。

**5.2 基于規則的方法

挖掘用于派生特定聚類的最佳規則集的過程通常受到模式挖掘領域的啟發 [50]。為了確保不同的規則集能夠有效地對應其各自的聚類,規則集通常具有兩個關鍵特征 [51]:(1)頻率(有意義),表示規則集應盡可能覆蓋其對應聚類中的樣本(真陽性);(2)區分能力(獨特),表示規則集應盡量減少覆蓋其他聚類樣本的數量(假陽性)。

為了獲得用于可解釋聚類的規則集,一種常見方法是根據規則覆蓋特定聚類的效果來量化可解釋性。例如,如文獻[37]所示,可解釋性評分用于評估某個特征值與聚類的相關性,通過考慮共享該特征值的聚類樣本的比例來實現。在生成的所有候選規則或規則集(如使用頻繁模式挖掘生成)中,這些方法旨在派生最大化可解釋性評分的聚類,同時優化聚類質量。由于可解釋性目標通常與聚類質量沖突,現有方法通常將可解釋性評分作為用戶指定的邊界,以平衡可解釋性和聚類質量,并與標準聚類目標結合。文獻[22]的方法為與聚類相關的每個規則集引入了兩個可解釋性標準:一個類似于文獻[37],另一個則考慮規則集的獨特性,即它覆蓋的與相關聚類無關的樣本數量最少。優化這兩個可解釋性目標與聚類質量度量相結合,形成了多目標混合整數線性優化問題(multi-MIO)。此外,文獻[22]考慮了規則集長度(lenRule)的最大值,即組合中的特征值數量作為約束,確保通過簡潔的規則表示的聚類更加可解釋。

其他基于規則的可解釋方法可能是定制化的,其中規則的含義不僅僅基于特征值。例如,在文檔數據集[52]中,規則可能采用不同的形式。模糊規則聚類領域的相關方法已被文獻 [12]綜述[53]。

**5.3 其他方法

除了上述兩種廣泛使用的可解釋模型外,其他可解釋的聚類中方法基于代表性元素創建聚類或確定聚類成員資格,這些方法通常可以歸類為基于邊界或類質心的方法。然而,為了使這些代表性元素具有可解釋性,某些屬性需要保持。以下是這些方法的簡要概述。

凸多面體:這些方法將聚類邊界限制為在特征空間中軸平行(矩形),如文獻[38]中提出的方法,該方法設計了一個概率判別模型(PDM)來定義此類聚類。更普遍地,它們可能使用允許對角邊界的超平面 [39] 來更準確地表示聚類。

無論是哪種情況,目標都是創建具有更少特征值的聚類,并將這些作為可解釋性約束納入標準聚類目標函數中。例如,文獻[39]使用混合整數非線性優化(nonlinear-MIO)編程公式來同時識別聚類并定義多面體。對于軸平行邊界,每個維度使用一個特征值,而對角邊界依賴于特征值的線性組合。雖然對角邊界在區分不同聚類方面具有更大的能力,但由于其復雜性增加,相較于簡單的軸平行邊界,其可解釋性較低。

原型(示例):在原始特征不可解釋且難以理解的數據集中,如圖像和文本,尤其是在使用深度嵌入時,最近關于通過示例進行可解釋聚類的工作發現,尋求高層次的類質心可以用于表征聚類并促進可視化。例如,文獻[40]解決了在沒有事先指定的情況下找到最少示例數量(nExemplar)的挑戰。此外,文獻[31]提出了一個新的端到端框架,旨在提高大型數據集的可擴展性,使基于示例的聚類更具現實應用的可行性。

**5.4 總結

各種可解釋模型已經為聚類中方法開發出來,還有其他潛在模型需要進一步研究(如表1所示)。這些模型始終將可解釋性視為與聚類質量同等重要的目標,并將其直接或間接地作為優化目標,具體取決于模型類型。例如,基于樹的模型通常優先減少分支或葉節點的數量,基于規則的模型則側重于簡短的規則,幾何表示模型,如基于原型的模型,旨在最小化示例的數量。需要進一步研究的優化目標包括更精細的結構參數。例如,文獻[25]中考慮了樹的深度作為優化目標;然而,這種旨在解釋給定參考聚類結果的方法屬于聚類后方法。

可解釋性與聚類質量之間往往存在權衡,增強其中一個可能會削弱另一個。在聚類后方法中,這一經常討論的挑戰可能不那么嚴峻,因為這些方法只需要專注于一個方向,即擬合給定的聚類結果。相比之下,聚類中方法必須同時追求這兩個目標。聚類中方法的一個關鍵研究方向是如何在確保真實數據可擴展性的同時平衡這些目標。如圖1所示,幾個可解釋模型無法完全預測所有樣本相對于其聚類的位置。雖然標準的決策樹模型生成的劃分與坐標軸對齊,但更靈活的斜決策樹 [24]可以提高聚類性能。同樣,凸多面體方法可以通過允許對角邊界受益 [39],而不僅限于軸平行的矩形,前提是它們保持凸性。需要進一步研究設計能夠有效處理復雜數據的新型可解釋模型。

6 可解釋的聚類后方法

模型后的可解釋性是可解釋學習中的一個關鍵方面,側重于解釋黑箱模型所做決定的推理過程。在聚類的背景下,可解釋的聚類后方法指的是使用可解釋模型(如決策樹)來盡可能接近地逼近現有的聚類結果(也稱為參考聚類結果)。這意味著可解釋模型分配給樣本的標簽應盡可能與原始結果對齊。這種方法有助于理解為什么某些樣本被分配到特定的聚類中,從而促進對黑箱模型的信任。以下小節將根據不同的可解釋模型對現有的可解釋聚類后方法進行分類。

**6.1 基于決策樹的方法

決策樹是聚類后分析中最廣泛使用的可解釋模型。在決策樹中,每個內部節點根據預定義的標準將其包含的樣本分成不同的組。k個葉節點(不一定是實際的聚類數量)對應于參考聚類結果中的k個聚類。每個聚類的分配可以通過其對應葉節點的路徑進行解釋。

在基于決策樹的聚類后方法中,構建的決策樹所獲得的聚類結果與參考聚類結果越接近,其可解釋性表現就越好。現有研究通常將這一指標定義為“可解釋性的代價” [54],即可解釋聚類的成本與最優聚類(例如k-means/medians)的成本的比率。因此,目標通常是構建一個決策樹T,使得cost(T)與最優k-means/medians的成本相比不太大。具體來說,當一個算法返回一個閾值樹T時,它具有x-近似保證,即cost(T) < x · cost(opt)。

關于由可解釋聚類后方法構建的決策樹質量的研究始于Moshkovitz等人的工作 [54]。他們使用貪婪方法開發了決策樹,旨在最小化每個分裂的錯誤數(即從對應參考聚類中心分離的點數),當樹達到k個葉節點時停止。該方法在最優k-medians上實現了O(k)的近似,在最優k-means上實現了O(k^2)的近似。Laber等人 [58] 提高了近似性,在最優k-medians上實現了O(d log k)的近似,在最優k-means上實現了O(kd log k)的近似。他們通過首先構建d棵決策樹(其中d是數據的維數),然后利用這些樹來構建最終的決策樹來實現這一目標。最終決策樹中用于分裂節點的特征基于當前節點中包含的中心的最大范圍的維度選擇。對應維度的決策樹中與該節點相關的特征值與參考中心集中到達當前節點的最近公共祖先(LCA)相關。Makarychev等人 [59] 采用了不同的方法,在相對隨機的情況下選擇分裂特征和值,以區分每個節點中距離較大的中心。這使得最優k-medians的近似為O(log k log log k),最優k-means的近似為O(k log k log log k)。文獻[60]構建的決策樹中,每個分裂節點的分割選擇完全是隨機的,只要它可以將不同的參考中心分離到不同的子節點中。已證明該方法可以實現最優k-medians的O(log^2 k)近似和最優k-means的O(k log^2 k)近似。最近,Esfandiari等人 [61] 集中于確定每個維度上參考中心的最大值和最小值,排序這些值,然后采樣一個分裂點來有效地分離參考中心。他們的方法實現了最優k-medians的O(log k log log k)近似和k-means的O(k log k)近似。已經提出了幾種方法來獨立地為k-means或k-medians提供近最優算法 [62], [63], [64],在此不作詳細闡述。

不同于專注于提高決策樹模型提供最優聚類結果近似保證的能力,Frost等人 [65] 采用了[25]的方法,構建了一棵具有k個葉節點的樹,然后使用一種新的代理成本貪婪地擴展樹到k′ > k個葉節點,并證明隨著k′增加,代理成本是不增加的。這種方法降低了聚類成本,同時提供了在可解釋性和準確性之間靈活的權衡。Laber等人 [25] 專注于構建能為劃分聚類提供簡短解釋(即樹的深度較小)的決策樹,同時在k-means成本函數方面仍能誘導出良好的劃分。此外,他們提出了兩個用于衡量可解釋性的結構度量:加權平均深度(WAD),該度量根據其相關聚類中的樣本數量對每個葉節點的深度進行加權;加權平均解釋大小(WAES),是WAD的一個變體。受穩健性研究的啟發,Bandyapadhyay等人 [66] 研究了通過刪除最少的點來構建決策樹,以精確匹配參考聚類結果,其中可解釋性通過刪除的點數來衡量。

**6.2 基于規則的方法

與決策樹不同,基于if-then規則構建的可解釋聚類后模型不涉及層次關系。它們對聚類的解釋相對簡潔和直觀,通過一組規則來描述聚類中的樣本。據我們所知,盡管if-then規則作為可解釋模型已經廣泛被接受,并得到了廣泛研究,但大多數基于規則的可解釋聚類方法集中于從數據中提取規則以形成聚類。因此,針對已形成聚類生成規則并提供解釋的聚類后方法的研究相對有限。 Carrizosa等人 [22] 解釋聚類的目標是最大化真實陽性案例(即滿足解釋的聚類內樣本)的總數,同時最小化假陽性案例(即聚類外滿足解釋的個體)的總數。此外,規則的長度受到限制,以確保較強的可解釋性。 De Weerdt等人 [67] 通過首先從數據中生成特征集,然后應用一種帶有剪枝的最佳優先搜索過程來構建解釋集,研究了事件日志的解釋搜索。通過迭代過程,他們不斷提高實例解釋的準確性和簡潔性。在此基礎上,Koninck等人 [68] 從黑箱支持向量機(SVM)模型中為每個個體實例挖掘簡潔規則,并討論和評估可用于解釋技術的不同替代特征集。

**6.3 其他方法

除了上述的決策樹和if-then規則外,文獻中還有其他一些可解釋模型用于解釋現有的聚類結果。鑒于這些模型數量有限,我們將不逐一回顧每個模型,而是在此提供總體總結。 原型:Carrizosa等人 [57] 提出了一種使用原型來解釋每個聚類的方法。原型是代表其聚類的個體,其與聚類內其他個體的相似性最小。在他們的方法中,他們解決了一個雙目標優化問題,以識別這些原型。該問題旨在最大化每個聚類中的真實陽性案例的數量,同時最小化其他聚類中的假陽性案例的數量。 凸多面體:在文獻[55]中,圍繞每個聚類構建一個多面體作為其解釋。每個多面體通過有限數量的半空間的交集形成。作者將多面體描述問題表述為一個整數規劃問題,其中變量對應于用于描述聚類的候選半空間。此外,他們提出了一種列生成方法來有效地搜索候選半空間。Chen等人 [56] 提出使用超立方體覆蓋模型來解釋聚類結果。該模型結合了兩個目標函數:超立方體的數量和實例的緊湊性。采用啟發式搜索方法(NSGA-II)來識別一組非支配解,定義理想點以確定最合適的解決方案,每個聚類由盡可能少的超立方體覆蓋。 描述:Davidson等人 [69] 提出了聚類描述問題,其中每個數據點都與一組離散描述相關聯。其目標是為每個聚類找到一組不重疊的描述,以覆蓋聚類中的每個實例。該方法允許指定每個聚類的最大描述數量,以及任何兩個描述可以共同覆蓋的聚類的最大數量。

**6.4 總結

幾種代表性的可解釋聚類后方法總結在表2中。此外,還可以注意到以下幾點:首先,大多數聚類后研究利用決策樹作為可解釋模型來解釋聚類結果。然而,決策樹生成的解釋存在一些缺點,例如深層決策依賴于淺層決策。此外,可以考慮在選定的維度上使用超平面代替僅沿一個特征進行劃分。此外,適合的數據類型可能影響選擇哪種可解釋模型;例如,描述可能更適合社區分析。因此,涉及其他可解釋模型的聚類后方法需要進一步研究。

其次,現有方法主要集中在通過基于決策樹的方法逼近參考聚類結果的最優聚類成本,或者旨在實現具有較高真實陽性率和較低假陽性率的可解釋模型 [22], [57]。然而,只有少數方法強調解釋的簡潔性(除[22], [25]外),其中包括但不限于決策樹的深度、葉節點的數量以及規則的長度和數量。因此,平衡可解釋模型的準確性和簡潔性,以及量化可解釋性指標,仍然是一個需要進一步研究的領域。

7 結論與未來方向

本綜述從全面且系統的角度對各種可解釋聚類方法進行了探討,重點介紹了該領域的基礎研究和最新進展。這是首個涵蓋聚類分析全生命周期的主題,包括聚類前、聚類中和聚類后階段。在每個階段,相關的可解釋聚類方法文獻都進行了回顧。主要目標是明確在聚類背景下可解釋性的定義,以及它如何嵌入常用的可解釋模型中,如決策樹、規則、原型和凸多面體模型。這些模型創建了具有可解釋性的聚類,使人類用戶能夠理解這些元素,并可能使這些聚類結果應用于高風險領域,從而滿足透明性和可信度的基本要求。 為提供對該領域未來方向的有價值見解,我們根據不同方面對各種可解釋聚類方法進行了分類,并進一步總結了關鍵技術標準供讀者參考,例如:(1) 優化方法,說明來自不同領域的作者如何將可解釋性挑戰形式化,并使用哪些方法解決這些優化問題;(2) 與可解釋性相關的結構度量,這些度量可能被用于評估新方法的可解釋性質量,類似于使用準確性評估聚類質量。文獻仍然缺乏對更多樣化的結構度量的關注。我們相信,研究這些不同可解釋聚類方法的研究人員可以互補和增強彼此的工作。此外,不同聚類階段的方法可以結合使用,因為僅依賴單一階段的可解釋聚類方法可能不足以應對復雜且具有挑戰性的應用場景。尤其是在明顯的可解釋特征不存在的情況下,構建可解釋的聚類算法變得困難。此外,針對復雜數據(如離散序列 [32]、網絡(圖) [70] 以及多視角和多模態數據 [71])的可解釋聚類方法的研究仍然有限。

付費5元查看完整內容

近年來,我們見證了大型語言模型(LLM)的快速發展。基于強大的LLM,多模態LLM(MLLM)將模態從文本擴展到更廣泛的領域,因其廣泛的應用場景而引起廣泛關注。由于LLM和MLLM依賴大量的模型參數和數據來實現突現能力,數據的重要性正受到越來越廣泛的關注和認可。追蹤和分析最近針對MLLM的數據導向工作,我們發現模型和數據的發展并不是兩條獨立的路徑,而是相互關聯的。一方面,更大量和更高質量的數據有助于MLLM的更好表現;另一方面,MLLM可以促進數據的發展。多模態數據和MLLM的共同發展需要明確以下幾點:1)在MLLM的哪個發展階段可以采用哪些以數據為中心的方法來增強哪些能力,2)通過利用哪些能力和扮演哪些角色,模型可以對多模態數據作出貢獻。為了促進MLLM社區的數據-模型共同發展,我們系統地回顧了現有與MLLM相關的工作,從數據-模型共同發展的視角進行分析。本調查相關的一個定期維護的項目可以在 //github.com/modelscope/data-juicer/blob/main/docs/awesome llm data.md 訪問。

近年來,大型語言模型(LLM)在廣泛的任務中展示了令人印象深刻的性能,并且相關技術取得了顯著的進展。由于人類的感官不僅限于文本模態,多模態LLM(MLLM)逐漸進入視野,例如能夠處理超越文本模態輸入或輸出的Gemini-1.5 [1] 和 Sora [2],以及能夠在輸入和輸出之間進行多模態交互的GPT-4o [3] 和 NExT-GPT [4]。在過去兩年中,MLLM受到廣泛關注。正如圖1所示,自2023年初以來,與MLLM相關的研究正在以越來越快的速度涌現。 MLLM的卓越性能源于LLM在參數數量擴大帶來的解決一系列任務的突現能力[5]。許多研究表明,擴大模型規模需要更加海量的數據來補充[6], [7], [8],例如擴展法則[9], [10]。具體而言,研究表明,多模態模型需要指數級更多的數據才能在下游任務中實現線性零樣本改進[11]。鑒于此,一系列工作將重點從僅僅關注模型架構和訓練技術轉移到數據中心方法,專注于高質量數據的策劃[12], [13], [14], [15], [16], [17],以提供進一步釋放大型模型潛力的數據基礎。從圖1可以看出,在現有關注MLLM的論文中,與數據中心方法密切相關的論文也表現出強勁的增長趨勢,并占據了重要的部分。 隨著與MLLM相關的大量技術工作不斷涌現,一些針對MLLM的綜述也逐漸出現[18], [19], [20], [21], [22], [23], [24], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]。這些綜述主要從模型中心的角度進行,而數據的重要性需要進一步強調。一項最近的綜述將數據中心的視角從單模態擴展到多模態,重點關注現有的數據中心方法,并根據所提出的數據管道階段進行組織[35]。實際上,數據和模型的發展是交織在一起的,而不是分開的。更大數量和更高質量的數據提高了模型性能,而從高質量數據中受益的良好訓練的模型可以進一步改進數據。這減少了人工成本,擴大了數據量,并通過使用需要標注的分割掩碼進行訓練的Segment Anything模型(SAM)[36]的訓練成功展示了這一點。隨著SAM在訓練中的熟練程度提高,它逐漸取代人在標注任務中的角色,從而形成一個改進模型和數據集的循環。這樣的漸進和良性循環促進了MLLM的發展,即受益于高質量數據集的MLLM可以幫助改進訓練數據,反過來進一步增強MLLM。 數據-模型共同發展范式很有前途,但尚未得到充分研究。根據我們的調查,目前還缺乏從數據-模型共同發展視角對MLLM的綜述。現有綜述尚未建立數據中心方法與MLLM能力之間的關系,也沒有清晰闡明MLLM的能力如何幫助構建數據集。實現MLLM數據-模型共同發展的關鍵在于闡明哪些數據方法可以增強每種特定的MLLM能力,以及了解模型可以扮演的角色,以改進多模態數據。因此,本綜述旨在通過綜合回顧回答以下研究問題,推進MLLM的數據-模型共同發展: * RQ1:在MLLM的生命周期中,哪些數據中心方法可以在哪個階段用于增強哪些MLLM能力? * RQ2:模型可以扮演哪些角色以促進不同的數據中心方法,并在每種情況下利用模型的哪些特定能力?

為了回答這兩個關鍵研究問題,我們首先提出一個基于MLLM數據-模型共同發展范式的新分類法。我們將先前的努力分為兩個主要類型:數據對模型的貢獻和模型對數據的互惠貢獻,建立其在MLLM能力中的深層連接。隨后,我們從數據-模型共同發展的視角對現有MLLM工作進行全面審查,揭示了推進數據-模型共同發展范式的巨大潛力,主要歸因于缺乏對數據和模型之間協同作用的專注。基于獲得的見解,我們描繪了若干進步的未來方向,以更好地利用數據和模型之間的互補,從基礎設施到各種自我增強程度的數據-模型共同發展。該綜述的主要貢獻有三點: * MLLM開發的新視角:我們提出了一種新分類法,強調多模態數據與MLLM之間的協同作用,旨在理解和挖掘數據和模型開發的互惠優勢。該分類法系統地基于開發MLLM所需的數據相關技術的層次結構進行組織,為研究人員和開發人員提供了推進MLLM的清晰視角。 * 從數據-模型共同發展視角對MLLM的最新綜述:我們系統地回顧了快速增長的MLLM工作,闡明1)哪些MLLM能力可以通過特定的數據中心方法增強,2)經過良好訓練的模型的能力如何反過來支持數據中心方法。據我們所知,這是第一篇從數據-模型共同發展視角對MLLM進行綜述的論文。 * MLLM未來的路線圖:我們提供了一個進步組織的路線圖,涵蓋若干先進和有前途的子方向,重點關注數據和MLLM之間的內部互動。通過這項工作,我們希望為學術研究人員和工業從業者在MLLM不斷發展的領域提供靈感和指導。

組織結構。本文余下部分的組織如下。第二節提供了背景,包括背景知識、分類法以及與現有相關綜述的定性比較。第三節介紹了擴展MLLM的數據中心方法。第四節總結了提高MLLM可用性的數據中心方法。第五節描述了模型直接幫助策劃MLLM數據集的能力。第六節整理了模型作為數據科學家輔助策劃MLLM數據集的應用。第七節列出了一些公開的MLLM數據集,并標明模型在數據策劃中的參與。第八節討論了MLLM未來發展的路線圖。

付費5元查看完整內容

轉載于“計算機研究與發展”

近年來,大型語言模型的出現和發展對自然語言處理和人工智能領域產生了變革性影響. 隨著不斷增大模型參數量和訓練數據量,語言模型的文本建模困惑度以可預測的形式降低,在各類自然語言處理任務上的表現也持續提升. 因此,增加語言模型的參數和數據規模成為提升系統智能水平的富有前景的途徑.

本文首先回顧了大型語言模型的基本定義,從模型表現和算力需求的角度給出了“大型”語言模型的界定標準. 其次,從數據、算法、模型三個維度梳理了大型語言模型的發展歷程及規律,展示了不同階段各個維度的規模化如何推動語言模型的發展. 接著,考察了大型語言模型所表現出的涌現能力,介紹了思維鏈、情景學習和指令遵循等關鍵涌現能力的相關研究和應用現狀. 最后,展望了大型語言模型的未來發展和技術挑戰.

內容簡介

1.回顧了大型語言模型的基本定義,從模型表現和算力需求的角度給出了“大型”語言模型的界定標準. 2.從數據、算法、模型三個維度梳理了大型語言模型的發展歷程及規律,展示了不同階段各個維度的規模化如何推動語言模型的發展. 3.考察了大型語言模型所表現出的涌現能力,介紹了思維鏈、情景學習和指令遵循等關鍵涌現能力的相關研究和應用現狀. 4.展望了大型語言模型的未來發展和技術挑戰.

亮點圖文 自GPT-3問世以來,國內外多家機構加大對大型語言模型的研發投入,近三年來涌現了一批具有競爭力的大型語言模型. 目前已有的大型語言模型總體上呈現出以工業界投入為主、以英文為主、以閉源為主等特點. 下面的表格1中列舉了當前常見大型語言模型的基本信息.

如下圖展示了語言模型的主要發展路徑:2008年,Collobert等人發現將語言模型作為輔助任務預先訓練可以顯著提升各個下游任務上的性能,初步展示了語言模型的通用性;2013年,Mikolov等人在更大語料上進行語言模型預訓練得到一組詞向量,接著通過遷移學習的手段,以預訓練得到的詞向量作為初始化,使用下游任務來訓練任務特定模型;2018年,Google的Devlin等人將預訓練參數從詞向量擴增到整個模型,同時采用Transformer架構作為骨干模型,顯著增大了模型容量,在諸多自然語言處理任務上僅需少量微調即可取得很好的效果;隨后,研究人員繼續擴增模型參數規模和訓練數據量,同時采取一系列對齊算法使得語言模型具備更高的易用性、忠誠性、無害性,在許多場景下展現出極強的通用能力,OpenAI于2022年底發布的ChatGPT以及2023年發布的GPT-4是其中的代表. 縱觀近十余年來語言模型的發展歷程,不難發現兩個規律:

  1. 以語言模型及其變體為訓練任務,從多個維度實現規模化. 從2008年到今天,語言模型的訓練任務變化很小,而其訓練數據逐漸從6億單詞增長到今天的超萬億單詞,算法從傳統的多任務學習范式發展到更適合大規模預訓練的遷移學習范式,模型從容量較小的CNN/RNN模型發展為包含超過千億參數的Transformer模型.
  2. 將更多模型參數和訓練任務從下游轉移到上游. 從模型參數的角度,2013年以前的大多數模型要從頭訓練(training from scratch)所有參數;2013年到2018年主要基于預訓練的詞向量訓練參數隨機初始化的任務特定模型;2018年到2020年逐漸轉向“預訓練+微調”范式,即使用預訓練模型作為下游任務初始化,僅需添加少量任務特定參數,例如在預訓練模型上添加一個隨機初始化的線性分類器;2020年左右,基于提示(prompt)的方法得到了很大發展,通常直接使用包括語言模型分類頭(language modeling head)在內的整個預訓練語言模型,通過調整其輸入內容來得到任務特定輸出. 從訓練任務的角度,語言模型從與其他下游任務聯合多任務訓練逐漸發展成為獨立的上游任務,通過數據、模型、算法等多個維度的規模化逐漸降低對下游任務訓練的需求,近年來的大型語言模型通常在已有的上千個指令化自然語言處理任務(例如FLAN)上訓練,從而可以在未經下游任務訓練的情況下很好地泛化到未見任務上. 如下圖給出了當前常見的大型語言模型的參數量和訓練計算量,不難發現,較近的語言模型(如Chinchilla和LLaMA)通常采用相對較大的訓練數據和相對較小的參數規模,這在下游微調和推理部署時具有顯著的效率優勢.

到目前為止,規模定律仍然是一個非常重要且值得探索的方向,特別是中文語言模型的規模定律尚未有公開研究. 此外,已有的對規模定律的研究主要為通過大量實驗得出的經驗性規律,而缺乏對其理論機理的解釋. 未來發展與挑戰**

** 以ChatGPT、GPT-4為代表的大型語言模型已經在社會各界引起了很大反響,其中GPT-4已經初步具備通用人工智能的雛形. 一方面,大型語言模型的強大能力向人們展現了廣闊的研究和應用空間;而另一方面,這類模型的快速發展也帶來了許多挑戰和應用風險.

未來發展

1)高效大型語言模型.當前大型語言模型主要采用Transformer架構,能夠充分利用GPU的并行計算能力并取得不俗的性能表現. 但由于其計算和存儲復雜度與輸入文本長度呈平方關系,因此存在推理效率慢、難以處理長文本輸入等缺陷. 2)插件增強的語言模型.集成功能插件已經成為大型語言模型快速獲得新能力的重要手段3)實時交互學習.語言模型能夠在與用戶交互過程中完成實時學習,特別是能夠根據用戶輸入的自然語言指令更新自身知識是邁向通用人工智能的重要步驟.4)語言模型驅動的具身智能.通過多模態深度融合、強化邏輯推理與計劃能力等手段,打造具備強大認知智能的具身系統正在成為大型語言模型和機器人領域的研究熱點.

** 挑戰**1)檢測.大型語言模型生成的文本高度復雜甚至相當精致,在很多場景下難以與人類創作的文本區分開. 因而,語言模型生成文本的檢測和監管成為亟待解決的問題,2)安全性.大型語言模型的訓練數據大量來自互聯網上未經標注的文本,因而不可避免地引入了有害、不實或歧視性內容. 如何構造適合中文環境的安全性評估標準及其相應訓練數據仍然是中文語言模型大規模落地應用的重要挑戰.3)幻覺.目前ChatGPT和GPT-4等高性能語言模型仍然存在較嚴重的幻覺問題,即經常生成包含事實性錯誤、似是而非的文本,這嚴重影響了其在部分專業領域應用的可靠性.有效識別模型的內部知識和能力邊界仍舊是極具挑戰性的未解之題. 總之,大型語言模型給自然語言處理乃至人工智能領域帶來了巨大的范式變革,將原來按不同任務進行橫向劃分的領域設定轉變為按流程階段進行縱向劃分的新型研究分工,并構建了以大型語言模型為中心的人工智能新生態.

引用格式

舒文韜, 李睿瀟 , 孫天祥, 黃萱菁, 邱錫鵬. 大型語言模型:原理、實現與發展[J]. 計算機研究與發展. doi: 10.7544/issn1000-1239.202330303 Shu Wentao, Li Ruixiao, Sun Tianxiang, Huang Xuanjing, Qiu Xipeng. Large Language Models: Theories, Methods, and Progress[J]. Journal of Computer Research and Development. doi: 10.7544/issn1000-1239.202330303

付費5元查看完整內容
北京阿比特科技有限公司