亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

C2SIM Autonomous Systems(C2SIM自主系統)團隊已著手進行一項探索性研究,采用大型語言模型(LLM)GPT-4來促進場景開發,為擴展本體論奠定基礎。本文概述了 GPT-4 在生成特定場景方面的初步應用結果,并強調了其實用性和局限性。詳細介紹了指導 GPT-4 輸出所采用的方法,包括 “0-shot 學習 ”和 “提示工程”,它們是根據 C2SIM 要求策劃場景內容的技術。這些方法提供了一種新穎的方法,不僅可以總結文獻中的現有知識,還可以從模型中提取嵌入式領域知識,從而為用戶引導的動態場景完善過程做出貢獻。這項調查的洞察力揭示了在場景生成中部署 LLM 的實際意義,從而為后續以合成數據對本體開發的貢獻為重點的研究軌跡提供了信息。最后,本文根據目前在該領域應用 LLMs 的經驗教訓,規劃了未來研究的潛在途徑。

本文利用 OpenAI 的 GPT-4 模型作為生成自主系統場景的輔助工具。使用零樣本方法來檢驗該模型的能力,沒有通過樣本(少數幾次)或其他定制對模型進行微調。塑造 GPT-4 響應的主要方法是 “提示工程”。提示是對輸出的自然語言描述,但經過精心設計,可引導模型產生所需的結果。根據提示中的措辭、詳細程度或指示,結果可能會有所不同,有時甚至會大相徑庭。因此,對提示的改進需要采用迭代開發方法。

提示符的開發遵循一個循環,即逐步完善提示符,以解決評估過程中發現的問題。開發工作在 OpenAI 的 Playground 中進行,這是一個簡單而有效的網絡環境,用于定義和測試提示。Playground 界面用于定義包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。

提示的演變基于 OpenAI 文檔中列出的最佳實踐。創建并測試了多個提示版本,并逐步添加、編輯或刪除細節,以解決生成的輸出中存在的缺陷。提示語的詳細信息見第 4.1.1 節和第 4.3.1 節。

理想情況下,對提示版本(或一般微調模型)的評估應基于可量化的測量結果,如在已知預期結果的測試用例集上,被評估版本產生的正確結果所占的百分比。在這里,沒有精確的典型情景可用作基準,因為沒有一種單一的方法來描述情景。因此,對結果的評估是基于對每個版本根據所需的標準情景格式的不同部分所產生的輸出結果進行的定性分析。

開發工作主要是通過評估論文中情景提取任務(第 4.1 節)的提示質量來進行的,因此可以根據模型結果與論文本身所表達的內容的匹配程度來進行評估。我們考慮了以下問題,評分標準為 0 至 5 分:

  • 結果是否包含標準場景模板的所有要素?評估是否有遺漏(或添加)的要素偏離預期結果。

  • 結果是否只反映了文件中包含的場景?評估是否成功地從論文更廣泛的考慮和討論中提取了方案。在許多情況下,假設只是整個論文的一小部分,可能僅用于說明目的,這給提取帶來了困難。

  • 描述是否是對論文場景的公平總結?評估生成的摘要與論文描述的 “要點 ”的匹配程度,以及是否包含幻想的細節(“幻覺”)。

  • 根據上下文,生成的目標和績效衡量標準是否合理?

  • 步驟是否反映了情景的邏輯時間進程?

鑒于對相同輸入進行連續運行會產生不同的結果,評估考慮了每個提示版本五次運行的平均值。下一節概述了所進行的實驗。

付費5元查看完整內容

相關內容

人工智能在軍事中可用于多項任務,例如目標識別、大數據處理、作戰系統、網絡安全、后勤運輸、戰爭醫療、威脅和安全監測以及戰斗模擬和訓練。

本文提出了一種通過語義分析將戰略框架與決策啟發法相結合來推薦可操作策略的新方法。盡管戰略框架為評估與規劃提供了系統化模型,而決策啟發法則編碼了經驗性知識,但這兩大傳統領域在歷史上長期處于割裂狀態。我們的方法論運用先進自然語言處理(NLP)技術彌合了這一鴻溝,并通過將6C模型與三十六計等框架相整合進行了實證展示。該方法采用向量空間表示與語義相似度計算,將框架參數映射到啟發式模式,其計算架構融合了深度語義處理與受限的大型語言模型應用。通過將主內容體與次級元素(圖表、矩陣)作為互補性語言表征進行統一處理,以企業戰略案例研究驗證了該方法的有效性。該框架可推廣至各類分析模型與啟發式集合,最終形成即插即用的推薦系統架構,能夠生成融合戰略框架與決策啟發法的可操作性指導方案,實現二者的有機統一。

當今的組織在戰略管理和決策方面依賴于兩種主要但歷史上各自獨立的文本傳統:分析框架和決策啟發法。這兩種傳統都以自然語言編碼戰略知識--通常輔以圖表或結構化表述--但在范圍和風格上有所不同。波特五力分析法、SWOT 分析法和價值鏈分析法等分析框架為形勢評估和長期規劃提供了系統的視角。同時,決策啟發式方法--從早期的軍事智慧(如三十六計)到現代的 “經驗法則”--提供了通過實際經驗總結出的簡明、可行的見解。

在實踐中,將這兩種傳統結合起來會帶來明顯的優勢:更平衡的戰略規劃方法、更清晰的循證建議途徑以及更少的詳盡分析時間。然而,框架和啟發式方法很少在一個統一的過程中相互作用。框架擅長全面性和嚴謹性,但存在分析癱瘓的風險,而啟發式方法更加靈活,但可能會過度簡化復雜的情況。彌合這一差距將使決策者能夠獲得每種方法的互補優勢,從而提出既全面又可迅速實施的建議戰略。

人工智能(AI)和自然語言處理(NLP)的最新進展為整合這些傳統方法提供了有力的途徑。通過應用語義分析來揭示戰略文本中的語言模式、修辭結構和概念之間的相互依存關系,我們可以在分析框架的方法結構和啟發式方法的簡明行動步驟之間構建自動映射。本文提出了一種推薦系統架構,利用這些映射生成可操作的戰略建議,最終加快決策進程并提高戰略洞察力。

為了具體說明這種語義整合,我們重點討論了兩個具有代表性的模型:6C 框架和三十六計。6C 框架綜合了軍事和商業文獻中反復出現的戰略主題(進攻/防御力量、關系能力、潛在能量、時間可用性和環境適應性)。相比之下,根植于中國政治、軍事和民間話語的三十六計則以精煉的表達方式囊括了數百年來的啟發式見解。通過先進的 NLP 工具(如向量空間嵌入、主題建模和模式識別),我們展示了每條計策中的語言線索如何與特定的 6C 參數相關聯。然后,這種系統化的分析會驅動一個自動管道,將任何給定的戰略情況與合適的啟發式方法相匹配,從而產生基于證據、上下文感知的建議。

我們的方法有兩大創新。首先,我們將系統嵌入到互動模擬環境中,促使決策者用自然語言表達情景。該環境會分析這些文本輸入,計算相關性得分,并根據所選戰略框架返回如何最佳組合或選擇啟發式方法的建議。其次,我們以可控的方式使用大型語言模型(LLMs)來生成連貫、敘述式的報告,闡明每項建議背后的理由。通過將 LLMs 整合為解釋器而非自主決策者,我們既保持了分析的嚴謹性,又提供了易于理解的解釋。

在下文中,我們將詳細介紹我們的語義方法,討論實現框架-啟發式整合的計算架構,并通過企業戰略案例研究說明其現實意義。然后,我們將展示這種即插即用架構如何超越 6C 和三十六計,適應波特五力和 SWOT 等其他廣為人知的框架。最終,我們旨在展示企業如何部署推薦系統方法,將全面的戰略分析與經過驗證的啟發式洞察力相結合,提供既穩健又可隨時應用于復雜環境的可行指導。

本文其余部分的結構如下:

  • 第 2 節介紹背景知識
  • 第 3 節詳細介紹我們用于框架集成的語言分析方法
  • 第 4 節介紹支持這種整合的計算架構
  • 第 5 節通過兩個案例研究展示該方法
  • 第 6 節提供經驗驗證
  • 第 7 節討論相關工作
  • 第 8 節討論影響和未來方向
付費5元查看完整內容

大規模混合專家(MoE)模型的出現標志著人工智能領域的一項重大進展,通過條件計算提供了更強的模型容量和計算效率。然而,這些模型的部署和推理在計算資源、延遲和能效方面提出了顯著的挑戰。本綜述系統地分析了當前混合專家模型推理優化技術的全貌,涵蓋了整個系統堆棧。我們首先建立了一個分類框架,將優化方法分為模型級、系統級和硬件級優化。 在模型級別,我們考察了包括高效專家設計、注意力機制、修剪、量化、知識蒸餾等各種壓縮技術,以及動態路由策略和專家合并方法等算法改進的架構創新。系統級別上,我們研究了分布式計算方法、負載平衡機制和高效調度算法,這些方法使得可擴展部署成為可能。此外,我們還深入探討了硬件特定的優化和協同設計策略,以最大化吞吐量和能效。 本綜述不僅提供了現有解決方案的結構化概述,還識別了混合專家推理優化中的關鍵挑戰和有前景的研究方向。我們的全面分析為研究人員和從事大規模 MoE 模型資源受限環境部署的實踐者提供了寶貴的資源。為了便于后續更新和分享 MoE 推理優化研究的最新進展,我們已建立了一個公開的資源庫,網址為://github.com/MoE-Inf/awesome-moe-inference/

1 引言

大規模語言模型(LLM)已經徹底改變了人工智能領域,展示了在多個領域,包括自然語言處理[20, 115, 157]、計算機視覺[31, 33, 194]以及多模態任務[86, 123, 162]中的前所未有的能力。像GPT-4[2]、Claude[8]和Gemini[151]這樣的模型,在從自然語言理解到復雜推理和代碼生成等任務上,取得了顯著的成績。這些模型的出色能力主要歸功于其龐大的規模,包括模型參數的數量和訓練過程中投入的計算資源。實踐中,越來越多的實證研究表明,隨著模型規模的增大,性能不斷提高,這一現象在語言建模和其他領域的多種擴展規律中得到了體現[5, 19, 74]。然而,這一發展趨勢在推理階段(尤其是實際部署中)面臨著巨大的計算效率和資源利用挑戰[10, 173, 187, 199]。 混合專家(MoE)模型作為一種有前景的架構解決方案,已經出現并在一定程度上解決了機器學習中的擴展性問題[137]。最早由Jacobs等人[68]于1990年代初提出,作為一種在神經網絡中學習子任務的方法,許多基于MoE的模型[37, 53, 155]也在多年的發展中相繼問世。在大規模語言模型的時代,MoE再次迎來了復興[1, 29, 70, 148]。MoE的核心原則是通過一個學習的門控機制將模型的容量分配到多個專門化的子網絡或專家上,每次僅激活與當前輸入相關的專家。這種方法允許模型保持較大的參數規模,同時通過稀疏激活保持計算開銷的可控性。近期的實現,如Mixtral 8x7B[70]、Switch Transformers[42]和GShard[82]等,已經證明了這一策略在將語言模型擴展到萬億級參數的同時,仍能保持合理的計算需求。 MoE在擴展模型方面的成功,使其被廣泛應用于各種前沿系統中。例如,谷歌的GLaM[35]在推理時使用顯著更少的計算資源就超過了GPT-3的表現。類似地,最近的開源MoE模型Mixtral 8x7B[70],盡管模型規模遠小于密集型模型,但仍表現出與更大模型相媲美的競爭性能,并保持了高效的推理特性。表1總結了近年來備受關注的前沿開源MoE模型,進一步突顯了MoE架構的巨大潛力。這些成功的案例引發了學術界和工業界對MoE的廣泛關注,促使了模型設計[22, 164, 192]、訓練技術[34, 47, 101]以及部署策略[15, 16, 183]等方面的創新。 然而,MoE模型在推理中的高效部署仍然面臨獨特而嚴峻的挑戰[65, 150, 181, 196]。專家激活模式的動態性引入了資源管理和調度的復雜性,這是傳統密集型模型所沒有的。這些挑戰涵蓋了多個層面:在模型級別,專家架構和路由機制的設計直接影響推理性能;在系統級別,分布式計算和負載平衡的管理變得日益復雜;而在硬件級別,需要專門的加速技術來處理稀疏計算模式。 為了解決MoE部署和推理中的這些挑戰,已經提出了許多方法[72, 125, 133, 170]。盡管這一領域的研究快速增長并顯示出其重要性,但也使得識別關鍵趨勢和最佳實踐變得困難。現有文獻中的一個關鍵空白是缺乏一個系統化的框架,用于分析和開發綜合性的MoE推理優化解決方案。 為了彌補這一空白,本文提供了一個關于MoE模型推理優化技術的全面綜述。我們提出了一個分類框架,將優化方法分為模型級、系統級和硬件級優化,如圖1所示。這個框架提供了一個結構化的方法來理解和比較不同的優化技術。盡管已有關于大規模語言模型效率[10, 84, 90, 156, 159, 173, 187, 199]和MoE架構[13, 41, 158]的相關綜述,但我們的工作是首個專門聚焦于MoE模型推理優化技術的綜述。我們系統地分析了從模型架構到硬件加速的不同抽象層級的優化方法,為研究人員和實踐者提供了一個寶貴的資源,幫助他們將MoE模型部署到不同的實際應用中。

本綜述的其余部分組織如下:第2節介紹了MoE模型及其推理特性;第3至第5節分別詳細介紹了模型級、系統級和硬件級的優化技術;第6節討論了未來的挑戰和機遇;第7節對綜述進行了總結。 混合專家(MoE)的基本原理

模型層級優化

模型層級優化旨在通過架構、參數優化和算法設計的系統性改進,增強MoE模型的固有結構和效率。這些優化可以大致分為三個主要領域:高效的模型架構設計、模型壓縮技術和算法改進。架構設計側重于開發更高效的專家和注意力結構,壓縮技術則通過剪枝、量化和知識蒸餾等方法,減少模型大小和內存占用。算法改進則集中在提升MoE模型的動態特性,包括路由機制和專家組合策略。圖3展示了本節的詳細結構。

系統層級優化

由于MoE架構的獨特結構,許多研究集中在通過利用該架構固有的稀疏激活模式來加速推理過程,尤其是在系統層級。通常,MoE模型在兩種場景下部署:云環境中的多個服務器和邊緣環境中的單個設備。在云集群中,MoE模型分布在多個設備上,以實現并行執行。除了傳統的并行化技術,如數據并行、張量并行和流水線并行[69, 110, 126],專家并行是專門為MoE模型量身定制的特殊方法。在邊緣設備上,受限于GPU內存,往往無法容納MoE模型的所有參數,因此需要將部分參數卸載到CPU內存或SSD存儲中。為了解決這一問題,專家卸載技術被開發出來,以充分利用專家的稀疏激活模式,實現高效執行。圖6展示了本節的詳細結構。

硬件層級優化

最近針對MoE推理的硬件優化通過新穎的架構和共設計方法解決了關鍵挑戰。這些優化主要針對每字節操作數(Op/B)效率、異構計算單元和內存訪問模式等關鍵問題。以下討論了硬件層級解決方案中的一些重要進展。 MoNDE [76] 引入了一種近數據處理(NDP)解決方案,旨在解決稀疏激活和專家參數傳輸開銷的問題(圖8)。該架構將基于CXL(計算擴展鏈接)的NDP控制器與專用的NDP核心結合,用于內存中的計算,利用LPDDR SDRAM(低功耗雙倍數據速率同步動態隨機存儲器)提供高帶寬和能效。系統實現了一種混合計算策略,其中GPU處理頻繁訪問的“熱”專家,而NDP單元處理“冷”專家,通過激活移動范式而非傳統的參數移動來實現并行執行。 FLAME [97] 是第一個完全利用MoE稀疏性加速變換器在FPGA上的框架。在模型的參數級別,FLAME采用M:N剪枝來減少不必要的計算,這可以在列平衡結構剪枝和無結構剪枝之間取得平衡;在專家級別,通過CEPR(循環專家預測)進行稀疏激活預測。通過改變專家激活路徑的模式,可以有效提高專家預測的準確性。然后,使用雙緩沖機制在計算前一個專家的同時加載預測的專家,以提高專家部署效率。 M3ViT [40] 和 Edge-MoE [133] 基于多任務場景中的注意力計算重排序構建了它們的FPGA架構。對于推理,M3ViT 只激活與任務相關的稀疏“專家”路徑,以提高效率,并通過硬件級共設計實現任務之間的零開銷切換。Edge-MoE 是首個用于多任務ViT的端到端FPGA實現,提出了一些激進的技術,包括一種近似方法來解決FPGA上GELU函數計算的復雜性,以及一個統一的線性層模塊,以實現硬件資源的高效重用。 Duplex [188] 為每個層級執行選擇適合的目標設備,該設備結合了xPU和邏輯PIM(內存中處理)。這意味著它可以集成兩種類型的處理單元,共享設備內存。由于這兩種處理單元之間在計算和內存訪問方面的瓶頸,能夠在同一設備上同時實現高計算和內存訪問利用率。此外,它還引入了一種替代PIM微架構。邏輯PIM通過邏輯芯片上的強大處理單元以及更多的硅通孔(TSVs)優化了低Op/B操作,從而實現了DRAM芯片和邏輯芯片之間的高帶寬通信。此外,它可以并行執行專家和注意力階段,以最大化推理效率。 Space-mate [119] 提供了其在移動設備上用于SLAM(同時定位與建圖)任務的加速器設計。主要包括一個無序(OoO)SMoE路由器,用于緩解低延遲的數據傳輸,以及單跳(SS)和雙跳(DS)異構核心架構,利用相同專家中相似零模式導致的粗粒度稀疏性,以實現高吞吐量和能效。

付費5元查看完整內容

隨著大型語言模型(LLM)的快速發展及其模擬人類認知和行為的能力逐步提高,基于 LLM 的框架和工具應運而生,并因其在認知、決策以及社會交互等傳統由人類執行的任務中的表現而被評估和應用。本綜述全面探討了以人為中心的 LLM 能力,重點研究其在個人任務(LLM 作為單個人類的替代者)和集體任務(多個 LLM 協作以模擬群體動態)中的表現。

我們首先評估了 LLM 在推理、感知和社會認知等關鍵領域的能力,并將其與人類技能進行對比。接著,我們深入探討了 LLM 在行為科學、政治科學和社會學等以人為中心的領域中的實際應用,評估其在復制人類行為和互動方面的有效性。最后,我們明確了當前存在的挑戰和未來研究方向,例如提高 LLM 的適應性、情商和文化敏感性,同時解決其固有的偏見,并優化人機協作框架。

本綜述旨在從以人為中心的視角出發,提供對 LLM 的基礎性理解,揭示其當前能力及未來發展的潛力。

關鍵詞: 大型語言模型,以人為中心的計算。

1 引言

隨著大型語言模型(LLM)[1, 2](如 OpenAI 的 GPT 系列 [3, 4] 和 Meta 的 LLaMA [5, 6])不斷發展,其模擬、分析和影響人類行為的能力正以前所未有的速度提升。這些模型不僅能夠處理和生成類人文本,還能在許多場景下完成與人類表現相當的認知任務,為理解人類認知、決策和社會動態提供了全新工具。 因此,本綜述旨在從以人為中心的視角對 LLM 進行全面評估,重點研究其在模擬、補充和增強人類認知與行為(包括個人和群體層面)的能力。盡管 LLM 起初主要應用于計算機科學和工程領域 [7, 8],但隨著其在模擬類人推理、決策和社會互動方面的日益精進,其用途逐漸擴展至以人為核心的領域。研究人員借助這些模型解決了許多過去因過于復雜或抽象而無法通過計算分析解決的問題。例如,在政治學領域,LLM 被用于分析政治話語、檢測偏見以及建模選舉結果 [9];在社會學領域,它們幫助理解社交媒體對話、公眾情緒和群體行為 [10];在心理學領域,它們用于建模人類認知和決策過程 [11]。此外,LLM 在語言學領域也引發了革命,使大規模的語言分析成為可能,從語法到語義再到語用 [12];在經濟學領域,它們能對政策與社會結果之間的復雜互動進行建模 [13]。 為系統化探討這一主題,本文分為兩個主要部分。首先,我們評估以人為中心的 LLM 的認知、感知、社會和文化能力。本部分研究 LLM 在推理、感知、情感意識和社會理解等常與人類認知相關的任務中的表現,分析其在結構化推理、模式識別和創造力等方面的優勢,并指出其在實時學習、共情能力以及復雜多步驟邏輯處理等方面的不足。通過將 LLM 的表現與人類標準進行對比,我們揭示了其優劣所在以及改進方向。 其次,我們探討 LLM 在以人為中心的實際應用領域中的表現,關注其在傳統需要人類參與的現實場景中的應用。本部分分為兩類研究:以個體為中心和以群體為中心。個體研究關注 LLM 在執行通常由單個人類完成的任務(如決策、問題解決或內容創作)中的表現,而群體研究則探索多個 LLM 如何協作以模擬群體行為、互動或協作任務,提供對社會動態、組織行為和多代理協作的洞見。在這兩種背景下,我們分析了諸如基本提示、多人提示、多代理提示及微調等方法,以及指導這些應用的理論框架,包括博弈論、社會學習理論和心理理論等。 最終,本文旨在深入理解 LLM 如何更好地契合人類行為和社會背景,明確其優勢與改進空間。通過這樣做,我們為提升 LLM 的效能、倫理性及現實適用性提供了新的見解,無論是用于個體還是群體的以人為中心的研究與實際應用。

本文的主要貢獻如下:

  • 提供了對 LLM 在以人為中心任務中的能力的深入評估,重點分析其認知、感知和社會能力,并將其表現與類人推理、決策和情感理解進行比較。
  • 探討了 LLM 在以人為中心的領域中的應用能力,特別是在行為科學、政治學、經濟學和社會學等領域中,分析其作為單一代理模型和多代理系統復制人類行為的能力。
  • 明確了關鍵挑戰與未來研究方向,包括提高 LLM 的現實適應性、情感智能和文化敏感性,同時解決偏見問題并開發更先進的人機協作框架。

本文結構如下:

第 2 節概述了以人工智能為動力的以人為中心的研究與 LLM 的發展;第 3 節評估了 LLM 在認知、感知、分析、執行和社會技能方面的能力;第 4 節討論了 LLM 在不同跨學科場景中的應用,既能促進模型開發,也能輔助人類任務;第 5 節探討了開放性挑戰并提出未來研究方向;第 6 節總結了關鍵洞見,強調了跨學科協作的重要性,以增強 LLM 對人類行為的理解。

付費5元查看完整內容

 表格數據廣泛應用于醫療、金融、交通等行業,但由于其異構性和缺乏空間結構的特性,給深度學習帶來了獨特的挑戰。本綜述回顧了用于表格數據的深度學習模型的演變,從早期的全連接網絡(FCN)到先進的架構,如TabNet、SAINT、TabTranSELU和MambaNet。這些模型結合了注意力機制、特征嵌入和混合架構,以應對表格數據的復雜性。TabNet通過順序注意力機制進行逐實例的特征選擇,提高了模型的可解釋性;而SAINT結合了自注意力機制和樣本間注意力機制,捕捉特征和數據點之間的復雜交互,從而在提高可擴展性的同時減少計算開銷。混合架構如TabTransformer和FT-Transformer將注意力機制與多層感知機(MLP)結合,處理類別和數值數據,其中FT-Transformer專門為表格數據集調整了Transformer模型。研究仍在繼續,以在大規模數據集上平衡性能和效率。基于圖的模型如GNN4TDL和GANDALF結合了神經網絡與決策樹或圖結構,通過先進的正則化技術增強了特征表示,并在小數據集上緩解了過擬合問題。基于擴散的模型如表格去噪擴散概率模型(TabDDPM)通過生成合成數據解決數據稀缺問題,從而提高模型的魯棒性。同樣,TabPFN和Ptab等模型利用了預訓練語言模型,將遷移學習和自監督技術引入表格任務。本綜述重點介紹了這些領域的關鍵進展,并概述了在多樣化的表格數據應用中關于可擴展性、泛化性和可解釋性的未來研究方向。


1 引言

表格數據由表示結構化信息的行和列組成[1, 2],是許多行業中最常用的數據格式,包括醫療、金融和交通等。與圖像和文本等非結構化數據不同,表格數據以結構化形式直接表示現實世界現象,這使其在風險評估、預測分析和安全監測等決策過程中至關重要。例如,在交通工程領域,表格數據在記錄事故事件、車輛屬性、環境因素和人類行為方面起著關鍵作用,幫助研究人員利用數據驅動的洞察來預測事故嚴重性并改善安全措施。盡管深度學習在計算機視覺和自然語言處理(NLP)等領域取得了成功,但其在表格數據中的應用并不那么直接。深度學習模型在處理表格數據時面臨多個挑戰:(1) 樣本量小:與大規模的圖像或文本數據集相比,許多表格數據集相對較小,導致復雜的深度學習模型容易發生過擬合。 (2) 高維性:表格數據通常包含許多特征,這些特征可能是稀疏的或無關的,使得模型難以識別有意義的模式。 (3) 復雜的特征交互:與局部結構突出的圖像或文本不同,表格數據中的特征交互是非局部的且復雜的,因此需要更為專業的架構來有效捕捉這些關系。這些因素使得基于樹的模型(如XGBoost和隨機森林)在許多表格數據任務中更為有效,因為它們更適合處理稀疏特征和復雜的交互。近年來,針對表格數據的深度學習模型取得了顯著進展,解決了此類數據所帶來的獨特挑戰。盡管早期的全連接網絡(FCN)顯示出了一定的潛力,但隨著新架構的出現,這一領域得到了顯著發展[3-6]。其中領先的模型之一是FT-Transformer,該模型將最初為序列數據開發的Transformer模型適配用于表格數據,通過注意力機制編碼特征[7, 8]。由于其能夠學習特征之間的復雜交互,這一模型在處理高維數據時表現出色。另一個近期的創新是自注意力和樣本間注意力Transformer(SAINT),它通過引入樣本間注意力機制改進了原始的Transformer,使得模型能夠更好地捕捉表格數據行之間的關系[9]。在多個基準測試中,SAINT相較于傳統模型如XGBoost和深度學習模型如神經遺忘決策集成(NODE)表現出色。此外,TabTransformer等模型專門用于分類特征編碼的Transformer,提供了一種更具可擴展性的解決方案,能夠處理表格數據集中混合的數據類型。這種方法使模型能夠從分類變量中捕捉有意義的表示,而這些分類變量通常是傳統深度學習架構難以有效處理的。這些新模型在特征編碼、復雜交互學習和模型可解釋性方面引入了重要的創新,這對推動深度學習在表格數據中的應用具有重要意義。本文的目標是詳細回顧這些進展,探討其歷史演變(如圖1所示)、關鍵技術、數據集及潛在的應用方向。 表格深度學習

雖然之前的研究[7]對表格數據的深度學習進行了結構化的綜述,重點關注了處理類別變量、數據轉換和模型比較等挑戰,但本綜述采取了不同的視角,強調了該領域的歷史演變和算法進展。我們著重介紹了MambaNet、SwitchTab和TP-BERTa等最新模型的開發,展示了這些架構如何演變以應對表格數據的獨特復雜性。通過探討注意力機制、混合架構以及其他近期的突破,本綜述突出了深度學習模型向更高效、可擴展且可解釋的解決方案的轉變。與以往的工作不同,本研究不專注于模型比較,因為全面評估不同模型需要根據各種類型的表格數據進行專門的分析。 在快速發展的表格深度學習領域,每年都有新的架構設計被提出,以應對表格數據日益增長的復雜性,并帶來了顯著的改進。近期的模型,如HyperTab和GANDALF,推動了可擴展性和可解釋性的邊界,提供了處理異構特征和高維數據的增強方法。這些新架構基于基礎工作,顯著提升了相較于傳統方法的性能改進。如圖9所示,表格深度學習的演變強調了關鍵貢獻,從2019年Semek等人[83]和Arik等人[24]的研究,到最近的最新進展,并按引用次數排列,展示了該領域研究影響力的不斷增長。

 在這些進展的基礎上,表2展示了這一期間引入的主要模型的時間線,詳細描述了它們的架構及關鍵性能特點。這些模型展示了表格深度學習中的重大突破,從混合架構到高級注意力機制,推動了性能和可擴展性的進步。

1 TabTransformer

TabTransformer模型通過利用注意力機制和混合架構,顯著推動了表格深度學習的發展,解決了表格數據帶來的獨特挑戰[19]。TabTransformer的核心是采用了多頭自注意力層,該層改編自傳統用于自然語言處理(NLP)的Transformer架構,用于捕捉數據集中復雜的特征交互和依賴關系,如圖10所示。這種注意力機制使模型能夠有效地捕捉特征之間的關系,尤其適用于包含大量類別變量的數據集。 TabTransformer架構將Transformer層與MLP組件結合,形成了針對表格數據優化的混合結構。類別特征通過列嵌入層進行嵌入,將每個類別轉換為可學習的密集表示。這些嵌入通過Transformer層傳遞,聚合來自其他特征的上下文信息,以捕捉相互依賴的關系。上下文化的類別特征隨后與連續特征進行拼接,并通過MLP進行最終預測。這種設計利用了Transformer在類別數據上的上下文學習優勢和MLP在處理連續數據上的傳統優勢。此外,TabTransformer還引入了掩碼語言建模(MLM)和替換標記檢測,使其能夠在大量無標簽數據上進行預訓練,從而在低標簽數據場景中提升性能,使其在現實世界應用中更加有效。

TabTransformer模型的最新進展,如Vyas[94]提出的自監督TabTransformer,進一步優化了該架構,通過在預訓練階段利用MLM從無標簽數據中學習。這種自監督方法通過自注意力機制捕捉復雜的特征依賴性,提高了模型的泛化能力。通過將Transformer層與MLP結合用于最終預測,模型能夠有效處理混合數據類型和較小的數據集。然而,雖然模型在半監督環境中表現出了顯著的性能提升,但依賴于掩碼語言模型預訓練增加了計算開銷,可能限制其可擴展性。解釋性保持在中等水平,注意力得分可以提供有關特征重要性的洞察,但模型的解釋性仍然不如傳統模型如GBDT。

另一個顯著的進展是由Cholakov和Kolev[95]提出的GatedTabTransformer,該模型通過引入門控多層感知機(MLP)增強了原始的TabTransformer。此修改通過空間門控單元提高了模型捕捉跨標記交互的能力。GatedTabTransformer在AUROC方面比標準TabTransformer的性能提升了約1個百分點,特別是在二分類任務中。然而,這也帶來了額外的計算復雜性,因為空間門控單元需要額外的處理。盡管模型性能有所提升,但其可擴展性和解釋性仍然較為有限,相比之下,簡單的模型如MLP或GBDT則更具優勢。

因此,雖然TabTransformer模型通過注意力機制和混合架構在處理表格數據方面提供了顯著改進,但在性能、可擴展性和解釋性方面存在權衡。近期的變體如自監督TabTransformer和GatedTabTransformer展示了這些模型相較于傳統方法的潛力,盡管以更高的計算需求為代價。

FT-Transformer

由Gorishniy等人[96]提出的FT-Transformer模型,通過利用注意力機制、混合架構和基于Transformer的方法,提出了一種新穎的方式來應對表格數據的挑戰。該模型將最初為NLP等任務設計的注意力機制進行了適配,以處理表格數據。在這一背景下,注意力機制使模型能夠捕捉異構特征之間的復雜關系,包括數值和類別數據,如圖11所示。通過使用注意力機制動態優先考慮某些特征,模型有效地建模了傳統表格數據方法中常難以檢測到的交互關系。

除了注意力機制,FT-Transformer還采用了一個集成特征標記化的混合架構。這個過程將數值和類別特征都轉化為嵌入表示,然后通過Transformer架構層進行處理。其結果是,一個高度靈活的模型,能夠處理各種類型的表格數據,這對于特征類型和分布變化多樣的任務而言尤為關鍵。這種混合設計將傳統特征編碼方法與基于Transformer的強大學習能力結合起來,從而在不同的數據集上實現更好的泛化能力。

最近的研究表明,FT-Transformer在各種應用中表現出色。在心力衰竭預后領域,FT-Transformer通過捕捉醫療特征之間的非線性交互,如人口統計和臨床數據,超越了傳統模型如隨機森林和邏輯回歸的表現[97]。注意力機制的使用使模型能夠動態優先處理重要的健康指標,從而得出更準確的預測。同樣,在入侵檢測系統中,FT-Transformer在處理網絡流量數據的高度結構化特性時表現出更高的準確性,能夠識別網絡異常[98]。混合架構無縫地整合了類別和數值特征,提高了模型檢測已知和未知威脅的能力。此外,通過堆疊多個Transformer層來增強模型捕捉數據中的長距離依賴性的能力,使其在復雜任務中更加有效[99]。雖然FT-Transformer模型在多項表格任務上相較于其他模型,如ResNet和MLP,表現出更高的性能,但也有一些權衡需要考慮。在解釋性方面,模型的復雜性帶來了挑戰。像GBDT這樣的傳統模型具有更清晰的解釋性,因為它們的決策過程更加透明。相比之下,FT-Transformer依賴于注意力機制和深層網絡,雖然注意力分數能夠提供特征重要性的某些洞察,但整體上難以解釋。此外,模型的可擴展性也是一個考慮因素,特別是Transformer模型的注意力機制隨特征數量呈二次增長的計算需求,可能在應用于大規模數據集時成為限制。

盡管存在這些限制,FT-Transformer能夠跨不同的數據集進行泛化,使其成為表格數據分析中頗具前景的模型,帶來了預測性能方面的顯著進步。基于這些進展,我們展示了TabNet和FT-Transformer在性能和log-loss方面的比較。如圖12所示,隨著隨機搜索迭代次數的增加,FT-Transformer始終表現出更優的性能,而兩種模型的log-loss則以不同的速率下降。此比較突顯了FT-Transformer在較大搜索空間中相較于TabNet的更強泛化能力。雖然這一圖示例展示了性能差異,但與之前的表格深度學習綜述[7]不同,本次研究并未對所有表格深度學習模型進行比較,因為跨多個模型和不同數據集的全面評估超出了當前綜述的范圍。未來的研究應著眼于更廣泛的性能評估,以全面檢驗這些模型的優劣。


DeepGBM

DeepGBM模型通過結合注意力機制、混合架構和知識蒸餾等先進技術,為解決表格數據在深度學習中的挑戰提供了一種創新的方法[63]。盡管該模型并未顯式使用傳統的注意力機制,它通過GBDT(梯度提升決策樹)中的特征重要性來優先考慮某些特征。此過程模仿了注意力機制,通過將模型的注意力集中在最具信息量的特征上,而不是平等對待所有輸入。通過強調最相關的特征,DeepGBM增強了其處理稀疏類別數據和密集數值數據的能力,這在表格數據任務中至關重要。

最近在表格深度學習領域的進展進一步突顯了DeepGBM在將神經網絡與GBDT結合以提升性能方面的作用。特別是,該模型的混合架構利用了CatNN處理稀疏類別特征,通過嵌入和分解機技術進行特征處理,而GBDT2NN則將GBDT的輸出轉化為神經網絡格式,優化了對密集數值特征的處理[100]。圖13展示了DeepGBM的結構。通過這種集成,DeepGBM能夠利用這兩類模型的優勢,克服傳統方法在統一框架下處理混合特征類型的局限性。盡管DeepGBM并未直接實現基于Transformer的模型,但它采用了來自Transformer架構的思想,特別是在知識蒸餾的形式上。通過將GBDT樹中獲得的知識(包括預測結果、樹結構和特征重要性)蒸餾到神經網絡中,DeepGBM保留了GBDT的優勢,同時增強了其學習能力[101]。這類似于Transformer通過蒸餾來簡化復雜模型的方式,同時保持其性能。

在性能、可解釋性和可擴展性之間的權衡,反映了表格深度學習中更廣泛的挑戰。DeepGBM通過結合GBDT和神經網絡實現了更高的準確性,但犧牲了一部分可解釋性,因為神經網絡組件的增加降低了樹模型通常具有的透明度。可擴展性也是一個挑戰,因為神經網絡部分需要更多的計算資源。然而,像WindTunnel這樣的模型表明,這種方法可以在保持原有GBDT結構優勢的同時提升準確性[101]。這些權衡需要根據應用場景進行仔細平衡,因為DeepGBM在性能和效率方面表現出色,特別是在大規模和實時應用中。

表格數據的深度注意力網絡 (DANets)

在表格深度學習的最新進展中,DANets模型利用了注意力機制、混合架構和基于Transformer的方法,以應對表格數據處理中的特定挑戰。DANets的關鍵創新之一是使用動態特征選擇過程,通過可學習的稀疏掩碼[102]來識別和強調相關特征。該方法基于Entmax稀疏映射,使模型能夠在網絡的每個階段有選擇性地專注于最重要的特征,從而增強其從數據中提取有意義表示的能力。這種機制類似于Transformer模型中使用的注意力機制,但特別針對表格數據的不規則性和異構性進行了調整。

DANets還采用了混合架構,融合了類似于卷積神經網絡(CNN)的特征分組和層次抽象過程,但進行了適配以應對表格數據的獨特結構。如圖14所示,引入的抽象層(ABSTLAY)使模型能夠通過連續的層來分組相關特征并抽象出更高層次的表示。此外,模型還采用了捷徑路徑,使得原始特征可以在網絡的更高層次重新引入,確保關鍵信息得以保留,從而增強了模型的魯棒性,特別是在較深的架構中。這種設計類似于ResNet風格的連接,殘差路徑防止了深層網絡中信息丟失和退化,從而提升了性能。

DANets通過使用動態加權和類似注意力機制的方式,結合了Transformer的思想,使模型在特征選擇和抽象過程中能夠選擇性地關注重要特征。盡管這并不是Transformer模型的直接應用,這些方法改善了表格數據的處理并提升了性能,使得DANets優于傳統模型如XGBoost和神經網絡模型如TabNet。然而,這種性能提升以降低可解釋性為代價。雖然基于注意力的特征選擇提供了對特定特征重要性的洞察,但層次抽象的復雜性掩蓋了決策過程,使其不如簡單模型如決策樹那樣透明。為了解決可擴展性問題,DANets采用了結構重新參數化技術,這在推理過程中降低了計算復雜度,從而允許構建更深的網絡而不會導致計算成本過高。盡管更深的架構提升了性能,但研究指出,由于表格數據中的特征空間有限,進一步增加深度帶來的回報遞減。

自注意力和樣本間注意力 (SAINT)

最近在表格深度學習中的進展利用了注意力機制和基于Transformer的方法,解決了表格數據處理中的挑戰。SAINT模型通過整合注意力機制、混合架構和基于Transformer的方法,克服了表格數據的獨特挑戰。SAINT使用了兩種類型的注意力機制:自注意力和樣本間注意力[25]。自注意力使模型能夠捕捉單個數據樣本中特征之間的復雜關聯,能夠建模那些簡單模型可能忽略的關系。而樣本間注意力作為一種新穎的補充機制,使模型可以將一個數據行(數據點)與其他行進行比較,從而根據整個數據集中的模式進行更動態的學習過程。這一機制在某些特征可能存在噪聲或缺失時尤為有用,因為模型可以從其他相似的數據點中學習。 SAINT的混合架構結合了自注意力和樣本間注意力,創建了一個綜合的學習系統。SAINT的先進架構在軟件缺陷預測任務中也表現出色[103]。通過利用注意力機制和基于Transformer的方法,SAINT能夠有效處理數據點之間的復雜交互,從而提升缺陷預測的性能。在處理混合數據類型時,SAINT始終優于傳統模型如XGBoost和隨機森林。然而,盡管SAINT提高了準確性,其復雜性影響了可解釋性,因為引入了樣本間注意力,這使得它不如簡單模型直觀。此外,與SAINT的注意力機制相關的計算需求在處理大型數據集時可能會帶來可擴展性挑戰。

除了這些創新之外,SAINT的改進版本SAINTENS進一步增強了模型處理表格數據的能力,解決了SAINT的一些局限性[104]。SAINTENS使用相同的注意力機制,但引入了MLP集成,以提高在處理缺失或噪聲數據時的魯棒性。該方法與對比預訓練及Mixup和Cutmix等增強技術相結合,使SAINTENS能夠生成更強的數據表示,特別是在缺失值較多的醫療數據集中。這些增強措施在性能、可解釋性和可擴展性三個關鍵領域表現出相應的權衡。在性能方面,SAINT和SAINTENS在處理混合特征類型及標簽數據有限的數據集時,一貫優于傳統機器學習模型如GBDT以及深度學習模型如TabNet。SAINT的注意力機制提供了一定程度的可解釋性,允許用戶可視化重要的特征和數據點。然而,樣本間注意力引入的復雜性使其相比于簡單模型更難以直觀解釋。最后,雖然SAINT和SAINTENS在大型數據集上表現良好,但注意力機制,尤其是樣本間注意力的計算需求,可能使這些模型在較大的數據集上更耗資源。

表格 BERT (TaBERT)

TaBERT模型通過引入注意力機制、混合架構和基于Transformer的方法,解決了表格數據的挑戰。TaBERT的關鍵創新之一是其使用的注意力機制,特別是縱向自注意力機制,該機制在各行之間的垂直對齊表格單元表示上運行[105]。這使得模型能夠捕捉不同行之間的依賴關系,通過關注與給定自然語言查詢相關的列和行,改善了表格數據的表示。雖然這一機制提升了處理表格結構的性能,但也引入了額外的計算復雜性,使其在處理非常大的數據集或包含大量行的表格時,擴展性受到限制。圖15展示了TaBERT的架構,該架構聯合處理自然語言話語和表格模式,強調了模型如何使用多頭注意力和池化機制同時捕捉文本和表格結構,從而生成用于下游任務(如語義解析)的統一表示。

在架構方面,TaBERT采用了一種稱為“內容快照”的混合方法來減少計算開銷。與對表格中所有行進行編碼的高成本做法不同,TaBERT選擇與自然語言查詢最相關的部分行。這使得模型能夠保留進行文本與表格聯合推理所需的關鍵信息,同時減少處理不必要數據的負擔。然而,這也帶來了權衡:雖然內容快照機制幫助模型擴展到更大的表格,但如果所選擇的行不足以充分代表表格的整體結構和內容,則可能會丟失關鍵信息。 TaBERT基于Transformer預訓練框架,能夠學習自然語言和結構化數據(表格)的表示。該模型在包含2600萬張表格及其相應文本的大規模語料庫上進行預訓練,采用類似于BERT的掩碼語言建模目標,并結合了表格特定的目標,如掩碼列預測和單元格值恢復。這種預訓練提高了模型對齊文本和表格數據的能力,支持下游任務如語義解析。

在性能與可解釋性之間的平衡上,TaBERT在語義解析任務中表現出色,尤其在WikiTableQuestions等基準測試中表現優于BERT,如圖15所示。然而,由于Transformer和注意力機制的使用引入了復雜性,TaBERT的可解釋性不如決策樹等簡單的機器學習模型,后者能夠為其決策提供更直接的解釋。在可擴展性方面,內容快照機制幫助模型更高效地處理大型表格,但這也伴隨著無法完全捕捉表格信息的風險。

帶有縮放指數線性單元的表格Transformer (TabTranSELU)

TabTranSELU模型結合了近期表格深度學習的多項進展,利用注意力機制、混合架構和基于Transformer的方法,解決了表格數據的獨特挑戰。一個關鍵創新是自注意力機制的使用,使模型能夠捕捉表格數據集中不同特征之間的依賴關系[26]。這一自注意力方法對識別輸入特征之間的關系至關重要,因為表格數據缺乏圖像或文本中的固有結構,增加了這一任務的復雜性。注意力機制通過將輸入轉換為查詢、鍵和值矩陣來計算得分,從而使模型能夠確定不同特征的加權重要性。這有助于模型更有效地學習特征間的關系,最終提升其預測性能。圖16展示了TabTranSELU模型中的輸入層、Transformer層和密集層。 該模型還采用了混合架構,通過簡化傳統的Transformer設計以適應表格數據。不同于NLP任務中使用的完整的編碼器和解碼器堆棧,TabTranSELU僅使用了單個編碼器和解碼器層。這種簡化在不犧牲性能的情況下,調整了架構以滿足表格數據的特定需求。此外,該模型集成了神經網絡和Transformer的元素,能夠同等高效地處理類別和連續特征。這些特征分別通過嵌入層進行處理,其中類別特征類似于NLP中的token進行處理,數值特征則通過位置編碼來保留其在不同數據實例中的重要性。

TabTranSELU模型最顯著的改進之一是將修正線性單元(ReLU)激活函數替換為縮放指數線性單元(SELU),解決了由于表格數據中負值存在而加劇的“ReLU失效”問題。SELU保留了正值和負值,防止了在訓練過程中丟失潛在信息,使其更適合表格數據集。此外,數值特征的使用位置編碼保留了其順序和重要性,增強了模型處理連續數據的能力。在性能方面,TabTranSELU與傳統算法如梯度提升決策樹(如XGBoost)相比展現了競爭力,在大型數據集上僅有0.2%的微小差距。它還在類似的基于Transformer的模型(如TabTransformer)中表現良好,盡管在性能上略有犧牲,但在功能的廣泛性上表現出色。 可解釋性是TabTranSELU模型的一大優勢,其嵌入層提供了對特征關系的清晰理解。通過對嵌入應用主成分分析等技術,用戶可以直觀地看到特征和類別之間的交互,尤其在處理匿名或不熟悉的數據集時,這種見解非常有價值——而這些見解通常在傳統深度學習方法中更難獲得。除了可解釋性之外,該模型在可擴展性方面也表現出色。通過減少層數并引入SELU激活函數,該模型比傳統的Transformer模型更加精簡,計算強度也較低,因此非常適合更大規模的數據集,并且可以在資源需求最小化的情況下高效訓練。總體而言,TabTranSELU在性能、可解釋性和可擴展性之間取得了良好的平衡,使其成為多種表格數據應用的強有力選擇。雖然我們已經討論了2022年至2024年的多個模型,但需要注意的是,2022年之前的綜述論文[7]未包含這些最新的研究。接下來的部分將探討更前沿的架構創新和進一步推動邊界的模型,這標志著表格深度學習演變的新階段。

8 新架構與創新

近年來,針對表格數據的深度學習模型發展迅速,隨著領域的復雜性增加,涌現出許多新架構。表3總結了2023年至2024年間引入的關鍵模型,包括LF-Transformer和ReConTab等創新方法,這些模型利用先進的基于Transformer和混合技術,解決了特征交互和噪聲等挑戰。表格還概述了它們的架構、訓練效率和顯著特點,展示了該領域最新的進展。以LF-Transformer為例,該模型通過行間和列間注意力機制捕捉復雜的特征交互,使用矩陣分解和潛在因子嵌入來提高預測精度,尤其是在噪聲或數據不完整的情況下[106]。雖然該模型在回歸和分類任務中表現出色,但其復雜性降低了可解釋性,并增加了處理較大數據集時的計算需求。同樣,ReConTab利用基于Transformer的不對稱自動編碼器從原始數據中提取關鍵信息,并引入特征破壞技術以增強模型的魯棒性,盡管增加了復雜性,導致更高的計算成本和透明度下降[5]。GNN4TDL也基于Transformer的自動編碼器結構,利用特征破壞提高對噪聲的魯棒性和泛化能力,但在可擴展性和可解釋性上面臨挑戰[27]。

為了擴展Transformer模型的應用范圍,MambaTab結合了結構化狀態空間模型和特征增量學習,比標準的自注意力機制更有效地捕捉表格數據中的長距離依賴關系[3]。MambaTab適應不斷變化的特征集,增強了可擴展性,但犧牲了可解釋性,因為它缺乏像TabNet那樣解釋特征重要性的注意力機制。SwitchTab采用了不對稱的編碼器-解碼器架構,通過分離項目器將共同特征和顯著特征解耦,改善了表格數據中的特征表示[6]。通過使用基于特征破壞的方法,SwitchTab提高了性能和可解釋性,但其復雜性影響了可擴展性,因此在處理非常大規模數據集時效率較低。上下文感知表格條目表示 (CARTE) 也采用了先進的架構,結合了圖神經網絡(GNN)與圖注意力層,將每個表格行表示為一個小圖,使模型能夠捕捉跨表格的復雜上下文關系[108]。CARTE在遷移學習中表現出色,并且在異構數據集上表現良好,盡管其圖注意力機制在處理大型數據集時降低了可解釋性和可擴展性。

在分詞和基于提示的模型領域,TP-BERTa通過應用相對幅度分詞(RMT)脫穎而出,將標量數值轉換為離散標記,有效地將數值數據視為語言模型框架中的詞匯[107]。此外,其內部特征注意力(IFA)模塊將特征名稱和值統一為一致的表示,減少了特征干擾并提高了預測準確性。然而,與梯度提升決策樹等更簡單的模型相比,這種深度集成降低了可解釋性。Trompt采用了受提示學習啟發的方法,通過使用列和提示嵌入來推導樣本特定的特征重要性,從而根據每個數據實例調整特征的相關性[112]。盡管Trompt在高變異表格數據集上提升了性能,但其嵌入的抽象性質損害了可解釋性并增加了復雜性。

其他模型結合了創新機制和現有架構以應對表格數據的挑戰。TabR集成了一個檢索增強機制,利用基于L2的最近鄰居以及前饋神經網絡,通過從訓練數據中檢索相關上下文來增強局部學習[110]。盡管這種方法顯著提高了預測準確性,但在訓練過程中引入了計算開銷,影響了可擴展性。BiSHop利用雙向稀疏Hopfield模塊來處理表格數據,按列和按行捕捉特征內部和特征之間的交互[109]。其專門設計的表格嵌入和可學習的稀疏性提供了強大的性能,但以降低可解釋性和更高的計算需求為代價,限制了其在大型數據集上的應用。 最后,超圖增強的表格數據表示學習 (HYTREL) 使用超圖結構感知Transformer,利用超圖表示表格,以捕捉復雜的單元格、行和列關系[111]。這使得HYTREL能夠保留關鍵的結構屬性,并在列注釋和表格相似性預測等任務上表現出色,盡管超圖的復雜性降低了可解釋性。TabLLM是一種新穎的方法,它將表格數據序列化為自然語言字符串,使大語言模型(LLMs)像處理文本一樣處理它[84]。雖然在零樣本和少樣本學習場景中有效,但TabLLM面臨可擴展性問題和可解釋性挑戰,因為LLMs的高計算需求以及它們對表格數據的抽象表示。

付費5元查看完整內容

多模態大語言模型(MLLMs)為預訓練的大語言模型(LLMs)賦予了視覺能力。盡管LLMs中的文本提示已被廣泛研究,視覺提示則為更細粒度和自由形式的視覺指令開辟了新天地。本文首次全面調研了MLLMs中的視覺提示方法,重點討論視覺提示、提示生成、組合推理和提示學習。我們對現有的視覺提示進行分類,并討論用于自動標注圖像的生成方法。同時,我們考察了使視覺編碼器與基礎LLMs更好對齊的視覺提示方法,涉及MLLM的視覺基礎、對象引用和組合推理能力。此外,我們總結了改善MLLM對視覺提示的感知和理解的模型訓練及上下文學習方法。本文探討了在MLLMs中開發的視覺提示方法,并展望了這些方法的未來。

引言

多模態大語言模型(MLLMs)增強了預訓練的大語言模型(LLMs)以實現視覺能力,從而在復雜的多模態任務上實現視覺理解和推理。然而,由于使用文本提示描述和指定視覺元素的局限性,傳統提示方法在提供準確的視覺基礎和詳細視覺信息的引用上表現不佳,這可能導致視覺幻覺和語言偏見。 最近,視覺提示方法作為一種新范式應運而生,補充了文本提示,使得在多模態輸入上能夠進行更細粒度和像素級的指令。由于視覺提示方法可以采取多種形式,且常常在像素級粒度上操作,通用的提示模板可能不適用于不同的圖像,這使得實例級視覺提示生成變得必要。因此,我們在第二部分提供了當前視覺提示方法的全面分類,并在第三部分介紹了生成這些視覺提示的方法。

盡管視覺提示方法在增強MLLM的視覺能力方面取得了成功,但一些研究表明,MLLM與視覺提示之間可能存在不一致,因為預訓練階段缺乏異構視覺提示訓練數據。這種不一致可能導致MLLM忽視或誤解某些視覺提示,從而引發幻覺問題。因此,我們總結了現有的將視覺提示與MLLM感知和推理對齊的努力,以實現更可控的組合推理。此外,我們考察了現有的預訓練、微調和上下文學習方法,這些方法從根本上使MLLM與多模態增強提示對齊。現有的LLM提示相關文獻主要限于文本提示設計和上下文演示,缺乏對像素級指令和多模態交互的文獻覆蓋。盡管視覺提示在計算機視覺中也有研究,但相關調研限于視覺任務和視覺骨干模型,而涉及MLLM的多模態感知和推理任務尚缺乏。此外,最近的一項關于“Segment Anything Models”(SAM)的調研探討了SAM在MLLM中的多種應用,但僅限于SAM模型,缺乏對多樣視覺提示方法的全面研究。本文首次對MLLM中的視覺提示進行全面調研,以填補這些空白,擴展對視覺提示生成、多模態提示、感知與推理及提示學習的理解。我們在圖1中展示了調研的分類,并總結了我們的貢獻如下: * 提供了MLLM中視覺提示和提示生成方法的全面分類。 * 解釋了視覺提示如何融入MLLM的感知與推理,促進更可控的組合推理,幫助防止幻覺和語言偏見問題。 * 總結了MLLM與視覺提示對齊的方法,包括模型訓練和上下文學習,解決誤解問題,并提出更可控組合推理的策略。

2 視覺提示分類

視覺提示是多模態大語言模型(MLLMs)中的重要工具,指導模型解讀和處理視覺數據。這些提示(Wu et al., 2024f)可以采取多種形式,如邊界框、標記、像素級提示和軟提示。它們提供額外的信息,以增強模型的視覺感知能力。通過使用不同的技術處理圖像和視頻,視覺提示提高了模型在復雜理解和推理任務中的表現。

**2.1 邊界框

邊界框用于標記圖像中的物體或區域,使得 MLLMs 能夠提取視覺特征(Lin et al., 2024a)。這些特征幫助模型理解圖像內容并與相應文本關聯,從而增強細粒度和基于內容的圖像理解。先前的研究,如 Shikra Chen et al. (2023b) 和 VTPrompt Jiang et al. (2024),量化邊界框以數值表示關鍵物體,建模輸入和輸出位置。其他方法針對特定任務修改邊界框:A3VLM Huang et al. (2024a) 使用 3D 邊界框定位圖像中的可操作部分,CityLLaVA Duan et al. (2024) 擴大邊界框,而 TextCoT Luan et al. (2024) 將邊界框的短邊延伸以匹配長邊,確保它涵蓋整個感興趣區域。此外,CRG Wan et al. (2024) 用黑色像素遮蓋特定區域以減少先驗,提供了一種在不增加訓練的情況下修正預測的方法。Groma Ma et al. (2024a) 和 InstructDET Dang et al. (2023) 將用戶指定的區域(即邊界框)編碼為視覺標記,通過將其直接整合到用戶指令中增強 MLLMs 的定位能力。另一個框架 Lin et al. (2024b) 通過在邊界框內整合外部知識的上下文嵌入,進一步增強 MLLMs 的定位能力,為各種 MLLMs 提供視覺提示以提升細粒度認知能力。

**2.2 標記

與邊界框類似,視覺標記是視覺數據(如圖像或視頻)中的特定元素,用于突出、識別或引起對特定特征或區域的注意。它們通常用于指示與任務相關的圖像特定部分。先前的研究 Shtedritski et al. (2023) 表明,訓練于大規模網絡數據的模型可以集中于特定的視覺標記,例如紅圈,以突出所需區域,而不是圍繞它們裁剪圖像。AutoAD-ZeroXie et al. (2024) 提出了一種兩階段的無訓練方法,通過在框架中“圈定”字符并對每個身份進行顏色編碼來整合字符信息。最近,Set-of-Mark (SoM) 提示(Yang et al., 2023)直接在圖像上覆蓋視覺標記,幫助模型生成基于特定圖像區域的答案。ViP-LLaVACai et al. (2024) 通過整合諸如涂鴉和箭頭等任意視覺提示,擴展了這一點,使用微調模型來識別這些標記。Liao et al. (2024) 還利用 SoM 技術引入反饋,將其轉化為文本或視覺標記,以改善語義基礎。SoM-LLaVA Yan et al. (2024) 提出了一種通過逐項列出項目并全面描述圖像中所有標記項目的方法,以增強 SoM 的標簽關聯。其他方法,如 ToL Fan et al. (2024b) 和 OWG Tziafas 和 Kasaei (2024),為框架中的每個段落鏈接唯一 ID,而 Pivot Nasiriany et al. (2024) 則將 3D 位置投影到圖像空間,并在此投影位置繪制視覺標記,以指代輸出空間中的空間概念。

**2.3 像素級

先前的方法依賴于粗糙的標記,如彩色框或圓,這導致在準確突出物體時出現歧義。為了解決這個問題,像素級提示(Ma et al., 2024b)使用圖像或視頻中的單個像素,增強 MLLMs 的語義定位能力。方法如 FGVP Yang et al. (2024a)、EVP Liu et al. (2023b)、DOrA Wu et al. (2024e) 和 CoLLaVO Lee et al. (2024) 利用像素級提示傳達語義信息,實現精確的物體定位。OMG-LLaVA Zhang et al. (2024e) 和 VisionLLM Wang et al. (2024b) 將圖像標記為像素中心的視覺標記,將視覺任務與語言指令對齊。技術如圖像修復(Bar et al., 2022)將視覺標記解碼為像素,而 ControlMLLM Wu et al. (2024d) 則建模像素與文本提示之間豐富的語義關系。此外,還有坐標提示方法,如 SCAFFOLD Lei et al. (2024a) 和 AO-Planner Chen et al. (2024a),將輸入圖像轉換為使用度量的坐標,增強 MLLMs 的空間理解和推理能力。

**2.4 軟視覺提示

軟視覺提示在像素空間中學習并直接應用于圖像,使模型能夠更有效地適應特定的下游任務。特別地,TVP Zhang et al. (2024g)、BlackVIP Oh et al. (2023) 和 VPGTrans Zhang et al. (2024a) 向圖像添加像素級提示,或通過在圖像周圍添加通用提示,或設計與圖像形狀相匹配的提示。在學習提示(Rezaei et al., 2024)、WVPrompt Ren et al. (2024) 和 ILM-VP Chen et al. (2023a) 中,任務相關的擾動模式被注入到像素空間中以修改輸入樣本。此外,ImageBrush Yang et al. (2024b) 通過從圖像中提取標記特征來增強語義理解。

3 視覺提示生成

與文本提示不同,視覺提示通常是位置感知的、特定實例的,涉及特定的視覺對象、關系和上下文。目前的方法使用視覺提示生成方法和模型,通過生成圖像和視頻的視覺提示(如分割、檢測和圖像修復)來提高 MLLMs 的準確性和理解能力。此外,視覺提示方法的工具鏈被用于實現多步驟視覺推理和規劃。為了創建普遍適用的視覺提示,還開發了可學習的像素值。

**3.1 提示工程

理解人造視覺提示在實際用例中可能非常重要,因為視覺提示在表達個人意圖或關注當前視覺證據時尤其有效。早期的探索(Shtedritski et al., 2023)發現,在物體周圍畫一個簡單的紅圈可以引導模型的注意力到該區域。此外,MIVPG Zhong et al. (2024) 利用圖像或補丁中的實例相關性來豐富詳細的視覺證據。 ViP Cai et al. (2024) 引入了一種新穎的多模態模型,能夠解碼自由形式的視覺提示,使用戶能夠用自然線索直觀地標記圖像。這種方法不需要復雜的區域編碼,并在區域特定的理解任務上取得了最先進的性能。此外,ViP-Bench Cai et al. (2024) 也被提出用于評估 MLLM 對這種自然工程視覺提示的感知。在領域特定的 CityLLaVA Duan et al. (2024) 框架中,收集并定制了工程視覺提示,以進一步增強微調的 MLLM。

**3.2 視覺分割

分割方法,如 OpenSeeD Zhang et al. (2023b)、SAM Kirillov et al. (2023) 和 SegFormer Xie et al. (2021),用于勾勒和識別圖像中的特定區域、物體或結構,從而使模型能夠更準確地關注相關的視覺信息。通過預訓練的分割模型,外部視覺知識可以轉移并整合到 MLLM 的提示中。Yang et al. (2024a) 探索了一種通過圖像修復(Bar et al., 2022)方法進行像素級注釋的細粒度視覺提示方法。Lin et al. (2024b) 提出了一種指令調優方法,將細粒度分割知識直接整合到空間嵌入圖中作為視覺提示,從而增強模型對視覺場景的上下文意識。VAP Chen et al. (2024a) 開發了一種視覺可用性提示方法,通過 SAM Kirillov et al. (2023) 在導航任務中固化視覺元素。DOrA Wu et al. (2024e) 進一步引入 3D 空間和上下文信息,以改善 3D 視覺定位任務。

細粒度的分割信息還增強了 MLLM 的視覺感知和推理能力。OMG-LLaVA Zhang et al. (2024e) 整合了多級視覺提示,使 MLLM 能夠從粗到細的視覺感知,獲得更全面的視覺理解。Liu et al. (2023b) 提出增強模型理解和處理圖像中低級結構元素的能力。He et al. (2024) 進一步將此類視覺提示融入 MLLM 微調,以增強模型在細粒度視覺感知中的能力。CoLLaVO Lee et al. (2024) 提出了一種蠟筆提示方法,通過與圖像修復色彩圖結合的全景分割方法,更好地區分圖像中的多個物體。

**3.3 物體檢測

物體檢測模型如 SoM Yang et al. (2023)、RCNN Girshick (2015) 和 Omni3D Brazil et al. (2023) 提供精確的物體識別和定位,輔助 MLLM 的視覺定位能力并引導 MLLM 的注意力關注語義上有意義的內容。由 Yan et al. (2024) 開發的 SoM-LLaVA 使用數字標簽將視覺對象與文本描述對齊。物體標簽使模型能夠準確列出和描述這些物體,增強視覺推理和視覺指令跟隨能力。InstructDET Dang et al. (2023) 將通用指令融入訓練過程中,通過使模型理解和遵循各種引用指令來多樣化物體檢測。這增強了模型在不同任務上下文中理解用戶意圖和指令的靈活性。Wan et al. (2024) 提出通過對比區域引導改進視覺語言模型的定位。通過引導模型的注意力到相關區域,MLLM 能夠更準確地將視覺區域與相應的文本指令關聯。Cho et al. (2024) 擴展視覺語言模型以理解 3D 環境,通過提高空間意識和對三維空間中物體交互的理解。

**3.4 視覺提示工具鏈

為了通過多步驟或交互推理實現更復雜的多模態理解,幾種方法將各種視覺提示方法作為工具鏈聚合(Wu et al., 2024f),由 MLLM 調用以輔助各個推理子任務。Zhou et al. (2024b) 提出了一個圖像思維方法,能夠自動確定每個推理步驟的視覺信息提取方法,并將其實現為視覺提示,促使 MLLM 遵循特定的推理路徑,實現逐步的多模態推理。Tziafas 和 Kasaei (2024) 專注于通過整合包括開放式分割和物體定位在內的視覺提示方法,調整視覺語言模型以適應開放世界抓取任務。為了實現更可轉移和通用的視覺提示,Sheng et al. (2024) 創建了一種更統一的上下文學習方法,將各種上下文視覺提示整合到一個統一的表示空間。MineDreamer Zhou et al. (2024a) 進一步開發了一種多用途的視覺提示生成方法,用于與當前決策意圖一致并在視覺上表達下一步目標的虛構視覺場景。

**3.5 可學習和軟視覺提示

可學習或軟視覺提示用于適應 MLLM 中的視覺編碼器,使得視覺提示的使用更加可控和多樣化,符合下游任務。這些技術用于具有視覺指令的多模態指令調優。Rezaei et al. (2024) 研究了如何學習視覺提示以指導 ViT 中的注意機制。Li et al. (2023a) 微調 MLLM 以遵循使用可學習視覺提示的零-shot 示范指令。Chen et al. (2023a) 關注通過學習提示更好地將視覺輸入映射到相應的標簽。對于一些特定和領域導向的問題,Ren et al. (2024) 開發了一種可學習的視覺提示方法,作為圖像水印識別圖像的版權和所有權。

與此同時,可學習的視覺提示還可以在 MLLM 和下游任務之間進行遷移。VPGTrans Zhang et al. (2024a) 提出了一個可轉移的視覺提示生成器,以低成本訓練數據點和計算,將預訓練的源 MLLM 適應目標 MLLM。Memory-space visual prompt Jie et al. (2024) 在視覺變換器架構的關鍵和值層注入可學習提示,從而實現高效的視覺語言微調。Wu et al. (2023) 還注入軟視覺標記作為視覺組合操作,經過學習以更好地與少量示例組合多模態信息。黑箱視覺提示方法 Oh et al. (2023) 專注于強大的遷移學習,其中視覺提示幫助模型適應新的任務和領域,而無需直接訪問模型參數。

4 視覺感知

**4.1 視覺定位與指代

最近的視覺提示工作顯著提升了 MLLM 的視覺定位和指代能力。一些研究強調迭代反饋和多模態交互在細化語義定位中的重要性,其他則探索面向對象的感知和視覺關系理解。SoM-LLaVA Yan et al. (2024) 使用 Set-of-Mark 模型標記圖像中的所有物體,并要求模型列出所有項目。InstructDET Dang et al. (2023) 和 VTPrompt Jiang et al. (2024) 進一步實現了多模態定位,從文本中提取對象實體及其區域邊界框。

使用細粒度視覺定位編碼器,多個研究通過視覺線索引導 MLLM 的注意力至圖像中的相關區域,從而提高區域指代能力。CRG Wan et al. (2024) 使用對比區域引導,直接將模型的注意力引導到圖像中特定的興趣區域。RelationVLM Huang et al. (2024c) 利用視覺提示增強 MLLM 對物體空間關系的理解與推理。Shikra Chen et al. (2023b) 應用于視覺對話系統,使 MLLM 能夠根據對話中的指代線索做出更精確和上下文相關的互動。此外,還有多項工作旨在提供一個綜合框架,將不同粒度的視覺提示方法整合在一起,以實現更細粒度和靈活的多模態交互,包括自由形式視覺提示輸入 Lin et al. (2024a) 和視覺提示反饋機制 Liao et al. (2024)。

**4.2 多圖像和視頻理解

為了提高模型對復雜視覺關系的理解,并確保其能夠準確引用和描述多圖像輸入中的對象,多個研究提出了在多圖像輸入中使用視覺提示的新方法及評估基準。Fan et al. (2024c) 提出了一個包含多面板圖像的新基準數據集,以測試 MLLM 在區分面板間對象及導航不同視覺元素方面的能力。Pan et al. (2024) 利用形態標記自編碼提升模型在多圖像間的視覺定位能力。Li et al. (2023a) 微調 MLLM 以遵循多圖像中的上下文示范指令。此外,AIM Gao et al. (2024) 提出動態調整其定位和指代能力,以適應多個圖像中的新視覺上下文。

多種方法也被開發,以允許 MLLM 識別特定的興趣區域,提高其處理復雜和動態視頻內容的能力。OmAgent Zhang et al. (2024c) 開發了一種視覺提示方法,通過注釋一系列視覺特征,實現視頻理解中的任務劃分。RACCooN Yoon et al. (2024) 使用視覺提示引導 MLLM 識別視頻中的目標區域進行操作。Wu et al. (2024c) 在視頻中進行對象定位,使模型能夠理解和指代動態場景中的對象。

**4.3 3D視覺理解

最近的研究使用視覺提示來增強 3D 視覺理解。Li et al. (2024) 構建了一個包含指令-響應對的廣泛數據集用于 3D 場景,并引入了 3DMIT,以高效地進行提示調優,同時消除 3D 場景與語言之間的對齊階段。DOrA Wu et al. (2024e) 提出了一個具有順序感知指代的新型 3D 視覺定位框架。該方法利用 LLM 推斷有序的物體序列,以引導逐步特征細化過程。 Cho et al. (2024) 構建了一個名為 LV3D 的大規模數據集,并引入了在該數據集上預訓練的新型 MLLM Cube-LLM。Zhang et al. (2024d) 提出了 Agent3D-Zero,采用鳥瞰圖像和選擇視角的新視覺提示,釋放 MLLM 觀察 3D 場景的能力。3DAP Liu et al. (2023a) 開發了一種新型視覺提示方法,創建一個 3D 坐標系統和附加注釋,以增強 GPT-4V 完成 3D 空間任務的能力。

5 組合推理

本節討論視覺提示如何增強 MLLM 中的組合和多模態學習,促進視覺規劃、推理和行動生成等任務的改善。我們考察視覺提示如何促進復雜的逐步推理、決策制定以及對視覺生成模型的控制,擴展其在多種任務中的能力。我們還回顧了一些邊緣應用(附錄 9),這些應用可能尚未充分探索,且缺乏足夠的解決方案。

**5.1 視覺規劃

近期研究表明,視覺提示改善了視覺規劃任務。Zhou et al. (2024b) 提出了一個圖像思維(IoT)提示方法,促使 MLLM 自動設計視覺和文本步驟,并利用外部圖像處理工具生成多模態推理序列,用于輔助 MLLM 完成復雜視覺推理任務。OWG Tziafas 和 Kasaei (2024) 結合分割與抓取合成模型,通過分割、抓取規劃和排序解鎖基礎世界理解。Zhou et al. (2024a) 引入了想象鏈(CoI)方法,并在 Minecraft 中創建了一個具身代理 MineDreamer。該方法設想執行指令的逐步過程,借助 LLM 增強的擴散模型,將想象轉化為精確的視覺提示,支持代理行為的準確生成。BEVInstructor Fan et al. (2024a) 將鳥瞰圖表示作為視覺提示融入 MLLM,用于導航指令生成。AO-Planner Chen et al. (2024a) 實現了以可用性為導向的運動規劃和行動決策,采用 VAP 方法與高層 PathAgent。

**5.2 逐步推理

為了實現更復雜的圖像推理,最近的研究將視覺提示與逐步推理方法結合。Luan et al. (2024) 提出了一種新穎的逐步推理框架,用于文本豐富的圖像理解,命名為 TextCoT。該方法包括三個階段:圖像概述以獲取全局信息、粗略定位以估計包含答案的部分,以及細粒度觀察以提供精確答案。Wu et al. (2024f) 提出了 DetToolChain,解鎖 MLLM 在物體檢測任務中的潛力。該方法涉及使用“檢測提示工具包”,其中包含視覺處理和檢測推理提示,并結合多模態檢測逐步推理方法,以推理檢測提示的順序實現。

6 模型訓練

本節介紹使用視覺提示技術對多模態大語言模型(MLLMs)進行對齊的關鍵方法,包括預訓練、微調和指令調優,旨在統一多模態提示并提高跨任務的可遷移性。除了模型訓練技術外,我們還總結了評估數據集(附錄8),這些數據集為未來開發更強大的視覺提示方法提供了靈感。

6.1 預訓練

為了提升 MLLM 在更細粒度視覺感知或推理任務上的能力,研究集中在設計更好的預訓練目標,包括視覺提示。PSALM Zhang et al. (2024h) 擴展了 MLLM 在多種圖像分割任務上的能力,通過引入掩膜解碼器和靈活的輸入架構,統一了單一模型內的多種分割任務,支持通用、指代、交互和開放詞匯分割,同時在域內和域外的像素級分割任務上表現出色。OMG-LLaVA Zhang et al. (2024e) 提出了一個統一框架,將圖像級、對象級和像素級的推理與理解融合在一個模型中,結合通用分割方法作為視覺編碼器,并與 LLM 結合,使用戶能夠通過多種視覺和文本提示進行靈活互動。VisionLLM v2 Wu et al. (2024a) 引入了一個端到端的通用 MLLM,將視覺感知、理解和生成統一在一個框架內。該模型采用新穎的“超鏈接”技術將中央 LLM 與任務特定解碼器連接,支持跨數百個視覺和視覺-語言任務的信息傳輸和端到端優化。UrbanVLP Hao et al. (2024) 提出了一個針對城市區域概況的視覺-語言預訓練框架,整合了來自衛星(宏觀級)和街景(微觀級)影像的多粒度信息,克服了以往的局限性。該方法還結合了自動文本生成和校準機制,以生成高質量的城市區域文本描述,增強可解釋性。

6.2 微調

Zhang et al. (2024g) 提出了可轉移視覺提示(TVP)方法,旨在提高軟視覺提示的可轉移性,這些提示是在不同 MLLM 之間用于下游任務的小量可學習參數。Lin et al. (2024b) 將細粒度外部知識(如 OCR 和分割)通過視覺提示整合到多模態 MLLM 中,直接將細粒度知識信息嵌入到空間嵌入圖中。CoLLaVO Lee et al. (2024) 通過一種名為 Crayon Prompt 的視覺提示增強了 MLLM 的對象級圖像理解,該提示源自全景分割模型生成的全景色彩圖。CityLLaVA Duan et al. (2024) 引入了一個高效的 MLLM 微調框架,專為城市場景設計,結合了視覺提示工程技術,包括邊界框引導、視角選擇和全局-局部聯合視圖。ViP-LLaVA Cai et al. (2024) 被賦予理解任意視覺提示的能力,通過直接將視覺標記疊加到圖像上進行訓練。ImageBrush Yang et al. (2024b) 提出了一個基于示例的圖像操作框架,無需語言提示即可學習視覺上下文指令。

顯式視覺提示(EVP)Liu et al. (2023b) 提出了一個統一的方法,用于低級結構分割任務,使用凍結的預訓練視覺變換器主干,并引入源自凍結的塊嵌入和高頻圖像成分的任務特定軟提示。BlackVIP Oh et al. (2023) 通過一個協調器適應大型預訓練模型,以生成軟視覺提示,并使用 SPSA-GC 進行高效梯度估計,從而在不同領域實現穩健的少量適應。基于迭代標簽映射的視覺提示(ILM-VP)Chen et al. (2023a) 通過雙層優化共同優化輸入模式和標簽映射,從而提高軟視覺提示的準確性和可解釋性。MemVP Jie et al. (2024) 通過將視覺信息直接注入 MLLM 的前饋網絡權重,有效地結合了預訓練視覺編碼器和語言模型,以應對視覺-語言任務,將其視為附加的事實知識。VPG-C Li et al. (2023a) 通過補全缺失的視覺細節來增強 MLLM 中的視覺提示,更好地理解具有交錯多模態上下文的演示指令。它擴展了傳統視覺提示生成器,通過 LLM 引導的上下文感知視覺特征提取來創建更全面的視覺提示。

6.3 指令調優

指令調優已被證明能夠有效提高文本僅 LLM 和 MLLM 的整體能力,如指令跟隨和結構化輸出 Ouyang et al. (2022); Wang et al. (2022); Liu et al. (2024a)。對于專注于視覺提示的 MLLM,AnyRef He et al. (2024) 引入了一種統一的指代表示,使 MLLM 能夠通過指令調優處理多種輸入模態和視覺提示(文本、邊界框、圖像、音頻)。該模型使用特殊的標記和提示來格式化多模態輸入,使其能夠一致地處理各種指代格式。重新聚焦機制通過結合基礎文本嵌入增強掩膜嵌入,提高分割準確性。AnyRef 將視覺和音頻編碼器與 LLM 結合,使用投影層對不同模態在語言空間中進行對齊。該模型通過文本損失和掩膜損失的組合進行端到端的指令調優,使其能夠響應多模態提示生成文本描述和像素級分割。

7 上下文學習與少量學習

除了使用單一數據點作為輸入優化性能的方法外,一些工作集中在利用視覺提示增強上下文學習(ICL)。圖像思維(IoT)提示 Zhou et al. (2024b) 是一種無訓練的方法,通過整合離散的圖像處理動作來增強 MLLM 在視覺問答任務上的能力。IoT 使 MLLM 能夠自動設計并提取逐步的視覺推理,將其與文本推理結合,提高了準確性和可解釋性。CRG Wan et al. (2024) 是一種無訓練的方法,通過將模型輸出與掩蓋特定圖像區域的情況進行對比,改善 MLLM 的視覺定位,指導模型關注相關圖像區域。AIM Gao et al. (2024) 使任何 MLLM 能夠通過將演示中的圖像信息聚合到相應文本標簽的潛在空間中,執行高效的 ICL,這減少了內存成本,通過在聚合后丟棄視覺標記,近似多模態 ICL 提示僅包含單個查詢圖像。I2L Wang et al. (2024a) 將演示、視覺線索和推理結合為單一圖像,通過 ICL 增強多模態模型在復雜任務上的表現。I2L-Hybrid 通過在每個任務實例中自動選擇 I2L 和其他上下文學習方法擴展了這一方法。

通過視覺提示的少量學習也能在最低計算成本和更好的數據效率下提高 MLLM 的能力。CoMM Chen et al. (2024b) 提出了一個高質量一致的交錯圖像-文本數據集,旨在增強 MLLM 的生成能力,并調查其上下文學習能力。M2oEGPT Sheng et al. (2024) 提出了一個 ICL 框架,通過多模態量化和統一嵌入,使得在通用標記嵌入空間中聯合學習多模態數據,結合自回歸變換器與專家混合(MoEs)進行穩定的多任務共訓練。Partial2Global Xu et al. (2024a) 通過基于變換器的列表排序器選擇視覺 ICL 中的最佳上下文示例,比較多個備選樣本,并使用一致性感知排名聚合器實現全局一致的排名。Hossain et al. (2024) 為語義分割中的基礎類和新類引入可學習的視覺提示,并提出了一種新類-基礎類因果注意機制,使新提示能夠在不降低基礎類性能的情況下被基礎提示上下文化。Emu2 Sun et al. (2024) 是一個訓練 MLLM 以預測多模態序列中下一個元素的模型。其統一架構使得強大的多模態上下文學習能力得以實現,使其能夠快速適應新任務,僅需幾個示例。

結論

在本次調研中,我們首次全面回顧了多模態大語言模型(MLLMs)中的視覺提示方法。我們對各種視覺提示技術進行了分類,并討論了它們的生成過程,考察了這些技術如何融入 MLLMs,以增強視覺推理和感知能力。我們的工作還分析了現有的訓練和上下文學習方法在視覺提示中的應用。最后,我們提出了未來的研究方向,鼓勵利用視覺提示來改進 MLLM 的組合推理能力。

付費5元查看完整內容

本文介紹了一種通過整合領域知識和基于注意力的策略機制來增強多智能體強化學習(MARL)的替代方法。方法側重于將特定領域的專業知識融入學習過程,從而簡化協作行為的開發。這種方法旨在通過使智能體專注于復雜任務的重要方面,從而優化學習曲線,降低與 MARL 相關的復雜性和學習開銷。在我們的模型中,注意力機制的利用起到了關鍵作用。它可以有效處理動態上下文數據和智能體之間細微的互動,從而做出更精細的決策。在斯坦福智能系統實驗室(SISL)“追逐 ”和 “多粒子環境”(MPE)“簡單擴展 ”等標準 MARL 場景中的應用表明,我們的方法既能提高學習效率,又能提高協作行為的有效性。結果表明,我們基于注意力的方法可以在行動層面整合特定領域的知識,是提高 MARL 訓練過程效率的可行方法。

付費5元查看完整內容

盡管在大型語言模型(LLMs)中加速文本生成對于高效產生內容至關重要,但這一過程的順序性往往導致高推理延遲,從而對實時應用構成挑戰。為了解決這些挑戰并提高效率,已經提出并開發了各種技術。本文對自回歸語言模型中加速生成技術進行了全面的綜述,旨在了解最先進的方法及其應用。我們將這些技術分為幾個關鍵領域:投機解碼、提前退出機制和非自回歸方法。我們討論了每個類別的基本原理、優點、局限性和最新進展。通過這篇綜述,我們希望能夠提供對當前LLMs技術領域的見解,并為該自然語言處理關鍵領域的未來研究方向提供指導。

大語言模型(LLMs)的推理需要大量的計算資源,這歸因于多個因素。其中關鍵因素之一是諸如GPT家族[1]、LLaMA家族[2]、PaLM[3]、OPT[4]和Mistral[5]等模型固有的復雜性,這些模型通常包含數百萬甚至數十億個參數。因此,通過這些模型的眾多神經網絡層處理輸入數據需要大量的計算資源。此外,推理過程計算密集,涉及復雜的操作,如矩陣乘法、非線性激活和跨多個層的注意力機制。此外,LLMs需要大內存分配,因為它們的參數中包含了廣泛的數據存儲,包括詞嵌入和注意力矩陣。此外,自回歸解碼的性質,即輸出令牌基于先前生成的令牌逐步生成,限制了并行化的潛力,特別是對于較長的序列,導致推理速度較慢。最后,LLMs中常用的注意力機制用于捕捉輸入數據中的長程依賴關系,這增加了計算復雜性,特別是在計算大輸入序列的注意力分數時。綜上所述,這些因素使得大語言模型的推理需要大量的計算資源和時間。

為了解決加速大語言模型推理的挑戰,已經開發了各種方法。這些技術包括知識蒸餾[6, 7, 8, 9]、量化[10, 11, 12, 13]、稀疏化[14, 15, 16]、修改后的注意力機制[17, 18, 19, 20]。然而,提高大語言模型效率的另一個關鍵方面在于其解碼機制。本綜述聚焦于LLMs的這些解碼機制,探索和評估其在加速推理的同時保持或提高性能的作用。LLMs中的生成方法指的是這些模型如何基于輸入數據生成輸出序列。這涉及選擇最可能的下一個令牌,以在每一步構建連貫且有意義的序列。然而,加速這一過程面臨著若干挑戰。一個主要挑戰是自回歸解碼的固有順序性,即每個令牌基于先前生成的令牌生成。這種順序依賴性限制了并行化的潛力,特別是在較大模型中導致推理速度較慢。另一個挑戰是,在加速生成過程的同時保持生成輸出的質量。任何加速技術必須確保生成的序列保持準確、連貫和上下文相關。加速生成應保持模型生成高質量輸出的能力,同時所需的計算資源可能非常龐大。

本文全面討論了各種加速生成技術。第2節討論了投機解碼方法,第3節探討了提前退出方法,第4節研究了非自回歸算法(并行解碼)策略。通過詳細分類和深入分析,我們提供了對這些大語言模型機制的深刻見解,強調其優點、局限性和未來研究方向。如圖1所示,圖中展示了不同算法的分類法,本文討論的加速生成技術根據其基本原理和方法進行了分類和可視化。

投機解碼:并行預測與驗證

投機解碼技術通過并行預測多個令牌并同時驗證這些預測,有效地提高了生成速度。這一技術受啟發于處理器中的投機執行優化技術,通過并行執行任務來驗證其必要性,從而提高并發性。

**Blockwise 解碼

Blockwise解碼是一種經典的投機解碼方法,通過在模型內部并行評分來加速解碼過程。該方法首先在訓練時在原解碼層后增加多輸出前饋層,并訓練多個輔助“提議”模型以并行預測多個令牌。在推理時,這些模型并行生成下一個k個令牌,并通過基本模型對這些令牌進行評分,確定最長的前綴。如果這個前綴的長度超過1,則可以跳過一個或多個貪心解碼循環,從而加快推理速度。

**SpecDec 方法

SpecDec方法通過引入Spec-Drafter和Spec-Verification兩個組件,進一步優化了投機解碼過程。Spec-Drafter是一個獨立的模型,專注于高效準確地生成令牌草稿,而Spec-Verification則允許接受略微偏離貪心解碼的令牌,從而提高接受率。實驗結果表明,SpecDec方法在保持生成質量的同時,實現了約5倍的速度提升。

**自我投機解碼(SSD)

自我投機解碼(SSD)是一種不需要輔助草稿模型的新穎推理方案,而是利用單一LLM同時進行草稿生成和驗證,從而減少了總內存使用。在草稿階段,部分中間層被跳過,選擇這些層是通過貝葉斯優化完成的。在驗證階段,使用原始LLM對草稿令牌進行一次前向傳遞評估。雖然跳過額外層可以加速草稿生成,但也可能降低令牌接受率,增加整體推理時間。因此,層選擇過程被設計為優化問題,目標是最小化每個令牌的平均推理時間。

提前退出機制:動態計算資源分配

提前退出機制通過動態調整每個輸入和生成時間步的計算資源分配,有效地加速了生成過程。這一機制基于對樣本難度的觀察,動態調整計算資源,避免對簡單樣本的過度計算,同時確保復雜樣本的精確處理。

**CALM 框架

Confident Adaptive Language Modeling(CALM)框架通過動態分配計算資源,根據中間層的置信度得分決定是否提前退出計算,從而加速生成過程。CALM框架探索了三種不同的置信度測量方法:Softmax響應、隱藏狀態飽和度和早退出分類器。通過這些方法,模型可以在達到預定義閾值時提前退出,避免全層計算,從而加速推理。

**FREE 方法

Fast and Robust Early-Exiting(FREE)方法通過引入淺層-深層模塊和同步并行解碼,提高了推理效率。FREE框架將計算路徑分為淺層模型和深層模型,在解碼時同步處理來自淺層模型的早退出令牌,直到遇到非退出令牌。通過Beta混合模型(BMM),FREE方法能有效捕捉置信度得分與預測一致性的關系,從而動態調整閾值,提高推理效率。

**HASH EE

Hash-based Early Exiting(HASH EE)通過哈希函數為每個令牌分配固定的退出層,避免了傳統方法中的內部分類器或額外參數,從而提高了推理效率。HASH EE的優勢在于無需監督即可實現令牌級提前退出,適用于多種任務,包括語言理解和生成任務。

非自回歸模型:并行生成目標令牌

非自回歸模型通過同時或并行生成所有目標令牌,避免了自回歸模型中逐令牌生成的順序性,顯著加速了推理過程。非自回歸模型在處理諸如機器翻譯等任務時,表現出更高的推理效率。

**NAT 模型

非自回歸Transformer(NAT)模型在機器翻譯任務中首次引入,通過預測每個輸入詞的繁殖數量來確定目標句子的長度。在訓練和推理過程中,NAT模型通過復制源輸入來初始化解碼器輸入,并使用繁殖預測器來決定每個輸入詞應復制多少次,從而構建目標句子長度。通過這種方法,NAT模型實現了與自回歸模型相當的質量,同時推理延遲降低了十倍以上。

**FlowSeq 模型

FlowSeq模型使用生成流技術,通過引入潛變量提高了非自回歸生成過程的依賴性建模。FlowSeq通過生成流對先驗分布進行編碼,引入潛變量,從而在非自回歸生成過程中建模輸出令牌之間的依賴關系,同時實現高效并行解碼。實驗結果表明,FlowSeq在保持性能的同時,實現了顯著的推理加速。

**依賴感知解碼器(DePA)

依賴感知解碼器(DePA)通過雙向依賴建模和注意力轉換過程,提高了非自回歸模型對目標依賴的建模效果。DePA模型采用前向-后向依賴建模,在非自回歸訓練之前進行自回歸前向-后向預訓練,增強解碼器對目標依賴的建模能力。

結論與未來展望

本文全面探討了各種加速生成技術,包括投機解碼、提前退出機制和非自回歸方法。通過詳細的分類和分析,我們總結了當前技術的優勢、局限性和最新進展,為研究人員和工程師在實際應用中提供了寶貴的參考。未來,隨著技術的不斷發展,這些加速生成方法有望進一步優化,提高LLMs在各種應用場景中的實用性和效率。 通過不斷優化和創新,我們期待LLMs能夠在更廣泛的領域中展現其強大的潛力,實現實時高效的文本生成。

付費5元查看完整內容

近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。

近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。

“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:

上下文學習 * 規模定律 * 同質化

上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。

通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強

這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。

付費5元查看完整內容

這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。

**1 引言 **

在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。

2 概述

大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。

3 大型語言模型的解釋性

3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。

3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。

4 利用解釋性

在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。

4.1 模型編輯

盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。

4.2 增強模型能力

雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。

4.3 可控生成

盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。

5 評估

近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。

6 結論

在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。

付費5元查看完整內容

隨著大型語言模型(LLM)發展的日益普及,吸引了大量關注,各種應用領域的模型不斷涌現。然而,將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展,如ChatGPT,如何與專用預訓練模型,如REBEL,進行比較,以實現實體和關系的聯合提取。為了評估這種方法,我們使用與可持續性相關的文本作為案例,進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程,并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外,我們還探討了使用基礎LLM模型進行自動本體創建的潛力,從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法,包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較,我們從網絡上收集了有關可持續性主題的新聞數據。為此,我們使用了News API [21]系統。News API是一個HTTP REST API,用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能:關鍵詞或短語、發布日期、來源域名和語言。通過使用News API,我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數,從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制,因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理(NLP)中的一項基本任務,旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性,因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中,我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL:我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本,需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌,這意味著在將較長的收集到的文章發送到模型進行三元組提取之前,需要對其進行預處理。為了解決這個限制,我們將原始文本進行分詞,并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理,然后合并結果以提取較長文本的關系。還向提取的關系添加元數據,引用生成關系的令牌批次。采用這種方法,由于令牌批次可能在句子的中間開始或結束,某些關系可能無法準確提取。然而,這種情況發生的次數微乎其微。因此,我們將其處理留給未來的工作。實體-關系提取過程完成后,提取的信息存儲在三元組結構中。為了進一步規范提取的實體,我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分,它是用于優化提取關系的額外后處理步驟。在本研究中,我們使用DBpedia作為知識庫,并認為如果兩個實體具有相同的DBpedia URL,則它們是相同的。這方法不適用于DBpedia上不存在的實體。

  1. ChatGPT:本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后,我們遵循與REBEL模型相同的步驟,以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗,我們將參數“溫度”的值設為0,以獲得更具確定性的輸出,因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容
北京阿比特科技有限公司