亚洲精品无码黄色网站在线观看,中文熟妇亚洲视频观看

隨著大語言模型（LLMs）推理能力的持續提升，基于LLM的智能體系統在靈活性與可解釋性方面相較于傳統系統展現出明顯優勢，因而受到越來越多的關注。然而，盡管智能體系統在學術研究和工業應用中都引發了廣泛興趣，這類系統與傳統系統一樣，仍頻繁遭遇各類異常問題。這些異常帶來了系統的不穩定性與安全隱患，阻礙了其進一步發展。因此，迫切需要一種全面而系統的智能體系統運維方法。遺憾的是，當前關于智能體系統運維的研究仍十分稀缺。為填補這一空白，本文對智能體系統的運維問題展開了系統性調研，旨在建立清晰的研究框架，定義關鍵挑戰，并推動該領域的進一步發展。

具體而言，本文首先系統地定義了智能體系統中的異常現象，并將其劃分為智能體內異常與智能體間異常兩大類。隨后，我們提出了一種新穎且全面的智能體系統運維框架，命名為Agent System Operations（AgentOps）。該框架涵蓋了四個關鍵階段：監控（monitoring）、異常檢測（anomaly detection）、根因分析（root cause analysis）與異常處理（resolution），并對每一階段進行了詳細的定義與說明。

1 引言

隨著 DeepSeek-R1 [35] 和 Claude [4] 等技術的出現，當前大語言模型（LLMs）的推理能力正持續增強。借助LLMs這一強大的認知引擎，現有的基于LLM的智能體系統，尤其是多智能體系統，已具備完成各種復雜任務與社會模擬的能力 [60]，特別是在配備多樣工具 [78] 的情況下。相比于傳統的微服務架構系統 [75]，智能體系統在自動化程度、可解釋性以及靈活性方面更具優勢。因此，智能體系統在學術研究與工業應用中迅速發展，越來越多的在線服務 [50]（如客戶支持與推薦系統）開始采用此類智能體系統。然而，盡管智能體系統應用廣泛，其本身仍存在諸多問題。與傳統微服務系統相比，智能體系統所帶來的更高靈活性也伴隨著更多異常。例如，如圖1所示，任務執行常因幻覺等問題而失敗；在角色扮演場景中，對單一智能體的攻擊可能導致整個模擬過程崩潰。因此，為保障智能體系統的安全性與穩定性，并推動其持續發展，亟需高效的運維機制。雖然運維技術經歷了從早期的人工操作，到基于規則的方法，再到人工智能運維（AIOps）的演進，但智能體系統與傳統系統在本質上存在顯著差異。基于LLM驅動的智能體在行為特性方面與硬編碼的傳統系統截然不同，主要體現在以下幾點： 1. 智能體系統中異常類型更為多樣； 1. 智能體系統對可觀測性的要求高于傳統系統，需特別關注LLM等模塊； 1. 異常的多樣性使得智能體系統難以采用統一的方法進行異常檢測與根因分析； 1. 智能體系統中的異常處理過程更為復雜，需從多個視角進行考慮并持續優化。

因此，傳統運維技術難以直接應用于智能體系統，亟需面向其特性的全新定制化運維技術。目前，關于智能體系統運維策略的系統性研究仍相對匱乏，大多數研究僅關注智能體系統的某一局部方面，尚未全面探討其整體運維挑戰。例如，Durante 等人 [27] 對智能體的范式與分類進行了闡述；Chakraborty 等人 [12] 探討了基礎模型中的幻覺問題，包括其定義與檢測方法；Deng 等人 [24] 聚焦于多智能體系統中的安全問題，主要研究外部惡意攻擊，并將安全威脅劃分為執行內部安全與交互安全；Shi 等人 [85] 針對 GUI 智能體中的安全問題及評估方法也進行了深入探討。為進一步推動智能體系統的發展，本文提出了智能體系統運維（Agent System Operations, AgentOps）的概念，這是一個專為智能體系統設計的全新運維框架。我們首先精確定義了智能體系統中的異常，并對其進行系統分類，主要劃分為智能體內異常（intra-agent anomalies）與智能體間異常（inter-agent anomalies）。這兩個類別涵蓋了智能體系統生命周期中的前執行階段、執行階段和后執行階段。此外，我們借鑒傳統運維實踐，將智能體系統的運維過程劃分為四個階段：監控（monitoring）、異常檢測（anomaly detection）、根因分析（root cause analysis）與異常處理（resolution）。針對每一階段，我們識別了智能體系統中所面臨的新挑戰，并提出了相應的定義與潛在解決方案。據我們所知，這是首個系統性提出“AgentOps”概念，并標準化其各個流程定義的工作。

付費5元查看完整內容

1 引言

隨著大型語言模型（LLMs）的興起，軟件開發范式正在發生迅速變化 [73]。這些模型使人工智能（AI）系統不僅能夠生成代碼 [44]，還能夠理解任務需求、與開發工具交互，并迭代地優化其輸出 [29, 43]。近期研究表明，軟件開發者如今已常規性地使用LLMs來輔助日常編碼任務 [30, 72, 73]。與傳統的代碼生成工具 [31] ——它們往往只針對單一提示返回靜態代碼片段——不同，新興的AI編程智能體被設計為能夠在動態的軟件環境中運行，通過執行迭代的、工具增強的任務來實現復雜目標。這一轉變催生了一種新的編程范式，即 AI智能體式編程。在該范式中，基于LLM的編程智能體可以自主地規劃、執行并優化軟件開發任務 [36, 42]。這些智能體不僅僅是代碼補全：它們可以根據自然語言規范生成完整的程序或模塊，利用編譯器或測試反饋診斷并修復錯誤，編寫并執行測試用例，并對代碼進行重構以提升可讀性或性能。它們還能夠調用并交互外部工具，如編譯器、調試器、性能分析器或版本控制系統，從而支持端到端的軟件開發工作流。這種新興的編程范式有潛力從根本上改變軟件的構建與維護方式。例如，一個AI智能體可以從功能的自然語言描述出發，逐步完成代碼編寫、測試生成與運行、問題分析與修復，直至準備好一個pull request。一些最先進的編程智能體已展示出在保持任務一致性、避免死鎖以及從失敗操作中恢復的前提下，連續工作數小時的能力 [29, 42]。這些系統能夠生成和測試代碼，在不同框架之間遷移軟件，調試運行時錯誤，并通過將復雜目標分解為可管理的子任務來集成新特性 [34, 35]。這標志著從靜態的一次性AI代碼生成向交互式、迭代式、工具增強型工作流的顯著轉變。盡管進展迅速，AI智能體式編程仍處于早期階段。現有系統在架構、自主性、工具集成以及推理能力方面存在差異。目前尚無統一的分類體系、基準測試套件或評估方法。此外，仍有多項關鍵挑戰亟待解決，包括提升可靠性 [73]、減少錯誤或幻覺 [30]、處理跨平臺與跨語言的任務 [81]，以及確保這些系統在實際使用中安全可信 [54]。

AI編程智能體的成功在很大程度上依賴于其與外部工具的高效交互能力。然而，當今的編程語言、編譯器與調試器從根本上是面向人類的，它們并非為自動化、自主系統而設計。這些工具通常會抽象掉內部狀態與決策過程，以提高可用性、保證可移植性并降低人類用戶的認知負擔 [129, 130]。雖然這種抽象對人類開發者有益，但可能并不適合AI智能體。后者需要對內部狀態、轉換序列和驗證邏輯進行細粒度、結構化的訪問，以便推理其操作效果 [33]。缺乏這種訪問能力，AI智能體在診斷失敗、理解修改的影響或以合理方式恢復錯誤時會面臨困難。例如，當代碼轉換導致構建失敗時，智能體需要的不僅僅是錯誤消息——它必須能夠追溯失敗的具體中間步驟，并理解為何修改會引發該問題。現有開發環境并未提供支持這種迭代式、工具集成推理的接口與反饋機制。

同樣地，智能體編程系統極大地受益于支持迭代開發、狀態追蹤和豐富反饋傳播的工具鏈——而大多數傳統工具并未暴露這些能力。為了高效運行，AI智能體可能需要訪問編譯器的內部表示、轉換軌跡、符號信息以及執行元數據。這引出了一個根本性問題：在AI智能體式編程的時代，我們現有的編程語言和軟件開發工具是否仍然適用？抑或是時候重新思考編程語言、編譯器和調試器的設計，以將AI智能體視為開發過程中的一等參與者？

這些挑戰表明，AI智能體式編程并不僅僅是現有工具的一種新用法，而是一種變革，它暴露出當今軟件系統設計中的重要缺口。隨著該領域的快速發展，亟需澄清其概念圖景、識別共性模式與系統架構，并評估當前開發生態的適用性。此時正是回顧最新進展、總結經驗并提出研究者與開發者需要解決的關鍵問題的最佳時機。因此，本綜述旨在對AI智能體式編程這一新興領域進行全面回顧。具體而言，涵蓋以下幾個方面： * AI編程智能體的概念基礎與分類體系； * 核心系統架構與底層技術的綜述； * 當前應用與實際使用案例的總結； * 評估策略與基準測試方法的分析； * 關鍵挑戰與當前局限性的討論； * 未來研究方向的探索，包括跨編程語言、軟件工程、人工智能與人機交互等學科視角的交叉融合。

我們主要聚焦于由LLM驅動的軟件開發智能體系統，但其中許多見解同樣適用于一般的任務型智能體。我們的目標是描繪當前研究版圖，澄清基礎概念，并支持設計出穩健、高效且值得信賴的AI編程智能體。

付費5元查看完整內容

行動 · 規劃 · 學習 · 書籍 ·

7 月 28 日

[付費5元查看完整內容]【新書】行動，規劃與學習，622頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在過去十年中，人工智能（AI）取得了顯著突破，尤其是在深度學習和基礎模型（foundation models）領域——這類模型屬于次符號（sub-symbolic）機器學習方法，依賴于擁有數百億參數的深度神經網絡。由于這類模型的可解釋性和可理解性非常有限，它們通常被稱為“黑箱”模型。這項技術在提升交互能力、感知能力以及自然語言處理方面發揮了關鍵作用，有時甚至超越了人類的表現。因此，一些研究者開始將AI等同于深度學習和基礎模型。然而，我認為這是一個重大的誤解。 AI的內涵遠不止于次符號機器學習；它還包括符號化（即人類可理解的）建模、搜索算法和推理技術——這些都是超越機器學習、體現人類智能的重要方面，同時也可以結合機器學習，以提升算法性能與模型準確性。規劃（planning）與行動（acting）是人類與生俱來的能力。即使是年幼的兒童，也會自然地進行規劃和行動，從環境中學習其行為的后果，并在成長過程中不斷精進這些能力。而機器在規劃與行動方面尚未達到人類水平，尤其是在將其與學習過程相結合方面仍有很大提升空間，這也為自主智能系統的進步留下了廣闊的發展余地。本書在“規劃、行動與學習”研究領域中是一個重要的里程碑，探討了如何有效地將這些智能特征融合與集成，以提升智能系統的整體性能。作者Malik Ghallab、Dana Nau 和 Paolo Traverso 是三位在國際學術界享有極高聲譽的杰出科學家與研究者。本書是他們在該領域撰寫的第三本著作：第一本聚焦于規劃，第二本則探討了行動與規劃之間的交互，而這第三本則更進一步，系統地涵蓋了行動、規劃與學習三者的結合。書中討論了諸如確定性狀態轉換（Deterministic State-Transitions）、分層任務網絡（Hierarchical Task Networks）、概率模型、不確定性模型、分層細化模型（Hierarchical-Refinement）以及時間建模（Temporal Models）等內容，同時也涉及機器人運動與操作（Robotic Motion and Manipulation）。此外，書中還探討了大語言模型（Large Language Models）的新興能力及其在該領域的應用，這一主題正處于次符號AI與符號AI交匯的前沿。本書不僅是該研究領域科學家的重要參考資料，也可作為研究生課程的教科書，清晰、全面且結構嚴謹地梳理了領域建模、計劃生成與執行，以及如何將學習過程融入上述各個環節的技術與算法。我毫不懷疑，這本書將會被我在課程中推薦，并作為個人的重要參考資料使用。對于一個智能體而言，實現智能行為依賴于三項基本的認知功能：行動（acting）、規劃（planning）和學習（learning）。本書的主題正是如何實現這三種功能的自動化與集成。本書是我們前兩本著作《自動規劃》[409] 以及《規劃與行動的結合》[410] 的延續，涵蓋了自這些書出版以來在該領域取得的一系列研究進展。本書涵蓋了多種模型、方法與算法——包括確定性、概率性、分層結構、非確定性、時間性與空間性等類型——并探討了如何將這些模型應用于行動、規劃與學習的過程。關于這些主題的已有文獻龐雜且分散于多個相互割裂的研究領域，不可能在一本書中面面俱到。因此，我們在內容選擇上堅持以“行動、規劃與學習的集成為核心目標”這一主線來組織材料。全書共包含24章。第1章為引言，其余章節分為八個部分。前七個部分聚焦于不同的表示模型，每一部分均包括關于該模型下的行動、規劃與學習的相關章節： * 第一部分 使用“經典的”確定性狀態轉換模型，基于狀態變量進行建模。本章中的若干核心概念貫穿全書始終。 * 第二部分 在第一部分的狀態轉換模型基礎上，引入了分層任務網絡（HTN）。 * 第三、四部分 對第一部分的狀態轉換模型進行擴展，分別引入了概率性和非確定性。 * 第五部分 描述了一種分層細化（hierarchical refinement）方法，它結合了第二部分中的HTN概念與第三部分中的概率模型。 * 第六部分 使用chronicle表示法對時間與并發進行建模。 * 第七部分 引入了機器人運動與操作模型，并探討了其與更抽象任務的結合。

最后，第八部分包含兩章，討論了一些盡管不屬于本書核心關注點但仍非常重要的主題：大語言模型以及感知、監控與目標推理（goal reasoning）。

如何使用本書

本書既可作為科學研究與工程實踐中的信息參考來源，也可作為研究生層次的教材使用。大多數章節的參考文獻被集中放在章節末尾的討論部分；多數討論部分后還附有習題。我們將提供配套的幻燈片與其他輔助材料，供讀者在線獲取[^1]。在書中的偽代碼中，所有變量默認為局部變量，除非明確聲明為全局變量。我們假設讀者已具備本科階段計算機科學課程中算法與數據結構的基本知識。附錄中補充了一些超出該背景范圍的數學與技術內容。除了對當前技術狀態進行系統性的整合外，本書還包含了大量全新的內容，這些內容大多經過詳盡的闡述，以便于教學使用。其中部分章節提出的新方法尚未被實現或實證評估，旨在激發未來進一步的研究探索。讀者可以根據自身的需求與背景知識，選擇不同的閱讀路徑來學習本書。圖1給出了各章節之間的依賴關系，希望能幫助讀者與授課教師合理規劃本書的學習路徑，獲得最大收益。

付費5元查看完整內容

ICML 2025 · 多模態學習 · 通用人工智能 ·

5 月 8 日

[付費5元查看完整內容]【ICML2025】邁向多模態通用人工智能之路：通用級別與通用基準

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多模態大語言模型（Multimodal Large Language Model, MLLM）當前正處于快速發展階段，這一進展主要得益于基于語言的大模型（LLM）的先進能力。不同于以往的專用型模型，現有的MLLM正朝著“多模態通才”的范式演進。從最初僅具備多模態理解能力，這些模型已發展到不僅能夠理解，還能夠跨模態生成內容。其能力已從粗粒度的多模態理解擴展到細粒度層面，同時也從支持單一模態拓展到支持廣泛甚至任意模態。

為了評估各類MLLM的能力，研究者提出了多樣化的基準測試集。這引出了一個關鍵問題：我們是否可以簡單地認為，在多個任務上取得更高性能就意味著更強的MLLM能力，從而更接近人類級別的人工智能？我們認為，答案遠沒有那么簡單。在本項目中，我們提出了一個評估框架，用以描繪當前多模態通才模型的能力和行為。該框架被稱為“通用級別（General-Level）”，建立了一個涵蓋五個等級的MLLM性能與通用性評估體系，提供了一種比較不同MLLM的方法論，并用于衡量現有系統向更強大多模態通才，乃至通用人工智能（AGI）演進的進展。

該框架的核心是以“協同效應（Synergy）”作為評估標準，依據模型是否在理解與生成之間，以及在多模態交互中保持協同關系，對其能力進行分類。為了全面評估不同通才模型的綜合能力，我們構建了一個大規模的多模態基準測試集——General-Bench。該基準覆蓋了更廣泛的技能、模態、格式與能力，包含超過700個任務和325,800個實例。通過對100多個當前最先進的MLLM進行評估，結果揭示了各通才模型的能力排名，凸顯了實現真正人工智能所面臨的挑戰。我們希望本項目能夠為下一代多模態基礎模型的研究鋪平道路，提供穩健的基礎設施，以加速AGI的實現進程。

1 引言

大型語言模型（Large Language Models, LLMs，例如 ChatGPT（OpenAI, 2022a）和 LLaMA（Touvron 等，2023））通過以通才身份應對廣泛的自然語言處理（NLP）任務，徹底變革了該領域。這種能力的廣度，使人類在實現通用人工智能（Artificial General Intelligence, AGI）的道路上更進一步。然而，人類智能本質上是多模態的，而不僅僅依賴語言。這一認知推動了多模態大語言模型（Multimodal Large Language Models, MLLMs）的發展（Alayrac 等, 2022；Li 等, 2023a；Liu 等, 2023a；OpenAI, 2022b），即“多模態通才”，目前正迅速發展，并逐步向 AGI 靠近。 MLLM 的最新進展表現為多個重要突破。例如，最初的多模態智能體中，LLMs 僅作為任務調度器出現，后來逐步演化為聯合訓練的基礎型多模態模型（Zhu 等, 2023a；Liu 等, 2023a；Zhang 等, 2023a；OpenAI, 2022b；Wu 等, 2024a；Chen 等, 2024a；Sun 等, 2024）。此外，MLLM 的能力已從僅能理解多模態信號，發展到可同時進行理解與生成，甚至具備編輯能力（Wang 等, 2023a；Munasinghe 等, 2023；Zhang 等, 2024a；Fei 等, 2024a）。模型的理解能力也從粗粒度跨模態理解，提升到細粒度層級，例如像素級視覺建模（Ren 等, 2023；Yuan 等, 2023a；Rasheed 等, 2023）。更為關鍵的是，這些模型已從只支持單一非文本模態，擴展到能同時理解和生成多種模態，甚至能夠處理任意模態的輸入（Wu 等, 2024a；Zhan 等, 2024；Lu 等, 2024a）。因此，研究社區相繼提出了多種用于評估 MLLM 的基準測試集（Wu 等, 2023a；Xia 等, 2024a；Yue 等, 2024a；Meng 等, 2024a；Liu 等, 2025；Li 等, 2024a；Ying 等, 2024a；Li 等, 2024b）。然而，當前主流的評估觀念可能已經滯后，往往簡單地假設：在多個任務上獲得更高性能，就代表具備更強的通才能力，也就更接近 AGI（Xu 等, 2023a；Yu 等, 2023；Fu 等, 2024a；Chen 等, 2024b）。我們認為這種觀點過于簡化了“真實多模態泛化能力”背后的深層含義。理論上，我們可以將多個任務上表現最好的 SoTA 專家模型拼接在一起，構建一個“超級智能體”，看似也可達成類似目標，但這種簡單堆疊式整合遠不能實現真正的 AGI。我們認為，邁向 AGI 的關鍵在于“協同效應（Synergy Effect）”——即一種能力，能夠使模型在某一模態或任務中學到的知識遷移并增強對其他模態或任務的掌握，實現不同模態和任務之間的互促與提升。如圖 2 所示，目前大多數 MLLM 主要建立在語言模型的智能基礎上，模擬出一種“間接的多模態智能”，本質上是將語言智能延伸用于多模態理解。盡管某些 LLM（如 ChatGPT）已在 NLP 任務中展示出跨任務的協同效應，反映了語言智能的潛力，但多數 MLLM 并未真正實現在模態之間或任務之間的協同。在本項目中，我們提出了一個更為精細的評估框架——General-Level，以更準確地定位并評估當前多模態通才模型的能力，為實現真正的多模態 AGI 指明路徑。受到自動駕駛領域分級標準的啟發（Yurtsever 等, 2020），General-Level 建立了五個主要性能與通用性等級的劃分標準。該框架以“協同能力”作為核心評估準則，依據模型在多模態理解與生成、以及模態交互中的協同表現，對其能力進行分級。從最低到最高等級，所要求的協同能力范圍依次從單一任務或模態擴展到“完全協同”，并且等級越高，模型所需跨模態整合與泛化的能力也越高，晉升難度也隨之增加。要在 General-Level 框架中進行有效評估，一個合適的基準體系至關重要。盡管已有多個 MLLM 評估基準，例如 LVLM-eHub（Xu 等, 2023a）、MME（Fu 等, 2024a）、MMMU（Yue 等, 2024a）、SEED-Bench（Li 等, 2024a）、MMT-Bench（Ying 等, 2024a）和 MEGA-Bench（Chen 等, 2024b），但它們往往存在以下局限： 1. 多數現有基準將所有任務統一轉換為多選題格式（Fu 等, 2024a；Ying 等, 2024a），雖然簡化了評估流程，卻局限在“多模態理解”能力評估上，忽略了生成、編輯等關鍵能力； 1. 多數基準集中于圖像模態，忽視了視頻、音頻、三維等其他關鍵模態（Wu 等, 2023a；Liu 等, 2025；Li 等, 2024a）； 1. 當前評估體系主要停留在粗粒度理解層面，無法評估如像素級圖像理解與生成等細粒度能力（Fei 等, 2024a；Zhang 等, 2024a）。

為應對上述挑戰，我們提出了一個大規模多模態評估基準——General-Bench，覆蓋圖像、視頻、音頻、三維、語言等多種原生模態格式，涵蓋范圍廣泛的任務，全面評估一個多模態通才應具備的核心能力。我們對 100 多個當前最先進的 LLM/MLLM 系統進行了評估，揭示了它們作為多模態通才的能力與排名。其中一個顯著發現是：絕大多數 MLLM 缺乏“跨任務”或“跨模態”的協同能力，因此難以達到較高等級評估標準，甚至 GPT-4V 和 GPT-4o 等先進模型也未能獲得頂級排名。這表明在邁向真正多模態 AGI 的道路上仍存在明顯差距。同時，大多數模型只能完成少數基本的多模態任務與技能，這也拉低了其綜合評分。更關鍵的是，當前尚無模型能夠通過非語言模態提升語言智能，這一現象凸顯了實現 AGI 所面臨的重大挑戰。 主要貢獻：

1）我們提出了一個多模態通才的分級標準體系——General-Level，為 MLLM 研究提供了嚴謹的評估規范與標準； 2）我們構建了一個全新的多模態評估基準——General-Bench，提供了當前最廣泛的模態與任務覆蓋。我們希望本項目能夠作為推動下一代多模態基礎模型發展的基礎設施，助力構建更強大、通用的多模態智能系統，進一步邁向 AGI。

付費5元查看完整內容

大語言模型 · 冷啟動推薦 ·

1 月 6 日

[付費5元查看完整內容]面向大語言模型（LLMs）時代的冷啟動推薦：一項全面的綜述與路線圖

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

冷啟動問題是推薦系統中一個長期存在的挑戰，主要集中在準確建模新用戶或互動有限的用戶，或新物品，以提供更好的推薦。隨著互聯網平臺的多樣化以及用戶和物品的指數增長，冷啟動推薦（CSR）的重要性日益顯現。與此同時，大語言模型（LLMs）已取得了巨大的成功，并具備強大的用戶和物品信息建模能力，為冷啟動推薦提供了新的潛力。然而，冷啟動推薦領域的研究社區在這一方向上仍然缺乏全面的綜述與反思。因此，本文基于大語言模型時代的背景，提供了一項關于冷啟動推薦的全面綜述，討論了其路線圖、相關文獻及未來方向。具體而言，我們探討了現有的冷啟動推薦如何利用信息發展路徑，包括從內容特征、圖譜關系和領域信息，到大語言模型所擁有的世界知識，旨在為冷啟動推薦的學術界和工業界提供新的見解。相關的冷啟動推薦資源已收集并持續更新，供社區參考，

鏈接：//github.com/YuanchenBei/Awesome-Cold-Start-Recommendation。

1 引言

在數字信息時代迅速發展的背景下，推薦系統（RecSys）已成為幫助用戶在信息過載和選擇繁多的情況下發現相關內容和物品的不可或缺的工具【14, 220, 255】。盡管推薦系統被廣泛部署，但仍面臨持續的挑戰，特別是在“冷啟動”場景中，即新用戶或物品沒有歷史交互數據可用的情況下。具體來說，在現實場景中，冷啟動問題可能表現為新物品的引入、新用戶的加入，或者新平臺本身就存在稀疏的交互數據。解決冷啟動問題不僅對性能指標至關重要，而且對推進推薦系統的有效性和可持續性也具有關鍵作用。首先，解決這個問題確保新用戶和物品得到公平的推薦，減輕依賴歷史數據所帶來的偏差。這種改進促進了推薦的多樣性和公平性，通過防止新物品被忽視，促進了多樣化內容的曝光【114, 288】。此外，解決冷啟動挑戰還帶來了平臺品牌價值和用戶留存。在競爭激烈、快速發展的數字化環境中，為新用戶提供即時且相關的推薦能夠使平臺從競爭對手中脫穎而出。個性化的推薦從一開始就幫助吸引新用戶，避免了由于推薦內容不相關或缺失而導致的用戶流失，從而留下了強烈的初始印象，培養了忠誠度。對于平臺而言，這意味著更高的參與度、更好的留存率以及在動態市場中的成功。最后，能夠有效應對冷啟動場景也確保了平臺的可擴展性和增長。隨著平臺用戶和內容的不斷增加，能夠有效整合這些新實體的持續涌入，使推薦引擎保持動態和相關性，這種適應性支持了在快速變化環境中的長期可持續性。基于這些動機，冷啟動問題推動了利用多種外部知識源的創新方法探索。通過整合超越傳統用戶-物品交互的數據，如內容特征【183】、社交信息【36】或預訓練的大語言模型知識【122】，這些方法豐富了冷啟動實體的表示和建模，使推薦系統在數據稀疏的情況下依然能夠有效運作。因此，解決冷啟動問題不僅僅是一個技術挑戰，更是構建公平、吸引人和可持續的推薦平臺的戰略必要性。

早期的冷啟動嘗試采用基于內容的方法【133, 181】，重點關注分類文本特征，如物品類別、物品標題和用戶資料，這些對冷啟動實體的表示起著至關重要的作用。隨后，隨著圖挖掘技術的進步【101, 225, 231】，從圖結構中派生出的高階關系，如用戶-物品交互圖【24, 64, 257, 258】、知識圖譜【21, 203】和社交網絡【165, 239】成為增強冷啟動推薦的關鍵組成部分。與此同時，有研究者開始轉向不同領域之間的關系，而非挖掘圖中節點之間的關系【92, 249】。特別是，目標領域中的冷啟動和數據稀疏問題可以通過從其他交互數據更豐富的領域遷移知識來緩解。跨領域推薦技術利用重疊的用戶基礎、共享的屬性或對齊的物品類別，提升冷啟動推薦的表現。近年來，大語言模型（LLMs）的興起，如GPT【3】、LLaMa【39】和T5【157】徹底革新了自然語言處理，展示了在理解和生成類人文本方面的卓越能力，這些能力基于大量的預訓練數據【107, 142】。這些進展促使推薦系統研究出現了范式轉變，借助大語言模型的全面上下文理解來提升冷啟動推薦的表現。通過利用大語言模型的預訓練世界知識，研究人員開始探索為冷啟動用戶和物品建模和表示的新策略，以更加語義豐富和上下文感知的方式。圖2a展示了這一發展趨勢，突出了冷啟動推薦研究從傳統的基于內容的方法轉向以LLMs為驅動的策略，并逐步擴展知識范圍（如圖1所示）。

本文旨在提供對冷啟動推薦領域最前沿技術和框架的全面綜述，特別關注大語言模型時代下知識范圍擴展的方向，如圖1所示。本文特別關注發表在頂級會議和期刊中的相關工作，如圖2b所示。基于這些工作，我們將現有研究按照外部知識源的規模分為四個知識范圍：內容特征、圖譜關系、領域信息和大語言模型的世界知識。通過系統地分類和分析這些方法，本文綜述旨在呈現對冷啟動推薦領域的全面理解，并提出未來研究的路線圖。我們強調將大語言模型整合到冷啟動推薦中的變革潛力，并概述了這一新興領域未來可能面臨的機遇和挑戰。

1.1 相關工作

表1展示了我們綜述與之前綜述之間的比較。現有的所有綜述僅關注冷啟動推薦問題的部分知識范圍或有限方面。最早的綜述【51】和【17】部分覆蓋了單一知識范圍，但沒有明確界定具體的冷啟動問題。隨后，IDCTIT【163】和《Applied Sciences》【1】等的綜述開始結合圖譜關系和領域信息，并首次明確界定了系統冷啟動和用戶冷啟動問題，涵蓋了2021年前相關文獻。更近的綜述，如《JIIS》【152】和《IEEE Access》【246】擴大了覆蓋的范圍和文獻數量，特別是【246】重點關注用戶冷啟動問題。總體來說，現有文獻中沒有任何一篇綜述全面覆蓋所有四個方面（特征、圖譜、領域和LLMs），并同時處理多個冷啟動問題。在本文中，我們旨在填補這一空白，提供一篇全面且系統的綜述，涵蓋220篇文獻，明確界定9個不同的冷啟動問題，并結合特征、圖譜、領域和LLMs的知識范圍進行分析。

1.2 綜述方法

為了全面涵蓋冷啟動推薦的文獻，我們采用了半系統化的綜述方法來識別相關論文。首先，我們通過預定義的搜索關鍵詞，如“冷啟動推薦”、“冷啟動推薦系統”、“嚴格冷啟動”、“零樣本推薦”和“少樣本推薦”，查詢了主要學術數據庫，如Google Scholar和Web of Science。此外，我們還篩選了包括KDD、WWW、SIGIR、CIKM、WSDM和RecSys在內的專業會議論文集。通過分析標題、摘要和實驗結果來過濾搜索結果，以評估其相關性。然后，對相關文獻進行了進一步的詳細審閱，并使用引用鏈方法（snowballing）找出了更多相關論文。最終，我們根據貢獻將收集到的文獻分為四個核心領域，分別為內容特征、圖譜關系、領域信息和大語言模型的世界知識，如圖3所示。這些文獻大多數描述了技術方法或提出了新的框架，少部分提供了系統演示或對冷啟動推薦方法的分析視角。

1.3 貢獻

開創性的全面綜述：我們提出了首個關于冷啟動推薦方法的全面綜述，系統地識別了來自不同冷啟動推薦任務和知識源的研究。我們的綜述詳細分析了相關文獻，考察了它們的動機、數據需求和技術方法，并提供了領先會議（如SIGIR、CIKM、KDD）和期刊（如TKDE、TOIS）中的研究出版物的時間線和統計概述，如圖2所示。
創新的分類法引入：我們提出了一種新的分類法，提供了一個獨特的視角來解決冷啟動挑戰——利用外部知識源來應對數據稀缺和新實體的交互不足。我們的分類法將知識源區分開來，超越傳統方法，向更廣泛的冷啟動問題解決方案擴展。
冷啟動問題的明確定義：根據我們的知識，本文是首篇在多個維度上清晰、全面地定義冷啟動問題的論文，包括長尾冷啟動、用戶冷啟動、物品冷啟動、用戶-物品冷啟動、零樣本和少樣本以及嚴格冷啟動問題。這個定義為冷啟動領域的多樣化研究提供了結構化的理解和統一框架。
前瞻性的研究路線圖：基于我們的全面綜述和創新的分類法，我們提出了一個前瞻性的研究路線圖，連接當前在冷啟動推薦中的進展和未來研究方向。這個路線圖旨在為研究社區提供指導，提供推進這一挑戰性領域知識的洞察和結構化路徑。

2. 冷啟動推薦

在推薦系統的上述背景下，我們可以發現，當前推薦模型的核心是通過不同的技術策略挖掘用戶-物品相似性。然而，隨著互聯網的快速發展，推薦系統面臨的一個重大挑戰是冷啟動推薦（CSR），即如何為每天不斷加入互聯網的新用戶和新物品提供準確的推薦【51, 75, 124】。冷啟動推薦的主要難點在于，新用戶和新物品往往缺乏或完全沒有可用的信息。在這種情況下，系統難以基于極其稀疏的信息對用戶與物品的相似性進行建模。因此，冷啟動推薦已成為推薦系統研究領域長期存在的難題。

本綜述將系統性地回顧現有的冷啟動推薦方法，從第2.2節對不同冷啟動問題的詳細定義開始，到第3節至第6節逐步展開對現有冷啟動推薦模型的分類與討論，涵蓋的知識范圍包括內容特征、圖關系、領域信息及世界知識。

3 內容特征

內容特征主要指的是用戶或物品固有的描述性信息，用以表征其屬性，如用戶個人資料、用戶評價、物品名稱和描述【2, 63, 78, 292】。由于冷啟動用戶/物品缺乏歷史交互記錄，內容特征成為冷啟動推薦中代表冷用戶/物品的關鍵數據之一【59, 181】。基于內容特征的利用方式，我們將方法分為兩類：數據不完整學習（第3.1節），它解決了沒有歷史交互的嚴格冷啟動場景；以及數據高效學習（第3.2節），它優化了在有有限交互數據的普通冷啟動場景中的性能。

4 圖關系

圖關系提供了高階信息，而不僅僅是用戶/物品本身的內容特征。利用圖關系知識能夠將鄰域中的信息傳播到特定的用戶或物品。然而，該領域的關鍵挑戰在于如何為冷啟動用戶/物品提供圖信息，因為缺乏歷史交互數據。首先，這里簡要介紹一下圖神經網絡（GNNs），它們在本節被廣泛用于圖關系推理：近年來，圖神經網絡（Graph Neural Networks, GNNs）受到了極大的關注，并在許多圖挖掘任務中展示了最前沿的性能，如節點分類【9, 55, 100】、鏈接預測【223, 248, 254】和圖分類【210, 211, 229】等。GNNs通常采用消息傳遞（message-passing）范式，通過聚合鄰域信息來更新每個中心節點的嵌入表示。作為鏈接預測任務的一部分，推薦系統近年來涌現出大量基于GNN的推薦模型，并取得了顯著的推薦效果【64, 204, 232】。基于GNN的推薦模型主要利用GNN強大的消息傳遞機制，在圖結構中建模用戶-物品交互，從而更好地理解用戶偏好和物品相關性，并利用高階信息實現更有效的推薦【24, 165, 220】。

5 域信息

在現實世界的在線應用中，只有少數平臺能夠實現顯著的用戶參與，而許多其他平臺則面臨持續的長尾問題和用戶冷啟動問題。因此，跨域遷移學習【213, 290】提供了一個有前景的解決方案，通過利用源域中豐富的數據知識來增強目標域中信息有限的推薦性能。與傳統的冷啟動推薦系統不同，跨域推薦方法本質上更為復雜。它們必須考慮來自至少兩個不同系統的知識，而這些系統之間通常存在顯著差異。這些方法通常需要跨域環境中有重疊的用戶，并且需要有效的策略來利用這些用戶共享域知識。根據利用域知識的高層次方法，我們將現有的研究工作分為三類：域知識遷移（第5.1節）、域分布對齊（第5.2節）和域不變表示學習（第5.3節），如圖6所示。

6 來自大語言模型的世界知識

大語言模型（LLMs）是通過深度學習技術訓練的生成型人工智能系統，旨在通過學習大量文本語料數據來理解一般的世界知識。這些模型能夠生成文本、回答問題、進行翻譯，甚至參與復雜的對話【271, 287】。由于近年來取得的巨大成功，越來越多的領域開始利用大語言模型的能力來完成各種任務，如多模態學習【217】、圖學習【159】和推薦系統【219】，并取得了顯著成果。由于大語言模型強大的文本特征處理能力，冷啟動，尤其是零樣本和少樣本場景，已成為大語言模型在推薦領域中的一個重要應用。根據大語言模型所扮演的角色，我們將現有的研究工作分為兩個主要方面：大語言模型作為推薦系統（第6.1節）和大語言模型作為知識增強器（第6.2節）。

結論

在本文中，我們對冷啟動推薦進行了全面的綜述，并提出了一條從內容特征、圖關系、領域信息到大語言模型世界知識的研究路線圖。具體而言，我們首先正式定義了冷啟動推薦領域的不同研究問題，然后系統性地回顧了冷啟動推薦的研究進展。在每個部分中，我們不僅總結了相關研究背后的核心洞見，還列舉了一些代表性工作，以幫助讀者更好地理解。此外，我們重新審視了冷啟動推薦的一些關鍵挑戰，并總結了一些有意義的未來研究方向。相關資源已整理至Github：

付費5元查看完整內容

迭代優化 · 大語言模型 · LLM4Code ·

1 月 5 日

[付費5元查看完整內容]【LLM4Code】代碼優化的語言模型：綜述、挑戰與未來方向

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

語言模型（LM）基于深度神經網絡（DNN）的構建，最近在軟件工程任務中，如代碼生成、代碼補全和代碼修復，表現出了突破性的效果。這為基于語言模型的代碼優化技術的出現鋪平了道路，這些技術對于提升現有程序的性能，特別是加速程序執行時間，具有重要意義。然而，專門針對這一特定應用的全面綜述尚缺乏。為了解決這一空白，我們進行了一項系統的文獻綜述，分析了超過50篇核心研究，識別出新興趨勢并回答了11個專業性問題。結果揭示了五個關鍵的開放性挑戰，例如平衡模型復雜性與實際可用性、提升模型的普適性以及建立對人工智能驅動解決方案的信任。此外，我們提供了八個未來的研究方向，以促進更高效、穩健和可靠的基于語言模型的代碼優化。因此，本研究旨在為快速發展的這一領域的研究人員和從業人員提供可操作的見解和基礎性參考。

1. 引言

代碼優化，或程序優化，長期以來一直是計算領域中的一項重要任務[137]。代碼優化通過在不同層級上轉換程序——如源代碼[119]、編譯器中間表示[28]或二進制[11, 36, 78]——以實現特定的性能目標，例如減少執行時間[84]、最小化代碼大小[48, 111]或優化內存使用[39]。它支撐著廣泛的軟件工程（SE）任務，包括代碼生成[71]、代碼修復[65]、代碼編輯[51]和代碼改進[158]。

傳統上，代碼優化依賴于專家設計的啟發式方法和規則[137]。這些技術通常與基于編譯器的代碼分析[146]相結合，以捕獲程序的關鍵屬性，例如數據和控制依賴，進而識別出優化代碼的最有效方法。隨著時間的推移，已經開發出多種優化技術，涵蓋從低級策略，如指令調度[33]、寄存器分配[19]、向量化[3]和循環轉換[139]——這些通常應用于編譯器的中間表示或鏈接時優化——到更高級的策略，旨在通過在源代碼級別更改算法或數據結構來提高性能[112]。

代碼優化的一個關鍵挑戰是存在大量可能的優化方式，使得窮舉搜索在計算上是不可行的，通常需要耗費大量的計算資源來全面探索[112]。在這個龐大的優化空間中，好的優化往往是稀缺的，并且在不同的程序之間差異很大[48, 137]。對于低級性能優化，最佳優化往往依賴于底層計算硬件[26, 132]。這使得手工設計有效的優化策略變得極為具有挑戰性。即使能夠開發出一種調優良好的啟發式方法，它也可能需要隨著應用負載和計算硬件的變化而進行調整[29]。

在過去的幾十年中，已有大量研究探討了機器學習在代碼優化中的應用[7, 12, 137]。現有的證據充分表明，機器學習技術在各種代碼優化任務中具有顯著的效果[137]。更近些年，基于深度神經網絡（DNN）的語言模型（LM）和生成性人工智能（genAI）的出現，標志著這一領域的重要突破[119]。這些先進的模型在從訓練數據中提取知識并將其遷移到測試樣本中表現出了強大的能力[44]，并在性能上超越了傳統的機器學習方法[26]。它們能夠對復雜的代碼結構進行建模和推理，進一步推動了將語言模型應用于軟件工程的廣泛研究[57]，并在自動化和增強代碼優化過程中取得了良好的成果。機器學習、語言模型和代碼優化之間日益增強的協同作用，為這一領域的研究和創新開辟了新的方向。

然而，盡管基于語言模型的代碼優化在不斷增長的重要性和前景中取得了顯著進展，現有文獻中關于語言模型在代碼相關任務中的應用的綜述大多集中在它們在軟件工程中的一般應用[79]或特定領域，如自動程序修復[155]。值得注意的是，文獻中仍然存在一個重要的空白——尚沒有系統地綜述基于語言模型的代碼優化技術。正如圖1所示，本文旨在填補這一空白，提供一項系統的文獻綜述（SLR），聚焦于基于語言模型的最前沿代碼優化方法。具體來說，我們通過六個學術索引引擎進行檢索，識別并系統地回顧了53篇核心研究[1]。基于四個研究問題（RQ）和11個具體的子問題，我們對這些研究進行了分類，概括了結果中的關鍵發現，并為讀者提供了有價值的建議。例如，我們的主要發現包括：

像 GPT-4 這樣的通用語言模型（LM）被比專門用于代碼的語言模型（43個實例）更廣泛地采用（61個實例），這是由于其更廣泛的理解和推理能力。
大多數研究（57%）利用了預訓練模型，以節省時間和資源，而43%的研究通過微調模型來定制任務特定需求。
最常被提到的挑戰是性能和代碼相關的問題，例如一步優化的限制（18項研究）、平衡正確性和效率（15項研究）以及代碼語法的復雜性（10項研究）。
大多數研究通過設計專門的模型（51個實例）來解決現有挑戰，這些模型雖然有效，但缺乏通用性。提示工程（Prompt Engineering）作為第二大類（34個實例）因其數據效率而脫穎而出，盡管依賴于專家知識。另一類則通過提出新的代碼優化問題（33個實例）提供了更大的優化靈活性，但也需要大量的數據集準備工作。

此外，我們還揭示了現有文獻中的五個關鍵挑戰，并提供了未來研究的潛在方向，總結如下：

語言模型（LM）的規模和復雜性的增加要求在大規模代碼庫中進行代碼優化時，需要大量的計算資源，這就提出了模型壓縮和集成技術的需求。
基于語言模型的代碼優化方法通常在孤立的環境中操作，缺乏與外部系統的無縫集成，強調了具有主動性（agentic）的語言模型的重要性。
單語言研究的主導地位（81%）和對單一性能指標的強調（79%）凸顯了通用性問題，以及對多語言和多目標優化方法的需求。
大多數基于語言模型的方法的研究（68%）是在合成數據集上進行評估的，而不是在更大且更復雜的真實世界代碼庫上進行的，這表明需要標準化基準測試，以反映不同的真實世界場景。
語言模型常常生成不一致或幻覺化的輸出，因此人類與語言模型的協作對于利用AI的計算能力至關重要，同時確保優化結果的可信度和可靠性。

本文的其余部分安排如下：第2節闡述了代碼優化技術的演變。第3節概述了采用的系統文獻綜述（SLR）方法論。第4、5、6和7節分別展示了四個研究問題的結果和發現。第8節探討了現有的挑戰和未來方向。最后，第9節總結了本文內容。 方法論

本次調研遵循了Kitchenham和Charters[69]提出的軟件工程領域系統文獻綜述（SLR）指南，這些指南也被許多SLR研究所采納[44, 57, 134, 143, 155]。如圖4所示，研究方法包括三個關鍵階段：

搜索：進行了全面的自動化檢索，使用了精心定義的搜索字符串，遵循“準黃金標準”方法論[152]，并輔以雪球式搜索，以確保覆蓋面廣泛。
研究選擇：對檢索到的研究進行嚴格的納入和排除標準篩選，隨后進行質量評估，只包含可靠且高質量的研究。
數據收集：制定了四個主要研究問題（RQ），包含11個具體問題，以指導數據提取和分析，最終得出本次調研的主要成果。

圖5提供了所有問題的分類概述，接下來的各節將分別介紹每個研究問題的詳細分類、發現和可操作建議。

結論我們為語言模型（LMs）在代碼優化中的應用提供了一項系統的文獻綜述。我們的研究綜合了50多篇近期發表的高質量、相關的LMs在代碼優化中的研究。盡管不可能為所有的研究提供一個全面的目錄，我們盡力提供了一個全面且易于理解的綜述，涵蓋了主要的研究領域和未來的發展方向。具體來說，我們識別出五個關鍵的知識空白，這些空白可能會阻礙該領域的發展，包括平衡模型復雜性與實際應用性之間的挑戰，以及迫切需要提高模型的泛化能力和對AI驅動代碼優化的信任度。解決這些問題需要對更有效的技術進行進一步的研究，并建立標準化的評估基準。通過描繪LMs在代碼優化中不斷發展的格局，本綜述也為克服當前的局限性并加速AI驅動軟件開發的進展提供了路線圖。LMs和深度學習并不是軟件工程和代碼優化中所有挑戰的萬靈藥。LMs必須從它們提供的數據中學習，這本身塑造了它們的能力和局限性。與這些技術可能削弱軟件工程師角色的擔憂相反，它們實際上為增強創造力和探索新的研究前沿提供了機會。

付費5元查看完整內容

不確定性 · 大型語言模型 · 綜述論文 ·

2024 年 11 月 20 日

[付費5元查看完整內容]重新思考不確定性：大語言模型時代的關鍵綜述與分析

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，大語言模型（Large Language Models, LLMs）已成為廣泛人工智能應用的核心工具。隨著 LLMs 的使用范圍不斷擴展，精準評估其預測中的不確定性變得至關重要。然而，當前方法通常難以準確識別、衡量和解決真正的不確定性，許多研究主要集中在估算模型的置信度。這種差異很大程度上源于對不確定性注入模型的方式、時機和來源缺乏完整的理解。本文提出了一個專門設計的綜合框架，用于識別和理解不確定性的類型及來源，并與 LLMs 的獨特特性相契合。該框架通過系統地分類和定義每種類型的不確定性，增進了對不確定性多樣性格局的理解，為開發能夠精準量化這些不確定性的方法奠定了堅實基礎。此外，我們詳細介紹了關鍵相關概念，并深入探討了當前方法在任務關鍵型和安全敏感應用中的局限性。本文最后展望了未來研究方向，旨在提升這些方法的可靠性及其在真實場景中的實用性，從而促進其廣泛應用。

近年來，大語言模型（Large Language Models, LLMs）在復雜推理和問答任務中表現出了顯著的能力（Zhao et al., 2023; Wang et al., 2024c; Liang et al., 2022）。然而，盡管展現了巨大的潛力，LLMs 仍然面臨生成錯誤答案的重大挑戰（Ji et al., 2023a; Li et al., 2023a; Huang et al., 2023），在對高精度和高可靠性要求較高的領域，這種情況可能產生嚴重后果。LLM 輸出中信任度不足的一個核心問題在于其決策過程缺乏透明性和可解釋性（Zhou et al., 2023; Lin et al., 2023; Yin et al., 2023; Xiao & Wang, 2018; Hullermeier & Waegeman, 2021）。在這種背景下，全面理解和評估模型的不確定性至關重要。例如，在醫療領域，當醫生診斷如癌癥等關鍵病癥時，不僅需要模型提供高預測準確性，還需要明確了解預測中的不確定性（Gawlikowski et al., 2022a; Wang et al., 2022）。盡管量化 LLMs 不確定性的必要性已被廣泛認可，但對于不確定性的定義和解釋在這一新背景下仍未達成一致（Gawlikowski et al., 2022a; Mena et al., 2021; Guo et al., 2022; Hullermeier & Waegeman, 2021; Malinin & Gales, 2018），這進一步增加了其估計的復雜性。不確定性、置信度和可靠性等術語常被混用，但它們實際上代表著需要仔細區分的不同概念（Gawlikowski et al., 2021）。例如，LLM 可能對一個本質上不確定且無答案的問題生成高置信度的回應，但這種回應可能在語境上不恰當或在事實層面上不正確，這表明高置信度并不等同于低不確定性（Gawlikowski et al., 2022b）。因此，現有文獻中面臨的首個挑戰是明確 LLMs 背景下的不確定性定義，并探討這些交織概念之間的細微差別。傳統上，深度神經網絡（DNNs）中的不確定性被劃分為兩類：固有不確定性（aleatoric），由數據隨機性（如傳感器噪聲）引起；以及認知不確定性（epistemic），源于模型知識的局限性，如數據不足或未建模的復雜性（Gawlikowski et al., 2022a; Mena et al., 2021; Guo et al., 2022; Hullermeier & Waegeman, 2021; Malinin & Gales, 2018）。盡管這些分類在深度學習領域廣泛使用，但它們無法完全涵蓋 LLMs 的獨特挑戰，包括處理復雜文本數據、管理極其龐大的參數量，以及面對通常不可訪問的訓練數據。此外，LLM 生命周期的各個階段——從預訓練到推理——都會引入獨特的不確定性，而用戶與這些模型的交互同樣如此。理解這些不確定性來源，特別是從提高 LLMs 可解釋性和魯棒性的角度來看，至關重要。然而，若沒有一個包容性和細粒度的框架來系統地識別和分析 LLMs 中的不確定性來源，實現這一目標是不可能的。

近期，已有大量研究嘗試估計 LLMs 的不確定性（Manakul et al., 2023; Beigi et al., 2024; Azaria & Mitchell, 2023a; Kadavath et al., 2022; Kuhn et al., 2023），這些方法大致可以根據其基本機制分為四類：基于 logits 的方法（Lin et al., 2022b; Mielke et al., 2022a; Jiang et al., 2021; Kuhn et al., 2023）、自評估方法（Kadavath et al., 2022; Manakul et al., 2023; Lin et al., 2024a）、基于一致性的方法（Portillo Wightman et al., 2023; Wang et al., 2023），以及內部機制驅動的方法（Beigi et al., 2024）。然而，鑒于 LLMs 的獨特特性和不確定性的微妙方面，各類方法在 LLMs 背景下捕捉真正的不確定性或相關因素的有效性，以及在 LLM 生命周期不同階段中檢測到的具體不確定性來源，仍然存在關鍵問題。這些問題的回答對于開發更可靠、更全面的不確定性估計方法至關重要。

為了解決上述挑戰和問題，我們對與不確定性及其相關概念相關的研究進行了關鍵綜述和分析，旨在呈現涵蓋 LLMs 不確定性全景的綜合綜述，特別關注不確定性概念、來源、估計方法與文本數據特征之間的相互作用。據我們所知，這一領域尚缺乏類似的系統性研究**。綜上所述，本文的貢獻體現在以下幾個方面，這些貢獻具有開創性和多樣性**：

標準化了不確定性的定義，并探索了相關概念，從而促進了領域內的交流（第二節）。
首次提出了一個全面的框架，用于分析 LLM 生命周期中所有不確定性來源，深入揭示其起源及有效管理策略（第三節）。
對當前用于估計和評估 LLM 不確定性的方法進行了評估和比較，討論了它們的優缺點（第四節）。
最后，識別了增強 LLM 不確定性估計的未來研究方向，解決關鍵研究空白并探討新興趨勢，以在任務關鍵型應用中提高可靠性和準確性（第五節）。

在深度學習中，不確定性傳統上被劃分為三類：（1）模型（認知）不確定性，與模型參數估計中的不確定性相關，反映了模型擬合的能力及其對未見數據的泛化局限性（Der Kiureghian & Ditlevsen, 2009；Lahlou et al., 2023；Hullermeier & Waegeman, 2021；Malinin & Gales, 2018）；（2）數據（或固有）不確定性，源于數據本身的復雜性，例如類別重疊和各種噪聲（Der Kiureghian & Ditlevsen, 2009；Rahaman & Thiery, 2020；Wang et al., 2019；Malinin & Gales, 2018）；（3）分布不確定性，通常由于數據集分布偏移引起，當訓練和測試數據分布不同而導致模型在真實場景中面臨泛化問題（Malinin & Gales, 2018；Nandy et al., 2021；Gawlikowski et al., 2022a；Chen et al., 2019；Mena et al., 2021）。

盡管這些傳統分類在深度學習中應用廣泛，但它們無法充分應對 LLMs 所面臨的獨特挑戰。LLMs 的特點包括龐大的參數規模、復雜的文本數據處理，以及通常難以獲取的訓練數據，這些特性在模型輸出中引入了特定的不確定性。此外，與用戶在動態環境中的交互，以及數據標注或模型校準中的人為偏差，使不確定性的景觀更加復雜。與主要預測數值輸出或類別的通用深度學習模型不同，LLMs 生成的是基于知識的輸出，這些輸出可能包含不一致或過時的信息（Lin et al., 2024b）。這些特性無法通過簡單地將不確定性劃分為三種傳統類型來充分描述。

新框架：LLM 不確定性分類

為了應對這些挑戰，我們提出了一個新的框架，用于對 LLMs 中的不確定性進行分類，如圖 2 所示。該框架將不確定性區分為兩類：操作性不確定性和輸出不確定性，分別對應模型和數據處理過程以及生成內容的質量。

**1. 操作性不確定性

操作性不確定性貫穿于從預訓練到推理的整個生命周期，涵蓋數據獲取、模型和架構設計、訓練與優化過程、校準以及推理活動。這些不確定性源于以下方面：

數據處理與模型訓練：LLMs 在處理大規模數據集、輸入數據及生成文本時無法完全捕捉數據的復雜性。
輸入數據的模糊性或噪聲：輸入數據本身的不完整性或多義性增加了操作性不確定性。

**2. 輸出不確定性

輸出不確定性與生成文本的分析和解釋中的挑戰相關，具體涉及信息質量及其在決策過程中的可靠性。例如，在醫療場景中，LLM 需要根據患者癥狀提供診斷建議。若生成的建議缺乏充分的證據支持或包含矛盾信息，醫生需要判斷這些建議的可信度，這就帶來了顯著的不確定性。醫生在決定進一步調查哪種診斷時可能面臨巨大挑戰，這突顯了 LLM 提供支持充分、輸出一致且可靠內容的重要性，以確保其在決策過程中的實用性。

框架的優勢

通過區分操作性不確定性和輸出不確定性，該框架帶來了以下幾個關鍵優勢：

細粒度視角：捕捉 LLMs 的獨特特性，更精準地反映不確定性，從而有助于更好的建模與理解。
明確不確定性來源：為開發針對性的量化方法奠定基礎，能夠準確地量化各類不確定性。
針對不同角色的洞見：為開發者、用戶和管理員提供具體的指導，幫助其解決各自角色中相關的不確定性問題，從而提升模型魯棒性、用戶交互體驗和治理能力。
構建對模型輸出的信任：通過匯總多種觀點和評估輸出證據，該框架特別適用于醫療診斷或法律推理等關鍵領域，增強對 LLM 輸出的信任度。

這一框架為更深入地理解 LLMs 的不確定性提供了基礎，并為進一步提升其可靠性和實用性指明了方向。

付費5元查看完整內容

大型視覺語言模型 · 大模型攻擊 · 投毒攻擊 · 對抗攻擊 · 提示注入攻擊 ·

2024 年 7 月 11 日

[付費5元查看完整內容]大型視覺語言模型攻擊綜述：資源、進展與未來趨勢

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

近年來，隨著大型模型的顯著發展，大型視覺-語言模型（LVLMs）在各種多模態理解和推理任務中展示了卓越的能力。相比于傳統的大型語言模型（LLMs），由于更接近多資源的現實世界應用和多模態處理的復雜性，LVLMs 展示了巨大的潛力和挑戰。然而，LVLMs 的脆弱性相對較少被探索，在日常使用中可能存在潛在的安全風險。在本文中，我們對現有的各種 LVLM 攻擊形式進行了全面的回顧。具體來說，我們首先介紹了針對 LVLMs 攻擊的背景，包括攻擊的初步知識、攻擊的挑戰和攻擊資源。然后，我們系統地回顧了 LVLM 攻擊方法的發展，如操縱模型輸出的對抗攻擊，利用模型漏洞進行未授權操作的越獄攻擊，設計提示類型和模式的提示注入攻擊，以及影響模型訓練的數據投毒攻擊。最后，我們討論了未來有前景的研究方向。我們相信，我們的調查為 LVLM 脆弱性的現狀提供了洞見，激勵更多研究人員探索和緩解 LVLM 開發中的潛在安全問題。最新的 LVLM 攻擊論文會在 //github.com/liudaizong/Awesome-LVLM-Attack 持續收集。

大型視覺-語言模型（LVLMs）在各種多模態下游任務中取得了顯著成功，并展示了很有前途的能力，如文本生成圖像 [91], [102], [104]、視覺問答 [2], [61], [115] 等等，這得益于數據量、計算資源和模型參數數量的增加。通過進一步利用大型語言模型（LLMs）[56], [63], [71], [94], [112], [143] 的強大理解能力，最近的 LVLMs [33], [75], [144] 基于 LLMs 展示出在解決復雜視覺-語言任務方面的優異表現，利用了適當的人類指令提示。盡管 LVLMs 具有顯著的能力，但其復雜性和部署的增加也暴露了其面臨的各種安全威脅和脆弱性，使得對這些模型攻擊的研究成為一個重要的研究領域。 一般來說，LVLMs 通過使用預訓練的視覺編碼器與語言模型結合，具備處理視覺信息和自然語言理解的能力。由于這種多模態特性，LVLMs 特別容易受到攻擊，因為多模態整合不僅放大了它們的脆弱性，還引入了在單模態系統中不存在的新攻擊向量。例如，視覺領域中的對抗樣本，通過細微改變圖像來欺騙模型，可以擴展到多模態場景中，在圖像和文本輸入都被操縱的情況下。類似地，針對語言理解組件的攻擊，如惡意設計的提示詞，當與視覺輸入結合時，可以破壞模型輸出的完整性。因此，有必要探索 LVLM 模型的潛在攻擊的安全性。 在過去的兩年中，有很多關于 LVLM 攻擊的論文提出。然而，如圖 1 所示，現有的 LVLM 攻擊發展多種多樣，從對抗攻擊、越獄攻擊、提示注入和數據投毒/后門攻擊到更微妙的形式，如偏見操縱和隱私泄露。具體來說，對抗攻擊是故意擾亂輸入以導致錯誤輸出，可能導致錯誤分類或錯誤的圖像描述，這在自動駕駛 [88], [106], [135] 或醫療診斷 [11], [68] 等應用中構成顯著風險。越獄攻擊利用模型的弱點繞過其預定限制，可能導致執行未授權命令或訪問敏感信息。提示注入攻擊通過操縱模型的提示輸入來改變其行為或輸出，這在依賴精確和準確響應的系統中特別危險。數據投毒，即篡改訓練數據，可能破壞模型的性能和可靠性。因此，對現有 LVLM 攻擊進行全面系統的回顧是必要的。 進行這項調查的動機。在過去的兩年中，提出了大量 LVLM 攻擊方法，并取得了相當的對抗性能。然而，這些方法的可用性很容易使研究人員或從業者在嘗試選擇或比較適用于手頭具體問題的算法時感到困惑。因此，有必要編寫一篇全面系統的調查，以供參考。盡管有少量針對大模型攻擊的相關調查論文，但我們在表 I 中列出了這些論文，并認為它們未能從完整的視角總結現有 LVLM 攻擊方法的全部類別和詳細發展。特別是，Chowdhury 等人 [29] 通過提供不同的文本提示修改策略，對 LLM 攻擊進行了調查，但在多模態場景中缺乏對更復雜 LVLM 的普遍性。劉等 [77] 是第一篇討論 LVLM 研究高層次安全問題的調查，但該文中提出的分類相對不完整和粗略。Fan 等 [38] 只總結了現有的基于圖像的 LVLM 攻擊方法，無法很好地涵蓋各種模態類型的 LVLM 攻擊方法（如文本提示注入）。因此，缺少對現有 LVLM 攻擊方法的全面回顧。 我們希望通過本調查論文能夠完整系統地梳理現有的 LVLM 攻擊方法，并以清晰的方式呈現出來。特別是，我們的調查涵蓋了 LVLM 攻擊的最新進展。首先，我們仔細整理了準備特定類型 LVLM 攻擊的基本背景知識。然后，我們全面總結了不同類型的 LVLM 攻擊方法，通過抽象出所有方法的共性，建立一個更全面的分類體系，并提出更具體和有前景的未來研究方向。通過這樣的視角，信息豐富的從業者可以自信地評估各種 LVLM 攻擊的權衡，并在使用一系列技術設計所需的 LVLM 攻擊時做出明智的決策。同時，系統開發者也可以認識到現有 LVLM 攻擊的局限性，并設計相應的防御策略，以提高模型的魯棒性。 進行這項調查的貢獻。我們的調查主要貢獻可以總結為三點：

據我們所知，這是第一篇全面概述 LVLM 攻擊現狀的調查，包括單模態和多模態攻擊方法。我們對不同類型的攻擊進行分類和檢查，突出了它們的方法、影響和所利用的潛在漏洞。通過揭示這些挑戰，這項調查強調了強大安全措施的重要性以及在不斷變化的威脅中保護 LVLMs 的持續進步的必要性。
除了總結 LVLM 攻擊方法外，我們還仔細提供了通用 LVLM 攻擊的詳細背景： (1) 如何定義 LVLM 攻擊？ (2) 實施 LVLM 攻擊常用的工具有哪些？ (3) 應如何使用和處理 LVLM 數據？ (4) 如何在不同設置下評估攻擊性能？
提供了全面的方法比較和討論，幫助讀者更好地理解相應的攻擊架構。我們還概述了 LVLM 攻擊的潛在未來方向。 我們的調查組織如下。第二部分，我們提供了通用 LVLM 攻擊的詳細背景，包括攻擊初步知識、現有挑戰和攻擊資源。第三部分將現有攻擊方法分類為四類，即對抗攻擊、越獄攻擊、提示注入攻擊和數據投毒/后門攻擊，并討論它們的優缺點。第四部分，我們概述了未來的研究方向。最后，第五部分總結了本文。

**方法 **

現有的 LVLM 攻擊者通常可以分為四類：對抗攻擊、越獄攻擊、提示注入攻擊和數據投毒/后門攻擊。對于對抗攻擊，它們利用梯度優化噪聲，以一種對人類來說通常是不可察覺的方式擾亂輸入數據，但卻導致模型產生不正確或不理想的輸出。這些擾動是精心設計的，旨在利用模型的脆弱性。對于越獄攻擊，它們利用模型中的弱點繞過其預定的限制和控制。這種類型的攻擊可能導致模型執行未經授權的命令、訪問受限數據或執行超出其設計能力的操作。對于提示注入攻擊，它們通過操縱模型的輸入提示來以意想不到的方式改變其行為或輸出。通過注入惡意或誤導性提示，攻擊者可以引導模型生成不正確、偏見或有害的響應。對于數據投毒/后門攻擊，攻擊者篡改訓練數據以破壞模型的性能和可靠性。在這些攻擊中，惡意數據被插入訓練數據集中，導致模型學習和傳播錯誤的模式。特別是，后門攻擊通常涉及在數據訓練中嵌入隱藏觸發器。當觸發器被激活時，會導致模型以特定和有害的方式行為。基于上述攻擊者的動機和架構，我們提出了圖 2 中的分類法來分類 LVLM 攻擊方法。接下來，我們將按照此分類法回顧現有的研究工作，并討論每種方法類別的特征。

** **

**未來方向 **

盡管當前的研究已經識別并探索了大型視覺-語言模型（LVLMs）上的各種攻擊方法，但我們期望未來在潛在 LVLM 攻擊方面取得更多進展。未來的研究應深入了解和開發新穎的攻擊方法，以全面評估和提高這些模型的魯棒性。未來研究的關鍵領域包括：

現有的 LVLM 攻擊者通常依賴于受害模型的詳細先驗知識，并且是任務特定的，導致設計擾動的成本顯著。然而，大多數現實世界的 LVLM 應用不會向用戶公開其模型細節。
大多數 LVLM 攻擊者生成針對特定受害模型的對抗樣本，這可能傾向于過擬合目標網絡，但一旦轉移到攻擊不同的受害模型時，很難保持惡意性。
在現有的 LVLM 攻擊中，擾動分別隱藏在不同的模態中。然而，多模態擾動之間的相互作用仍然未被充分探索。
LVLM 模型嚴重依賴于訓練數據的質量。因此，研究如何通過有針對性的操縱而無需直接的對抗輸入來放大訓練數據中的現有偏見是一個有前景的方向。
隨著 LVLMs 日益復雜并集成到各種應用中，潛在攻擊的復雜性也在增加。結合人類智能與 AI 能力為揭示和利用這些系統中的脆弱性提供了有力的方法。
現有的 LVLM 攻擊者在不同的模型和數據集上使用不同的指標評估其方法，使得研究人員難以進行統一比較。因此，有必要開發全面的基準和評估工具，以評估不同攻擊的質量。

在本節中，我們將描述以下主題。 A. 提高攻擊的實用性現有的 LVLM 攻擊方法嚴重依賴于先驗模型知識，使得攻擊的實用性較低。然而，在現實情況下，攻擊者只能查詢 LVLMs 以獲得相應的輸出結果，這使得在優化過程中很難在正確的優化方向上引導對抗擾動。此外，這些針對 LVLMs 的攻擊者只能生成對抗樣本來欺騙單個過程中的特定下游任務。因此，為了破壞不同的下游任務，他們必須為每個任務生成不同的對抗擾動，這會耗費大量時間和資源。因此，有必要設計一種通用擾動，通過僅查詢 LVLM 模型來跨不同任務和樣本使用。實現通用攻擊的潛在解決方案是將先前基于圖像的策略[20], [87] 應用于多模態任務。通過對多個任務和輸入進行對抗訓練通用擾動，攻擊在各種 LVLM 模型中更具實用性。此外，為了處理梯度估計，可以采用硬標簽策略[26], [27] 通過僅查詢模型來獲得梯度。 B. 自適應和可遷移攻擊一種穩健的攻擊應減少對特定受害網絡的依賴，并更好地泛化到不同的網絡。因此，研究對抗攻擊如何在不同的 LVLMs 之間轉移或隨時間自適應也很重要。然而，現有的 LVLM 攻擊者未能考慮這種特性，而是直接生成特定于某個受害模型的對抗樣本。為了提高生成的對抗樣本的可遷移性，我們建議幾種設計思路：一方面，攻擊者可以遵循集成學習[35], [97]，聯合學習攻擊多個 LVLM 模型。這樣，梯度可以指向多個模型之間的全局對抗性方向。另一方面，有許多基于圖像的工作[123], [125], [138] 被提出以提高對抗圖像的可遷移性。通過適當地將這些策略應用于 LVLM 模型中的特定設計，攻擊者也可以生成可遷移的對抗樣本。總體而言，理解對抗樣本在不同模型和任務之間的可遷移性有助于開發通用的攻擊方法。 C. 跨模態對抗樣本盡管在單個模態（視覺或語言）中設計對抗攻擊取得了很大進展，但模態之間的交互仍未被充分探索。現有的攻擊者通常將不同模態的擾動視為不同的，并分別設計它們。然而，這將導致擾動多模態輸入之間的交互關系較少，并且容易被安全對齊系統識別。因此，未來的工作應探索新的方法，同時擾動視覺和文本輸入并具有強關聯性。這包括研究模態之間的交互和依賴關系，以創建更有效的跨模態攻擊，從而躲避當前的防御。潛在的解決方案可以利用多鍵策略[118]或多模態對比學習[12]來增強多模態擾動之間的關系，以共同控制攻擊。 D. 基于數據偏見的攻擊現有的 LVLM 模型數據需求量大，需要大量完全標注的數據進行訓練。因此，LVLMs 容易繼承并甚至放大其訓練數據中的偏見。未來的研究可以集中于理解、識別和緩解這些偏見，以確保公平和公正的結果。例如，可以開發偏見放大攻擊[14], [85] 來研究如何通過有針對性的操縱放大訓練數據中的現有偏見。這涉及創建利用這些偏見的輸入，以生成偏斜或有害的輸出，從而突出并加劇模型的內在弱點。具體來說，受此啟發，我們可以首先研究偏見在訓練和推理過程中如何通過 LVLMs 傳播和放大，然后開發技術來創建利用和放大這些偏見的輸入，以更好地了解其影響。此外，潛意識操縱攻擊[141]也是一種有前景的方法，用于開發在沒有直接對抗輸入的情況下微妙地影響模型行為的方法，例如通過在訓練期間引入不可察覺的偏見，影響模型在特定未預期方式中的決策過程。通常研究在訓練期間如何引入微小且不可察覺的偏見，這些偏見僅在特定條件下顯現。 E. 人工智能與人類協作的攻擊現有的 LVLM 攻擊完全基于數字環境開發。然而，除了模型的輸入和輸出，現實世界的應用還具有允許人與 LVLM 系統互動的能力。因此，結合人類智能與 AI 能力為實施攻擊提供了有力的方法。這里，我們將簡單介紹兩種代表性的攻擊視角：(1) 人機協作攻擊[16], [60]：探索人類在環中的攻擊策略的潛力，將人類專長與 AI 工具結合，以設計更復雜和有效的攻擊。這涉及利用人類的直覺和創造力，識別和利用自動化方法可能遺漏的模型弱點。特別是，開發人類攻擊者在 AI 工具的協助下迭代優化對抗輸入的框架。這可以包括人類設計初始攻擊向量，然后由 AI 系統優化以達到最大效果。(2) 社會工程與操縱[48], [86]：這種類型的攻擊研究如何將社會工程技術與對 LVLMs 的技術攻擊結合。它包括研究如何基于社會背景或用戶行為設計操縱輸入，以欺騙模型及其用戶。 F. 綜合基準和評估為了確保 LVLM 模型對各種攻擊方法的魯棒性和安全性，全面的基準和評估框架是必不可少的。這些框架不僅有助于評估 LVLMs 當前對攻擊的抵御能力，還能指導開發更魯棒的模型。未來在這一領域的研究可以集中在以下關鍵方面：(1) 標準化攻擊基準[54]：開發全面的基準來評估各種攻擊策略對 LVLMs 的有效性。這些基準應包括多種攻擊類型、場景和指標，以提供模型魯棒性的整體評估。(2) 持續評估框架[58]：開發持續集成和測試管道，定期評估 LVLMs 對最新已知攻擊的抵御能力。這些管道應自動更新新的攻擊方法和數據集，以確保模型持續進行魯棒性測試。(3) 綜合攻擊分類法[19]：創建詳細的分類法，根據攻擊的特征進行分類，例如其目標模態（視覺、語言或兩者）、執行方法（例如對抗樣本、數據投毒、模型反演）及其影響。(4) 魯棒性指標和評估標準[83]：開發和標準化量化 LVLMs 對各種攻擊抵御能力的魯棒性指標。這些指標應捕捉攻擊的嚴重性以及模型在各種攻擊下的性能。

通過在這些領域擴展研究，社區可以更深入地了解 LVLM 模型的脆弱性，并開發更有效的策略來評估和增強其安全性。這種前瞻性的方法對于確保 LVLMs 在各種現實應用中的安全可靠部署至關重要。

**結論 **

總體而言，這篇綜述論文全面概述了 LVLM 攻擊的研究，旨在幫助研究人員了解該領域。首先，我們介紹了 LVLM 攻擊的背景，包括一般 LVLM 攻擊的初步知識、實施 LVLM 攻擊的挑戰以及當前的 LVLM 攻擊資源，如數據集、模型和評估指標。有了這些先驗知識，研究人員可以輕松開始探索，并迅速了解 LVLM 攻擊。然后，我們總結并分類了現有的 LVLM 攻擊文獻，提出了一個新穎的分類法，即對抗攻擊、越獄攻擊、提示注入攻擊和數據投毒/后門攻擊，以幫助理清其發展脈絡。最后，我們指出了幾個有前景的 LVLM 攻擊未來研究機會。我們希望這篇綜述能為研究人員提供見解，并吸引更多研究人員為這一領域做出貢獻。

付費5元查看完整內容

邊緣人工智能 · 分類法 ·

2024 年 7 月 8 日

[付費5元查看完整內容]邊緣人工智能：分類法、系統綜述及未來方向

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

邊緣人工智能（AI）包括一個由互聯系統和設備組成的網絡，這些系統和設備接收、緩存、處理和分析與數據捕獲位置密切相關的數據。近年來，AI效率的提升、物聯網（IoT）設備的廣泛使用以及邊緣計算的興起，揭示了邊緣AI的巨大潛力。邊緣AI的目標是優化數據處理的效率和速度，同時確保數據的機密性和完整性。盡管這一研究領域相對較新，從2014年開始到現在，但在過去五年中已經顯示出顯著和快速的發展。在本文中，我們對邊緣AI進行了系統的文獻綜述，討論了現有研究、最新進展和未來的研究方向。我們創建了一個用于云和邊緣計算分析的協作邊緣AI學習系統，包括對支持這一機制的架構的深入研究。邊緣AI的分類法有助于邊緣AI系統的分類和配置，同時還考察了其在基礎設施、云計算、霧計算、服務、使用案例、機器學習和深度學習以及資源管理等諸多領域的潛在影響。本研究強調了邊緣AI在網絡邊緣處理實時數據的重要性。此外，它還突出了邊緣AI系統面臨的研究挑戰，包括資源限制、安全威脅的脆弱性以及可擴展性問題。最后，本研究強調了旨在通過提供創新解決方案來解決邊緣AI當前局限性的潛在未來研究方向。

關鍵詞：邊緣計算、人工智能、云計算、機器學習、邊緣AI

I. 介紹

近年來，人工智能（AI）效率的提升、物聯網（IoT）設備的采用以及邊緣計算能力的增強，正在共同釋放邊緣人工智能（Edge AI）的潛力【1】。眾多分析師和企業正在討論和實施邊緣計算，其起源可以追溯到20世紀90年代，當時位于客戶附近的邊緣服務器被用于通過內容分發網絡提供網頁和視頻內容【2】。在這一邊緣AI中，邊緣計算是一種范式轉換，它將數據存儲和處理更接近數據源，從而提高響應時間并減少帶寬使用。與傳統云計算不同的是，邊緣計算在網絡的邊緣處理數據【3】。這種接近性降低了延遲，提高了實時數據處理能力，并支持IoT設備和服務的擴展【4】。邊緣計算的主要優勢包括服務靈活性提高、低延遲、增強的一致性以及消除單點故障，使其在智能城市、自主車輛和工業自動化應用中高度相關【5】。通過地理分布計算資源，邊緣計算確保數據處理發生在數據源附近，滿足實時分析和決策的需求。

另一方面，AI包含廣泛的技術和方法，使機器能夠執行通常需要人類智能的任務，如學習、推理和自我糾正【6】。AI的應用涉及多個領域，包括醫療、金融、交通等，在這些領域，AI用于分析大型數據集、自動化任務和提供預測性見解【7】。將AI整合到不同部門中，已經通過提高效率、改進決策和創造創新機會，徹底改變了流程。隨著機器學習（ML）或深度學習（DL）的改進，AI方法在執行需要人類認知功能的復雜任務方面變得越來越有能力【8】。特別是涉及神經網絡的AI算法在圖像和語音識別、自動駕駛和預測性維護等領域取得了顯著成功。

**A. 用于AI的邊緣計算

邊緣計算與AI的融合涉及在用戶設備上處理AI算法，提供如降低延遲、能源效率和實時應用等益處。這種集成允許在源頭進行實時數據處理和決策，顯著減少延遲和帶寬使用【9】。邊緣計算與AI的結合使得更智能和更靈敏的應用成為可能，如自主車輛、工業物聯網、智能家居系統等。通過利用邊緣AI，組織可以實現更高的效率、增強的隱私和更快的洞察力，推動各個領域的創新【10】。邊緣AI是指在網絡邊緣集成AI功能，使邊緣設備具備分布式智能。其目的是改善網絡連接性，支持具有定義質量目標的AI流水線部署，并允許數據驅動應用的適應【11】。在邊緣嵌入AI功能解決了基于云處理IoT的局限性，如隱私問題和網絡連接問題。邊緣AI的部署增強了對延遲敏感的任務，并減少了網絡擁塞，提高了無線網絡的效率和安全性。

此外，基于AI的技術在解決邊緣環境中的服務質量（QoS）感知調度和資源分配挑戰方面起著至關重要的作用，確保服務質量和用戶體驗。邊緣AI支持作為服務的AI（AIaaS）部署，具有可配置的模型復雜性和數據質量，提高了性能并降低了成本【12】【13】。這種創新方法通過在邊緣利用AI功能，支持智能安全應用并增強分布式系統的安全措施。邊緣智能，一種有前途的技術，通過將計算從云服務器轉移到IoT邊緣設備，賦能實時應用，創造了擁有廣闊可能性的智能企業【14】。在邊緣而非集中位置利用AI，釋放了與IoT設備和邊緣計算結合的AI潛力，在資源受限的邊緣設備上部署AI算法，用于各種應用如自主車輛、醫療保健和監控。邊緣AI的重要性在于它能夠在不將大量數據發送到多個集中位置的情況下提供即時的洞察和行動【15】。這種能力在延遲和帶寬是重大限制的情況下尤為關鍵，如在自主駕駛中，必須實時做出決策，或在醫療保健中，必須快速處理患者數據以提供及時的干預【16】。邊緣AI的崛起也得益于硬件的進步，如更強大和高效能的處理器，使得在智能手機和IoT傳感器等設備上運行復雜的AI模型成為可能【17】。

**B. 動機和貢獻

將邊緣計算與AI結合的動機是多方面的，主要驅動因素是實時處理數據的迫切需求以及解決集中云計算系統固有局限性【18】。隨著連接設備數量的指數級增長和數據量的激增，傳統的云中心模型越來越多地面臨如延遲、帶寬限制和顯著的數據隱私問題。邊緣AI作為解決這些挑戰的關鍵方案，倡導本地化數據處理【19】。這種轉變不僅減少了對遠程云基礎設施的依賴，從而大幅降低延遲，還顯著增強了應用對實時數據輸入的響應能力。這種范式轉變對于推動需要瞬時數據分析和決策的下一代技術發展尤為重要，涵蓋了如自主車輛、智能城市基礎設施和尖端醫療系統等領域。

此外，邊緣AI使得即使在稀疏連接的情況下，應用也能高效運行，通過在源頭直接處理數據。這種能力在遠程或高度移動的環境中至關重要，在這些環境中，持續和可靠的互聯網訪問并不總是有保障的【20】。通過現場處理數據，邊緣AI顯著增強了數據隱私和安全措施，減少了將敏感信息傳輸到遠程服務器的需求。在如醫療和金融等領域，數據的機密性和完整性至關重要，這一特性尤為關鍵。邊緣AI還通過減少需要通過網絡傳輸的數據量，支持帶寬效率，是數據密集型應用的經濟選擇【21】。這種效率不僅降低了運營成本，還緩解了網絡擁堵，促進了更順暢和可靠的數據流。可擴展性是邊緣AI提供的另一個重要優勢【6】。隨著設備網絡的擴展，邊緣計算允許無縫擴展，而不會因集中處理能力的瓶頸而受限，使企業和技術能夠在不受基礎設施限制的情況下增長。

總的來說，邊緣計算與AI的結合不僅是技術進步，也是滿足現代應用動態需求的戰略必要。通過提倡降低延遲、增強隱私和安全、提高帶寬效率和可擴展性，邊緣AI將徹底改變數據驅動決策的方式，迎來一個高效且以隱私為中心的智能時代。

本文的主要貢獻是：

我們提供了對邊緣AI的全面介紹，涵蓋其歷史、挑戰和前景。
我們進行了系統的文獻綜述，基于多個應用領域對邊緣AI研究進行了詳盡的審查，突出當前趨勢和未來可能的方向。
我們提出了一個邊緣AI的分類法，有助于邊緣AI系統的分類和排列，并通過各種應用探索其跨學科的潛在影響。
我們強調了邊緣AI在網絡邊緣實時處理數據的重要性，同時指出了邊緣AI系統面臨的挑戰，如資源限制、安全風險和擴展問題。
我們提出了旨在通過提供創新解決方案和未來研究機會來解決邊緣AI當前局限性的有前途的未來方向。

****

**C. 文章組織結構

第二部分討論了一個相關的調查，重點關注與邊緣AI集成的不同應用中的算法、優化技術、安全和隱私問題。第三部分介紹了邊緣AI的背景和現狀。第四部分詳細描述了采用的審查方法。第五部分概述了涵蓋基礎設施、云計算、霧計算、服務、用例、機器學習和深度學習以及資源管理的分類法。第六部分基于分類法比較了現有的邊緣AI實現。第七部分呈現了分析和獲得的結果，并在第八部分討論了未來的研究方向。最后，第九部分總結了這項調查。

邊緣AI：背景與現狀

本節為讀者解釋了與邊緣AI背景和現狀相關的一些概念。子節III-A解釋了邊緣計算及其歷史起源。子節III-B提供了有關AI與邊緣技術整合的信息。接下來通過子節III-C和子節III-D分別解釋邊緣AI應用和挑戰。

**A. 邊緣計算的歷史起源

邊緣計算的概念是一種范式，將計算資源更接近數據源，而不是通過遠程服務器提供服務的云計算【51】。這樣可以在如今需要處理大量數據的世界中減少不必要的帶寬占用和延遲問題【52】。為了理解邊緣計算的出現，更有用的是考察之前的范式，如云計算和霧計算。圖1顯示了云計算、霧計算和邊緣計算各自的優點及其層次安排。現在簡要介紹這些概念：

云計算：云計算是一種可以追溯到1970年代的范式，指的是用戶通過互聯網在服務器上使用公共計算資源【53】。今天，主要由大公司如微軟Azure、谷歌云平臺和IBM云提供給用戶的各種服務模式。云計算的優點如下【54】：
高處理能力和集中存儲，使用戶可以輕松訪問資源，只要有互聯網。這減少了用戶的數據丟失風險，并為用戶提供了從任何有互聯網的地方工作的自由。
可擴展性，如果計算資源需求增加（需求波動），云計算通過擴展資源提供更多的處理能力和存儲服務。這樣，保證了SLA和QoS等性能指標。
按使用付費，通過云計算提供的無服務器（功能即服務（FaaS）+ 后端即服務（BaaS））服務模式，用戶只為使用的計算資源付費。這樣提供了一種經濟的模式，吸引更多用戶。
霧計算：霧計算的概念由思科在2012年提出【55】。這種范式建議將計算資源更接近網絡的終端（如路由器和網關），以減少云計算中的延遲和帶寬問題。當查看圖1時，霧計算作為云和邊緣之間的一層。霧計算的優點如下【56】：
由于將計算資源更接近網絡邊緣，霧計算的延遲低于云計算。
作為云和終端設備之間的一層，通過處理部分需要發送到云的大量數據，減少不必要的帶寬使用。
邊緣計算：物聯網和傳感器技術的發展使得需要處理的數據量增加到巨大的水平。在云計算資源上處理所有這些數據可能導致不必要的帶寬占用和延遲問題。因此，邊緣計算的概念作為一種通過在數據源附近處理數據來優化延遲和帶寬使用的范式應運而生【57】。此外，邊緣計算是解決霧計算所帶來的復雜性、安全性和管理挑戰（額外一層）的良好解決方案【58】。邊緣計算的優點如下【59】：
通過將數據處理移到網絡邊緣，減少延遲和帶寬使用，
相比霧計算，提供了如更少的復雜性和更好的安全性等優點。

**B. AI與邊緣技術的整合

將AI與邊緣計算的概念結合起來是最近的熱門話題之一。圖2顯示了一個解釋邊緣AI概念的主要圖示。邊緣AI是在靠近數據源的邊緣節點（物聯網和移動設備）上分布處理AI算法數據，而不是在集中式云平臺上處理數據【60】。這兩種技術提供的優點如下【6】：

在如低延遲、時間敏感的自主車輛和監測患者的電子健康等應用中，延遲量至關重要。通過邊緣和AI整合，可以通過實時處理數據來克服這個問題。
在數據安全方面，由于數據將在靠近源的點進行處理，敏感數據如生物特征數據將在網絡內的本地設備上處理。這樣可以消除如數據泄漏等安全隱患。
可擴展資源，邊緣范式由由同質或異質設備組成的節點組成。這樣，可以根據處理能力需求進行任務調度。

**C. 邊緣AI應用

由邊緣和AI概念結合創建的邊緣AI應用比基于云的AI應用提供了更低的延遲和更高的安全性。圖3展示了其中一些應用。讓我們解釋這些應用：

醫療保健：邊緣AI應用基于在網絡邊緣的分布式AI模型中處理從可穿戴設備收集的數據。此外，使用便攜式醫學成像技術進行的早期診斷研究可以作為例子【54】。
智能停車：隨著交通工具的增加，停車已成為一個大問題，特別是在大城市。可以利用傳感器和物聯網的幫助解決這些問題的邊緣AI解決方案【61】。
智能家居：用于現代家庭的解決方案如家庭照明系統和智能冰箱可以作為這些應用的例子。通過防止城市中不必要的電力消耗，可以優化能源消耗【56】。
計算機視覺：邊緣AI可以使用如生物特征認證的方法識別人員【51】。此外，邊緣AI在需要實時決策的工業應用中提供了巨大優勢【58】。
網絡安全：可以使用基于邊緣AI的安全應用檢測未經授權的訪問、可疑物品和持武人員。此外，可以通過檢測網絡上的可疑流量來進行異常檢測，以防止網絡攻擊【62】。
交通運輸：可以將基于邊緣AI的解決方案用于現代復雜的交通信號燈操作【63】。

**D. 邊緣AI實施挑戰

結合邊緣和AI而產生的邊緣AI帶來了其提供的優點，但也帶來了仍需解決的挑戰。這些挑戰顯示在圖4中。讓我們解釋這些挑戰：

能效：邊緣設備通常由具有低處理和存儲能力的同質和異質設備組成。需要自然語言處理（NLP）和密集圖像處理的應用將導致邊緣設備上過度的資源消耗【64】。因此，需要如專用AI芯片或任務工程等新解決方案。
維護和更新：由于邊緣設備由分布在不同位置的設備組成，這意味著黑客的更多攻擊目標【65】。此外，邊緣節點中的所有設備并非都是同質結構，這意味著每個節點需要單獨的系統維護和更新【66】。可以采取如自動更新等措施來解決這些問題。
可擴展性：由于邊緣設備通常由異質設備組成，將單個應用分配到不同設備仍然是一個挑戰（任務調度等）【67】。此外，難以在所有設備之間同步數據。可以使用有效的微服務架構和負載均衡算法來防止節點過載，解決這個問題。

付費5元查看完整內容

目標檢測 · 開放環境 · 計算機視覺 ·

2024 年 3 月 28 日

[付費5元查看完整內容]開放環境目標檢測：挑戰、解決方案與展望

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著基礎模型的出現，基于深度學習的目標檢測器在封閉集場景中展現出了實際的可用性。然而，對于現實世界的任務而言，目標檢測器往往在開放環境中運作，其中影響模型學習的關鍵因素（例如，數據分布、目標）經常在變化。開放環境的動態復雜性給目標檢測器帶來了新穎而巨大的挑戰。不幸的是，當前對開放環境中目標檢測器的研究缺乏對它們獨特特性、挑戰及相應解決方案的全面分析，這阻礙了它們在關鍵的現實世界場景中的安全部署。本文旨在通過對開放環境中目標檢測器進行全面的綜述和分析來彌補這一差距。我們最初識別了現有檢測管道內關鍵結構組件的局限性，并提出了包括四個象限（即，領域外、類別外、魯棒學習和增量學習）的開放環境目標檢測器挑戰框架，基于數據/目標變化的維度。對于提出框架中的每一個挑戰象限，我們提供了詳細的描述和系統的分析，概括了總體目標和核心難點，系統地回顧了相應的解決方案，并在多個廣泛采用的數據集上對它們的性能進行了基準測試。此外，我們還討論了開放問題和未來研究的潛在途徑。本文旨在提供一個新鮮的、全面的、系統的對開放環境目標檢測器的挑戰與解決方案的理解，從而催化更加堅固的應用在現實世界場景中的發展。與此綜述相關的項目可以在 //github.com/LiangSiyuan21/OEOD_Survey 找到。

目標檢測作為計算機視覺中的基礎任務之一，通過預測給定圖像中視覺對象的位置和類別來識別實例。隨著深度神經網絡的發展，尤其是基礎模型的出現，深度目標檢測[1]、[2]、[3]受到了廣泛關注，并成為自動駕駛[4]、醫療保健[5]、人臉檢測[6]、[7]等各個應用領域的基礎構件。特別是，深度目標檢測器的有效性主要依賴于閉集假設，即有限、已知和定義良好的結構[8]。例如，用于訓練和測試的數據滿足相同的分布，學習過程針對不變的目標任務（良性示例上的標簽分類和位置回歸）進行優化。由于日益具有挑戰性的任務的驅動，實際深度檢測器應用場景的環境從閉合逐漸演變為開放[8]。在開放環境中，模型學習過程的關鍵因素（例如，數據分布和目標任務）可能隨著時間和周圍環境發生動態變化。例如，開放環境可能在測試期間引入模型在訓練期間未遇到的新類別，甚至帶有可能干擾模型決策的噪聲。開放環境設置緊密地反映了現實世界情況，要求深度檢測器展現出增強的魯棒性和可擴展性，有效地應對未預見的變化和挑戰。

一些綜述專門關注了深度目標檢測器面臨開放環境中特定挑戰時的性能，如域適應問題[9]。更多相關綜述可以在附錄材料A中找到。然而，仍然不存在對開放環境中目標檢測器的獨特特性、挑戰及相應解決方案進行全面和整體分析的研究，這阻礙了它們在關鍵的現實世界場景中的安全部署。這篇綜述通過全面檢查開放環境中的目標檢測器，強調深度檢測模型對數據變異性和目標變化的韌性，彌補了這一差距。特別地，我們首先進行結構分析，以識別現有檢測管道內的脆弱性。隨后，我們提出了一個四象限分類框架，清晰地展示了這些挑戰在數據變化和目標變化兩個維度上的相互作用和區別，分別在水平軸和垂直軸上表示。通過界定每個象限，我們提供了對每個特定上下文中深度目標檢測器的公式、挑戰和潛在解決方案的詳細分析。我們還定量基準測試并討論了在多個廣泛采用的檢測數據集上回顧的方法。此外，我們強調了每個問題領域的前瞻性研究方向，并強調加強這些挑戰之間聯系的重要性。圖1中展示的研究趨勢突顯了研究者在這一領域的日益增長的興趣和積極參與。這強調了我們對開放環境中目標檢測的詳細回顧的重要性，旨在闡明和解決目標檢測器面臨的挑戰，并鼓勵在現實世界中的創新解決方案。我們的貢獻可以總結如下：

這項綜述首次開發了一個四象限分類法，涵蓋了開放環境中目標檢測器面臨的主要挑戰。此外，我們的分析深入探討了深度目標檢測架構的脆弱性，闡明了模塊之間與挑戰之間的關系。

基于挑戰框架，我們強調了開放環境目標檢測器的四個關鍵目標，并對特定問題及其相關解決方案進行了深入的審視。

我們還定量基準測試了回顧的方法在多個廣泛采用的檢測數據集上，并探索了開放環境目標檢測未來發展的潛在方向。

本文的其余部分組織如下。第2節描述了深度目標檢測器的發展趨勢并介紹了開放環境問題。第3節分析了現有檢測器每個組件的脆弱性以及在開放環境中的總體目標。第4、5、6和7節分別詳細介紹了領域外、類別外、魯棒學習和增量學習在開放環境中的挑戰、困難和解決方案。第8節總結并基準測試了現有方法在多個數據集上的性能。第9節總結了這項工作并討論了幾個潛在的研究方向。

付費5元查看完整內容

分布外泛化 · 機器學習 · 分布外泛化評估 ·

2024 年 3 月 6 日

[付費5元查看完整內容]《分布外泛化評估》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

機器學習模型雖然日益先進，但在很大程度上依賴于獨立同分布（IID）假設，這一假設在實際中往往得不到滿足，因為不可避免的分布偏移。這使得它們在風險敏感的應用部署中顯得脆弱且不可信。這一重大問題因此催生了各種旨在開發能夠進行分布外（Out-of-Distribution, OOD）泛化的算法的研究分支。盡管有這些努力，但對分布外泛化的評估卻鮮有關注，這同樣是一個復雜且基礎的問題。其目標不僅是評估一個模型的分布外泛化能力是否強大，而且還要評估一個模型在哪些地方泛化得好或泛化得差。這需要描述模型可以有效解決的分布偏移類型，并確定給定模型的安全和風險輸入區域。本文是進行分布外評估綜述的第一次嘗試。我們根據測試數據的可用性，將現有研究歸類為三種范式：分布外性能測試、分布外性能預測和分布外內在屬性表征。此外，我們還簡要討論了在預訓練模型上進行分布外評估的背景。最后，我們提出了分布外評估未來研究的幾個有希望的方向。

在過去的十年中，機器學習領域發生了重大進展。在數據和計算資源的指數級增長的推動下，神經網絡在包括但不限于計算機視覺[1]、自然語言處理[2]和推薦系統[3]等廣泛的應用領域取得了驚人的性能。盡管取得了顯著進展，但我們必須承認，現有的機器學習算法和模型仍然面臨著幾個持續存在的挑戰，這些挑戰極大地削弱了它們的可靠性和信任度。這些挑戰包括隱私泄露[4]、黑盒模型的弱可解釋性[5]、在對抗性攻擊下的脆弱性[6]，以及面對分布偏移時泛化性能的顯著下降[7]。上述挑戰對當前機器學習算法的廣泛應用構成了實質性的障礙，特別是在高風險敏感性領域。典型例子包括法律[8]（公平和公正至關重要）、醫療保健[9]（患者福祉至上）和自動駕駛[10]（人類生命取決于這些算法的性能）。

在這些挑戰中，分布偏移下的泛化問題，通常稱為分布外（Out-of-Distribution, OOD）泛化，構成了一個重大的障礙。這是因為當前算法在很大程度上依賴于IID假設，即測試數據和訓練數據應該是獨立同分布的，但幾乎到處都存在分布偏移。在真實應用中，我們幾乎無法保證部署模型遇到的測試數據將符合與訓練數據相同的分布。例如，推薦系統的模型在美國收集的用戶數據上進行訓練，但任務是擴展到其他國家的用戶，這些用戶的偏好分布可能有很大差異。同樣，主要由真實照片組成的數據集上訓練的視覺識別模型面臨著識別各種風格圖像的艱巨任務，如藝術繪畫，這代表了與其訓練數據的顯著分布偏移[11]。此外，訓練數據中通常存在人口群體的不平衡，特別是在性別或種族方面。在這種情況下，當訓練數據中的少數群體在測試數據中占主導地位時，模型的泛化性能可能會輕易下降[12]。所有這些分布偏移的實例都導致了機器學習算法的性能下降。盡管自更早以來已經開發了領域適應技術[13]、[14]、[15]來解決類似問題，但在野外環境中，分布偏移無處不在且未知，我們不太可能事先有權訪問測試數據。

一種直接的方法涉及開發算法，以增強模型在完全未知的測試數據下的OOD泛化能力，正如沈等人[7]所強調的。近年來，幾個研究分支致力于這一目標。領域泛化（DG）[16]、[17]、[18]利用多個訓練領域使模型能夠泛化到以前未見過的測試領域，主要在計算機視覺領域。分布魯棒優化（DRO）及其變體[19]、[20]、[21]試圖解決最壞情況下的分布。不變學習[22]、[23]、[24]尋求捕獲訓練數據中存在的潛在異質性和不變性。穩定學習[25]、[26]、[27]方法借鑒了因果推斷的思想，通過樣本重新加權來去相關變量。這些不同的分支共同貢獻于提高OOD泛化的總體目標，每個分支都提供了不可忽視的獨特見解和進步。

另一種使機器學習模型適用于高風險領域的途徑是評估，即評估它們在可能的OOD場景下的泛化能力。與OOD泛化算法的迅速增長相比，評估方面受到的關注要少得多。評估在機器學習的各個領域都是必不可少的。適當的評估協議和方法有潛力推動一個領域的進步，就像ImageNet[28]在計算機視覺領域所做的那樣。在OOD泛化的背景下，評估扮演著更為基礎的角色。一方面，與ID（In-Distribution）評估相比，OOD評估通常更加復雜。例如，給定一個單一任務的數據集，如圖像識別，一種自然的方法是將其隨機分割成訓練集和測試集，以測試準確率作為ID泛化的評估指標。但是，面對同一個數據集，我們如何分割數據集以生成所需的分布偏移并描述這種偏移？這種分布偏移是否可解[29]？在OOD的背景下，這變成了一個更復雜的過程。另一方面，值得注意的是，目前的OOD泛化算法沒有一個能在各種OOD設置中取得普遍且巨大的改進，并像ResNet[1]對計算機視覺社區所做的，或Transformer[30]對自然語言處理社區所做的那樣，引爆OOD社區。事實上，鑒于存在多種類型的分布偏移需要解決[31]，而且很難一勞永逸地解決它們，因此開發一個在OOD泛化方面一致超過其他模型大幅度的模型是相當困難的。在這種情況下，評估模型在哪些方面表現出色或失敗更加實用和有用。具體而言，我們的目標轉向識別存在哪些類型的分布偏移[32]，評估模型處理它們的能力，并尋找模型表現出色或糟糕的安全和風險輸入區域[33]。通過這種方式，我們可以充分利用現有的訓練模型，這些模型不能任意泛化，但適用于某些場景。

此外，與直接開發針對OOD泛化的模型相比，OOD評估還提供了額外的好處。如今，從頭開始訓練一個深度模型，甚至僅僅是對現有模型進行微調，都可能是耗時且昂貴的[34]。在像罕見疾病[35]這樣的數據稀缺場景中，可能根本沒有足夠的數據進行訓練。在這種情況下，盡管無法進一步改進它，我們仍可以借助適當的OOD評估方法決定是否以及在哪里使用這個模型，或從模型池中選擇合適的模型。此外，OOD評估也更具靈活性。設計的評估指標不必是可優化的，它可以無縫地融入模型選擇過程中，這是OOD泛化的一個關鍵但鮮有研究的方面[18]、[36]。它還可以與非算法操作結合使用，如添加額外數據或特征[33]。

因此，我們認為OOD評估是OOD泛化的一個基本方向。目標不僅是確定一個模型是否具有良好的OOD泛化能力，而且還要識別它在哪里可以表現良好，包括分布偏移的類型和程度，以及模型保持其能力的相應輸入區域。在本文中，我們提供了當前OOD評估協議、指標和方法的系統性綜述，涵蓋了OOD評估的多方面目標。據我們所知，我們是第一個全面審視這一領域的人。之前的綜述主要集中在OOD泛化本身[7]，或是機器學習模型的一般評估[34]。另一項綜述也回顧了OOD模型的評估，但其范圍僅限于NLP領域[37]。

本文的其余部分安排如下。在第2節中，我們介紹了問題設定和OOD評估范式的分類。在第3節、第4節、第5節中，我們主要根據對OOD測試數據的依賴性描述了OOD評估范式的每個類別。在第6節中，我們討論了預訓練模型范圍內的OOD評估，包括大型語言模型（LLMs）。最后，在第7節中，我們總結了這篇論文，并提出了一些在未來研究努力中值得進一步探索的方向。

分布外性能測試

設計關于標記數據集的分布外性能測試程序絕非一個瑣碎的問題。對于ID泛化任務，給定一個標記數據集，直接隨機將其分割成訓練集和測試集已經足夠合理。但對于分布外泛化，許多問題需要仔細考慮。如果沒有給定的數據集，我們應該如何從頭開始生成一個標記的合成數據集來模擬特定類型的分布偏移？如果有給定的數據集，我們應該如何人為地生成分布偏移，或根據現有的分布偏移將數據集劃分為多個環境？在獲得數據集和環境劃分后，我們如何減少由于預訓練[36]和神諭模型選擇[18]導致的測試數據信息泄露的潛在可能性？此外，一旦我們測試了模型在標記數據集上的性能，我們應該如何有效地分析這一性能？在分布外性能測試方面需要解決許多問題。在本節中，我們將介紹當前的分布外數據集或基準以及它們的基本設計原則，以及分析性能和分布偏移的現有方法。

分布外性能預測

與分布外性能測試不同，后者的測試數據是完全可訪問的，這一領域代表了另一個研究維度，旨在預測在提供的未標記分布外測試數據上的性能。我們可以用醫學圖像智能系統的例子來說明這一點。這些系統作為輔助工具幫助醫生進行診斷。假設部署在這些系統上的模型是在北京和上海的患者數據上訓練的。現在我們想探索在廣州醫院部署這些模型和系統的可能性。因此，我們需要預測這些模型面對新場景下從患者收集的未標記圖像數據時的分布外性能。當前的工作嘗試從兩個角度應對這一挑戰。一些研究直接關注模型輸出在應用到測試數據時的屬性，而不使用訓練數據。相反，其他工作利用訓練數據的分布差異或模型一致性。前者通常更加方便和靈活，然而后者通常能夠提供更優的預測，因為它們利用了更多的信息。

結論與未來方向

科學合理的分布外評估范式，即對分布外泛化的評估，不僅對于推動新的分布外泛化算法的發展具有重要意義，而且對于現有模型的更實用和靈活的應用也極為關鍵。在本文中，我們對問題設定、三個主要類別的分布外評估方法進行了系統性的綜述，并簡要討論了在預訓練模型的背景下的應用。盡管我們已經討論了每個特定分布外評估類別的缺點和未來方向，但基于我們目前對分布外評估的認識和反思，我們在這里列舉了幾個更具普遍性但在當前文獻中相對缺乏的有價值的潛在未來方向。

分布外評估超越性能：大多數現有的分布外評估范式主要圍繞模型的性能。它們旨在評估模型的分布外性能是否足夠好，或者在模型之間進行比較。然而，如第一節所述，分布外評估的目標不僅僅是“是否”，還包括“在哪里”。考慮到各種類型的分布偏移，尋找分布外泛化的最終解決方案是困難的，因此，在部署機器學習模型時，識別特定模型的安全或風險區域，以及驗證算法能夠有效應對的分布偏移類型更為實用。上文提到的一些工作[32]、[33]、[95]、[96]、[118]是朝著這一目標的初步努力。值得注意的是，它們都是相對較新的工作，這表明可能存在一個朝向超越性能評估的趨勢。

分布外訓練數據評估：雖然全訓練模型是模型結構、算法和訓練數據的綜合結果，但當前的分布外評估范式大多評估不同模型結構或不同算法之間的模型，很少跨不同種類的訓練數據進行評估，也很少分析有利于分布外泛化的訓練數據屬性。在人們關注開發新模型結構和新算法的時代，訓練數據容易被忽視，盡管它對模型性能有著關鍵影響[142]、[143]、[144]。只有少數研究從訓練數據異質性的角度探討這個問題[122]、[145]。區分分布外泛化與ID泛化的性能：現有的分布外評估方法依賴于絕對性能的直接比較。然而，我們對這些比較是否準確衡量模型的真實分布外泛化能力提出了疑問。存在一種可能性，性能提升歸因于ID泛化能力的改進，而非分布外泛化能力。例如，對同一數據集進行足夠的訓練，更大的網絡往往在ID和分布外測試數據上都能達到更高的性能。ID與分布外之間的性能差距，雖然不一定是適當的評估指標，可能保持不變甚至變大。當然，增加訓練數據的大小和模型容量通常有助于提高ID性能，從而提高分布外性能，但這并不意味著這是解決分布外泛化問題的答案，考慮到大型模型也會遭遇分布偏移時的嚴重性能下降[81]、[82]，以及相關的偏見和公平性問題[34]、[140]。因此，對于分布外泛化的最終解決方案，我們建議在評估模型的分布外泛化能力時，應該區分分布外性能和ID性能。簡單使用性能差距可能不適合，因為強正則化技巧，如使用大的權重衰減，可能會降低ID性能以減少性能差距。已有一些工作討論了分布外和ID性能之間的關系[82]、[111]、[146]、[147]、[148]，期待對這方面進行更深入的研究。

付費5元查看完整內容