99欧美日韩精品一区二区红桃,尤物视频一区二区,在线亚洲一区二区三区在线观看,欧美精品V日韩精品V国产综合,A级高清免费毛片AV无码

大型語言模型（LLMs）的持續發展為系統工程領域（尤其是視覺問答（VQA）方向）開辟了新機遇。多模態LLMs能夠同時處理文本與圖形輸入，使其可結合基于模型的系統工程（MBSE）模型的圖形元素與配套文本描述進行綜合解析。本文探究多模態LLMs對系統建模語言（SysML）v1塊定義圖（BDDs）的理解與解釋能力。BDDs是以可視化形式精確描述系統結構元素、屬性、關系與多重性的圖表。我們采用精選的SysML BDD數據集及配套多項選擇題集，對專有與開源多模態LLMs進行評估——該數據集設計用于測試LLMs在布魯姆分類法前兩層級（記憶與理解）的表現，同時分析模型規模對準確率的影響。研究結果揭示了當前哪些LLMs能夠原生解析SysML BDD語法，為未來利用AI代理增強系統建模流程的研究提供方向。

人工智能（AI）與基于模型的系統工程（MBSE）流程的融合，為提升模型理解、驗證及支持活動提供了重要機遇。多模態大語言模型（LLMs）能夠處理文本與圖形輸入，拓展了系統建模語言（SysML）v1模型自動化解析的潛力。塊定義圖（BDDs）作為SysML v1模型的核心要素，是系統結構、屬性與關系的基礎性表征（OMG，2019）。盡管LLMs發展迅速，但其精準解析SysML建模成果的能力仍鮮有研究。現有對多模態LLMs的評估主要集中于通用圖像或圖示推理，而非SysML等特定領域圖形語言（Antol等，2015；Ishmam等，2024；Lin等，2014）。這一空白限制了對LLMs在支持依賴SysML模型解析的工程流程中的效能認知。

本文通過評估當代多模態LLMs對SysML v1.x BDDs的解析能力填補這一空白。我們構建了精選BDD數據集，并設計符合布魯姆分類法前兩層級（記憶與理解）的多項選擇題集。評估涵蓋專有與開源LLMs，分析不同規模模型的性能差異。研究結果為當前LLMs在理解形式化系統建模成果上的優勢與局限提供實證見解，并為未來增強MBSE實踐中AI驅動的支持技術指明研究方向。

付費5元查看完整內容

1.1 背景與動因

企業供應鏈（SC）是由采購、生產、物流與分銷等相互關聯活動構成的復雜系統。傳統運營依賴基于歷史數據的規則系統與確定性模型進行協調執行，確保貨物流與服務流從源頭至終端的效率。盡管近年數字化技術廣泛應用，現代供應鏈日趨復雜多變，多數企業仍固守僵化的傳統企業系統（Spanaki等，2025）。

人工智能在SCM中的應用日益廣泛，旨在提升預測精度、自動化常規任務及支持優化決策。然而傳統AI系統存在顯著局限——處理實時數據與非結構化信息能力不足。相較之下，涵蓋LLMs與SLMs的GENAI技術帶來全新能力：通過模擬現實場景、解析自然語言指令及整合多源數據，實現自主適應性決策（Dubey等，2024；Richey等，2023）。Jackson等（2024）指出，GENAI可跨多供應鏈領域提供主動決策支持，突破傳統AI僅限于預測性活動的局限。

全球供應鏈網絡對可持續性、敏捷性與韌性的迫切需求驅動本研究。地緣政治動蕩、供應短缺、需求波動及環境問題等中斷事件的頻發與加劇，持續挑戰現代供應鏈體系（Sunmola & Baryannis，2024）。企業亟需在提升運營效率的同時，具備風險預判與實時響應能力。這構成GENAI有望解決的核心命題：GENAI雖為增強供應鏈智能、提升響應能力及推動數據驅動決策創造重大機遇，但其在供應鏈場景的實施面臨嚴峻障礙（Dubey等，2024），包括高昂算力成本、強數字基建需求、隱私隱患、模型偏見及AI結果過度依賴風險（Jackson等，2024）。組織間（尤其大型企業與中小企業）數字成熟度差異進一步加劇技術可用性與可擴展性擔憂。本研究旨在識別GENAI整合入SCM的潛在效益，同時應對相關挑戰與風險，評估不同數字化階段企業如何有效利用GENAI技術增強決策能力，重點關注可持續性、可擴展性與運營效率。

1.2 問題陳述

盡管數字技術對SCM的重要性日益凸顯，當前供應鏈決策流程仍主要基于規則、分散化且被動響應。多數企業僅依賴電子表格、靜態企業資源規劃（ERP）系統及人力密集型工作流——這些工具在當今復雜多變的供應鏈環境中已被證實力不從心。因其無法納入非結構化數據與實時信號，此類方法難以應對預測、場景規劃及解決方案推薦等挑戰。本論文通過探討SCM運營如何從"人力主導"轉向"人機協同"決策模式填補關鍵研究空白——即人員與GENAI系統（特別是SLMs與LLMs）協作決策。相較于傳統工具，這些模型能生成新信息以模擬場景、綜合多源數據并主動支持戰略與運營決策（Zheng等，n.d.）。然而此類模型與SCM的整合面臨多重挑戰：供應鏈各環節存在數字成熟度差異、勞動力技能局限、數據基礎設施碎片化、倫理與環境風險及技術能力缺口。專家關注的模型可解釋性、互操作性及組織對GENAI輸出的信任問題，進一步加劇人機協同決策的實施難度。SLMs雖具輕量化與領域特異性優勢（Li等，2024），但其在供應鏈中的應用潛力尚未充分探索；而LLMs常需遠超中小企業承受能力的算力資源（Li等，2023）。這些動態機制引發關鍵問題：如何根據企業能力適配GENAI部署，在降低過度依賴風險、確保透明度及限制技術獲取不平等方面取得平衡。

1.3 研究目標

本研究核心目標是檢驗GENAI（特別是LLMs與SLMs）對SCM可持續性與決策制定的潛在影響。通過定向文獻綜述，闡釋這些AI模型如何影響關鍵SCM運營及增強決策能力；結合系統文獻綜述評估現有指南、框架或路線圖能否指導不同數字成熟度企業實施GENAI輔助供應鏈決策。

具體目標包括：
? 論證SLMs與LLMs如何優化采購、風險管理、物流及預測等核心供應鏈運營
? 剖析不同數字成熟度企業部署GENAI的主要風險與挑戰
? 設計可擴展實施框架，通過包容性部署與風險緩釋策略實現GENAI能力與企業數字準備度的匹配

本研究旨在探究GENAI（尤其是LLMs與SLMs）如何通過增強核心供應鏈任務決策來化解相關風險與局限。通過開發契合GENAI接受度與企業數字準備度的實用可擴展框架，彌合技術能力與戰略需求間的鴻溝。本論文通過界定LLMs與SLMs在多元供應鏈環境中支持負責任創新與公平獲取AI決策的路徑，深化GENAI在SCM中的理論認知，助力企業提升運營效率、數字適應力與可持續性，為學術研究與實踐應用提供雙重價值。

付費5元查看完整內容

AI與軍事 · 大型語言模型 · 軟件自動化 · 博士論文 ·

7 月 14 日

[付費5元查看完整內容]《基于大型語言模型的軟件工程自動化研究》最新264頁

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

軟件質量標準要求嚴苛，因其驅動全球眾多系統且需確保安全穩健。軟件開發意味著需遵循高標準并適應需求與依賴項的變更。所幸軟件工程的繁重任務可實現部分自動化，尤其隨著生成式人工智能的最新進展。本論文探索自動化代碼維護方法，聚焦"基于大型語言模型的軟件工程"（LLM4SE），通過模型內部優化與模型間通信推進轉換器模型在檢測修復軟件缺陷中的應用。此處"缺陷"涵蓋執行故障與源代碼錯誤，"源代碼"指軟件產品的原始代碼或程序。核心貢獻包括：開發輕量級轉換器變體用于代碼分類；提出兩套自動化程序修復框架；反思LLM4SE研究的可持續性與透明度。研究首先開發編碼器層組合方案（編碼器屬轉換器類型）用于代碼分類。實驗發現輕量剪枝版CodeBERT變體微調耗時減少至1/3.3（微調指在領域數據上訓練模型），且性能更優——缺陷檢測準確率最高提升2個百分點（滿分100），優于全尺寸模型常規用法。該結果推動語言模型在軟件工程中的能效應用，證明全尺寸模型的"通用方案"對代碼正確性分類等簡單任務并非必需。

除錯誤檢測外，本文呢聚焦生成代碼與人寫代碼的缺陷修復。所提SEIDR框架包含"合成-執行-指導-調試-排序"模塊，實現生成代碼的實時修復，彰顯LLM在"生成-修復"循環中的價值。此循環中，LLM通過代碼執行、失敗測試用例及錯誤日志獲取反饋，最終生成全功能代碼。采用Codex（基于代碼訓練的GPT-3）的SEIDR在程序合成基準測試中解決25項任務的19項，優于前沿遺傳編程算法。論文還提出新型"循環翻譯"（RTT）修復管線。與SEIDR不同，RTT專為修復已存在缺陷的生成/人寫代碼設計，通過將缺陷代碼轉譯至其他編程語言/自然語言再回譯至原語言實現修復。其理論依據是：轉譯過程可能因"均值回歸"現象消除缺陷（"均值"指模型訓練數據中普遍存在的無缺陷代碼）。實驗證明：LLM驅動的RTT管線在多個基準測試中解決46個微調模型未能修復的獨特缺陷。此能力使RTT成為多智能體程序修復體系的候選方案——各智能體以不同方法協同維護無缺陷代碼。論文還綜述LLM4SE文獻，反思能效與模型復用可能性：僅27%的論文共享代碼、模型及估算訓練能耗所需完整細節，凸顯遵循開放可復現研究準則的重要性。鑒于LLM存在隨機性等局限，本研究提供實證結果而非理論保證，并討論過度使用LLM的風險（如工具依賴、生成代碼漏檢、基準測試數據污染等）。整體而言，本研究推動LLM適配軟件工程任務，為多智能體系統與多模態模型的自動化代碼修復指明方向。

論文結構
第二章從軟件開發生命周期視角綜述軟件工程自動化背景；第三章概述自然語言處理及LLM架構進展；第四章總結LLM4SE方法、進展與挑戰；第五章闡明研究范圍與機遇（5.3節詳述研究問題、挑戰及對應出版物關聯，5.4節匯總出版物與問題解答）；第六章討論有效性威脅、局限、科研與產業影響及未來工作；第七章總結核心結論。為提升可讀性，各背景小節均附框內摘要，研究問題答案與關鍵發現亦作相同標注。

付費5元查看完整內容

博士論文 · 大型語言模型 · 智能體 · 數據合成 ·

5 月 16 日

[付費5元查看完整內容]【EPFL博士論文】大型語言模型時代的協作式智能體

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大型語言模型時代的協作式人工智能智能體

構建能夠可靠代表人類執行任務的智能體，是人工智能（AI）領域的核心目標之一。為了實現這一目標，智能體不僅需要能夠靈活地與工具（如搜索引擎和數據庫）交互，還必須具備協作能力。本論文系統地研究了在大型語言模型（LLM）時代支持智能體開發所需的抽象機制、方法論和基礎設施。全文分為四個部分，分別闡述如下： 第一部分探討了以目標為導向的協作場景，其中至少一個組成部分基于LLM。為了使LLM組件能夠有效與其他組件協同工作，尤其是在通過API暴露的傳統軟件系統中，它必須遵循預定義的接口規范，并引導協作朝著高效目標推進。我們表明，LLM的解碼算法可作為一種無需更改底層模型的高效策略，既能遵循接口，又能實現智能協作。 第二部分面向LLM能力不足、又缺乏有效訓練信號的協作場景。為解決此類問題，我們提出了一個新的原則：利用結構不對稱性進行合成數據生成，并展示了即使在LLM本身無法直接解決任務的前提下，該方法也能生成有用的數據。我們還將該方法與LLM自我改進機制的代表性研究建立了聯系，凸顯了該策略的通用性。 第三部分探討了多個AI系統、工具與人類之間的協作。我們提出了一種新的抽象框架，并配套開發了一個支持并發和模塊化的庫，構建起理論與實踐相結合的基礎設施，能夠系統地建模、實現和研究任意復雜的結構化交互。為驗證該框架的潛力，我們應用其系統地研究了復雜協作在解決編程競賽問題中的優勢。 第四部分提出了一個名為**語義解碼（semantic decoding）**的新視角，用以系統分析結構化交互的設計空間。該部分以對未來研究方向的討論收尾，特別聚焦于在前三部分工作基礎上，語義解碼視角所引發的研究機遇與關鍵問題。

關鍵詞：人工智能智能體、大型語言模型、合成數據生成、解碼算法、Transformer、自然語言處理、人工智能

付費5元查看完整內容

AI與軍事 · 決策 ·

5 月 6 日

[付費5元查看完整內容]《概率結果下全局最優決策的高效樹生成方法》最新30頁報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現實世界中諸多問題需進行序列決策，其中每個決策的結果具有概率性與不確定性，且后續行動的可選性受先前行動結果制約。生成適應不確定性、全局最優且隨狀態空間擴展仍可擴展的策略至關重要。本文提出生成最優決策樹（規定不同結果場景下的應執行動作，同時最大化策略期望收益），結合動態規劃與混合整數線性優化方法，利用問題特定信息剪除狀態空間中無收益貢獻的子集，使方案適用于大規模有限狀態空間問題。實驗證明所提方法能以線性時間復雜度（相對于探索狀態數量）找到全局最優決策樹。

序列決策是兵棋推演、醫療與網絡作戰等領域的核心問題。在此類場景中，智能體采取行動達成目標，但每項行動的產出具有離散性、概率性與不確定性，導致面對多可能未來時難以確定最優行動。此外，可用行動存在復雜條件依賴性（制約策略可能性），同時需考慮遠期收益。本文開發了一種方法，用于定義適應不同行動結果的最優決策序列，并以決策樹形式呈現。

盡管決策樹是機器學習中成熟模型，但其傳統用途為預測——預測型決策樹（DT）的每個分叉對應已知數據特征的組合（其對應結果未知）。而在行動方案（CoA）生成場景中，決策樹的應用轉向策略生成，允許基于先前行動的不確定結果定義最優行動序列。如圖1所示：CoA樹的每個節點代表系統狀態并規定一項行動，其執行結果引發狀態變遷（通過行動結果的概率性分支轉移至子節點，可觸發新行動）。樹終止于葉節點（行動預算耗盡、狀態不允許新行動或目標達成獲取收益）。

圖1：含二元分叉的最優決策樹示例（各節點為帶行動指令的狀態）

本研究核心貢獻為生成全局最優決策樹的算法與優化模型。這些決策樹在最大化策略期望收益的同時，兼顧行動與結果間的復雜依賴關系。通過動態規劃（DP）與混合整數優化（MIO）結合，利用問題特定信息剪除狀態空間無效子集，使方法可擴展至大規模狀態空間問題。雖非首個提出通過部分行動剪枝縮減狀態空間的研究（如Pinto與Fern 2014年工作），但本方法在最終決策模型中不犧牲全局最優性。通過示例驗證方法有效性，并在隨機生成測試案例中展示計算效率——尤其值得注意的是，本方法能以線性時間復雜度（相對于探索狀態數）找到最優決策樹。

所提框架可生成符合以下特征問題的全局最優決策樹：

智能體采取具離散概率結果的行動（改變環境狀態）
狀態捕獲環境所有相關信息及智能體歷史行動信息
決策空間有限，終止于目標達成或無可用行動
行動可具復雜依賴關系，例如：
? 先決條件：須先執行某行動并達成特定結果方可嘗試后續行動
? 排除條件：若執行某行動并達成特定結果則禁止嘗試其他行動

如第3節示例所示，行動間依賴關系可通過行動與結果的邏輯關系集進行數學與圖形化表達。

付費5元查看完整內容

AI與軍事 · 場景生成 · 大型語言模型 · C2SIM ·

2024 年 12 月 24 日

[付費5元查看完整內容]《探索用于場景生成的大型語言模型：支持 C2SIM 自主系統本體擴展開發》

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

C2SIM Autonomous Systems（C2SIM自主系統）團隊已著手進行一項探索性研究，采用大型語言模型（LLM）GPT-4來促進場景開發，為擴展本體論奠定基礎。本文概述了 GPT-4 在生成特定場景方面的初步應用結果，并強調了其實用性和局限性。詳細介紹了指導 GPT-4 輸出所采用的方法，包括 “0-shot 學習 ”和 “提示工程”，它們是根據 C2SIM 要求策劃場景內容的技術。這些方法提供了一種新穎的方法，不僅可以總結文獻中的現有知識，還可以從模型中提取嵌入式領域知識，從而為用戶引導的動態場景完善過程做出貢獻。這項調查的洞察力揭示了在場景生成中部署 LLM 的實際意義，從而為后續以合成數據對本體開發的貢獻為重點的研究軌跡提供了信息。最后，本文根據目前在該領域應用 LLMs 的經驗教訓，規劃了未來研究的潛在途徑。

本文利用 OpenAI 的 GPT-4 模型作為生成自主系統場景的輔助工具。使用零樣本方法來檢驗該模型的能力，沒有通過樣本（少數幾次）或其他定制對模型進行微調。塑造 GPT-4 響應的主要方法是 “提示工程”。提示是對輸出的自然語言描述，但經過精心設計，可引導模型產生所需的結果。根據提示中的措辭、詳細程度或指示，結果可能會有所不同，有時甚至會大相徑庭。因此，對提示的改進需要采用迭代開發方法。

提示符的開發遵循一個循環，即逐步完善提示符，以解決評估過程中發現的問題。開發工作在 OpenAI 的 Playground 中進行，這是一個簡單而有效的網絡環境，用于定義和測試提示。Playground 界面用于定義包含提示指令的 “助手”。所有助手都使用了 “gpt-4-turbo-preview ”模型。

提示的演變基于 OpenAI 文檔中列出的最佳實踐。創建并測試了多個提示版本，并逐步添加、編輯或刪除細節，以解決生成的輸出中存在的缺陷。提示語的詳細信息見第 4.1.1 節和第 4.3.1 節。

理想情況下，對提示版本（或一般微調模型）的評估應基于可量化的測量結果，如在已知預期結果的測試用例集上，被評估版本產生的正確結果所占的百分比。在這里，沒有精確的典型情景可用作基準，因為沒有一種單一的方法來描述情景。因此，對結果的評估是基于對每個版本根據所需的標準情景格式的不同部分所產生的輸出結果進行的定性分析。

開發工作主要是通過評估論文中情景提取任務（第 4.1 節）的提示質量來進行的，因此可以根據模型結果與論文本身所表達的內容的匹配程度來進行評估。我們考慮了以下問題，評分標準為 0 至 5 分：

結果是否包含標準場景模板的所有要素？評估是否有遺漏（或添加）的要素偏離預期結果。
結果是否只反映了文件中包含的場景？評估是否成功地從論文更廣泛的考慮和討論中提取了方案。在許多情況下，假設只是整個論文的一小部分，可能僅用于說明目的，這給提取帶來了困難。
描述是否是對論文場景的公平總結？評估生成的摘要與論文描述的 “要點 ”的匹配程度，以及是否包含幻想的細節（“幻覺”）。
根據上下文，生成的目標和績效衡量標準是否合理？
步驟是否反映了情景的邏輯時間進程？

鑒于對相同輸入進行連續運行會產生不同的結果，評估考慮了每個提示版本五次運行的平均值。下一節概述了所進行的實驗。

付費5元查看完整內容

多模態大模型 · 視覺提示 ·

2024 年 9 月 25 日

[付費5元查看完整內容]《多模態大語言模型視覺提示》綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

多模態大語言模型（MLLMs）為預訓練的大語言模型（LLMs）賦予了視覺能力。盡管LLMs中的文本提示已被廣泛研究，視覺提示則為更細粒度和自由形式的視覺指令開辟了新天地。本文首次全面調研了MLLMs中的視覺提示方法，重點討論視覺提示、提示生成、組合推理和提示學習。我們對現有的視覺提示進行分類，并討論用于自動標注圖像的生成方法。同時，我們考察了使視覺編碼器與基礎LLMs更好對齊的視覺提示方法，涉及MLLM的視覺基礎、對象引用和組合推理能力。此外，我們總結了改善MLLM對視覺提示的感知和理解的模型訓練及上下文學習方法。本文探討了在MLLMs中開發的視覺提示方法，并展望了這些方法的未來。

引言

多模態大語言模型（MLLMs）增強了預訓練的大語言模型（LLMs）以實現視覺能力，從而在復雜的多模態任務上實現視覺理解和推理。然而，由于使用文本提示描述和指定視覺元素的局限性，傳統提示方法在提供準確的視覺基礎和詳細視覺信息的引用上表現不佳，這可能導致視覺幻覺和語言偏見。 最近，視覺提示方法作為一種新范式應運而生，補充了文本提示，使得在多模態輸入上能夠進行更細粒度和像素級的指令。由于視覺提示方法可以采取多種形式，且常常在像素級粒度上操作，通用的提示模板可能不適用于不同的圖像，這使得實例級視覺提示生成變得必要。因此，我們在第二部分提供了當前視覺提示方法的全面分類，并在第三部分介紹了生成這些視覺提示的方法。

盡管視覺提示方法在增強MLLM的視覺能力方面取得了成功，但一些研究表明，MLLM與視覺提示之間可能存在不一致，因為預訓練階段缺乏異構視覺提示訓練數據。這種不一致可能導致MLLM忽視或誤解某些視覺提示，從而引發幻覺問題。因此，我們總結了現有的將視覺提示與MLLM感知和推理對齊的努力，以實現更可控的組合推理。此外，我們考察了現有的預訓練、微調和上下文學習方法，這些方法從根本上使MLLM與多模態增強提示對齊。現有的LLM提示相關文獻主要限于文本提示設計和上下文演示，缺乏對像素級指令和多模態交互的文獻覆蓋。盡管視覺提示在計算機視覺中也有研究，但相關調研限于視覺任務和視覺骨干模型，而涉及MLLM的多模態感知和推理任務尚缺乏。此外，最近的一項關于“Segment Anything Models”（SAM）的調研探討了SAM在MLLM中的多種應用，但僅限于SAM模型，缺乏對多樣視覺提示方法的全面研究。本文首次對MLLM中的視覺提示進行全面調研，以填補這些空白，擴展對視覺提示生成、多模態提示、感知與推理及提示學習的理解。我們在圖1中展示了調研的分類，并總結了我們的貢獻如下： * 提供了MLLM中視覺提示和提示生成方法的全面分類。 * 解釋了視覺提示如何融入MLLM的感知與推理，促進更可控的組合推理，幫助防止幻覺和語言偏見問題。 * 總結了MLLM與視覺提示對齊的方法，包括模型訓練和上下文學習，解決誤解問題，并提出更可控組合推理的策略。

2 視覺提示分類

視覺提示是多模態大語言模型（MLLMs）中的重要工具，指導模型解讀和處理視覺數據。這些提示（Wu et al., 2024f）可以采取多種形式，如邊界框、標記、像素級提示和軟提示。它們提供額外的信息，以增強模型的視覺感知能力。通過使用不同的技術處理圖像和視頻，視覺提示提高了模型在復雜理解和推理任務中的表現。

**2.1 邊界框

邊界框用于標記圖像中的物體或區域，使得 MLLMs 能夠提取視覺特征（Lin et al., 2024a）。這些特征幫助模型理解圖像內容并與相應文本關聯，從而增強細粒度和基于內容的圖像理解。先前的研究，如 Shikra Chen et al. (2023b) 和 VTPrompt Jiang et al. (2024)，量化邊界框以數值表示關鍵物體，建模輸入和輸出位置。其他方法針對特定任務修改邊界框：A3VLM Huang et al. (2024a) 使用 3D 邊界框定位圖像中的可操作部分，CityLLaVA Duan et al. (2024) 擴大邊界框，而 TextCoT Luan et al. (2024) 將邊界框的短邊延伸以匹配長邊，確保它涵蓋整個感興趣區域。此外，CRG Wan et al. (2024) 用黑色像素遮蓋特定區域以減少先驗，提供了一種在不增加訓練的情況下修正預測的方法。Groma Ma et al. (2024a) 和 InstructDET Dang et al. (2023) 將用戶指定的區域（即邊界框）編碼為視覺標記，通過將其直接整合到用戶指令中增強 MLLMs 的定位能力。另一個框架 Lin et al. (2024b) 通過在邊界框內整合外部知識的上下文嵌入，進一步增強 MLLMs 的定位能力，為各種 MLLMs 提供視覺提示以提升細粒度認知能力。

**2.2 標記

與邊界框類似，視覺標記是視覺數據（如圖像或視頻）中的特定元素，用于突出、識別或引起對特定特征或區域的注意。它們通常用于指示與任務相關的圖像特定部分。先前的研究 Shtedritski et al. (2023) 表明，訓練于大規模網絡數據的模型可以集中于特定的視覺標記，例如紅圈，以突出所需區域，而不是圍繞它們裁剪圖像。AutoAD-ZeroXie et al. (2024) 提出了一種兩階段的無訓練方法，通過在框架中“圈定”字符并對每個身份進行顏色編碼來整合字符信息。最近，Set-of-Mark (SoM) 提示（Yang et al., 2023）直接在圖像上覆蓋視覺標記，幫助模型生成基于特定圖像區域的答案。ViP-LLaVACai et al. (2024) 通過整合諸如涂鴉和箭頭等任意視覺提示，擴展了這一點，使用微調模型來識別這些標記。Liao et al. (2024) 還利用 SoM 技術引入反饋，將其轉化為文本或視覺標記，以改善語義基礎。SoM-LLaVA Yan et al. (2024) 提出了一種通過逐項列出項目并全面描述圖像中所有標記項目的方法，以增強 SoM 的標簽關聯。其他方法，如 ToL Fan et al. (2024b) 和 OWG Tziafas 和 Kasaei (2024)，為框架中的每個段落鏈接唯一 ID，而 Pivot Nasiriany et al. (2024) 則將 3D 位置投影到圖像空間，并在此投影位置繪制視覺標記，以指代輸出空間中的空間概念。

**2.3 像素級

先前的方法依賴于粗糙的標記，如彩色框或圓，這導致在準確突出物體時出現歧義。為了解決這個問題，像素級提示（Ma et al., 2024b）使用圖像或視頻中的單個像素，增強 MLLMs 的語義定位能力。方法如 FGVP Yang et al. (2024a)、EVP Liu et al. (2023b)、DOrA Wu et al. (2024e) 和 CoLLaVO Lee et al. (2024) 利用像素級提示傳達語義信息，實現精確的物體定位。OMG-LLaVA Zhang et al. (2024e) 和 VisionLLM Wang et al. (2024b) 將圖像標記為像素中心的視覺標記，將視覺任務與語言指令對齊。技術如圖像修復（Bar et al., 2022）將視覺標記解碼為像素，而 ControlMLLM Wu et al. (2024d) 則建模像素與文本提示之間豐富的語義關系。此外，還有坐標提示方法，如 SCAFFOLD Lei et al. (2024a) 和 AO-Planner Chen et al. (2024a)，將輸入圖像轉換為使用度量的坐標，增強 MLLMs 的空間理解和推理能力。

**2.4 軟視覺提示

軟視覺提示在像素空間中學習并直接應用于圖像，使模型能夠更有效地適應特定的下游任務。特別地，TVP Zhang et al. (2024g)、BlackVIP Oh et al. (2023) 和 VPGTrans Zhang et al. (2024a) 向圖像添加像素級提示，或通過在圖像周圍添加通用提示，或設計與圖像形狀相匹配的提示。在學習提示（Rezaei et al., 2024）、WVPrompt Ren et al. (2024) 和 ILM-VP Chen et al. (2023a) 中，任務相關的擾動模式被注入到像素空間中以修改輸入樣本。此外，ImageBrush Yang et al. (2024b) 通過從圖像中提取標記特征來增強語義理解。

3 視覺提示生成

與文本提示不同，視覺提示通常是位置感知的、特定實例的，涉及特定的視覺對象、關系和上下文。目前的方法使用視覺提示生成方法和模型，通過生成圖像和視頻的視覺提示（如分割、檢測和圖像修復）來提高 MLLMs 的準確性和理解能力。此外，視覺提示方法的工具鏈被用于實現多步驟視覺推理和規劃。為了創建普遍適用的視覺提示，還開發了可學習的像素值。

**3.1 提示工程

理解人造視覺提示在實際用例中可能非常重要，因為視覺提示在表達個人意圖或關注當前視覺證據時尤其有效。早期的探索（Shtedritski et al., 2023）發現，在物體周圍畫一個簡單的紅圈可以引導模型的注意力到該區域。此外，MIVPG Zhong et al. (2024) 利用圖像或補丁中的實例相關性來豐富詳細的視覺證據。 ViP Cai et al. (2024) 引入了一種新穎的多模態模型，能夠解碼自由形式的視覺提示，使用戶能夠用自然線索直觀地標記圖像。這種方法不需要復雜的區域編碼，并在區域特定的理解任務上取得了最先進的性能。此外，ViP-Bench Cai et al. (2024) 也被提出用于評估 MLLM 對這種自然工程視覺提示的感知。在領域特定的 CityLLaVA Duan et al. (2024) 框架中，收集并定制了工程視覺提示，以進一步增強微調的 MLLM。

**3.2 視覺分割

分割方法，如 OpenSeeD Zhang et al. (2023b)、SAM Kirillov et al. (2023) 和 SegFormer Xie et al. (2021)，用于勾勒和識別圖像中的特定區域、物體或結構，從而使模型能夠更準確地關注相關的視覺信息。通過預訓練的分割模型，外部視覺知識可以轉移并整合到 MLLM 的提示中。Yang et al. (2024a) 探索了一種通過圖像修復（Bar et al., 2022）方法進行像素級注釋的細粒度視覺提示方法。Lin et al. (2024b) 提出了一種指令調優方法，將細粒度分割知識直接整合到空間嵌入圖中作為視覺提示，從而增強模型對視覺場景的上下文意識。VAP Chen et al. (2024a) 開發了一種視覺可用性提示方法，通過 SAM Kirillov et al. (2023) 在導航任務中固化視覺元素。DOrA Wu et al. (2024e) 進一步引入 3D 空間和上下文信息，以改善 3D 視覺定位任務。

細粒度的分割信息還增強了 MLLM 的視覺感知和推理能力。OMG-LLaVA Zhang et al. (2024e) 整合了多級視覺提示，使 MLLM 能夠從粗到細的視覺感知，獲得更全面的視覺理解。Liu et al. (2023b) 提出增強模型理解和處理圖像中低級結構元素的能力。He et al. (2024) 進一步將此類視覺提示融入 MLLM 微調，以增強模型在細粒度視覺感知中的能力。CoLLaVO Lee et al. (2024) 提出了一種蠟筆提示方法，通過與圖像修復色彩圖結合的全景分割方法，更好地區分圖像中的多個物體。

**3.3 物體檢測

物體檢測模型如 SoM Yang et al. (2023)、RCNN Girshick (2015) 和 Omni3D Brazil et al. (2023) 提供精確的物體識別和定位，輔助 MLLM 的視覺定位能力并引導 MLLM 的注意力關注語義上有意義的內容。由 Yan et al. (2024) 開發的 SoM-LLaVA 使用數字標簽將視覺對象與文本描述對齊。物體標簽使模型能夠準確列出和描述這些物體，增強視覺推理和視覺指令跟隨能力。InstructDET Dang et al. (2023) 將通用指令融入訓練過程中，通過使模型理解和遵循各種引用指令來多樣化物體檢測。這增強了模型在不同任務上下文中理解用戶意圖和指令的靈活性。Wan et al. (2024) 提出通過對比區域引導改進視覺語言模型的定位。通過引導模型的注意力到相關區域，MLLM 能夠更準確地將視覺區域與相應的文本指令關聯。Cho et al. (2024) 擴展視覺語言模型以理解 3D 環境，通過提高空間意識和對三維空間中物體交互的理解。

**3.4 視覺提示工具鏈

為了通過多步驟或交互推理實現更復雜的多模態理解，幾種方法將各種視覺提示方法作為工具鏈聚合（Wu et al., 2024f），由 MLLM 調用以輔助各個推理子任務。Zhou et al. (2024b) 提出了一個圖像思維方法，能夠自動確定每個推理步驟的視覺信息提取方法，并將其實現為視覺提示，促使 MLLM 遵循特定的推理路徑，實現逐步的多模態推理。Tziafas 和 Kasaei (2024) 專注于通過整合包括開放式分割和物體定位在內的視覺提示方法，調整視覺語言模型以適應開放世界抓取任務。為了實現更可轉移和通用的視覺提示，Sheng et al. (2024) 創建了一種更統一的上下文學習方法，將各種上下文視覺提示整合到一個統一的表示空間。MineDreamer Zhou et al. (2024a) 進一步開發了一種多用途的視覺提示生成方法，用于與當前決策意圖一致并在視覺上表達下一步目標的虛構視覺場景。

**3.5 可學習和軟視覺提示

可學習或軟視覺提示用于適應 MLLM 中的視覺編碼器，使得視覺提示的使用更加可控和多樣化，符合下游任務。這些技術用于具有視覺指令的多模態指令調優。Rezaei et al. (2024) 研究了如何學習視覺提示以指導 ViT 中的注意機制。Li et al. (2023a) 微調 MLLM 以遵循使用可學習視覺提示的零-shot 示范指令。Chen et al. (2023a) 關注通過學習提示更好地將視覺輸入映射到相應的標簽。對于一些特定和領域導向的問題，Ren et al. (2024) 開發了一種可學習的視覺提示方法，作為圖像水印識別圖像的版權和所有權。

與此同時，可學習的視覺提示還可以在 MLLM 和下游任務之間進行遷移。VPGTrans Zhang et al. (2024a) 提出了一個可轉移的視覺提示生成器，以低成本訓練數據點和計算，將預訓練的源 MLLM 適應目標 MLLM。Memory-space visual prompt Jie et al. (2024) 在視覺變換器架構的關鍵和值層注入可學習提示，從而實現高效的視覺語言微調。Wu et al. (2023) 還注入軟視覺標記作為視覺組合操作，經過學習以更好地與少量示例組合多模態信息。黑箱視覺提示方法 Oh et al. (2023) 專注于強大的遷移學習，其中視覺提示幫助模型適應新的任務和領域，而無需直接訪問模型參數。

4 視覺感知

**4.1 視覺定位與指代

最近的視覺提示工作顯著提升了 MLLM 的視覺定位和指代能力。一些研究強調迭代反饋和多模態交互在細化語義定位中的重要性，其他則探索面向對象的感知和視覺關系理解。SoM-LLaVA Yan et al. (2024) 使用 Set-of-Mark 模型標記圖像中的所有物體，并要求模型列出所有項目。InstructDET Dang et al. (2023) 和 VTPrompt Jiang et al. (2024) 進一步實現了多模態定位，從文本中提取對象實體及其區域邊界框。

使用細粒度視覺定位編碼器，多個研究通過視覺線索引導 MLLM 的注意力至圖像中的相關區域，從而提高區域指代能力。CRG Wan et al. (2024) 使用對比區域引導，直接將模型的注意力引導到圖像中特定的興趣區域。RelationVLM Huang et al. (2024c) 利用視覺提示增強 MLLM 對物體空間關系的理解與推理。Shikra Chen et al. (2023b) 應用于視覺對話系統，使 MLLM 能夠根據對話中的指代線索做出更精確和上下文相關的互動。此外，還有多項工作旨在提供一個綜合框架，將不同粒度的視覺提示方法整合在一起，以實現更細粒度和靈活的多模態交互，包括自由形式視覺提示輸入 Lin et al. (2024a) 和視覺提示反饋機制 Liao et al. (2024)。

**4.2 多圖像和視頻理解

為了提高模型對復雜視覺關系的理解，并確保其能夠準確引用和描述多圖像輸入中的對象，多個研究提出了在多圖像輸入中使用視覺提示的新方法及評估基準。Fan et al. (2024c) 提出了一個包含多面板圖像的新基準數據集，以測試 MLLM 在區分面板間對象及導航不同視覺元素方面的能力。Pan et al. (2024) 利用形態標記自編碼提升模型在多圖像間的視覺定位能力。Li et al. (2023a) 微調 MLLM 以遵循多圖像中的上下文示范指令。此外，AIM Gao et al. (2024) 提出動態調整其定位和指代能力，以適應多個圖像中的新視覺上下文。

多種方法也被開發，以允許 MLLM 識別特定的興趣區域，提高其處理復雜和動態視頻內容的能力。OmAgent Zhang et al. (2024c) 開發了一種視覺提示方法，通過注釋一系列視覺特征，實現視頻理解中的任務劃分。RACCooN Yoon et al. (2024) 使用視覺提示引導 MLLM 識別視頻中的目標區域進行操作。Wu et al. (2024c) 在視頻中進行對象定位，使模型能夠理解和指代動態場景中的對象。

**4.3 3D視覺理解

最近的研究使用視覺提示來增強 3D 視覺理解。Li et al. (2024) 構建了一個包含指令-響應對的廣泛數據集用于 3D 場景，并引入了 3DMIT，以高效地進行提示調優，同時消除 3D 場景與語言之間的對齊階段。DOrA Wu et al. (2024e) 提出了一個具有順序感知指代的新型 3D 視覺定位框架。該方法利用 LLM 推斷有序的物體序列，以引導逐步特征細化過程。 Cho et al. (2024) 構建了一個名為 LV3D 的大規模數據集，并引入了在該數據集上預訓練的新型 MLLM Cube-LLM。Zhang et al. (2024d) 提出了 Agent3D-Zero，采用鳥瞰圖像和選擇視角的新視覺提示，釋放 MLLM 觀察 3D 場景的能力。3DAP Liu et al. (2023a) 開發了一種新型視覺提示方法，創建一個 3D 坐標系統和附加注釋，以增強 GPT-4V 完成 3D 空間任務的能力。

5 組合推理

本節討論視覺提示如何增強 MLLM 中的組合和多模態學習，促進視覺規劃、推理和行動生成等任務的改善。我們考察視覺提示如何促進復雜的逐步推理、決策制定以及對視覺生成模型的控制，擴展其在多種任務中的能力。我們還回顧了一些邊緣應用（附錄 9），這些應用可能尚未充分探索，且缺乏足夠的解決方案。

**5.1 視覺規劃

近期研究表明，視覺提示改善了視覺規劃任務。Zhou et al. (2024b) 提出了一個圖像思維（IoT）提示方法，促使 MLLM 自動設計視覺和文本步驟，并利用外部圖像處理工具生成多模態推理序列，用于輔助 MLLM 完成復雜視覺推理任務。OWG Tziafas 和 Kasaei (2024) 結合分割與抓取合成模型，通過分割、抓取規劃和排序解鎖基礎世界理解。Zhou et al. (2024a) 引入了想象鏈（CoI）方法，并在 Minecraft 中創建了一個具身代理 MineDreamer。該方法設想執行指令的逐步過程，借助 LLM 增強的擴散模型，將想象轉化為精確的視覺提示，支持代理行為的準確生成。BEVInstructor Fan et al. (2024a) 將鳥瞰圖表示作為視覺提示融入 MLLM，用于導航指令生成。AO-Planner Chen et al. (2024a) 實現了以可用性為導向的運動規劃和行動決策，采用 VAP 方法與高層 PathAgent。

**5.2 逐步推理

為了實現更復雜的圖像推理，最近的研究將視覺提示與逐步推理方法結合。Luan et al. (2024) 提出了一種新穎的逐步推理框架，用于文本豐富的圖像理解，命名為 TextCoT。該方法包括三個階段：圖像概述以獲取全局信息、粗略定位以估計包含答案的部分，以及細粒度觀察以提供精確答案。Wu et al. (2024f) 提出了 DetToolChain，解鎖 MLLM 在物體檢測任務中的潛力。該方法涉及使用“檢測提示工具包”，其中包含視覺處理和檢測推理提示，并結合多模態檢測逐步推理方法，以推理檢測提示的順序實現。

6 模型訓練

本節介紹使用視覺提示技術對多模態大語言模型（MLLMs）進行對齊的關鍵方法，包括預訓練、微調和指令調優，旨在統一多模態提示并提高跨任務的可遷移性。除了模型訓練技術外，我們還總結了評估數據集（附錄8），這些數據集為未來開發更強大的視覺提示方法提供了靈感。

6.1 預訓練

為了提升 MLLM 在更細粒度視覺感知或推理任務上的能力，研究集中在設計更好的預訓練目標，包括視覺提示。PSALM Zhang et al. (2024h) 擴展了 MLLM 在多種圖像分割任務上的能力，通過引入掩膜解碼器和靈活的輸入架構，統一了單一模型內的多種分割任務，支持通用、指代、交互和開放詞匯分割，同時在域內和域外的像素級分割任務上表現出色。OMG-LLaVA Zhang et al. (2024e) 提出了一個統一框架，將圖像級、對象級和像素級的推理與理解融合在一個模型中，結合通用分割方法作為視覺編碼器，并與 LLM 結合，使用戶能夠通過多種視覺和文本提示進行靈活互動。VisionLLM v2 Wu et al. (2024a) 引入了一個端到端的通用 MLLM，將視覺感知、理解和生成統一在一個框架內。該模型采用新穎的“超鏈接”技術將中央 LLM 與任務特定解碼器連接，支持跨數百個視覺和視覺-語言任務的信息傳輸和端到端優化。UrbanVLP Hao et al. (2024) 提出了一個針對城市區域概況的視覺-語言預訓練框架，整合了來自衛星（宏觀級）和街景（微觀級）影像的多粒度信息，克服了以往的局限性。該方法還結合了自動文本生成和校準機制，以生成高質量的城市區域文本描述，增強可解釋性。

6.2 微調

Zhang et al. (2024g) 提出了可轉移視覺提示（TVP）方法，旨在提高軟視覺提示的可轉移性，這些提示是在不同 MLLM 之間用于下游任務的小量可學習參數。Lin et al. (2024b) 將細粒度外部知識（如 OCR 和分割）通過視覺提示整合到多模態 MLLM 中，直接將細粒度知識信息嵌入到空間嵌入圖中。CoLLaVO Lee et al. (2024) 通過一種名為 Crayon Prompt 的視覺提示增強了 MLLM 的對象級圖像理解，該提示源自全景分割模型生成的全景色彩圖。CityLLaVA Duan et al. (2024) 引入了一個高效的 MLLM 微調框架，專為城市場景設計，結合了視覺提示工程技術，包括邊界框引導、視角選擇和全局-局部聯合視圖。ViP-LLaVA Cai et al. (2024) 被賦予理解任意視覺提示的能力，通過直接將視覺標記疊加到圖像上進行訓練。ImageBrush Yang et al. (2024b) 提出了一個基于示例的圖像操作框架，無需語言提示即可學習視覺上下文指令。

顯式視覺提示（EVP）Liu et al. (2023b) 提出了一個統一的方法，用于低級結構分割任務，使用凍結的預訓練視覺變換器主干，并引入源自凍結的塊嵌入和高頻圖像成分的任務特定軟提示。BlackVIP Oh et al. (2023) 通過一個協調器適應大型預訓練模型，以生成軟視覺提示，并使用 SPSA-GC 進行高效梯度估計，從而在不同領域實現穩健的少量適應。基于迭代標簽映射的視覺提示（ILM-VP）Chen et al. (2023a) 通過雙層優化共同優化輸入模式和標簽映射，從而提高軟視覺提示的準確性和可解釋性。MemVP Jie et al. (2024) 通過將視覺信息直接注入 MLLM 的前饋網絡權重，有效地結合了預訓練視覺編碼器和語言模型，以應對視覺-語言任務，將其視為附加的事實知識。VPG-C Li et al. (2023a) 通過補全缺失的視覺細節來增強 MLLM 中的視覺提示，更好地理解具有交錯多模態上下文的演示指令。它擴展了傳統視覺提示生成器，通過 LLM 引導的上下文感知視覺特征提取來創建更全面的視覺提示。

6.3 指令調優

指令調優已被證明能夠有效提高文本僅 LLM 和 MLLM 的整體能力，如指令跟隨和結構化輸出 Ouyang et al. (2022); Wang et al. (2022); Liu et al. (2024a)。對于專注于視覺提示的 MLLM，AnyRef He et al. (2024) 引入了一種統一的指代表示，使 MLLM 能夠通過指令調優處理多種輸入模態和視覺提示（文本、邊界框、圖像、音頻）。該模型使用特殊的標記和提示來格式化多模態輸入，使其能夠一致地處理各種指代格式。重新聚焦機制通過結合基礎文本嵌入增強掩膜嵌入，提高分割準確性。AnyRef 將視覺和音頻編碼器與 LLM 結合，使用投影層對不同模態在語言空間中進行對齊。該模型通過文本損失和掩膜損失的組合進行端到端的指令調優，使其能夠響應多模態提示生成文本描述和像素級分割。

7 上下文學習與少量學習

除了使用單一數據點作為輸入優化性能的方法外，一些工作集中在利用視覺提示增強上下文學習（ICL）。圖像思維（IoT）提示 Zhou et al. (2024b) 是一種無訓練的方法，通過整合離散的圖像處理動作來增強 MLLM 在視覺問答任務上的能力。IoT 使 MLLM 能夠自動設計并提取逐步的視覺推理，將其與文本推理結合，提高了準確性和可解釋性。CRG Wan et al. (2024) 是一種無訓練的方法，通過將模型輸出與掩蓋特定圖像區域的情況進行對比，改善 MLLM 的視覺定位，指導模型關注相關圖像區域。AIM Gao et al. (2024) 使任何 MLLM 能夠通過將演示中的圖像信息聚合到相應文本標簽的潛在空間中，執行高效的 ICL，這減少了內存成本，通過在聚合后丟棄視覺標記，近似多模態 ICL 提示僅包含單個查詢圖像。I2L Wang et al. (2024a) 將演示、視覺線索和推理結合為單一圖像，通過 ICL 增強多模態模型在復雜任務上的表現。I2L-Hybrid 通過在每個任務實例中自動選擇 I2L 和其他上下文學習方法擴展了這一方法。

通過視覺提示的少量學習也能在最低計算成本和更好的數據效率下提高 MLLM 的能力。CoMM Chen et al. (2024b) 提出了一個高質量一致的交錯圖像-文本數據集，旨在增強 MLLM 的生成能力，并調查其上下文學習能力。M2oEGPT Sheng et al. (2024) 提出了一個 ICL 框架，通過多模態量化和統一嵌入，使得在通用標記嵌入空間中聯合學習多模態數據，結合自回歸變換器與專家混合（MoEs）進行穩定的多任務共訓練。Partial2Global Xu et al. (2024a) 通過基于變換器的列表排序器選擇視覺 ICL 中的最佳上下文示例，比較多個備選樣本，并使用一致性感知排名聚合器實現全局一致的排名。Hossain et al. (2024) 為語義分割中的基礎類和新類引入可學習的視覺提示，并提出了一種新類-基礎類因果注意機制，使新提示能夠在不降低基礎類性能的情況下被基礎提示上下文化。Emu2 Sun et al. (2024) 是一個訓練 MLLM 以預測多模態序列中下一個元素的模型。其統一架構使得強大的多模態上下文學習能力得以實現，使其能夠快速適應新任務，僅需幾個示例。

結論

在本次調研中，我們首次全面回顧了多模態大語言模型（MLLMs）中的視覺提示方法。我們對各種視覺提示技術進行了分類，并討論了它們的生成過程，考察了這些技術如何融入 MLLMs，以增強視覺推理和感知能力。我們的工作還分析了現有的訓練和上下文學習方法在視覺提示中的應用。最后，我們提出了未來的研究方向，鼓勵利用視覺提示來改進 MLLM 的組合推理能力。

付費5元查看完整內容

大型語言模型 · 可解釋性 ·

2024 年 1 月 24 日

[付費5元查看完整內容]大模型如何可解釋？帝國理工最新《大型語言模型的解釋性》最新綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

這篇綜述論文深入探討了大型語言模型（LLM）的可解釋性領域，這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色，它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性，旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM，例如LLaMA（Touvron et al., 2023），它們由于規模和復雜性，呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法，并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法，強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁，為未來LLM可解釋性領域的研究和發展提供洞見。

**1 引言 **

在迅速發展的自然語言處理領域，大型語言模型（LLM）已成為一個基石，展現出在各種任務中的卓越能力。盡管它們效果顯著，LLM通常被視為“黑盒”系統，這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果，例如生成有害或誤導性內容（Gehman et al., 2020），以及模型幻覺的出現（Weidinger et al., 2021）。這些問題凸顯了增強解釋性的緊迫性，不僅是為了理解，更是為了負責任和倫理的應用。在LLM中，解釋性具有兩個關鍵功能。對于終端用戶，它通過以非技術方式闡明模型的推理過程，增強了對其能力和潛在缺陷的理解，從而培養信任（Zhao et al., 2023）。對于開發者和研究人員，它提供了對意外偏見和改進領域的洞察，作為提升模型在下游任務上性能的工具（Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b）。然而，LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法，如SHAP值（Lundberg and Lee, 2017），對于這些大規模模型變得不太實用（Zhao et al., 2023）。此外，全面理解LLM特有現象，包括在上下文中的學習（Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023），以及解決模型幻覺（Ji et al., 2023; Chuang et al., 2023）和固有偏見（dev, 2023; An and Rudinger, 2023; Schick et al., 2021）等問題，對于模型設計的持續改進至關重要。在這篇文獻綜述中，我們關注預訓練的基于Transformer的LLM的解釋性方法，這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展，并擁有數十億個參數，例如GPT-2（Radford et al., 2019）、GPT-J（Chen et al., 2021）、GPT-3（Brown et al., 2020）、OPT（Yordanov et al., 2022）和LLaMA系列（Touvron et al., 2023）。在第2節中，我們根據文獻綜述對研究問題進行分類。基于這種分類，在第3節中，我們回顧了解釋性方法，隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究，旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。

2 概述

大型語言模型（LLM）領域正在迅速發展，使得解釋性不僅成為理解這些復雜系統的工具，而且對它們的改進至關重要。本節對當前的解釋性方法進行分類，強調在倫理和可控生成方面的挑戰，并提出未來探索的研究問題。方法分類我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型（LM）解釋性方法的結構化分類。我們將這些方法分為兩大領域：局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析，深入探討模型的詳細操作。另一方面，全局分析包括基于探針的方法和機制性解釋性，提供對模型行為和能力的全面理解。除了理解之外，我們還探索這些洞察在增強LLM能力方面的應用，重點關注模型編輯、能力增強和受控生成。

3 大型語言模型的解釋性

3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測，例如情感分類或令牌預測。本節將局部解釋方法分為兩類：特征歸因分析和對單個Transformer（Vaswani et al., 2017）組件的分析。

3.2 全局分析與側重于闡明單個模型預測的局部分析不同，全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法：審視模型表示的探針方法和機制性解釋性（Transformer Circuits, 2022），這是一種新興的觀點，旨在逆向工程深度神經網絡的內部工作機制。

4 利用解釋性

在本節中，我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力，但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。

4.1 模型編輯

盡管我們能夠訓練出熟練的大型語言模型（LLM），但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來，編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下，高效地修改LLM在特定領域內的知識或行為（Yao et al., 2023）。

4.2 增強模型能力

雖然大型語言模型（LLM）在各種自然語言處理任務中表現出多樣性，但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務：改進長文本的利用（Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022）和增強上下文中學習（In-Context Learning, ICL）的性能（Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023）。

4.3 可控生成

盡管大型語言模型在文本生成方面取得了卓越的表現，但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會，這些技術旨在提高生成模型的事實性、校準性和可控性，使其更符合人類偏好。

5 評估

近期，像GPT-4（OpenAI, 2023）這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而，這些解釋是否真正幫助人類理解模型的推理過程，目前尚不明確（Zhao et al., 2023）。為了更好地評估解釋性方法（如歸因）的性能，需要專門設計的評估方法。此外，還需要校準的數據集和指標來評估解釋性在下游任務中的應用，例如真實性評估。 5.1 評估解釋的合理性評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌，以觀察其對模型輸出的影響（Chen et al., 2020; Modarressi et al., 2023）。另一種評估解釋合理性的方法涉及間接方法，例如衡量模型編輯的性能，尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究（Yao et al., 2023; Zhao et al., 2023）表明，擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE（Levy et al., 2017），一個通過反向翻譯生成問題改寫的問答（QA）數據集，以及CounterFact（Meng et al., 2023a），一個更具挑戰性的數據集，包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下，人類評注員會根據標準答案標記模型答案為真或假，但這通常成本較高。（Lin et al., 2022）提出使用兩個微調過的GPT-3-13B模型（GPT-judge）對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法，這是一個廣泛使用的數據集，對抗性構建以衡量語言模型在生成答案時的真實性（Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023）。TruthfulQA的主要指標是真實*信息量，真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答，還通過評估每個答案的信息量，防止模型無差別地回復“我無可奉告”。

6 結論

在本文中，我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外，我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法，以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步，可解釋性將變得極其重要，以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述，并突出了未來研究的開放問題和方向。

付費5元查看完整內容

AI與軍事 · 機器學習 · 潮汐傳播 · 美國陸軍工程研究和發展中心（ERDC） ·

2023 年 10 月 7 日

[付費5元查看完整內容]《周期函數上機器學習回歸的可擴展性與靈敏度分析》2023最新報告

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在本報告中，我們記錄了機器學習（ML）回歸在周期性、高度振蕩和??∞函數上的可擴展性和靈敏度。這項工作的動機是需要在潮汐傳播等周期性問題上使用 ML 回歸。在這項工作中，TensorFlow 被用來研究周期函數從一維到三維的機器可擴展性。針對一系列層、神經元和學習率，計算了每個維度的掛鐘時間，以進一步研究 ML 回歸對這些參數的敏感性。最后，比較了隨機梯度下降和 Adam 優化器的掛鐘時間和敏感性。

付費5元查看完整內容

大模型 · ChatGPT · 知識圖譜 ·

2023 年 5 月 9 日

[付費5元查看完整內容]大模型ChatGPT如何用于知識圖譜構建？《利用大型語言模型增強知識圖譜構建》論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著大型語言模型（LLM）發展的日益普及，吸引了大量關注，各種應用領域的模型不斷涌現。然而，將大型語言模型與語義技術相結合以進行推理和推斷仍然是一項具有挑戰性的任務。本文分析了當前在基礎LLM方面的進展，如ChatGPT，如何與專用預訓練模型，如REBEL，進行比較，以實現實體和關系的聯合提取。為了評估這種方法，我們使用與可持續性相關的文本作為案例，進行了多個實驗。我們創建了從原始文本自動生成知識圖譜的流程，并發現使用先進的LLM模型可以提高從非結構化文本創建這些圖譜的過程的準確性。此外，我們還探討了使用基礎LLM模型進行自動本體創建的潛力，從而生成更相關且準確的知識圖譜。本節描述了本研究中使用的方法，包括數據收集過程以及用于分析收集到的數據的實體-關系提取算法。

**A. 數據收集過程 **為了對實體-關系提取的兩種方法進行實驗性比較，我們從網絡上收集了有關可持續性主題的新聞數據。為此，我們使用了News API [21]系統。News API是一個HTTP REST API，用于從網絡上搜索和檢索實時文章。它提供了通過指定以下選項在網絡上發布的文章中進行搜索的功能：關鍵詞或短語、發布日期、來源域名和語言。通過使用News API，我們收集了2023-02-15至2023-03-19關于可持續性主題的94篇新聞文章。收集到的文本包含各種字數，從50個到超過4200個不等。由于輸入到語言模型中的令牌數量受到限制，因此需要進行額外的預處理步驟來處理包含大量單詞的文本。

**B. 關系提取方法 **關系提取是自然語言處理（NLP）中的一項基本任務，旨在識別句子或文檔中實體之間的語義關系。這項任務具有挑戰性，因為它需要理解實體出現的上下文以及它們之間存在的關系類型。在本小節中，我們將介紹如何利用REBEL和ChatGPT進行關系提取任務。1) REBEL：我們首先嘗試使用REBEL從非結構化新聞文章中提取關系。為了讓REBEL能夠使用提供的文本，需要使用相應的分詞器功能對其進行分詞。分詞是將原始文本分割成稱為令牌的較小單位的過程。令牌可以是單詞、字符或子詞。模型對令牌的限制為512個令牌，這意味著在將較長的收集到的文章發送到模型進行三元組提取之前，需要對其進行預處理。為了解決這個限制，我們將原始文本進行分詞，并將令牌劃分為256個令牌的批次。這些批次分別由REBEL模型處理，然后合并結果以提取較長文本的關系。還向提取的關系添加元數據，引用生成關系的令牌批次。采用這種方法，由于令牌批次可能在句子的中間開始或結束，某些關系可能無法準確提取。然而，這種情況發生的次數微乎其微。因此，我們將其處理留給未來的工作。實體-關系提取過程完成后，提取的信息存儲在三元組結構中。為了進一步規范提取的實體，我們執行實體鏈接[22]。實體鏈接是指將原始文本中提到的實體與知識庫中相應實體進行識別和關聯的過程。實體鏈接過程不屬于REBEL模型的一部分，它是用于優化提取關系的額外后處理步驟。在本研究中，我們使用DBpedia作為知識庫，并認為如果兩個實體具有相同的DBpedia URL，則它們是相同的。這方法不適用于DBpedia上不存在的實體。

ChatGPT：本文采用的第二種方法使用了OpenAI的ChatGPT [12]。我們使用ChatGPT創建了兩個實驗。第一個實驗提示ChatGPT從收集到的新聞文章中提取關系。在提取關系之后，我們遵循與REBEL模型相同的步驟，以創建一個全面的知識庫。第二個實驗側重于創建一個直接生成整個知識庫并編寫描述文本中識別到的概念的本體的提示。這種方法的目標是減少為了獲得最終知識圖譜而需要執行的手動步驟的數量。對于這兩個實驗，我們將參數“溫度”的值設為0，以獲得更具確定性的輸出，因為OpenAI模型本質上是非確定性的。

付費5元查看完整內容

AI與軍事 · 計算機視覺 · 卷積神經網絡 · 美國空軍研究實驗室（AFRL） · 圖像壓縮 ·

2022 年 11 月 8 日

[付費5元查看完整內容]《用于增強壓縮技術和計算機視覺應用的卷積神經網絡的優化》美國空軍研究實驗室、戴頓大學2022最新85頁論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

圖像壓縮算法是圖像處理領域中媒體傳輸和壓縮的基礎。在其誕生的幾十年后，諸如JPEG圖像編解碼器等算法仍然是行業標準。在壓縮領域，一個值得注意的研究課題是深度學習（DL）。本文探討了理想圖像壓縮和物體檢測（OD）應用的DL模型的優化。

要優化的DL模型是基于一個現有的壓縮框架，即CONNECT模型。這個框架將傳統的JPEG圖像編解碼器包裹在兩個卷積神經網絡（CNNs）中。第一個網絡，ComCNN，專注于將輸入的圖像壓縮成一個緊湊的表示，以輸入到圖像編解碼器。第二個網絡，RecCNN，著重于從編解碼器中重建輸出圖像，使之與原始圖像盡可能相似。為了提高CONNECT模型的性能，一個名為Optuna的優化軟件包裹了該框架。從每個CNN中選擇超參數，由Optuna進行評估和優化。一旦CONNECT模型產生了理想的結果，輸出的圖像就被應用于YOLOv5 OD網絡。

本文探討了DL超參數對圖像質量和壓縮指標的影響。此外，檢測網絡將為圖像壓縮對計算機視覺應用的影響提供背景。