鑒于深度神經網絡(DNNs)的復雜性和不透明性,人們已經做出了廣泛努力,使這些系統更易于解釋或用易于理解的術語解釋它們的行為。與大多數專注于算法和以模型為中心的視角的綜述不同,本工作采取了“以數據為中心”的視角,考察了數據收集、處理和分析如何促進可解釋人工智能(XAI)。我們將現有工作分類為三個目的類別:深度模型的解釋,涉及特征歸因和將數據點與模型輸出相關聯的推理過程;訓練數據的影響,檢查訓練數據細微差別(如數據價值和樣本異常)對決策過程的影響;以及領域知識的洞察,從數據和模型中發現潛在模式,培養新知識,以推進社會價值和科學發現。具體來說,我們將XAI方法提煉為對訓練和測試數據的數據挖掘操作,這些數據跨越不同的模態,如圖像、文本和表格數據,以及對訓練日志、檢查點、模型和其他DNN行為描述符的操作。通過這種方式,我們的研究從數據挖掘方法和應用的角度,對XAI進行了全面的、以數據為中心的審視。
//www.zhuanzhi.ai/paper/6960f37082a968c932aec73e1160f875
**1 引言 **
隨著人工智能(AI)的發展,傳統的決策技術,如感知器[1]、基于規則的系統[2]、基于案例的推理[3]和專家系統[4],已讓位于更復雜的深度神經網絡(DNNs)[5]。這些早期技術是基于人類決策過程,從基于規則的推理[6]到基于委員會的預測[7]。存儲和計算能力的激增催化了向DNNs的演變,盡管它們在視覺識別和語言建模等任務上表現出色[5],但在可解釋性方面面臨挑戰[8]。
DNNs的“黑箱”本質以及其廣泛的參數化妨礙了自動駕駛和醫療等關鍵應用中所需的透明度,引發了人們對這些模型在高風險環境中可靠性的擔憂[9]、[10]、[11]。因此,可解釋人工智能(XAI)已成為一個關鍵領域,提出了諸如LIME[12]等解決方案來改善機器學習的可解釋性1,可能增加對AI系統的信任[13]。這些XAI技術不僅努力實現模型透明度,還為數據集增加了附加價值,幫助完成諸如調試[14]和定位誤標記樣本[15]等任務,豐富了對數據集及其各自領域的理解[16]、[11]。在這項研究中,我們通過對現有文獻的全面審查,通過我們的兩個獨特觀察、三個目的和四階段XAI技術數據處理的角度進行分組和分析。 我們的第一個觀察重點關注XAI技術演變和應用背后的驅動力。在對當前文獻進行廣泛審查后,我們將主要目的概括為三個核心類別:1)深度模型的解釋:盡管深度學習模型具有高度的預測能力,但它們的“黑箱”本質限制了可解釋性[12]、[17]。XAI旨在通過闡明這些模型在每個實例基礎上的預測理由,從而促進透明度和信任[8]、[18]。2)訓練數據的影響:機器學習模型的性能取決于訓練數據的分布和質量[19]、[20]。XAI技術可以準確地指出對模型輸出產生重大影響的數據點,促進改進的訓練過程和模型簡化[21]、[22]。3)領域知識的洞察:XAI還揭示了模型和數據中特定于領域的知識,提供了在這些領域內人類理解的潛在進步,并在醫療保健和金融等高風險應用中提供寶貴的洞察[23]、[24]。 如圖1所示,XAI作為人類理解和機器學習模型復雜性之間差距的橋梁,提高了AI應用的信心[25]、[26]。
我們還發現,XAI方法遵循類似于傳統數據挖掘的結構化過程[27]、[28]、[29],將數據、算法和以人為中心的分析整合起來。以下列出了四個關鍵步驟。 1)數據獲取與收集:XAI將數據收集擴展到超越數據集,涵蓋了深度學習的生命周期,如訓練數據集、訓練日志和檢查點、測試樣本等。 2)數據準備與轉換:從模型、數據和訓練日志中提取和轉換DNNs的行為描述符,包括顯著性地圖、訓練損失曲線和輸入/損失梯度向量(也請參見表1),以便后續解釋[30]、[31]、[15]。 3)數據建模與分析:挖掘DNN行為描述符以模擬DNN決策、訓練數據貢獻和數據集模式,從而導致三種類型的分析目的:解釋、影響和洞察[11]。 4)結果報告與可視化:XAI努力的高潮是通過適當的報告和可視化來呈現發現,這取決于數據模態,例如將顯著性地圖疊加在圖像上[32]、[33],突出顯示關鍵視覺特征。
通過這些步驟,XAI增強了AI框架中的可解釋性、信任,甚至是知識與理解,促進了人類與AI的更好協同。 我們的調查采用了以數據為中心的視角來審查XAI,通過結合三個目的和四階段數據挖掘過程來分類組織技術。這項研究的貢獻包括: ? 從數據挖掘的角度對XAI范式進行技術回顧,重點關注解釋過程中的數據相關實踐[34]。這項工作開創了對XAI進行新框架系統審查的先河。 ? 引入了一個新的分類系統,圍繞XAI的三重目的和數據挖掘的四個不同階段,對當前XAI方法進行分類和闡述。 ? 對XAI未來發展的前瞻性討論,強調其揭示數據內在深層洞察的能力,這對像AI驅動的科學和醫學等領域有重要意義。
將XAI研究納入這一分類提供了一個結構化的敘述,豐富了對XAI趨勢和潛力的精確理解。 關于XAI的新興研究已在幾項調查中得到審查,突出了解釋深度模型的挑戰和重要性。Doshi-Velez和Kim[8]強調了評估XAI技術的必要性,而Carvalho等人[9]提供了一項廣泛的可解釋性方法研究,涵蓋了模型不可知和模型特定的方法。Hammoudeh和Lowd[174]將重點轉移到了訓練數據的影響上。Mohseni等人提供了一項評估XAI系統的調查和框架[175]。Marcinkeviˇcs和Vogt[16]以及Notovich等人[176]對實用XAI方法進行了擴展,提供了應用示例和技術分類。Preuer等人[177]在藥物發現中探討了領域特定的應用,而Tjoa和Guan[30]則在醫學成像中進行了探討。
與上述工作相比,我們的調查(圖2中顯示的簡要結果)通過從數據挖掘的角度探索XAI的三重角色來彌補XAI文獻中的差距:(1)解釋模型的行為以理解其決策;(2)估算數據的影響,以評估和識別關鍵樣本;(3)從模型和數據中提煉洞察,以獲得推動社會價值和科學發現的新理解。
解釋:深度模型的特征歸因和推理過程
解釋深度模型包括使用特征歸因來評估每個輸入對模型輸出的影響,并檢查推理過程以理解模型內部的決策路徑。
影響:訓練樣本的數據價值和異常檢測
通過衡量訓練樣本對決策過程的影響來解釋深度模型對于理解和驗證這些模型的輸出至關重要。這一過程通常涉及多種技術,這些技術將單個訓練樣本與模型所做決策之間的相關性映射出來[221]、[174]。在本節中,我們將現有工作分類為以下三個方向。
洞察:從數據中發現模式和知識
XAI算法有助于提取人類可讀的洞察,部分原因是它們能夠識別和解釋復雜的多維或多模態數據中的模式、相關性和異常。已經做了兩組努力:一組關注社會價值,另一組專注于科學發現的進步。 結論
本文通過數據挖掘的視角,系統地回顧了可解釋人工智能(XAI)的作用,涵蓋了三個關鍵的主題領域: ? 解釋模型行為:本綜述強調了揭示深度神經網絡(DNNs)的決策過程的必要性,從特征歸因和推理邏輯的角度出發,旨在增加AI系統的透明度和信任。 ?** 評估數據影響**:本綜述關注單個數據樣本如何塑造模型的決策和泛化性能,強調對學習的重要貢獻者,并檢測可能導致結果偏斜的任何數據異常。 ? 提煉可行洞察:超越提供解釋,本綜述尋求發現與社會價值一致并促進科學創新的新洞察,將XAI技術的知識引向實際應用。
總之,本研究對上述三個目的的XAI方法進行了全面分析,突出了當前的能力、實際用途,并識別了需要改進的領域。這一分析為進一步的研究奠定了基礎,這些研究努力將XAI更深入地整合到數據挖掘實踐中,并培育一個更透明、可靠、以用戶為中心的人工智能環境。
近期在基礎模型上的發展,如大型語言模型(LLMs)和視覺-語言模型(VLMs),它們基于大量數據訓練,促進了跨不同任務和模態的靈活應用。它們的影響覆蓋了多個領域,包括健康護理、教育和機器人技術。本文提供了基礎模型在現實世界機器人應用中的概覽,主要強調在現有機器人系統中替換特定組件。總結包括了基礎模型中輸入輸出關系的視角,以及它們在機器人技術領域內的感知、運動規劃和控制中的作用。本文最后討論了實際機器人應用面臨的未來挑戰和含義。
近期在人工智能領域的進步顯著擴展了機器人的操作能力,使它們能夠承擔多種多樣的活動【1-5】。雖然最初機器人的部署主要限于大規模生產環境【6-11】,但現在工業機器人的適用性已經擴展到小批量和高多樣性生產領域,包括室內空間和災難現場【12-15】。這種擴散不僅僅限于環境多樣性的增加;它還擴展到了任務范圍的擴大,包括日常活動,如整理【16-18】、洗滌【19,20】、擦拭【21,22】和烹飪【23,24】。機器學習為滿足這些機器人系統的需求提供了一種方式。然而,僅僅在特定領域數據上訓練每個模型對于多樣的機器人、任務和環境來說是不夠的。越來越多地需要開發可以使用單一的、預訓練的系統或模塊應用于各種機體、任務和環境的機器人。 解決這一挑戰的一個方案是引入基礎模型【25】。基礎模型是在大量數據上訓練的模型,可以通過上下文學習、微調或甚至零樣本的方式輕松應用于廣泛的下游任務【26,27】。顯著的例子包括大型語言模型(LLMs)如GPT【27】和視覺-語言模型(VLMs)如CLIP【28】,其中語言是結合各種類型模態的粘合劑。這些基礎模型的影響是顯著的,有幾篇綜述文章討論了它們在不同領域的影響【29-32】。Wang等人【29】和Zeng等人【30】進行了關于大型語言模型在機器人學中應用的綜述,而Firoozi等人【31】和Hu等人【32】進行了更廣泛的綜述,關注于基礎模型在機器人學中的應用。在本文中,我們總結了基礎模型對現實世界機器人的適用性,旨在加速它們在實際機器人應用中的采用。與其他綜述文章相比,我們提供了如何從基礎模型的輸入輸出關系以及機器人學中的感知、運動規劃和控制的角度,用基礎模型替換現有機器人系統中的特定組件的總結。 本研究的結構如圖1所示。在第2節中,我們將描述基礎模型本身。特別地,我們將根據它們使用的模態類型,例如視覺【33,34】、語言【35-41】等,以及它們可以應用的下游任務類型進行分類。在第3節中,我們將基于當前應用【2,3,42】描述如何將基礎模型應用于機器人學。一般來說,機器人需要配備感知模塊、規劃模塊和控制模塊。從這個角度,我們分類了可以將基礎模型應用于現實世界機器人學的方式,包括低級感知、高級感知、高級規劃和低級規劃。此外,我們還將解釋在訓練直接連接低級感知和低級規劃的映射時,對機器人學的數據增強。在第4節中,我們將描述包括機器人實體在內的基礎模型,即機器人基礎模型,包括關于如何就模型架構、數據集和學習目標制作這些機器人基礎模型的討論。在第5節中,我們將描述使用基礎模型的機器人、任務和環境。我們將任務分類為導航、操縱、帶有操縱的導航、運動和交流。最后,我們將討論未來的挑戰并提出我們的結論。
“基礎模型”一詞最初在【25】中被引入。在這項綜述中,我們將簡單描述在機器人應用中使用的基礎模型的類型,以及下游任務,將關于基礎模型本身的討論推遲到【25】。在2012年,深度學習因ILSVRC-2012比賽的獲勝模型而獲得機器學習社區的主流關注【43】。2017年,由【44】介紹的Transformer模型,促進了自然語言處理(NLP)【45】和計算機視覺【46】領域的重大進步。到2021年,一個經過大量數據訓練、能夠輕松應用于廣泛下游任務的模型被稱為“基礎模型”【25】。基礎模型的特點主要有三個:
上下文學習 * 規模定律 * 同質化
上下文學習使得僅用幾個例子就能完成新任務成為可能,無需重新訓練或微調。規模定律允許隨著數據、計算資源和模型大小的增加而持續提升性能。同質化允許某些基礎模型架構以統一的方式處理多種模態。 在這一章中,我們從在機器人學中的適用性的角度對基礎模型進行分類。機器人利用基礎模型的最關鍵標準是選擇使用哪些模態。本章從語言、視覺、音頻、3D表示和各種其他模態的角度討論了基礎模型的類型和它們可以執行的下游任務。在利用每種模態的背景下,我們進一步從網絡輸入和輸出的角度對基礎模型進行分類。概覽顯示在圖2中。請注意,我們的目標不是在這里全面覆蓋基礎模型;我們的重點仍然在于解決模態差異和基礎模型的分類。
通常,機器人的行為由感知、規劃和控制組成。在本研究中,我們將感知分為兩個類別:低級感知和高級感知。同時,我們將規劃和控制分別稱為高級規劃和低級規劃。加上對學習這些組成部分的數據增強,我們將機器人對基礎模型的利用分為以下五個類別。 * 低級感知 * 高級感知 * 高級規劃 * 低級規劃 * 數據增強
這些類別之間的關系如圖3所示。用于低級感知的基礎模型包括在圖像或3D表示中的語義分割和邊界框提取,以及在各種模態中的特征提取。用于高級感知的基礎模型涉及將從低級感知獲得的結果轉換和利用成如地圖、獎勵和運動約束等形式。用于高級規劃的基礎模型執行更高級別的抽象任務規劃,不包括直接控制。用于低級規劃的基礎模型執行較低級別的運動控制,包括關節和末端執行器控制。用于數據增強的基礎模型在執行連接低級感知和低級規劃的學習時,通過數據增強增強魯棒性。 在實踐中,通過組合這五種利用方法創建了各種應用。主要分為四種類型,如圖4所示。 (i) 進行低級感知,然后用高級規劃規劃行為。 (ii) 通過低級感知和高級感知提取獎勵和運動約束,并用于強化學習和軌跡優化。 (iii) 通過低級感知和高級感知生成地圖、場景圖等,并將它們作為任務規劃的基礎。 (iv) 使用數據增強,穩健地進行直接關聯低級感知的特征提取和控制輸入的端到端學習。 值得注意的是,也有一些研究方法不適用于這一框架。 從這些角度出發,我們選取了幾篇具有代表性的論文并在表1中進行了總結。
許多現實世界的數據集可以自然地表示為圖,涵蓋了廣泛的領域。然而,圖數據集的日益增長的復雜性和大小為分析和計算帶來了顯著挑戰。作為回應,圖簡化技術因其在簡化大型圖的同時保留關鍵屬性而獲得了重要地位。在這篇綜述中,我們旨在提供對圖簡化方法的全面理解,包括圖稀疏化、圖粗化和圖凝聚。具體來說,我們為這些方法建立了統一的定義,并引入了一個層次化的分類法來歸類它們解決的挑戰。我們的綜述然后系統地回顧了這些方法的技術細節,并強調了它們在不同場景中的實際應用。此外,我們概述了確保圖簡化技術持續有效性的關鍵研究方向,并在//github.com/ChandlerBang/awesome-graph-reduction上提供了一份全面的論文列表。我們希望這篇綜述能夠填補文獻空缺,并推動這一有希望的領域的進步。
圖結構數據在各個領域已變得無處不在,從社交網絡和生物系統到推薦系統和知識圖譜[Fan et al., 2019; Wu et al., 2022b, 2018; Shi and Weninger, 2017; Wang et al., 2021]。圖數據的內在關系結構使其成為模擬復雜交互和依賴關系的強大表示。此外,隨著圖機器學習技術的興起,特別是圖神經網絡(GNNs)[Kipf and Welling, 2016; Wu et al., 2020],圖數據集的利用見證了前所未有的增長,推動了節點分類、鏈接預測、圖分類和圖生成等任務的進展[Zhou et al., 2020; Ma and Tang, 2021]。 近年來,圖數據集的大小和復雜性呈指數級增長。大規模網絡,如社交圖和引文網絡[Hu et al., 2021],挑戰了現有算法的可擴展性和效率,并要求為高效模型訓練提供創新解決方案。盡管最近努力設計了可以伴隨大型圖擴展的GNNs [Jia et al., 2020; Zeng et al., 2021; Song et al., 2023; Liu et al., 2021],另一種方法專注于減小圖數據集的大小,包括圖、節點和邊的數量,我們將之稱為圖簡化[Jin et al., 2022b; Huang et al., 2021]。在本文中,我們將圖簡化定義為尋找一個更小尺寸的圖數據集的過程,同時保留其關鍵信息。具體來說,這一定義要求一個算法接受原始圖數據集作為輸入并產生一個更小的數據集。如圖1所示,圖簡化旨在通過保持其結構和語義特性來從龐大的圖數據集中提取關鍵信息。除了加速圖算法外,圖簡化還提供了一系列優勢。首先,減少后的圖顯示出與各種下游模型架構的兼容性[Jin et al., 2022b]。其次,圖簡化可能有助于隱私保護,因為它改變了原始結構或節點屬性,使它們難以恢復[Dong et al., 2022]。第三,與其較大的對應物相比,減少后的圖顯著更小,更易于人類理解,這有助于圖可視化[Imre et al., 2020]。
鑒于圖簡化的重要性,已經開發了眾多算法,這些算法分為三種不同策略:圖稀疏化[Althofer et al., 1993; Batson et al., 2009]、圖粗化[Loukas and Vandergheynst, 2018; Dorfler and Bullo, 2012],以及更近期的圖凝聚[Jin et al., 2022b,a; Xu et al., 2023; Liu et al., 2022]。圖稀疏化圍繞通過僅保留一部分邊和重要節點來近似圖的概念展開。與之相反,圖粗化并未消除任何節點,而是將節點分組并合并成超級節點,使用指定的聚合算法將原始組間邊聚合成超級邊。與前兩種策略不同,圖凝聚最近被引入作為一種在保持GNNs性能的同時,通過合成更小的圖來凝聚圖的方法。盡管這些方法已經廣泛傳播,但它們通常是孤立研究的,留下了它們之間的聯系和區別有些模糊。因此,提供這些現有算法的系統概覽,以增強我們對圖簡化技術的理解,既必要又及時。
貢獻。在這項工作中,我們旨在提供一份全面且最新的綜述,聚焦于圖簡化技術及其在解決圖相關挑戰中的多樣化應用。我們希望這份綜述能夠成為初學者研究人員和對探索該領域感興趣的從業者的寶貴資源,同時也催化未來研究努力。我們的貢獻可以總結如下:(a) 我們提供了第一個全面的圖簡化方法綜述,包括圖稀疏化、圖粗化和圖凝聚。 (b) 我們為現有的圖簡化方法開發了一個統一的視角,在第2節中根據它們的特征進行區分,并在第3節提供代表性算法的詳細回顧。 (c) 我們在第4節討論了圖簡化方法的實際應用,闡明了這些技術證明有價值的現實世界場景。 (d) 在第5節,我們識別關鍵挑戰和有希望的未來研究方向,指導圖簡化技術的持續進步。
與現有綜述的聯系。與之前關于圖簡化的綜述[Liu et al., 2018; Interdonato et al., 2020; Shabani et al., 2023; Chen et al., 2022]相比,我們的研究提供了圖凝聚這一新興領域的全面概述,并提出了一個統一框架,將圖凝聚與傳統的圖簡化技術聯系起來。此外,我們的綜述探索了圖簡化和GNNs之間的協同作用,這是現有綜述中很少涉及的一個方面。同時,一些以數據為中心的圖學習綜述[Zha et al., 2023; Zheng et al., 2023a]包括了對圖簡化的討論,但我們提供了更詳細、更徹底的簡化技術審查。此外,我們的工作與最近關于數據集蒸餾的綜述[Geng et al., 2023; Sachdeva and McAuley, 2023]有所聯系,雖然它們主要關注應用于圖像數據的凝聚方法。 在圖2中,我們提供了上述類別中現有圖簡化方法的詳細分類,并將在接下來的部分中詳細闡述。此外,表2提供了前面提到的三種圖簡化策略的定性比較。
方法論
在本節中,我們將介紹上述三種圖簡化策略的代表性算法。對于每種策略,我們根據它們的學習目標對方法進行分類,并在表3中總結了流行的方法。 圖稀疏化 圖稀疏化作為圖簡化的直觀方法,涉及基于特定標準選擇關鍵邊或節點。傳統方法通常側重于保留特定圖屬性,如譜和中心性。隨著GNNs日益流行,旨在維持節點表示質量的方法越來越多。因此,我們根據它們的保留目標將現有技術分為兩組:一組專注于保留圖屬性的,另一組致力于維持模型性能的。 圖粗化 在稀疏化方法中選擇節點或邊不可避免地會丟失一些信息。為了確保保留足夠量的信息,開發了粗化技術,涉及對節點進行分組并聚合它們。這一過程可以迭代進行,產生原始圖的層次視圖。現有的粗化方法可以根據是否存在重構目標分為兩組:基于重構的方法和無需重構的方法,將在后續進一步闡述。 圖凝聚 盡管稀疏化和粗化方法在減小圖數據的大小方面已被證明是有效的,但它們存在內在的局限性。由于這些方法中的許多優先保留特定的圖屬性,它們沒有利用下游任務信息,可能導致模型性能不佳。此外,這些技術依賴于原始圖中存在代表性節點或邊的假設,這在原始數據集中可能并不總是成立。為了解決這些問題,圖凝聚首次由[Jin et al., 2022b]引入,開始發揮作用。
結論
在本文中,我們提供了一個結構化且具有前瞻性的圖簡化綜述。我們首先建立了圖簡化的正式定義,然后開發了一個詳細的層次分類法,系統地組織了這一領域內的多樣化方法論。我們的綜述將圖簡化技術劃分為三個主要類別:稀疏化、粗化和凝聚。每個類別代表了一種獨特的方法來減少圖復雜性,同時保留關鍵屬性。在每個類別中,我們系統地深入探討了突出方法的技術細節,并突出顯示了它們在各種現實世界場景中的實際應用。此外,我們闡明了該領域內存在的挑戰,并指出了未來研究努力的潛在方向。我們的目標是激勵和指導即將進行的研究,為圖簡化方法論的持續發展和進步做出貢獻。
多標簽學習是一個迅速發展的研究領域,旨在從單個輸入數據點預測多個標簽。在大數據時代,涉及多標簽分類(MLC)或排名的任務提出了重大而復雜的挑戰,在多個領域吸引了相當多的注意力。MLC固有的困難包括處理高維數據、解決標簽相關性和處理部分標簽,傳統方法在這些方面效果不佳。近年來,采用深度學習(DL)技術來更有效地解決MLC中的這些挑戰的嘗試顯著增加。值得注意的是,有一個增長中的努力旨在利用DL的強大學習能力,以改進對標簽依賴性及MLC中其他挑戰的建模。 然而,值得注意的是,專門針對多標簽學習的DL的綜合研究相對有限。因此,這項綜述旨在徹底回顧DL在多標簽學習中的最新進展,以及MLC中開放研究問題的總結。 該綜述整合了DL在MLC中的現有研究努力,包括深度神經網絡、變換器(Transformer)、自編碼器、卷積和循環架構。最后,該研究提出了現有方法的比較分析,以提供有洞察力的觀察,并激發該領域未來研究方向的思考。
在許多實際應用中,一個對象可能同時與多個標簽關聯,這類問題被認為是多標簽學習(MLL)【1】。MLL是標準單標簽學習范式的擴展,在這個范式中,通常有一個有限的潛在標簽集,這些標簽可以應用于多標簽數據(MLD)的實例。基本目標是同時預測給定單個輸入的輸出向量,這意味著它可以解決更復雜的決策問題。這與單標簽分類相對,單標簽分類中每個實例只與一個標簽關聯。在多標簽任務的上下文中,一個實例通常與一組標簽相關聯,構成稱為相關標簽(活動標簽)的不同組合,而與實例未鏈接的標簽被稱為不相關標簽。相關和不相關標簽都表示為一個二進制向量,其大小與MLD中標簽的總數對齊。根據目標的不同,MLL中存在兩個主要任務:多標簽分類(MLC)和多標簽排名(MLR)【2】。MLC是主要的學習任務,涉及學習一個模型,該模型輸出一個標簽集的二分劃分,將其分為與查詢實例相關和不相關的標簽。另一方面,MLR關注于學習一個模型,該模型輸出類標簽的排序,根據它們對查詢實例的相關性進行排序。
盡管MLC應用傳統上集中在文本分析、多媒體和生物學上,但它們的重要性正在逐漸增長,涵蓋了多個領域,如文檔分類【3】【4】【5】、醫療保健【6】【7】【8】、環境建模【9】【10】、情感識別【11】【12】、商業【13】【14】、社交媒體【15】【16】【17】等。許多其他要求嚴格的應用,如視頻注釋、網頁分類和語言建模,也可以從被構建為MLC任務中獲益,這涉及到數百、數千甚至數百萬的標簽。如此廣泛的標簽空間提出了研究挑戰,例如與數據稀疏性和可擴展性相關的問題。MLC還包含額外的復雜性,包括建模標簽相關性【18】【19】、不平衡標簽【20】和噪聲標簽【21】。傳統的MLC方法,如問題轉換和算法適配【22】【23】,在解決這些挑戰時表現出次優性能。
除了傳統方法外,深度學習(DL)技術在解決MLC挑戰中越來越受歡迎。深度學習的強大學習能力特別適用于解決MLC挑戰,這通過它們在解決單標簽分類任務中的顯著成功得到了證明。目前,MLC中的一個主要趨勢是廣泛地結合DL技術,即使是對于更具挑戰性的問題,如極端MLC【24】【25】【26】、不平衡MLC【27】【28】、弱監督MLC【29】【30】【31】和缺失標簽的MLC【32】【33】。有效地利用DL的強大學習能力對于更好地理解和建模標簽相關性至關重要,從而使DL能夠有效地解決MLC問題。一些研究表明,專門設計用于捕獲標簽依賴性的MLC方法通常展示出更優越的預測性能【34】【19】。本文對現有文獻進行了簡要回顧,旨在識別一系列基于DL的技術用于MLC問題,以激發對MLC的創新DL基方法的進一步探索。已有一些關于MLC傳統方法的綜述,如在【35】【23】【36】中引用的那些。此外,還有一些綜述包含了傳統方法和DL方法【37】【38】,但這些綜述對MLC的DL方法的覆蓋有限,并且集中在特定領域。然而,本文獨特地關注于一系列DL架構,包括循環和卷積網絡、變換器、自編碼器和混合模型,用于解決多個領域中的MLC挑戰。在圖1中,我們提出了一個包含傳統方法和DL方法的多標簽學習方法的分類。
本文的主要貢獻可以概括如下:
據作者所知,本綜述是第一個全面覆蓋用于解決MLC任務的DL方法的,涵蓋了多種領域和數據模態,包括文本、音樂、圖像和視頻。
提供了一個關于多個公開可用數據集上最新DL方法的綜合總結(表I、II和III),簡要概述了每種DL方法并進行了深刻的討論。因此,本綜述為讀者提供了最先進的方法。
我們提供了當前面臨MLC領域挑戰的簡要描述。此外,我們還總結了在MLC中使用的多標簽數據集,以及評估這些數據集特性所用的屬性定義。 最后,本文提供了一項涉及各種DL技術的現有方法的比較研究,并調查了每種方法的優缺點(表V)。它提供了可以指導選擇合適技術和在未來研究中開發更好DL方法的見解。 本文的后續部分組織如下。 第II部分介紹多標簽學習的基本概念。第III部分介紹了研究方法論,重點是數據來源和搜索策略、選擇標準以及出版物的統計趨勢。第IV部分是本綜述的主要部分,討論了解決MLC挑戰的各種DL方法。第V部分關注MLC中的開放性挑戰和數據集。第VI部分提供了解決方案的比較分析,包括優勢和局限。最后,第VII部分給出了本文的結論。
近年來,DL(深度學習)的進步顯著豐富了MLC(多標簽分類)的領域景觀。DL架構在生成輸入特征和輸出空間的嵌入表示方面發揮了關鍵作用。DL的強大學習能力在各個領域的MLC任務中得到了廣泛應用,例如圖像、文本、音樂和視頻。用于MLC的最常用DL方法包括深度神經網絡、卷積、循環、自編碼器和變壓器架構,以及混合模型。有效地利用這些DL方法的優勢對于解決MLC中的標簽依賴性和其他挑戰至關重要。本節提供了這些突出DL方法在MLC中的應用概覽,并對每種技術進行了專門針對MLC的詳細考察。
這篇綜述論文深入探討了大型語言模型(LLM)的可解釋性領域,這是自然語言處理中的一個關鍵且充滿挑戰的方面。隨著LLM在各種應用中扮演著關鍵角色,它們的“黑盒”特性引發了關于透明度和道德使用的擔憂。本文強調增強LLM可解釋性的必要性,旨在解決公眾對這些模型的信任問題以及技術社區對深入理解這些模型的需求。我們專注于預訓練的基于Transformer的LLM,例如LLaMA(Touvron et al., 2023),它們由于規模和復雜性,呈現出獨特的解釋挑戰。我們的綜述歸類了現有的解釋性方法,并討論了它們在提高模型透明度和可靠性方面的應用。我們還討論了代表性的評估方法,強調它們的優勢和局限性。這篇綜述的目標是在理論理解和實際應用之間架起一座橋梁,為未來LLM可解釋性領域的研究和發展提供洞見。
**1 引言 **
在迅速發展的自然語言處理領域,大型語言模型(LLM)已成為一個基石,展現出在各種任務中的卓越能力。盡管它們效果顯著,LLM通常被視為“黑盒”系統,這在解釋性和透明度方面提出了重大挑戰。這種不透明性可能導致意想不到的后果,例如生成有害或誤導性內容(Gehman et al., 2020),以及模型幻覺的出現(Weidinger et al., 2021)。這些問題凸顯了增強解釋性的緊迫性,不僅是為了理解,更是為了負責任和倫理的應用。 在LLM中,解釋性具有兩個關鍵功能。對于終端用戶,它通過以非技術方式闡明模型的推理過程,增強了對其能力和潛在缺陷的理解,從而培養信任(Zhao et al., 2023)。對于開發者和研究人員,它提供了對意外偏見和改進領域的洞察,作為提升模型在下游任務上性能的工具(Bastings et al., 2022; Meng et al., 2023a; Li et al., 2023b)。然而,LLM的規模為解釋性帶來了獨特的挑戰。更大的模型、更多的參數和廣泛的訓練數據使得解釋變得更加困難。傳統的解釋方法,如SHAP值(Lundberg and Lee, 2017),對于這些大規模模型變得不太實用(Zhao et al., 2023)。此外,全面理解LLM特有現象,包括在上下文中的學習(Halawi et al., 2023; Hendel et al., 2023; Todd et al., 2023; Wang et al., 2023),以及解決模型幻覺(Ji et al., 2023; Chuang et al., 2023)和固有偏見(dev, 2023; An and Rudinger, 2023; Schick et al., 2021)等問題,對于模型設計的持續改進至關重要。 在這篇文獻綜述中,我們關注預訓練的基于Transformer的LLM的解釋性方法,這些模型通常被稱為基礎模型。這些模型通常在訓練數據上進行擴展,并擁有數十億個參數,例如GPT-2(Radford et al., 2019)、GPT-J(Chen et al., 2021)、GPT-3(Brown et al., 2020)、OPT(Yordanov et al., 2022)和LLaMA系列(Touvron et al., 2023)。在第2節中,我們根據文獻綜述對研究問題進行分類。基于這種分類,在第3節中,我們回顧了解釋性方法,隨后在第4節中討論了如何利用這些洞察。我們進一步在第5節中討論評估方法和指標。我們的目標是綜合并批判性地評估當代研究,旨在彌合理論理解與從復雜語言模型中提取的洞見的實際應用之間的差距。
2 概述
大型語言模型(LLM)領域正在迅速發展,使得解釋性不僅成為理解這些復雜系統的工具,而且對它們的改進至關重要。本節對當前的解釋性方法進行分類,強調在倫理和可控生成方面的挑戰,并提出未來探索的研究問題。 方法分類 我們在圖1中呈現了對解釋性方法及其應用的結構化分類。圖1展示了對預訓練語言模型(LM)解釋性方法的結構化分類。我們將這些方法分為兩大領域:局部分析和全局分析。局部分析涵蓋了特征歸因和Transformer塊分析,深入探討模型的詳細操作。另一方面,全局分析包括基于探針的方法和機制性解釋性,提供對模型行為和能力的全面理解。除了理解之外,我們還探索這些洞察在增強LLM能力方面的應用,重點關注模型編輯、能力增強和受控生成。
3 大型語言模型的解釋性
3.1 局部分析 LLM中的局部解釋旨在闡明模型如何為特定輸入生成特定預測,例如情感分類或令牌預測。本節將局部解釋方法分為兩類:特征歸因分析和對單個Transformer(Vaswani et al., 2017)組件的分析。
3.2 全局分析 與側重于闡明單個模型預測的局部分析不同,全局分析旨在理解和解釋模型隱藏狀態激活中編碼的知識或語言屬性。本節探討全局分析的兩種主要方法:審視模型表示的探針方法和機制性解釋性(Transformer Circuits, 2022),這是一種新興的觀點,旨在逆向工程深度神經網絡的內部工作機制。
4 利用解釋性
在本節中,我們討論如何將解釋性作為一個工具來調試和改進模型。雖然各種方法旨在通過微調或重新訓練來提高模型的能力,但我們專注于那些特別基于模型解釋性的強大基礎設計的方法。
4.1 模型編輯
盡管我們能夠訓練出熟練的大型語言模型(LLM),但確保它們的相關性和糾正錯誤的方法仍然難以捉摸。近年來,編輯LLM的技術出現了激增。其目標是在不對其他輸入的性能產生負面影響的情況下,高效地修改LLM在特定領域內的知識或行為(Yao et al., 2023)。
4.2 增強模型能力
雖然大型語言模型(LLM)在各種自然語言處理任務中表現出多樣性,但來自解釋性的洞察可以顯著增強這些能力。本節重點介紹了解釋性在最近的工作中顯示出顯著影響的兩個關鍵任務:改進長文本的利用(Xiao et al., 2023; Liu et al., 2023; Pope et al., 2022)和增強上下文中學習(In-Context Learning, ICL)的性能(Hendel et al., 2023; Halawi et al., 2023; Wang et al., 2023)。
4.3 可控生成
盡管大型語言模型在文本生成方面取得了卓越的表現,但有時它們在生成事實內容方面表現不佳。利用解釋性為構建推理時快速技術提供了機會,這些技術旨在提高生成模型的事實性、校準性和可控性,使其更符合人類偏好。
5 評估
近期,像GPT-4(OpenAI, 2023)這樣的大型語言模型展現了生成其預測的自然語言解釋的令人印象深刻的能力。然而,這些解釋是否真正幫助人類理解模型的推理過程,目前尚不明確(Zhao et al., 2023)。為了更好地評估解釋性方法(如歸因)的性能,需要專門設計的評估方法。此外,還需要校準的數據集和指標來評估解釋性在下游任務中的應用,例如真實性評估。 5.1 評估解釋的合理性 評估歸因解釋合理性的一種常見技術是移除K%估計重要性最高或最低的令牌,以觀察其對模型輸出的影響(Chen et al., 2020; Modarressi et al., 2023)。另一種評估解釋合理性的方法涉及間接方法,例如衡量模型編輯的性能,尤其是對于嚴重依賴解釋準確性的“定位-然后編輯”編輯方法。近期研究(Yao et al., 2023; Zhao et al., 2023)表明,擁有評估數據集對于評估LLM中的事實編輯至關重要。此目的常用的兩個數據集是ZsRE(Levy et al., 2017),一個通過反向翻譯生成問題改寫的問答(QA)數據集,以及CounterFact(Meng et al., 2023a),一個更具挑戰性的數據集,包含了與正確事實相比起始得分較低的反事實。 5.2 評估真實性 模型真實性是衡量生成模型可信度的重要指標。我們期望模型輸出既有信息量又事實正確且忠實。理想情況下,人類評注員會根據標準答案標記模型答案為真或假,但這通常成本較高。(Lin et al., 2022)提出使用兩個微調過的GPT-3-13B模型(GPT-judge)對每個答案進行真實或假的及有信息量或無信息量的分類。使用GPT-judge進行評估是TruthfulQA基準測試的標準做法,這是一個廣泛使用的數據集,對抗性構建以衡量語言模型在生成答案時的真實性(Askell et al., 2021; Li et al., 2023b; Chuang et al., 2023)。TruthfulQA的主要指標是真實*信息量,真實和信息量得分的乘積。這個指標不僅捕捉了有多少問題被真實地回答,還通過評估每個答案的信息量,防止模型無差別地回復“我無可奉告”。
6 結論
在本文中,我們提供了關于LLM的可解釋性及其應用的全面概述。我們總結了基于解釋目標的局部和全局分析方法。此外,我們討論了利用解釋來增強模型和評估這些方法的使用。理解LLM的主要未來研究方向包括開發針對不同語言模型的解釋方法,以及通過利用解釋性知識使LLM更值得信賴且與人類價值觀更一致。隨著LLM的不斷進步,可解釋性將變得極其重要,以確保這些模型是透明的、公平的和有益的。我們希望這篇文獻綜述為這一新興研究領域提供了有用的概述,并突出了未來研究的開放問題和方向。
本報告探討了 GHOSTS 框架的非玩家角色(NPC)客戶端生成的活動(包括軟件使用)與 GHOSTS 的默認行為和大型語言模型(LLM)生成的活動之間的比較。還探討了基本結果在復雜性和情感方面的比較。在研究中,利用了生成式人工智能(AI)系統的高級自然語言處理能力,特別是 LLMs(即 OpenAI 的 GPT-3.5 Turbo 和 GPT-4)來指導 GHOSTS 框架中的虛擬智能體(即 NPC),GHOSTS 框架是一種在計算機上模擬現實人類活動的工具。設計了一種配置,通過使用 LLM 使活動完全自動化,其中文本輸出成為可執行的智能體指令。初步研究結果表明,LLM 可以生成指令,從而在模擬環境中產生連貫、逼真的智能體行為。然而,某些任務的復雜性和指令到行動的轉換帶來了獨特的挑戰。這項研究對于提高模擬的逼真度和推動類人活動建模中的人工智能應用具有潛在的意義。建議開展進一步研究,以優化智能體對 LLM 指令的理解和響應。
網絡靶場是一個模擬環境,里面有各種登錄到計算機和網絡上的 NPC。這些 NPC 在組織內執行其角色所應執行的任務。現有的 GHOSTS 框架采用客戶機-服務器安裝方式,客戶機安裝在不同的操作系統(OS)上,執行所模擬角色的預期活動。服務器組件收集已執行活動的日志,并能根據一系列可用數據為每個智能體的新活動提供指導。
每個智能體在執行活動時都有各種考慮因素,包括智能體的特定參數、智能體過去的活動以及環境因素。固定參數包括姓名、身體特征、教育程度、工作經歷等。智能體還可能具有可變的特征,如偏好、信念、動機以及隨時間演變的過去活動歷史。
標準的 GHOSTS 配置提供了一套合理的默認值,可以充分隨機化這些考慮因素,以達到 T&E 的目的。團隊成員和其他人(如研究人員、培訓/練習用戶)都使用過這些隨機化策略;我們認為這種方法已經成熟,足以應對大多數情況。例如,模擬運營部門角色的智能體可能會在工作日每 20 分鐘創建一份文檔,同時交替使用互聯網瀏覽時間,以模擬文檔創建與必要的相關研究相結合的情況。
將 OpenAI 開發的不同 LLM 集成到 GHOSTS Animator [SEI 2023b]中,以便其他研究人員和網絡練習社區能夠繼續嘗試我們在本報告中討論的功能。每個 LLM 都充當了智能體的決策功能,生成文本輸出,我們將其轉化為智能體活動的指令。
為了實現這一整合,開發了一個系統,用于解釋 LLM 的輸出,并將其映射到 GHOSTS 框架中智能體可以執行的潛在行動上。該系統考慮到了語言解釋的可變性和智能體可用行動的限制。在將范圍廣泛的可能 LLM 輸出映射到更具體的智能體行動集時,我們面臨著獨特的挑戰。(我們將在下面的章節中描述這些挑戰。)這種集成方法能夠為我們的研究目的提供最廣泛的 LLM 響應,而不管它們與 GHOSTS 的執行是否相關。
為了在 GHOSTS NPC 中模擬更復雜的行為,將人類推理和行為的幾個方面整合到了智能體的決策過程中。這些方面都是在每次系統迭代或周期中執行的詢問過程中考慮的。在這種情況下,詢問是 LLM 分析智能體屬性和過去活動以決定下一步行動的機會。
每個 tick 或周期的持續時間是可配置的,可以是每個 CPU 周期所需的時間,也可以是更長的持續時間,如五分鐘。在每個 tick 期間,服務器會隨機選擇幾個智能體,并詢問它們以確定潛在的行動。這些行動可以包括學習新信息、與其他智能體建立聯系或執行一項活動。
這些詢問使用我們現有的隨機化策略。其中一些策略涉及純粹的隨機決策,而另一些則依賴于基于真實世界數據的預定義范圍或概率內的隨機化。目前實施的策略圍繞四個關鍵概念:
動機: 為了更準確地模擬智能體參與特定內容或執行特定操作的原因,我們需要了解他們的動機。在現實世界中,個人目的、目標和興趣往往是個人活動的驅動力。通過將動機納入模擬,我們可以模擬真實用戶的各種目標驅動行為。為此,我們采用了史蒂文-雷斯博士(Steven Reiss)設計的心理評估工具--雷斯動機檔案(Reiss Motivational Profile,RMP)[Reiss 2012]。RMP 根據人類的 16 種基本欲望來確定個人的核心價值觀和動機:權力、獨立、好奇、接受、秩序、節約、榮譽、理想主義、社會接觸、家庭、地位、復仇、浪漫、飲食、體育鍛煉和寧靜。通過模擬智能體對這些 RMP 欲望的獨特組合,我們模擬出了在整個演習過程中促使他們做出某些決定的內在動機。因此,這種理解揭示了智能體的行為傾向,有助于以更接近人類的方式指導其模擬行動。
關系: 人際關系對人類行為的影響是毋庸置疑的,它塑造了我們在社交圈中的學習、決策和互動方式。為了在模擬中更好地模擬這些關系的動態變化,我們在智能體的框架中加入了關系紐帶。這種方法包括在智能體之間建立聯系,考察它們之間關系的深度,以及研究它們對彼此的影響。這種方法使我們能夠模擬大量的社會互動,例如智能體向其信任的同伴尋求建議、與同事分享內容或參與各種話題的討論。這一特點不僅增強了智能體互動的真實性,還促進了智能體之間的知識獲取過程,這與人類在家庭、工作或公共場所從社交互動中學習的方式如出一轍。因此,在我們的模擬框架中引入關系可以增強智能體行為的真實性,更好地反映現實世界中人類互動的復雜性和細微差別。
知識: 人類用戶的一個顯著特點是他們在不同領域的知識廣度和深度。根據這一特點,我們為每個智能體配備了一個獨特的知識庫,以幫助塑造他們的模擬交互。這些知識庫為智能體如何尋求信息、分享專業知識或參與討論提供了信息,而所有這些都會受到他們對特定主題的理解的影響。智能體之間的動態知識獲取過程在我們的模擬中也發揮著至關重要的作用。知識獲取不僅增強了智能體互動的真實性,還通過潛在的內部威脅識別為模擬提供了額外的深度。例如,智能體知識庫中的異常變化可能表明其未經授權獲取了敏感信息,或者其關注點轉向了可能出于惡意目的而感興趣的主題。因此,將知識及其動態獲取納入智能體框架不僅能豐富模擬互動,還能增強內部威脅檢測和預防模擬的潛力。
信念: 個人持有的不同信念體系是其網絡行為的基礎,包括個人價值觀、觀點以及對爭議問題的立場。這些信念左右著互動和對話,往往會影響討論的動態。為了在智能體中模擬這種信念系統,我們將貝葉斯模型集成到智能體的推理過程中,使其能夠受到觀察到的支持某種信念的證據的影響。這種整合使智能體能夠就各種問題表達自己的立場,為自己的觀點辯護,甚至參與辯論,從而模擬現實世界中的人類行為。在社交媒體的背景下,對智能體的信念進行建模有助于表現分歧話題上的兩極分化觀點,使模擬更能代表真實世界的社會動態。
總之,通過將動機、關系、知識和信念整合到智能體推理框架中,我們成功地在 NPC 中創建了更全面、更真實的人類行為模擬。有了上述這么多組合的優勢,團隊就可以配置豐富的決策詢問,以確定任何智能體可能采取的行動方案。下一步是將這些詢問完全外包給 LLM,并比較結果,以便在大多數 T&E 場景中使用。
為了嚴格控制系統對 LLM 的訪問,我們設計了一種方法,即只有 GHOSTS 的服務器組件與人工智能進行交互。然后,服務器將人工智能生成的結果傳播給相關客戶端。這一過程的執行過程如下:
1.智能體(即 NPC)根據其默認配置,利用我們現有的隨機化方法啟動并執行一項任務,如文檔創建和網頁瀏覽。
2.智能體每隔幾分鐘向服務器報告其完成的活動。
3.同時,在這五步過程中,服務器作業每輪都會詢問一個隨機的智能體子集。至關重要的是,在每一輪開始時,步驟 2 中的活動歷史記錄都是可用的,并且可以作為代理下一步應該執行什么活動的決策因素。
4.服務器將新確定的活動傳達給客戶端,然后由客戶端執行。
5.該過程循環往復。如果智能體已經在運行,它只需尋找下一個要執行的活動。
在步驟 3 中,目標是將決定智能體活動的任務委托給 LLM,同時考慮 (A) 有關智能體的具體信息和 (B) 已執行活動的歷史記錄。考慮到 LLM 可能需要處理大量信息所帶來的成本影響,我們將 (A) 中的信息限制為最相關的細節,如個人數據、教育和組織歷史以及軟件賬戶。(B) 中的活動信息及其執行參數則用于提供智能體已完成任務的歷史記錄。
許多 LLM 應用程序編程接口(API)會根據系統或用戶直接輸入信息的不同來區分信息提示。我們使用系統級提示,以便對我們傳輸的信息和預期響應進行更嚴格的控制。這種方法使我們能夠以更精確、更可控的方式引導 LLM 的行為。
過去十年里,深度神經網絡通過使用小批量隨機梯度下降(mini-batch stochastic gradient descent)訓練方案在大型數據集上展現了顯著的成功。在此基礎上,研究者開始大量探索神經網絡在其他學習場景中的應用。一個受到廣泛關注的框架是元學習(meta-learning)。通常被描述為“學會學習”,元學習是一種以數據為驅動,優化學習算法的方法。其他感興趣的分支包括持續學習(continual learning)和在線學習(online learning),這兩者都涉及使用流數據逐步更新模型。雖然這些框架最初是獨立開發的,但最近的工作開始探討它們的結合,提出新穎的問題設置和學習算法。然而,由于復雜性的提高和缺乏統一術語,即使是經驗豐富的研究人員也可能難以辨識這些學習框架之間的差異。為了促進清晰的理解,本文提供了一份全面的綜述,使用一致的術語和正式描述來組織各種問題設置。通過概述這些學習范式,我們的工作旨在促進這一研究領域的進一步發展。
近年來,深度神經網絡的成功主要基于離線學習框架,該框架涉及使用從大型數據集中以獨立同分布(i.i.d.)方式采樣的小批量進行隨機梯度下降(SGD)。另一方面,人類展示出了令人印象深刻的遞增學習能力,即使是從高度非靜態數據流中也能學習,并且不像深度神經網絡那樣需要大量的訓練數據。此外,人類可以隨著知識和經驗的積累不斷提升其學習能力。因此,已有大量努力致力于使深度神經網絡適應這些類人學習場景。在線學習[1]和持續學習[2],[3]是應對這些挑戰的研究領域的例子。這兩者都通過從數據流中學習來逐步更新模型,但它們在目標和假設上有細微差別。最顯著的是,在線學習假設一個靜態流,而持續學習旨在減輕從非靜態流學習時的災難性遺忘。
另一個重要的研究領域是元學習[4]。與傳統機器學習不同,后者通過訓練集優化模型,元學習專注于以數據驅動的方式優化學習算法,使其產生比手工制作的學習算法更好的模型。因此,它通常被描述為“學會學習”。標準學習只涉及一個學習階段,而元學習包括多個學習階段,這些階段被分為元訓練集和元測試集。通過利用元訓練集中的多個階段提取的元知識,元學習旨在改進元測試集中每個階段的學習。元學習也與多個其他領域密切相關,如小樣本學習[5],[6],[7]和遷移學習[8],[9]。
雖然這些學習框架已經進行了廣泛的單獨研究,但最近在它們的協同結合方面出現了濃厚的興趣,導致了新問題設置和方法的出現。例如,在元持續學習的情況下,傳統元學習的每個階段被替換為一個持續學習階段。這種設置可以被稱為“學會持續學習”。另一個例子是在線元學習,其中學習階段不是一次性提供的,而是作為一系列階段呈現,可以總結為“順序學會學習”。
盡管這些框架每個都具有獨特的特點和重要性,但由于幾個原因它們可能容易混淆。首先,結合多個框架不可避免地增加了問題表述的復雜性。其次,即使問題設置的基本結構相同,個別論文經常引入一些變體,使它們更難以分類。最后,缺乏統一的術語和表述加劇了混淆。
在這種背景下,我們的主要目標是提供一個全面概述,涉及在線學習、持續學習和元學習之間的交叉點。我們建立了統一的符號來組織現有學習框架到一個明確定義的分類中。使用我們的符號,我們首先定義了四個基本學習框架,即離線學習、在線學習、持續學習和元學習。然后,我們將它們的組合分類為五個主要分支:元在線學習、元持續學習、在線元學習、持續元學習和持續雙層學習。對于這些組合學習框架中的每一個,我們提供了一個正式定義,并綜述了相關論文。
雖然我們確實解釋了基本學習框架的概念,但這項工作主要關注它們的組合,目前尚缺乏全面的綜述。雖然不是嚴格必要的,但參考現有的綜述可以促進對話題的更深入理解。我們建議參考在線學習的綜述[1],持續學習的[2],[3],以及元學習的[4]。總而言之,我們的貢獻可以概括如下。首先,我們為在線、持續和元學習的組合定義了清晰的學習框架分類。其次,我們提供了每個類別的全面綜述,識別了各種研究分支。第三,我們探討了剩余的挑戰,并提出了在這個有前景的領域未來工作的潛在途徑。
本文的其余部分安排如下。在§2中,我們介紹了學習框架的定義和分類。我們用正式算法和數據結構的圖形說明補充了描述。在§3-§6中,我們提供了每個學習框架的全面綜述和討論。在§7中,我們討論了剩余的挑戰,并提出了潛在的研究方向。最后,在§8中,我們以一般討論和未來的評論結束。
本節定義了相關學習框架的問題表述。我們根據它們的問題設置,將學習框架分類為八個主要分支:離線學習、在線學習、持續學習(CL)、元學習、元在線學習(MOL)、元持續學習(MCL)、在線元學習(OML)和持續元學習(CML)。解決這些問題的方法將分別在§3-6中描述。圖1展示了每個學習框架的關鍵特征和數據結構,表1總結了我們在本文中使用的統一符號。
在本報告中,我們記錄了機器學習(ML)回歸在周期性、高度振蕩和??∞函數上的可擴展性和靈敏度。這項工作的動機是需要在潮汐傳播等周期性問題上使用 ML 回歸。在這項工作中,TensorFlow 被用來研究周期函數從一維到三維的機器可擴展性。針對一系列層、神經元和學習率,計算了每個維度的掛鐘時間,以進一步研究 ML 回歸對這些參數的敏感性。最后,比較了隨機梯度下降和 Adam 優化器的掛鐘時間和敏感性。
量子啟示的機器學習(QiML)是一個迅速發展的領域,由于其有潛力在經典計算框架內利用量子力學的原理,因此受到了全球研究者的關注。然而,當前的綜述文獻經常只是對QiML進行淺層次的探討,而更多地關注更為廣泛的量子機器學習(QML)領域。為了填補這一空白,這項綜述為QiML提供了一個整合的、全面的調研,探討了QiML的多種研究領域,包括張量網絡模擬、去量子化算法等,并展示了近期的進展、實際應用以及可能的未來研究方向。進一步地,通過分析該術語的各種先前解釋及其固有的模糊性,為QiML建立了一個具體的定義。隨著QiML的不斷發展,我們預期未來將從量子力學、量子計算和經典機器學習中汲取大量新的發展,進一步豐富該領域。這項調查旨在為研究者和實踐者提供指導,為他們提供對QiML當前狀況和未來方向的全面了解。
量子啟示的機器學習(QiML)領域已經取得了大量的增長,吸引了全球研究者的關注。作為量子機器學習(QML)的一個特定子集,QiML專注于在經典計算框架內開發受量子力學原理啟發的經典機器學習算法,這通常被稱為QML分類中的“經典-經典”象限,如圖1所示。QiML代表了一個多面的研究領域,其綜述旨在超越傳統的經典最先進的結果,或探索量子形式所提供的表現力。
為了在QML的背景下定位QiML,我們簡要地說明了后者。更廣泛地說,QML位于量子計算和機器學習的吸引人的交匯點。主導的研究領域關注“經典-量子”域,并探討使用量子硬件加速和增強機器學習策略。在此,經典機器學習中存在的兩大挑戰得到了回應。首先,很多領域中數據集的不斷增大和復雜化產生了計算挑戰,這些挑戰經典機器學習難以高效管理。其次,量子計算提供了解決目前用經典計算方法難以實現的復雜問題的潛力[1]。但是,目前在實際的量子硬件上評估QML算法受到一些因素的限制,例如量子位數有限、量子門中的高誤差率、維持量子狀態(失去相干性)的困難,以及與量子錯誤糾正相關的挑戰[2]。因此,QML的景觀主要受到理論考慮的影響,而噪聲中間規模量子(NISQ)設備的最近進展為全規模量子計算的潛力提供了一個初步的、經驗性的預覽[3]。因此,QML對機器學習領域的真正影響和范圍仍然是一個持續的研究話題。
QiML與QML研究并肩發展。經常被引用的研究領域包括張量網絡量子模擬和去量子化算法[4],[5]。然而,與QML相比,QiML中的發現通常都有數字證據支持,這得益于沒有量子硬件的要求,因此相對于其他QML子集,更容易進行定量評估。雖然QiML研究正在蓬勃發展,但當前的綜述文獻往往忽略了這一領域,更多的關注是放在整個QML上。通常,QiML只是被簡要提及或被淺層次地處理[5],[6],[7],[8],[9],[10]。QiML的實際應用案例、其應用以及與標準經典基準的比較分析通常都沒有被探索。這指出了對QiML作為一個獨立領域進行深入審查的迫切需求。為了回應這一文獻空白,我們的調查旨在為QiML的各個方面提供一個全面、綜合的討論。
我們的目標是提供一個關于QiML在實踐中如何被使用的可訪問和全面的概述,詳細描述其最近的進展,并使讀者了解該領域的進展。讀者應該注意,從量子力學的視角探索QiML方法,并基于啟示來源對方法進行分類將是有趣的,但這次調查是從應用的角度來看待這個領域的。這次調查的貢獻是提供了近年來QiML及其研究方向的進展概述,并確定了QiML研究的未來方向。具體來說,它們是:突出并分類現有的QiML方法; ? 為QiML建立一個具體的定義,考慮到其多方向的研究趨勢; ? 討論這些方法的實際應用,特別是確定當前已經應用QiML技術的任務; ? 討論QiML在實踐中的限制因素,以及; ? 探索和討論QiML研究的潛在未來方向。
這本書提出和調研歸一化技術與深度分析訓練深度神經網絡。此外,作者還提供了針對特定任務設計新的規范化方法和網絡體系結構的技術細節。歸一化方法可以提高深度神經網絡(DNNs)的訓練穩定性、優化效率和泛化能力,已成為大多數先進DNN體系結構的基本組成部分。作者為闡述、理解和應用規范化方法提供了指導方針。這本書是理想的讀者致力于發展新的深度學習算法和/或其應用程序,以解決計算機視覺和機器學習任務中的實際問題。這本書也作為資源的研究人員,工程師,和學生誰是新的領域和需要了解和訓練DNN。
//link.springer.com/book/10.1007/978-3-031-14595-7
注意力是一種重要的機制,可用于跨許多不同領域和任務的各種深度學習模型。這項綜述提供了一個關于深度學習注意力機制的重要概述。各種注意力機制通過一個由注意力模型,統一符號,和一個全面的分類注意力機制組成的框架來進行解釋。在此基礎上,本文綜述了注意力模型評價的各種方法,并討論了基于該框架的注意力模型結構表征方法。最后,對注意力模型領域的未來工作進行了展望。
**模擬人類注意力的想法最早出現在計算機視覺領域[1],[2],試圖通過引入一個只關注圖像特定區域而不是整個圖像的模型來降低圖像處理的計算復雜度,同時提高性能。然而,我們今天所知道的注意力機制的真正起點通常是源于自然語言處理領域[3]。Bahdanau等人的[3]在機器翻譯模型中實現了注意力,以解決循環神經網絡結構中的某些問題。在Bahdanau等人的[3]強調了注意力的優點后,注意力技術得到了改進,[4],并迅速流行于各種任務,如文本分類[5]、[6]、圖像字幕[7]、[8]、情感分析[6]、[9],以及語音識別[10]、[11]、[12]。
注意力已經成為深度學習中的一種流行技術,原因有幾個。首先,整合了注意力機制的模型在上述所有任務和許多其他任務中都獲得了最先進的結果。此外,大多數注意力機制可以與基本模型聯合訓練,如使用規則反向傳播[3]的循環神經網絡或卷積神經網絡。此外,attention向神經網絡模型[8]引入了一種特定類型的解釋,這種解釋通常被認為非常復雜。此外,Transformer模型[13]的引入進一步證明了注意力的有效性,進一步提高了注意力機制的受歡迎程度。注意力最初是作為循環神經網絡[14]的擴展而引入的。然而,在[13]中提出的Transformer模型是注意力研究的一個重大發展,因為它證明了注意力機制足以建立一個最先進的模型。這意味著可以避免一些缺點,比如遞歸神經網絡特別難以并行化的事實。就像引入最初的注意力機制[3]一樣,Transformer模型是為機器翻譯創建的,但很快就被用于其他任務,如圖像處理[15]、視頻處理[16]和推薦系統[17]。
本綜述的目的是解釋注意力的一般形式,并提供一個在深度學習注意力技術的全面概述。關于注意力模型的其他綜述已經發表。例如,在[18]中,給出了計算機視覺中注意力的調研,[19]提供了圖模型中注意力的概述,[20],[21],[22]都是自然語言處理中注意力的調研。本文部分地建立在上述綜述所提供的資料之上。本綜述與前面提到的綜述的主要區別在于,其他的綜述一般都關注某個領域內的注意力模型。然而,這項綜述提供了一個跨領域的注意力技術概述。我們將以一種通用的方式討論注意力技術,使它們能夠被理解并應用于各種領域。此外,我們發現以往研究中提出的分類方法缺乏恰當區分各種注意力機制所需的深度和結構。此外,某些重要的注意力技巧在以前的綜述中還沒有得到適當的討論,而其他提出的注意力機制似乎缺乏技術細節或直觀的解釋。因此在本文中,我們通過使用統一符號的單一框架,結合技術和直觀的解釋,提出了重要的注意力技術,并對注意力機制進行了全面的分類。 本文的結構如下:第2節介紹了一個一般的注意力模型,為讀者提供了一個基本的了解注意力的屬性和如何應用它。本文的主要貢獻之一是在第3節中介紹的注意力技術的分類。在本節中,將根據所提供的分類法對注意機制進行解釋和分類。第4節概述了評估注意力模型的性能測量和方法。此外,該分類方法還用于評價各種注意模型的結構。最后,在第五部分,我們給出了結論和進一步研究的建議。
本節介紹一種注意力一般性與相應的符號。這里介紹的符號是基于[23]中引入并在[13]中普及的符號。本節中介紹的框架將在本文的其余部分中使用。為了實現一個通用的注意力模型,首先需要描述一個可以使用注意力的模型的一般特征。首先,我們將完整的模型稱為任務模型,其結構如圖1所示。這個模型只接受一個輸入,執行指定的任務,并產生所需的輸出。例如,任務模型可以是一種語言模型,它將一段文本作為輸入,并將內容摘要、情緒分類或逐字翻譯成另一種語言的文本作為輸出。或者,任務模型可以獲取圖像,并為該圖像生成標題或分割。任務模型由四個子模型組成: 特征模型、查詢模型、注意力模型和輸出模型。在2.1小節中,我們討論了特征模型和查詢模型,它們是用來為注意力計算準備輸入的。在2.2小節中,我們討論了注意力模型和輸出模型,它們與產生輸出有關。
有許多不同類型的注意力機制和擴展,一個模型可以使用這些注意技術的不同組合。因此,我們提出了一種分類法,可以用來對不同類型的注意機制進行分類。圖3提供了不同類別和子類別的視覺概述,注意力機制可以涵蓋在其中。基于是否關注技術是設計來處理特定類型的特征向量(相關特性),特定類型的模型查詢(查詢相關),或者它僅僅是一個通用的機制, 分成三大類。這些類別及其子類別的進一步解釋將在下面的小節中提供。本節中討論的每一種機制要么是對第2節中介紹的一般注意模塊現有內部機制的修改,要么是對其的擴展。
注意力機制分類法
特征相關注意力機制
**基于特定的一組輸入數據,特征模型提取特征向量,從而使注意力模型能夠關注這些不同的向量。這些特征可能具有特定的結構,需要特殊的注意力機制來處理它們。可以對這些機制進行分類,以處理以下特征特征之一: 特征的多樣性、特征的級別或特征的表示。
通用注意力機制
這個主要的類別包括了可以應用于任何類型的注意力模型的注意力機制。該組件的結構可以分解為以下幾個子方面:注意力評分函數、注意力對齊和注意力維度。
查詢相關的注意力機制查詢是任何注意力模型的重要組成部分,因為它們直接決定從特征向量中提取哪些信息。這些查詢基于任務模型的期望輸出,可以解釋為文字問題。有些查詢具有特定的特征,需要特定類型的機制來處理它們。因此,這一類封裝了處理特定類型查詢特征的注意力機制。這一類中的機制處理以下兩個查詢特征之一:查詢的類型或查詢的多樣性。**
在本節中,我們介紹了各種類型的注意力模型的評估。首先,我們可以使用第3節中介紹的分類法來評估注意力模型的結構。對于這樣的分析,我們考慮注意力機制類別(見圖3)作為模型的正交維數。可以通過確定模型對每個類別使用的機制來分析模型的結構。表3提供了文獻中發現的注意模型的概述,并基于模型實現的注意力機制進行了相應的分析。其次,我們討論了評價注意力模型表現的各種技術。注意力模型的性能可以通過外部或內部性能測量來評估,這將分別在第4.1和4.2小節中討論。
本研究綜述了近年來關于深度學習中的注意力模型的研究進展。注意力機制已經成為深度學習模型的一個顯著發展,因為它們已經表明可以顯著提高模型性能,在幾個研究領域的各種任務中產生了最先進的結果。我們提出了一個全面的分類,可以用來分類和解釋不同數量的注意力機制提出的文獻。分類法的組織基于任務模型的結構,該任務模型由一個特征模型、一個注意力模型、一個查詢模型和一個輸出模型組成。此外,還使用基于查詢、鍵和值的框架討論了注意力機制。最后,我們展示了如何使用外在和內在的測量方法來評估注意力模型的表現,以及如何使用分類方法來分析注意力模型的結構。
[1] H. Larochelle and G. E. Hinton, “Learning to combine foveal glimpses with a third-order Boltzmann machine,” in 24th Annual Conference in Neural Information Processing Systems (NIPS 2010). Curran Associates, Inc., 2010, pp. 1243–1251. [2] V. Mnih, N. Heess, A. Graves, and k. kavukcuoglu, “Recurrent models of visual attention,” in 27th Annual Conference on Neural Information Processing Systems (NIPS 2014). Curran Associates, Inc., 2014, pp. 2204–2212.