高清国产三级在线播放,国产亚洲欧美丝袜在线观看三区,日本高清不卡码二区三区

人工智能（AI）的歷史見證了高質量數據對各種深度學習模型的重大影響，例如ImageNet對于AlexNet和ResNet。最近，AI社區的關注點已從設計更復雜的神經結構（即模型為中心的方法）轉移到了數據為中心的方法，這種方法重點在于更好地處理數據以增強神經模型的能力。圖學習，操作于無處不在的拓撲數據上，也在深度學習時代中起到了重要作用**。在這次綜述中，我們從數據為中心的角度全面回顧了圖學習方法，并旨在回答兩個關鍵問題**：（1）何時修改圖數據以及（2）如何修改圖數據以發掘各種圖模型的潛力。因此，我們提出了一個基于圖學習流程中的階段的新分類法，并強調了圖數據中不同數據結構的處理方法，即拓撲、特征和標簽。此外，我們分析了嵌入在圖數據中的一些潛在問題，并討論了如何以數據為中心的方式解決它們。最后，我們為數據為中心的圖學習提供了一些建議的未來方向。

//arxiv.org/abs/2310.04987

最近在非歐幾里得領域的進展引起了人工智能（AI）社區的大量關注。圖，作為典型的非歐幾里得數據，在現實世界中無處不在，并已在許多領域中得到廣泛應用，例如推薦、安全、生物信息學等。在過去的十年中，由于圖模型的創新，圖相關研究得到了推動，從圖核心[1][2]到圖嵌入[3][4]，再到最新的圖神經網絡(GNNs)[5][6]。相反，關于圖數據的固有方面的研究較少，包括質量、多樣性、安全性等。 通常，AI的革命始終是由大量高質量數據的可用性引發的，隨后是強大的模型。一個顯著的例子是ImageNet[7]的成功，它為深度卷積神經網絡的發展做出了重要貢獻，例如AlexNet[8]和ResNet[9]。隨著數據的重要性得到越來越多的認可，最近，AI社區的關注點從以模型為中心的方法轉移到了以數據為中心的方法[10][11]。

新興的以數據為中心的AI強調產生適當的數據以提高給定模型的性能。“如何處理圖數據以發揮圖模型的全部潛力？”一個了解情況的答案可以幫助我們理解圖數據與圖模型之間的關系。然而，與圖像和表格數據等歐幾里得數據不同，圖的不規則性為以數據為中心的圖學習提出了幾個問題：首先，在什么時候我們應該修改圖數據以使圖模型受益？數據修改可能會在圖學習的不同階段發生。例如，我們可以在訓練之前啟發式地擾動邊，而在訓練期間我們也可以從節點表示中估計新的圖結構。其次，我們應該修改圖數據的哪一部分？圖數據涉及各種結構，包括邊、節點、特性和標簽，每一個都在圖表示學習中起到了重要作用。第三，如何防止圖模型受到有問題的圖數據的影響？由于手工定義的關系和特性，圖數據可能不可避免地引入噪聲和偏見，這使得模型變得不可靠。 本綜述系統地調研和分類了從數據中心的角度存在的圖學習方法。具體地說，為了回答第一個問題，我們將圖學習過程分為四個階段：準備、預處理、訓練和推斷，如圖1所示。我們討論了每個階段對圖數據的重要性。接下來，我們進一步從結構的角度對現有方法進行分類，以解決第二個問題。具體來說，我們考慮如何處理圖數據的拓撲、特征和標簽。最后，我們分析了現有圖數據中的潛在問題，包括脆弱性、不公平性、選擇偏見和異質性。并進一步討論如何從數據為中心的方式解決這些問題。

本文的貢獻可以總結如下：

? 新的分類法。我們按圖學習流程中的各個階段對現有的數據中心圖學習方法進行分類，包括預處理、訓練和推理。對于每個階段，我們都介紹了其在數據中心圖學習中的目標和重要性。 ? 多角度觀察。我們強調如何處理圖數據中的不同數據結構，包括拓撲、特征和標簽，以發揮給定圖模型的潛力。 ? 全面的討論。我們分析了有問題的圖數據對圖模型的潛在影響，并討論了如何以數據為中心的方式緩解這些問題。此外，我們提出了四個可能的數據中心圖學習的未來方向，這可能有助于這個領域的發展。組織. 本調查的其余部分組織如下：第2節概述了數據中心圖學習的背景，并描述了如何手動處理圖數據。第3-5節分別介紹了預處理、訓練和推理階段的數據中心圖學習方法。第6節介紹了圖數據的潛在問題，并討論了如何處理這些問題。最后，第7節對本文進行了總結，并提出了一些有前途的未來方向。

2. 預處理階段

在本節中，我們將討論圖數據預處理階段的數據中心方法。具體來說，我們將現有的方法分為兩類：基于修改的方法和基于分布的方法。第一類旨在通過修改圖數據實例來提高圖模型的性能。第二類則著重于幫助圖模型捕捉數據集的分布，同時保持圖實例不變。此外，我們還考慮了不同的數據結構，包括拓撲、特征和標簽。相關方法列示在表1中。

圖的簡化 (Graph Reduction)

隨著圖的規模的增大，其計算所消耗的時間和空間也會增加。因此，如何在不失去太多有用信息的前提下減少圖的節點或邊成為了一個有價值的問題。圖的簡化可以加速模型的訓練，減少過擬合，并允許在更簡單的硬件條件下對模型進行訓練。圖的簡化可以分為兩大類：邊的簡化和節點的簡化。邊的簡化指的是圖的稀疏化，而節點的簡化包括圖的粗糙化和圖的凝縮。

圖的增強 (Graph Augmentation)

在深度學習中，數據增強被認為是非常重要的。由于圖數據的稀缺性和稀疏性相當嚴重，因此一個好的增強方法的重要性更為明顯。與其他數據形式相比，直接操作圖結構的圖增強是最具特色的圖數據增強類型。在這里，我們將介紹一些脫離訓練的啟發式方法。它們可能很簡單，但證明是非常有效和受歡迎的。 特征增強 (Feature Augmentation)

通過創建或修改節點特征，特征增強可以使后續模型避免過擬合并提高其性能。對于已經有特征的圖，我們可以做一些直觀的調整來加強它們，例如特征損壞 [143]-[145]，特征洗牌，特征掩碼 [66], [87], [146]，特征添加，特征重寫 [147], [148]，特征傳播，特征混合 [149]等 [15]。對于最初沒有特征的節點，有適當生成特征的方法。為了獲取結構信息，Perozzi 提出了基于 word2vec [150] 的 deepwalk [3]，它從每個節點開始，多次隨機走動，最后使用所有路徑為節點通過 word2vec [150]c 生成節點嵌入。接著，node2vec [4] 來自 deepwalk [3]，它為節點添加了一個隨機行走的概率。另一條與隨機行走無關的線是 SDNE [151]。他們通過編碼器-解碼器架構得到圖的結構。具體來說，他們將鄰接矩陣的每一列作為初始節點嵌入，這是編碼器的輸入。并計算模型在初始嵌入和解碼嵌入之間的損失。在非標記圖中，特征增強是通過無監督學習實現的。例如，GREET [211] 將原始圖分割成兩個子圖，一個包含同質邊，另一個包含異質邊，然后通過兩個單獨的 GNN 得到子圖嵌入，再連接這些子圖嵌入來獲取節點特征。總的來說，特征增強是多種多樣和任意的，特殊的特征增強可以根據特定問題的需要進行定制。 位置編碼 (Position Encoding)

眾所周知，信息傳遞神經網絡 (MPNNs) 的表達能力受到1-Weisfeiler-Lehman (WL) 測試的限制，不能區分同構圖 [212]。為了打破這個限制，一個受歡迎的方法是用一些位置信息來增強節點特征，這被稱為位置編碼。在本節中，我們將介紹兩種類型的位置編碼：絕對方法和相對方法。 標簽混合 (Label Mixing)

標簽混合旨在將帶有標簽或嵌入的兩個不同實例混合為一個新的實例，并使用這些混合的實例來訓練模型。這樣得到的模型更具泛化性，不容易過擬合。 Mixup 在圖分類和節點分類任務中都扮演著重要的角色。一方面，面對圖分類任務，我們可以采用各種方法來增強模型。一種方法 [174] 涉及混合多個預先存在的圖嵌入。或者，我們可以隨機選擇一個子圖，并用另一個圖中的相應子圖替代它，同時保留原始圖的嵌入，使模型更好地集中于數據的相關方面 [175], [176]。另一方面，一些工作 [177] 提議將鄰近節點的標簽或嵌入進行混合，用于節點分類任務。圖的課程學習 (Graph Curriculum Learning) 課程學習 (CL) [215] 是一種模仿人類學習過程的訓練策略，主張模型從簡單樣本開始學習，然后逐漸過渡到復雜樣本。這種策略可以幫助模型更快地收斂，并提高模型的泛化能力。圖的課程學習 (Graph CL) [216] 是一種基于圖的課程學習方法，主要用于圖神經網絡的訓練和優化。大多數 CL 方法有兩個重要功能，難度測量器和訓練調度器。難度測量器可以評估訓練數據的難度，以給予學習優先權，而訓練調度器決定如何從簡單到困難地進行學習。根據這兩者是否自動設計，CL 方法可以分為兩類，即預定義的 CL 和自動的 CL。在本節中，我們將介紹預定義的 Graph CL。圖采樣 (Graph Sampling) 圖采樣方法使用不同的策略對節點進行采樣，并在計算節點的表示時僅聚合部分節點的信息，這加速了模型的收斂并減少了內存開銷。在這部分中，我們將討論啟發式采樣方法，這些方法可以進一步劃分為兩個類別：隨機采樣和重要性采樣。圖生成 (Graph Generation) 在現實世界中，某些圖數據集對于圖模型來說太小，無法有效地理解其分布。圖生成器 [219], [220] 可以通過生成額外的圖數據來幫助緩解這個問題。圖生成的方法可以分為兩種類型：自回歸 (autoregressive) 和一次性生成 (one-shot)。 3. 訓練階段 (TRAINING STAGE)

在本節中，我們介紹了訓練階段的圖數據修改方法，其中數據修改模塊和信息傳遞模塊合作以提高性能。具體而言，我們介紹了三種模型-數據協同的訓練范式，包括聯合訓練 (joint training)、自訓練 (self training) 和雙層訓練 (bi-level training)。相關方法可以在表格 1 (Table 1) 中查看。 4. 推斷階段 (INFERENCE STAGE)

推斷階段是指使用預訓練的圖模型進行下游任務的階段。在這個階段，我們重新定義下游任務為一個統一的模板，以與我們的預訓練模型對齊。這有助于彌合我們的預文本任務與下游任務之間的差距，實現高質量的知識轉移和多任務適應。此外，推斷數據是指在預訓練模型的推斷階段使用的圖數據。從數據中心的角度看，調整推斷數據作為提示可以幫助在不改變模型參數的情況下獲得期望的目標。在本節中，我們討論了在圖的背景下逐漸受到歡迎的提示學習方法。為了詳細說明，我們將現有的圖提示方法分為兩類：預提示 (pre-prompt) 和后提示 (post-prompt)，這取決于任務特定的提示是在信息傳遞模塊之前還是之后操作，如圖 1 (Figure 1) 所示。 結論 (CONCLUSION)

在這篇綜述中，我們對數據中心的圖學習進行了全面的回顧。我們從兩個角度對現有方法進行分類：一個是學習階段，包括預處理、訓練和推斷；另一個是數據結構，包括拓撲、特征和標簽。通過這兩個視角，我們仔細解釋了何時修改圖數據以及如何修改圖數據，以釋放圖模型的潛力。此外，我們還介紹了圖數據的一些潛在問題，并討論了如何用數據中心的方法解決它們。最后，我們提出了該領域的幾個有前景的未來方向。總的來說，我們相信數據中心的人工智能是通向一般人工智能的可行路徑，并且數據中心的圖學習將在圖數據挖掘中發揮重要作用。

付費5元查看完整內容

模式連接性

模式連接性指的是通過基于梯度的優化得到的解可以在權重空間中通過一條無障礙的路徑（連接器）進行連接。我們可以沿著低損失路徑獲得更適合模型融合的其他模型。根據路徑的數學形式和連接器所在的空間，我們將此部分劃分為“線性模式連接性”，“非線性模式連接性”和“子空間中的模式連接性”。模式連接性可以在訓練過程中解決局部優化問題。模式連接性的路徑的幾何關系也可以用來加速優化過程，如隨機梯度下降（SGD）的收斂、穩定性和準確性。簡而言之，模式連接性為解釋和理解模型融合的行為提供了一個新的視角。但是，特別是在大數據集上訓練模型時，應解決計算復雜性和參數調整的困難。

對齊

對齊是將多個模型的單元進行匹配，并對模型進行平均以獲得最終模型。對齊后，不同模型之間的特定數學度量（例如，歐幾里得距離）可以更為接近，從而減小模型之間的差異，進而增強深度模型融合的效果。對齊可分為“激活匹配”和“權重匹配”，取決于是否需要考慮數據分布。此外，Re-basin基于對齊引入，探討解決方案可以通過排列不變性被傳輸到一個單一的盆地（即，參數空間中相對低損失的區域）。然而，對齊通常面臨著計算量大、組合優化速度慢和架構差異的障礙，使得它不易擴展到具有不同目標的其他場景。例如，伴隨圖匹配而來的記憶負擔限制了深度模型融合的應用。

權重平均

權重平均是將幾個母網絡融合成一個單一網絡的最直接和高效的方式。與模式連接性和對齊相比，權重平均不需要額外的計算復雜性或訓練來找到一個優越的起點，在模型包含一定程度的相似性時表現良好。根據聚合空間，權重平均可分為“權重平均”和“子空間中的平均”。此外，典型的方法“模型湯”，“模型算術”和“隨機權重平均”也對現有方法進行了顯著改進。然而，當參數被規范化和合并時，可能會在模型結構或參數數量存在較大差異的情況下引入一些偏差。盡管如此，權重平均仍然是深度模型融合的主流方法，因為它簡單且高效。

集成學習

集成學習結合了幾種不同模型的輸出，以改善預測性能和魯棒性。我們專注于深度學習中的集成學習。基于集成學習，“模型重用”為每個模型提供了規格，這樣在給定新的學習任務時，有用的模型可以從模型池中被識別和合并。集成學習具有各種框架和便捷的界面，經常用于實際領域，例如物體檢測等。盡管集成學習需要維護多個訓練過的模型并在測試時運行每個模型，但它仍然是在深度學習中被廣泛采用的強大技術之一。

模型融合的應用

作為一項提高深度模型的準確性和魯棒性的技術，模型融合促進了許多應用領域的改進。聯邦學習，一種在中央服務器上聚合客戶端模型的應用，使得各方可以貢獻數據到功能的計算中（例如，各種統計、分類器），而無需泄露隱私。微調對預訓練模型進行小的調整，結合模型融合以減少訓練成本并適應特定任務或領域的需求。模型融合還涉及到“蒸餾”。即，將來自多個復雜模型的軟目標知識結合起來，為特定要求訓練一個小模型。模型融合在foundation/LLMs上的應用包括在大型基礎模型或大型語言模型（LLMs）上的工作，例如視覺變壓器（ViT）和GPT等。模型融合的應用幫助開發人員適應各種任務和領域的需求，并促進深度學習的發展。簡而言之，我們的調查回顧了深度模型融合技術。在前三節“模式連接性”，“對齊”和“權重平均”中，我們主要從模型參數融合的角度進行全面研究。在“集成學習”中，我們主要從模型輸出聚合的角度探討了這個問題。

本工作的主要貢獻總結如下：

? 我們從“模式連接性”，“對齊”，“權重平均”和“集成學習”的角度提出了一種新的深度模型融合分類方法，該方法涵蓋了模型融合的理論綜合方法，并為實現DNNs的高泛化和準確訓練提供了指導。

? 我們比較了融合方法的優缺點，并解釋了它們之間的機制和關系，為未來設計先進的模型融合方法提供了靈感。

? 我們總結了深度模型融合的廣泛應用。我們還討論了當前的研究趨勢，以便在未來引起更多的關注和反思。此外，本文的其余部分組織如下：在第2節到第5節，我們根據“模式連接性”、“對齊”、“權重平均”和“集成學習”的四個角度介紹深度模型融合的方法。第6節介紹了深度模型融合的應用：“聯邦學習”、“微調”、“蒸餾”和“在foundation/LLMs上的模型融合”。最后，在第7節中，我們總結了深度模型融合，并討論了未來的挑戰和潛在方向。另外，我們在全文中說明了符號及其相應的定義。Wi是第i個具有權重Wi ∈ R^d（i = 1, 2, ...k）和偏置項b的神經網絡。λ表示加權參數。σ表示非線性神經元激活函數。L是損失函數，用于量化預測值和實際值之間的差異。

付費5元查看完整內容

終身學習 · 計算機視覺 ·

2023 年 7 月 13 日

[付費5元查看完整內容]計算機視覺中的終身學習綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

終身學習（LLL）作為一種新興方法打破了傳統機器學習的局限性，并賦予了模型能夠像人類一樣在學習過程中不斷積累、優化并轉移知識的能力。近年來，隨著深度學習的廣泛應用，越來越多的研究致力于解決深度神經網絡中出現的災難性遺忘問題和擺脫穩定性-可塑性困境，并將LLL方法應用于各種各樣的實際場景中，以推進人工智能由弱向強的發展。針對計算機視覺領域，首先，在圖像分類任務中將LLL方法歸納為四大類型：基于數據驅動的方法、基于優化過程的方法、基于網絡結構的方法和基于知識組合的方法；然后，介紹了 LLL方法在其他視覺任務中的典型應用和相關評估指標；最后，針對現階段LLL方法的不足之處進行討論并提出了LLL方法未來發展的方向。

傳統的機器學習總是被限制在一個封閉的靜態環境中，通常被稱為孤立學習，這種學習方式不考慮任務以外的信息，即針對一個任務，模型的訓練和推理只在符合獨立同分布假設的數據上進行；然而這樣的學習方式是低效的，畢竟現實場景顯然是一個開放的動態環境，人類在這種環境下會不斷地積累知識并優化形成經驗，用于幫助解決出現的問題［1］。終身學習（LifeLong Learning， LLL）范式是通過模仿人類的學習過程抽象而來。人類擁有強大的獲取、調整和遷移知識的能力，例如會騎自行車的人能夠很快學會騎摩托車，在遇到新任務或者新問題時會很快產生聯想并無縫地將這些知識遷移，然后根據特定的問題進行特別的學習。這樣的學習方式是高效且自然的，這也是終身學習過程中最為重要的一環。

在計算機視覺領域，以深度學習為代表的學習框架尚未達到終身學習范式的要求。例如要單獨訓練一個過參數化的深度模型，就必須為每個任務收集大量的數據和進行繁瑣的人工預處理等，這使得學習成本隨著任務量大幅增加，這無疑是耗時且低效的方式，尤其是在一些對時間和性能有特殊要求的應用場景下甚至是不被允許的。深度學習獨特的訓練和推理模式使得深度學習模型還遠遠達不到人類的學習效果，例如要融入終身學習范式目前還存在著兩個嚴峻的挑戰：1）災難性遺忘，即網絡在學習了新的知識之后，可能會徹底遺忘在先前任務上學到的知識［2］；2）概念漂移，即網絡對屬于同類但是不同分布的新數據表現效果差［3］。因此要求深度學習模型既要滿足一定的可塑性以適應新數據的輸入，又要具備一定的穩定性以避免在整合新知識的同時產生大量的遺忘，即擺脫穩定性-可塑性困境［4］。此外，一個簡單的思路是融合所有的數據訓練一個大規模模型，即聯合訓練或者多任務學習，但這并不在本文定義的終身學習范式內；因為把時間線拉長，無休止地存儲所有數據必然無法實現，所以需要對它進行一定程度的限制，其次每當接受新任務時就要重新訓練所有的數據也不符合人類的學習方式。針對深度學習的框架，直觀上聯合訓練或許是終身學習方法的一個上界，因為深度學習是一個優化問題，聯合訓練更有可能找到所有任務的全局最優解。為滿足對模型存儲上的限制要求，大量的研究者從深度學習的框架入手，從多個角度探索終身學習的解決方式，并在多個應用方向展現了它的可行性。本文調研并跟蹤了近年來的終身學習相關文獻，相較于文獻［5-6］，本文增加了評估終身學習模型性能的相關指標，不僅考慮了模型在終身學習過程中識別的能力，同時考慮了存儲即資源利用的能力；相較于文獻［7-8］，本文不僅在圖像分類中詳細調研了終身學習的相關應用，還介紹了終身學習在其他計算機視覺如目標檢測等中的應用。終身學習不僅要解決實際應用環境中的成本問題，更有可能是現階段弱人工智能邁向未來強人工智能的重要一步。

1 終身學習的定義

終身學習是一個連續學習的過程。假設在時間點 t模型 Mt 已經完成了 N 個學習任務 T1，T2，?，TN，其中每個任務都有對應的數據集 D1，D2，?，DN，任務之間沒有嚴格的約束并且此時模型積累了源自這 N 個任務的知識并存儲于知識庫中。當面對新的任務 TN + 1 及其數據 DN + 1 時，Mt 可以利用知識庫中積累的先驗知識幫助學習 TN + 1，并且在學習 TN + 1 后， Mt能夠根據從 TN + 1中學到的知識進行同步更新為 Mt + 1以供未來繼續使用，同時 Mt + 1 能最大限度地保留在先前 N 個任務上的性能。由此可見，終身學習的關鍵是持續地學習和不斷積累知識，即 Mt 如何利用先驗知識學習 TN + 1 和如何存儲新知識演化為 Mt + 1。在這個定義下，還額外需增加一個存儲限制，即知識庫不能保留所有的訓練數據，否則將會與多任務學習無異，違背終身學習的初衷。

2 終身學習方法的分類

計算機視覺作為深度學習最為成功的應用，框架一般可以拆解為輸入、優化和結構這 3 個部分，用于積累和再應用的知識就可以以這 3 個部分作為切入點，同時也可以組合使用它們。本文將從知識的角度對終身學習方法進行分類與歸納，如表 1所示。

3 終身學習的其他應用

終身學習不僅在解決基礎問題中開闊了研究空間，也逐漸助力于目標檢測（Object Detection）［77-81］、語義分割（Semantic Segmentation）［77-81］、圖像生成［90-95］和其他［96-102］等各類計算機視覺的研究方向。

4 結語 本文主要回顧了終身學習在圖像分類任務上的基本方法，介紹了在其他計算機視覺任務上的成功應用，最后簡要探討了在未來可以進一步推動終身學習發展的方向。終身學習給予了模型在動態環境中更多更強大的學習能力，雖然目前仍處于起步階段，但不可置疑這是人工智能發展的重要一環，無論是理論上的研究，還是工業界的落地都具有非常大的意義。

付費5元查看完整內容

AIGC · ChatGPT · GPT · 生成式AI ·

2023 年 6 月 3 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著ChatGPT等大型人工智能（AI）模型的廣泛應用，人工智能生成內容（AIGC）越來越受到關注，正引領著內容創建和知識表示的范式轉變。AIGC使用生成性大型AI算法，根據用戶提供的提示，以更快的速度和更低的成本輔助或替代人類創建大量的、高質量的、類似人類的內容。盡管AIGC最近取得了顯著的進步，但其安全性、隱私性、道德和法律挑戰仍需得到解決。本文深入調研了AIGC的工作原理、安全和隱私威脅、最先進的解決方案以及AIGC范式的未來挑戰。具體而言，我們首先探討了AIGC的啟用技術、通用架構，并討論其工作模式和關鍵特征。然后，我們調研了AIGC的安全和隱私威脅的分類，并強調了GPT和AIGC技術的道德和社會影響。此外，我們回顧了關于AIGC模型及其生成內容的可規范AIGC范式的最新AIGC水印方法。最后，我們確定了與AIGC相關的未來挑戰和開放的研究方向。

//www.zhuanzhi.ai/paper/b8bd2d1b3785e54627ad947b1997f5d9

1. 引言

人工智能生成內容（AIGC）指的是利用生成性AI算法來協助或替代人類，基于用戶的輸入或需求，以更快的速度和更低的成本創建豐富的個性化和高質量內容[1]-[3]。AIGC包含了廣泛的合成內容，包括文本（如詩歌），圖片（如藝術品），音頻（如音樂），視頻（如動畫），增強訓練樣本和交互式3D內容（如虛擬化身，資產和環境）。作為傳統內容創作范例，如專業生成內容（PGC）和用戶生成內容（UGC）的補充，充滿前景的AIGC范例允許以自動化和有效的方式生產大量的內容，且成本低[4]，這對各種新興應用如元宇宙[5]和數字孿生[6]都非常有益。例如，在Roblox（一款交互式元宇宙游戲）中，AIGC可以為化身產生個性化皮膚和3D游戲場景，使用戶能在一個沉浸式的虛擬空間中玩耍，合作和社交。根據Gartner的數據[7]，到2025年，生成性AI算法預計將生產約10%的所有數據。

從技術角度看，AIGC通常由兩個階段組成[3]：(i) 提取和理解用戶的意圖信息，以及 (ii) 根據提取的意圖生成所需的內容。2022年11月，OpenAI發布了ChatGPT，這是一個多功能的語言模型，能夠生成代碼，編寫故事，執行機器翻譯，進行語義分析等等。到2023年1月，每天有近1300萬用戶在與ChatGPT交互[8]。ChatGPT是生成預訓練Transformer（GPT）的一個變種，GPT是一個基于Transformer的大型語言模型（LLM），能夠理解人類語言并創造類似人類的文本（例如，故事和文章）[9]，如圖1所示。隨著最近大型語言模型（如ChatGPT和其后繼者GPT-4）的進步，AIGC的能力得到了顯著加強，可以執行更復雜的任務（例如，多模態任務）并具有更高的準確性，這得益于LLM提供的更好的意圖提取[10]。由于技術進步和需求增加，AIGC已經引起了全球的關注，并在娛樂，廣告，藝術和教育等各種應用中展現出了巨大的潛力。包括OpenAI，Google，Microsoft，NVIDIA和百度在內的科技巨頭都已經宣布他們將探索AIGC，并開發了他們自己的AIGC產品。

在AIGC時代，更大的數據集是"燃料"，更大的基礎模型是"引擎"，而廣泛的計算能力則起到了"加速器"的作用。對于從GPT-3.5模型微調的ChatGPT，其訓練數據集包括近1萬億個詞，大約45TB大小[11]，并且在預訓練GPT中整合了自我監督學習，強化學習和提示學習等多種AI技術。ChatGPT的訓練所需的計算能力大約是每天3640 PetaFLOPs，相當于每秒計算10萬億次，需要3640天才能完成[12]。在大數據，大模型和大計算能力的工程組合下，ChatGPT展示了強大的新功能和更高級模式的學習能力，并能根據用戶的多模態提示自動創作有價值的內容。除了大規模訓練數據和廣泛計算能力帶來的好處外，ChatGPT還整合了一系列新技術。例如，ChatGPT使用了思維鏈（CoT）提示[13]，這使得預訓練的LLM能夠通過逐步推理來解釋其推理過程，在少示例和零示例學習設置中。此外，從人類反饋中的強化學習（RLHF）[14]被整合進來，通過訓練一個包含人類反饋的獎勵模型并通過強化學習對LLM進行微調，幫助ChatGPT更好地理解人類的偏好。更進一步的，在計算機視覺（CV）領域，由創業公司Stability AI開發的穩定擴散[15]和由OpenAI在2022年開發的DALL-E 2[16]已經成功地從復雜和多樣的文本描述中生成高分辨率和自然看起來的圖像。

A.動機盡管AIGC的前景光明，但安全和隱私問題對其廣泛應用構成了重大障礙。在AIGC服務的生命周期中，可能會出現一些安全漏洞、隱私泄露、信任問題和道德問題，這些問題可能源自普遍的數據收集，智能模型/數據盜竊，到大量的網絡釣魚郵件的分發。

安全漏洞。AIGC模型在生命周期的每個階段都面臨著安全威脅。例如，在模型訓練過程中，攻擊者可能使用有毒或敵對的樣本來降低模型性能[17]，或發起后門攻擊以操縱模型結果[18]；在模型部署后，攻擊者可能通過智能模型盜竊攻擊來竊取AIGC模型或其部分功能[19]。由于大型AIGC模型如ChatGPT采用的策略比通用模型更復雜，可能會出現更多的安全威脅（如越獄[20]和提示注入[21]），這些威脅可能是全新的。此外，生成型AI模型仍然面臨著關于透明度、魯棒性和偏見/歧視的技術限制。
隱私侵權。AIGC模型的成功在很大程度上依賴于可能無可避免地包含用戶敏感和私人信息的大量訓練數據集。例如，ChatGPT在與用戶交互時，能夠記住與會話相關的項目以及用戶輸入、cookie和日志[22]，[23]。這為在AIGC中的數據濫用和犯罪活動帶來了新的可能。根據最近的一項研究[24]，對黑盒GPT-2模型，攻擊者可以使用提示注入和公共文本特征從AI記憶中恢復最多67%的訓練文本，包括個人名字、地址和電話號碼。2023年3月，由于對隱私合規的擔憂，意大利禁止使用ChatGPT[25]。
信任問題。AIGC技術的快速發展使得創造和傳播虛假信息和假證據，如深度偽造內容和假新聞[26]變得越來越容易。這導致了新類型的犯罪活動的出現，如AI欺詐、誹謗、身份盜竊和冒充[27]。例如，ChatGPT可以產生誤導和不道德的回應，具有惡意意圖的個人可以利用其生成無瑕疵文本的能力進行欺詐，復制語音模式進行冒充，和開發惡意代碼進行黑客攻擊。這極大地增加了為由生成性AI模型產生的材料建立可追溯來源和規定的需求，以確保其問責制。
道德影響。作為一把雙刃劍，AIGC技術也對人類社會產生了負面影響，并可能被濫用用于分發惡意軟件、勒索軟件和網絡釣魚郵件。例如，ChatGPT產生即時和令人信服的對話的能力可以使其更容易制作釣魚郵件，誘騙收件人點擊有害鏈接，下載惡意軟件，或者泄露機密信息[28]。此外，AIGC可以促進課堂上的作弊，藝術中的抄襲，和學術論文的欺詐，使得這樣的行為更容易被犯下，也更難被發現。

本文的其余部分按如下方式組織。在第二部分，我們介紹AIGC的工作原理。第三部分討論了AIGC中安全和隱私問題的分類，以及最新的對策。第四部分介紹了AIGC模型和內容的IP保護和規定。第五部分探討了未來的研究方向。最后，第六部分得出結論。本文的組織結構在圖2中展示。

2. AI生成內容：工作原理

在這一部分，我們首先介紹AIGC的發展路線圖和啟用技術。然后，我們討論內容創建范式以及知識表示和使用范式的范式轉變。之后，我們展示了AIGC的一般架構，工作模式，關鍵特性，應用，以及現代原型。

如圖3所示，人工智能生成內容即服務（AIGCaaS）的一般架構包括以下三層：（i）基礎設施層，（ii）AIGC引擎層，和（iii）AIGC服務層。

? 基礎層。隨著大型AI模型（如參數達1750B的GPT-3）的規模持續擴大，對廣泛的計算能力，強大的AI算法，和大量訓練數據的需求日益增長。對于ChatGPT，大計算能力，大數據，和大模型的組合釋放出了其在學習用戶提供的多模態提示并自動生成高質量內容方面的強大的突現能力。AI算法包括AI框架（如TensorFlow，Pytorch，和Keras），有監督/無監督學習算法，和生成AI模型（如transformer和擴散模型）。配備了強大的GPU，TPU，AI芯片和大量存儲的云服務器，使得基礎AIGC模型的高效訓練成為可能。所涉及的訓練數據可以是已標注的數據，或從互聯網收集的數據，可以是非結構化和多模態的。

? AIGC引擎層。多模態基礎模型（如GPT-4）在大量的多模態數據上進行預訓練，并能在不需要任務特定微調的情況下執行多種不同的任務[33]。此外，各種底層技術，如CoT提示，人類反饋的強化學習（RLHF），和多模態技術，都被集成到訓練和優化基礎模型中。多模態基礎模型作為AIGCaaS的引擎，為上層AIGC服務賦予了越來越強的實時學習能力。此外，多模態基礎模型可以通過與數十億用戶的實時和密集交互進行逐步的演化和優化，因為它允許從更多的私有數據（如用戶輸入和歷史對話）以及個人和機構的反饋中學習[38]。

? AIGC服務層。從能力的角度看，AIGC服務包括生成文本，音頻，圖像，視頻，代碼，3D內容，數字人，和多模態內容。從終端用戶的角度看，AIGC服務可以分為兩種類型：ToB（面向業務）和ToC（面向消費者）。雖然基礎模型為各種任務提供了一種一刀切的解決方案，但它可能在特定任務上的表現不如專用AI模型。① 對于ToB情況，一個機構或機構聯盟可以通過在包含標注業務數據的較小數據集上對基礎模型進行微調，訓練出一個專用AI模型來執行特定任務，如醫療診斷或財務分析。例如，一個機構聯盟可以通過聯邦學習和遷移學習技術使用本地業務數據共同訓練一個在基礎模型之上的專用AI模型[39]。此外，還可以結合兩種方法以獲得更好的結果。例如，可以使用一個專用AI模型進行特定任務，并將其輸出作為輸入提供給基礎模型，以生成更全面的響應。 ② 對于ToC情況，每個用戶都可以定制一個網絡分身[6]（即智能手機或PC中的程序），并使用自然語言與之交流。網絡分身有自己的記憶存儲用戶的偏好，興趣和歷史行為，以及任務特定的專業知識。利用這些知識，網絡分身為用戶生成個性化的提示，從而提供高效和定制的AIGC服務。此外，它還實現了一個反饋環，用戶可以對AI提供的建議進行評價。網絡分身也可以通過構建一個連接的網絡并自由分享所學習的知識和技能，來協同完成更復雜的任務[6]。對于ToB和ToC兩種情況，以倫理和保護隱私的方式處理個人和機構的私有數據都至關重要。此外，在提供AIGC服務時，保護基礎模型和專用AI模型的知識產權，以及AI生成內容的出處，也是非常重要的。

在未來，AIGC有可能完全取代簡單和非創新的人類工作，同時也加速了人機協作時代的到來。AIGC在內容生成方面有兩種主要模式：輔助生成和自主生成[5]。

? AI-Assisted Content Creation（需要人類干預）。在這種模式下，AI算法為創造內容的人類提供建議或幫助。然后，人類可以根據AI提出的建議編輯和改進內容，以提高最終產品的質量。然而，這種模式在內容創建上往往比較慢且成本更高。

? Autonomous Content Creation by AI（不需要人類干預）。在這種模式下，AI完全自主地創造內容，沒有任何人類的干預。AI機器人可以自主快速且低成本地創建大量內容，而產生的內容質量取決于生成的AI模型。

在此部分，我們將討論不同類型的AI生成內容以及其應用： 1）文本生成。大型語言模型（LLM）可以比人類作者更快、更有效地生成高質量的文本 [10]。這包括博客、新聞、代碼、文章、營銷副本和產品描述。此外，它使聊天機器人和虛擬助手能夠通過AI生成的文本以人類的方式與客戶和客戶進行溝通。 2）圖像生成。大型視覺模型（LVM）可以將草圖轉化為數字繪制的圖像，用于各種目的，包括創造視覺藝術、廣告圖片、游戲場景、駕駛模擬環境以及增加訓練樣本。 3）音頻生成。AI生成的音頻有著廣泛的應用，包括語音合成、音樂創作和聲音設計。如Amper Music這樣的音樂創作AI程序，允許用戶使用AI創建原創音樂。 4）視頻生成。AI生成的視頻可以廣泛用于虛擬現實、增強現實、營銷、廣告、娛樂和教育等各種領域。 5）3D內容生成。AIGC可以通過分析照片和視頻等真實世界的數據來創建逼真的3D模型，AI生成的3D模型可以用來創建動畫、游戲資產和產品設計。 6）數字人生成。AIGC可以生成具有高度逼真動作和表情的數字人，可用于游戲、虛擬現實和廣告等各種領域。 7）跨模態生成。AIGC中的跨模態內容生成指的是使用基礎AIGC模型在多種模態之間生成新內容 [3]。它包括文本到圖像、圖像到文本、文本到代碼、文本到視頻、文本到音頻等。總的來說，AIGC讓生活變得更加便捷和高效，但也帶來了新的安全/隱私威脅、倫理問題以及潛在的偏見，這些將在下一節中展示。

付費5元查看完整內容

深度學習 · 數學推理 · 綜述論文 ·

2022 年 12 月 25 日

[付費5元查看完整內容]深度學習在數學推理中的應用綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

數學推理是人類智能的一個基本方面，可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如，數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺，推動新的算法和建模的進步。另一方面，大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估，并討論了該領域未來的研究方向。

1. 引言

數學推理是人類智能的一個關鍵方面，它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域，涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點，可以追溯到20世紀60年代(Feigenbaum et al.， 1963;Bobrow, 1964)。近年來，人們對這一領域的興趣激增，如圖1所示。

深度學習在各種自然語言處理任務中表現出巨大的成功，如問答和機器翻譯(Sutskever等人，2014;Devlin等人，2018)。類似地，研究人員開發了各種用于數學推理的神經網絡方法，已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如，基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al.， 2018a;Chiang and Chen, 2019)。此外，通過大規模語料庫和Transformer模型(Vaswani et al.， 2017)，預訓練語言模型在各種數學任務上取得了有希望的結果。最近，像GPT-3 (Brown et al.， 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力，進一步推進了數學推理領域。

最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節)，并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節)，用于數學推理。進一步分析了現有的基準，發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明，當前的數值表示是不夠的，深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。

2 任務和數據集

在本節中，我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。

2.1 數學應用題解決

幾十年來，開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al.， 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述，涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模，這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算，有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。

2.2 定理證明

自動化定理證明是人工智能領域長期以來的挑戰(Newell等人，1957;Feigenbaum et al.， 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能，例如選擇有效的多步策略，使用背景知識和執行符號操作(例如算術或推導)。

2.3 幾何解題

自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008)，近年來備受關注。與數學應用題不同，幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示，多模態輸入描述了幾何元素的實體、屬性和關系，目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務，因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。

2.4 數學問答

數值推理是人類智能中的核心能力，在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決，還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如，QuaRel (Tafjord et al.， 2019)是一個包含不同故事問題的數據集，涉及19種不同類型的數量。McTaco (Zhou et al.， 2019)研究的是時間常識問題，而Fermi (Kalyan et al.， 2021)研究的是費米問題，其答案只能近似估計。

3 用于數學推理的神經網絡

3.1 數學的Seq2Seq網絡

序列到序列(Seq2Seq) (Sutskever et al.， 2014)神經網絡已成功應用于數學推理任務，如數學應用題解決(Wang et al.， 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al.， 2018)和數學問答(Tafjord et al.， 2019)。Seq2Seq模型使用編碼器-解碼器架構，通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人，2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al.， 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明，Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。

3.2基于圖的數學網絡

Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構，例如抽象語法樹(AST)和一種基于圖的結構，它描述了表達式中的結構化信息。然而，Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題，基于圖的神經網絡被開發出來顯式地建模表達式中的結構。序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如，(Liu et al.， 2019a)設計了一個Seq2Tree模型，以更好地利用來自方程的AST的信息。相反，Seq2DAG (Cao et al.， 2021)，在生成方程時應用了序列圖(Seq2Graph)框架，因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時，也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如，ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al.， 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡

注意力機制已成功應用于自然語言處理(Bahdanau等人，2014)和計算機視覺問題(Xu等人，2015;Woo等人，2018)，在解碼過程中考慮了輸入的隱藏向量。最近，研究人員一直在探索它在數學推理任務中的有用性，因為它可以用來識別數學概念之間最重要的關系。例如，Math-EN (Wang et al.， 2018a)是一個數學應用題解決程序，受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務，如幾何問題求解(Robaidek等人，2018;Chen et al.， 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究，以提取更好的表示，例如Group-ATT (Li et al.， 2019)，它使用不同的多頭注意力來提取各種類型的MWP特征，以及圖注意力，用于提取知識感知信息(Wu et al.， 2020)。

4 預訓練的數學推理語言模型

預訓練語言模型(例如，Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人，2020)。通過在大型文本語料庫上進行預訓練，模型學習有價值的世界知識(Guu等人，2020)，這些知識可應用于下游任務，如問題回答(Khashabi等人，2020)、文本分類(Minaee等人，2021)和對話生成(Zhang等人，2019;Qiu等，2022a,b)。類似的想法可以應用于與數學相關的問題，之前的工作表明，預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022)，協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a)，以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。

**然而，盡管大型語言模型在建模自然語言方面表現出色，但將其用于數學推理存在一些挑戰。**首先，預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比，他們對數學相關任務的熟練程度較低。與文本數據相比，用于大規模預訓練的數學或科學數據也較少。其次，預訓練模型的規模繼續增長，使得為特定的下游任務從頭訓練整個模型的成本很高。此外，下游任務可能處理不同的輸入格式或模態，如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰，研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后，盡管預訓練語言模型可以編碼大量的語言信息，但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al.， 2020;Kalyan等人，2021年)。考慮到這一點，最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。

5 .基于上下文的數學推理學習

大型語言模型(LLM)，如GPT3 (Brown et al.， 2020)，最近徹底改變了自然語言處理(NLP)領域，特別是由于其強大的少樣本上下文學習能力(Brown et al.， 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務，而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型，而無需擔心為每個任務進行微調和存儲大量新參數，因此現在被廣泛用于少樣本設置(Min等人，2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞，例如，請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8，而few-shot通過給出多個示例來工作，然后是一個最終輸入示例，模型預計將預測輸出。然而，這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人，2021)。

結論：

本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集，并討論了已經采取的各種方法，包括早期的神經網絡，后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距，包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后，對未來的研究方向進行了展望，并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作，我們創建了一個閱讀列表，并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新

付費5元查看完整內容

深度學習 · Sanjeev Arora ·

2022 年 11 月 11 日

[付費5元查看完整內容]《打開黑盒：深度學習理論》最新報告，普林斯頓Sanjeev Arora教授，附ppt

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

最近，深度學習在許多AI/ML任務中被證明非常成功，但對該技術的理論理解一直滯后。這次報告將調研正在進行的努力，以理解這種方法的成功，包括優化方面和巨大的網絡在微小數據集上不過度擬合的神奇能力。

在過去的十年里，深度學習迅速占據了人工智能和機器學習的主導地位。盡管深度學習在很大程度上是一個“黑盒子”，但不可否認，其取得了顯著的成功。當下，有一個小的分支學科正在發展起來，獲得對深度學習潛在數學特性更好的理解。通過對深度學習在某些具體情況下的最新理論分析的回顧，我們說明了黑盒理論是如何忽略(甚至錯誤地理解)訓練過程中發生的特殊現象的。這些現象也沒有體現在訓練目標函數中。我們認為，通過數學視角來理解這種現象對于未來的全面應用至關重要。

**演講嘉賓：**Sanjeev Arora

**Sanjeev Arora是普林斯頓大學計算機科學Charles C. Fitzmorris教授。**他曾獲得Packard Fellowship(1997)、Simons Investigator Award(2012)、G?del Prize(2001和2010)、ACM Prize in Computing(2012)和Fulkerson Prize(2012)。他是NAAS Fellow和NAS成員。

付費5元查看完整內容

深度強化學習 · 進化算法 · 綜述論文 ·

2022 年 7 月 16 日

[付費5元查看完整內容]結合進化算法的深度強化學習方法研究綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

深度強化學習是目前機器學習領域中重要的研究分支之一，它可以通過直接與環境進行交互實現端到端的學習，對高維度和大規模的問題有著很好的解決能力．雖然深度強化學習已經取得了矚目的成果，但其仍面臨著對環境探索能力不足、魯棒性差、容易受到由欺騙性獎勵導致的欺騙性梯度影響等問題．進化算法普遍具有較好的全局搜索能力、良好的魯棒性和并行性等優點，因此將進化算法與深度強化學習結合用于彌補深度強化學習不足的方法成為了當前研究的熱點．該文主要關注進化算法在無模型的深度強化學習方法中的應用，首先簡單介紹了進化算法和強化學習基本方法，之后詳細闡述了兩類結合進化算法的強化學習方法，分別是進化算法引導策略搜索的強化學習和結合進化算法的深度強化學習，同時對這些方法進行了對比與分析，最后對該領域的研究重點和發展趨勢進行了探究．長期以來，強化學習都是機器學習方法中不可或缺的一部分，在國際上也一直是機器學習領域中炙手可熱的研究分支．在強化學習中，智能體首先根據環境狀態進行決策從而產生動作，之后通過產生的動作與環境進行交互獲得強化信號，調整產生決策的函數映射，使得智能體能夠選擇獲得環境最大獎勵的決策方案．智能體經過長期與環境的交互，不斷向累積回報最大的方向優化策略，最終使累積回報盡可能地最大化．2013年，DeepMind團隊的 Mnih 等人首先將傳統強化學習中的Q-Learning算法［１］與深度神經網絡相結合，并提出了深度Ｑ網絡（Deep Q-Network，ＤＱＮ）算法［２３］，使用ＤＱＮ算法訓練的智能體在Atari游戲中取得了超過人類得分的驚人表現．這一成果開拓了深度強化學習這一新的方向，并成為了當今人工智能領域新的研究熱點．深度強化學習是一種端到端的學習方法，它不需要標記的數據作為輸入，而是通過與環境進行交互獲取原始輸入信息，從而學習動作策略，通過不斷的試錯形成具有強大學習能力的智能體［４］．2016年，DeepMind團隊使用深度強化學習訓練的AlphaGo智能體［５］擊敗了人類最頂尖的圍棋選手，是機器學習領域的重大標志性事件，使得深度強化學習成為研究者們關注的焦點．目前深度強化學習在機器博弈［５７］、機器人控制［８］、自然語言處理［９］、最優控制［１０］和計算機視覺［１］等領域中取得了廣泛的應用，被認為是通向通用人工智能的重要方法之一［１２］．

付費5元查看完整內容

強化學習 · 可解釋性 · 強化學習可解釋性 · 人工智能可解釋性 · 機器學習 ·

2022 年 1 月 16 日

[付費5元查看完整內容]強化學習可解釋性基礎問題探索和方法綜述

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

強化學習是一種從試錯過程中發現最優行為策略的技術，已經成為解決環境交互問題的通用方法.然而，作為一類機器學習算法，強化學習也面臨著機器學習領域的公共難題，即難以被人理解.缺乏可解釋性限制了強化學習在安全敏感領域中的應用，如醫療、駕駛等，并導致強化學習在環境仿真、任務泛化等問題中缺乏普遍適用的解決方案.為了克服強化學習的這一弱點，涌現了大量強化學習可解釋性（Explainable Reinforcement Learning，XRL）的研究.然而，學術界對XRL尚缺乏一致認識.因此，本文探索XRL的基礎性問題，并對現有工作進行綜述.具體而言，本文首先探討了父問題——人工智能可解釋性，對人工智能可解釋性的已有定義進行了匯總；其次，構建了一套可解釋性領域的理論體系，從而描述XRL與人工智能可解釋性的共同問題，包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分了解釋的直觀性；然后，根據強化學習本身的特征，定義了XRL的三個獨有問題，即環境解釋、任務解釋、策略解釋；之后，對現有方法進行了系統的歸類，并對XRL的最新進展進行綜述；最后，展望了XRL領域的潛在研究方向.

//www.jos.org.cn/jos/article/abstract/6485

人工智能(Artificial Intelligence, AI)和機器學習(Machine Learning, ML) 在計算機視覺[1] 、自然語言處理 [2] 、智能體策略[3] 等研究領域都取得了突破,并逐漸融入人的生活.雖然 ML 算法對于很多問題具有良好表現,但由于算法缺乏可解釋性,模型實際使用中常受到質疑[4] [5] ,尤其在安全敏感的應用領域,如自動駕駛、醫療等.缺乏可解釋性的問題已經成為機器學習的瓶頸問題之一.

強化學習(Reinforcement Learning, RL)被驗證適用于復雜的環境交互類問題[6]-[8] ,如機器人控制[9] ,游戲 AI[10] 等.但作為機器學習的一類方法,RL 同樣面臨著缺乏可解釋性的問題,主要表現在如下 4 個方面:

(1) 安全敏感領域中的應用受限.由于缺乏可解釋性,RL 策略難以保證其可靠性,存在安全隱患.這一問題在安全敏感任務(如醫療、駕駛等)中難以被忽略.因此,為避免模型不可靠帶來的危險,RL 在安全敏感任務中大多局限于輔助人類的決策,如機器人輔助手術[11] ,輔助駕駛[12] 等;

(2) 真實世界知識的學習困難.雖然目前 RL 應用在一些仿真環境中具有優異表現,如 OpenAI gym[13] , 但這些仿真環境以簡單游戲為主,與真實世界存在較大差異.另外,RL 應用難以避免對環境的過擬合. 當過擬合發生時,模型學到環境的背景信息,而非真正的知識.這導致了兩難的問題,一方面,在真實世界中訓練 RL 模型通常消耗巨大,另一方面,難以確定在虛擬環境中訓練的模型學到了真實的規律.

(3) 相似任務的策略泛化困難.RL 策略通常與環境存在強耦合,難以被應用到相似環境中.甚至在同樣的環境下,環境參數的微小變化也會極大影響模型性能.這一問題影響了模型的泛化能力,難以確定模型在相似任務中的表現.

(4) 對抗攻擊的安全隱患難于應對.對抗攻擊[14] 是一種針對模型輸入的攻擊技術,通過將微小的惡意擾動加入到模型的輸入中生成對抗樣本.對人而言,對抗樣本不影響判斷,甚至難以察覺,然而對于模型而言,對抗樣本會使模型的輸出產生極大的偏差.對抗攻擊從深度學習擴展到 RL[15] [16] ,成為 RL 算法的安全隱患.對抗攻擊的有效性進一步暴露了 RL 缺乏可解釋性的問題,同時也進一步說明 RL 模型并未學到真正的知識.

解釋對模型的設計者和使用者都具有重要的意義.對于模型的設計者,解釋能體現模型所學的知識,便于通過人的經驗驗證模型是否學到魯棒的知識,從而使人高效地參與到模型的設計和優化中;對于特定領域的專家使用者,解釋提供模型的內部邏輯,當模型表現優于人時,便于從模型中提取知識以指導人在該領域內的實踐.對于普通用戶,解釋呈現模型的決策的原因,從而加深用戶對模型的理解,增強用戶對模型的信心.

強化學習可解釋性(Explainable Reinforcement Learning, XRL),或可解釋強化學習,是人工智能可解釋性 (Explainable Artificial Intelligence, XAI)的子問題,用于增強人對模型理解,優化模型性能,從而解決上述缺乏可解釋性導致的 4 類問題. XRL 與 XAI 之間存在共性,同時 XRL 具備自身的獨特性.

一方面，XRL 與 XAI 存在共性.首先,提供解釋的對象是智能算法而非機械算法.機械算法,如排序、查找等,其特點是完備的輸入,固定的解法以及明確的解.而智能算法因為輸入的不完備以及解法的不確定,導致算法必須在解空間中尋找較優的解;其次,人和模型是兩個直接面對的關鍵實體.與其他技術不同,可解釋性方法關注人對模型的理解.由于人對大量條例混亂的數據缺乏理解,因此解釋通常對模型內在邏輯的抽象,這一過程必然伴隨對模型策略的簡化.其中的難點是,如何在向人提供解釋時,保證該解釋與模型主體邏輯的一致性;最后,解釋的難度是相對的,同時由問題規模和模型結構兩個因素決定,并且這兩個因素在一定條件下相互轉化. 例如,結構簡單的模型(如決策樹、貝葉斯網絡等)在通常可以直觀的展示輸入和輸出之間的邏輯關系,但面對由大量簡單結構組成的龐大模型,其錯綜復雜的邏輯關系仍然導致模型的整體不可理解.同時,雖然結構復雜的模型(如神經網絡)通常難以被理解,但當模型被極致約減時(如將神經網絡塌縮為具有少數變量的復合函數),模型本身仍然可以被人所理解。

另一方面,XRL 也具備自身的獨特性.強化學習問題由環境、任務、智能體策略三個關鍵因素組成,因此, 解決 XRL 問題必須同時考慮這三個關鍵因素.由于 XRL 的發展仍處于初步階段,大部分方法直接從 XAI 的研究中繼承,導致現有研究集中于對智能體策略的解釋,即解釋智能體行為的動機及行為之間的關聯.然而,缺乏對環境和任務的認識使得一些關鍵問題無從解決:缺乏對環境的認識使人在面臨復雜任務時,缺乏對環境內部規律的理解,導致對環境狀態進行抽象時忽略有利信息,使智能體難以學到真實的規律;缺乏對任務的解釋使任務目標與過程狀態序列之間的關聯不明確,不利于智能體策略與環境的解耦合,影響強化學習智能體策略在相似任務或動態環境中的泛化能力.因此,對環境、任務和策略的解釋存在強關聯,是實現強化學習解釋必然面臨的問題.

目前,XRL 已經成為 AI 領域的重要議題,雖然研究者們為提高強化學習模型的可解釋性做出了大量工作, 但學術界對 XRL 尚且缺乏一致的認識,導致所提方法也難以類比.為了解決這一問題,本文探索 XRL 的基礎性問題,并對現有工作進行總結.首先,本文從 XAI 出發,對其通用觀點進行總結,作為分析 XRL 問題的基礎;然后, 分析 XRL 與 XAI 的共同問題,構建出一套可解釋性領域的理論體系,包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分解釋的直觀性;其次,探討 XRL 問題的獨特性,提出包括環境解釋、任務解釋和策略解釋的三個 XRL 領域的獨有問題;隨后,對現有 XRL 領域的研究進展進行總結.以技術類別和解釋效果為依據將對現有方法進行分類,對于每個分類,根據獲取解釋的時間、解釋的范圍、解釋的程度和 XRL 的獨有問題,確定每類方法的屬性;最后,展望了 XRL 領域的潛在研究方向,重點對環境和任務的解釋、統一的評估標準兩個方向進行展開.

1 人工智能可解釋性的觀點總結

對 XRL 的研究不能脫離 XAI 的基礎.一方面,XRL 是 XAI 的子領域,其方法和定義密切相關,因此 XRL 的現有研究廣泛借鑒了 XAI 在其他方向(如視覺)的成果;另一方面,XRL 目前仍處于起步階段,對其針對性的討論較少,而對于 XAI,研究者們長期以來進行了廣泛的研究和討論[17] -[24] ,具有深刻的借鑒意義.基于上述原因, 本文從 XAI 的角度探討可解釋性問題,整理出學術界對 XAI 的共識,以此作為 XRL 的研究基礎.

雖然學者們從不同角度對 XAI 的定義在特定情況下指導著一類研究.然而,缺乏精確而統一的定義使得學術界對 XAI 的認識存在一定差異.本文對 XAI 相關的定義進行總結,并將其分為形而上的概念描述、形而下的概念描述兩類.

形而上的概念描述使用抽象概念對可解釋性進行定義[25] -[28] .這些文獻使用抽象的詞描述可解釋性算法,例如可信性(trustworthy),可靠性(reliability)等.其中可信性意味著人以較強的信心相信模型所做的決定,而可靠性意味著模型不同場景下總是能保持其性能.雖然這樣抽象的概念不夠精確,只能產生直觀的解釋,但仍然可以使人準確了解可解釋性的目標、對象和作用,建立對可解釋性的直覺認知.這些概念表明,可解釋性算法具備兩個關鍵實體,即人和模型.換而言之,可解釋性是一項以模型為對象,以人為目標的技術.

形而下的概念描述從哲學、數學等的觀點出發,基于解釋的現實意義對其進行定義.如 Páez 等人[17] 從哲學角度出發,認為解釋所產生的理解并不完全等同于知識,同時理解的過程也不一定建立在真實的基礎上.我們認為,解釋作為媒介存在,這個媒介通過呈現模型的真實知識或構建虛擬邏輯的方式,增強人對模型的理解.同時,人對模型的理解不必建立在完全掌握模型的基礎上,只要求掌握模型的主要邏輯,并能對結果進行符合認知的預測. Doran 等人[29] 認為,可解釋性系統使人們不僅能看到,更能研究和理解模型輸入和輸出之間的數學映射. 一般而言,AI 算法的本質是一組由輸入到輸出的數學映射,而解釋則是將這樣的數學映射以人類可理解和研究的方式展現出來.雖然數學映射也是人們為描述世界而創造的一種方式,但對于復雜的數學映射(如用于表示神經網絡的高維多層嵌套函數),人們卻無法將其與生活中的直觀邏輯相聯系. Tjoa 等人[19] 認為,可解釋性是用于解釋算法做出的決策,揭示算法運作機制中的模式以及為系統提供連貫的數學模型或推導.這一解釋也基于數學表達,反映出人們更多地通過模型的決策模式來理解模型,而非數學上的可重現性.

一些觀點與上述文獻存在微小出入,但仍具有借鑒意義.例如,Arrieta 等人[21] 認為可解釋性是模型的被動特征,指示模型被人類觀察者理解的程度.這個觀點將模型的可解釋性視為被動特征,忽略了模型為了更強的可解釋性而主動提出解釋的可能. Das 等人[23] 認為,解釋是一種用于驗證 AI 智能體或 AI 算法的方式.這一觀點傾向于關注模型的結果,其目的是為了確保模型一貫的性能.然而該描述忽略了一個事實,即模型本身意味著知識,可解釋性不僅是對模型結果的驗證,同時也有助于從模型中提取人們尚未掌握的知識,促進人類實踐的發展.雖存在較小出入,但上述觀點也提出了獨特的角度,例如,可以將模型的可解釋性視為模型的一個特性,而評估模型的性能是解釋的重要功能.

雖然對 XAI 的定義眾多,但就整體而言,學術界對 XAI 的基本概念仍然是一致的.本文嘗試提取其中的共性作為研究 XRL 問題的理論基礎.通過對以上文獻的分析,我們總結出學術界對 XAI 的共識:

(1) 人與模型是可解釋性直接面對的兩個關鍵的實體,可解釋性是一項以模型為對象,以人為目標的技術; (2) 解釋作為理解的媒介存在,該媒介可以是真實存在的事物,也可以是理想構建的邏輯,亦或是二者并舉,達到讓人能夠理解模型的目的; (3) 人的對模型的理解不需要建立在完全掌握模型的基礎上; (4) 可準確重現的數學推導不可取代可解釋性,人對模型的理解包括感性和理性的認知; (5) 可解釋性是模型的特性,這一特性可用于驗證模型的性能.

2 強化學習可解釋性與人工智能可解釋性的共同問題

在對 XAI 定義進行總結的基礎上,本節討論 XRL 與 XAI 面臨的共同問題.由于 XRL 與 XAI 之間存在強耦合,因此本節內容既適用于 XAI,同時也是 XRL 的基礎問題.

2.1 智能算法和機械算法界定

可解釋性的對象是智能算法而非機械算法.傳統認知中的機械算法,如排序、查找等,面對確定的任務目標, 同時具有固定的算法程序.強化學習作為一種智能算法,在與環境動態交互的過程中尋找最優的策略,最大化獲得的獎賞.界定智能算法和機械算法可用于確定被解釋的對象,進而回答“什么需要被解釋”的問題.一方面,智能算法與機械算法存在差異,而解釋只在面向智能算法時存在必要性;另一方面,即使對于強化學習,也無需對其所有過程產生解釋,而應針對其具有智能算法特性的部分進行解釋,如動作生成、環境狀態轉移等.因此,在討論可解釋性問題前,有必要區分智能算法和機械算法.

本文根據算法對已知條件的獲取程度和建模的完整性,定義“完全知識”和“完全建模”:

完全知識:已知足夠任務相關的有效知識,具備以機械過程獲得最優解的條件;

完全建模:進行完整的問題建模,具備完成任務所需的計算能力;

完全知識是以機械方法確定最優解的前提.例如,求解系數矩陣的秩為的線性方程組,完全知識表示其增廣矩陣的秩大于等于系數矩陣的秩,此時可以根據當前知識,獲得確定的解或者確定其無解;完全建模意味著對現有知識的充分利用,換言之,完全建模從建模者的角度出發,表示在解決任務的過程中有能力(包括程序設計者的設計能力和硬件的算力)利用所有的知識.例如,在 19×19 圍棋游戲中,存在理論上的最優解法,但目前尚不具備足夠的計算能力在有限時間內獲取最優解.

根據上述對完全知識和完全建模的定義,本文進一步提出“任務完全”的概念來確定機械算法與智能算法之間的邊界:

任務完全:對特定任務,具備完全知識并進行完全建模.

任務完全必須在完全知識的前提下進行完全建模.滿足任務完全的條件后,算法的優劣取僅決于建模方式和使用者的實際需求.任務完全的定義考慮了知識和建模兩方面因素(圖 1).

任務完全的概念可以用來區分機械算法和智能算法.機械算法是任務完全的,具體來說,算法已知足夠的知識,并進行了無簡化的建模.此時,算法具備獲取最優解的條件,因此算法的過程是確定的,獲得的解也是可預期的.例如,經典排序算法、傳統數據查詢、3×3 井字棋游戲算法等都屬于機械算法.智能算法是任務不完全的, 這意味著算法不具備足夠的知識,或者采取了簡化的建模方式.智能算法無法直接獲取最優解,通常在解空間中尋找較優的解.如基于貪心策略的算法,線性回歸方法,19×19 傳統圍棋策略,機器學習類算法等。

導致任務不完全的可能有二,即知識不完全和建模不完全.在知識不完全的情況下,算法無法直接確定最優解,因此只能在解空間中逼近最優解.此時,智能算法的實際作用是在解空間中進行解的選擇.導致知識不完全的因素通常是客觀的,如環境狀態無法被完全觀測,任務目標不可預知,任務評價指標的不可知,任務始終點不可知等等;在建模不完全的情況下,算法通常忽略某些知識,導致算法過程沒有充分利用知識,從而無法獲得最優解.建模不完全的原因有客觀和主觀兩方面,客觀原因如建模偏差,不完全建模等,主觀原因包括降低硬件需求,模型提速等.在強化學習中,并非所有過程具備任務不完全的特點,因此只有部分需要進行解釋,如策略生成、環境狀態轉移等.

2.2 對“解釋”的定義

在漢語詞典中,解釋有“分析、闡明”的含義.這不僅符合生活中對該詞的理解,同時也與可解釋性研究中“解釋”的含義相近.然而,具體到可解釋性的研究中,這一含義顯得寬泛.我們希望結合對可解釋性的理解,細化“解釋”的含義,使之具有更強的指導意義.以強化學習模型為例,模型學習使獎勵最大化的策略,其中包含著環境、獎勵和智能體之間的隱式知識,而 XRL 算法則是將這些隱式知識顯式地表現出來.本文將多個知識視為集合,稱為知識體系,從知識體系相互之間關系的角度,對“解釋”做出如下定義:

解釋:知識體系之間的簡潔映射.簡潔映射是在不引入新知識的條件下對目標知識進行表達;

具體來說,解釋是將基于原知識體系的表達轉換為目標知識體系表達的過程,這個過程僅使用目標知識體系的知識,而不引入新的知識.而 XRL 算法的目的在于產生解釋,從而使原知識體系能夠被目標知識體系簡潔的表達出來.在 XRL 中,原知識體系通常指代強化學習模型,而目標知識體系通常指人的認知,模型和人是可解釋性的兩個關鍵實體.本文將原知識體系看作由多個元知識及其推論構成的集合.以表示元知識, 表示知識體系,則 .假設智能體習得的知識屬于知識體系 ,而人類能夠理解的知識屬于知識體系 ,則解釋是將知識體系轉換為知識體系表達的過程.對于解釋而言,簡潔映射是必要的,非簡潔的映射可能提升解釋本身的被理解難度,進而導致解釋本身讓人無法理解(見 2.3 ).

在對知識進行轉換表達的過程中,待解釋的知識可能無法完全通過目標知識體系進行描述,這時只有部分知識可以被解釋.本文使用“完全解釋”和“部分解釋”的概念描述這一情況:

完全解釋:待解釋的知識完全被目標知識體系表達.其中,被解釋的知識屬于目標知識體系是其必要條件;

部分解釋:待解釋的知識的部分被目標知識體系表達.

具體來說,完全解釋和部分解釋描述的是知識體系之間的包含情況(圖 2).只有當待解釋的知識體系完全被目標知識體系所包含時,才可能進行完全解釋,否則只能進行部分解釋.在 XRL 中,完全解釋通常是不必要的.

一方面,待解釋知識體系和目標知識體系的邊界難以確定,導致完全解釋難度高且耗費巨大;另一方面,實現對模型的解釋通常不需要建立在對模型完全掌握的基礎上.因此,部分解釋是大部分可解釋性研究中采用的方法, 即只描述算法的主要決策邏輯.

2.3 可解釋性的影響因素

一個觀點認為,傳統 ML(RL 為其子集)方法是易于解釋的,而深度學習的引入使得可解釋性產生了短板,導致 ML難于解釋,因此 ML 解釋的本質是對深度學習的解釋[21] .這與可解釋性領域的認知相悖[28] .這一觀點只關注模型而忽略了人在可解釋性中的地位.對于人而言,即使是理論上可被理解的模型,當規模擴張到一定程度時,仍然會導致整體的不可理解.本文對可解釋性的影響因素進行如下定義:

透明度:待解釋模型結構的簡潔程度;

模型規模:待解釋模型包含的知識量和知識組合多樣化程度;

本文認為,可解釋性是對模型組件透明度和模型規模的綜合描述.透明度和模型規模是影響可解釋性的兩個主要因素.具體來說,可解釋性強意味著同時具備高透明度和低復雜度,而單一因素,如復雜度高或透明度低將導致模型的弱可解釋性(圖 3).

在不同語境下,“透明”一詞具有不同的含義.例如,在軟件結構中,透明指的是對底層過程的抽象程度,意味著上層程序無需關注底層的實現.類似的,透明度在可解釋性領域也存在不同的含義,如文獻[26] [27] 認為透明度是模型可以被理解的程度,將透明度與可解釋性等價.以強化學習為例,基于值表的強化學習算法在規模一定時通常具有更強的可解釋性,而使用深度學習擬合值表則可解釋性更弱,這是因為通過查詢值表而產生策略的過程符合人的直觀理解,但神經網絡傳播過程僅在數學上可被準確描述,于人而言透明度更低.然而,這一思考將構建模型的基礎結構作為可解釋性的重點,而忽略了模型規模對解釋帶來的難度,并忽略了解釋的目標—— 人.因此,為突出模型規模對解釋的影響,我們僅將透明度狹義理解為待解釋模型的結構的簡潔程度.

模型規模從人理解能力的角度衡量解釋的難度.具體來說,假設模型中的知識由一系列元知識構成,則模型規模表示元知識總量和知識之間組合的多樣化程度,而解釋的難度一定程度上取決于模型規模,當模型規模超過特定范圍(人的理解能力)時模型將無法被理解.例如,線性加性模型、決策樹模型、貝葉斯模型,由于計算過程簡潔,使我們能夠輕易了解模型基于何因素得到何種結果,因此被認為是易于理解的.然而,當模型規模逐漸龐大時,各因素之間的邏輯不可避免地相互交織,變得錯綜復雜,使我們最終無法抓住其主從關系.對于以簡潔結構(如決策樹分支)構成的大規模模型,雖然所有結果在理論上有跡可循,但當模型規模已超越人類的理解能力,導致系統整體將仍然不具備可解釋性.

2.4 可解釋性的程度劃分

人的學習過程與強化學習過程存在一定的相似性,因此,如果將人腦看作目前最先進的智能模型,則人對模型的理解不僅僅是人對模型的直觀感受,也是一個先進的智能體對強化學習模型的綜合評估.然而,一個無法理解的模型不可能被有效評估,因此對模型的解釋成為人理解模型的媒介.作為人和模型之間媒介,可解釋性算法不同程度的具備兩個相互平衡特點:接近模型和接近人的感知.具體來說,不同的解釋有的更注重準確的描述模型,而另一些更注重與人的感知一致.基于這一概念,本文將可解釋性分為如下三個層次:

(1) 數學表達: 通過理想化的數學推導解釋模型.數學表達是使用數學語言簡化模型的表達.由于強化學習模型建立在數學理論的基礎上,因此通過數學表達可以準確地描述和重構模型.雖然數學理論體系是人描述世界的一種重要方式,但其與人的普遍直覺之間存在較大差異.以深度學習為例,雖然存在大量文章論證了其在數學上的合理性,但深度學習方法仍然被認為是不可解釋的.因此,數學的表達能夠在微觀(參數)層面對模型進行描述,但難以遷移至人類知識體系;

(2) 邏輯表達: 通過將模型轉換為顯性的邏輯規律解釋模型.邏輯表達是對模型中主體策略的提取,即忽略其細微分支,凸顯主體邏輯.一方面,邏輯表達保留了模型的主體策略,因此與模型真實決策結果相近,解釋本身可以部分重現模型的決策;另一方面,邏輯表達簡化了模型,符合人的認知.邏輯表達是較為直觀的解釋,但需要人具備特定領域的知識,是面對人類專家的解釋,而對一般用戶尚不夠直觀;

(3) 感知表達: 通過提供符合人類直覺感知的規律解釋模型.感知表達基于模型生成符合人類感知的解釋,由于不需要人具備特定領域的知識,因此易于理解.例如,可視化關鍵輸入、示例對比等解釋形式都屬于感知表達的范疇.然而,感知表達通常是對模型策略的極大精簡,因為無法重現模型的決策,導致其只解釋決策的合理性.

在可解釋性的三個層次中,數學表達作為第一個層次,也是構建強化學習算法的理論基礎.在已知模型所有參數的情況下,數學表達通常可以較為準確的推斷出模型的結果,然而,數學上的合理性不意味著能被人所理解;邏輯表達介于數學表達和感知表達之間,是對模型策略的近似,但邏輯表達方法產生的解釋通常要求用戶具備特定領域的專業知識;感知表達對模型決策的重要因素進行篩選,并使用清晰、簡潔的形式進行呈現,雖然結果易于理解,但已經不具備重構策略的能力.總而言之,不同的解釋在接近模型和接近人類感知之間存在著平衡,難以兼顧.

3 強化學習可解釋性的獨有問題

與其他 ML 方法不同,RL 問題由環境、任務、智能體三個關鍵因素組成.其中,環境為給定的具有一定內部規律的黑盒系統;任務為智能體為最大化其平均獎賞的而擬合的目標函數;策略是智能體行為的依據和一系列行為之間的關聯.根據強化學習的三個關鍵組成因素,本文歸納出 XRL 的三個獨有問題,即環境解釋,任務解釋,策略解釋.三個獨有問題之間存在著密切的關聯,與整個強化學習過程密不可分,是實現強化學習解釋直接面臨的問題.

4 強化學習可解釋性研究現狀

由于 XRL 涉及的領域廣泛,學者從各領域的角度出發,導致所提出的方法具有較大差異.因此,本節分兩步對相關方法進行總結.首先,根據技術類別和解釋的展現形式,將現有方法分為視覺和語言輔助解釋、策略模仿、可解釋模型、邏輯關系提取和策略分解五個類別.然后,在通用分類方法(即獲取解釋的時間、解釋的范圍)的基礎上,結合本文所提出的分類依據(即解釋的程度,面對的關鍵科學問題),確定不同類別方法的屬性.

在可解釋性領域中,分類通常基于獲取解釋的時間和解釋的范圍兩個因素[31] .具體而言,根據獲取解釋的時間,可解釋性方法被分為固有(intrinsic)解釋和事后(post-hoc)解釋.固有解釋通過限制模型的表達,使模型在運行時生成具備可解釋性的輸出.例如,基于較強可解釋性的原理和組件(決策樹、線性模型等)構造模型,或者通過增加特定過程使模型生成可解釋性的輸出;事后解釋是通過對模型行為的分析,總結模型的行為模式,從而達到解釋的目的.通常而言,固有解釋是策略產生過程中的解釋,特定于某個模型,而事后解釋是策略產生后的解釋, 與模型無關.根據解釋的范圍,可解釋性方法被分為全局(global)解釋和局部(local)解釋,全局解釋忽略模型的微觀結構(如參數、層數等因素),從宏觀層面提供對模型的解釋,局部解釋從微觀入手,通過分析模型的微觀結構獲得對模型的解釋.

除上述可解釋性的通用分類之外,本文基于解釋與模型和人類感知的符合程度,將可解釋性方法分為數學表達、邏輯表達和感知表達三類(見 2.4 ).這三類可解釋性方法體現出可解釋性算法在解釋的形式、解釋與模型結果的近似程度和解釋的直觀度等方面的區別.前文(見 3 )分析了 XRL 面臨的 3 個關鍵問題,即環境解釋, 任務解釋和策略解釋.目前,單個 XRL 方法難以同時解決三類問題,因此,我們也以此為依據,對當前 XRL 方法所著眼的問題進行區分.

綜上所述,本文以“獲取解釋的時間”、“解釋的范圍”、“解釋的程度”以及“關鍵問題”為依據,對 XRL 方法進行分類(見表 1).由于算法多樣,表 1 僅顯示大類別算法的特點,部分算法可能不完全符合

總結

本文以 XRL 的問題為中心,討論了該領域的基礎問題,并對現有方法進行總結.由于目前在 XRL 領域,乃至整個 XAI 領域尚未形成完整、統一的共識,導致不同研究的基礎觀點存在較大差異,難于類比.本文針對該領域缺乏一致認知的問題,進行了較為深入的研究工作.首先,本文參考 XRL 領域的父問題——XAI,收集 XAI 領域的現有觀點,并整理出 XAI 領域較為通用的認識;其次,以 XAI 領域的定義為基礎,討論 XAI 與 XRL 面臨的共同問題;然后,結合強化學習自身的特點,提出 XRL 面臨的獨有問題;最后,總結了相關的研究方法,并對相關方法進行分類.分類中包括作者明確指出為 XRL 的方法,也包括作者雖未著重強調,但實際對 XRL 有重要意義的方法. XRL 目前尚處于初步階段,因此存在大量亟待解決的問題.本文重點提出環境和任務的解釋、統一的評估標準兩類問題.本文認為這兩類問題是為類 XRL 領域的基石,是值得重視的研究領域.

付費5元查看完整內容

知識遷移 · 知識蒸餾 · 領域自適應 · 遷移學習 · 知識論 ·

2022 年 1 月 6 日

[付費5元查看完整內容]華東師大《無數據知識遷移》綜述論文

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在過去的十年中，許多深度學習模型在機器智能的各個領域得到了良好的訓練并取得了巨大的成功，特別是在計算機視覺和自然語言處理方面。為了更好地利用這些訓練有素的模型在域內或跨域遷移學習情況下的潛力，知識蒸餾(KD)和域自適應(DA)被提出并成為研究熱點。它們的目的都是利用原始的訓練數據從訓練有素的模型中傳遞有用的信息。然而，在許多情況下，由于隱私、版權或機密性，原始數據并不總是可用的。最近，無數據知識遷移范式引起了人們的關注，因為它處理的是從訓練有素的模型中提取有價值的知識，而不需要訪問訓練數據。它主要包括無數據知識蒸餾(DFKD)和無源數據領域適應(SFDA)。一方面，DFKD的目標是將原始數據的域內知識從一個繁瑣的教師網絡轉移到一個緊湊的學生網絡中，進行模型壓縮和高效推理。另一方面，SFDA的目標是重用存儲在經過良好訓練的源模型中的跨領域知識，并使其適應于目標領域。本文從知識蒸餾和無監督領域適應的角度對無數據知識遷移的研究進行了全面的綜述，以幫助讀者更好地了解目前的研究現狀和思路。本文將分別簡要回顧這兩個領域的應用和挑戰。在此基礎上，對未來的研究提出了一些看法。

圖1. 知識蒸餾(KD)和無監督領域自適應(UDA)綜述

隨著深度學習的復興，深度神經網絡(DNN)在人工智能的各個領域取得了顯著的進展，包括計算機視覺(CV)[1]和自然語言處理(NLP)[2]。特別是計算機視覺領域已經開發了大量深度卷積神經網絡的應用(如圖像分類[3]、目標檢測[4]、語義分割[5]等)，極大地促進了深度學習的繁榮。從LeNet[6]、AlexNet[1]到ResNet[7]和DenseNet[8]，深度神經網絡的顯著成功主要依賴于超參數化的架構和大規模標注的訓練數據。在實踐中，DNN的應用可能面臨兩個問題:1)笨重的模型不可能部署在存儲和計算能力有限的移動設備上，如自動駕駛汽車[9]和實時人臉識別系統[10]; 2) 由于標注成本過高，整個標注數據集無法用于訓練，例如用于語義分割的像素級標注。

圖2. 無數據知識蒸餾(DFKD)和無源領域適應(SFDA)概述

為了解決模型的深度部署問題，對[11]模型進行壓縮以降低存儲和計算成本，包括剪枝[12]、量化[13]和知識蒸餾[14]。知識蒸餾(Knowledge精餾，KD)[14]是一種流行的模型壓縮方法，它將有價值的信息從一個繁瑣的教師網絡傳輸到一個緊湊的學生網絡中。作為如圖1(a)所示的通用師生知識傳遞框架，它可以與其他模型壓縮方法相結合，無需進行任何具體設計[15]，[16]。學生網絡以訓練數據為輸入，模擬訓練良好的教師網絡，與人類的學習方案非常相似。大多數的蒸餾方法都是從教師網絡的中間特征圖或預測中提取和傳遞知識。在模型壓縮方面，近年來知識蒸餾技術的快速發展對半監督學習[17]、[18]、增量學習[19]、[20]、隱私保護[21]、[22]等產生了巨大的影響。

圖3. 2016 - 2021年無數據知識遷移工作發展

除了繁瑣的網絡架構外，大規模數據集的高成本標注也限制了深度學習的應用。例如，手動注釋cityscape[23]圖像進行語義分割需要大約90分鐘。解決這個問題的一種直觀的方法是，利用來自相關領域(源領域)的特定知識來研究被考慮的目標領域，這是受到人類研究能力的啟發。領域自適應[24]是一種很有前途的遷移學習范式，如圖1(b)所示。它旨在將知識從源領域轉移到目標領域，避免了勞動密集型的數據注釋。根據目標域數據的標注率，可以將域自適應進一步分為無監督域自適應、半監督域自適應和弱監督域自適應。實際上，只有UDA方法完全避免了標注的代價，本文主要考慮的是UDA的設置。

綜上所述，知識蒸餾和領域自適應是將有價值的知識從訓練良好的深度神經網絡遷移到域內或跨域網絡的兩個主要研究課題。上述方法都是基于數據驅動的，并依賴于原始數據或源數據可訪問的前提下進行蒸餾或域適應。然而，由于隱私或版權的原因，在很多實際案例中，原始的訓練數據是不可用的。例如，一些知名社區[26]-[29]發布了大量的預訓練的深度學習模型[4]、[5]、[7]、[25]。但并不是所有的訓練數據都可以用于壓縮或使其適應新的領域。此外，醫療或面部數據是公共或第三方機構無法訪問的，因為它涉及到患者或用戶的隱私。因此，如何利用訓練良好的模型(沒有訓練數據)進行知識遷移成為一個新的研究課題。將其概括為圖2所示的“無數據知識遷移(Data-Free Knowledge Transfer, DFKT)”。特別地，該方法還涉及兩個主要的研究領域:(1)沒有訓練數據的知識蒸餾方法稱為無數據知識蒸餾(data - free knowledge精餾，DFKD);(2)沒有源數據的域適應方法稱為無源數據域適應(source -free domain adaptation, SFDA)。DFKD的目標是將訓練數據集的原始信息提取并轉換為一個緊湊的學生模型，SFDA的目標是通過目標數據查詢和探索跨領域的知識。換句話說，DFKD在兩個模型之間傳遞域內知識，而SFDA通過體系結構共享模型傳遞跨域知識。

近年來，無數據知識轉移范式在深度學習的各個領域引起了人們的關注，特別是計算機視覺(包括圖像分類[30]-[32]、目標檢測[33]-[35]和超分辨率[36])。無數據知識轉移的時間軸如圖3所示。我們分別描述了DFKD和SFDA在上游和下游的發展。Lopes等人[37]在2016年首次提出了DNN的無數據知識蒸餾。它利用網絡激活的摘要來重建其訓練集。隨著生成式對抗網絡的興起，2019年以來，一些生成式DFKD方法如雨后春筍般涌現，試圖合成替代樣本進行知識轉移。還有一些研究是在[37]的基礎上，利用激活狀態總結[41]或批歸一化統計量(BNS)[32]、[42]從噪聲中恢復出原始圖像數據。此外，2021年還發布了兩個知識蒸餾綜述[43]、[44]。SFDA方面，Chidlovskii等人[45]在這方面做了開拓性的工作。2018年至2020年，研究人員主要關注分類[30]、[46]、[47]的無源域自適應。SFDA的語義分割算法[48]、[49]和目標檢測算法[33]、[35]從2020年開始研發。毫無疑問，未來將會有更多關于DFKT的研究發表。

雖然傳統的數據驅動的知識遷移一直是計算機視覺領域的一個長期挑戰，在模型壓縮和數據標注的成本降低方面取得了很大的成功，但大多數工作都忽視了數據隱私和商業版權問題，這些問題越來越受到關注。一些研究人員對傳統的數據驅動知識蒸餾[43]、[44]、[50]和領域適應[24]、[51]-[53]進行了全面、詳細的綜述，其中DFKD或SFDA只是冰山一角。然而，隨著DFKT的不斷成熟，相關的研究也越來越多，這使得研究和產業界都難以跟上新進展的步伐。有鑒于此，我們迫切需要對現有的工作進行調研，這對社區是有益的。在本綜述中，我們重點在一個統一的無數據知識遷移框架下，對現有的DFKD和SFDA方法進行分類和分析。我們分別討論了無數據知識蒸餾和無源領域自適應，并從數據重構算法和知識遷移策略兩個方面對它們進行了連接和比較。為了便于理解，我們根據DFKD和SFDA的實現對它們進行了分層分類，如圖4所示，并展示了我們調研的組織結構。總之，我們的貢獻有三方面:

我們對無數據知識遷移進行了系統的概述，包括分類、定義、兩類方法的DFKD和SFDA以及各種應用。據我們所知，這是第一次對DFKT進行調研。
從領域內和跨領域知識遷移的角度，提出了一種新的分類方法，將無數據的知識提煉和無源的領域適應結合起來。
全面總結了每種方法的優勢或面臨的挑戰，并分析了一些有前景的研究方向。

付費5元查看完整內容

知識圖譜 · 綜述論文 ·

2020 年 10 月 6 日

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

為機器配備對世界實體及其關系的全面了解一直是人工智能的一個長期目標。在過去的十年中，大規模知識庫(也稱為知識圖譜)已經從Web內容和文本源中自動構建出來，并且已經成為搜索引擎的關鍵模塊。這種機器知識可以被用來從語義上解釋新聞、社交媒體和網絡表格中的文本短語，并有助于回答問題、自然語言處理和數據分析。本文調查基本概念和實際的方法來創建和管理大型知識庫。它涵蓋了用于發現和規范化實體及其語義類型以及將它們組織成干凈的分類法的模型和方法。在此基礎上，本文討論了以實體為中心的屬性的自動提取。為了支持機器知識的長期生命周期和質量保證，本文提出了構建開放模式和知識管理的方法。學術項目的案例研究和工業知識圖表補充了概念和方法的調查。

概述

增強計算機的“機器知識”，可以推動智能應用是計算機科學的一個長期目標[323]。由于知識獲取方面取得了重大進展，這一以前難以捉摸的愿景如今已變得切實可行。這包括將嘈雜的互聯網內容轉化為實體和關系上的清晰知識結構的方法。知識獲取方法使得自動建設知識庫(KB):機器可讀的關于現實世界的事實的集合。如今，公開的KBs提供了數以百萬計的實體(比如人、組織、地點和書籍、音樂等創意作品)和數十億的聲明(比如誰研究了哪里，哪個國家擁有哪一種資本，或者哪位歌手演唱了哪首歌)。大公司部署的專有KBs包含了更大范圍的知識，有一到兩個數量級的實體。

知識庫成為關鍵資產的一個突出用例是Web搜索。當我們向百度、Bing或谷歌發送一個類似“迪倫抗議歌曲”的查詢時，我們會得到一個清晰的歌曲列表，比如《Blowin ' in the Wind》、《Masters of War》或《a- gonna Rain ' s a- gonna Fall》。因此，搜索引擎自動檢測到我們對某一個體實體的事實感興趣——這里是鮑勃·迪倫——并要求特定類型的相關實體——抗議歌曲——作為答案。這是可行的，因為搜索引擎在其后端數據中心有一個巨大的知識庫，有助于發現用戶請求(及其上下文)中的實體，并找到簡明的答案。

本文介紹了從Web和文本源自動構建和管理大型知識庫的方法。我們希望它將對博士生和對廣泛的主題感興趣的教師有用——從機器知識和數據質量到機器學習和數據科學，以及web內容挖掘和自然語言理解的應用。此外，本文還旨在為從事web、社會媒體或企業內容的語義技術的行業研究人員和實踐者提供幫助，包括從文本或半結構化數據構建意義的各種應用程序。不需要有自然語言處理或統計學習的先驗知識;我們將根據需要介紹相關的方法(或至少給出文獻的具體指示)。

這篇文章共分為十章。第2章給出了知識表示的基礎知識，并討論了知識庫的設計空間。第3、4和5章介紹了構建包含實體和類型的知識庫核心的方法。第3章討論了利用具有豐富和干凈的半結構化內容的優質資源，第4章討論了從文本內容中獲取的知識。第5章特別關注將實體規范化為唯一表示的重要問題。第6章和第7章通過發現和提取實體的屬性以及實體之間的關系的方法擴展了知識庫的范圍。第6章主要討論為感興趣的屬性預先設計模式的情況。第7章討論了為KB模式中尚未指定的屬性和關系發現新的屬性類型的情況。第8章討論了知識庫管理和知識庫長期維護的質量保證問題。第9章介紹了幾個具體KBs的案例研究，包括工業知識圖譜(KGs)。我們在第10章以關鍵課程和關于機器知識主題可能走向的展望來結束。