亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

終身學習(LLL)作為一種新興方法打破了傳統機器學習的局限性,并賦予了模型能夠像人類一樣在學習 過程中不斷積累、優化并轉移知識的能力。近年來,隨著深度學習的廣泛應用,越來越多的研究致力于解決深度神經 網絡中出現的災難性遺忘問題和擺脫穩定性-可塑性困境,并將LLL方法應用于各種各樣的實際場景中,以推進人工 智能由弱向強的發展。針對計算機視覺領域,首先,在圖像分類任務中將LLL方法歸納為四大類型:基于數據驅動的 方法、基于優化過程的方法、基于網絡結構的方法和基于知識組合的方法;然后,介紹了 LLL方法在其他視覺任務中 的典型應用和相關評估指標;最后,針對現階段LLL方法的不足之處進行討論并提出了LLL方法未來發展的方向

傳統的機器學習總是被限制在一個封閉的靜態環境中, 通常被稱為孤立學習,這種學習方式不考慮任務以外的信 息,即針對一個任務,模型的訓練和推理只在符合獨立同分 布假設的數據上進行;然而這樣的學習方式是低效的,畢竟 現實場景顯然是一個開放的動態環境,人類在這種環境下會 不斷地積累知識并優化形成經驗,用于幫助解決出現的 問題[1] 。 終身學習(LifeLong Learning, LLL)范式是通過模仿人類 的學習過程抽象而來。人類擁有強大的獲取、調整和遷移知 識的能力,例如會騎自行車的人能夠很快學會騎摩托車,在 遇到新任務或者新問題時會很快產生聯想并無縫地將這些 知識遷移,然后根據特定的問題進行特別的學習。這樣的學 習方式是高效且自然的,這也是終身學習過程中最為重要的 一環。

在計算機視覺領域,以深度學習為代表的學習框架尚未 達到終身學習范式的要求。例如要單獨訓練一個過參數化 的深度模型,就必須為每個任務收集大量的數據和進行繁瑣 的人工預處理等,這使得學習成本隨著任務量大幅增加,這 無疑是耗時且低效的方式,尤其是在一些對時間和性能有特 殊要求的應用場景下甚至是不被允許的。深度學習獨特的 訓練和推理模式使得深度學習模型還遠遠達不到人類的學 習效果,例如要融入終身學習范式目前還存在著兩個嚴峻的挑戰:1)災難性遺忘,即網絡在學習了新的知識之后,可能會 徹底遺忘在先前任務上學到的知識[2] ;2)概念漂移,即網絡 對屬于同類但是不同分布的新數據表現效果差[3] 。因此要 求深度學習模型既要滿足一定的可塑性以適應新數據的輸 入,又要具備一定的穩定性以避免在整合新知識的同時產生 大量的遺忘,即擺脫穩定性-可塑性困境[4] 。 此外,一個簡單的思路是融合所有的數據訓練一個大規 模模型,即聯合訓練或者多任務學習,但這并不在本文定義 的終身學習范式內;因為把時間線拉長,無休止地存儲所有 數據必然無法實現,所以需要對它進行一定程度的限制,其 次每當接受新任務時就要重新訓練所有的數據也不符合人 類的學習方式。針對深度學習的框架,直觀上聯合訓練或許 是終身學習方法的一個上界,因為深度學習是一個優化問 題,聯合訓練更有可能找到所有任務的全局最優解。 為滿足對模型存儲上的限制要求,大量的研究者從深度 學習的框架入手,從多個角度探索終身學習的解決方式,并 在多個應用方向展現了它的可行性。本文調研并跟蹤了近 年來的終身學習相關文獻,相較于文獻[5-6],本文增加了評 估終身學習模型性能的相關指標,不僅考慮了模型在終身學 習過程中識別的能力,同時考慮了存儲即資源利用的能力; 相較于文獻[7-8],本文不僅在圖像分類中詳細調研了終身 學習的相關應用,還介紹了終身學習在其他計算機視覺如目 標檢測等中的應用。終身學習不僅要解決實際應用環境中 的成本問題,更有可能是現階段弱人工智能邁向未來強人工 智能的重要一步。

1 終身學習的定義

終身學習是一個連續學習的過程。假設在時間點 t模型 Mt 已經完成了 N 個學習任務 T1,T2,?,TN,其中每個任務都 有對應的數據集 D1,D2,?,DN,任務之間沒有嚴格的約束并 且此時模型積累了源自這 N 個任務的知識并存儲于知識庫 中。當面對新的任務 TN + 1 及其數據 DN + 1 時,Mt 可以利用知 識庫中積累的先驗知識幫助學習 TN + 1,并且在學習 TN + 1 后, Mt能夠根據從 TN + 1中學到的知識進行同步更新為 Mt + 1以供 未來繼續使用,同時 Mt + 1 能最大限度地保留在先前 N 個任 務上的性能。由此可見,終身學習的關鍵是持續地學習和不 斷積累知識,即 Mt 如何利用先驗知識學習 TN + 1 和如何存儲 新知識演化為 Mt + 1。在這個定義下,還額外需增加一個存儲 限制,即知識庫不能保留所有的訓練數據,否則將會與多任 務學習無異,違背終身學習的初衷。

2 終身學習方法的分類

計算機視覺作為深度學習最為成功的應用,框架一般可 以拆解為輸入、優化和結構這 3 個部分,用于積累和再應用 的知識就可以以這 3 個部分作為切入點,同時也可以組合使 用它們。本文將從知識的角度對終身學習方法進行分類與 歸納,如表 1所示。

3 終身學習的其他應用

終身學習不僅在解決基礎問題中開闊了研究空間,也逐 漸 助 力 于 目 標 檢 測(Object Detection)[77-81] 、語 義 分 割 (Semantic Segmentation)[77-81] 、圖像生成[90-95] 和其他[96-102] 等各 類計算機視覺的研究方向。

4 結語 本文主要回顧了終身學習在圖像分類任務上的基本方 法,介紹了在其他計算機視覺任務上的成功應用,最后簡要 探討了在未來可以進一步推動終身學習發展的方向。終身 學習給予了模型在動態環境中更多更強大的學習能力,雖然 目前仍處于起步階段,但不可置疑這是人工智能發展的重要 一環,無論是理論上的研究,還是工業界的落地都具有非常 大的意義。

付費5元查看完整內容

相關內容

圖像融合技術旨在將不同源圖像中的互補信息整合到單幅融合圖像中以全面表征成像場景,并促進后續的視覺任務。隨著深度學習的興起,基于深度學習的圖像融合算法如雨后春筍般涌現,特別是自編碼器、生成對抗網絡以及Transformer等技術的出現使圖像融合性能產生了質的飛躍。本文對不同融合任務場景下的前沿深度融合算法進行全面論述和分析。首先,介紹圖像融合的基本概念以及不同融合場景的定義。針對多模圖像融合、數字攝影圖像融合以及遙感影像融合等不同的融合場景,從網絡架構和監督范式等角度全面闡述各類方法的基本思想,并討論各類方法的特點。其次,總結各類算法的局限性,并給出進一步的改進方向。再次,簡要介紹不同融合場景中常用的數據集,并給出各種評估指標的具體定義。對于每一種融合任務,從定性評估、定量評估和運行效率等多角度全面比較其中代表性算法的性能。本文提及的算法、數據集和評估指標已匯總至//github.com/Linfeng-Tang/Image-Fusion。最后,給出了本文結論以及圖像融合研究中存在的一些嚴峻挑戰,并對未來可能的研究方向進行了展望。

付費5元查看完整內容

數學推理是人類智能的一個基本方面,可應用于科學、工程、金融和日常生活等各個領域。能夠解決數學問題和證明定理的人工智能系統的發展引起了機器學習和自然語言處理領域的重大興趣。例如,數學是對強大的深度學習模型具有挑戰性的推理方面的測試平臺,推動新的算法和建模的進步。另一方面,大規模神經語言模型的最新進展為使用深度學習進行數學推理開辟了新的基準和機會。本文回顧了過去十年數學推理和深度學習交叉點的關鍵任務、數據集和方法。對現有的基準和方法進行了評估,并討論了該領域未來的研究方向。

1. 引言

數學推理是人類智能的一個關鍵方面,它使我們能夠根據數字數據和語言來理解和做出決定。它適用于科學、工程、金融和日常生活等各個領域,涵蓋了從模式識別和數值運算等基本技能到解決問題、邏輯推理和抽象思維等高級技能的一系列能力。能夠解決數學問題和證明定理的人工智能(AI)系統的發展一直是機器學習和自然語言處理(NLP)領域的一個長期研究重點,可以追溯到20世紀60年代(Feigenbaum et al., 1963;Bobrow, 1964)。近年來,人們對這一領域的興趣激增,如圖1所示。

深度學習在各種自然語言處理任務中表現出巨大的成功,如問答和機器翻譯(Sutskever等人,2014;Devlin等人,2018)。類似地,研究人員開發了各種用于數學推理的神經網絡方法,已被證明在解決數學應用題解決、定理證明和幾何問題解決等復雜任務方面是有效的。例如,基于深度學習的數學應用題解決者采用了一種帶有注意力機制的序列到序列框架來生成數學表達式作為中間步驟(Wang et al., 2018a;Chiang and Chen, 2019)。此外,通過大規模語料庫和Transformer模型(Vaswani et al., 2017),預訓練語言模型在各種數學任務上取得了有希望的結果。最近,像GPT-3 (Brown et al., 2020)這樣的大型語言模型(LLM)在復雜推理和上下文學習方面表現出了令人印象深刻的能力,進一步推進了數學推理領域。

最近在數學推理研究方面的進展令人印象深刻和鼓舞人心。本文綜述了深度學習在數學推理中的進展。本文討論了各種任務和數據集(第2節),并研究了神經網絡(第3節)和預訓練語言模型(第4節)在數學領域的進展。本文還探索了基于大型語言模型的上下文學習的快速進展(第5節),用于數學推理。進一步分析了現有的基準,發現對多模態和低資源設置的關注較少(第6.1節)。循證研究表明,當前的數值表示是不夠的,深度學習方法對于數學推理不一致(第6.2節)。從泛化和魯棒性、可信推理、從反饋中學習和多模態數學推理等方面改進當前的工作是有益的(第7節)。

2 任務和數據集

在本節中,我們將研究目前用于使用深度學習方法進行數學推理研究的各種任務和數據集。表2列出了該領域常用的數據集。

2.1 數學應用題解決

幾十年來,開發自動解決數學應用題(MWPs)的算法一直是NLP研究人員的興趣(Feigenbaum et al., 1963;Bobrow, 1964)。數學應用題(也稱為代數或算術應用題)描述了一個簡短的敘述,涉及字符、實體和數量。MWP的數學關系可以用一組方程來建模,這些方程的解揭示了問題的最終答案。一個典型的例子如表1所示。作題涉及加、減、乘、除四種基本算術運算,有一個或多個運算步驟。NLP系統中MWPs的挑戰在于對語言理解、語義解析和多種數學推理技能的需求。

2.2 定理證明

自動化定理證明是人工智能領域長期以來的挑戰(Newell等人,1957;Feigenbaum et al., 1963)。問題是要通過一系列邏輯論證(證明)來證明一個數學主張(定理)的真實性。定理證明測試了各種技能,例如選擇有效的多步策略,使用背景知識和執行符號操作(例如算術或推導)。

2.3 幾何解題

自動幾何問題求解(GPS)也是數學推理研究中一個長期存在的人工智能任務(Gelernter et al., 1960; Wen-Tsun, 1986; Chou et al., 1996; Ye et al., 2008),近年來備受關注。與數學應用題不同,幾何問題由自然語言的文本描述和幾何圖形組成。如圖2所示,多模態輸入描述了幾何元素的實體、屬性和關系,目標是找到未知變量的數值解。GPS對于深度學習方法來說是一項具有挑戰性的任務,因為它需要復雜的技能。它涉及到解析多模態信息、進行符號抽象、利用定理知識和進行定量推理的能力。

2.4 數學問答

數值推理是人類智能中的核心能力,在許多自然語言處理任務中發揮著重要作用。除了定理證明和年級數學應用題解決,還有廣泛的以數學推理為中心的問答(QA)基準。本文將這些任務稱為數學問答(MathQA)。近年來出現了大量的數據集。例如,QuaRel (Tafjord et al., 2019)是一個包含不同故事問題的數據集,涉及19種不同類型的數量。McTaco (Zhou et al., 2019)研究的是時間常識問題,而Fermi (Kalyan et al., 2021)研究的是費米問題,其答案只能近似估計。

3 用于數學推理的神經網絡

3.1 數學的Seq2Seq網絡

序列到序列(Seq2Seq) (Sutskever et al., 2014)神經網絡已成功應用于數學推理任務,如數學應用題解決(Wang et al., 2017)、定理證明(Yang and Deng, 2019)、幾何問題解決(Robaidek et al., 2018)和數學問答(Tafjord et al., 2019)。Seq2Seq模型使用編碼器-解碼器架構,通常將數學推理形式化為序列生成任務。這種方法背后的基本思想是將輸入序列(例如數學問題)映射到輸出序列(例如方程、程序和證明)。常見的編碼器和解碼器包括長短期記憶網絡(LSTM) (Hochreiter和Schmidhuber, 1997)、門控循環單元(GRU) (Cho等人,2014)以及它們的雙向變體:BiLSTM和BiGRU。DNS (Wang et al., 2017)是第一項使用Seq2Seq模型將應用題中的句子轉換為數學方程的工作。大量工作表明,Seq2Seq模型比之前的統計學習方法具有性能優勢(Ling et al., 2017; Wang et al., 2018a; Huang et al., 2018; Chiang and Chen, 2019; Wang et al., 2019; Li et al., 2019)。

3.2基于圖的數學網絡

Seq2Seq方法在生成數學表達式和不依賴手工特征方面表現出優勢。數學表達式可以被轉換成一種基于樹的結構,例如抽象語法樹(AST)和一種基于圖的結構,它描述了表達式中的結構化信息。然而,Seq2Seq方法沒有顯式地對這些重要信息進行建模。為了解決這個問題,基于圖的神經網絡被開發出來顯式地建模表達式中的結構。 序列到樹(Seq2Tree)模型在編碼輸出序列時顯式建模樹結構(Liu et al., 2019a; Xie and Sun, 2019; Wu et al., 2020; Zhang et al., 2020a; Zaporojets et al., 2021; Qin et al., 2021; Wu et al., 2021b; Lin et al., 2021; Hong et al., 2021a)。例如,(Liu et al., 2019a)設計了一個Seq2Tree模型,以更好地利用來自方程的AST的信息。相反,Seq2DAG (Cao et al., 2021),在生成方程時應用了序列圖(Seq2Graph)框架,因為圖解碼器能夠提取多個變量之間的復雜關系。在編碼輸入的數學序列時,也可以嵌入基于圖的信息(Zhang et al., 2020b; Shen and Jin, 2020; Li et al., 2020b; Wu et al., 2021a)。例如,ASTactic (Yang and Deng, 2019)在ast上應用TreeLSTM (Tai et al., 2015)來表示定理證明的輸入目標和前提。 3.3基于注意力的數學網絡

注意力機制已成功應用于自然語言處理(Bahdanau等人,2014)和計算機視覺問題(Xu等人,2015;Woo等人,2018),在解碼過程中考慮了輸入的隱藏向量。最近,研究人員一直在探索它在數學推理任務中的有用性,因為它可以用來識別數學概念之間最重要的關系。例如,Math-EN (Wang et al., 2018a)是一個數學應用題解決程序,受益于通過自注意力學習到的長距離依賴信息。基于注意力的方法也被應用于其他數學推理任務,如幾何問題求解(Robaidek等人,2018;Chen et al., 2021a)和定理證明(Yang and Deng, 2019)。人們對各種注意力機制進行了研究,以提取更好的表示,例如Group-ATT (Li et al., 2019),它使用不同的多頭注意力來提取各種類型的MWP特征,以及圖注意力,用于提取知識感知信息(Wu et al., 2020)。

4 預訓練的數學推理語言模型

預訓練語言模型(例如,Devlin等人(2018);Radford et al. (2020);Brown等人(2020))在廣泛的NLP任務上證明了顯著的性能提升(Qiu等人,2020)。通過在大型文本語料庫上進行預訓練,模型學習有價值的世界知識(Guu等人,2020),這些知識可應用于下游任務,如問題回答(Khashabi等人,2020)、文本分類(Minaee等人,2021)和對話生成(Zhang等人,2019;Qiu等,2022a,b)。類似的想法可以應用于與數學相關的問題,之前的工作表明,預先訓練的語言模型在回答數學應用題時表現良好(Kim et al., 2020; Shen et al., 2021; Yu et al., 2021b; Cobbe et al., 2021; Li et al., 2022b; Jie et al., 2022; Ni et al., 2022),協助定理證明(Polu and Sutskever, 2020; Han et al., 2022; Wu et al., 2022b; Jiang et al., 2022b; Welleck et al., 2022a),以及其他數學任務(Lu et al., 2021a; Chen et al., 2022a; Cao and Xiao, 2022; Clark et al., 2020; Chen et al., 2021c; Zhu et al., 2021; Hendrycks et al., 2021; Zhao et al., 2022; Nye et al., 2021; Charton, 2021)。

**然而,盡管大型語言模型在建模自然語言方面表現出色,但將其用于數學推理存在一些挑戰。**首先,預訓練語言模型沒有專門在數學數據上進行訓練。這可能導致與自然語言任務相比,他們對數學相關任務的熟練程度較低。與文本數據相比,用于大規模預訓練的數學或科學數據也較少。其次,預訓練模型的規模繼續增長,使得為特定的下游任務從頭訓練整個模型的成本很高。此外,下游任務可能處理不同的輸入格式或模態,如結構化表(Zhao et al., 2022; Chen et al., 2021c; Zhu et al., 2021)或圖表(Lu et al., 2021a; Chen et al., 2022a; Lu et al., 2021b)。為了應對這些挑戰,研究人員必須通過對下游任務進行微調或適應神經架構來調整預訓練模型。最后,盡管預訓練語言模型可以編碼大量的語言信息,但模型僅從語言建模目標中學習數值表示或高級推理技能可能是困難的(Lin et al., 2020;Kalyan等人,2021年)。考慮到這一點,最近有研究調研了從基礎課程開始注入數學相關技能(Geva et al., 2020; Feng et al., 2021; Wu et al., 2021d)。

5 .基于上下文的數學推理學習

大型語言模型(LLM),如GPT3 (Brown et al., 2020),最近徹底改變了自然語言處理(NLP)領域,特別是由于其強大的少樣本上下文學習能力(Brown et al., 2020)。上下文學習(ICL)使LLM能夠通過在推理時提供一些任務示例作為條件來執行目標任務,而無需更新模型參數(Radford et al., 2020; Brown et al., 2020)。ICL允許用戶快速為新用例構建模型,而無需擔心為每個任務進行微調和存儲大量新參數,因此現在被廣泛用于少樣本設置(Min等人,2022)。一個上下文中的例子通常包含一個輸入-輸出對和一些提示詞,例如,請從列表中選擇最大的數字。輸入:[2,4,1,5,8]。輸出:8,而few-shot通過給出多個示例來工作,然后是一個最終輸入示例,模型預計將預測輸出。然而,這種標準的少次提示(在測試時示例前給LLM提供輸入-輸出對的上下文示例)尚未被證明足以在數學推理等具有挑戰性的任務上取得高性能(Rae等人,2021)。

結論:

本文對數學推理的深度學習進行了全面的綜述。回顧了已經使用的各種任務和數據集,并討論了已經采取的各種方法,包括早期的神經網絡,后來的預訓練語言模型和最近的大型語言模型。還確定了現有數據集和方法中的幾個差距,包括對低資源設置的關注有限、計算能力表示不足和推理能力不一致。最后,對未來的研究方向進行了展望,并指出了該領域進一步探索的潛力。本文的目標是為對發展數學推理深度學習感興趣的讀者提供一個全面而有用的資源。為了幫助我們完成這項工作,我們創建了一個閱讀列表,并將在//github.com/lupantech/dl4math的GitHub存儲庫中不斷更新

付費5元查看完整內容

以語音為中心的機器學習系統徹底改變了許多領先領域,從交通和醫療保健到教育和國防,深刻改變了人們的生活、工作和相互互動的方式。然而,最近的研究表明,許多以語音為中心的機器學習系統可能需要被認為更值得信任,以便更廣泛地部署。具體來說,在機器學習研究領域,人們都發現了對隱私泄露、判別性能和對抗性攻擊脆弱性的擔憂。為了應對上述挑戰和風險,人們做出了大量努力,以確保這些機器學習系統是值得信任的,特別是隱私、安全和公平。本文首次對與隱私、安全和公平相關的、以語音為中心的可信機器學習主題進行了全面的調研。除了作為研究界的總結報告外,本文指出了幾個有希望的未來研究方向,以激勵希望在該領域進一步探索的研究人員。 引言

在過去的幾年中,機器學習(ML),特別是深度學習,在各種研究領域和應用中取得了巨大的突破,包括自然語言處理(Devlin等人,2018)、圖像分類(He等人,2016)、視頻推薦(Davidson等人,2010)、醫療保健分析(Miotto等人,2018),甚至掌握國際象棋游戲(Silver等人,2016)。深度學習模型通常由多個處理層組成,并結合了線性和非線性操作。盡管訓練具有多層架構的深度學習模型需要積累大型數據集和訪問強大的計算基礎設施(Bengio等人,2021),但與傳統的建模方法相比,訓練后的模型通常達到最先進的(SOTA)性能。深度學習的廣泛成功還允許更深入地了解人類狀況(狀態、特征、行為、交互)和革命性的技術,以支持和增強人類體驗。除了ML在上述領域取得的成功,以語音為中心的ML也取得了重大進展。 言語是人類之間一種自然而突出的交流形式。它存在于人類生活的幾乎每一個層面,無論是與朋友聊天、與同事討論,還是與家人遠程通話。以語音為中心的機器學習的進步使Siri、谷歌Voice和Alexa等智能助手的普遍使用成為可能。此外,以語音為中心的建模在人類行為理解、人機界面(HCI) (Clark等人,2019)和社交媒體分析方面創造了許多研究主題。例如,一些廣泛研究的語音建模領域包括自動語音識別(Malik et al., 2021)、語音情感識別(Ak?ay和O?uz, 2020)、自動說話人確認(Irum和Salman, 2019)和關鍵詞識別(Warden, 2018)。

盡管ML系統有在廣泛的以語音為中心的應用中廣泛部署的前景,但在大多數這些系統中,兩個交織在一起的挑戰仍然沒有解決:理解和闡明跨人和環境的豐富多樣性,同時創建可信的ML技術,在所有環境中適用于每個人。信任是人類生活的基礎,無論是信任朋友、同事、家庭成員,還是像人工智能服務這樣的人工制品。傳統上,機器學習從業者,如研究人員和決策者,使用系統性能(如F1分數)來評估機器學習系統。雖然大量的研究都集中在提高機器學習模型的系統性能上,但確保機器學習應用是可信的仍然是一個具有挑戰性的課題。在過去的幾年中,我們見證了大量針對可信人工智能和機器學習的研究工作,本文的目標是對相關研究活動進行全面的回顧,重點以語音為中心的機器學習。

**ML中的可信性在不同的文獻中有不同的定義。**例如,Huang等人(2020)基于涉及認證過程和解釋過程實施的行業生產實踐規范描述了術語可信性。認證過程包括測試和驗證模塊,以檢測輸入數據中潛在的偽造或干擾。解釋是解釋機器學習為什么根據輸入數據做出特定決策的能力。此外,歐盟發布的《可信人工智能倫理準則》(Smuha, 2019)承認,要被認為是可信的人工智能系統,必須遵守法律和法規,堅持道德原則,并強大地運行。最近,Liu等人(2022b)從安全性、公平性、可解釋性、隱私、可問責性和環境友好方面總結了可信人工智能。同樣,我們的審查認為,可信的核心設計元素是魯棒性、可靠性、安全性、安全性、包容性和公平性。基于這些標準,本文從隱私、安全和公平的角度綜述了關于以語音為中心的可信機器學習的文獻,如圖1.1所示:

**隱私: **以語音為中心的ML系統嚴重依賴于收集來自、關于和針對潛在敏感環境和上下文中的人的語音數據,例如家庭、工作場所、醫院和學校。語音數據的收集經常引起人們對侵犯用戶隱私的嚴重擔憂,例如泄露人們可能希望保密的敏感信息(Liu等人,2021)。至關重要的是,要確保由個人共享或由ML系統收集的語音數據受到保護,免受任何不合理和未經授權的使用。

安全性: 在過去幾年中,研究人員發現機器學習系統普遍容易受到對抗性攻擊,這些攻擊旨在利用模型預測函數中的漏洞進行惡意的目的(Goodfellow等人,2014)。例如,通過對語音數據引入足夠小的擾動,惡意行為者可以導致關鍵詞檢測模型對所需的輸入語音命令進行錯誤分類。因此,一個可信的機器學習系統必須對惡意攻擊者可能故意更改的相同輸入輸出一致。

**公平性:**最近人們知道機器學習系統的行為可能不公平。機器學習系統為什么會虐待人是多方面的(Mehrabi等人,2021)。一個因素是社會方面,由于訓練數據或整個機器學習開發過程中的假設/決策中的社會偏見,機器學習系統產生有偏的輸出。導致人工智能不公平的另一個原因是數據集特征的不平衡,某些群體的數據樣本有限。因此,模型需要考慮某些人群的需求。同樣重要的是要注意,部署不公平的機器學習系統可能會放大社會偏見和數據不平衡問題。為了評估以語音為中心的機器學習系統的可信性,機器學習從業者需要評估機器學習模型是否對個人或群體表現出區分性。

**本文的其余部分組織如下。**第2節簡要總結了流行的以語音為中心的任務、數據集和SOTA建模框架。第3節全面討論了以語音為中心的機器學習系統中的安全考慮。第4節討論了語音建模中的隱私風險和防御。第5節回顧了語音建模任務中出現的公平性問題。第6節闡述了以語音為中心的可信機器學習的潛在發展和未來的挑戰。最后,第7節總結了本文的主要觀點。

具體而言,我們的貢獻總結如下:

  1. 據我們所知,這是第一個對設計可信的、以語音為中心建模的機器學習進行全面回顧的綜述工作。我們調研了大部分已經發表和預印本的工作,包括自動語音識別、語音情感識別、關鍵詞識別和自動說話人驗證。

  2. 創建了分類法,以系統地審查與以語音為中心的機器學習系統可信性相關的設計支柱。我們進一步比較了關于每個關鍵因素的各種文獻。

3.本文討論了設計以語音為中心的機器學習系統面臨的突出挑戰,這些系統面臨著與隱私、安全和公平相關的可信性考慮。在文獻綜述的基礎上,討論了有待解決的挑戰,并提出了幾個有希望的未來方向。

付費5元查看完整內容

圖神經網絡(GNNs)在圖表示學習中取得了發展勢頭,并推動了各種領域的先進水平,例如數據挖掘(如社會網絡分析和推薦系統),計算機視覺(如目標檢測和點云學習),自然語言處理(如關系提取和序列學習),等等。隨著Transformer在自然語言處理和計算機視覺中的出現,圖Transformer將圖結構嵌入到Transformer架構中,以克服局部鄰域聚集的局限性,同時避免嚴格的結構歸納偏差。本文從面向任務的角度對計算機視覺中的GNNs和圖transformer進行了全面的回顧。具體而言,我們將其在計算機視覺中的應用根據輸入數據的形式分為五類,即2D自然圖像、視頻、3D數據、視覺+語言和醫學圖像。在每個類別中,我們根據一組遠景任務進一步劃分應用程序。這種面向任務的分類法允許我們檢查每個任務是如何由不同的基于GNN的方法處理的,以及這些方法的性能如何。基于必要的初步準備,我們提供了任務的定義和挑戰,對代表性方法的深入報道,以及關于見解、局限性和未來方向的討論。

引言

深度學習[1]為計算機視覺帶來了許多突破,其中卷積神經網絡(CNN)占據了主導地位,成為許多現代視覺系統的基礎設施。特別是,許多最先進的CNN模型,如AlexNet[2]、ResNet[3]和EfficientNet[4],在過去十年中被提出,并在各種視覺問題中取得了前所未有的進展,包括圖像分類、目標檢測、語義分割和圖像處理等。另一方面,現有的視覺系統可以像人類一樣建立在各種輸入模態之上,如2D圖像(如自然圖像和醫學圖像)、視頻、3D數據(如點云和網格)以及多模態輸入(如圖像+文本)。 盡管基于CNN的方法在處理像圖像這樣的網格狀數據結構方面表現出色,但在計算機視覺社區中出現了一種新意識,即數據的非網格拓撲信息對表示學習至關重要,但還有待徹底研究。觀察到人類的組合泛化能力在很大程度上依賴于他們表示結構和推理關系的認知機制[5],模仿人類的學習和決策過程可以提高視覺模型的性能,并為最終的預測提供邏輯證據。例如,在物體識別的任務中,最先進的神經網絡更傾向于單獨感知物體的存在,而不同物體之間的依賴性和相互作用卻很少受到關注。

此外,與具有內在邊連接和節點概念的自然圖數據(如社交網絡和生物蛋白質網絡)相比,基于規則網格數據(如圖像和文本)的圖(如關系圖)構建缺乏原則性方法,嚴重依賴于領域知識。另一方面,視覺問題中的一些數據格式,如點云和網格,自然不是定義在笛卡爾網格上的,并且涉及復雜的關系信息。從這個意義上說,無論是規則的還是不規則的視覺數據格式都將受益于拓撲結構和關系的探索,特別是在理解復雜場景、從有限的經驗中學習和跨領域的知識轉移等具有挑戰性的場景。

在過去的幾年中,在深度學習的最新進展下,GNNs[6]在建模圖結構方面展示了突破性的性能。在計算機視覺的范圍內,目前許多與GNN相關的研究都有以下兩個目標之一:(1)GNN和CNN主干的混合(2)用于表示學習的純GNN架構。前者通常尋求提高CNN學習到的特征的遠程建模能力,適用于以前純CNN架構解決的視覺任務,如圖像分類和語義分割。后者在一些可視化數據格式(如點云)中充當特征提取器,與其他方向相比,它是并行開發的。例如,在點云[7]的三維形狀分類任務中,主要有三個研究方向,分別是基于點的MLP方法、基于卷積的方法和基于圖的方法。 然而,盡管取得了豐碩的成果,仍然沒有一篇綜述來系統和及時地回顧基于GNN的計算機視覺的進展。本文對現有研究進行了文獻綜述,從任務導向的角度對計算機視覺中的圖神經網絡進行了完整的介紹,包括(i)任務的定義和挑戰,(ii)代表性方法的深入覆蓋,以及(iii)關于見解、局限性和未來方向的系統討論。具體而言,我們將GNN在計算機視覺中的應用根據輸入數據的形式分為五種類型。在每種類型中,我們根據它們執行的計算機視覺任務對應用程序進行分類。我們還回顧了視覺任務中使用的圖變形函數,考慮到它們在架構[8]、[9]方面與GNN的相似性。本次調查的組織如圖1所示。 背景知識

在本節中,我們將回顧在計算機視覺中使用的GNN和圖transformer。讀者可以參考之前的幾個GNN調研[10],[11],[12],全面介紹GNN的發展。此外,我們要強調的是,許多現有的基于GNN的視覺方法實際上是使用CNN和GNN的混合,而我們專注于GNN方面。

目錄

圖像建模 圖像分類 多標簽分類 少樣本學習 零樣本學習 遷移學習 目標檢測 圖像分割 場景圖生成 視頻理解 視頻動作識別 時序動作定位 視覺+語言 視覺問答基準 視覺Grounding 圖像描述 3D 數據分析 3D表示學習 3D理解 3D 生成 醫學圖像分析


盡管在感知方面取得了突破性進展,但如何賦予深度學習模型推理能力仍然是現代計算機視覺系統面臨的一個艱巨挑戰。在這方面,GNN和圖transformer在處理"關系"任務方面表現出了極大的靈活性和優越性。本文首次從面向任務的角度全面綜述了計算機視覺中的GNN和圖transformer。具體來說,根據輸入數據的形式,將各種經典和最新的算法分為5類,如圖像、視頻和點云。通過系統地梳理每個任務的方法,我們希望這項調查可以揭示未來更多的進展。通過對關鍵創新、局限性和潛在研究方向的討論,我們希望讀者能夠獲得新的見解,并向類似人類的視覺理解更進一步。

付費5元查看完整內容

在過去的幾年里,機器學習得到了迅猛的發展,并在各個領域得到了廣泛的應用。這股熱潮始于2009年,當時出現了一種新的模型,即深度人工神經網絡,它開始在一些重要的基準上超越其他已建立的成熟模型。后來,它被廣泛應用于學術界和工業界。從圖像分析到自然語言處理,它充分發揮了它的魔力,現在已經成為最先進的機器學習模型。深度神經網絡在醫學影像技術、醫療數據分析、醫療診斷等醫療保健問題上具有巨大的潛力,并在臨床前甚至臨床階段得到推廣。在這篇綜述中,我們概述了機器學習在醫學圖像分析中的應用的一些新進展和挑戰,特別是在光聲成像中的深度學習。

這篇綜述的目的有三個:(i)介紹了深度學習的一些重要基礎知識,(ii)回顧了近年來在光聲成像的整個生態鏈中應用深度學習的工作,從圖像重建到疾病診斷,(iii)為有興趣將深度學習應用于光聲成像的研究人員提供一些開源材料和其他資源。

付費5元查看完整內容

基于視頻數據的深度預測學習(以下簡稱“深度預測學習”)屬于深度學習、計算機視覺和強化學習的交叉融合研究方向,是氣象預報、自動駕駛、機器人視覺控制等場景下智能預測與決策系統的關鍵組成部分,在近年來成為機器學習的熱點研究領域.深度預測學習遵從自監督學習范式,從無標簽的視頻數據中挖掘自身的監督信息,學習其潛在的時空模式表達.本文對基于深度學習的視頻預測現有研究成果進行了詳細綜述.首先,歸納了深度預測學習的研究范疇和交叉應用領域.其次,總結了視頻預測研究中常用的數據集和評價指標.而后,從基于觀測空間的視頻預測、基于狀態空間的視頻預測、有模型的視覺決策三個角度,分類對比了當前主流的深度預測學習模型.最后,本文分析了深度預測學習領域的熱點問題,并對研究趨勢進行了展望.

近年來,隨著移動互聯網、智能安防監控、時空數據采集與傳感器網絡等技術的迅猛發展,各行業中的視頻數據體量呈指數級增長.運用深度學習方法對海量視頻數據進行建模,在無須額外人工標注的情況下理解其時空結構特性,對氣象預報、自動駕駛、機器人視覺控制等若干場景下智能預測與決策系統具有重要意義,這使得基于無標簽視頻數據的深度預測學習(以下簡稱“深度預測學習”)成了近年來一個備受關注的研究領域.預測學習的交叉應用場景眾多,本文依照近年來國際學術界的主流研究成果,重點討論其在計算機視覺和視覺決策場景下的具體內涵.

首先,在計算機視覺的應用范疇下,預測學習的核心任務是指,基于一段連續的視頻歷史觀測,預測其在未來一段時間范圍內的變化.給定一個幀視頻序列

,預測隨后一段幀視頻序列

.利用深度學習模型,刻畫觀測空間中歷史數據與未來數據之間確定性的映射關系,從而實現對未來時空變化趨勢的高質量、精細化預測,已被成功應用于多種時空大數據平臺中,其中包含短時臨近強對流天氣預報[1]、城市交通狀況預測[2~4]等典型交叉應用場景.例如在氣象短臨預報中,需要根據前一時段內的雷達回波影像序列預測出未來0~2 h內每間隔6 min的雷達回波影像.在圖1所展示的例子中,由清華大學團隊主導研發的“新一代災害性天氣短時臨近預報業務平臺”首次將深度預測學習方法應用于中央氣象臺天氣預報業務系統,表現出了超越傳統數值模型與光流外插模型的預報水平,大幅提升了我國短臨災害性天氣精細化預報能力,證明了深度預測學習具有廣闊的交叉領域應用前景與重要的科學研究價值. 圖1 圖1 深度預測學習在氣象預報領域的應用示例,圖中所示為從過去一小時雷達回波歷史觀測中預測到的未來一小時雷達回波.

此外,在許多基于時空觀測信號的智慧決策系統中,視頻預測模型也有著廣闊的應用前景和商用價值.此類深度預測學習方法主要應用于機器人視覺決策任務[5~8],其具體問題定義為給定幀視頻序列

,以及機器人未來可能選取的動作序列

,以視頻幀

的形式,預測在相應未來時刻執行對應動作所可能產生的后果.此類預測模型的一種典型的應用場景是部分可見的馬爾可夫決策過程(Partially Observable Markov Decision Process,POMDP).在該問題中,場景的狀態信息是不完全可知的,即視覺觀測數據無法準確反應全部的物理機理,一些近期研究工作利用深度預測學習方法,在隱狀態空間中融合機器人的動作信息與隱狀態時空深度表征,刻畫動作、狀態、環境三者之間的動態關系.顯然,提升預測模型的精度,可以有效改善下游視覺控制與決策任務的執行效果. 從交叉應用場景看預測學習的本質,視頻數據作為一種典型的具有網格化空間結構的高維時間序列,其最大特點是在時間上具有長時非平穩趨勢與非確定性趨勢,同時在單一時刻又具有高維空間相關性(例如圖1中的雷達回波影像).傳統的機器學習方法大多將時空數據當作多組單變量時間序列進行獨立建模,其最大問題是特征學習能力不足,難以捕獲空間相關性與非線性時空動態,故而難以形成長時、精細化的預測.深度預測學習遵循自監督學習的訓練范式,不需要額外的標注信息,利用上述時空數據特性實現自監督訓練,在無標簽情況下建模數據中緊耦合的時間與空間相關性,從復雜、海量、高維、非線性的時空數據中挖掘重要的空間結構,并刻畫其隨時間的動態變化.預測學習模型與面向視頻數據的生成模型不同.后者更關注生成數據的分布與真實數據分布的統計差異,而不需要嚴格保證生成結果相對觀測數據的合理性;而前者相當于集成了因果推斷模型和條件生成模型,不僅需要關注于觀測空間中的生成質量,而且要盡可能地從歷史觀測中推斷時空狀態信息,因此需要更強的特征提取能力.在本文的后續討論中,我們據此將主流的視頻預測網絡按照在觀測空間或狀態空間中的建模時空動態進行歸納對比.具體分類方式如圖2所示. 圖2 圖2 深度預測學習主流方法的譜系圖。

本文第2節將歸納觀測空間中的視頻預測模型,主要包含基于卷積神經網絡(Convolutional Neural Network,CNN)和循環神經網絡(Recurrent Neural Networks,RNN)的若干神經網絡架構.第3節將總結基于語義狀態空間或隱狀態空間的深度預測網絡,探究低維狀態空間中的時空特征表達與解耦方法,以及基于此的長時預測方法和不確定性預測方法.第4節將歸納基于深度預測模型的視覺決策前沿方法,討論如何結合預測學習提高交互環境中控制和決策水平.第5節將介紹該研究領域內的典型數據集和模型評價指標.最后,第6節將討論深度預測學習的開放問題與未來發展趨勢.

付費5元查看完整內容

強化學習是一種從試錯過程中發現最優行為策略的技術,已經成為解決環境交互問題的通用方法.然而,作為一類機器學習算法,強化學習也面臨著機器學習領域的公共難題,即難以被人理解.缺乏可解釋性限制了強化學習在安全敏感領域中的應用,如醫療、駕駛等,并導致強化學習在環境仿真、任務泛化等問題中缺乏普遍適用的解決方案.為了克服強化學習的這一弱點,涌現了大量強化學習可解釋性(Explainable Reinforcement Learning,XRL)的研究.然而,學術界對XRL尚缺乏一致認識.因此,本文探索XRL的基礎性問題,并對現有工作進行綜述.具體而言,本文首先探討了父問題——人工智能可解釋性,對人工智能可解釋性的已有定義進行了匯總;其次,構建了一套可解釋性領域的理論體系,從而描述XRL與人工智能可解釋性的共同問題,包括界定智能算法和機械算法、定義解釋的含義、討論影響可解釋性的因素、劃分了解釋的直觀性;然后,根據強化學習本身的特征,定義了XRL的三個獨有問題,即環境解釋、任務解釋、策略解釋;之后,對現有方法進行了系統的歸類,并對XRL的最新進展進行綜述;最后,展望了XRL領域的潛在研究方向.

//www.jos.org.cn/jos/article/abstract/6485

人工智能(Artificial Intelligence, AI)和機器學習(Machine Learning, ML) 在計算機視覺[1] 、自然語言處理 [2] 、智能體策略[3] 等研究領域都取得了突破,并逐漸融入人的生活.雖然 ML 算法對于很多問題具有良好表 現,但由于算法缺乏可解釋性,模型實際使用中常受到質疑[4] [5] ,尤其在安全敏感的應用領域,如自動駕駛、醫 療等.缺乏可解釋性的問題已經成為機器學習的瓶頸問題之一.

強化學習(Reinforcement Learning, RL)被驗證適用于復雜的環境交互類問題[6]-[8] ,如機器人控制[9] ,游 戲 AI[10] 等.但作為機器學習的一類方法,RL 同樣面臨著缺乏可解釋性的問題,主要表現在如下 4 個方面:

(1) 安全敏感領域中的應用受限.由于缺乏可解釋性,RL 策略難以保證其可靠性,存在安全隱患.這一問題 在安全敏感任務(如醫療、駕駛等)中難以被忽略.因此,為避免模型不可靠帶來的危險,RL 在安全敏感 任務中大多局限于輔助人類的決策,如機器人輔助手術[11] ,輔助駕駛[12] 等;

(2) 真實世界知識的學習困難.雖然目前 RL 應用在一些仿真環境中具有優異表現,如 OpenAI gym[13] , 但這些仿真環境以簡單游戲為主,與真實世界存在較大差異.另外,RL 應用難以避免對環境的過擬合. 當過擬合發生時,模型學到環境的背景信息,而非真正的知識.這導致了兩難的問題,一方面,在真實世 界中訓練 RL 模型通常消耗巨大,另一方面,難以確定在虛擬環境中訓練的模型學到了真實的規律.

(3) 相似任務的策略泛化困難.RL 策略通常與環境存在強耦合,難以被應用到相似環境中.甚至在同樣的 環境下,環境參數的微小變化也會極大影響模型性能.這一問題影響了模型的泛化能力,難以確定模 型在相似任務中的表現.

(4) 對抗攻擊的安全隱患難于應對.對抗攻擊[14] 是一種針對模型輸入的攻擊技術,通過將微小的惡意擾 動加入到模型的輸入中生成對抗樣本.對人而言,對抗樣本不影響判斷,甚至難以察覺,然而對于模型 而言,對抗樣本會使模型的輸出產生極大的偏差.對抗攻擊從深度學習擴展到 RL[15] [16] ,成為 RL 算 法的安全隱患.對抗攻擊的有效性進一步暴露了 RL 缺乏可解釋性的問題,同時也進一步說明 RL 模 型并未學到真正的知識.

解釋對模型的設計者和使用者都具有重要的意義.對于模型的設計者,解釋能體現模型所學的知識,便于 通過人的經驗驗證模型是否學到魯棒的知識,從而使人高效地參與到模型的設計和優化中;對于特定領域的專 家使用者,解釋提供模型的內部邏輯,當模型表現優于人時,便于從模型中提取知識以指導人在該領域內的實 踐.對于普通用戶,解釋呈現模型的決策的原因,從而加深用戶對模型的理解,增強用戶對模型的信心.

強化學習可解釋性(Explainable Reinforcement Learning, XRL),或可解釋強化學習,是人工智能可解釋性 (Explainable Artificial Intelligence, XAI)的子問題,用于增強人對模型理解,優化模型性能,從而解決上述缺乏可 解釋性導致的 4 類問題. XRL 與 XAI 之間存在共性,同時 XRL 具備自身的獨特性.

一方面,XRL 與 XAI 存在共性.首先,提供解釋的對象是智能算法而非機械算法.機械算法,如排序、查找 等,其特點是完備的輸入,固定的解法以及明確的解.而智能算法因為輸入的不完備以及解法的不確定,導致算 法必須在解空間中尋找較優的解;其次,人和模型是兩個直接面對的關鍵實體.與其他技術不同,可解釋性方法 關注人對模型的理解.由于人對大量條例混亂的數據缺乏理解,因此解釋通常對模型內在邏輯的抽象,這一過程 必然伴隨對模型策略的簡化.其中的難點是,如何在向人提供解釋時,保證該解釋與模型主體邏輯的一致性;最 后,解釋的難度是相對的,同時由問題規模和模型結構兩個因素決定,并且這兩個因素在一定條件下相互轉化. 例如,結構簡單的模型(如決策樹、貝葉斯網絡等)在通常可以直觀的展示輸入和輸出之間的邏輯關系,但面對由 大量簡單結構組成的龐大模型,其錯綜復雜的邏輯關系仍然導致模型的整體不可理解.同時,雖然結構復雜的模 型(如神經網絡)通常難以被理解,但當模型被極致約減時(如將神經網絡塌縮為具有少數變量的復合函數),模型本身仍然可以被人所理解。

另一方面,XRL 也具備自身的獨特性.強化學習問題由環境、任務、智能體策略三個關鍵因素組成,因此, 解決 XRL 問題必須同時考慮這三個關鍵因素.由于 XRL 的發展仍處于初步階段,大部分方法直接從 XAI 的研 究中繼承,導致現有研究集中于對智能體策略的解釋,即解釋智能體行為的動機及行為之間的關聯.然而,缺乏 對環境和任務的認識使得一些關鍵問題無從解決:缺乏對環境的認識使人在面臨復雜任務時,缺乏對環境內部 規律的理解,導致對環境狀態進行抽象時忽略有利信息,使智能體難以學到真實的規律;缺乏對任務的解釋使任 務目標與過程狀態序列之間的關聯不明確,不利于智能體策略與環境的解耦合,影響強化學習智能體策略在相 似任務或動態環境中的泛化能力.因此,對環境、任務和策略的解釋存在強關聯,是實現強化學習解釋必然面臨 的問題.

目前,XRL 已經成為 AI 領域的重要議題,雖然研究者們為提高強化學習模型的可解釋性做出了大量工作, 但學術界對 XRL 尚且缺乏一致的認識,導致所提方法也難以類比.為了解決這一問題,本文探索 XRL 的基礎性 問題,并對現有工作進行總結.首先,本文從 XAI 出發,對其通用觀點進行總結,作為分析 XRL 問題的基礎;然后, 分析 XRL 與 XAI 的共同問題,構建出一套可解釋性領域的理論體系,包括界定智能算法和機械算法、定義解釋 的含義、討論影響可解釋性的因素、劃分解釋的直觀性;其次,探討 XRL 問題的獨特性,提出包括環境解釋、任 務解釋和策略解釋的三個 XRL 領域的獨有問題;隨后,對現有 XRL 領域的研究進展進行總結.以技術類別和解 釋效果為依據將對現有方法進行分類,對于每個分類,根據獲取解釋的時間、解釋的范圍、解釋的程度和 XRL 的獨有問題,確定每類方法的屬性;最后,展望了 XRL 領域的潛在研究方向,重點對環境和任務的解釋、統一的 評估標準兩個方向進行展開.

1 人工智能可解釋性的觀點總結

對 XRL 的研究不能脫離 XAI 的基礎.一方面,XRL 是 XAI 的子領域,其方法和定義密切相關,因此 XRL 的 現有研究廣泛借鑒了 XAI 在其他方向(如視覺)的成果;另一方面,XRL 目前仍處于起步階段,對其針對性的討論 較少,而對于 XAI,研究者們長期以來進行了廣泛的研究和討論[17] -[24] ,具有深刻的借鑒意義.基于上述原因, 本文從 XAI 的角度探討可解釋性問題,整理出學術界對 XAI 的共識,以此作為 XRL 的研究基礎.

雖然學者們從不同角度對 XAI 的定義在特定情況下指導著一類研究.然而,缺乏精確而統一的定義使得學 術界對 XAI 的認識存在一定差異.本文對 XAI 相關的定義進行總結,并將其分為形而上的概念描述、形而下的 概念描述兩類.

形而上的概念描述使用抽象概念對可解釋性進行定義[25] -[28] .這些文獻使用抽象的詞描述可解釋性算法,例如可信性(trustworthy),可靠性(reliability)等.其中可信性意味著人以較強的信心相信模型所做的決定,而可 靠性意味著模型不同場景下總是能保持其性能.雖然這樣抽象的概念不夠精確,只能產生直觀的解釋,但仍然可以使人準確了解可解釋性的目標、對象和作用,建立對可解釋性的直覺認知.這些概念表明,可解釋性算法具備 兩個關鍵實體,即人和模型.換而言之,可解釋性是一項以模型為對象,以人為目標的技術.

形而下的概念描述從哲學、數學等的觀點出發,基于解釋的現實意義對其進行定義.如 Páez 等人[17] 從哲 學角度出發,認為解釋所產生的理解并不完全等同于知識,同時理解的過程也不一定建立在真實的基礎上.我們 認為,解釋作為媒介存在,這個媒介通過呈現模型的真實知識或構建虛擬邏輯的方式,增強人對模型的理解.同 時,人對模型的理解不必建立在完全掌握模型的基礎上,只要求掌握模型的主要邏輯,并能對結果進行符合認知 的預測. Doran 等人[29] 認為,可解釋性系統使人們不僅能看到,更能研究和理解模型輸入和輸出之間的數學映 射. 一般而言,AI 算法的本質是一組由輸入到輸出的數學映射,而解釋則是將這樣的數學映射以人類可理解和 研究的方式展現出來.雖然數學映射也是人們為描述世界而創造的一種方式,但對于復雜的數學映射(如用于表 示神經網絡的高維多層嵌套函數),人們卻無法將其與生活中的直觀邏輯相聯系. Tjoa 等人[19] 認為,可解釋性 是用于解釋算法做出的決策,揭示算法運作機制中的模式以及為系統提供連貫的數學模型或推導.這一解釋也 基于數學表達,反映出人們更多地通過模型的決策模式來理解模型,而非數學上的可重現性.

一些觀點與上述文獻存在微小出入,但仍具有借鑒意義.例如,Arrieta 等人[21] 認為可解釋性是模型的被動 特征,指示模型被人類觀察者理解的程度.這個觀點將模型的可解釋性視為被動特征,忽略了模型為了更強的可 解釋性而主動提出解釋的可能. Das 等人[23] 認為,解釋是一種用于驗證 AI 智能體或 AI 算法的方式.這一觀點 傾向于關注模型的結果,其目的是為了確保模型一貫的性能.然而該描述忽略了一個事實,即模型本身意味著知 識,可解釋性不僅是對模型結果的驗證,同時也有助于從模型中提取人們尚未掌握的知識,促進人類實踐的發 展.雖存在較小出入,但上述觀點也提出了獨特的角度,例如,可以將模型的可解釋性視為模型的一個特性,而評 估模型的性能是解釋的重要功能.

雖然對 XAI 的定義眾多,但就整體而言,學術界對 XAI 的基本概念仍然是一致的.本文嘗試提取其中的共 性作為研究 XRL 問題的理論基礎.通過對以上文獻的分析,我們總結出學術界對 XAI 的共識:

(1) 人與模型是可解釋性直接面對的兩個關鍵的實體,可解釋性是一項以模型為對象,以人為目標的技 術; (2) 解釋作為理解的媒介存在,該媒介可以是真實存在的事物,也可以是理想構建的邏輯,亦或是二者并 舉,達到讓人能夠理解模型的目的; (3) 人的對模型的理解不需要建立在完全掌握模型的基礎上; (4) 可準確重現的數學推導不可取代可解釋性,人對模型的理解包括感性和理性的認知; (5) 可解釋性是模型的特性,這一特性可用于驗證模型的性能.

2 強化學習可解釋性與人工智能可解釋性的共同問題

在對 XAI 定義進行總結的基礎上,本節討論 XRL 與 XAI 面臨的共同問題.由于 XRL 與 XAI 之間存在強 耦合,因此本節內容既適用于 XAI,同時也是 XRL 的基礎問題.

2.1 智能算法和機械算法界定

可解釋性的對象是智能算法而非機械算法.傳統認知中的機械算法,如排序、查找等,面對確定的任務目標, 同時具有固定的算法程序.強化學習作為一種智能算法,在與環境動態交互的過程中尋找最優的策略,最大化獲 得的獎賞.界定智能算法和機械算法可用于確定被解釋的對象,進而回答“什么需要被解釋”的問題.一方面,智能 算法與機械算法存在差異,而解釋只在面向智能算法時存在必要性;另一方面,即使對于強化學習,也無需對其 所有過程產生解釋,而應針對其具有智能算法特性的部分進行解釋,如動作生成、環境狀態轉移等.因此,在討論 可解釋性問題前,有必要區分智能算法和機械算法.

本文根據算法對已知條件的獲取程度和建模的完整性,定義“完全知識”和“完全建模”:

完全知識:已知足夠任務相關的有效知識,具備以機械過程獲得最優解的條件;

完全建模:進行完整的問題建模,具備完成任務所需的計算能力;

完全知識是以機械方法確定最優解的前提.例如,求解系數矩陣的秩為 的線性方程組,完全知識表示其增 廣矩陣的秩大于等于系數矩陣的秩,此時可以根據當前知識,獲得確定的解或者確定其無解;完全建模意味著對 現有知識的充分利用,換言之,完全建模從建模者的角度出發,表示在解決任務的過程中有能力(包括程序設計 者的設計能力和硬件的算力)利用所有的知識.例如,在 19×19 圍棋游戲中,存在理論上的最優解法,但目前尚不具備足夠的計算能力在有限時間內獲取最優解.

根據上述對完全知識和完全建模的定義,本文進一步提出“任務完全”的概念來確定機械算法與智能算法 之間的邊界:

任務完全:對特定任務,具備完全知識并進行完全建模.

任務完全必須在完全知識的前提下進行完全建模.滿足任務完全的條件后,算法的優劣取僅決于建模方式 和使用者的實際需求.任務完全的定義考慮了知識和建模兩方面因素(圖 1).

任務完全的概念可以用來區分機械算法和智能算法.機械算法是任務完全的,具體來說,算法已知足夠的 知識,并進行了無簡化的建模.此時,算法具備獲取最優解的條件,因此算法的過程是確定的,獲得的解也是可預期的.例如,經典排序算法、傳統數據查詢、3×3 井字棋游戲算法等都屬于機械算法.智能算法是任務不完全的, 這意味著算法不具備足夠的知識,或者采取了簡化的建模方式.智能算法無法直接獲取最優解,通常在解空間中 尋找較優的解.如基于貪心策略的算法,線性回歸方法,19×19 傳統圍棋策略,機器學習類算法等。

導致任務不完全的可能有二,即知識不完全和建模不完全.在知識不完全的情況下,算法無法直接確定最 優解,因此只能在解空間中逼近最優解.此時,智能算法的實際作用是在解空間中進行解的選擇.導致知識不完 全的因素通常是客觀的,如環境狀態無法被完全觀測,任務目標不可預知,任務評價指標的不可知,任務始終點 不可知等等;在建模不完全的情況下,算法通常忽略某些知識,導致算法過程沒有充分利用知識,從而無法獲得 最優解.建模不完全的原因有客觀和主觀兩方面,客觀原因如建模偏差,不完全建模等,主觀原因包括降低硬件 需求,模型提速等.在強化學習中,并非所有過程具備任務不完全的特點,因此只有部分需要進行解釋,如策略生 成、環境狀態轉移等.

2.2 對“解釋”的定義

在漢語詞典中,解釋有“分析、闡明”的含義.這不僅符合生活中對該詞的理解,同時也與可解釋性研究中“解 釋”的含義相近.然而,具體到可解釋性的研究中,這一含義顯得寬泛.我們希望結合對可解釋性的理解,細化“解 釋”的含義,使之具有更強的指導意義.以強化學習模型為例,模型學習使獎勵最大化的策略,其中包含著環境、獎 勵和智能體之間的隱式知識,而 XRL 算法則是將這些隱式知識顯式地表現出來.本文將多個知識視為集合,稱 為知識體系,從知識體系相互之間關系的角度,對“解釋”做出如下定義:

解釋:知識體系之間的簡潔映射.簡潔映射是在不引入新知識的條件下對目標知識進行表達;

具體來說,解釋是將基于原知識體系的表達轉換為目標知識體系表達的過程,這個過程僅使用目標知識體 系的知識,而不引入新的知識.而 XRL 算法的目的在于產生解釋,從而使原知識體系能夠被目標知識體系簡潔 的表達出來.在 XRL 中,原知識體系通常指代強化學習模型,而目標知識體系通常指人的認知,模型和人是可解 釋性的兩個關鍵實體.本文將原知識體系看作由多個元知識及其推論構成的集合.以 表示元知識, 表示知識 體系,則 .假設智能體習得的知識屬于知識體系 ,而人類能夠理解的知識屬于知識體系 ,則解釋 是將知識體系 轉換為知識體系 表達的過程.對于解釋而言,簡潔映射是必要的,非簡潔的映射可能提升解釋 本身的被理解難度,進而導致解釋本身讓人無法理解(見 2.3 ).

在對知識進行轉換表達的過程中,待解釋的知識可能無法完全通過目標知識體系進行描述,這時只有部分 知識可以被解釋.本文使用“完全解釋”和“部分解釋”的概念描述這一情況:

完全解釋:待解釋的知識完全被目標知識體系表達.其中,被解釋的知識屬于目標知識體系是其必要條件;

部分解釋:待解釋的知識的部分被目標知識體系表達.

具體來說,完全解釋和部分解釋描述的是知識體系之間的包含情況(圖 2).只有當待解釋的知識體系完全 被目標知識體系所包含時,才可能進行完全解釋,否則只能進行部分解釋.在 XRL 中,完全解釋通常是不必要的.

一方面,待解釋知識體系和目標知識體系的邊界難以確定,導致完全解釋難度高且耗費巨大;另一方面,實現對 模型的解釋通常不需要建立在對模型完全掌握的基礎上.因此,部分解釋是大部分可解釋性研究中采用的方法, 即只描述算法的主要決策邏輯.

2.3 可解釋性的影響因素

一個觀點認為,傳統 ML(RL 為其子集)方法是易于解釋的,而深度學習的引入使得可解釋性產生了短板,導 致 ML難于解釋,因此 ML 解釋的本質是對深度學習的解釋[21] .這與可解釋性領域的認知相悖[28] .這一觀點只 關注模型而忽略了人在可解釋性中的地位.對于人而言,即使是理論上可被理解的模型,當規模擴張到一定程度 時,仍然會導致整體的不可理解.本文對可解釋性的影響因素進行如下定義:

透明度:待解釋模型結構的簡潔程度;

模型規模:待解釋模型包含的知識量和知識組合多樣化程度;

本文認為,可解釋性是對模型組件透明度和模型規模的綜合描述.透明度和模型規模是影響可解釋性的兩 個主要因素.具體來說,可解釋性強意味著同時具備高透明度和低復雜度,而單一因素,如復雜度高或透明度低 將導致模型的弱可解釋性(圖 3).

在不同語境下,“透明”一詞具有不同的含義.例如,在軟件結構中,透明指的是對底層過程的抽象程度,意味 著上層程序無需關注底層的實現.類似的,透明度在可解釋性領域也存在不同的含義,如文獻[26] [27] 認為透明 度是模型可以被理解的程度,將透明度與可解釋性等價.以強化學習為例,基于值表的強化學習算法在規模一定 時通常具有更強的可解釋性,而使用深度學習擬合值表則可解釋性更弱,這是因為通過查詢值表而產生策略的 過程符合人的直觀理解,但神經網絡傳播過程僅在數學上可被準確描述,于人而言透明度更低.然而,這一思考 將構建模型的基礎結構作為可解釋性的重點,而忽略了模型規模對解釋帶來的難度,并忽略了解釋的目標—— 人.因此,為突出模型規模對解釋的影響,我們僅將透明度狹義理解為待解釋模型的結構的簡潔程度.

模型規模從人理解能力的角度衡量解釋的難度.具體來說,假設模型中的知識由一系列元知識構成,則模 型規模表示元知識總量和知識之間組合的多樣化程度,而解釋的難度一定程度上取決于模型規模,當模型規模 超過特定范圍(人的理解能力)時模型將無法被理解.例如,線性加性模型、決策樹模型、貝葉斯模型,由于計算過 程簡潔,使我們能夠輕易了解模型基于何因素得到何種結果,因此被認為是易于理解的.然而,當模型規模逐漸 龐大時,各因素之間的邏輯不可避免地相互交織,變得錯綜復雜,使我們最終無法抓住其主從關系.對于以簡潔 結構(如決策樹分支)構成的大規模模型,雖然所有結果在理論上有跡可循,但當模型規模已超越人類的理解能 力,導致系統整體將仍然不具備可解釋性.

2.4 可解釋性的程度劃分

人的學習過程與強化學習過程存在一定的相似性,因此,如果將人腦看作目前最先進的智能模型,則人對 模型的理解不僅僅是人對模型的直觀感受,也是一個先進的智能體對強化學習模型的綜合評估.然而,一個無法 理解的模型不可能被有效評估,因此對模型的解釋成為人理解模型的媒介.作為人和模型之間媒介,可解釋性算 法不同程度的具備兩個相互平衡特點:接近模型和接近人的感知.具體來說,不同的解釋有的更注重準確的描述 模型,而另一些更注重與人的感知一致.基于這一概念,本文將可解釋性分為如下三個層次:

(1) 數學表達: 通過理想化的數學推導解釋模型.數學表達是使用數學語言簡化模型的表達.由于強化學 習模型建立在數學理論的基礎上,因此通過數學表達可以準確地描述和重構模型.雖然數學理論體 系是人描述世界的一種重要方式,但其與人的普遍直覺之間存在較大差異.以深度學習為例,雖然存 在大量文章論證了其在數學上的合理性,但深度學習方法仍然被認為是不可解釋的.因此,數學的表 達能夠在微觀(參數)層面對模型進行描述,但難以遷移至人類知識體系;

(2) 邏輯表達: 通過將模型轉換為顯性的邏輯規律解釋模型.邏輯表達是對模型中主體策略的提取,即忽 略其細微分支,凸顯主體邏輯.一方面,邏輯表達保留了模型的主體策略,因此與模型真實決策結果相 近,解釋本身可以部分重現模型的決策;另一方面,邏輯表達簡化了模型,符合人的認知.邏輯表達是較 為直觀的解釋,但需要人具備特定領域的知識,是面對人類專家的解釋,而對一般用戶尚不夠直觀;

(3) 感知表達: 通過提供符合人類直覺感知的規律解釋模型.感知表達基于模型生成符合人類感知的解 釋,由于不需要人具備特定領域的知識,因此易于理解.例如,可視化關鍵輸入、示例對比等解釋形式 都屬于感知表達的范疇.然而,感知表達通常是對模型策略的極大精簡,因為無法重現模型的決策,導 致其只解釋決策的合理性.

在可解釋性的三個層次中,數學表達作為第一個層次,也是構建強化學習算法的理論基礎.在已知模型所 有參數的情況下,數學表達通常可以較為準確的推斷出模型的結果,然而,數學上的合理性不意味著能被人所理 解;邏輯表達介于數學表達和感知表達之間,是對模型策略的近似,但邏輯表達方法產生的解釋通常要求用戶具 備特定領域的專業知識;感知表達對模型決策的重要因素進行篩選,并使用清晰、簡潔的形式進行呈現,雖然結 果易于理解,但已經不具備重構策略的能力.總而言之,不同的解釋在接近模型和接近人類感知之間存在著平 衡,難以兼顧.

3 強化學習可解釋性的獨有問題

與其他 ML 方法不同,RL 問題由環境、任務、智能體三個關鍵因素組成.其中,環境為給定的具有一定內部規律的黑盒系統;任務為智能體為最大化其平均獎賞的而擬合的目標函數;策略是智能體行為的依據和一系 列行為之間的關聯.根據強化學習的三個關鍵組成因素,本文歸納出 XRL 的三個獨有問題,即環境解釋,任務解 釋,策略解釋.三個獨有問題之間存在著密切的關聯,與整個強化學習過程密不可分,是實現強化學習解釋直接 面臨的問題.

4 強化學習可解釋性研究現狀

由于 XRL 涉及的領域廣泛,學者從各領域的角度出發,導致所提出的方法具有較大差異.因此,本節分兩步 對相關方法進行總結.首先,根據技術類別和解釋的展現形式,將現有方法分為視覺和語言輔助解釋、策略模仿、 可解釋模型、邏輯關系提取和策略分解五個類別.然后,在通用分類方法(即獲取解釋的時間、解釋的范圍)的基 礎上,結合本文所提出的分類依據(即解釋的程度,面對的關鍵科學問題),確定不同類別方法的屬性.

在可解釋性領域中,分類通常基于獲取解釋的時間和解釋的范圍兩個因素[31] .具體而言,根據獲取解釋的 時間,可解釋性方法被分為固有(intrinsic)解釋和事后(post-hoc)解釋.固有解釋通過限制模型的表達,使模型在運 行時生成具備可解釋性的輸出.例如,基于較強可解釋性的原理和組件(決策樹、線性模型等)構造模型,或者通過 增加特定過程使模型生成可解釋性的輸出;事后解釋是通過對模型行為的分析,總結模型的行為模式,從而達到 解釋的目的.通常而言,固有解釋是策略產生過程中的解釋,特定于某個模型,而事后解釋是策略產生后的解釋, 與模型無關.根據解釋的范圍,可解釋性方法被分為全局(global)解釋和局部(local)解釋,全局解釋忽略模型的微 觀結構(如參數、層數等因素),從宏觀層面提供對模型的解釋,局部解釋從微觀入手,通過分析模型的微觀結構獲 得對模型的解釋.

除上述可解釋性的通用分類之外,本文基于解釋與模型和人類感知的符合程度,將可解釋性方法分為數學 表達、邏輯表達和感知表達三類(見 2.4 ).這三類可解釋性方法體現出可解釋性算法在解釋的形式、解釋與模 型結果的近似程度和解釋的直觀度等方面的區別.前文(見 3 )分析了 XRL 面臨的 3 個關鍵問題,即環境解釋, 任務解釋和策略解釋.目前,單個 XRL 方法難以同時解決三類問題,因此,我們也以此為依據,對當前 XRL 方法所 著眼的問題進行區分.

綜上所述,本文以“獲取解釋的時間”、“解釋的范圍”、“解釋的程度”以及“關鍵問題”為依據,對 XRL 方法 進行分類(見表 1).由于算法多樣,表 1 僅顯示大類別算法的特點,部分算法可能不完全符合

總結

本文以 XRL 的問題為中心,討論了該領域的基礎問題,并對現有方法進行總結.由于目前在 XRL 領域,乃至 整個 XAI 領域尚未形成完整、統一的共識,導致不同研究的基礎觀點存在較大差異,難于類比.本文針對該領域 缺乏一致認知的問題,進行了較為深入的研究工作.首先,本文參考 XRL 領域的父問題——XAI,收集 XAI 領域 的現有觀點,并整理出 XAI 領域較為通用的認識;其次,以 XAI 領域的定義為基礎,討論 XAI 與 XRL 面臨的共同 問題;然后,結合強化學習自身的特點,提出 XRL 面臨的獨有問題;最后,總結了相關的研究方法,并對相關方法進 行分類.分類中包括作者明確指出為 XRL 的方法,也包括作者雖未著重強調,但實際對 XRL 有重要意義的方法. XRL 目前尚處于初步階段,因此存在大量亟待解決的問題.本文重點提出環境和任務的解釋、統一的評估標準 兩類問題.本文認為這兩類問題是為類 XRL 領域的基石,是值得重視的研究領域.

付費5元查看完整內容

隨著深度學習系統對數據和計算資源的快速需求,越來越多的算法利用協同機器學習技術,例如聯邦學習,在多個參與者之間訓練一個共享的深度模型。它可以有效地利用每個參與者的資源,獲得一個更強大的學習系統。然而,這些系統中的完整性和隱私威脅極大地阻礙了協同學習的應用。在不同的協同學習系統中,為了保持模型的完整性和減少訓練數據在訓練階段的隱私泄露,已經提出了大量的工作。與現有的主要針對某一特定協同學習系統的調研查相比,本調研旨在對協同學習中的安全和隱私研究進行系統、全面的綜述。我們的調研首先提供了協同學習的系統概述,然后簡要介紹了完整性和隱私威脅。然后,我們將以一種有組織的方式詳細介紹現有的完整性和隱私攻擊以及它們的防御。我們還列出了這一領域的一些開放問題,并將GitHub上的相關論文開源: //github.com/csl-cqu/awesome-secure-collebrativelearning-papers。

深度學習在計算機視覺、自然語言處理、生物信息學和桌面游戲程序等多個領域都取得了巨大的成功。DL系統采用深度神經網絡(DNNs),通過對龐大的訓練數據集[1]-[4]的經驗自動改進。為了有效地訓練DL模型,學習系統主要依賴于兩個組件:大量高質量的訓練樣本和高性能的GPU。但是由于各種原因,訓練數據集和GPU可能分布在不同的地方。考慮以下兩個例子[5]-[7]:醫學圖像分類。一家醫院想要學習一種肺癌探測器模型,以幫助醫生從他們的計算機斷層掃描(CT)圖像中識別肺癌患者。由于醫院接收的肺癌患者數量有限,學習一個高度準確的模型對醫院來說是困難的。為了保證診斷的準確性,醫院聯合其他醫院共同協同學習共享模型。考慮到患者的隱私,所有醫院都需要局部保留CT圖像。

最近,協同學習作為一種很有前途的解決方案在[8]-[14]這樣的應用場景中很受歡迎。具體來說,協同學習允許兩個或更多參與者協作訓練一個共享的全局DL模型,同時保持他們的訓練數據集在本地。每個參與者在自己的訓練數據上訓練共享模型,并與其他參與者交換和更新模型參數。協同學習可以提高共享模型的訓練速度和性能,同時保護參與者的訓練數據集的隱私。因此,對于訓練數據敏感的場景(如醫療記錄、個人身份信息等),它是一種很有前途的技術。已經提出了幾種用于協同學習的學習架構:有或沒有中央服務器,有不同的模型聚合方式,等等[15]-[22]。協同學習的一個重要分支是[23]聯邦學習,它使手機能夠協同學習一個共享的預測模型,同時將所有的訓練數據保存在設備上,將機器學習的能力與將數據存儲在云端的需求分離開來。

雖然每個參與者在本地存儲訓練數據集,并且每次迭代時只共享全局模型的更新,但對手也可以在訓練過程中進行破壞模型完整性和數據隱私的攻擊,即[24]-[27]。最嚴重的威脅之一是模型完整性,當一些參與者不值得信任[28],[29]時,很容易損害模型完整性。例如,惡意參與者用一些精心設計的惡意觸發器毒害他們的訓練數據集。然后,在每次迭代中,利用觸發器生成惡意更新,并通過共享惡意更新,逐步將后門等觸發器注入到全局模型中,以獲取額外利潤或增加自身優勢[30],[31]。敵人也可以偽裝成參與者加入協同學習過程,并通過向其鄰居或參數服務器[25]、[32]、[33]發送惡意更新來破壞學習過程。Blanchard et al.[28]和Guo et al.[29]表明,只有一個惡意參與者能夠控制整個協同學習過程。

除了模型完整性威脅,另一個關鍵的挑戰是保護每個參與者的數據隱私。研究表明,盡管參與者不與他人共享原始訓練樣本,但共享更新是由樣本生成的,并間接泄露了訓練數據集的信息。例如,Melis et al.[34]發現,在訓練過程中,可以從共享梯度中捕獲成員和意外特征泄漏。更嚴重的是,Zhu等人[26]提出了一種優化方法,可以從相應的更新中重構出訓練樣本。針對上述完整性和隱私威脅,提出了多種方法來防御[24]、[26]、[28]、[35]-[48]、[48]、[49]、[49]-[66]。例如,為了實現byzantine彈性協同學習,Blanchard et al.[28]在每次迭代中使用統計工具檢查參與者的更新,并在聚合更新時放棄潛在的惡意更新。在隱私保護方面,Gao等[67]提出了搜索保護隱私的變換函數,并使用保護隱私的變換函數對訓練樣本進行預處理,以抵御重構攻擊,同時保持訓練后DL模型的準確性。一些防御[68]-[72]也提出了健壯的和隱私保護的防御方法來防御完整性和隱私威脅。

在這篇論文中,我們關注在協同學習的訓練過程中的完整性和隱私攻擊和防御,并提出了一個最新的解決方案的全面綜述。具體來說,我們從不同的角度系統地介紹了不同類型的協同學習系統(第二節)。然后,我們在第三節中總結總結了協同學習中的隱私和完整性威脅。一方面,我們在第四節和第五節分別展示了現有的攻擊和相應的防御。另一方面,我們在第五節中分別展示了最先進的完整性隱私攻擊和相應的防御。我們總結了混合防御方法來實現魯棒和隱私保護的協同學習和對抗訓練算法來提高模型推理的魯棒性。我們在第IX節闡述了協同學習中一些開放的問題和未來的解決方案,然后在第X節中總結了這篇文章。我們還在GitHub上開源了論文的攻防方法列表:

付費5元查看完整內容

深度視覺生成是計算機視覺領域的熱門方向,旨在使計算機能夠根據輸入數據自動生成預期的視覺內容。深度視覺生成用人工智能技術賦能相關產業,推動產業自動化、智能化改革與轉型。生成對抗網絡(GAN)是深度視覺生成的有效工具,近年來受到了極大關注,成為快速發展的研究方向。GAN能夠接收多種模態的輸入數據,包括噪聲、圖像、文本、視頻,以對抗博弈的模式進行圖像生成和視頻生成,已成功應用于多項視覺生成任務,如廣告設計、藝術創作、動畫制作、虛擬現實等。利用GAN實現真實的、多樣化、可控的視覺生成具有重要的研究意義。本文通過系統調研,對近年來深度對抗視覺生成的相關工作進行綜述。首先介紹深度視覺生成背景及典型生成模型,然后根據深度對抗視覺生成的主流任務概述相關算法,總結深度對抗視覺生成目前面臨的痛點問題,在此基礎上分析深度對抗視覺生成的未來發展趨勢。

//www.cjig.cn/jig/ch/reader/download_new_edit_content.aspx?edit_id=202001&file_no=2022&journal_id=jig

付費5元查看完整內容
北京阿比特科技有限公司