亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

機器學習是實現人工智能的重要技術手段之一,在計算機視覺、自然語言處理、搜索引擎與推薦系統等領域有著重要應用.現有的機器學習方法往往注重數據中的相關關系而忽視其中的因果關系,而隨著應用需求的提高,其弊端也逐漸開始顯現,在可解釋性、可遷移性、魯棒性和公平性等方面面臨一系列亟待解決的問題.為了解決這些問題,研究者們開始重新審視因果關系建模的必要性,相關方法也成為近期的研究熱點之一.在此對近年來在機器學習領域中應用因果技術和思想解決實際問題的工作進行整理和總結,梳理出這一新興研究方向的發展脈絡.首先對與機器學習緊密相關的因果理論做簡要介紹;然后以機器學習中的不同問題需求為劃分依據對各工作進行分類介紹,從求解思路和技術手段的視角闡釋其區別與聯系;最后對因果機器學習的現狀進行總結,并對未來發展趨勢做出預測和展望.

地址://crad.ict.ac.cn/CN/10.7544/issn1000-1239.202110780

0. 引言

機器學習是一門研究如何設計算法、利用數據 使機器在特定任務上取得更優表現的學科,其中以 深度學習[1] 為代表的相關技術已成為人們研究實現 人工智能方法的重要手段之一.至今機器學習研究已 經取得大量令人矚目的成就:在圖像分類任務上的 識別準確率超過人類水平[2] ;能夠生成人類無法輕易 識別的逼真圖像[3] 和文本[4] ;在圍棋項目中擊敗人類 頂尖棋手[5] ;蛋白質結構預測結果媲美真實實驗結 果 [6] 等.目前機器學習在計算機視覺、自然語言處理、 搜索引擎與推薦系統等領域發揮著不可替代的作用, 相關應用涉及互聯網、安防、醫療、交通和金融等眾 多行業,對社會發展起到了有力的促進作用. 盡管機器學習研究獲得了一系列豐碩的成果, 其自身的問題卻隨著應用需求的提高而日益凸顯.機 器學習模型往往在給出預測結果的同時不會解釋其 中的理由,以至于其行為難以被人理解[7] ;同時機器 學習模型還十分脆弱,在輸入數據受到擾動時可能 完全改變其預測結果,即使這些擾動在人看來是難以 察覺的[8] ;機器學習模型還容易產生歧視行為,對不 同性別或種族的人群給予不同的預測傾向,即使這 些敏感特征不應當成為決策的原因[9] .這些問題嚴重 限制了機器學習在實際應用中發揮進一步的作用.造成這一系列問題的一個關鍵原因是對因果關 系的忽視.因果關系,指的是 2 個事物之間,改變一 者將會影響另一者的關系.然而其與相關關系有所不 同,即使 2 個事物之間存在相關關系,也未必意味著 它們之間存在因果關系.例如圖像中草地與牛由于常 在一起出現而存在正相關關系,然而兩者之間卻沒 有必然的因果關系,單純將草地改為沙地并不會改 變圖像中物體為牛的本質.機器學習的問題在于其模 型的訓練過程僅僅是在建模輸入與輸出變量之間的 相關關系,例如一個識別圖像中物體類別的機器學 習模型容易將沙地上的牛識別為駱駝,是因為訓練 數據中的牛一般出現在草地上而沙地上更常見的是 駱駝.這種具備統計意義上的相關性卻不符合客觀的 因果規律的情況也被稱為偽相關(spurious correlation). 偽相關問題的存在對只考慮相關性的機器學習模型 帶來了災難性的影響:利用偽相關特征進行推斷的 過程與人的理解不相符,引發可解釋性問題;在偽相 關特征發生變化時模型預測結果會隨之改變從而導 致預測錯誤,引發可遷移性和魯棒性問題;如果偽相 關特征恰好是性別和膚色等敏感特征,則模型決策 還會受到敏感特征的影響,引發公平性問題.忽視因 果關系導致的這些問題限制了機器學習在高風險領 域及各類社會決策中的應用.圖靈獎得主 Bengio 指出, 除非機器學習能夠超越模式識別并對因果有更多的 認識,否則無法發揮全部的潛力,也不會帶來真正的 人工智能革命.因此,因果關系的建模對機器學習是 必要的,需求也是十分迫切的. **因果理論即是描述、判別和度量因果關系的理 論,由統計學發展而來.長期以來,由于缺乏描述因果 關系的數學語言,因果理論在統計學中的發展十分 緩慢.**直到 20 世紀末因果模型被提出后,相關研究才 開始蓬勃興起,為自然科學和社會科學領域提供了 重要的數據分析手段,同時也使得在機器學習中應 用因果相關的技術和思想成為可能.圖靈獎得 主 Pearl 將這一發展歷程稱為“因果革命” [10] ,并列舉了 因果革命將為機器學習帶來的 7 個方面的幫助[11] . 本文將在機器學習中引入因果技術和思想的研究方 向稱為因果機器學習(causal machine learning).目前機 器學習領域正處于因果革命的起步階段,研究者們 逐漸認識到了因果關系建模的必要性和緊迫性,而 因果機器學習的跨領域交叉特點卻限制了其自身的 前進步伐.本文希望通過對因果理論和因果機器學習 前沿進展的介紹,為相關研究者掃清障礙,促進因果 機器學習方向的快速發展.目前針對因果本身的研究 已有相關綜述文獻 [12?14],內容主要涵蓋因果發現 和因果效應估計的相關方法,但很少涉及在機器學習任務上的應用.綜述文獻 [15?16] 詳細地介紹了因 果理論對機器學習發展的指導作用,著重闡述現有 機器學習方法的缺陷和因果理論將如何發揮作用, 但缺少對這一方向最前沿工作進展的整理和介紹, 而這正是本文重點介紹的內容.

1 因果理論簡介

因果理論發展至今已成為統計學中的一個重要 分支,具有獨有的概念、描述語言和方法體系.對于 因果關系的理解也已經不再僅停留在哲學概念的層 面,而是有著明確的數學語言表述和清晰的判定準 則.當前廣泛被認可和使用的因果模型有 2 種:潛在 結果框架(potential outcome framework)和結構因果模 型(structural causal model, SCM).Splawa-Neyman 等 人 [17] 和 Rubin[18] 提出的潛在結果框架又被稱為魯賓 因果模型(Rubin causal model, RCM),主要研究 2 個 變量的平均因果效應問題;Pearl[19] 提出的結構因果 模型使用圖結構建模一組變量關系,除了效應估計 也會關注結構發現問題.RCM 與 SCM 對因果的理解 一致,均描述為改變一個變量是否能夠影響另一個 變量,這也是本文所考慮的因果范疇.兩者的主要區 別在于表述方法不同,RCM 更加簡潔直白,相關研究 更為豐富;而 SCM 表達能力更強,更擅長描述復雜 的問題.雖然目前依然存在對因果的其他不同理解, 這些理解通常不被視為真正的因果,例如格蘭杰因 果(Granger causality) [20] 描述的是引入一個變量是否 對另一個變量的預測有促進作用,本質上仍是一種 相關關系. 本節將對因果相關概念以及 RCM 與 SCM 的相 關理論和技術進行簡要介紹.由于本文關注的主要內 容是因果機器學習而不是因果本身,本節將側重于 介紹機器學習中所使用的因果的概念和思想,而不 會過多關注因果領域自身的前沿研究.

**2 因果機器學習相關工作介紹 **

近年來隨著因果理論和技術的成熟,機器學習 領域開始借助因果相關技術和思想解決自身的問題, 這一研究方向逐漸受到研究者越來越多的關注.至今,因果問題被認為是機器學習領域亟待解決的重要問 題,已成為當下研究的前沿熱點之一.機器學習可以 從因果技術和思想中獲得多個方面的益處.首先,因 果理論是一種針對數據中規律的普適分析工具,借 助因果圖等語言可以對研究的問題做出細致的分析, 有利于對機器學習模型的目標進行形式化以及對問 題假設的表述.其次,因果推斷提供了消除混雜因素 以及進行中介分析的手段,對于機器學習任務中需 要準確評估因果效應及區分直接與間接效應的場景 有十分重要的應用價值.再者,反事實作為因果中的 重要概念,也是人在思考求解問題時的常用手段,對 于機器學習模型的構建和問題的分析求解有一定的 指導意義. 本節將對近年來因果機器學習的相關工作進行 整理介紹,涉及應用領域包括計算機視覺、自然語言 處理、搜索引擎和推薦系統等.按照所解決問題的類 型進行劃分,因果機器學習主要包括以下內容:可解 釋性問題主要研究如何對已有機器學習模型的運作 機制進行解釋;可遷移性問題主要研究如何將模型 在特定訓練數據上學到的規律遷移到新的特定環境; 魯棒性問題主要研究尋找普適存在的規律使模型能 夠應對各種未知的環境;公平性問題主要研究公平 性度量指標并設計算法避免歧視;反事實評估問題 主要研究如何在存在數據缺失的場景中進行反事實 學習.這些問題與因果理論的關系如圖 4 所示,下面 針對這些問題分別展開介紹.

**2.1 可解釋性問題 **

機器學習模型會根據給定輸入計算得到對應的 輸出,但一般不會給出關于“為什么會得到此輸出” 的解釋.然而這種解釋有助于人們理解模型的運作機 制,合理的解釋能夠使結果更具有說服力.因此近年 來涌現出許多致力于為現有模型提供解釋方法的工 作,為模型的診斷分析提供了有效手段[39] .解釋的核 心在于“模型得到此輸出,是因為輸入具有什么樣的 特征”,這本質上是在探討在此模型參與過程中輸入 特征與輸出結果之間的因果關系,例如估計特征對 輸出變量的因果效應強度. 由于機器學習模型對輸入數據的處理過程是一 個獨立而完整的過程,輸入與輸出變量之間一般不 會受到混雜因素的影響,因此即使不使用因果術語 也可以對任務進行描述.這體現為早期的模型解釋方 法并不強調因果,少數強調因果的方法也并不一定依賴因果術語.因果理論的引入為可解釋性問題領域 帶來的貢獻主要有 2 個方面:一是在基于歸因分析 的解釋方法中建模特征內部的因果關系;二是引入 一類新的解釋方法即基于反事實的解釋.基于歸因分 析和基于反事實的解釋構成了當前最主要的 2 大類 模型解釋方法如表 1 所示,以下分別展開介紹.

2.2 可遷移性問題

機器學習研究通常會在一個給定的訓練數據集 上訓練模型,然后在同數據分布的驗證集或測試集 上進行測試,這種情況下模型的表現稱為分布內泛 化(in-distribution generalization).在一般的應用場景中, 機器學習模型會部署在特定數據環境中,并使用該 環境中產生的數據進行模型訓練,其性能表現可以用分布內泛化能力來度量.然而在一些場景中,目標 環境中的標注數據難以獲取,因此更多的訓練數據 只能由相似的替代環境提供.例如訓練自動駕駛的智 能體時由于風險過高不能直接在真實道路上行駛收 集數據,而只能以模擬系統中所獲取的數據為主進 行訓練.這種場景下的機器學習任務又稱為域適應 (domain adaptation),屬于遷移學習(transfer learning) 的范疇,即將源域(source domain)中所學到知識遷移 至目標域(target domain).這里的域(domain)和環境 (environment)的含義相同,可以由產生數據的不同概 率分布來描述,下文將沿用文獻中各自的習慣稱呼, 不再對這 2 個概念進行區分. 在可遷移性問題中,因果理論的主要價值在于 提供了清晰的描述語言和分析工具,使研究者能夠 更準確地判斷可遷移和不可遷移的成分,有助于設 計針對不同場景的解決方案.因果推斷中關注的效應 估計問題本質上是在研究改變特定環境作用機制而 保持其他機制不變的影響,這與遷移學習中域的改 變的假設相符,即目標域和源域相比繼承了部分不 變的機制可以直接遷移,而剩余部分改變的機制則 需要進行適應.因此在因果理論的指導下,遷移學習 中的關鍵問題就是建模并識別變與不變的機制.目前 因果遷移學習一般假設輸入 與輸出 之間有直接 因果關系,重點關注無混雜因素情況下變量的因果 方向和不變機制,如表 2 所示,以下介紹相關工作

2.3 魯棒性問題

遷移學習允許模型獲得目標環境的少量數據以 進行適應學習,然而在一些高風險場景中,可能需要 機器學習模型在完全陌生的環境中也能正常工作, 如醫療、法律、金融及交通等.以自動駕駛為例,即使 有大量的真實道路行駛數據,自動駕駛智能體仍會 面臨各種突發情況,這些情況可能無法被預見但仍 需要被正確處理.這類任務無法提供目標環境下的訓 練數據 ,此時模型的表現稱為分布外泛化(out-ofdistribution generalization).如果模型具有良好的分布 外泛化能力,則稱其具有魯棒性(robustness). X Y P ′ (X, Y) P(X, Y) Y X P ′ (X|Y) = P(X|Y) 這類問題在未引入因果術語的情況下就已經展 開了廣泛的研究.如分布魯棒性研究[79-81] 考慮當數據 分布改變在一定幅度之內時如何學習得到魯棒的模 型,常見思路是對訓練樣本做加權處理;對抗魯棒性 研究[8,82-83] 考慮當樣本受到小幅度擾動時模型不應當 改變輸出結果,常見思路是將對抗攻擊樣本加入訓 練.這類研究常常忽略變量間的因果結構,面臨的主 要問題是很難決定數據分布或者樣本的擾動幅度大 小和度量準則,這就使得研究中所做的假設很難符 合真實場景,極大地限制了在實際中的應用.因果理 論的引入為建模變量間的結構提供了可能,同時其 蘊含的“機制不變性”原理為魯棒性問題提供了更合 理的假設,因為真實數據往往是從遵循物理規律不 變的現實世界中采集獲得.例如針對輸入為 、輸出 為 的預測問題,不考慮結構的分布魯棒性方法會假 設未知環境 應當與真實環境 的差異較 小,如限制聯合分布的 KL 散度小于一定閾值;而考 慮結構的因果方法則通常會假設機制不變,例如當 是 的因時假設 ,在因果關系成立的 情況下后者通常是更合理的. 一些從偽相關特征入手研究魯棒性問題的工作 雖然未使用因果術語,實際上已經引入了因果結構 的假設.這些工作針對的往往是已知的偽相關特征, 如圖像分類任務中的背景、文本同義句判斷 SNLI 數 據集中的單條文本[84]、重復問題檢測 QuaraQP 數據 集中的樣本頻率[85] 等.在實際場景中針對這些偽相關 特征進行偏差去除(debias),以避免其分布發生變化 時影響模型表現.這類工作隱含的假設是偽相關特征 與目標預測變量沒有因果關系.一種直接的解決方法 是調整訓練數據的權重,使得偽相關特征不再與預 測變量相關[85] .還有一類方法會單獨訓練一個僅使用 偽相關特征預測的模型,然后將其與主模型融合在 一起再次訓練,完成后僅保留主模型[86-87] .然而由于實 際應用中通常很難預先確定偽相關特征,這類工作 在解決魯棒性問題上具有明顯的局限性. 因果理論的引入對于解決魯棒性問題提供了新 的思路,主要的優勢在于對變量結構的建模和更合 理的假設.這類方法包括反事實數據增強(counterfactual data augmentation)、因果效應校準和不變性學 習.如表 3 所示 ,反事實數據增強考慮從數據入手消 除偽相關關系,因果效應校準通過調整偏差特征的 作用來減輕偏差,不變性學習通過改變建模方式學 習不變的因果機制,以下分別展開介紹.

2.4 公平性問題

機器學習中的公平性(fairness)指的是,對于特 定的敏感特征如性別、年齡、種族等,不同的取值不 應該影響某些任務中機器學習模型的預測結果,如 貸款發放、法律判決、招生招聘等.公平性對于機器 學習在社會決策中的應用是十分重要的考慮因素, 與因果有密切的關系,直觀上體現為敏感特征不應 成為預測結果的因變量.模型中存在的不公平常常由 偽相關特征問題導致,因此公平性也可以視為針對 敏感特征的魯棒性,但有著自己獨有的術語和研究 體系.下面首先介紹一下公平性的基本概念,然后介 紹因果理論在公平性問題中的應用. A X Y f Y? = f(A, X) f(A, X) = f(X) 公平性的定義和度量指標目前十分多樣化,并 沒有完全統一確定,不同的定義所反映的問題也有 所不同,甚至可能是相互不兼容的[139] .為便于表述, 記敏感特征為 ,其他觀測特征為 ,真實輸出結果 為 ,模型為 ,模型預測結果為 (本節所用 符號與前文無關).早期公平性問題的相關工作并沒 有考慮因果,最簡單直白的方式是在決策時避免使 用敏感特征[140] ,即 .然而這一方案顯然 是不夠的,因為其他特征中也可能會包含敏感特征 的信息.因此一般會考慮個體級別的公平性或者群體 級別的公平性的度量,并設計方法實現.個體公平性 (individual fairness)通常會限制相似的個體之間應該 P(Y?|A = 0) = P(Y?|A = 1) P (Y?|A = 0, Y = 1) = P(Y?|A = 1, Y = 1) F P(Y?|A = 0, F) = P(Y?|A = 1, F) 有相似的預測結果[141] ,難點在于相似性指標的設計. 群體公平性(group fairness)會定義不同的群體并設置 度量指標使得各個群體之間差異盡可能小,一種思 路是人群平等(demographic parity) [142] ,希望在不同敏 感特征取值的群體中預測結果的分布一致 ,即 ; 另 一 種 思 路 是 機 會 均 等 (equality of opportunity) [143] ,希望在那些本該有機會 的人群所獲得的機會不受敏感特征的影響 ,即 ;還有一種思路是條件 公平(conditional fairness) [144] ,希望在任意公平變量 條 件下不同敏感特征群體的結果一致,即 .這些定義并不考慮特征內部的依賴關系, 對模型的決策機制也沒有區分性,在更細致的公平 性分析中難以滿足要求.因果理論的引入為公平性研 究起到了極大的推動作用,許多概念必須借助因果 的語言才能表達,如表 4 所示:

2.5 反事實評估問題

反事實評估(counterfactual evaluation)指的是機 器學習模型的優化目標本身是反事實的,這通常出 現在使用有偏差的標注數據訓練得到無偏模型的情 景,例如基于點擊數據的檢索和推薦系統學習任 務.由于任務本身需要反事實術語進行表述,因果理 論對這類問題的建模和研究起到了關鍵性的作用, 如表 5 所示:

3 總結與展望

本文介紹了因果相關的概念、模型和方法,并著 重對因果機器學習在各類問題上的前沿研究工作展 開詳細介紹,包括可解釋性問題、可遷移性問題、魯 棒性問題、公平性問題和反事實評估問題等.從現有 的應用方式來看,因果理論對于機器學習的幫助在 不同的問題上具有不同的表現,包括建模數據內部 結構、表達不變性假設、引入反事實概念和提供效 應估計手段等,這在缺少因果術語和方法的時代是 難以實現的.有了因果理論的幫助,機器學習甚至可 以探討過去無法討論的問題,如干預和反事實操作 下的預測問題. 對于可解釋性、公平性和反事實評估問題,因果 理論和方法已成為描述和求解問題所不可缺少的一 部分,且應用方式也漸趨成熟.這是由于對特征的重 要程度的估計、對模型公平性的度量和對反事實策 略效用的評估均屬于因果效應估計的范疇,問題本 身需要使用因果的術語才能得到清晰且完整的表達, 因果推斷的相關方法自然也可以用于問題的求解.可 以預見,未來這些問題將繼續作為因果理論和方法 的重要應用場景,伴隨因果推斷技術的發展,向著更 加準確和高效的目標前進. 對于可遷移性和魯棒性問題,目前所采用的因 果相關方法大多還處于較淺的層次,有待深入挖掘 探索.在這些問題上,因果推斷的相關技術不易直接 得到應用,這是由于這類問題的目標不再是單純估 計因果效應或者發現因果結構,而是需要識別跨環 境不變的機制.這對于因果而言是一項全新的任務, 需要研究新的方法來求解.在機器學習尤其是深度學 習中,這項任務的主要難點在于數據的高維復雜性. 對于圖像和文本等數據而言,其顯式特征高度耦合, 難以從中提取出有效的因果變量,阻礙了效應估計 和結構發現等后續分析手段.目前所采用的反因果遷 移、反事實數據增強和因果效應校準等手段大多只 能針對可觀測的已知變量進行處理,適用范圍受到 很大限制.相對地,不變性學習有能力處理未知的偽 相關特征并識別因果特征,具有良好的發展前景.然 而目前的不變性學習方法也存在局限性,主要在于 對數據做了較強的因果結構假設,一方面數據可能 無法滿足假設而又缺少驗證假設的手段,另一方面 需要為滿足不同假設的數據設計不同的方法而缺乏 通用性.因此,未來在這些方向上都值得開展研究.一 種思路是繼續針對具體任務做出不同的因果結構假 設,并設計對應的學習算法,這就需要構建成體系的 解決方案并配備驗證假設的手段;另一種思路是從 數據本身出發,推斷和發現潛在的因果結構,這就需要研究全新的方法來突破由數據的高維復雜性帶來 的障礙. 從因果機器學習的研究進展來看,機器學習領 域的因果革命將大有可為.不可否認,當前正處于因 果革命的起步階段,由于現實問題存在極高的復雜 性,這一革命的歷程也將曲折而艱辛,需要更多的研 究和支持.希望更多的研究者能夠加入到因果機器學 習的研究中來,共同創造和見證因果革命的新時代.

付費5元查看完整內容

相關內容

近年來,國內外在新一代知識圖譜的關鍵技術和理論方面取得了一定進展,以知識圖譜為載體 的典型應用也逐漸走進各個行業領域,包括智能問答、推薦系統、個人助手等.然而,在大數據環境和新 基建背景下,數據對象和交互方式的日益豐富和變化, 對新一代知識圖譜在基礎理論、體系架構、關鍵技 術等方面提出新的需求,帶來新的挑戰.將綜述國內外新一代知識圖譜的關鍵技術研究發展現狀,重點 從非結構化多模態數據組織與理解、大規模動態圖譜表示學習與預訓練模型、神經符號結合的知識更新 與推理3方面對國內外研究的最新進展進行歸納、比較和分析.最后,就未來的技術挑戰和研究方向進 行展望。

伴隨著過去10年浪潮,人工智能發展方興未 艾,正處于由感知智能到認知智能轉變的關鍵時期. 知識圖譜作為大數據時代的知識工程集大成者,是 符號主義與連接主義相結合的產物,是實現認知智 能的基石.知識圖譜以其強大的語義表達能力、存儲 能力和推理能力,為互聯網時代的數據知識化組織 和智能應用提供了有效的解決方案.因此,新一代知 識圖譜的關鍵技術研究逐漸受到來自工業界和學術 界的廣泛關注.

知識 圖 譜 最 早 于 2012 年 由 Google 正 式 提 出[1],其初衷是為了改善搜索,提升用戶搜索體驗. 知識圖譜至今沒有統一的定義,在維基百科中的定 義為:“Google知識圖譜(Googleknowledgegraph) 是 Google的一個知識庫,其使用語義檢索從多種來 源收集信息,以提高 Google搜索的質量.”從當前知 識圖譜的發展看來,此定義顯然是不夠全面的,當前 知識圖譜的應用儼然遠超其最初始的搜索場景,已 經廣泛應用于搜索、問答、推薦等場景中.比較普遍 被接受的一種定義為“知識圖譜本質上是一種語義 網絡(semanticnetwork),網絡中的結點代表實體 (entity)或者概念(concept),邊代表實體∕概念之間 的各種語義關系”.一種更為寬泛的定義為“使用圖 (graph)作為媒介來組織與利用不同類型的大規模 數據,并表達明確的通用或領域知識”.從覆蓋的領 域來看,知識圖譜可以分為通用知識圖譜和行業知 識圖譜;前者面向開放領域,而后者則面向特定的行 業.隨著知識圖譜在各行業的應用落地,知識圖譜技 術的相關研究得到了大量研究者的關注.以知識圖 譜為基礎的典型應用也逐漸走進各個行業領域,包 括智能問答、推薦系統、個人助手、戰場指揮系統等.

傳統的知識圖譜研究領域主要圍繞傳統的數據 存儲、知識獲取、本體融合、邏輯推理以及知識圖譜 應用等方面.文獻[2]詳細綜合和分析了知識圖譜存 儲管理最新的研究進展.文獻[3]從知識表示學習、 知識獲取與知識補全、時態知識圖譜和知識圖譜應 用等方面進行了全面的綜述.文獻[4]則重點對面向 知識圖譜的知識推理相關研究進行了綜述.

然而,在大數據環境和新基建背景下,數據對象 和交互方式的日益豐富和變化,對新一代知識圖譜 在基礎理論和關鍵技術等方面提出新的需求,也帶 來新的挑戰.和已有的知識圖譜研究綜述相比,本文 將從眾多最新的知識圖譜研究方法中,對3方面的 新一代知識圖譜關鍵技術和理論做分析:1)非結構化多模態數據組織與理解; 2)大規模動態圖譜表示學習與預訓練模型; 3)神經符號結合的知識更新與推理. 本文將綜述國內外新一代知識圖譜關鍵技術研 究發展現狀,對國內外研究的最新進展進行歸納、比 較和分析,就未來的技術挑戰和研究方向進行展望.

1. 非結構化多模態數據組織與理解

1.1 非結構化多模態數據組織

“模態”的定義較多,可以直觀地理解為不同類 型的多媒體數據,也可以作為一個更加細粒度的概 念,區分模態的關鍵點可以理解為數據是否具有異 構性.例如,對于某個歌手,互聯網上可以找到他的 照片和歌曲視頻,同時也有相關的文本信息(百科、 新聞等)以及具體的歌曲音頻.圖片、視頻、文本、語 音這4種數據,可以被理解為該對象的多模態數據.目前主要的非結構化多模態知識圖譜如表1所示:

DBpedia [5]作為近10年來知識圖譜研究領域的 核心數據集,其豐富的語義信息中也包含了大量的 非結 構 化 數 據,如 文 本 描 述 和 實 體 圖 片.目 前 DBpedia包含了超過260萬個實體,且每個實體具 有唯一的全局標識符.以此為基礎,越來越多的數據 發布者 將 自 己 的 數 據 通 過 SameAs 關 系 鏈 接 到 DBpedia資源,使 DBpedia一定程度上成為多類型 數據組織的中心.目前,圍繞 DBpedia的互聯網數據 源網絡提供了約47億條信息,涵蓋地理信息、人、基 因、藥物、圖書、科技出版社等多個領域.

Wikidata [6]中也存在大量的多模態數據資源, 它是維基媒體基金會(WikimediaFoundation)推出 的知識圖譜,也是維基媒體數據組織和管理的核心 項目.Wikidata充分利用了知識圖譜的圖數據模型, 綜合了 Wikivoyage,Wiktionary,Wikisource等各類 結構化和非結構化數據,其目標是通過創造維基百 科全球管理數據的新方法來克服多類數據的不一致 性,已經成為維基媒體最活躍的項目之一,越來越多 的網站都從 Wikidata獲取內容以嵌入提供的頁面 瀏覽服務. IMGPedia [7]是多模態知識圖譜的早期嘗試.相 較于 DBpedia和 Wikidata,其更關注在已有的知識 圖譜中補充非結構化的圖片信息.

IMGPedia的核心 思路是首先提取 WikimediaCommons中的多媒體 資源(主要是圖片),然后基于多媒體內容生成特征 用于視覺相似性的計算,最后通過定義相似關系的 方式將圖片內容信息引入到知識圖譜中,此外其還 鏈接了 DBpedia和 DBpediaCommons來提供上下 文和元數據.IMGPedia的優勢在于開創性地定義了 知識圖譜中圖像 內 容 的“描 述 符”,也 就 是 視 覺 實 體屬性(諸如灰 度 等),同 時 根 據 這 些 描 述 符 去 計算圖片相似度,方便人們進行相似圖片的查找.但 IMGPedia中定義的“描述符”種類較少,且圖片之 間的關系單一.

MMKG [8]項目旨在對不同知識圖譜(Freebase, YAGO,DBpedia)的實體和圖片資源進行對齊.其通 過對3個知識圖譜(Freebase15k,YAGO15k,DB15k, 均為從原始的知識圖譜中獲得的知識圖譜子集)進 行實體對齊,以及數值、圖片資源與實體的綁定,構 建了一個包含3個知識圖譜子集的多模態數據集 合.MMKG 包含的3個知識圖譜既有諸多對齊的實 體,又有各自不同的拓撲結構.值得一提的是,MMKG 的目標并非是提供一個多模態知識圖譜,而是定義 一個包含多模態信息的評估知識圖譜實體對齊技術 的基準數據集.但是其本質上還是以傳統的知識圖 譜為主,規模很小同時也沒有充分收集和挖掘互聯 網上多種類型的多模態數據,在將圖像分發給相關 文本實體時也未曾考慮圖像的多樣性.

KgBench [9]和 MMKG 類似,在 RDF 編碼的知 識圖譜上引入了一組新的實體分類基準多模態數據 集.對于多個知識圖譜基準實體分類任務,提供至少 1000個實例的測試和驗證集,有些實例超過10000 個,每個實例包含了多種模態的數據描述和特征.每 個任務都能夠以知識圖譜結構特征進行評估,或者 使用多模態信息來實驗.所有數據集都以 CSV 格式 打包,并提供 RDF格式的源數據和源代碼. 東南大學的 Wang等人[10]提出的多模態圖譜 Richpedia,是目前國內在多模態知識圖譜領域的代 表工作.其核心思路延續了知識圖譜的基本數據模 型,在 RDF框架下對現有的知識圖譜進行擴充(主 要是包含視覺信息的圖片實體),使其變為多模態知 識圖譜.相較之前的多模態知識圖譜,該工作的最大 貢獻在于收集與實體相關圖片的同時,利用圖片的 配文來識 別 圖 片 中 所 包 含 的 其 他 實 體,進 而 在 跨 模態實體之間的語義關系發現方面取得了顯著效果 提升.

西安交通大學的鄭慶華等人[11G12]提出了知識森 林的概念,旨在針對智慧教育領域的多模態數據,實 現基于知識森林數據模型的組織與個性化導學.知 識森林的特點在于針對教育領域的垂域特點,用自 然語言處理、圖像識別等人工智能技術突破了教育 領域給定課程科目的知識森林自動構建,研制了知 識森林 AR 交互系統,緩解學習過程中人機可視化 交互難題.知識森林的多模態類型不再局限于文本 和圖像的范疇,增加了與視頻數據交互的能力.

百度知識圖譜近年來也逐漸向多模態知識圖譜演變.基于海量互聯網資源,百度構建了超大規模的 通用知識圖譜,并隨著文本、語音、視覺等智能技術 的不斷深入,以及行業智能化訴求的提升,百度近年 來一直致力于知識圖譜在復雜知識表示、多模態語 義理解、行業圖譜構建和應用,其挖掘的多模態知識 在圖文視頻的基礎上,加入了更多語音數據來豐富 多模態知識圖譜的內容.

1.2 多模態數據理解

多模態數據理解旨在實現處理和理解不同模態 信息之間共同表達語義的能力.整體上,和知識圖譜 相關的多模態數據的理解主要分為基于本體的多模 態語義理解和基于機器學習的多模態語義理解.基 于本體的多模態語義理解是比較早期的工作,均和 知識圖譜相關,其主要活躍于深度學習的浪潮興起 之前,代表性的工作為 LSCOM(largeGscaleconcept ontologyformultimedia)[13]和COMM(coreontology formultimedia)[14]. LSCOM [13]是 一 個 由 IBM、卡 內 基 梅 隆 大 學 (CarnegieMellonUniversity,CMU)和哥倫比亞大 學領導開發的多模態大規模概念本體協作編輯任 務.在這項工作中,CyC公司與很多學術研究和工業 團體均有參與.其整個過程包含了一系列學術研討 會,來自多個領域的專家聚集在一起,創建了描述廣 播新聞視頻的1000個概念的分類.LSCOM 中對多 模態數據的實用性、覆蓋率、可行性和可觀察性制 定了 多 個 標 準.除 了 對 1000 個 概 念 進 行 分 類 外, LSCOM 還生成了一組用例和查詢,以及廣播新聞 視頻的大型注釋數據集. COMM [14]是由德國、荷蘭以及葡萄牙的研究團 隊聯合推出的多模態本體,其誕生的主要動機在于 LSCOM 為多模態數據語義分析研究創建了一個統 一的框架,但并沒有一個高質量的多模態本體正式 描述,也缺乏與已有的語義 Web技術兼容.針對此 問題,COMM 定義了一個基于 MPEGG7的多模態 本體,由多模態數據模式組成,滿足了本體框架的基 本要求,并且在 OWLDL 中完全形式化.基于本體 的多模態語義理解要求高質量的本體編輯以及精細 粒度的數據描述,因此 COMM 和 LSCOM 并沒有 很好地發展起來.

基于機器學習的多模態語義理解[15]是目前多 模態數據理解的主流方法,和知識圖譜的聯系主要 是利用多模態表示學習方法實現知識補全或應用到 下游任務中.多模態表示學習是指通過利用不同多 模態數據之間的互補性,剔除模態冗余性,從而將多 模態數據的語義表征為實值向量,該實值向量蘊含 了不同模態數據的共同語義和各自特有的特征,如 圖1所示.代表性的工作如 Srivastava等人[16]通過 深度玻爾茲曼機實現圖像和文本的聯合空間生成, 在此基礎上實現多模態數據的統一表示.

多 模 態 知 識 圖 譜 表 示 學 習 的 代 表 性 工 作 是 MoussellyGSergieh等人[17]將視覺特征、文本特征和 知識圖譜的結構特征共同學習成統一的知識嵌入, 在此 過 程 中 使 用 SimpleConcatenation,DeViSE,Imagined這3種不同的方法來集成多模態信息,最 終實現了知識圖譜的多模態表示學習,生成了蘊含 多種模態特征的知識圖譜實體和關系實值向量,相 較于傳統的基于結構的知識圖譜表示學習,其在鏈 接預測和實體分類任務上的效果均有提升.

GAIA [18]是最近提出的一個細粒度的多模態知 識抽取、理解和組織框架,旨在提取不同來源的異構 多媒體數據(包括多模態、多語言等),生成連續的結 構化知識,同時提供一個豐富的細粒度的多模態數 據描述本體.GAIA 整個系統主要有3個優勢:1)大 量使用計算機視覺和自然語言處理的深度學習框架 和其他知識圖譜算法作為其底層模塊,通過結合不 同領域的技術實現了特別是對于圖片資源的實體識 別和多模態實體鏈接,相較于之前的IMGPedia,這 樣的處理保證了對圖片內容細粒度識別的進一步深 入,而對于文本資源,也實現了實體識別和關系抽 取.2)相較于粗粒度的實體,細粒度可以保證內容查 詢的靈活性和更強的易用性,例如對場景的理解和 事件預測,故可以更廣泛地用于實際應用中.3)通過 將圖片和文本實體進行實體鏈接、關系抽取等處理, 實現了多模態知識融合和知識推理,充分利用了多 模態的優勢.GAIA 所提出的多模態知識圖譜提取 框架是當前比較全面的一種范式,有著較好的借鑒 意義.

北京大學的 Peng等人[19]提出了跨媒體智能的 概念,該概念和多模態數據理解的思路類似,其借鑒 人腦跨越視覺、聽覺、語言等不同感官信息認知外部 世界的特性,重點研究了跨媒體分析推理技術中的任 務和目標,包括細粒度圖像分類、跨媒體檢索、文本 生成圖像、視頻描述生成等.其代表性的工作為 PKU FGGXmedia [20],是第1個包含4種媒體類型(圖像、 文本、視頻和音頻)的細粒度跨媒體檢索公開數據集 和評測基準,并且在此基礎上提出了能夠同時學習 4種媒體統一表征的深度網絡模型 FGCrossNet.

中國科學院自動化研究所的張瑩瑩等人[21]提 出了一個基于多模態知識感知注意力機制的問答模 型.該模型首先學習知識圖譜中實體的多模態表示; 然后從多模態知識圖譜中與問答對相關聯的實體的 路徑來推測出回答該問題時的邏輯,并刻畫問答對 之間的交互系.此外,該模型還提出了一種注意力 機制來判別連接問答對的不同路徑之間的重要性.

清華大學的 Liu等人[22]最早在多模態知識圖 譜表示學習方面開展了研究,代表性的工作是IKRL, 其將視覺特征和知識圖譜的結構特征進行聯合表示 學習,進而通過不同模態信息之間的約束生成質量 更高的知識圖譜嵌入. 華南理工大學的 Cai等人[23]提出一種結合圖 像信息和文本信息的神經網絡來對 Twitter等短文 本中的實體進行識別和消歧.其核心思想是將視覺 和文本信息通過表示學習生成的嵌入連接起來,并 且為細粒 度 的 信 息 交 互 引 入 了 共 同 關 注 機 制.在 Twitter數據集上的實驗結果表明,其方法優于單 純依賴文本信息的方法. 中國科學技術大學的 Xu等人[24]在多模態信息 理解與關聯方面探索了如何有效聯合映射與建模跨 模態信息,進而從視頻概括性描述深入至實體間語 義關系,實現視覺元素多層次、多維度語義理解與關 聯,以形成對視頻等多模態內容更為全面的解析,有 效解讀其中的語義信息,進而為支撐面向多模態內 容的智能應用服務奠定重要基礎.其代表性的工作 為 MMEA [24],針對多模態知識圖譜的實體對齊問 題,設計了一種多視圖知識嵌入方法,實現多模態知 識圖譜實體對齊效果的提升.

國防科技大學的 Zhao等人[25]在多模態知識圖 譜的實體對齊任務上進一步進行了探索,其主要將 多模態實體對齊任務從歐氏空間拓展到了雙曲空間 進行建模表示,最終利用雙曲空間內的圖卷積網絡 和視覺特征抽取模型 DENSENET 實現了多個數據 集上的實體對齊效果.

2 大規模動態圖譜表示學習與預訓練模型

2.1 大規模動態表示學習

知識圖譜的本質是一種語義網絡,亦是一種特 殊的圖.動態知識圖譜同樣是一種特殊的動態圖.但 是因為知識圖譜的特殊性,動態知識圖譜可以被分 為2類:一類是時序動態知識圖譜,其中蘊含著時間 特征,知識圖譜的結構、實體和關系都會隨著時間的 推移發生改變;另一類是非時序動態知識圖譜,這類 知識圖譜中沒有顯式的時間特征,但是知識圖譜會 發生更新,有新的實體和關系添加到原有的知識圖 譜中.一般情況來說,已存在知識圖譜中的實體和關 系不會發生改變.

1)時序的動態知識圖譜表示學習

時序知識圖譜是一種特殊的知識圖譜,其相比 傳統的靜態知識圖譜多了時間信息,知識圖譜中的知識不是靜態不變的,反而是因為時間的變化,知識 三元組發生改變.如表2中所總結,我們根據其對時 間信息處理方式的差異將所有算法模型分為三大 類:具有時間約束的歷時性時序知識圖譜表示模型、 基于時間序列編碼的時序知識圖譜表示模型和基于 路徑推理的時序知識圖譜表示模型.其中在各通用 數據上表現最佳的模型為2021年Zhu等人[26]提出 的 CyGNet,其模型結構如圖2所示.

2) 非時序的動態知識圖譜表示學習

對于非時序動態知識圖譜,其在應用和更新過 程中,可以加入新的實體和關系,新實體與原有實體 構成的三元組只要在現實應用場景下為正確的,則可 將此三元組納入到原有的知識圖譜中.所以非時序動 態知識圖譜的規模是可以隨著現實情況不斷增大的, 被認為是一種動態變化的知識圖譜.針對非時序知識 圖譜,其中最初的模型是在原有的 DKRL模型[34]上 進行簡單的更改,直接應用于開放世界知識圖譜上, 其效果相比其他靜態的算法有所提高,成為了這個任務的一個基準結果,其模型基礎框架如圖3所示. DKRL的優勢不僅在于提升了實體表示的區分能 力,而且更在于其對新實體的表示,當一個未在知識 圖譜中出現的新實體出現時,DKRL 將根據新實體 的簡短描述生成它的表示,用于知識圖譜補全.

Shi等人[35]提出了一種以文本為中心的表示方 法 ConMask,其中頭實體、關系和尾實體基于文本 的向量表示是通過注意力模型在名稱和描述上得出 的,并且通過全卷積 神 經 網 絡 (fullyconvolutional neuralnetwork)得到三元組的評分,最后通過評分 完成實體與關系的預測. Shah等人[36]提出了區別于 DKRL和 ConMask 這2種方法的新模型 OWE,其獨立地訓練知識圖 譜和文本向量,然后通過缺失實體的描述文本向量 模糊代替實體的表示,在知識圖譜中進行匹配,最終 得到實體與關系的預測結果.該模型可以調整和選 用不同的基礎知識圖譜表示模型得到不同的融合模 型,在不同環境任務中發揮更好的作用. Wang等人[37]提出了一種基于膠囊網絡的新模 型 CapsGOWKG,其在融合知識圖譜的結構信息和 描述信息后,采用膠囊網絡提取三元組的特征,得到 動態非時序知識圖譜三元組的表示.Gaur等人[38]提 出了一個框架 HUKA,它使用起源多項式通過編碼 生成答案所涉及的邊來跟蹤知識圖譜上查詢結果的 推導. Das等人[39]證明了基于案例的推理(caseGbased reasoning,CBR)系統通過檢索與給定問題相似的 “案例”來解決一個新問題是可以實現動態知識庫 (KBs).其通過收集知識庫中相似實體的推理路徑 來預測實體的屬性.概率模型估計路徑在回答關于 給定實體的查詢時有效的可能性. 在國內,最 初 的 模 型 是 在 Xie等 人[34]提 出 的 DKRL模型上進行簡單的更改,直接應用于開放世 界知識圖譜上,其效果相比其他靜態的算法有所提 高,成為了這個任務的一個基準結果. 杜治娟等人[40]提出一種表示學習方法 TransNS. 其選取相關的鄰居作為實體的屬性來推斷新實體, 并在學習階段利用實體之間的語義親和力選擇負例 三元組來增強語義交互能力.Xie等人[41]提出了一種基于深度遞歸神經網絡 DKGCGJSTD的動態知識圖譜補全模型.該模型學習 實體名稱及其部分文本描述的嵌入,將看不見的實 體連接到知識圖譜.為了建立文本描述信息與拓撲 信息之間的相關性,DKGCGJSTD 采用深度記憶網 絡和關聯匹配機制,從實體文本描述中提取實體與 關系之間的相關語義特征信息.然后利用深度遞歸 神經網絡對拓撲結構與文本描述之間的依賴關系進 行建模. Zhou等人[42]提出了一種聚合器,采用注意網 絡來獲取實體描述中單詞的權重.這樣既不打亂詞 嵌入中的信息,又使聚合的單詞嵌入更加高效. Niu等人[43]使用多重交互注意(MIA)機制來 模擬頭部實體描述、頭部實體名稱、關系名稱和候選 尾部實體描述之間的交互,以形成豐富的表示.此 外,還利用頭部實體描述的額外文本特征來增強頭 部實體的表示,并在候選尾部實體之間應用注意機 制來增強它們的表示.

2.2 知識圖譜的預訓練模型

知識廣泛存在于文本、結構化及其他多種模態 的數據中.除了通過抽取技術將知識從原始數據中 萃取出來以支持搜索、問答、推理、分析等應用以外, 另外一種思路是利用數據中本身存在的基本信號對 隱藏的知識進行預訓練.預訓練的核心思想是“預訓 練和微調”,例如預訓練一般包含2個步驟:首先利 用大量的通用知識數據訓練一個知識模型,獲取文 本中包含的通用知識信息;然后在下游任務微調階 段,針對不同下游任務,設計相應的目標函數,基于 相對較少的監督數據進行微調,便可得到不錯的效 果.近2年對面向知識表示、面向自然語言、面向下 游任務和基于圖結構的預訓練模型這4類有所進 展,代表性模型如表3所示:

**1) 面向知識圖譜表示的預訓練模型 **

在詞向量表示中,預訓練模型分為2個部分,分 別是預訓練與微調,這樣的模式可以使詞向量表示 更適合于不同的應用環境.同樣地,在面向知識表示 的預訓練模型中,同樣先采用預訓練的向量表示,然 后再基于此進行進一步的深化挖掘.這類預訓練模 型,旨在通過引入新的處理方法對預訓練的知識表 示進行進一步的特征挖掘,以此可以得到原有表示 不具備的特征,如 ConvKB [44],CapsE [45]等.這類模 型不能最大化地提取三元組的特征,模型預訓練效 果依賴于基礎知識圖譜表示學習模型的選擇.

2) 面向自然語言問題的預訓練模型

知識圖譜在處理與自然語言相關的任務時,必 不可少地與語言模型相互聯系.這一類預訓練模型, 主要是將知識融合到一個詞向量模型中形成一個既 包含知識又具備上下文信息的預訓練詞向量.近幾年 的相關研究主要是將知識融合到BERT 中形成新的 預訓練模型.典型的模型有:CMU 和微軟聯合提出的 JAKET [46]、清華大學和華為聯合提出的 ERNIE [47]、 北京大學和騰訊聯合提出的模型 KGBERT [48]、復旦 大學和亞馬遜提出的 CoLAKE [49]、清華大學和 Mila 實驗室提出的 KEPLER [50]等.這類模型利用實體信 息增強了預訓練效果并減少了訓練時間,但不適用 于缺少實體相關描述的預訓練任務. 3) 面向下游任務的預訓練模型

知識圖譜預訓練模型還可以通過不同的特殊下 游任務來幫助向預訓練模型融入任務相關的知識. 主要方法是在對具體的下游任務進行微調時,可以 采用不同的適配器來針對性地加入特征,進而增強 其效果.代表性的工作有復旦大學和微軟提出的 KG ADAPTER [51]和阿里巴巴實驗室提出的“預訓練+ 知識向量服務”的模式 PKGM [52],結構如圖4所示. 這類模型需要盡可能大且全量的知識圖譜數據集, 這樣才能發揮模型預訓練的優勢,因此模型對于圖 譜完成性差、稀疏度高的知識圖譜預訓練較差.

4) 基于圖譜中圖結構的預訓練模型

知識圖譜是一種特殊的信息圖,可以通過適用 于圖的方法 GNN 獲取知識圖譜的部分結構特征. 圖神經網絡(graphneuralnetworks,GNNs)已被 證明是建模圖結構數據的強大工具,然而,訓練 GNN 模型通常需要大量的特定任務的標記數據,而獲取這些數據往往非常昂貴.利用自監督 GNN 模型對 未標記數據進行預訓練是減少標記工作的一種有效 方法,預訓練學習到的模型可用在只有少量標簽圖 譜數 據 的 下 游 任 務 中.代 表 性 的 工 作 有:GPTG GNN [53],GI [54],GraphCL [55],GCC [56]等.這 類 方 法 不依賴于圖譜的節點與邊信息,僅利用圖結構進行 預訓練,避免復雜的特征工程,但缺陷是耗時巨大.

3 神經符號結合的知識更新與推理

ACM 圖靈獎獲得者 YoshuaBengio在 NeuIPS 2019的特邀報告中明確提到,深度學習需要從系統1 到系統2轉化.這里所說的系統1和系統2來源于 認知科學中的雙通道理論,其中系統1可以理解為 神經系統,它表示直覺的、快速的、無意識的系統;系 統2可以理解為符號系統,它表示慢的、有邏輯的、 有序的、可推理的系統.Bengio所提的系統2關于深 度學習的想法與“神經+符號”的知識表示與推理目 標基本一致.神經系統優勢在于能夠輕松處理圖像 識別、文本分類等一類機器學習擅長的問題,模型能 夠允許數據噪音的存在,但缺點在于其端到端的過 程缺乏可解釋性,并且在模型求解答案過程中難以 嵌入已有的人類知識.相反地,符號系統可以完美地 定義各類專家經驗規則和知識,形成對結構化數據 的各類原子操作,在此基礎上通過搜索和約束進行 求解,整個過程的解釋性和可理解性也很強.但是, 符號系統的缺點在于難以處理很多擁有異常數據和 噪音的場景.然而,“神經+符號”到底如何有機結合, 實現起來并不容易.知識圖譜從早期的知識庫、專家 系統,到谷歌2012年正式提出知識圖譜,其發展歷 程也體現了神經系統和符號系統的各自發展縮影, 整體上可分為神經助力符號和符號助力神經兩大類.

3.1 神經助力符號推理

神經助力符號推理方法的特點在于將神經的方 法應用在傳統符號系統的問題求解,通常主要是解 決淺層的推理問題,其核心在于如何將神經系統學 到的“淺層知識表示”(計算結構和連續型數值表示 的知識)更新到已有的符號知識體系中(離散的、顯 式的符號化知識),敏捷邏輯(swiftlogic)是牛津大學 Gottlob等 人[57]關于“神經+符號”的嘗試,如圖5所示,該系 統既能夠執行復雜的推理任務(以 Datalog ± 語言為 理論基礎),同時在可接受的計算復雜度下,利用神 經網絡在大數據上實現高效和可擴展的推理.此外,敏捷邏輯還定義了與企業數據庫、網絡、機器學習和 分析軟件包的接口,以實現與數據庫和人工智能中 不斷出現的新技術相結合.敏捷邏輯的特點是不局 限于模型層面的結合,更關注從知識圖譜管理系統 框架層面來使用神經和符號多種技術.

3.2 符號助力神經計算

符號助力神經方法的特點在于將符號的方法應 用在神經網絡的訓練過程中.

3.3 神經符號結合的知識表示與推理

一個完美的“神經 + 符號”系統的特點和優勢 為:1)能夠輕松處理目前主流機器學習擅長的問題; 2)對于數據噪音有較強的魯棒性;3)系統求解過程 和結果可以被人容易地進行理解、解釋和評價;4)可 以很好地進行各類符號的操作;5)可以無縫地利用 各種背景知識.從以上標準來看,實現神經符號知識 表示的充分結合還有很長一段路要走.國外目前最 具代表性的研究為 Cohen等人[91]和 Lamb等人[92] 的研究工作. Cohen [91]作為人工智能領域的重要學者,近年 來發表了一系列的神經符號結合的研究工作,其中 典型工作 DrKIT 的整體框架如圖6所示.DrKIT 使 用語料庫作為虛擬的知識圖譜,進而實現復雜多跳 問題求解.DrKIT 采用傳統知識圖譜上的搜索策略 進行文本數據的遍歷,主要是遵循語料庫中包含文 本提及實體之間的關系路徑.在每個步驟中,DrKIT 使用稀疏矩陣 TF∕IDF 索引和最大內積搜索,并且 整個模塊是可微的,所以整個系統可使用基于梯度 的方法從自然語言輸入到輸出答案進行訓練.DrKIT 非常高效,每秒比現有的多跳問答系統快10~100 倍,同時保持了很高的精度.

4 研究進展比較

4.1 非結構化多模態數據組織與理解

在非結構化多模態數據組織方面,多模態知識 圖譜目前已經成為國內外學者對于多種類型數據組 織的共識,國內外的學者均有新的研究成果.對于國 外研究團隊而言,其核心思路依然是從維基百科中 抽取已有知識圖譜的多模態數據資源,而國內研究 團隊將范圍擴展到了通過全域的數據資源來補充已 有知識圖譜中的視覺和文本信息.可以看出,對于知 識圖譜而言,開放域的非結構化數據資源豐富,但是 如何同已有結構化的圖譜融合并建立不同模態數據 之間的語義關聯是關鍵.此外,國內研究團隊面向垂 直領域(智慧教育)提出了系統級的研究工作,這一 點要比國外的研究更具有落地思維,可以預見未來國 內在更多垂域會出現以多模態知識圖譜為基礎的系 統和應用.在多模態數據理解方面,受益于深度學習技術的持續發展,國內外在該領域都取得了最新的 研究成果.可以看出,國內研究人員已經可以從延續 他人工作轉變為開辟新的研究領域,這一點說明國 內在該領域走在世界學術前沿.值得一提的是,國內 學者在知識圖譜驅動的多模態數據理解方面同樣具 有較強的應用落地思維,分別面向推薦系統等垂直 場景進行了探索嘗試.

4.2 大規模動態知識圖譜表示學習與預訓練

在大規模動態表示學習方面,國內外均有新的 研究成果,在不同的方向有所突破.國外在序列模型 編碼方法上有更多模型被提出,對 GCN,GNN 等類 型的編碼器進行了改進,在動態表示方面取得了更 好的結果;而國內主要的工作集中在基于分解、基于 歷時性編碼和基于隨機游走改進3個方面,雖然與 國外的方法思路不同,但是在動態表示方面也有亮 點和突出表現.知識圖譜預訓練是近兩年的一個熱 點方向,國內外很多研究機構都針對此方面有所研 究并做出了突破.國外在圖譜表示的預訓練方面有 一些新的工作,并在基于知識圖譜圖結構的預訓練 方面有更多的進展.而國內,基于自然語言方面的知 識預訓練有更多的新模型產生,諸如北京大學、清華 大學等學校,百度等企業均在這方面有新的研究成 果產生.尤其是面向基于大規模知識下游任務的預 訓練模型,有了重大突破,對數以10億計規模的知 識進行了預訓練,并應用于阿里電商平臺,為商品推 薦、語義搜索和智能問答等下游任務提供支持.

4.3 神經符號結合的知識表示與推理

在神經助力符號方面,國內外均有新的研究成 果.通過比較可以看出,國外研究團隊在知識圖譜表 示學習技術的初期走在該領域的前沿,提出了一系 列開創性的工作;國內的研究團隊主要針對各類模 型和數據特點進行改進,在后期逐漸提出了創新性 更高和實用性更強的工作,尤其是知識圖譜表示學 習技術在其他任務(如智能問答、近似搜索、推薦系 統、實體對齊、社交網絡等)中有效地使用,國內研究 團隊走在學術的前沿,可以看出國內學者更傾向于 應用層級的研究.除此之外,在邏輯推理等偏理論的 模型中如何引入神經網絡,國內研究工作還不多.在 符號助力神經方面,國內外都走在學術的前沿.在神 經符號結合方面,谷歌公司依然走在世界的最前沿, 提出了一系列開創性工作,國內這方面的工作還偏 少.不過整個神經符號的有機結合還屬于初期探索 領域,隨著越多的研究者開始關注,未來我國研究團 隊還有很大的提升空間.

總結

本文圍繞支撐新一代知識圖譜的關鍵技術研究 進展與趨勢展開系統性論述,內容包括:非結構化多模態圖譜組織與理解、大規模動態圖譜表示學習與預 訓練模型、神經符合結合的知識表示與推理.在此基 礎上,給出了國內與國際的當前研究進展,并對國內 外研究進展進行比較.最后對這些關鍵技術的發展趨 勢進行了展望.

付費5元查看完整內容

公平機器學習:概念、分析與設計最新綜述論文

摘要

隨著人工智能的發展,機器學習技術越來越多地應用于社會各個領域,用以輔助或代替人們進行決策,特別是在 一些具有重要影響的領域,例如,信用程度評級、學生質量評估、福利資源分配、疾病臨床診斷、自然語言處理、個性信息 推薦、刑事犯罪判決等。如何在這些應用中確保決策公平或者無偏見?如何在這些應用中保護弱勢群體的利益?這些問題直接影響到社會和公眾對機器學習的信任,影響到人工智能技術的應用與系統的部署。通過系統梳理和全面剖析近年來的工作, 對機器學習公平性或公平機器學習的定義及度量進行了解釋及對比;從機器學習的全生命周期出發,對不同環節中出現的各 類偏見及其發現技術進行了歸類及闡釋;從預處理、中間處理和后處理三個階段,對公平機器學習的設計技術進行了介紹和 分析;從可信賴人工智能全局出發,對公平性與隱私保護、可解釋性之間的關系、影響及協同解決方案進行了闡述;最后對 公平機器學習領域中亟待解決的主要問題、挑戰及進一步研究熱點進行了討論**。

1 引言

機器學習是人工智能的一個重要分支,是對通 過數據或以往經驗自動改進計算機系統或算法的 性能的研究[1, 2, 3]。隨著數據的豐富與算力的提升, 機器學習技術得到了長足發展,已經在與大眾生活 密切相關的諸多方面得到了廣泛應用。受機器學習 自身本質和技術特征的影響,其預測和決策會產生 一定程度的偏見或不公平,這一問題逐漸引起科學 研究、產業界從業人員和社會公眾的關注[4, 5]。在 預測和決策過程中,公平是指不存在基于個人或群 體的內在或后天特征的任何偏見、偏好、歧視或不 公正[6]。因此,一個不公平的算法是指其決策對某 一個體或特定群體存在偏見,由此引發對該個體或 群體的不公正待遇,并使其利益受到損害。

人工智能應用中的偏見歧視已經出現在不少場景。例如,機票預訂系統 SABRE 和 Apollo 存在一 定程度上的不公平和偏見[7, 8],導致了航空公司之 間的不公平競爭;許多推薦系統會放大數據中的偏 見、引發不公平推薦[9, 10, 11],幾乎所有的排名算法 都采取了“短視”效用優化策略,導致了不公平[12];基于深度學習的人臉識別算法極大地提高了識別 準確率,但大多數算法在男性面孔上的表現優于女 性面孔,即,人臉識別算法存在性別偏見[13, 14] ;簡歷 自動篩選系統通常會因應聘者無法控制的特質 (如,性別、種族、性取向等)給出帶有偏見的評 測[9, 15],這樣的不公平不僅會對擁有某些特征的求 職者產生歧視或偏見,也可能因錯失優秀雇員而給 雇主帶來損失;對電子病歷或醫療記錄進行分析可 預測(慢性)疾病,但是基于機器學習的疾病預測 對于某些族群的錯誤率明顯高于其他族群,存在族 群偏見或歧視[16,17,18,19];教師評價系統 IMPACT[9, 20, 21]通過教師的年齡、教育水平、經驗、課堂觀察、 問卷調查等特征、學生學生考試成績、學生問卷調 查和學校的問卷調查、教師的問卷調查等來學習并分析教師的工作表現及應得工作報酬,對貧困社區 教師可能產生系統性的較低評分,導致不公平;GRADE、Kira Talent 等大學入學評估系統通過學習 考生的就讀學校、SAT 成績、課外活動、GPA、面 試成績等特征,給出接收/拒絕考生的結果或者考生 在所要求研究領域的潛在表現評分[22, 23],但存在對 特定種族群體的偏見和歧視[9, 24];刑事風險評估系。統 COMPAS、PSA、SAVRY 和 predPol 等[9, 25, 26], 依據被捕次數、犯罪類型、家庭地址、就業狀況、 婚姻狀況、收入、年齡、住房等,學習并給出被告 是否會再次犯罪的風險評分。ProPublica 曝光了這 類系統評估中的不公平和歧視[27,28];貸款發放評估 系統 FICO、Equifax、Lenddo、Experian、TransUnion 等[9],給出的針對貸款人的貸款還款計劃和貸款年 利率的建議方案存在不公平,會針對女性或者某些 族群給出過高定價,造成系統性偏見[29];自然語言 處理中所依賴的歷史訓練數據中通常存在社會已 有成見,有放大社會對性別的已有成見的風險,導 致對不同性別群體的不公平[30]。共指消解系統 Stanford Deterministic Coreference System、Berkeley Coreference Resolution System 和 UW End-to-end Neural Coreference Resolution System 等都表現出了 系統性的性別偏見。類似的不公平現象也存在于在 線新聞、信息檢索、廣告投送等領域[30, 31, 32]。

機器學習已經應用于許多領域,對人們工作與 生活產生了巨大影響,而其中的公平和偏見問題直 接影響著社會和公眾對其信任程度,影響著人工智 能系統的應用部署,是機器學習技術研究與應用開 發所面臨的新挑戰。如何對公平性進行概念定義及 度量?如何發現機器學習應用中的不公平?如何 設計公平機器學習或者具有公平屬性的機器學 習?如何實現具有隱私保護或可解釋性等能力的 公平機器學習,并最終實現符合倫理的機器學習?鑒于此,為明確以上挑戰的內涵并進行有效應對, 本文進行了介紹與討論,對相關研究工作進行了系 統性調研與剖析,并對公平機器學習的未來研究及 值得關注的問題進行了展望。圖 1 為本文的組織架 構圖

2 公平性概念及度量

公平性問題一直是哲學、政治、道德、法律等 人文社科領域感興趣的話題,公平性概念的提出和探討始于上世紀 60 年代[33, 34]。能夠確保每個人都 有平等的機會獲得一些利益的行為,稱為公平的行 為,或者稱這樣的行為具有公平性。不能夠確保每 個人平等地獲得一些利益,使得弱勢群體的利益受 到損害的行為,稱為不公平的行為,或者稱這樣的 行為具有不公平性。歧視和偏見是與不公平相關聯 的概念,不公平的行為又稱為具有偏見的行為或者 歧視的行為。如果機器學習的預測或決策結果能夠 確保每個人都有平等的機會獲得一些利益,就稱該 機器學習具有公平性,并稱之為公平機器學習。公 平性研究已經有 50 余年的歷史,無論概念定義、 還是度量標準都得到了極大的發展,不同文化具有 不同偏好和觀點視角,導致了人們對公平存在多種 不同的理解方式。目前還沒有公平性的普適定義, 為了滿足各種應用需求,產生了各種各樣的公平性 定義和概念。對于歧視類型的了解,有助于各種公 平性概念定義的理解[6]。下面討論歧視的類型、公 平性定義及度量等。

歧視可以由三個層次的從屬概念來刻畫[35]:① 什么行為?②什么情況下?③對誰造成了歧視?行為是歧視的表現形式,情況是歧視的作用領域或 場景,而歧視的理由描述了受到歧視的對象的特 征。從造成歧視的理由是否有明確表述的角度,歧 視呈現直接性歧視和間接性歧視兩種主要形式。從 歧視的行為是否能夠被解釋角度,歧視分為可解釋 性歧視和不可解釋性歧視。此外,系統性歧視刻畫 了文化和習俗等方面的負面影響所帶來的歧視,統 計性歧視刻畫了社會成見的不良后果所導致的歧 視。

3 機器學習的公平性分析

機器學習各個階段所涉及的數據、技術和算法 都可能存在導致模型預測不公平的偏見。偏見是引 發歧視和導致不公平的主要來源。本節對機器學習 中可能存在的各種形式的偏見以及不公平性的發 現技術等進行介紹和討論。

精確方法

精確方法主要是基于離散優化 (DiscreteOptimization)理論來形式化驗證神經網 絡中某些屬性對于任何可能的輸入的可行性,即利 用可滿足性模理論(Satisfiability Modulo Theories, SMT)或混合整數線性規劃(Mixed Integer Linear Programming, MILP)來解決此類形式驗證問題。這 類方法通常是通過利用 ReLU 的分段線性特性并在 搜索可行解時嘗試逐漸滿足它們施加的約束來實 現的。圖 2 梳理了典型模型魯棒性精確分析方法的 相關研究工作。

偏見的類型

Friedman 和 Nissenbaum 首先開展了偏見相關 方面的研究,給出了計算機系統中偏見分析的一個 框架,并結合應用案例進行了闡釋[8]。Baeza-Yates 從數據、算法和用戶交互等方面對網頁生態系統中 的相關偏見進行了定義和剖析[57]。Olteanudeng 等 分析了數據平臺及其相關技術特征,從產生的來源 和表現的形式,闡述總結了社交數據相關的偏見 [58]。Sures 和 Guttag 從數據生成、模型開發及部署 兩階段出發,定義和分析了機器學習中可能存在的 五種偏見[57]。本文從機器學習生命周期中所含的數 據管理、模型訓練、模型評測、模型部署等階段出 發[59],對各個階段中存在的偏見進行了梳理(參見 圖 3)。下面從數據、算法和人機交互三個方面(圖 4),對機器學習中的主要偏見進行分類介紹和討 論。

不公平的發現

發現機器學習的不公平是糾正偏見和消除歧 視的前提。歧視類型和偏見類別的概念定義為發現 不公平提供了不同視角下的可能技術路徑。機器學 習中不公平發現的主要技術包括關聯規則挖掘、k 最鄰近分類、概率因果網絡、隱私攻擊和基于深度 學習的方法等。表 4 對不公平發現技術進行了對比。

4 公平機器學習的設計

為了開發公平機器學習系統或者確保機器學 習系統的公平性,人們建立了一系列公平機器學習 的設計方法。這些設計方法可以從三個維度來粗略 劃分**:其一,面向特定的機器學習任務,**如,自然 語言處理、人臉識別、推薦系統、分類問題、回歸 問題、聚類問題等;其二,針對專門的機器學習技術或算法,如,深度學習、強化學習、決策樹學習、 集成學習、表示學習、對抗學習等;其三,依據機 器學習的生命周期,分為預處理、中間處理和后處 理[89, 90]。本文將從機器學習的生命周期維度,介紹 和討論公平機器學習的設計。

5 公平性與隱私保護

隱私是個人或群體不愿意泄露的敏感信息,包 括身份、屬性及其相關的數據。隱私保護就是通過 適當的政策法規和技術手段來保障個人或群體的 隱私不被泄露。公平性是確保個人或群體都有平等 的機會獲得一些利益的行為的性質。不公平行為源 于基于個人或群體的敏感屬性的帶有偏見或歧視 的決策。對個人或群體敏感屬性/數據進行隱私保護,可以防止歧視者獲得并利用敏感屬性/數據采取 帶有偏見或歧視的決策。顯然,公平性和隱私保護 有著一定的聯系。

6 公平性與可解釋性

解釋是對概念或行為提供可理解的術語說明。機器學習的可解釋性是指以人類或用戶可以理解 的方式對其行為和結果進行說明的能力[176, 177]。一 方面,可解釋性對于公平機器學習的應用部署具有 重要的意義,另一方面,可解釋性能夠對機器學習 的公平性滿足與否進行說明和判定,有助于改善機 器學習的公平性。

7 進一步工作展望

機器學習已經獲得長足發展,基于機器學習的 預測/決策已逐漸滲透到人類社會的各個方面,在自 然語言處理、圖像處理、個性化推薦、語音識別以 及自動駕駛等領域獲得廣泛應用,機器學習預測的 公平性直接影響著個人或群體的日常生活,影響著 用戶對機器學習應用部署的信心和接受程度。雖然 公平機器學習逐漸受到了關注,但是總體而言,相 關研究尚處于起步階段,仍存在許多亟待解決的問 題和挑戰,如下是一些值得關注的研究:

(1)公平性定義及其度量歧視和公平是道德、政治、哲學、法學等人文 社科領域關注的熱點問題,并且在多個方面仍然存 在爭議[187]:公平應該是確保每個人都有平等的機 會獲得一些利益,還是應該把對弱勢群體的傷害降 到最低?是否可以通過參照某些特定的非歧視模 式來確定不公平性?隸屬于自然科學技術領域的 機器學習的公平或非歧視又意味著什么?該領域 研究人員建立的 20 余種公平性的概念定義及度量 是否已經足夠用來解決機器學習中的公平性問 題?現有的一些公平性概念定義及度量是不能被 同時滿足的[50],如何處理這些沖突和不相容?如何 從最大限度降低弱勢群體傷害、特定的非歧視模式 等視角,建立機器學習公平性的概念定義及度量?這些視角下的不公平性定義及度量與現有公平性 概念定義及度量是否存在不一致,如何協調和統 一?符合群組公平性的群組內個體是否存在不公 平?如何針對性地選擇適合具體機器學習任務的 公平性度量?這些都是機器學習的公平性概念定 義及度量亟待解決的問題。

(2)公平機器學習的評測 評測機器學習的不公平性是機器學習應用開 發和部署的必要環節[188, 189],對于提升機器學習的 可信性具有重要的意義[190]。FairTest 能夠通過模型 輸 出 結 果 和 受 保 護 群 體 之 間 的 無 根 據 關 聯 (Unwarranted Associations),發現誘發不公平影響 的關聯缺陷,測試可疑的缺陷,并幫助開發人員調 試降低不公平影響[191]。Themis 能夠自動完成機器 學習模型的群組公平性測試及歧視因果分析,能通 過隨機測試生成技術對不公平性進行定量評估 [192]。AEQUITAS 能夠通過對輸入訓練數據隨機采 樣,發現導致個體不公平性的歧視性輸入,檢測出 個體不公平性漏洞,還能對機器學習模型再訓練以 降低模型決策的不公平[193]。Agarwal 等使用符號執 行和局部可解釋組合技術來生成個體公平性黑盒 測試的測試用例,其數量高達 Themis 的 3.72 倍[194]。此外,IBM、Microsoft 和 Google 等公司分別開發 出了 AIFairness 360、FairLearn 和 ML-fairness-gym 等公平性綜合工具平臺[195, 196],用于評測和消除機 器學習的不公平性。盡管如此,公平性測試研究還 相當有限。一方面,需要擴展已有機器學習模型的 測試技術[188, 189],使之能應用于公平性測試。另一 方面,在軟件測試領域已有了成熟的技術和方法 [197],機器學習的公平性測試可以從中得到借鑒, 如,變異測試[193, 198]、蛻變測試[199, 200]、白盒測試[201] 等。

(3)公平機器學習新模式 機器學習概念復雜、種類豐富,當前關于公平機器學習的研究大多集中于決策樹、樸素貝葉斯、 神經網絡等方面,前文對此進行了著重介紹,但對 公平強化學習、公平聯邦學習等的研究也已出現。強化學習依據獎勵函數來選擇行為策略,學習過程 的公平性體現于[202]:算法選擇差行為的概率不會 高于選擇好行為;算法不會偏好低質量的行為。公 平強化學習需要研究符合公平性的獎勵函數和行 為策略設計算法。主分量分析會因群體的不同導致 不同的重構誤差[203],公平主分量分析要求能夠保 持不同群體具有相當的數據保真度(Fidelity)以實 現平衡的重構誤差。動態公平性是為了適應群體的 時間演化特征而提出的[204, 205],動態公平機器學習 需要構建群體動態模型和決策反饋影響機制的學 習算法。遷移學習將某一任務的訓練模型用于另一 任務,彌補了機器學習中訓練數據的不足,公平遷 移學習需要克服從源域到目標域遷移過程中引發 的各種不公平[206]。聯邦學習是一種分布式機器學 習范式,可以讓成員在不共享數據的基礎上聯合建 模。聯邦成員在共享加密的模型參數和中間計算結 果的同時,也會共享各自存在的不公平,甚至疊加 不公平。公平聯邦學習需要有效的機制來避免這些 不公平性[207, 208]。元學習利用以往的經驗知識來指 導新任務的學習,具有“學會如何學習”的能力,在 學會如何學習的同時,難免會積累歷史的不公平。公平元學習需要研究消除不公平累積的學習策略 和記憶機制[209, 210]。適應需求和性能優良的機器學 習新模式不斷提出,對此進行重點關注,集中產出 一批具備引領性、原創性、實用性的研究成果,進 一步研究建立集公平性為一體的新型公平機器學 習模式顯得十分必要。

(4)符合倫理的機器學習

機器學習的公平性、隱私保護和可解釋性是同 屬人工智能倫理范疇的概念和屬性。歐盟委員發布 的《可信賴 AI 的倫理指導原則》(Draft Ethics Guidelines for Trustworthy AI)指出,可信賴 AI 應 滿足七個方面的條件要求:受人類監管、技術的穩 健性和安全性、隱私和數據管理、透明度、非歧視 性和公平性、社會和環境福祉、問責制等[211]。國際 電氣電子工程師協會發布了《符合倫理設計:人工 智能和自主系統促進人類福祉的遠景》(Ethically Aligned Design: A Vision for Prioritizing Human Well-being with Autonomous and Intelligent Systems)[212],對于人工智能和自主系統的倫理設 計提供了指導性建議。人工智能發展的新機遇得益于機器學習的成功,機器學習作為人工智能的一個 重要分支,在人類決策中發揮著愈來愈重要的作 用,機器學習應用的推廣有賴于人們對其信任程度 的提高,符合倫理(Ethically Aligned)的機器學習 是必然的發展方向[213, 214, 215]。一方面,機器學習的 目標是模型預測的精準度,公平性、隱私保護、可 解釋性等要求勢必帶來精準度的損失,這一矛盾是 可信賴 AI 需要折衷考慮的問題,以尋求不同要求 間的最優平衡;另一方面,當前針對可信賴 AI 的 研究大多是從公平性、隱私保護或可解釋性等單一 維度進行的,而這些維度之間既存在某種程度上的 一致性,也存在相互制約的情形,因此,集成公平 性、可解釋性、隱私保護的倫理機器學習的一體化 機制、算法、模式和框架是值得開展的研究[173, 174]。

付費5元查看完整內容

圖結構數據是現實生活中廣泛存在的一類數據形式.宏觀上的互聯網、知識圖譜、社交網絡數據,微觀上 的蛋白質、化合物分子等都可以用圖結構來建模和表示.由于圖結構數據的復雜性和異質性,對圖結構數據的分析 和處理一直是研究界的難點和重點.圖神經網絡(GraphNeuralNetwork,GNN)是近年來出現的一種利用深度學 習直接對圖結構數據進行學習的框架,其優異的性能引起了學者高度的關注和深入的探索.通過在圖中的節點和 邊上制定一定的策略,GNN 將圖結構數據轉化為規范而標準的表示,并輸入到多種不同的神經網絡中進行訓練, 在節點分類、邊信息傳播和圖聚類等任務上取得優良的效果.與其他圖學習算法相比較,GNN 能夠學習到圖結構 數據中的節點以及邊的內在規律和更加深層次的語義特征.由于具有對圖結構數據強大的非線性擬合能力,因此 在不同領域的圖相關問題上,GNN 都表現出更高的準確率和更好的魯棒性.本文在現有 GNN 研究的基礎上,首先 概述了 GNN 的出現歷程,并介紹了相關概念和定義.之后本文著重討論和對比了 GNN 中的各種算法框架,包括 核心思想、任務劃分、學習方式、優缺點、適用范圍、實現成本等.此外,本文對 GNN 算法在多個不同領域下的應用 場景進行了詳細的闡述,將 GNN 與其他圖學習算法的優缺點作了聯系和比較.針對存在的一些問題和挑戰,本文勾畫了 GNN 的未來方向和發展趨勢,最后對全文進行了全面而細致的總結。

引言

近年來,深 度 學 習[1]在 多 個 領 域 取 得 明 顯 優 異的效果,特別是在計算機視覺、音頻識別以及自 然語言處理 三 個 方 面 取 得 突 破 性 進 展.深 度 學 習 通過建立人 工 神 經 網 絡,對 輸 入 的 信 息 和 數 據 逐 層進行特征 的 提 取 和 篩 選,最 終 獲 得 分 類 和 預 測 等任務的結 果.相 較 于 統 計 機 器 學 習 等 淺 層 學 習 模式,深度學 習 所 使 用 的 神 經 網 絡 架 構 具 有 多 個 功能各異的 復 雜 網 絡 層,其 特 征 提 取 和 識 別 的 數 量和質量顯 著 提 高,并 且 能 夠 自 底 向 上 生 成 更 加 高級的特征表示.這使得機器能夠獲得抽象概念, 具備 更 強 的 表 征 學 習 能 力[2].諸 如 多 層 感 知 機 (MultilayerPerceptron,MLP)[3]、卷 積 神 經 網 絡 (ConvolutionalNeuralNetwork,CNN)[4]、循 環 神 經網絡(RecurrentNeuralNetwork,RNN)[5]、生成 對 抗 網 絡 (Generative Adversarial Network,GAN)[6]和自編碼器(Auto-encoder,AE [7]等性能優 異的神經網絡已經成為許多研究領域解決問題的通 用網絡框架.

但是隨著研究的深入,研究人員發現深度學習 并不能適應和解決所有的情況和問題.在過去十多 年的發展中,深度學習取得的成就主要限定在了計 算機視覺、自然語言處理和音頻分析領域上.這些領 域上的數據和信息有著比較顯著的特點.文本、圖 像、音頻、視頻的數據格式在形式上有著統一而規整 的尺寸和維度,它們也被稱作歐式結構(Euclidean Structure)或者網格結構(GridStructure)數據.除 此之外,現實生活中存在大量的非歐式結構的圖數 據,例如互聯網、知識圖譜、社交網絡、蛋白質、化合 物分子等.盡管深度學習在歐式結構數據上取得巨 大的成功,但在圖結構數據上,基于神經網絡的深度 學習表現得并不好.在圖結構數據中,節點與節點之 間的邊連接可能是均勻分布的,也可能是不均勻的. 節點與節點之間沒有嚴格意義上的先后順序.對于神經網絡的輸入端而言,這些數據沒有固定的輸入 尺寸.在數學表達上,這些數據與歐式結構數據相 比,每一個區塊的特征矩陣維度都不是統一的,如圖 1所示.由于無法使用統一規整的算子對數據編排, 導致 CNN 等神經網絡不能再直接對其進行諸如卷 積和池化等操作,也就不再有局部連接、權值共享、 特征抽象等性質[8].如何將 CNN 等深度學習算法 用于分析圖結構數據上成為一個有挑戰性和前沿性 的課題.近年來 Gori等人[9]用 RNN 來壓縮節點信 息和學習圖節點標簽,首次提出圖神經網絡(Graph NeuralNetwork,GNN)這一概念.之后文獻[10]提出 圖 卷 積 網 絡 (Graph Convolutional Network, GCN),正式將 CNN 用于對圖結構數據建模.GCN 通過整合中心節點和鄰居節點的特征和標簽信息, 給出圖中每個節點的規整表達形式,并將其輸入到 CNN 中.這樣一來 GCN 就能利用多尺度的信息, 組合成更高層次的表達.其有效地利用了圖結構信 息和屬性信息,為深度學習中其他神經網絡遷移至 圖上提供了標準的范式.在新的研究思路的基礎上, 各種 GNN 架構相繼被構造出來,在多個領域的圖 結構數據中發揮了獨特的作用,并促進了圖相關的人工智能推理任務的發展。

本文針對近年來出現的 GNN 學習方法和研究現狀進行了系統的歸納和梳理,并對它們的主要思 想、改進以及局限性做了詳盡分析.目前已有 Xu等 人[11]關于圖卷積神經網絡的綜述,本文在全面對比 分析的基礎上,對目前主要的 GNN 算法進行了更 加合理的分類和介紹.除了圖卷積神經網絡,GNN 主流算法還包括有圖自編碼器、圖生成網絡、圖循環 網絡以及圖注意力網絡.本文對每類 GNN 算法都 給出了其定義和典型方法,將 GNN 中每種算法的 機制、優勢、缺點、適用范圍、實現成本等進行了提煉 總結.在進行了相應的數據實驗基礎上,與其他基準 圖算法進行了比對.本文在第2節中給出關于 GNN 的基本概念和定義;在第3節分門別類的給出 GNN 的主要模型和算法;在第4節,對比和分析 GNN 與 網絡嵌入(NetworkEmbedding)以 及 圖 核 (Graph Kernel)方法的特性和優勢.在第5節中,闡述目前 GNN 在多個領域圖數據上的具體應用;在第6節歸 納和總結現有 GNN 模型缺陷和不足,并對未來發 展方向和趨勢進行展望.最后在第7節對全文所述 進行總結.

圖神經網絡模型

圖卷積網絡

圖 卷 積 網 絡 (GraphConvolutionalNetwork, GCN)進行卷積操作主要有兩種方法:一種是基于 譜分解,即譜分解圖卷積.另一種是基于節點空間變 換,即空間圖卷積.Bruna等人[10]第一次將卷積神 經網路泛化到圖數據上,提出兩種并列的圖卷積模 型———譜分解圖卷積和空間圖卷積.Bruna等人對 比分析了一般圖結構數據和網格數據共有的特點和 不同之處,綜合運用了空間圖卷積和譜分解處理圖 像聚類問題.下面本文對譜分解圖卷積和空間圖卷積進行詳細的梳理和介紹。

圖自編碼器

在 深 度 學 習 領 域,自 編 碼 器 (Auto-encoder, AE)是一類將輸入信息進行表征學習的人工神經網 絡.自編碼器一般包含編碼器和解碼器兩個部分,基 于自編碼器的 GNN 被稱為圖自編碼器(GraphAuto-encoder,GAE),可以半監督或者無監督地學習 圖節點信息.如圖3所示

在圖自編碼器上,文獻[54]提出基于深度神經網絡的 表 示 模 型 (Deep NeuralNetworkforGraph Representations,DNGR).DNGR 采用隨機游走模 型(RandomSurfingModel)獲取圖結構信息,生成 概率共現 矩 陣,并 在 概 率 共 現 矩 陣 的 基 礎 上 計 算 PPMI矩陣.在圖節點嵌入表示學習上,DNGR 設計 了一個疊加去噪自編碼器(StackedDenoisingAuto-encoder,SDA),輸入 PPMI矩陣學習圖節點低維 表示,并且輸入的一部分會被隨機置零以提高模型 的魯棒性.DNGR的優點在于能學習到有向圖中更 多的結構信息,其生成的低維嵌入表示可以用于不 同的下游任務.但缺點是忽略了圖屬性信息,沒有將 圖屬性和圖結構信息一并納入到模型框架中,因此 圖結構的輕微變化就會影響節點表示的好壞.針對 節點內容信息的收集,Wang 等人[55]提出一種邊緣 圖 自 編 碼 器 (Marginalized Graph Autoencoder, MGAE)算法.其在自編碼器中使用基于譜分解的 圖卷積網絡層,整合節點屬性特征和圖結構信息,使得它們之間能進行數據交互.MGAE堆疊多層圖形 自編碼器,以建立一個深層次的架構來學習有效的 節點表示.Wang等人認為在訓練中隨機噪聲引起 的干擾可能會提供更有效的輸出表示,因此會在節點 內容特征中動態地加入一些干擾項.通過將某些特征 值置為零,獲得在大規模圖上學習的能力.MGAE構 建了優化器以確保編碼的節點屬性信息和真實屬性 信息之間的誤差最小化.在得到每個節點的表示后, MGAE使用譜聚類算法得到圖聚類結果。

圖生成網絡

建模和生成圖是研究生物工程和社會科學網絡 的基礎.圖生成網絡(GraphGenerativeNetwork, GGN)是一類用來生成圖數據的 GNN,其使用一定 的規則對節點和邊進行重新組合,最終生成具有特 定屬性和要求的目標圖.然而,在圖上模擬復雜分 布,并從這些分布中有效地采樣是比較困難的.因為 有些圖數據具有非唯一性、高維性質,圖中邊緣之間 存在復雜的非局部依賴性.因此不能假設所有的圖 數據都來自于同一個先驗分布,尤其是對于異質圖, 模型在識 別 過 程 中 必 須 要 具 有 平 移 不 變 性.因 此 GGN 著重用來解決這類問題和克服其中的難點. GGN 的輸入可以是節點或者邊向量,也可以是給定 的圖嵌入表示,然后對采樣的數據學習后合成各種 任務所需要的圖.

圖循環網絡

圖循環網絡(GraphRecurrentNetwork,GRN) 是最早出現的一種 GNN 模型.相較于其他的 GNN 算法,GRN 通常將圖數據轉換為序列,在訓練的過 程中序列會不斷地遞歸演進和變化.GRN 模型一般 使用 雙 向 循 環 神 經 網 絡 (BidirectionalRNN,BiRNN)和長短期記憶網絡(LongShort-Term MemoryNetwork,LSTM)作為網絡架構.

圖注意力網絡

注意力機制可以讓一個神經網絡只關注任務學 習所 需 要 的 信 息,它 能 夠 選 擇 特 定 的 輸 入[96].在 GNN 中引入注意力機制可以讓神經網絡關注對任 務更加相關的節點和邊,提升訓練的有效性和測試 的精度,由此形成圖注意力網絡(GraphAttention Network,GAT).

圖神經網絡總結分析

通過前文的歸納和分析, 從總體上看, 圖神經網絡可以分為五類: 圖卷積網絡、圖自編碼器、圖生成網絡、圖循環網絡和圖注意力網絡.每種圖神經網絡 都有自己對圖結構數據處理的一套算法和體系,其 中的原理和適用的范圍也有一定差別.當然它們之 間不是相互孤立和排斥的,例如文獻[59,65]的圖自 編碼器中包含圖卷積層,文獻[91,95]的圖循環網絡 為了圖序列學習更有效,也會加入注意力模塊.而圖 注意力網絡也大多以其他圖神經網絡框架為基礎, 構建合適的節點、邊以及圖注意力網絡層.因此在實 際操作當中,需要根據圖的分布和特征信息,以及任 務的實際需求,選擇合適的圖神經網絡,來更加有效 地學習圖結構數據. 表7是 GNN 機制、優點、缺點、 適用范圍及實現成本匯總表。

圖神經網絡應用

由于 GNN 能較好地學習圖結構數據的特征, 因此在許多圖相關的領域有著廣泛的應用.若按照 應用中圖的層次結構劃分,則大體可以分為節點、邊 和圖層面.在節點層面,常見的有節點分類、節點聚 合、節點表示學習.在邊層面,則有邊分類、邊聚類以 及鏈接預測.在圖層面,圖分類、圖生成、子圖劃分、 圖相似度分析等應用較為廣泛.按照圖的種類劃分, 可以分為引文網絡、社交網絡、交通網絡、圖像、化合 物分子結構、蛋白質網絡等.按照應用領域劃分,可 以分為自然語言處理、圖像處理、軌跡預測、物理化 學和 藥 物 醫 學 等.為 了 方 便 說 明 和 闡 述, 本 文 從 GNN 的主要應用領域這一角度出發,對近年來出現 的 GNN 應用實例進行分類歸納。

圖神經網絡未來研究方向

GNN 的核心在于規范化表示的圖結構數據并 用深度神經網絡進行學習.經過近些年的不斷發展, 通過大量數學證明和實驗分析后,GNN 在理論上和實踐上都被證實是對圖結構數據處理的一種有效方 法和框架.盡管 GNN 在各個領域的圖數據上取得 了不俗的表現和較好的普適性,但是 GNN 仍然存 在一定的不足和需要完善的地方.根據目前國內外 的研究現狀,下面本文對 GNN 的一些制約因素和 未來發展方向進行探討.

網絡深度

在計算機視覺、自然語言處理和音頻處理中,神 經網絡的層數可以疊加多層.在一定范圍內,神經網 絡層數的增加可以更好地提取數據中的特征信息. 例如深層殘差網絡 ResNet [150]可以達到152層.但 是 GNN 的鄰居節點聚合中,隨著網絡層數的增加, 鄰居節點的階數會不斷擴張,導致中心節點聚合特 征數量成指數變多.這在大規模數據集上,尤其是節 點之間的邊連接數量較多時表現的非常明顯.隨之 而來的是訓練過程中計算復雜度的劇增,并可能導 致過擬合的現象發生.這也就意味著隨著層數的增 加,GNN 模型性能會急劇下降.如果想要加深網絡 層數,就必須限制每層節點數量.但是這也會使得特 征聚集的量變少,導致節點之間信息傳播受阻.如何 解決這一矛盾性問題是將來研究的重點之一.

動態性

就目前來看,現有的 GNN 大多處理的是靜態 齊次圖.一方面,GNN 框架會假定圖結構是固定的; 另一方面,GNN 框架會假設圖中的節點和邊來自于 單一源分布.然而,這兩個假設在許多情況下并不能 同時成立.在社交網絡中,新的人可以隨時進入網 絡,并且現有的人也可以退出網絡.在推薦系統中, 產品可能有不同的類型,其輸入可能有不同的形式, 如文本或圖像.特別是在超大規模的圖中,節點的個 數和邊的個數可能有百萬、千萬乃至上億.尤其是隨 著數據的增加和改變,節點和邊的個數以及節點和 邊的類型都可能發生動態的變化.在這些任務處理 中,圖的動態變化是不能忽視的.特別是在固定尺寸 下,因為某個節點或者邊發生改變而重新學習整個 圖將會使得代價十分昂貴.而大多數 GNN 對于大 型圖不具 有 很 好 的 伸 縮 性.其 主 要 原 因 是 當 堆 疊 GNN 的多個層時,節點的最終狀態涉及大量鄰居的 隱藏狀態,導致反向傳播的高復雜性.雖然目前有一 定的文獻[94-95,136-137]在研究圖的時空動態性,但是面 對更大規模和更加復雜的動態異質圖數據時還不夠 有效.因此如何對圖的動態性進行有效的適應是未 來的研究方向之一.

感受域

一個節點的感受域是指一組節點集合,包括中 心節點及其鄰居節點.感受域大小是決定鄰居節點 數量的關鍵參數.在大規模圖數據集中,平均每個節 點周圍有多個鄰居節點存在.隨著網絡層數的增加, 鄰居節點會遞歸增加數目,感受域也隨之快速擴張. 這可能會超過存儲空間的上限.此外,一些節點可能 只有一個鄰居,而另外節點可能有多達數千個鄰居. 鄰居節點分布不均衡使得每個中心節點的感受域大 小不一致.盡管可以通過添加“啞結點”和刪除鄰居 節點的方式保持數據大小和維度的一致,但是在特 征的聚集和融合中不可避免的會有信息損失現象發 生,而現有的采樣方法還不能完全解決該問題.

多網絡的融合

由于現實世界數據的復雜性,抽象出來的圖結 構也會有很多的種類和變體.有向無向、異質非異 質、帶權不帶權等等,大部分的 GNN 僅能處理其中 的某一種類型.而更普遍的情況是各種各樣的圖混 雜在一起,并且希望 GNN 能滿足諸如節點分類、圖 分類、可視化、圖生成等多種任務需求.在這種復雜 的高強度的任務要求下,單一的神經網絡作用過于 有限.因此對于更加復雜的情況,有必要進行多網絡 融合.目前比較主流的多網絡融合方式是 GCN 與 其他 GNN 算法相結合.例如在節點屬性和圖拓撲 結構信息的獲取上,GCN 明顯具有較高的性能和良 好的適應性,在節點分類問題上會表現良好.鑒于其 優點,在 GAE中不乏部分模型使用 GCN 作為編碼 器,取得較好的效果.但如果還需要進行鏈接預測、 節點生成或者圖生成,GCN 則有點力不從心了.此 時可以再增設一個 GGN,輸入 GCN 處理后的節點 嵌入向量,在 GGN 內生成概率分布,完成生成式任 務.如果圖在不斷地遞歸演進,形成了圖序列.則可以 利用 GRN來處理,以攘括多個步驟下的圖信息.因此 在 GNN框架中構造不同用途的深度神經網絡,從不 同的側面來提取和整合數據的特征是十分有必要的. 此 外 可 以 對 諸 如 深 度 置 信 網 絡 (DeepBeliefNetwork)[151]、Transformer [152]等神經網絡進行改造,將 其泛化和應用至圖結構數據學習上。

與網絡嵌入的結合

網絡嵌入可以將原始圖數據的高維稀疏矩陣轉 變為低維度稠密的向量,這可以大幅度壓縮存儲空 間,并提取有效的圖信息.一般圖節點的原始特征矩 陣是高維稀疏的,對于一個 N ×F 的特征矩陣,當 F 比較大時,所需要的存儲空間也相應的增加.如果 矩陣比較稀疏,那么存儲效率也會比較低下.網絡嵌 入則可以利用圖結構信息,生成低維連續的節點特 征表示,避免存儲空間浪費.其次,由于生成的節點 嵌入表示包含了部分鄰居節點信息,所以中心節點 的感受域也可以相應的減少.對于多層圖卷積和需要迭代壓縮的 GNN 來說,一定程度上可以減少網 絡層數和迭代壓縮次數.例如 Kipf等人[27]半監督 GCN 復雜度為O(|E|FC),DeepWalk [110]的復雜 度為O(log(N)).當邊連接比較密集并且節點特征 維度很大時,復雜度較高.如果對節點特征降維,使 得降維之后的維度 F' ? F ,這樣總體復雜度變為 O(log(N))+O(|E|F'C).盡管增加了網絡嵌入 的計算時間,但是在圖卷積層可以大幅度降低計算 開銷,這樣可以提高訓練的有效性以及降低計算復 雜度.文獻[66,76,86]就使用隨機游走等網絡嵌入方法 來為 GNN 模型構建輸入序列,除此之外未來研究 中也可以嘗試諸如 Node2vec [77]、LINE [153]等網絡 嵌入方法來對 GNN 的輸入端進行改進.

付費5元查看完整內容

摘要

在大數據時代下,深度學習理論和技術取得的突破性進展,為人工智能提供了數據和算法層面的強有力 支撐,同時促進了深度學習的規模化和產業化發展.然而,盡管深度學習模型在現實應用中有著出色的表現,但 其本身仍然面臨著諸多的安全威脅.為了構建安全可靠的深度學習系統,消除深度學習模型在實際部署應用中的潛在安全風險,深度學習模型魯棒性分析問題吸引了學術界和工業界的廣泛關注,一大批學者分別從精確和 近似的角度對深度學習模型魯棒性問題進行了深入的研究,并且提出了一系列的模型魯棒性量化分析方法. 在本綜述中,我們回顧了深度學習模型魯棒性分析問題當前所面臨的挑戰,并對現有的研究工作進行了系統的總結和科學的歸納,同時明確了當前研究的優勢和不足,最后探討了深度學習模型魯棒性研究以及未來潛在的研究方向.

引言

受益于計算力和智能設備的飛速發展,全世界正在經歷第三次人工智能浪潮。人工智能以計算機 視覺、序列處理、智能決策等技術為核心在各個應 用領域展開,并延伸到人類生活的方方面面,包括 自適應控制[1]、模式識別[2]、游戲[3]以及自動駕駛[4] 等安全攸關型應用。例如,無人駕駛飛機防撞系統 (Aircraft Collision Avoidance System, ACAS)使用 深度神經網絡根據附近入侵者飛機的位置和速度 來預測最佳行動。然而,盡管深度神經網絡已經顯 示出解決復雜問題的有效性和強大能力,但它們僅 限于僅滿足最低安全完整性級別的系統,因此它們 在安全關鍵型環境中的采用仍受到限制,主要原因 在于在大多數情況下神經網絡模型被視為無法對 其預測行為進行合理解釋的黑匣子,并且在理論上難以證明其性質。

隨著深度學習的對抗攻擊領域日益廣泛,對抗 樣本的危險性日益凸顯[7,12,13],即通過向正常樣例中添加精細設計的、人類無法感知的擾動達到不干 擾人類認知卻能使機器學習模型做出錯誤判斷。以圖像分類任務為例,如圖 1 所示,原始樣本以 57.7% 的置信度被模型分類為“熊貓”,而添加對抗擾動之 后得到的樣本則以 99.3%的置信度被錯誤地分類為 “長臂猿”,然而對于人而言,對抗樣本依然會被 視為熊貓。由于這種細微的擾動通常是人眼難以分辨的,因而使得攻擊隱蔽性極強、危害性極大,給 ACAS 等安全攸關型應用中部署的深度學習模型帶 來了巨大的安全威脅。

為了防御對抗樣本攻擊,研究者進行了一系列的防御方法探索[5-11]。然而,即使是被廣泛認可并且迄今為止最成功的?∞防御[5],它的?0魯棒性比未防御的網絡還低,并且仍然極易受到?2的擾動影響[14]。這些結果表明,僅對對抗攻擊進行經驗性的防御無法保證模型的魯棒性得到實質性的提升,模型的魯棒性需要一個定量的、有理論保證的指標進行評估。因此,如果要將深度學習模型部署到諸如自 動駕駛汽車等安全攸關型應用中,我們需要為模型 的魯棒性提供理論上的安全保證,即計算模型的魯 棒性邊界。模型魯棒性邊界是針對某個具體樣本而 言的,是保證模型預測正確的條件下樣本的最大可 擾動范圍,即模型對這個樣本的分類決策不會在這 個邊界內變化。具體地,令輸入樣本??的維度為??, 輸出類別的個數為??,神經網絡模型為??: ??? → ???, 輸入樣本的類別為 ?? = ???????????? ???? ?? ,?? = 1,2, … ,??,在???空間假設下,模型對??提供?-魯棒性 保證表明模型對??的分類決策不會在這個樣本???空 間周圍?大小內變化。

在本文中,我們首先闡述了深度學習模型魯棒性分析現存的問題與挑戰,然后從精確與近似兩個角度對現有的魯棒性分析方法進行系統的總結和科學的歸納,并討論了相關研究的局限性。最后,我們討論了深度學習模型魯棒性分析問題未來的研究方向。

問題與挑戰

目前,深度神經網絡的魯棒性分析問題的挑戰主要集中在以下幾個方面:

(1)神經網絡的非線性特點。由于非線性激 活函數和復雜結構的存在,深度神經網絡具有非線 性、非凸性的特點,因此很難估計其輸出范圍,并 且驗證分段線性神經網絡的簡單特性也已被證明 是 NP 完全問題[15]。這一問題的難點在于深度神經 網絡中非線性激活函數的存在。具體地,深度神經 網絡的每一層由一組神經元構成,每個神經元的值 是通過計算來自上一層神經元的值的線性組合,然 后將激活函數應用于這一線性組合。由于這些激活 函數是非線性的,因此這一過程是非凸的。以應用 最為廣泛的激活函數 ReLU 為例,當 ReLU 函數應 用于具有正值的節點時,它將返回不變的值,但是 當該值為負時,ReLU 函數將返回 0。然而,使用 ReLU 驗證 DNN 屬性的方法不得不做出顯著簡化 的假設,例如僅考慮所有 ReLU 都固定為正值或 0 的區域[16]。直到最近,研究人員才能夠基于可滿足 性模理論等形式方法,對最簡單的 ReLU 分段線性 神經網絡進行了初步驗證[15,21]。由于可滿足性模理 論求解器難以處理非線性運算,因此基于可滿足性 模理論的方法通常只適用于激活函數為分段線性的神經網絡,無法擴展到具有其它類型激活函數的神經網絡。

(2)神經網絡的大規模特點。在實際應用中, 性能表現優秀的神經網絡通常具有大規模的特點。因此,盡管每個 ReLU 節點的線性區域可以劃分為 兩個線性約束并有效地進行驗證,但是由于線性片 段的總數與網絡中節點的數量成指數增長[17,18],對 整個網絡進行精確驗證是非常困難的。這是因為對 于任何大型網絡,其所有組合的詳盡枚舉極其昂 貴,很難準確估計輸出范圍。此外,基于可滿足性 模理論的方法嚴重受到求解器效率的限制,僅能處 理非常小的網絡(例如,只有 10 到 20 個隱藏節點 的單個隱藏層[20]),無法擴展到大多數現實世界中 的大型網絡,而基于采樣的推理技術(例如黑盒蒙 特卡洛采樣)也需要大量數據才能在決策邊界上生 成嚴格的準確邊界[19]。

總之,由于不同學者所處的研究領域不同,解 決問題的角度不同,所提出的魯棒性分析方法也各 有側重,因此亟需對現有的研究工作進行系統的整 理和科學的歸納、總結、分析。典型的模型魯棒性 分析方法總結如表 1 所示。目前的模型魯棒性分析 方法主要分為兩大類:(1)精確方法:可以證明精 確的魯棒性邊界,但計算復雜度高,在最壞情況下 計算復雜度相對于網絡規模是成指數增長的,因此 通常只適用于極小規模的神經網絡;(2)近似方法:效率高、能夠擴展到復雜神經網絡,但只能證明近似的魯棒性邊界。

精確方法

精確方法主要是基于離散優化 (DiscreteOptimization)理論來形式化驗證神經網 絡中某些屬性對于任何可能的輸入的可行性,即利 用可滿足性模理論(Satisfiability Modulo Theories, SMT)或混合整數線性規劃(Mixed Integer Linear Programming, MILP)來解決此類形式驗證問題。這 類方法通常是通過利用 ReLU 的分段線性特性并在 搜索可行解時嘗試逐漸滿足它們施加的約束來實 現的。圖 2 梳理了典型模型魯棒性精確分析方法的 相關研究工作。

近似方法

由于在??? ? ????????假設空間內,對于激活函數為 ReLU 的神經網絡,計算其精確的魯棒性邊界是一 個 NP 完備(NP-Complete,NPC)問題[15],因此大 多數研究者通常利用近似方法計算模型魯棒性邊 界的下界,下文提到模型魯棒性邊界時通常也指的 是這個下界。此外,對抗攻擊[12]可以得到模型魯棒 性邊界的上界[24]。因此,精確的模型魯棒性邊界可 以由上界和下界共同逼近。這類方法通常基于魯棒 優化思想,通過解決公式(1)的內層最大化問題 來估計模型魯棒性邊界:

其中,??代表正常樣本,?? 代表對抗樣本,???? (??)代 表對抗樣本可能存在的范圍,??代表樣本真實標簽, ????代表以θ為參數的模型,??代表損失函數。圖 3 梳 理了典型模型魯棒性近似分析方法的相關研究工 作。

未來研究方向

本文介紹了模型魯棒性分析問題的背景與挑戰,探討了相關定義,進而對目前主流的模型魯棒性方法與性能做了介紹。從目前已有的相關方法來 看,我們認為今后對模型魯棒性分析方法的研究, 將主要圍繞以下幾個方向展開:

(1)進一步拓展對抗擾動的類型。從攻擊者 添加擾動的類型來看,現存的大多數模型魯棒性方 法都是針對在像素點上添加擾動的對抗攻擊進行 的魯棒性分析,然而在實際中,對抗性圖像有可能 經過旋轉、縮放等幾何變換,而現存大多數方法無 法擴展到此類變換。雖然 Balunovic 等人提出的 DeepG[102]初步嘗試了將抽象解釋的思想用于分析 幾何變換對抗攻擊的模型魯棒性空間,但是這個方 向仍然值得更多深入研究,進一步提升精度和可擴展性。

(2)不同魯棒性類型之間的平衡。輸入樣本?? 的局部魯棒性(即神經網絡應為以??為中心的半徑 為?的球中的所有輸入產生相同的預測結果)依賴 于在輸入空間上定義的合適的距離度量標準,在實 際中,對于在非惡意環境中運行的神經網絡而言, 這可能是太過苛刻的要求。同時,由于僅針對特定 輸入定義了局部魯棒性,而對于未考慮的輸入不提 供保證,因此局部魯棒性也具有固有的限制性。全 局魯棒性則通過進一步要求輸入空間中的所有輸 入都滿足局部魯棒性來解決這個問題。除了在計算 上難以控制之外,全局魯棒性仍然太強而無法實際 使用。因此,在實際中如何更好地平衡局部魯棒性 與全局魯棒性,仍然是一個亟待解決的挑戰。

(3)進一步提升模型魯棒性驗證方法。從實 證結果來看,大多數基于經驗的防御方法非常容易 被更強的攻擊所攻破,而其他魯棒性分析方法在很 大程度上取決于神經網絡模型的體系結構,例如激 活函數的種類或殘差連接的存在。相比之下,隨機 平滑不對神經網絡的體系結構做任何假設,而僅依 靠在噪聲假設下傳統模型進行良好決策的能力,從 而將魯棒分類問題擴展為經典監督學習問題,可用 于社區檢測[103]等任務。因此,基于隨機平滑的魯 棒性分析方法可能是研究模型魯棒空間的最有前 途的方向之一。此外,由于基于概率的方法具有更 寬松的魯棒性定義,更有可能被實用的神經網絡所 滿足和驗證,因此在合適的擾動分布假設下也是較 有前景的方向之一。

(4)研究可證明魯棒模型訓練方法。此外, 如何訓練對對抗性擾動具有可證明魯棒的神經網 絡以及如何訓練更容易驗證魯棒性的神經網絡,也 是未來的研究方向之一。目前研究者在這個方向進 行的初步探索包括利用正則化技術將模型的形式 化魯棒邊界與模型的目標函數結合起來[104]、經驗 性對抗風險最小化(Empirical Adversarial Risk Minimization,EARM)[36,105]、隨機自集成[106]、剪 枝[82,107]以及改善神經網絡的稀疏性[108]。但是現存 技術主要集中于圖像領域,難以擴展到惡意軟件等 安全攸關型應用,并且仍然存在精度以及可擴展性 上的不足,需要進一步的深入研究。

付費5元查看完整內容

基于人工智能技術的人機對話系統在人機交互、智能助手、智能客服、問答咨詢等多個領域應用日益廣泛,這極大地促進了自然語言理解及生成、對話狀態追蹤和端到端的深度學習模型構建等相關理論與技術的發展,并成為目前工業界與學術界共同關注的研究熱點之一。該文聚焦特定場景下的任務型對話系統,在對其基本概念進行形式化定義的基礎上,圍繞著以最少的對話輪次來獲得最佳用戶需求相匹配的對話內容為目標,針對目前存在的復雜業務場景下基于自然語言的用戶意圖的準確理解和識別、針對訓練數據的標注依賴及模型結果的可解釋性不足,以及多模態條件下對話內容的個性化生成這三個重大的技術問題和挑戰,對當前的技術與研究進展進行系統地對比分析和綜述,為進一步的研究工作奠定基礎。同時,對新一代的面向任務型的人機對話系統未來的關鍵研究方向與任務進行總結。

//jcip.cipsc.org.cn/CN/abstract/abstract3199.shtml

付費5元查看完整內容

深度學習在很多人工智能應用領域中取得成功的關鍵原因在于,通過復雜的深層網絡模型從海量數據中學習豐富的知識。然而,深度學習模型內部高度的復雜性常導致人們難以理解模型的決策結果,造成深度學習模型的不可解釋性,從而限制了模型的實際部署。因此,亟需提高深度學習模型的可解釋性,使模型透明化,以推動人工智能領域研究的發展。本文旨在對深度學習模型可解釋性的研究進展進行系統性的調研,從可解釋性原理的角度對現有方法進行分類,并且結合可解釋性方法在人工智能領域的實際應用,分析目前可解釋性研究存在的問題,以及深度學習模型可解釋性的發展趨勢。為全面掌握模型可解釋性的研究進展以及未來的研究方向提供新的思路。

付費5元查看完整內容
北京阿比特科技有限公司