本報告由來自美國陸軍研究實驗室、美國國防情報局、美國國家地理空間情報局(NGA)、英國國防部國防科學技術實驗室(Dstl)、加拿大國防研究與發展部、德國弗勞恩霍夫FKIE研究所等多個單位聯合撰寫。介紹了北約信息系統技術(IST)探索小組111(ET-111)的調查結果。成立ET-111是為了在北約各國之間分享對知識表示和推理(KRR)現狀的理解,以了解技術現狀并考慮未來的合作活動是否有益。
為了支持高水平的數據融合,當下有一個基礎性的需求,即信息和知識要能被人類和機器理解。知識表示是將知識以計算機可操作的形式表達出來,以便對其進行利用。這樣做的一個關鍵原因是,知識可以被推理。基于知識的系統也可能被稱為符號人工智能和基于規則的人工智能,并且在過去50多年里一直是一個活躍的研究領域。因此,它可能被一些人認為是 "老派 "的人工智能,與近年來日益突出的基于算法和機器學習的人工智能方法不同(眾所周知,后者存在可解釋性和概括性問題)。在 "大數據 "時代,知識表示和推理為利用靈活、可解釋和基于人類知識的數據提供了一個途徑。
這篇綜述的第一個目的是為知識表示和推理領域提供一個技術介紹。為讀者提供關鍵概念的知識--以培養理解力--將使人們能夠欣賞到知識系統的能力。第二個目的是通過實例,提供對創建知識系統過程的掌握,以及如何在軍事背景下使用這種系統來解決現實世界問題。對知識系統最適用的現實世界問題的理解,有助于成功實施KRR并將其與北約系統和理論相結合。
在這份報告中,我們首先討論了北約成員國面臨的一些挑戰,以及北約的知識表示和推理可能會對這些領域產生的影響。然后,我們對知識表示、知識工程和推理方法的技術方面做了一個總結。我們討論了知識表示的具體例子,如MIP信息模型(MIM)、富事件本體(REO)、OPIS和國防情報核心本體(DICO)。我們還描述了WISDOM研發平臺和智能態勢感知(INSANE)框架,作為使用知識表示來支持感知的例子。
隨后,我們回顧了更廣泛的研究,包括文本分析如何支持從報告和其他來源的文本中提取知識,關于因果關系的工作以及推理系統中的可解釋性和信任問題。
最后,我們總結了報告的結論和對北約聯盟的影響,提出了進一步工作的主要建議:
建議1--北約科技組織應贊助一項技術活動,以展示符號和亞符號方法的互補使用及其對改善決策的益處。
建議2--北約科技組織應贊助一個虛擬系列講座/研討會,以提高北約科學和業務部門對KRR技術的認識,從而為該領域的進一步技能發展提供催化作用。
建議3--北約科技組織應贊助一個專門的探索小組,考慮因果模型的具體興趣,以及它在基于知識的系統中的應用,作為未來在諸如建議1活動下進行實際演示的先導。
隨著傳感器、性能、反饋和其他數據數量的不斷增加,國防面臨的最緊迫的挑戰之一是可靠地、快速地篩選、融合最相關的觀察和信息并采取作戰行動的能力。信息的重要性體現在北約的所有戰略重點中[2]。俄羅斯對歐洲-大西洋安全的威脅是基于旨在破壞戰略關系(如歐盟、北約等)的虛假信息;打擊一切形式和表現的恐怖主義,現在的前提是能夠將機密和公開來源的材料聯系起來,以確定可以采取行動的聯系和行為;網絡威脅主要是在信息空間進行的。
北約對聯盟地面監視(AGS)系統的收購代表了北約在支持其未來行動中提供豐富數據饋送的能力的重大提升[3]。但是,在英國的 "信息優勢 "等概念中,人們認識到,現在只有通過及時和有效地融合這些數據饋送,才能實現真正的優勢。
當然,處理信息過載的挑戰并不限于國防領域。金融、廣告和工程等領域,都在抓住機遇,改善決策,瞄準服務,提高新解決方案的交付速度。近年來,應用機器學習(ML)方法應對這些挑戰的潛力已經引起了公眾、投資者和世界各地高層領導人的注意。因此,這樣的ML方法正在展示其應對防御挑戰的潛力,包括圖像和視頻資料中的物體檢測和標記、提取實體和關系的文本分析以及語音檢測和翻譯。在計算能力、數據可用性和計算框架的重大突破基礎上,對數據和人工智能的興趣將大大增加。
因此,防御能力將越來越能夠處理最關鍵的信息流,節省分析員的時間,提高他們快速發展和保持態勢感知的能力。然而,由于人類分析員的注意力也被持續競爭時期的操作和作戰活動所牽制[5],仍然需要不斷提高他們在多個領域連接細微但重要的觀察的能力。例如,隨著作戰尋求常規的全頻譜效應,物理、社會和網絡領域之間觀察的相互聯系將越來越重要,但如果沒有其他能力支持,這種聯系可能不容易被發現。重要的是,將這些觀察結果與過去的知識、相關人員的固有專長以及之前的經驗聯系起來是至關重要的。
復雜性一直存在于自然和生物領域中。然而,隨著科學和技術的進步,人類現在有能力制造出其復雜性接近生命本身的人工制品。有必要使用先進的方法來處理這種復雜性。
這種復雜性源于數據的速度、密度和空間范圍的巨大增長,以及不斷增加的各種元素之間的耦合,其中一些是自然的,而許多是合成的。防御的一個核心挑戰是應對復雜情況的方法。我們面臨著技術的快速發展,提供了更多的數據、信息和能力,同時也面臨著具有挑戰性的地形,如城市環境和涉及叛亂分子、混合人口、非政府組織的 "人類地形"。這些復雜的情況實際上比以往任何時候都更需要及時的決策來戰勝威脅,而決策的質量將始終與對情況的理解程度密切相關。這種理解力受到如此快速的行動和技術變化的挑戰,需要新的方法來更好、更快地分解復雜的情況。雖然人類的思維方式仍然深深扎根于經典的還原論概念,即通過將問題分解為子問題來解決,但現在人們認識到,以有效的方式接近復雜性不能脫離還原論方法。
諸如英國的 "信息優勢"[6]等國家概念試圖催化信息在國防行動中的作用,強調必須進行創新,否則就有可能 "枯萎"并跟不上對手的步伐。美國的 "用機器增強情報"(AIM)倡議[7]也提供了一個戰略觀點,強調了AI和ML在未來情報能力中的作用。對于IST-ET-111來說,AIM倡議特別強調了代表知識方面的基礎研究進展。
多年來,JDL融合模型[8]對實現低層和高層數據融合的技術挑戰進行了很好的定義。然而,全面的解決方案,特別是高層的數據融合,仍然缺乏,而且是不斷研究和開發的主題。
信息融合的挑戰幾乎延伸到國防的所有方面,從后勤到人員管理、平臺維護和醫療。然而,在北約背景下,重點是聯盟行動,如在阿富汗的行動,考慮實現態勢感知以支持指揮與控制(C2)和情報功能的挑戰也許是最貼切的。這些活動的特點是需要:
C2和情報活動產出的主要作者和消費者是人類分析員和作戰人員,但隨著北約部隊更多地使用自動化和自主系統,機器在支持、增強和利用基礎態勢感知和高層融合活動中的作用將越來越重要,需要考慮。
為了支持這種高層的融合,現在有一個基本的需求,即信息和知識要能被人類和機器理解。通過這樣做,就有可能應用機器推理(推測)方法,將規則和形式邏輯應用于現有數據,以提供更高層次的推理。知識表示是將知識以計算機可操作的形式表達出來,以便對其進行利用。這樣做的一個關鍵但不是唯一的原因是,知識可以被推理。基于知識的系統也被稱為符號人工智能和基于規則的人工智能,并且在過去五十多年里一直是一個活躍的研究領域。
知識表示和對這些知識進行推理的愿望是北約七個新興和顛覆性技術(EDTs)中三個的核心:數據、人工智能和自主性,其中每一個都重疊并支持另一個[9]。
當然,正是最近對 "機器學習"(也被稱為亞符號)方法的興趣,專注于神經網絡等計算方法,一直處于公眾對人工智能敘述的最前沿,經常看到ML和AI這兩個術語被交替使用。這類系統已經在多種應用中證明了其價值,如產品推薦系統、交通模式的預測和貸款審批。使用ML來支持基于內容的多種數據類型(圖像、視頻、文本和社交媒體)的分析是現已完成的IST-RTG-144(多內容分析)的核心興趣。該小組清楚地展示了對單模態進行分析的潛力,以及在更廣泛的情報周期內結合這些分析的機會,但它沒有考慮自動/半自動融合或針對觀察結果進行推理,以支持高水平融合的目標。
ML方法通常利用大量的數據來開發模型,將輸出與輸入聯系起來。對于某些類別的任務,如圖像標記,ML是一種行之有效的應用,但即使是人工智能系統的領導者也很謹慎,甚至對它的成功持批評態度[10]。用ML方法表示和包含知識(所謂的神經符號方法)可能是提高未來解決方案的穩健性和性能的一個潛在步驟。
因此,實現這一目標的基本步驟是建立有效的知識表示(符號表示),可以被未來的混合系統所使用。符號方法可能更善于處理稀疏的數據,支持增強的可解釋性并納入過去的人類知識,并使用擅長模式識別和數據聚類/分類問題的計算方法。然而,如果這些方法/技術要支持未來的聯盟行動,就需要聯合起來努力。這包括
開發特定領域的本體論(為特定領域定義的詞匯表)。
部署和評估推理能力。
為事件驅動的處理建立有效的架構。
處理觀測中的不確定性和模糊性。
信息共享和觀測數據來源。
聯合部署和應對規模問題的方法。
正是在這種情況下,北約IST-ET-111 "知識表示和推理 "被提出來,目的是匯集北約伙伴對KRR現狀的理解,以了解技術現狀并考慮未來是否需要開展活動。
通過建立技術現狀和北約國家的技術能力,IST-ET-111團隊希望這份報告能夠支持圍繞實現有效的人機團隊的最有效方法進行對話。探索小組的建立也是確定如何利用其他北約國家的科學和技術活動來獲得近期和長期的業務利益的一個步驟。
最終,我們預計KRR的有效使用會帶來以下結果:
本報告針對的是更廣泛的北約STO社區和國家代表,他們
可能需要領導技術變革舉措,并可能從在軍事背景下使用KRR方法和手段中受益。
需要實施新的解決方案以更好地利用信息和知識;
可能擁有ML方面的專業知識,并正在尋求其他方法來提高結果的穩健性和可解釋性。
首先,本報告關注知識表示的核心概念(第2章),認識到利用基于知識的方法的第一步是擁有表示知識的手段,然后才是對知識進行推理的方法,或者換句話說,從我們已經知道的知識中推導出新知識的方法。然后,報告轉向實施KRR方法的問題(第3章),用具體的例子來說明其中的問題。最后,對活躍的研究主題進行了簡短的討論(第4章),并提出結論和建議(第5章)。
本報告描述了北約STO RTG IST-149無人地面系統和C2內互操作性能力概念演示器的研究和實驗工作。無人地面車輛(UGVs)在現代戰斗空間中正變得越來越重要。這些系統可以攜帶大量的傳感器套件,從前線提供前所未有的數據流。另一方面,這些系統在大多數情況下仍然需要遠程操作。重要的是要認識到,如果沒有適當的方式在聯盟伙伴之間交換信息和/或將其納入C2系統,ISR數據在很大程度上將是無用的。該小組的主要目的是找到改善這種情況的方法,更具體地說,調查從操作員控制單元(OCU)控制UGV和接收數據的可能標準,并在現實世界的場景中測試它們。
該項目的努力有兩個方面。比利時的貢獻是在歐盟項目ICARUS中所做的工作。這個項目涉及一個用于搜索和救援的輔助性無人駕駛空中、地面和海上車輛團隊。互操作性在幾個不同的實驗中得到了驗證。ICARUS聯盟由幾個國際合作伙伴組成,其中比利時是這個小組的鏈接。第二項工作是該小組的聯合努力,在小組內進行實驗,展示UGV和OCU之間的互操作性。該小組于2018年在挪威的Rena進行了最后的演示。
這兩項工作都使用了無人系統聯合架構(JAUS)和互操作性配置文件(IOP),以成功實現系統間的互操作性。試驗表明,有可能相當容易地擴展系統,并在相對較短的時間內實現與部分標準的兼容。弗勞恩霍夫FKIE和TARDEC都開發了軟件,將信息從IOP域傳遞到機器人操作系統(ROS),并從該系統中獲取信息。ROS是一個廣泛使用的軟件,用于開發UGV和其他類型機器人的自主性,并被該小組的許多合作伙伴所使用。Fraunhofer FKIE和TARDEC提供的軟件對試驗的成功至關重要。
報告還討論了如何在采購前利用IOP標準來定義系統的要求。該標準本身定義了一套屬性,可以在采購新系統時作為要求來指定,可以是強制性要求,也可以是選擇性要求。這使得采購部門更容易定義要求,供應商也更容易符合要求,同時也明確了OCU在連接到系統時,在控制系統和可視化系統中的數據方面需要具備哪些能力。
該小組2018年在挪威瑞納的試驗重點是對UGV進行遠程操作,以及接收UGV的位置和視頻反饋。由于這是一次成功的試驗,下一步將是使用更高層次的控制輸入和反饋來測試互操作性,例如,向UGVs發送航點,并根據系統的感知接收系統周圍環境的地圖。
《軍事中的人工智能和自主:北約成員國戰略和部署概述》報告以及相關文件《附錄A -國家概況》提供了人工智能和自主技術在北約盟國軍事中的作用的高層視圖。這是第一個專門針對北約國家軍事人工智能的學術研究。
該報告概述了每個北約國家在軍事人工智能方面的觀點和雄心,并概述了它們目前對人工智能技術的使用。在附錄A中,報告探討了每個國家在軍事和國防背景下與人工智能的接觸程度,審查了國家人工智能戰略和當前人工智能技術使用的公開來源。
本研究的策略含義如下:
鼓勵負責任的人工智能規范:作為一個基于共識的聯盟,北約在促進安全和軍事人工智能討論方面處于獨特地位,并有機會協調成員國之間的規范建設活動。
人工智能的采用:北約是一個有價值的機制,通過該機制,可以按需向成員國提供能力建設指導和更廣泛的援助。
協作增強抵御能力:加強聯盟合作可能使各國能夠利用能力建設努力,更好地應對與人工智能技術相關的安全挑戰。
維持集體防御:人工智能技術的能力差距不斷擴大,可能導致一些成員國在應對更快的沖突環境方面裝備相對不足,在這種環境中,對手越來越多地利用人工智能和自主系統。
關注未來的互操作性: 豎井式創新為聯盟提出了未來的互操作性挑戰,例如在跨國運營中共享數據和AI應用。
人力資本和人力資源系統(如人員選擇、培訓)是一個組織適應變化能力的重要因素。然而,這些過程也必須保持對變化的響應,以保持高效和有效。在本報告中,我們探討了人事選拔領域內的主題,以確定該領域目前的趨勢、挑戰和發展。我們重點關注在當今國防背景下具有重要意義的三個具體領域:誠信、在線/計算機化測試、多樣性。
鑒于每個主題領域的廣泛性,在本研究工作組內,由對某一特定主題感興趣的參與國分成了三個組。每個組根據對各自組織的當前需求、挑戰或要求的理解,確定并概述了小組所要探討的具體領域。本報告的不同部分記錄了每個主題的成果。
在誠信方面,本報告深入介紹了軍隊誠信測試的歷史;研究了各參與國誠信測試實踐和研究的現狀;總結了商業誠信測試和新出現的誠信評估方法;并為軍事人員選拔中的誠信評估提供了一個定義軍隊誠信的框架。
在在線/計算機化測試方面,本報告研究了參與國的選拔測試實踐,此外還探討了社會心理因素、測試安全挑戰、在線測試管理的選擇,以及技術實施可能帶來的人員選拔的好處。
在多樣性方面,本報告探討了多樣性的概念;概述了人員選拔實踐中的公平性和包容性的考慮;并探討了國防內部的神經多樣性倡議。
所有三個主題(即誠信、在線/計算機化測試和多樣性)都與國防背景特別相關。挑選具有誠信行為傾向的個人對軍事人員選拔實踐非常重要,因為公眾的信心和信任對武裝部隊的有效性至關重要。為了確保在招募頂尖人才方面的競爭優勢,軍事人員甄選測試實踐還必須吸引精通技術的勞動力市場,同時體現公平和包容性原則,因為這些市場在人口(如種族)和非人口(如語言)因素方面變得越來越異質化。總之,本報告借鑒了當前的實踐和研究狀況,以提高對軍事人員選拔中值得考慮的議題的認識并提供指導。
基于深度學習的事件抽取研究綜述
事件抽取是從非結構化的自然語言文本中自動抽取用戶感興趣的事件信息,并以結構化的形式表示出來.事件抽取是自然語言處理與理解中的重要方向,在政府公共事務管理、金融業務、生物醫學等不同領域有著很高的應用價值.根據對人工標注數據的依賴程度, 目前基于深度學習的事件抽取方法主要分為兩類:有監督和遠程監督學習方法.本文對當前深度學習中事件抽取技術進行了全面的綜述. 圍繞有監督中CNN、RNN、GAN、GCN與遠程監督等方法,系統地總結了近幾年的研究情況,并對不同的深度學習模型的性能進行了詳細對比與分析.最后,對事件抽取面臨的挑戰進行了分析,針對研究趨勢進行了展望.
隨著云計算與大數據時代的迅速推進,計算機已經是人們平時獲取信息最重要的途徑.從各種數據形式中獲取最有用的、潛在的信息已成為人們關注的重點方向,信息抽取技術應運而生.信息抽取就是從海量的文本、圖片和視頻等數據里面自動抽取用戶需要的結構化信息的過程.事件抽取作為信息抽取技術的主要分支之一, 同時還是該方向最有挑戰性的任務之一.事件抽取一直吸引著許多研究機構和學者,如消息理解會議(MUC,Message Understanding Conference) [1]和自動內容抽取(ACE, Automatic Content Extraction) [2]就把事件抽取作為典型任務.
事件抽取任務研究是從非結構化的自然語言文本中自動抽取用戶感興趣的事件信息并以結構化的形式表示[3],融合了來自計算機科學、語言學、數據挖掘、人工智能和知識建模等多個領域的知識和經驗,對人們了解社會有著深遠的影響.事件抽取在不同領域中具有許多應用,例如結構化事件能夠直接擴充知識庫并進行邏輯推理.事件檢測與監控一直是政府公共事務管理的重點,實時了解社會事件的爆發和演變有助于對其迅速做出反應并采取措施.在金融業務領域,事件抽取可以幫助公司快速發現產品的市場響應并推斷信號以執行風險分析、評估等操作.在生物醫學領域,事件抽取能夠識別生物分子(例如基因或蛋白質)狀態的變化,以及它們之間的相互作用.事件抽取在應用需求的推動下展開,由人工標注數據的依賴情況可以將目前基于深度學習的事件抽取方法主要分為兩類:有監督和遠程監督學習方法.本文首先簡單介紹深度學習中事件抽取的發展,再從事件抽取研究的方法,對其發展狀況和技術推進兩個維度全面闡述事件抽取的工作,然后概述了深度學習中事件抽取的數據集及對評價指標進行分析,最后討論了事件抽取中面臨的挑戰及研究趨勢,并對其進行了總結和展望.
20 世紀 80 年代末,事件抽取的研究開始蓬勃發展,其中耶魯大學、MUC、ACE 和文本分析會議(TAC, TextAnalysis Conference) [4]的相關測評都推動著事件抽取技術的快速發展,情況如表1 所示.
MUC 會議每兩年舉辦一次,主要是美國國防高級研究計劃委員會(DARPA,Defense AdvancedResearchProjects Agency) [1]贊助的.它從 1987-1997 年總共舉辦了 7 屆,積極推動了事件抽取研究方向的確定與后續發展的方向. ACE 會議是 MUC 的延伸,在大量的應用需求下,1999 年美國國家標準技術研究院(NIST, National Instituteof Standards and Technology) [2]組織的 ACE 評測會議開始發展起來.ACE 從 2000 年到2007 年共舉辦了8屆, 這是事件抽取領域最有影響力的評測會議. TAC 會議是 NIST 在 2008 年成立的,自 2009 年開始 ACE 就成為 TAC 中的一個子任務.隨著云計算和大數據時代的到來,數據呈爆炸式增長,上述測評會議所發布的依靠人工標注方式獲得的語料庫已經無法滿足需求.2014 年 TAC 增加了知識庫生成 (KBP, Knowledge Base Population) [4]評測任務,同時也增加了事件抽取的任務.如今,事件抽取已成為 TAC-KBP 公開評測的主要任務,可以從大型文本語料庫中自動抽取事件信息,完成對知識庫中不足論元[5]的補充. 傳統基于特征的方法是利用人工構建事件候選觸發詞與論元,這會導致模型的擴展性和移植性較差.而機器學習方法在特征提取過程容易出現誤差傳播問題,極大影響事件抽取模型的性能.隨著深度學習的崛起,研究者們逐漸將深度學習方法引入事件抽取任務中,大量基于有監督的卷積神經網絡(CNN, Convolutional NeuralNetworks) [6]、遞歸神經網絡(RNN, Recurrent Neural Networks) [7]、生成對抗網絡(GAN, Generative Adversarial Networks) [8]、圖卷積網絡 (GCN, Graph Convolutional Networks) [9]與遠程監督方法的事件抽取模型被提出.
近年來,深度學習技術已廣泛用于復雜結構的建模,并驗證了對許多 NLP 任務都有效,例如機器翻譯[10]、關系抽取[11]和情感分析[12]等.雙向長期短期記憶(Bi-LSTM, Bi-directional Long Short-TermMemory)模型[13]是一種雙向 RNN,可以捕獲前后上下文中每個單詞的信息,同時利用其信息對單詞表示進行建模.CNN是另一種有效的模型,可以提取事件語義表示同時捕獲其結構特征. 事件抽取在應用需求的推動下展開,由人工標注數據的依賴程度可以將目前基于深度學習的事件抽取方法主要分為兩類:有監督和遠程監督學習方法.有監督學習在訓練過程中使用人工標注的數據集,而遠程監督的學習方法通過對齊遠程知識庫自動對語料進行標注來獲取帶標記語料數據,具體比較情況如表2 所示.
在有監督中運用深度學習方法進行事件抽取,已經成為這幾年事件抽取的熱門研究方向.表3 整理了深度學習框架下有監督事件抽取的經典模型.其中,模型主要是改進 CNN、RNN 輸入特征或網絡結構,比如添加不同特征、結合多種注意力機制和引入依存樹等挖掘更深層次事件語義信息來提升其性能.下面對相關模型進行深入研究和分析.
**2.2 基于遠程監督的事件抽取 **
遠程監督(DS, Distant Supervision)可以為事件抽取自動生成大規模標注數據[54]. 為了解決數據標注問題,Chen 等人[55]利用遠程監督方法結合 Freebase [56]構建了一個基于維基百科的事件數據集.他們通過 Freebase 找出事件關鍵論元,自動檢測事件和觸發詞,利用 FrameNet [57]過濾噪聲.實驗結果表明,該模型能夠學到合理權重來緩解遠程監督中噪聲問題,同時還充分挖掘有用信息.而Zeng 等人[58]則從維基百科和 Freebase 中自動生成訓練事件抽取的數據,將事件抽取訓練實例從數千個擴展到數十萬個.該模型集成了遠程監督的知識庫,自動從未標記文本中標注事件數據,并開發了一個基于 Bi-LSTM和CRF 的聯合神經網絡模型.實驗結果證明,該模型可以與已有的數據相結合自動抽取事件,還可以進行多類型的事件檢測.Keith等人[59]利用 2016 年全年收集的警察死亡語料庫,提出了一個基于特征邏輯回歸和卷積神經網絡分類器的遠程監督模型.通過實驗結果可以看出,該模型與現有的抽取模型的 F1 值相比有所提高,說明其方法可以更好地進行事件抽取,但是仍存在人工標注導致的錯誤傳播的問題.Rao 等人[60]提出了一種抽象意義表示(AMR)的方法識別生物醫學文本分子事件.他們對事件結構的 AMR 子圖進行假設驗證,在給定 AMR 的情況下利用遠程監督神經網絡模型,識別事件子圖.通過對其在 BioNLP 共享任務的 GENIA 事件抽取子任務[61]上實驗表明,僅以蛋白質為論元的簡單事件下 F1 值達到了 94.74%,而復雜事件下降到了 74.18%,這是由于AMR 存在錯誤解析導致的.
**2.3 對事件抽取中深度學習方法的探索 **
FrameNet(簡稱 FN)中的幀由一個詞法單元和一組幀元素組成,分別扮演與ACE 事件觸發詞和論元相似的角色,緩解了 ACE 數據集事件類型稀疏的問題.Liu 等人[62]提出了一種基于概率軟邏輯的全局推理方法檢測FN事件.他們還構建了 Event-FN 數據集,緩解了數據稀疏的問題.通過實驗證明,該方法可以實現相關事件類型之間的信息共享.Wadden 等人[63]把全局上下文合并到 IE 框架中,提出了一種基于上下文的跨實體、關系和事件抽取框架(DYGIE++).該方法在 ACE 2005 數據集上,事件觸發檢測和論元角色分類的F1 值分別為76.5%和52.5%.他們對其他數據集也進行了驗證,都優于對比的模型.
Yang 等人[64]對事件、實體及篇章內不同事件的依賴關系進行建模,提出了一種完全端到端學習的模型.實驗結果表明,該模型在事件類型分類和論元識別的任務中 F1 值都提高了 1.0%.Han 等人[65]利用端到端的方法, 提出了一種基于共享表示與結構化預測的聯合事件和時間關系抽取模型.他們運用兩階段學習方法,首先允許事件和關系模塊共享相同的上下文嵌入與神經表示,其次利用結構化的推理和學習方法共同分配事件和事件關系標簽,避免了常規管道系統中錯誤傳播的問題.對其進行實驗的 F1 值分別提高了10%和6.8%,說明該模型對于端到端事件和時間關系抽取是有效的. 在事件抽取的過程中,總是有數據不平衡的問題出現,而且訓練數據稀少也會影響模型的訓練效果.針對這些問題, Zhang 等人[66]提出了一種基于遷移學習的神經網絡框架(JointTransition),采用從左到右的遞增閱讀順序捕獲實體和事件提及的依賴結構.在 ACE 2005 數據集上的實驗表明,事件觸發詞分類的任務中F1值達到了73.8%,證明了該方法的有效性.Lu 等人[67]提出了一種基于蒸餾學習和知識泛化的△表示學習方法.實驗結果表明,在 ACE 2005 數據集上 F1 值提高了 0.7%,在 TAC-KBP 2017 數據集上 F1 值提高了1.53%.Deng 等人[68]提出了一種基于動態內存的原型網絡(DMB-PN),包括了事件觸發詞識別和 few-shot 事件分類兩個階段.他們還定義“few-shot 事件檢測”新問題,也創建了新的數據集 FewEvent.實驗結果表明,DMB-PN 不僅比其他基準模型更好地處理數據稀缺的問題,而且在事件類型多樣和數據極少的情況下模型的性能較好.Deng 等人[69]在2021年提出了一種基于本體嵌入的 ED 模型(OntoED),同時構建了一個新的數據集 OntoEvent.實驗結果表明,在事件角色識別和事件類型分類的任務中 F1 值比 JMEE 模型分別提高了 15.32%和 6.85%,證明了其方法魯棒性較好. 另外,一些工作還通過結合預訓練模型提高事件抽取的性能.Yang 等人[70]針對手工創建的數據費力且數量有限的問題,提出了一種基于語言生成預訓練的事件抽取模型(PLMEE).他們為了解決訓練數據不足的問題,采用原型網絡自動生成標注數據.在 ACE 2005 數據集上的實驗表明,事件類型分類和論元分類的任務中F1值分別為81.1%和58.9%.2020年,Du等人[71]則針對錯誤傳播的問題,提出了一種基于問答任務的事件抽取模型.他們在預訓練 BERT 的基礎上將事件抽取轉換為問答任務,并以此為模型在事件觸發詞識別和論元分類任務上的F1 值分別提高了 0.39%和 0.81%。
Gangal 等人[72]針對 RAMS 數據集在事件論元抽取中準確率存在較大差距的問題,提出了一種基于預訓練BERT 的事件論元抽取方法(BERTering RAMS).實驗結果表明,該方法具有較好的跨句準確性.Zhang等人[73]為了減少候選論元數量的問題,提出了一種兩步隱式事件論元檢測方法,將問題分解為兩個子問題:論元頭詞檢測和頭跨度擴展,其中編碼模塊采用了預訓練 BERT 進行上下文編碼.在 RAMS 數據集上的實驗結果表明,該模型獲比其他對比模型的性能更好. 在生物醫學上識別觸發詞相關聯的嵌套結構化事件時準確率不高,Huang 等人[74]提出了一種基于層次知識圖的生物醫學事件抽取方法(GEANet-SciBERT).該方法在預訓練語言模型 SciBERT [93]的基礎上,加入了一種新的圖神經網絡模型 GEANet 作為補充.在 BioNLP 2011 GENIA 事件抽取任務中,該方法在所有事件和復雜事件上 F1 值分別提高 1.41%和 3.19% .
中文事件抽取不僅存在比英文更加嚴重的數據稀缺問題,而且也存在方法層面和語言特性層面的問題. 中文語言詞語間還沒有顯式間隔,在進行分詞時會出現比英文更加明的錯誤和誤差.中文語言的復雜性和靈活性讓相同語義的詞語、短語和句子有更多表達方式,即同一類型事件觸發詞可以使用更多詞語表達. 根據現有的中文事件抽取相關研究,從文本粒度方面可以將其分為兩類:句子級事件抽取和篇章級事件抽取.其中,句子級事件抽取主要是利用句子內部獲取特征,即識別句子的中文觸發詞,并判斷實體在事件中所扮演的角色.而篇章級事件抽取主要包含了跨句、跨文檔抽取的特征信息.
事件抽取中常用的數據集主要包括 ACE 2005、TAC-KBP、BioNLP-ST、GENIA、MLEE 和CEC[86],其中ACE 2005 是應用最廣泛的數據集. ACE 數據集是語言數據聯盟(LDC, Linguistic Data Consortium)發布的,由實體、關系和事件注釋組成的各種類型的數據[2].ACE 2005事件數據集定義了 8 個事件類型和 33個子類型,每個事件子類型對應一組論元角色, 是來自媒體、廣播新聞等不同方面的英文、中文和阿拉伯語事件.表 5 描述了相關的事件類型和其子類型.
TAC-KBP 數據集已在 2015 年 TAC 會議事件檢測評估中發布[5].TAC-KBP 中的事件類型和子類型是根據ACE 語料庫定義的,包括 9 個事件類型和 38 個子類型.TAC-KBP 2015 為英文語料庫,但TAC-KBP2016為所有任務添加了中文和西班牙語數據. 生物醫學領域的事件抽取數據集,常見的是 BioNLP-ST、GENIA、MLEE 和PC 等.BioNLP-ST是從生物醫學領域科學文獻的生物分子事件抽取中獲得的,包括 GE、CG、PC、GRO、GRN 和BB [87]等任務.GENIA事件數據集是為 GENIA 項目編寫并標注的生物醫學文獻集合事件.而 MLEE 數據集是分子到器官系統的多個生物組織水平的事件.PC 數據集則是與生物分子途徑模型有關的反應事件. 除了上述常見的數據集外,還有一些其他領域的數據集,如中文突發事件語料庫CEC(Chinese EmergencyCorpus) [86]是由上海大學語義智能實驗室所構建,選取了地震、火災、交通事故、恐怖襲擊和食物中毒這5類突發事件的新聞報道進行標注,合計有 332 篇.與 ACE 數據集相比,CEC 較小,但它在事件和事件論元的注釋方面更全面.TERQAS研討會建立了一個名為 TimeBANK數據集,主要用于突發新聞事件抽取[88].還有軍事情報領域的 MUC 數據集[89]、丁效等人的音樂領域事件抽取數據集[90] ,以及楊航的中文金融事件抽取數據集[92].
2.6 模型性能及評價
事件抽取常采用準確率(P , Precision)、 召回率(R , Recall) 和 F1 值(F1, F1-Measure)這3項作為基本評價指標.其中,P 是指系統中抽取出的正確個數占抽取出總數的比例,用來衡量抽取準確程度;R是指系統中正確抽取的個數占所有正確總數的比例,用來衡量抽取全面程度;F1 值是P 和R 的加權平均值,作為系統性能的總體評價.
3 事件抽取面臨的挑戰及研究趨勢
事件抽取作為信息抽取中的重要任務之一,能夠檢測句子提到的某些事件,也可以對事件類型進行分類與識別事件論元.它為知識圖譜、推薦系統、信息檢索等任務提供基礎的數據支持,同時,事件抽取在語義分析、篇章理解、自動問答等領域也具有重要意義.然而,人工智能的發展對事件抽取的準確性提出了更高的要求,深度學習雖已成為事件抽取的關鍵技術,但在領域自適應性和召回率方面仍有很大的提升空間.
(1)結合深度學習技術進展的事件抽取研究. 事件抽取是在事件觸發和論元識別的基礎上發展起來的.它在某種程度上取決于事件類型、觸發詞識別和論元檢測的效果,但是這些基礎技術準確率不高.在深度學習技術被大規模使用后,事件抽取的效果得到了很大的提升.2015 年至今,該領域的研究熱點集中于CNN、RNN、GAN、GCN 以及 Attention 機制、少樣本學習、預訓練技術等方法的研究,還有聯合多種網絡來進行事件抽取. 在事件抽取中,如何更有效地結合最新的深度學習技術進行抽取的研究是未來的一個重要趨勢.
**(2)段落級和篇章級事件抽取的研究. **近幾年的事件抽取工作主要聚集在利用深度學習方法進行句子級事件抽取,而實際應用時同一事件經常出現在不同句子中,這時需要通過整個篇章確定事件的具體情況.同時, 還存在抽取的事件信息不完整的問題,在日常應用中,我們經常要了解事件發生的全過程.現有基于深度學習的跨句子級事件抽取模型性能較差,但是段落甚至篇章級的事件抽取要求深度模型具有更復雜的推理能力、更高的準確率以及更好的靈活性,未來利用深度學習技術融合多個句子進行段落和篇章級事件抽取是一個重要的研究方向.
(3)面向特定領域事件抽取系統的設計與研究. 基于特征或傳統機器學習的事件抽取方法,已經覆蓋了多數可能的輸入和特征,而基于深度學習的模型往往依賴網絡的復雜程度帶來對隱含事件信息挖掘性能的提升. 面向特定領域事件抽取系統的領域與深度學習技術更好的融合,進行可擴展性與可移植性的進一步提升是將來的關鍵研究內容.
(4)跨語言、跨領域的事件抽取的研究. 目前,事件抽取的水平還限制在對獨立語言、單一領域的事件文本處理上,跨語言、跨領域的研究尚處于探索階段.例如,在中文事件抽取的相關研究主要集中在生物醫學、微博、新聞、緊急情況等方面,其他領域和跨語言事件抽取技術的研究很少.隨著深度學習技術的進一步完善,跨語言、跨領域的事件抽取必將成為研究熱點.
(5)事件抽取中的深度遷移學習的研究. 在事件抽取中,由于觸發詞特征和數據集注釋的不同,可能無法在其他文本上很好地進行研究.盡管有一些遷移學習技術已應用在事件抽取的研究中,但涉及比較少.針對深度遷移學習技術的進一步研究,有利于我們開發一個健壯的識別器來識別不同領域的事件類型,探索事件抽取任務中的少樣本、零樣本學習,解決領域不匹配和跨域不匹配的問題.
(6)基于遠程監督的事件抽取的深入研究. 為了緩解遠程監督中經常會出現的錯誤標簽問題,研究者們分別結合多示例學習、注意力機制、噪聲建模等方法提出了多種模型,但如何建立更有效的方法緩解遠程監督中錯誤標簽的影響仍是事件抽取中研究的重點問題.
**4 結論及展望 **
在本文中,對深度學習中事件抽取技術進行了全面最新的概述.事件抽取發展至今,在研究內容上逐漸由單一領域向多領域、跨領域發展,事件類型的定義方式表示為由人工預先定義轉變為事件類型自動發現、挖掘;在研究方法上,深度學習的方法在事件抽取任務的性能上表現良好,基于深度學習的框架日益成為主流,在此基礎上結合遠程監督、強化學習、少樣本學習和零資源學習的思想等可以為事件抽取性能的提升提供新思路. 特別是,中文事件抽取的任務復雜,將深度學習的方法應用在其中,是今后需要努力的一個方向.
摘要 知識圖譜以語義網絡的形式將客觀世界中概念、實體及其之間的關系進行結構化描述,提高了人類從數據中抽取信息、從信息中提煉知識的能力。該文形式化地描述了知識圖譜的基本概念,提出了知識圖譜的層次化體系架構,詳細分析了信息抽取、知識融合、知識架構、知識管理等核心層次的技術發展現狀,系統梳理了知識圖譜在軍事領域的應用,并對知識圖譜未來發展的挑戰和趨勢進行了總結展望。
機器學習的巨大成功導致了AI應用的新浪潮(例如,交通、安全、醫療、金融、國防),這些應用提供了巨大的好處,但無法向人類用戶解釋它們的決定和行動。DARPA的可解釋人工智能(XAI)項目致力于創建人工智能系統,其學習的模型和決策可以被最終用戶理解并適當信任。實現這一目標需要學習更多可解釋的模型、設計有效的解釋界面和理解有效解釋的心理要求的方法。XAI開發團隊正在通過創建ML技術和開發原理、策略和人機交互技術來解決前兩個挑戰,以生成有效的解釋。XAI的另一個團隊正在通過總結、擴展和應用心理解釋理論來解決第三個挑戰,以幫助XAI評估人員定義一個合適的評估框架,開發團隊將使用這個框架來測試他們的系統。XAI團隊于2018年5月完成了第一個為期4年的項目。在一系列正在進行的評估中,開發人員團隊正在評估他們的XAM系統的解釋在多大程度上改善了用戶理解、用戶信任和用戶任務性能。
【導讀】可解釋人工智能(Explainable Artificial Intelligence)旨在于具備可為人類所理解的功能或運作機制,具備透明度, 是當前AI研究的熱點,是構建和諧人機協作世界必要的條件,是構建負責任人工智能的基礎。最近來自法國西班牙等8家機構12位學者共同發表了關于可解釋人工智能XAI最新進展的綜述論文《Explainable Artificial Intelligence (XAI): Concepts, Taxonomies, Opportunities and Challenges toward Responsible AI》,共67頁pdf調研了402篇文獻,講解了最新可解釋人工智能的進展,集大成者,梳理了XAI的體系,并提出構建負責任人工智能的內涵,非常具有指引性。
在過去的幾年里,人工智能(AI)取得了顯著的發展勢頭,在不同領域的許多應用中它可能會帶來最好的預期。當這種情況發生時,整個社區都面臨可解釋性的障礙,這是人工智能技術的一個內在問題,它是由次象征主義(模型例如集成算法或深層神經網絡)帶來的,而這些在人工智能的最上一次高潮中是不存在的。這個問題背后的范例屬于所謂的可解釋AI (XAI)領域,它被認為是AI模型實際部署的一個關鍵特性。本文綜述了XAI領域的現有文獻,并對未來的研究方向進行了展望。我們總結了在機器學習中定義可解釋性的前期工作,建立了一個新的定義,它涵蓋了先前的概念命題,主要關注可解釋性所關心的受眾。然后,我們提出并討論了與不同機器學習模型的可解釋性相關的最近貢獻的分類,包括那些旨在建立第二種體系的深度學習方法。這篇文獻分析為XAI面臨的一系列挑戰提供了背景,比如數據融合和可解釋性之間的十字路口。我們構建了負責任的人工智能的概念,即一種以公平、模型可解釋性和問責性為核心的在真實組織中大規模實施人工智能方法的方法。最終目標是為XAI的新來者提供參考資料,以促進未來的研究進展,同時也鼓勵其他學科的專家和專業人員在他們的活動領域擁抱AI的好處,而不是因為它缺乏可解釋性而事先有任何偏見。
關鍵詞: 可解釋人工智能,機器學習,深度學習,數據融合,可解釋性,可理解性,透明性,隱私,公平性,可問責性,負責任的人工智能。
目錄
1. 引言
人工智能(AI)是許多采用新信息技術的活動領域的核心。人工智能的起源可以追溯到幾十年前,人們對于智能機器具有學習、推理和適應能力的重要性有著明確的共識。正是憑借這些能力,人工智能方法在學習解決日益復雜的計算任務時達到了前所未有的性能水平,這對人類社會[2]的未來發展至關重要。近來,人工智能系統的復雜程度已經提高到幾乎不需要人為干預來設計和部署它們。當來自這些系統的決策最終影響到人類的生活(例如,醫學、法律或國防)時,就有必要了解這些決策是如何由人工智能方法[3]提供的。
最早的人工智能系統是很容易解釋的,過去的幾年見證了不透明的決策系統的興起,比如深度神經網絡(DNNs)。深度學習(DL)模型(如DNNs)的經驗成功源于高效的學習算法及其巨大的參數空間的結合。后一個空間由數百層和數百萬個參數組成,這使得DNNs被認為是復雜的黑盒模型[4]。black-box-ness的反義詞是透明性,即以尋求對模型工作機理的直接理解。
隨著黑箱機器學習(ML)模型越來越多地被用于在關鍵環境中進行重要的預測,人工智能[6]的各個利益相關者對透明度的要求也越來越高。危險在于做出和使用的決策不合理、不合法,或者不允許對其行為進行詳細的解釋。支持模型輸出的解釋是至關重要的,例如,在精準醫療中,為了支持診斷[8],專家需要從模型中獲得遠比簡單的二進制預測多得多的信息。其他例子包括交通、安全、金融等領域的自動駕駛汽車。
一般來說,考慮到對合乎道德的人工智能[3]日益增長的需求,人類不愿采用不能直接解釋、處理和信任的[9]技術。習慣上認為,如果只關注性能,系統將變得越來越不透明。從模型的性能和它的透明性[10]之間的權衡來看,這是正確的。然而,對一個系統理解的提高可以導致對其缺陷的修正。在開發ML模型時,將可解釋性考慮為額外的設計驅動程序可以提高其可實現性,原因有三:
可解釋性有助于確保決策的公正性,即檢測并糾正訓練數據集中的偏差。
可解釋性通過強調可能改變預測的潛在對抗性擾動,促進了穩健性的提供。
可解釋性可以作為一種保證,即只有有意義的變量才能推斷出輸出,即,以確保模型推理中存在真實的因果關系。
這意味著,為了考慮實際,系統的解釋應該要么提供對模型機制和預測的理解,要么提供模型識別規則的可視化,要么提供可能擾亂模型[11]的提示。
為了避免限制當前一代人工智能系統的有效性,可解釋人工智能(XAI)[7]建議創建一套ML技術,1) 產生更多可解釋的模型,同時保持高水平的學習性能(如預測準確性),2) 使人類能夠理解、適當信任和有效管理新一代人工智能伙伴。XAI還借鑒了社會科學的[12],并考慮了解釋心理學。
圖1: 過去幾年中,標題、摘要和/或關鍵詞涉及XAI領域的出版物總數的變化。通過提交圖中所示的查詢從Scopus R數據庫檢索到的數據(2019年10月14日)。值得注意的是,隨著時間的推移,對可解釋的AI模型的潛在需求(這符合直覺,因為在許多場景中,可解釋性是一種要求),但直到2017年,解釋AI模型的技術興趣才滲透到整個研究領域。
這篇綜述的其余部分的結構如下:首先,第2節和其中的子節圍繞AI中的可解釋性和可解釋性展開了關于術語和概念的討論,最后得出前面提到的可解釋性的新定義(第2.1和2.2小節),以及從XAI的角度對ML模型進行分類和分析的一般標準。第3節和第4節回顧了ML模型(分別是透明模型和事后技術)的XAI的最新發現,它們構成了上述分類中的主要部分。同時,我們也回顧了這兩種方法的混合,以達到XAI。在第5節中討論了各種方法之間的協同作用的好處和注意事項,在這里,我們提出了對一般挑戰的展望和需要謹慎對待的一些后果。最后,第6節闡述了負責任的人工智能的概念。第7節總結了調查,目的是讓社區參與到這一充滿活力的研究領域中來,這一領域有可能影響社會,特別是那些逐漸將ML作為其活動核心技術的部門。
2. 可解釋性: 是什么,為什么,怎么做?
在繼續我們的文獻研究之前,我們可以先建立一個共同的觀點來理解在AI的可解釋性這個術語,更具體地說是ML中的含義。這確實是本節的目的,即暫停對這個概念的大量定義(什么?),討論為什么可解釋性在AI和ML中是一個重要的問題(為什么?目的何在?),并介紹XAI方法的一般分類,這將推動此后的文獻研究(如何?)。
2.1 術語說明
阻礙建立共同基礎的問題之一是interpretability 和explainability 在文獻中的互換誤用。這些概念之間存在著顯著的差異。首先,interpretability 是指一個模型的被動特性,指的是一個給定的模型對人類觀察者有意義的程度。這個特性也表示為透明性。相比之下,explainability 可以被看作是模型的主動特征,表示模型為了闡明或詳述其內部功能而采取的任何動作或過程。
為了總結最常用的命名法,在本節中,我們將闡明在倫理AI和XAI社區中常用的術語之間的區別和相似性。
Understandability(或等同地,intelligibility)指的是一個模型的特征,使人理解其功能——模型如何工作——而不需要解釋其內部結構或模型內部處理數據[18]的算法方法。
Comprehensibility: 在ML模型中,可理解性是指學習算法以人類可理解的方式表示其已學知識的能力[19,20,21]。這種模型可理解性的概念源于Michalski[22]的假設,即“計算機歸納的結果應該是對給定實體的符號描述,在語義和結構上類似于人類專家可能產生的觀察相同實體的結果。”這些描述的組成部分應作為單一的‘信息塊’可理解,可直接用自然語言解釋,并應以綜合方式將定量和定性概念聯系起來”。由于難以量化,可理解性通常與模型復雜度[17]的評估聯系在一起。
Interpretability可解釋性是指以可理解的語言向人類解釋或提供意義的能力。
Explainability可解釋性與作為人類和決策者之間的接口的解釋概念相關,同時,這也是決策者的準確代理,也是人類可以理解的[17]。
Transparency 透明度:如果一個模型本身是可以理解的,那么它就被認為是透明的。由于模型具有不同程度的可理解性,因此第3節中的透明模型分為三類: 可模擬模型、可分解模型和算法透明模型[5]。
2.2 什么?
雖然這可能被認為超出了本文的范圍,但值得注意的是在哲學領域[23]中圍繞一般解釋理論展開的討論。在這方面已經提出了許多建議,建議需要一種普遍的、統一的理論來近似解釋的結構和意圖。然而,在提出這樣一個普遍的理論時,沒有人經得起批評。就目前而言,最一致的想法是將不同的解釋方法從不同的知識學科中融合在一起。在處理人工智能的可解釋性時也發現了類似的問題。從文獻中似乎還沒有一個共同的觀點來理解什么是可解釋性或可解釋性。然而,許多貢獻聲稱是可解釋(interpretable)模型和技術的成就增強了可解釋性(explainability).
為了闡明這種缺乏共識的情況,我們不妨以D. Gunning在[7]中給出的可解釋人工智能(XAI)的定義作為參考起點:
“XAI將創造一套機器學習技術,使人類用戶能夠理解、適當信任并有效管理新一代人工智能合作伙伴。
這個定義結合了兩個需要提前處理的概念(理解和信任)。然而,它忽略了其他目的,如因果關系、可轉移性、信息性、公平性和信心等,從而激發了對可解釋AI模型的需求[5,24,25,26]。
進一步修正,我們給出explainable AI的定義:
給定一個受眾,一個可解釋的人工智能是一個產生細節或理由使其功能清晰或容易理解的人工智能。
這個定義在這里作為當前概述的第一個貢獻,隱含地假設XAI技術針對當前模型的易用性和清晰性在不同的應用目的上有所恢復,比如更好地讓用戶信任模型的輸出。
2.3 為什么?
如引言所述,可解釋性是人工智能在實際應用中面臨的主要障礙之一。無法解釋或完全理解最先進的ML算法表現得如此出色的原因是一個問題,它的根源有兩個不同的原因,如圖2所示。
圖2: 圖中顯示了在ML模型中由不同的用戶配置文件尋找的可解釋性的不同目的。它們有兩個目標:模型理解的需要和法規遵從性。
2.4 什么目標?
到目前為止,圍繞XAI的研究已經揭示出了不同的目標,以便從一個可解釋的模型的實現中得出結論。幾乎沒有一篇被調研的論文在描述一個可解釋的模型所要求的目標上是完全一致的。盡管如此,所有這些不同的目標都可能有助于區分特定的ML可解釋性的目的。不幸的是,很少有人試圖從概念的角度來界定這些目標[5、13、24、30]。我們現在綜合并列舉這些XAI目標的定義,以便為這篇綜述涵蓋的所有論文確定第一個分類標準:
圖3. 可解釋AI不同的度量維度
可信賴性Trustworthiness:一些作者同意將可信賴性作為可解釋AI模型的主要目標[31,32]。然而,根據模型誘導信任的能力將模型聲明為可解釋的可能并不完全符合模型可解釋性的要求。可信度可以被認為是一個模型在面對給定問題時是否會按預期行事的信心。雖然它肯定是任何可解釋模型的一個屬性,但它并不意味著每一個值得信任的模型都可以被認為是可解釋的,可信度也不是一個容易量化的屬性。信任可能遠遠不是可解釋模型的唯一目的,因為兩者之間的關系,如果達成一致,并不是相互的。在綜述的論文中,有一部分提到了信任的概念。但是,如表1所示,它們在最近與XAI相關的貢獻中所占的份額并不大。
因果關系Causality:可解釋性的另一個常見目標是發現數據變量之間的因果關系。一些作者認為,可解釋的模型可能簡化了尋找關系的任務,如果它們發生,可以進一步測試所涉及的變量之間更強的因果關系[159,160]。從觀測數據推斷因果關系是一個隨著時間的推移已經被廣泛研究的領域[161]。正如從事這一主題的社區所廣泛承認的那樣,因果關系需要一個廣泛的先驗知識框架來證明所觀察到的影響是因果關系。ML模型只發現它所學習的數據之間的相關性,因此可能不足以揭示因果關系。然而,因果關系涉及到相關性,所以一個可解釋的ML模型可以驗證因果推理技術提供的結果,或者在現有數據中提供可能的因果關系的第一直覺。同樣,表1顯示,如果我們關注那些將因果關系明確表述為目標的論文數量,因果關系就不是最重要的目標之一。
可轉移性Transferability: 模型總是受到一些約束,這些約束應該考慮到模型的無縫可轉移性。這就是為什么在處理ML問題時使用訓練-測試方法的主要原因[162,163]。可解釋性也是可轉移性的倡導者,因為它可以簡化闡明可能影響模型的邊界的任務,從而更好地理解和實現。類似地,僅僅理解模型中發生的內部關系有助于用戶在另一個問題中重用這些知識。在某些情況下,缺乏對模型的正確理解可能會將用戶推向錯誤的假設和致命的后果[44,164]。可轉移性也應該落在可解釋模型的結果屬性之間,但同樣,不是每個可轉讓性模型都應該被認為是可解釋的。正如在表1中所觀察到的,大量的論文指出,將一個模型描述為可解釋的是為了更好地理解復用它或提高它的性能所需要的概念,這是追求模型可解釋性的第二個最常用的理由。
信息性Informativeness: ML模型的最終目的是支持決策[92]。然而,不應該忘記的是,模型所解決的問題并不等于它的人類對手所面臨的問題。因此,為了能夠將用戶的決策與模型給出的解決方案聯系起來,并避免陷入誤解的陷阱,需要大量的信息。為此,可解釋的ML模型應該提供有關正在處理的問題的信息。在文獻綜述中發現的主要原因是為了提取模型內部關系的信息。幾乎所有的規則提取技術都證實了它們在尋找模型內部功能的更簡單理解方面的方法,說明知識(信息)可以用這些更簡單的代理來表示,它們認為這些代理可以解釋先行詞。這是在綜述的論文中發現的最常用的論點,用來支持他們所期望的可解釋模型。
置信度Confidence: 作為穩健性和穩定性的概括,置信度的評估應該始終基于一個預期可靠性的模型。在控制下保持信心的方法因模型的不同而不同。正如在[165,166,167]中所述,當從某個模型中提取解釋時,穩定性是必須具備的。可靠的解釋不應該由不穩定的模型產生。因此,一個可解釋的模型應該包含關于其工作機制可信度的信息。
公平性Fairness:從社會的角度來看,在ML模型中,可解釋性可以被認為是達到和保證公平性的能力。在一個特定的文獻鏈中,一個可解釋的ML模型建議對影響結果的關系進行清晰的可視化,允許對手頭的模型進行公平或倫理分析[3,100]。同樣,XAI的一個相關目標是強調模型所暴露的數據中的偏差[168,169]。在涉及人類生活的領域,對算法和模型的支持正在迅速增長,因此,可解釋性應被視為避免不公平或不道德地使用算法輸出的橋梁。
Accessibility可訪問性: 評審貢獻的認為可解釋性是允許最終用戶更多地參與改進和開發某個ML模型的過程的屬性[37,86]。顯然,可解釋的模型將減輕非技術或非專業用戶在處理乍一看似乎不可理解的算法時的負擔。這一概念在被調查的文獻中被認為是第三個最重要的目標。
交互性Interactivity: 一些貢獻[50,59]包括模型與用戶交互的能力,這是可解釋的ML模型的目標之一。同樣,這個目標與最終用戶非常重要的領域相關,他們調整模型并與之交互的能力是確保成功的關鍵。
隱私意識Privacy awareness: 在回顧的文獻中,幾乎被遺忘的是,ML模型中可解釋性的副產品之一是它評估隱私的能力。ML模型可能具有其所學習模式的復雜表示。無法理解模型[4]捕獲并存儲在其內部表示中的內容可能會導致隱私被破壞。相反,由未經授權的第三方解釋訓練過的模型的內部關系的能力也可能會損害數據來源的差異隱私。由于其在XAI預計將發揮關鍵作用的行業中的重要性,機密性和隱私問題將分別在第5.4和6.3小節中進一步討論。
本小節回顧了所調研論文的廣泛范圍內所涉及的目標。所有這些目標都清楚地隱藏在本節前面介紹的可解釋性概念的表面之下。為了總結之前對可解釋性概念的分析,最后一小節討論了社區為解決ML模型中的可解釋性所采取的不同策略。
2.5 怎么樣?
文獻明確區分了可以通過設計解釋的模型和可以通過外部XAI技術解釋的模型。這種雙重性也可以看作是可解釋模型與模型可解釋技術的區別;更廣泛接受的分類是透明模型和事后可解釋性。同樣的對偶性也出現在[17]的論文中,作者所做的區分是指解決透明盒設計問題的方法,而不是解釋黑盒子問題的方法。這項工作進一步擴展了透明模型之間的區別,包括考慮的不同透明度級別。
在透明性中,考慮了三個層次: 算法透明性、可分解性和可模擬性。在后設技術中,我們可以區分文本解釋、可視化、局部解釋、實例解釋、簡化解釋和特征關聯。在這種情況下,[24] 提出了一個更廣泛的區別: 1)區分不透明的系統,其中從輸入到輸出的映射對用戶來說是不可見的; 2)可解釋系統,用戶可以對映射進行數學分析; 3)可理解的系統,在這個系統中,模型應該輸出符號或規則以及它們的特定輸出,以幫助理解映射背后的基本原理。最后一個分類標準可以被認為包含在前面提出的分類標準中,因此本文將嘗試遵循更具體的分類標準。
圖4. 概念圖舉例透明度的不同層次描述M?毫升模型,與?表示模型的參數集的手:(一)可模擬性;(b)可分解性;(c)算法的透明度。
圖5. 概念圖顯示了不同的因果explainability方法可供M?毫升模型
3. 透明機器學習模型
前一節介紹了透明模型的概念。如果一個模型本身是可以理解的,那么它就被認為是透明的。本節調查的模型是一套透明模型,它可以屬于前面描述的模型透明性的一個或所有級別(即可模擬性、可分解性和算法透明性)。在接下來的部分中,我們提供了該語句的理由,并提供了圖6與圖7中所示支持。
圖6:ML模型可解釋性分類的總體情況
圖7: 本綜述中所考慮的不同ML模型的透明度水平的圖形說明:(a)線性回歸;(b)決策樹;(c)再鄰居;(d)基于規則的學習者;(e)廣義可加模型;(f)貝葉斯模型。
4. 機器學習模型的后解釋技術:分類法、淺層模型和深度學習
當ML模型不滿足宣布它們透明的任何標準時,必須設計一個單獨的方法并應用于模型來解釋它的決策。這就是事后可解釋性技術(也稱為建模后可解釋性)的目的,它的目的是交流關于已經開發的模型如何對任何給定輸入產生預測的可理解信息。在本節中,我們將對不同的算法方法進行分類和回顧,這些算法方法用于事后可解釋性,區別于1) 那些為應用于任何類型的ML模型而設計的算法方法; 2) 那些是為特定的ML模型設計的,因此,不能直接推斷到任何其他學習者。現在,我們詳細闡述了不同ML模型的事后可解釋性方面的趨勢,這些趨勢在圖8中以分層目錄的形式進行了說明,并在下面進行了總結:
用于事后解釋的模型無關技術(4.1小節),可以無縫地應用于任何ML模型,而不考慮其內部處理或內部表示。
專為解釋某些ML模型而定制或專門設計的事后解釋能力。我們將我們的文獻分析分為兩個主要的分支:淺層ML模型的事后可解釋性的貢獻,這些貢獻統稱為所有不依賴于神經處理單元的分層結構的ML模型(第4.2小節);以及為深度學習模型設計的技術,這些技術相應地表示神經網絡家族和相關變體,如卷積神經網絡、遞歸神經網絡(4.3小節)和包含深度神經網絡和透明模型的混合方案。對于每一個模型,我們都對研究界提出的最新的事后方法進行了徹底的審查,并確定了這些貢獻所遵循的趨勢。
我們以4.4小節結束了我們的文獻分析,在4.4小節中,我們提出了第二種分類法,通過對處理深度學習模型的事后解釋的貢獻進行分類,對圖6中更一般的分類進行了補充。為此,我們將重點關注與這類黑盒ML方法相關的特定方面,并展示它們如何鏈接到第一種分類法中使用的分類標準。
圖8. 綜述文獻的分類和與不同ML模型相關的可解釋性技術的趨勢。用藍色、綠色和紅色框起來的引用分別對應于使用圖像、文本或表格數據的XAI技術。為了建立這種分類法,對文獻進行了深入分析,以區分是否可以將后適應技術無縫地應用于任何ML模型,即使在其標題和/或摘要中明確提到了深度學習。
4.1 用于事后可解釋性的模型不可知技術
用于事后可解釋性的模型無關技術被設計成插入到任何模型,目的是從其預測過程中提取一些信息。有時,使用簡化技術來生成模仿其前身的代理,目的是為了獲得易于處理和降低復雜性的東西。其他時候,意圖集中在直接從模型中提取知識,或者簡單地將它們可視化,以簡化對其行為的解釋。根據第2節中介紹的分類法,與模型無關的技術可能依賴于模型簡化、特征相關性估計和可視化技術。
4.2 淺ML模型的事后解釋能力
Shallow ML覆蓋了多種監督學習模型。在這些模型中,有一些嚴格可解釋的(透明的)方法(如KNN和決策樹,已經在第3節中討論過)。考慮到它們在預測任務中的突出地位和顯著性能,本節將集中討論兩種流行的淺ML模型(樹集成和支持向量機,SVMs),它們需要采用事后可解釋性技術來解釋它們的決策
4.3 深度學習的可解釋性
事后局部解釋和特征相關技術正日益成為解釋DNNs的主要方法。本節回顧了最常用的DL模型,即多層神經網絡、卷積神經網絡(CNN)和遞歸神經網絡(RNN)的可解釋性研究。
圖9: 混合模型的圖示。一個被認為是黑箱的神經網絡可以通過將其與一個更具解釋性的模型相關聯來解釋,如決策樹[298]、一個(模糊的)基于規則的系統[19]或KNN[259]。
圖10:(a) 可選的深度學習特定分類擴展自[13]的分類;(b)它與圖6中的分類法的聯系。
5. XAI:機遇、挑戰和研究需求
現在,我們利用已完成的文獻回顧,對ML和數據融合模型的可解釋性領域的成就、趨勢和挑戰提出了批評。實際上,我們在討論到目前為止在這一領域取得的進展時,已經預見到了其中的一些挑戰。在本節中,我們將重新審視這些問題,并為XAI探索新的研究機會,找出可能的研究路徑,以便在未來幾年有效地解決這些問題:
在可解釋性和性能之間的權衡
可解釋性與性能的問題是一個隨著時間不斷重復的問題,但就像任何其他大命題一樣,它的周圍充滿了神話和誤解。
圖11: 模型可解釋性和性能之間的權衡,以及XAI技術和工具潛力所在的改進領域的表示
6. 走向負責任的人工智能:人工智能、公平、隱私和數據融合的原則
多年來,許多組織,無論是私人的還是公共的,都發布了指導方針,指出人工智能應該如何開發和使用。這些指導方針通常被稱為人工智能原則,它們處理與個人和整個社會潛在的人工智能威脅相關的問題。本節將介紹一些最重要和被廣泛認可的原則,以便將XAI(通常出現在它自己的原則中)與所有這些原則聯系起來。如果在實踐中尋求一個負責任的AI模型的實現和使用,我們公司聲稱XAI本身是不夠的。其他重要的人工智能原則,如隱私和公平,在實踐中必須謹慎處理。在接下來的章節中,我們將詳細闡述負責任人工智能的概念,以及XAI和數據融合在實現其假設原則中的含義。
6.1 人工智能原則 Principles of Artificial Intelligence
使用人工智能系統后的輸出不應導致在種族、宗教、性別、性取向、殘疾、種族、出身或任何其他個人條件方面對個人或集體產生任何形式的歧視。因此,在優化人工智能系統的結果時要考慮的一個基本標準不僅是它們在錯誤優化方面的輸出,而且是系統如何處理這些狀況。這定義了公平AI的原則。
人們應該知道什么時候與人交流,什么時候與人工智能系統交流。人們還應該知道他們的個人信息是否被人工智能系統使用,以及用于什么目的。確保對人工智能系統的決策有一定程度的理解是至關重要的。這可以通過使用XAI技術來實現。重要的是,生成的解釋要考慮將接收這些解釋的用戶的配置文件(根據小節2.2中給出的定義,所謂的受眾),以便調整透明度級別,如[45]中所示。這定義了透明和可解釋AI的原則。
人工智能產品和服務應始終與聯合國的可持續發展目標保持一致[375],并以積極和切實的方式為之做出貢獻。因此,人工智能應該總是為人類和公共利益帶來好處。這定義了以人為中心的人工智能的原則(也稱為社會公益的人工智能[376])。
人工智能系統,尤其是當它們由數據提供信息時,應該在其整個生命周期中始終考慮隱私和安全標準。這一原則并不排斥人工智能系統,因為它與許多其他軟件產品共享。因此,它可以從公司內部已經存在的流程中繼承。這通過設計定義了隱私和安全的原則,這也被認為是負責任的研究和創新范式下智能信息系統面臨的核心倫理和社會挑戰之一(RRI,[377])。RRI指的是一套方法學指南和建議,旨在從實驗室的角度考慮更廣泛的科學研究背景,以應對全球社會挑戰,如可持續性、公眾參與、倫理、科學教育、性別平等、開放獲取和治理。有趣的是,RRI還要求在遵循其原則的項目中確保開放性和透明度,這與前面提到的透明和可解釋的AI原則直接相關。
作者強調,所有這些原則都應該擴展到任何第三方(供應商、顧問、合作伙伴……)
6.2 公平和責任
如前一節所述,除了XAI之外,在過去十年中發布的不同AI原則指導方針中還包括許多關鍵方面。然而,這些方面并不是完全脫離了XAI;事實上,它們是交織在一起的。本節介紹了與人工智能原則指導具有巨大相關性的兩個關鍵組成部分,即公平性和可說明性。這也突出了它們與XAI的聯系。
6.3 隱私與數據融合
如今,幾乎所有領域的活動中都存在著越來越多的信息源,這就要求采用數據融合方法,同時利用這些信息源來解決學習任務。通過合并異構信息,數據融合已被證明可以在許多應用程序中提高ML模型的性能。本節通過數據融合技術的潛力進行推測,以豐富ML模型的可解釋性,并對從中學習ML模型的數據的私密性做出妥協。為此,我們簡要概述了不同的數據融合范式,并從數據隱私的角度進行了分析。我們稍后會講到,盡管XAI與負責任的人工智能相關,但在當前的研究主流中,XAI與數據融合是一個未知的研究領域。
圖12: 顯示可以執行數據融合的不同級別的關系圖:(a)數據級別;(b)模型;(c)知識水平;(d)大數據融合;(e)聯邦學習和(f)多視圖學習。
7. 結論和展望
這篇綜述圍繞著可解釋的人工智能(XAI)展開,它最近被認為是在現實應用中采用ML方法的最大需求。我們的研究首先闡明了模型可解釋性背后的不同概念,并展示了激發人們尋找更多可解釋的ML方法的各種目的。這些概念性的評注已經成為一個堅實的基礎,系統地回顧最近關于可解釋性的文獻,這些文獻從兩個不同的角度進行了探討:1) ML模型具有一定程度的透明性,因此可以在一定程度上自行解釋; 2) 后特設XAI技術的設計,使ML模型更容易解釋。這個文獻分析已經產生了一個由社區報告的不同提案的全球分類,在統一的標準下對它們進行分類。在深入研究深度學習模型可解釋性的貢獻越來越普遍的情況下,我們深入研究了有關這類模型的文獻,提出了一種可選擇的分類方法,可以更緊密地連接深度學習模型可解釋性的具體領域。
我們的討論已經超越了XAI領域目前所取得的成果,轉向了負責任的AI概念,即在實踐中實現AI模型時必須遵循的一系列AI原則,包括公平、透明和隱私。我們還討論了在數據融合的背景下采用XAI技術的含義,揭示了XAI在融合過程中可能會損害受保護數據的隱私。對XAI在公平方面的含義也進行了詳細的討論。
我們對XAI未來的思考,通過在整個論文中進行的討論,一致認為有必要對XAI技術的潛力和警告進行適當的理解。我們的設想是,模型的可解釋性必須與數據隱私、模型保密性、公平性和可靠性相關的需求和約束一起解決。只有聯合研究所有這些人工智能原則,才能保證在全世界的組織和機構中負責任地實施和使用人工智能方法。
參考文獻