知識增強的神經機器推理是一個前沿但具有挑戰性的研究領域,具有廣泛的實際應用。近年來,大量研究利用各種形式的外部知識來增強深度模型的推理能力,以應對有效的知識整合、隱式知識挖掘、可處理性和優化問題等挑戰。然而,缺乏對現有的跨不同應用領域的知識增強推理技術的全面技術綜述。**本文對該領域的最新進展進行了深入研究,提出了一種新的分類法,將現有的知識增強方法分為兩個主要類別和四個子類。**系統地討論了這些方法,并強調了它們的相關性、優勢和局限性。最后,闡述了當前的應用領域,并對未來的研究前景進行了展望。
//www.zhuanzhi.ai/paper/ae0d72adc5ba3100bd3bfbb71e244e2c
引言
**人工智能(AI)一詞誕生于上個世紀,其最終研究目標是制造一個能像人類一樣推理的智能系統,即感知現有證據,綜合與問題相關的信息,并推斷出新的知識來解決看不清的任務。**早期的人工智能研究以手工制作和邏輯規則為主,推理能力較強,但系統的可擴展性和泛化性較差。隨著深度神經網絡的發展,最先進的深度學習模型擅長從大量數據中提取特定任務的預測模式。為了進一步向人工通用智能(AGI)邁進,我們意識到當前的學習系統需要能夠在不同的任務中進行更深入和適應性的思考。具體而言,近年來人工智能研究出現了兩個主要趨勢: 1)超越模式識別,轉向邏輯推理,這與人類的互補學習策略(即思維系統I和II[25])相呼應; 2)從特定任務模型轉向通用智能,這需要利用外部知識13的能力。 **事實上,類人智能確實需要上述兩種趨勢之間的協同作用。為了獲得更強的決策和邏輯推理能力,人類需要理解和嵌入現有證據的邏輯過程。**另一方面,人類在現有知識的幫助下對任意(看不見的)任務做出預測或構建方法也是必不可少的。盡管有上述強烈的動機,但直到最近,由于近年來幾個關鍵領域的進步,在協同深度推理和知識增強方面的努力才出現爆炸式的快速增長。具體來說,快速發展的高性能計算基礎設施能夠構建超大型神經網絡(例如具有1750億個參數的GPT-3[6]),通過存儲在參數中的隱含知識固有地表現出推理能力。此外,最近發展的各種有組織和結構化的知識庫也可以提供豐富的外部信息,包括推理所需的一般知識和特定領域的知識。
**賦予深度模型推理能力具有挑戰性,但外部知識可能會提供一個良好的開端。然而,使用外部知識進行艱難的邏輯推理會使系統變得脆弱,因為它只依賴于演繹。另一方面,歸納推理是傳統深度學習的核心焦點。**因此,為這兩種方法開發一種“協同工作”技術是一個開放的研究問題,它帶來了幾個挑戰,包括但不限于:1)知識集成的困難。顯式知識,尤其是基于規則的知識,很難泛化,因為它可以是手工制作的或非常特定于某個領域。另一方面,規則結構的形成需要不同類型的集成(例如幾何嵌入)。從結構化的外部知識(如知識圖譜)中收集的事實可能是稀疏的,這可能會降低推理性能。此外,每個領域數據都有自己的隱藏特征。因此,外部知識需要具有領域自適應,才能進行適當的整合。在集成過程中,確定外部知識的權重會引發非常特定于任務的問題。由于有效邏輯不足、語義不佳、標記實例不足等原因,外部知識面臨稀缺問題。它也可以用隱藏的錯誤信息加以修飾,阻礙提取知識的過程。此外,廣義的外部知識給系統檢測和全面理解主觀知識和領域知識帶來了挑戰。2)外部知識與深度模型的銜接問題。為了將外部知識和深度模型結合起來,我們必須填補知識規則的離散性和深度模型的連續性之間的空白。這激發了兩個潛在的策略方向:一是使深度模型能夠查詢外部知識。但它會遇到檢索的挑戰。為了減少工作量和計算資源,會出現處理并行性、小批訓練性能差、內存重用等問題。另一種方法是將知識表示為嵌入參數或模型參數。然而,挑戰在于預訓練的參數模型可能會由于用于訓練這些模型的數據而引入偏差。此外,使用更大的模型需要大量的計算機能力。3)可處理性和優化方面的挑戰。深度學習中的邏輯推理涉及常見的方法,如使用規則作為額外的約束。但是使用規則作為約束會導致面向參數模型的非線性和非凸約束問題。另一種常用的方法是使用概率模型。但是采樣規則(例如學習廣義多跳規則集)是所有方法的共同特征。由于現實世界中的所有基本規則都是難以處理的,可處理性問題是每個問題表述的共同困難。此外,開發端到端可微框架是一項非常具有挑戰性的任務,這進一步導致了優化的挑戰。 **最近,大量的研究[34,15,64,73,63]致力于在各種知識來源的幫助下開發推理技術,以解決上述挑戰。**有大量的研究領域可以受益于知識增強的推理技術,從會話式AI開發中的常識推理到構建邏輯編程系統中的神經符號推理。然而,大多數現有的方法都是為特定的應用程序領域量身定制的,但它們的方法可能足夠通用,可以處理其他應用程序中的類似推理問題。此外,為一個實際應用開發的技術可能會使另一個應用的技術發展受益。然而,在服務于完全不同社區的不同應用程序領域之間交叉引用這些技術是具有挑戰性的。到目前為止,我們已經看到了一些研究[22,18,8]討論了特定應用領域的深度推理技術。不幸的是,我們仍然錯過了最新的知識增強深度推理技術的技術概述,這些技術跨越不同的知識來源和廣闊的應用領域。在知識增強的深度推理技術中,缺乏系統的總結和分類,這使得相關研究人員很難對現有的研究挑戰、尚未解決的問題和廣闊的未來研究方向有明確的信息。
為克服這些障礙并促進AGI的發展,本文對這個快速發展的主題——知識增強神經機器推理——的當前工作(2020年以后發表)進行了首次全面概述。本調查的主要貢獻總結如下:
對現有知識的第一個系統分類增強深度推理技術。根據外部知識的類型對現有技術進行了分類,并闡述了它們的形式化問題定義。總結了不同方法之間的關系和優缺點,以及每個子類別下的技術細節。
**對主要應用領域進行全面的分類和總結。**總結了現有知識增強神經機器推理技術的廣泛應用領域。應用領域的分類可以很容易地映射到所提出的技術分類,以便研究人員交叉引用不同的應用領域。
**對知識增強深度推理的現狀及其未來趨勢進行了深刻的討論。**在總結現有利用外部知識輔助深度推理技術的基礎上,概述了當前知識增強深度推理的研究前沿。最后討論了未來可能取得豐碩成果的研究方向。
我們提出了一種分類法來顯示不同推理技術中的知識利用,如圖1所示。對于基于知識的推理技術,重點研究了**1)數據中存儲的知識類型,2)知識的形成,3)知識的利用。**基于這三個標準,我們構建了分類法的三個層次
知識的顯性取決于組織、結構、解釋、可訪問性和現實世界的表示。這些屬性可以極大地有益于用于推理任務的技術。外部知識的種類繁多,促使我們將其主要分為兩類:顯性知識和隱性知識。我們分別在第3節和第4節詳細討論了這兩組技術。
基于隱性知識的推理
本節回顧了利用隱式知識解決推理任務的最新進展,其中相關知識以基本兩種形式隱式表示:大規模預訓練模型和記憶增強神經網絡。這兩種形式都依賴于潛在知識的參數。由于預訓練模型具有唯一的參數依賴性,因此必須全部導入,而記憶增強神經網絡中的半參數記憶可以從編碼的知識索引中進行操作。
基于顯性知識的推理
顯性或表達性知識是可以毫不費力地記錄、訪問和解釋的信息。顯性知識的本質是邏輯的、客觀的和結構化的。在過去的幾十年里,人們廣泛地從顯性知識庫中挖掘結構化知識以支持各種與推理相關的任務,包括知識圖譜和知識規則。這兩類知識清晰定義不同實體之間關系的能力引起了越來越多的共同興趣。圖被大量用于模型的輸入層,或者用于從原始數據中收集概念。但該規則具有靈活性,可以在表示層或推理層使用。在本節中,我們回顧了利用不同顯性知識形式的最新技術。
本文從概念上和實踐上對自然語言處理(NLP)領域的自然語言推理進行了更清晰的認識。從概念上講,本文為NLP中的自然語言推理提供了一個明確的定義,基于哲學和NLP場景,討論了哪些類型的任務需要推理,并介紹了推理的分類。**對自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**該文還指出了逆向推理這一多步推理的強大范式,并介紹了可廢止推理是自然語言推理研究的一個重要方向。本文專注于單模態非結構化自然語言文本,不包括神經符號技術和數學推理。
1. 引言
近年來,自然語言處理(NLP)取得了重大進展,特別是transformer和預訓練語言模型(PLM)的引入。然而,它們執行自然語言推理(NLR)的能力仍然遠遠不能令人滿意。推理是基于現有知識進行推理的過程,是人類智能的一個基本方面,對于決策等復雜任務至關重要。構建具有推理能力的人工智能系統既是研究界的最終目標,也是提升復雜應用性能的必要途徑。與使用形式語言進行推理相比,使用自然語言表達進行推理提供了更加自然的人機交互界面,并為研究基于形式化的符號方法所無法實現的誘導、歸納法等可廢止推理打開了大門。
諸如BERT[33]和GPT[113]等PLMs自出現以來一直是NLP研究中的重要組成部分。在大規模文本語料庫上進行了預訓練,PLM能夠進行自然語言理解。最近的進展表明,PLMs也有解決推理問題的潛力[24,137,141,154]。具體來說,PLM可以對自然語言語句[24]進行軟演繹推理,利用其參數中記憶的隱性知識進行推理[141],并在模型規模足夠大時通過思維鏈提示[76,154],僅使用少量演示或指令就可以逐步執行多步推理。最近,ChatGPT和GPT-4也為社區提供了令人印象深刻的推理能力[4,15]。
**然而,盡管推理最近引起了越來越多的關注[24,26,27,76,106,139,154],但仍然缺乏對推理的明確定義,并且“推理”一詞有時會被錯誤使用,這可能會影響NLP社區對推理的交流和發展。**例如,雖然它屬于“常識推理”,但很少有人會認為講述一個共同的生活經歷[9],例如“說出你在酒店房間里可能忘記的東西”是推理。另一個例子是,有時“自然語言推理”被引入為自然語言理解的任務[11],但其他時候的推理為[24]。到目前為止,沒有任何一個命名為"推理"的任務被認為是推理(例如常識推理),也沒有所有命名為"無推理"的任務被認為是非推理(例如自然語言推理和多跳問答)。這就產生了一個問題:推理實際上是什么?如果它們的名稱沒有太多指示性,我們如何識別推理任務?盡管許多研究[24,57,163,169]從哲學和邏輯上給出了推理的定義,但該定義并不能很好地捕捉NLP中的推理。例如,雖然推理在哲學上被定義為“使用證據和邏輯得出結論”[57],但它未能明確隱含常識是否可以作為證據以及推理的結論類型,如命名實體消歧。
為了促進自然語言處理中推理的研究,本文試圖從概念上和實踐上對自然語言處理推理提出一個更清晰的認識。從概念上講,本文從哲學和NLP場景出發,提出了NLP推理的定義,討論了哪些類型的任務需要推理,并介紹了推理的分類。在實踐中,基于明確的定義,對自然語言處理中的自然語言推理進行了全面的文獻綜述,主要涵蓋經典邏輯推理、自然語言推理、多跳問答和常識推理。**本文回顧各種規模的PLMs論文,我們捕捉到可以應用于不同模型規模的一般方法:端到端推理、正向推理和反向推理。**最后,討論了推理的局限性和未來的發展方向。除了推理的定義之外,該調查與其他調查有兩個重要區別[57,108]3。識別并看待反向推理,這是除正向推理外的另一種強大的多步推理范式。雖然正向推理,如思維鏈提示,最近在LLM中很流行,但反向推理值得進行更多的探索。由于搜索空間更小[71],向后推理在概念和經驗上都比前向推理更有效,因此有可能推廣到步驟更長的復雜推理。其次,介紹了可廢止推理(即非演繹推理),認為這是最重要的未來方向之一。哲學認為,人類日常生活中的推理大多是非演繹的。然而,這在NLP研究中仍然存在很大的差距,而ChatGPT[4]也更具挑戰性。更重要的是,當演繹推理可以用符號推理機(如Prolog編程)精確求解時,可廢止推理仍然缺乏有效的解決方案。
本文主要關注單模態非結構化自然語言文本(沒有知識三元組、表格和中間形式語言)和自然語言推理(而不是符號推理和數學推理)。本文對利用基于transformer的PLM的相關工作進行了回顧,故意排除了神經符號技術。對收集到的論文進行了整理,對自然語言推理方法進行了分類。總結了近年來該領域的研究進展和趨勢。論文分為五個部分(如圖1所示)。我們收集了近年來與推理或PLMs相關的200多篇論文。從2019年到2022年,我們在頂級會議上搜索了inference、reasoning、infer、reason、multi-step和multi-hop等關鍵字,包括ACL、EMNLP、NAACL、ICML、ICLR和NeurIPS。我們還從收集的論文中找到了一些相關的工作。
**總而言之,本綜述的主要貢獻是: **
(1)首次為NLP中的自然語言推理提供了一個明確的定義,并討論了一些流行的基準與推理的關系程度。 (2)首次對基于PLM的自然語言推理進行了全面的綜述,涵蓋了不同的NLR基準,并提供了一個全面的方法分類。我們還介紹了向后推理,它被忽略了,但有潛力。 (3)介紹了可廢止推理,比較了演繹推理和可廢止推理的差異,討論了它們對NLP解決方案的影響,并回顧了現有的方法。
2. 什么是自然語言推理
目前,自然語言推理在自然語言處理領域仍缺乏明確的定義,影響了自然語言處理領域的發展和交流。為促進理解、分析和交流,本文旨在對NLP中的自然語言推理的術語和概念提出不同的定義。為了實現這一目標,我們對長期以來研究推理的兩個相關領域:哲學和邏輯學進行了研究,并將相關的推理理論轉化為自然語言處理。提出了一種NLP中的NLR定義,以滿足NLP社區的關注(第2.1節)。然后,提供了NLR的類別,并介紹了它們之間的差異如何影響NLP解決方案(第2.2節)。最后,介紹實現NLR的潛力、挑戰和要求(第2.3節)。
NLP中的推理近年來一直受到關注,而哲學從幾千年前就開始研究推理,邏輯被視為正確推理的藝術,它研究推理的概念,使其類別系統化,并發展良好推理的原則,包括形式邏輯和非形式邏輯[8,45,62]。在本節中,我們首先包括來自哲學和邏輯學的推理理論,并將其導出為NLP推理。然后,回顧了自然語言處理中的一些自然語言推理問題;最后,本文提出了一種NLP中推理的定義,該定義結合了哲學和邏輯學中的定義以及NLP社區的關注。自然語言推理是一個整合多種知識(如百科知識和常識知識)以得出關于(現實或假設)世界的一些新結論的過程。知識可以來自顯性來源,也可以來自隱性來源。結論是斷言或在世界上被假定為真實的事件,或實際行動。
3. 為什么要用PLMs進行自然語言推理
預訓練語言模型(PLM)基于transformer架構[149],該架構由許多注意力模塊構建,并通過無監督學習技術(如預測掩碼標記[33]或生成下一個標記)在大量文本數據上進行預訓練[113]。自BERT[33]出現以來,預訓練-再微調成為一種常見的范式,它將在預訓練階段學習到的PLMs的通用能力轉移到下游任務,并進行進一步的特定任務微調。由于大型語言模型已經被發現是少樣本學習[14],上下文學習已經成為一種新的流行范式,它可以在只有少量演示的情況下預測新樣本,而無需微調參數。最近,零樣本提示范式在LLM中也變得更加流行[76]。
4. 自然語言推理方法
在本節中,我們介紹三種類型的自然語言推理方法:端到端推理(第4.1節),正向推理和反向推理。整個分類法如圖5所示。這三類的關鍵區別在于推理路徑。具體來說,“端到端推理”只預測最終答案,沒有任何中間文本,而后兩種方法可以產生推理路徑,包含一個或多個帶有中間結論的步驟,展示了將前提與結論聯系起來的(可能是多步)推理過程。
給出每個預測的推理路徑可以提高系統的可解釋性。特別地,嚴格的推理路徑還可以顯式地暴露每個步驟的支持知識。此外,生成推理路徑已被證明有利于多步驟推理的最終性能[76,101,106,137,154]。推理有兩個方向。推理的兩個方向。多步推理可以通過正向[27,126,138,154]或逆向[73,82,96,106,139]進行。正向推理是一個自底向上的過程,它從已有的知識出發,反復推理以獲得新的知識,直到問題被解決。反向推理是一種自上而下的過程,它從問題出發,不斷地分解為子問題,直到所有子問題都可以被現有的知識所解決。逆向推理針對的是指定的問題,而正向推理可以自由地發現由現有知識所蘊含的新知識,而不需要預先指定問題。因此,在求解特定問題時,前向推理的搜索空間要比后向推理的搜索空間大得多,隨著推理的進行面臨組合爆炸的問題。定理證明是一個驗證問題,其推理路徑稱為“證明”,正向推理和反向推理通常分別稱為“前向鏈”和“后向鏈”。我們在表6中比較了這三種方法,并在圖6中演示了一個示例。下面的小節將進一步介紹和討論這種比較。
5. 結論
在本節中,我們提出了一些開放問題,介紹了一些局限性,并提出了一些推理的未來方向。文中還討論了ChatGPT和GPT4的局限性。 我們對LLMs的推理能力提出了一些開放性問題。在他們的出現推理能力中有許多未解之謎。
為什么CoT提示是有效的?為什么在最終答案帶來如此顯著的改進之前,只需要產生推理路徑,甚至可能是錯誤的?為什么CoT提示只對LLMs有效?當LLM被提示使用CoT但在中型PLM中失敗時,LLM會發生什么? * LLM的推理能力從何而來?為什么LLM可以隨著模型大小的增加而出現推理能力?“讓我們一步一步思考”的魔力從何而來?他們如何學習這些能力?雖然已經研究了另一種LLM魔法——上下文學習的機制[2,29,159],但推理能力仍然更加神秘。 * 更大的模型推理能力更好嗎?如果LLM可以出現可由提示引出的推理能力,那么它們是否可以在模型大小增加時學習到具有競爭力的推理能力?或者,構建更多的數據集和設計推理算法是否仍然有益?
隨著人工智能和大數據的爆炸式增長,如何合理地組織和表示海量的知識變得至關重要。知識圖譜作為圖數據,積累和傳遞現實世界的知識。知識圖譜可以有效地表示復雜信息;因此,近年來迅速受到學術界和工業界的關注。為了加深對知識圖譜的理解,對該領域進行了系統綜述。具體來說,關注知識圖譜的機遇和挑戰。首先從兩個方面回顧了知識圖譜的發展機遇: (1)基于知識圖譜構建的人工智能系統; (2)知識圖譜的潛在應用領域。然后,深入討論了該領域面臨的知識圖譜表示、知識獲取、知識補全、知識融合和知識推理等技術挑戰;本綜述將為知識圖譜的未來研究和發展提供新的思路。 //www.zhuanzhi.ai/paper/93a14b6709974a3bbd86c10302053fea1. 引言
知識在人類的生存和發展中起著至關重要的作用。學習和表示人類知識是人工智能(AI)研究中的關鍵任務。雖然人類能夠理解和分析周圍環境,但AI系統需要額外的知識才能獲得相同的能力并解決現實場景中的復雜任務(Ji et al, 2021)。為了支持這些系統,我們已經看到了根據不同的概念模型來表示人類知識的許多方法的出現。在過去十年中,知識圖譜已經成為這一領域的標準解決方案,也是學術界和工業界的研究趨勢(Kong et al, 2022)。 **知識圖譜被定義為積累和傳遞真實世界知識的數據圖譜。知識圖譜中的節點表示感興趣的實體,邊表示實體之間的關系(Hogan et al, 2021;Cheng et al, 2022b)。**這些表示利用了形式化語義,這使得計算機能夠高效且無歧義地處理它們。例如,實體“比爾·蓋茨”可以與實體“微軟”聯系起來,因為比爾·蓋茨是微軟的創始人;因此,他們在現實世界中是有關系的。 由于知識圖譜在機器可讀環境下處理異構信息方面的重要意義,近年來對這些解決方案持續開展了大量研究(Dai et al, 2020b)。所提出的知識圖譜最近被廣泛應用于各種人工智能系統(Ko等,2021;Mohamed et al, 2021),如推薦系統、問答系統和信息檢索。它們也被廣泛應用于許多領域(例如教育和醫療保健),以造福人類生活和社會。(Sun et al, 2020;Bounhas et al, 2020)。 因此,知識圖譜通過提高人工智能系統的質量并應用到各個領域,抓住了巨大的機遇。然而,知識圖譜的研究仍然面臨著重大的技術挑戰。例如,現有的從多個來源獲取知識并將其集成到典型的知識圖譜中的技術存在很大的局限性。因此,知識圖譜在現代社會中提供了巨大的機遇。然而,它們的發展存在著技術上的挑戰。因此,有必要對知識圖譜進行機遇與挑戰的分析,以更好地理解知識圖譜。 為深入了解知識圖譜的發展歷程,全面分析了知識圖譜面臨的機遇和挑戰。首先,從知識圖譜顯著提升人工智能系統性能和受益于知識圖譜的應用領域兩個方面討論了知識圖譜的機遇;然后,考慮到知識圖譜技術的局限性,分析了知識圖譜面臨的挑戰;本文的主要貢獻如下:
**知識圖譜研究綜述。**對現有的知識圖譜研究進行了全面的調研。詳細分析了知識圖譜的最新技術和應用進展。
**知識圖譜機遇。**本文從利用知識圖譜的基于知識圖譜的人工智能系統和應用領域的角度,研究了知識圖譜的潛在機會。研究了知識圖譜對人工智能系統的好處,包括推薦系統、問答系統和信息檢索。然后,通過描述知識圖譜在教育、科研、社交媒體、醫療等各個領域的當前和潛在應用,探討了知識圖譜對人類社會的深遠影響。
**知識圖譜挑戰。**本文對知識圖譜面臨的重大技術挑戰提供了深入的見解。特別地,從知識圖譜表示、知識獲取、知識圖譜補全、知識融合和知識推理等5個方面,分析了目前具有代表性的知識圖譜技術的局限性。
論文的其余部分組織如下。第2節對知識圖譜進行概述,包括知識圖譜的定義和現有研究的分類。第3節和第4節分別介紹了相關的AI系統和應用領域,探討了知識圖譜的機遇。第5節詳細介紹了基于這些技術的知識圖譜面臨的挑戰。最后,在第6節對本文進行總結。
2 概述
首先給出知識圖譜的定義;然后,對該領域的重要最新研究進行了分類。 2.1 什么是知識圖譜?
知識庫是一種典型的數據集,它以三元組的形式表示現實世界中的事實和語義關系。當三元組被表示為一個邊為關系、節點為實體的圖時,它被認為是一個知識圖譜。通常,知識圖譜和知識庫被視為同一個概念,可以互換使用。此外,知識圖譜的模式可以定義為一個本體,它顯示了特定領域的屬性以及它們之間的關系。因此,本體構建是知識圖譜構建的一個重要階段。
2012年,谷歌首次提出了知識圖譜,介紹了他們的知識庫谷歌知識圖譜(Ehrlinger and W¨o?, 2016)。隨后,引入并采用了許多知識圖譜,例如:
DBpedia,一個知識圖譜,它試圖從維基百科中發現有語義意義的信息,并將其轉化為DBpedia中一個有效的結構良好的本體知識庫(Auer et al, 2007)。 * Freebase,一個基于多個來源的知識圖譜,提供結構化和全球性的信息資源(Bollacker et al, 2008)。 * Facebook的實體圖(entity graph),這是一個知識圖譜,可以將用戶配置文件的非結構化內容轉換為有意義的結構化數據(Ugander et al, 2011)。 * Wikidata,一個跨語言的面向文檔的知識圖譜,支持許多網站和服務,如維基百科(Vrande ci′c and Kr¨otzsch, 2014)。 * Yago,是一個高質量的知識庫,包含大量的實體及其對應關系。這些實體是從維基百科和WordNet等多個來源提取的(Rebele et al, 2016)。 * WordNet,是一個衡量單詞之間語義相似度的詞匯知識庫。該知識庫包含許多層次概念圖來分析語義相似度(Pedersen et al, 2004)。
知識圖譜是由節點和邊組成的有向圖,其中一個節點表示一個實體(真實對象或抽象概念),兩個節點之間的邊表達了兩個實體之間的語義關系(Bordes et al, 2011)。資源描述框架(Resource Description Framework, RDF)和標簽屬性圖(Labeled Property Graphs, LPGs)是兩種典型的知識圖譜表示和管理方法(F¨arber等,2018;博肯,2020)。知識圖譜的基本單位是三元組(主語、謂語、賓語)(或(頭、關系、尾)),即(比爾·蓋茨,創始人,微軟)。由于關系不一定是對稱的,所以鏈接的方向很重要。因此,知識圖譜也可以看成是頭部實體通過關系邊指向尾部實體的有向圖
圖2知識圖譜研究
圖1描繪了一個簡單知識圖譜的例子。如圖1所示,圖中顏色變暗2 的節點e1 and通過關系r連接,關系r從e1到e2。因此,e1、e2、r1可以形成三元組(e1、r1、e2),其中eand分別2 是頭實體1 和尾實體。 近年來,知識圖譜得到了廣泛的研究興趣。大量的研究集中在對知識圖譜的探索上。對知識圖譜進行了全面的綜述,列出了當前該領域的7類重要研究。圖2顯示了關于知識圖譜的最流行的研究路線的模式。其中,人工智能系統是利用知識圖譜作為基礎的服務,應用領域是知識圖譜所觸及的領域。列出這兩條研究方向是為了探討知識圖譜的發展機遇。另外5個研究方向是5個主要的知識圖譜技術,對應5個任務。對這5種技術進行了介紹,并強調了它們的局限性,為知識圖譜面臨的主要挑戰提供了有益的啟示。 * 知識圖譜嵌入:知識圖譜嵌入是知識圖譜嵌入研究的中心問題之一。該任務旨在將知識圖譜中的實體和關系映射到低維向量空間,從而高效地捕捉知識圖譜的語義和結構(Dai等,2020b)。然后,通過機器學習模型可以有效地學習得到的特征向量。三種主要的基于三元組事實的嵌入方法如下:(a)基于張量因子分解的,(b)基于翻譯的,和(c)基于神經網絡的方法(Dai et al, 2020b)。 * **知識獲取:**知識獲取主要是對知識圖譜進行建模和構建,是知識圖譜研究的另一個重要研究方向。通常,知識是通過使用映射語言(如R2RML)從結構化來源導入的(Rodriguez- Muro and Rezk, 2015)。此外,知識可以從
非結構化文檔(如新聞、研究論文和專利),采用關系、實體或屬性提取方法(Liu et al, 2020;Yu et al, 2020;Yao et al, 2019)。 * 知識圖譜完備性:盡管構建知識圖譜的方法有很多,但要建立一個領域內所有知識的全面表示仍然是不可實現的。大多數知識圖譜仍然缺乏大量的實體和關系。因此,對完備的知識圖譜進行了大量的研究。知識圖譜補全技術旨在通過預測新增的關系和實體來提高知識圖譜的質量。第一個任務通常采用鏈接預測技術生成三元組,然后對三元組的可信度評分進行分配(Ji et al, 2021)。第二個任務采用實體預測方法來獲取和整合來自外部來源的進一步信息。
**知識融合:**知識融合也是一個重要的研究方向,專注于捕獲不同來源的知識,并將其集成到知識圖譜中(Nguyen et al, 2020)。知識融合方法對于知識圖譜的生成和完善都有重要意義。最近,實體對齊已經成為實現知識融合任務的主要方法。 * **知識推理:**通過推理來豐富知識圖譜,旨在基于現有數據推斷新的事實(Minervini et al, 2020),是目前的研究熱點。特別是,在兩個不相連的實體之間推斷出新的關系,形成新的三元組。而且,通過推理出虛假的事實,知識推理具有識別錯誤知識的能力。知識推理的主要方法包括基于邏輯規則的方法、基于分布式表示的方法和基于神經網絡的方法(Chen et al, 2020b)。 * 人工智能系統:如今,知識圖譜被推薦、問答系統和信息檢索工具等人工智能系統(Liang et al, 2022)廣泛使用。通常情況下,知識圖譜中豐富的信息可以提高解決方案的性能。因此,許多研究側重于利用知識圖譜來提高人工智能系統的性能。 * **應用領域:**知識圖譜在教育、科學研究、社交媒體和醫療保健等各個領域都有眾多應用(Li et al, 2020b)。提高人類生活水平,需要各種智能應用。
與其他工作不同,重點關注知識圖譜的機遇與挑戰。特別是,隨著人工智能服務質量的提高,知識圖譜在各個領域的應用將迎來巨大的機遇。相反,認為知識圖譜技術的局限性是其面臨的挑戰。因此,討論知識圖譜表示、知識獲取、知識圖譜補全、知識融合、知識推理等方面的技術局限性。 3 面向人工智能系統的知識圖譜
本節通過分析知識圖譜對提高人工智能系統的功能所帶來的優勢,來說明它所帶來的機遇。具體來說,有幾個系統,包括推薦系統、問答系統和信息檢索工具(Guo et al, 2020;鄒,2020),將知識圖譜用于輸入數據,并從知識圖譜中獲益最大。除了這些系統外,其他人工智能系統,如圖像識別系統(Chen et al, 2020a),也開始考慮知識圖譜的特征。然而,知識圖譜在這些系統中的應用并不廣泛。此外,這些系統并沒有直接利用知識圖譜對輸入數據進行性能優化。因此,詳細討論了知識圖譜為推薦系統、問答系統和信息檢索工具帶來的優勢,分析了知識圖譜的發展機遇。通常,這些解決方案可以從采用知識圖譜中獲益,這些圖譜提供了高質量的領域知識表示。表1展示了我們將在下面討論的AI系統的摘要。
推薦系統 * 問答系統 * 信息檢索
4 應用和潛力
在本節中,我們將討論知識圖譜在教育、科學研究、社會網絡和健康/醫療保健四個領域的應用和潛力。盡管一些研究人員試圖利用知識圖譜開發其他領域的有益應用,如金融(Cheng et al, 2022c),但基于知識圖譜的智能服務在這些領域相對模糊,仍然需要探索。因此,本節主要圍繞教育、科研、社會網絡、醫療等方面,對知識圖譜的機遇進行總結。表2給出了知識圖譜在這些領域的幾個最新應用。 5 技術挑戰
雖然知識圖譜為各種服務和應用提供了極好的機會,但仍有許多挑戰有待解決(Noy等,2019)。具體而言,現有知識圖譜技術的局限性是推動知識圖譜發展的關鍵挑戰(Hogan et al, 2021)。因此,本節從知識圖譜嵌入、知識獲取、知識圖譜補全、知識融合和知識推理這5種熱門知識圖譜技術的局限性出發,討論知識圖譜面臨的挑戰。 5.1 知識圖譜的嵌入
知識圖譜嵌入的目標是在低維向量空間中有效表示知識圖譜,同時仍保留其語義(Xia et al, 2021;Vashishth et al, 2020)。首先,將實體和關系嵌入到給定知識圖譜的稠密維空間,并定義評分函數衡量每個事實(三元組)的可信性;然后,最大化事實的似然性以獲得實體和關系的嵌入(Chaudhri等人,2022;Sun et al, 2022)。知識圖譜的表示為下游任務帶來了諸多好處。基于三元組事實的知識圖譜嵌入方法主要有3類:基于張量因子化的方法、基于翻譯的方法和基于神經網絡的方法(Rossi et al, 2021)。 5.1.1 基于張量因子分解的方法
基于張量因子分解方法的核心思想是將知識圖譜中的三元組轉化為3D張量(Balazevi′c et al, 2019)。如圖5所示,張量X∈Rm×m×n,其中m和n分別表示實體和關系的數量,包含n個切片,每個切片對應一種關系類型。當滿足條件Xijk = 1時,知識圖譜中存在三元組(ej i, rk, e),其中e和r分別表示實體和關系。否則,當Xijk = 0時,表示知識圖譜中不存在這樣的三元組。那么,張量由由實體和關系的向量組成的嵌入矩陣表示。 5.1.2 基于翻譯的方法
基于翻譯的方法利用了基于翻譯不變性的評分函數。翻譯不變性解釋兩個詞的向量之間的距離,這是由它們的語義關系的向量表示的(Mikolov等人,2013)。Bordes et al. (Bordes et al., 2013)首先利用基于翻譯不變性的評分函數進行度量
嵌入結果。他們創造性地提出了TransE模型,該模型將知識圖譜中所有的實體和關系轉換到一個連續的低向量空間中。具體來說,三元組中頭部和尾部實體的向量由它們關系的向量連接起來。因此,在向量空間中,每個三元組的語義含義都被保留了下來。形式上,給定一個三元組(頭、關系、尾),頭實體、關系、尾實體的嵌入向量分別是h、r、t。在向量空間中,三元組(h, r, t)的似真度由基于平移不變性的評分函數計算,以確保它遵循幾何原理:h + r≈t。 在TransE之后,相關的擴展不斷被提出,如TransH (Wang et al, 2014)和TransR (Lin et al, 2015),以提高基于翻譯的知識圖譜表示的性能。
5.1.3 基于神經網絡的方法
目前,深度學習已經成為知識圖譜表示的流行工具,有相當多的研究提出使用神經網絡表示知識圖譜的三元組(Dai et al, 2020a)。在本節中,以SME、ConvKB和R-GCN這3個代表性的工作為例,對基于神經網絡的知識圖譜表示進行簡要介紹。 SME (Bordes et al, 2014)設計了一個能量函數來進行語義匹配,該能量函數利用神經網絡來度量知識圖譜中每個三元組(h, r, t)的置信度。SME的評分函數定義如下:
SME (bilinear)的評分函數為:
5.1.4 現有方法的局限性
現有的知識圖譜嵌入方法仍然存在嚴重的局限性。許多已有的方法只考慮知識圖譜的表面事實(三元組)。然而,忽略了實體類型和關系路徑等附加信息,這些信息可以進一步提高嵌入精度。大多數不考慮附加信息的傳統方法的性能并不令人滿意。表3列出了不考慮附加信息的嵌入方法。在表3中,性能評估是基于鏈接預測和三元組分類任務。用于評估結果的指標是命中率為10 (Hits@10)和準確率。如表3所示,只有少數模型有令人印象深刻的結果,包括QuatE(90%)、RMNN(89.9%)和KBGAN(89.2%)的結果。近年來,一些研究人員開始將附加信息與知識圖譜結合起來,以提高模型嵌入的效率。例如,Guo et al. (Guo et al, 2015)利用附加的實體類型信息,即每個實體的語義類別,來獲得實體之間的相關性,并解決數據稀疏問題。因此,知識圖譜的表示更加準確。不僅是實體類型,有些其他信息,包括關系路徑(Li et al, 2021)、動態圖的時間信息(Messner et al, 2022)和實體的文本描述(An et al, 2018),近年來也得到了研究人員的關注。然而,如何有效利用豐富的附加信息來提高知識圖譜表示的準確性仍然是一個艱巨的挑戰。 一般附加信息不能充分表示三元組的語義。例如,實體類型與三元組的語義信息無關。此外,可以納入三元組特征的附加信息的類型現在受到了嚴重的限制。因此,為了提高現有知識圖譜嵌入方法的性能,需要在三元組特征中融入多元信息(如關系的分層描述、實體類型與文本描述的結合)。 就我們所知,復雜關系路徑仍然是一個開放的研究問題(Peng et al, 2021)。例如,內在關系,指的是兩個不相連的實體之間的間接關系,沒有被有效地表示出來。雖然通過知識圖譜中的關系鏈可以挖掘實體間的內在關系,但實體間的內在關系復雜多樣。因此,有效地表示這些關系并不是一件直接的事情。 5.2 知識獲取
知識獲取是融合不同來源的數據并生成新的知識圖譜的關鍵步驟。知識從結構化和非結構化數據中提取。知識獲取的三種主要方法是關系抽取、實體抽取和屬性抽取(Fu et al, 2019)。這里,屬性抽取可以看作是實體抽取的一種特例。Zhang等人(Zhang et al, 2019b)利用知識圖譜嵌入和圖卷積網絡提取長尾關系。Shi等人(Shi et al, 2021)提出實體集擴展構建大規模知識圖譜。 然而,現有的知識獲取方法仍然面臨準確率低的挑戰,這可能導致知識圖譜不完整或噪音大,阻礙下游任務的完成。因此,第一個關鍵問題是知識獲取工具及其評估的可靠性。此外,特定于領域的知識圖譜模式是面向知識的,而構建的知識圖譜模式是面向數據的,以覆蓋所有數據特征(Zhou等,2022)。因此,從原始數據中抽取實體和屬性來生成特定領域的知識圖譜是低效的。因此,如何通過生成面向特定領域的知識圖譜來高效地完成知識獲取任務是一個至關重要的問題。 此外,現有的知識獲取方法大多針對特定語言構建知識圖譜。然而,為了使知識圖譜中的信息更豐富、更全面,需要進行跨語言實體抽取。因此,給予更多是至關重要的 關注跨語言實體抽取和多語言知識圖譜的生成。例如,Bekoulis et al.(Bekoulis et al, 2018)提出了一種跨語言(英語和荷蘭語)實體和關系抽取的聯合神經模型。然而,由于非英語訓練數據集有限,語言翻譯系統并不總是準確的,并且跨語言實體抽取模型必須針對每一種新語言重新訓練,多語言知識圖譜構建仍然是一項艱巨的任務。 多模態知識圖譜構建被認為是知識獲取的另一個具有挑戰性的問題。現有的知識圖譜多采用純符號表示,導致機器理解現實世界的能力較差(Zhu et al, 2022b)。因此,許多研究人員關注于包含文本、圖像等多種實體的多模態知識圖譜。多模態知識圖譜的構建需要探索具有不同模態的實體,使得知識獲取任務復雜且效率低下。
5.3 知識圖譜補全
知識圖譜通常是不完整的,即缺少幾個相關的三元組和實體(Zhang et al, 2020b)。例如,在Freebase,最著名的知識圖譜之一,超過一半的人實體沒有關于他們的出生地和父母的信息。一般情況下,可用于保證知識圖譜質量的半自動化和人工利用機制是知識圖譜完成度評價必不可少的工具。具體而言,人類監督目前被認為是知識圖譜完成中的金標準評價(Ballandies和Pournaras, 2021年)。
知識圖譜補全旨在利用鏈接預測技術,通過添加新的三元組來擴展現有的知識圖譜(Wang et al, 2020b;Akrami et al, 2020)和實體預測(Ji et al, 2021)。這些方法通常在知識圖譜上訓練機器學習模型,以評估新的候選三元組的合理性。然后,他們將具有高可信度的候選三元組添加到圖譜中。例如,對于一個不完整的三元組(Tom, friendOf, ?),可以評估尾巴的范圍,并返回更可信的,以豐富知識圖譜。這些模型成功地利用了許多不同領域的知識圖譜,包括數字圖書館(Yao等,2017年)、生物醫學(Harnoune等,2021年)、社交媒體(Abu-Salih, 2021年)和科學研究(Nayyeri等,2021年)。一些新的方法能夠處理每個三元組與置信值相關聯的模糊知識圖譜(Chen et al, 2019)。
然而,現有的知識圖譜補全方法僅關注于從封閉世界的數據源中抽取三元組。這意味著生成的三元組是新的,但三元組中的實體或關系需要已經存在于知識圖譜中。例如,對于不完整的三元組(Tom, friendOf, ?),只有當實體Jerry已經在知識圖譜中,才有可能預測三元組(Tom, friendOf, Jerry)。由于這一限制, 這些方法無法向知識圖譜中添加新的實體和關系。為了解決這個問題,我們開始看到知識圖譜補全的開放世界技術的出現,這些技術從現有的知識庫之外提取潛在的對象。例如,ConMask模型(Shi和Weninger, 2018)被提出用于預測知識圖譜中未見實體。然而,開放世界知識圖譜的補全方法仍存在準確率不高的問題。主要原因是數據源通常比較復雜和嘈雜。此外,預測的新實體與現有實體的相似性可能會誤導結果。換句話說,兩個相似的實體被視為有聯系的實體,而它們可能沒有直接關系。
知識圖譜補全方法假設知識圖譜是靜態的,無法捕捉知識圖譜的動態演化。為了獲得隨時間變化的準確事實,考慮反映知識有效性的時態信息的時態知識圖譜補全技術應運而生。與靜態知識圖譜補全方法相比,時序知識圖譜補全方法將時間戳融入到學習過程中。因此,它們探索了時間敏感的事實,并顯著提高了鏈路預測精度。時序知識圖譜補全方法在取得優異性能的同時,也面臨著嚴峻的挑戰。由于這些模型認為時間信息的效率較低(Shao et al, 2022),時序知識圖譜補全的關鍵挑戰是如何有效地將事實的時間戳納入學習模型,并適當地捕獲事實的時序動態。
5.4 知識融合
知識融合旨在將來自不同數據源的知識進行組合和整合。它往往是知識圖譜生成的必要步驟(Nguyen et al, 2020;Smirnov和Levashova, 2019)。知識融合的主要方法是實體對齊或本體對齊(Ren et al, 2021),旨在從多個知識圖譜中匹配同一實體(Zhao et al, 2020)。由于數據的復雜性、多樣性和大數據量,實現高效、準確的知識圖譜融合是一項具有挑戰性的任務。
雖然在這個方向已經做了大量的工作,但仍然有幾個有趣的研究方向值得在未來進行研究。這通常用于支持跨語言推薦系統(Javed et al, 2021)。例如,Xu et al. (Xu et al., 2019)采用圖匹配神經網絡實現跨語言實體對齊。然而,由于來自不同語言的匹配實體的準確率相對較低,跨語言知識融合的結果仍然不盡人意。因此,探索跨語言知識融合仍然是一項艱巨的挑戰。
另一個主要挑戰是實體消歧(Nguyen et al, 2020)。作為自然語言的一詞多義問題,同一個實體在不同的知識圖譜中可能有不同的表達方式。因此,在進行實體對齊之前,需要對實體進行消歧。現有的實體消歧方法主要集中在基于從包含豐富語境信息的文本中提取知識來判別和匹配歧義實體(Zhu and Iglesias, 2018)。然而,當文本較短且上下文信息有限時,這些方法無法精確衡量實體的語義相似度。只有少數工作專注于解決這個問題。例如,Zhu和Iglesias (Zhu and Iglesias, 2018)提出了用于實體消歧的SCSNED。SCSNED同時基于知識圖譜中實體的含信息量詞和短文本中的上下文信息來度量語義相似度。雖然SCSNED在一定程度上緩解了上下文信息有限的問題,但還需要更多的努力來提高實體消歧的性能。
此外,許多知識融合方法只注重匹配具有相同模態的實體,忽略了知識以不同形式呈現的多模態場景。具體而言,僅考慮單模態知識圖譜場景的實體對齊,由于不能充分反映現實世界中實體之間的關系,性能不顯著(Cheng等,2022a)。最近,為了解決這一問題,一些研究提出了多模態知識融合,將具有不同模態的實體進行匹配,生成多模態知識圖譜。例如,HMEA (Guo et al, 2021)通過將多模態表示映射到雙曲空間,將實體與多種形式對齊。盡管許多研究人員已經在多模態知識融合方面進行了研究,但這仍然是一項關鍵任務。多模態知識融合主要是通過整合它們的多模態特征來尋找等價實體(Cheng et al, 2022a)。然而,如何有效地合并具有多模態的特征仍然是當前方法面臨的棘手問題。
5.5 知識推理
知識推理的目標是推理新的知識,如兩個實體之間的隱式關系(Liu等人,2021;Wang et al, 2019c),基于現有數據。對于給定的知識圖譜,其中存在兩個不相連的實體h和t,表示為h, t∈G,這里G表示知識圖譜,知識推理可以發現這些實體之間的潛在關系r,形成新的三元組(h, r, t)。知識推理方法主要分為基于邏輯規則的方法(De Meester et al, 2021)、基于分布式表示的方法(Chen et al, 2020b)和基于神經網絡的方法(Xiong et al, 2017)。基于邏輯規則的知識推理旨在根據隨機游走和邏輯規則發現知識,而基于分布式表示的知識推理則將實體和關系嵌入到向量空間中以獲得分布式表示(Chen et al, 2020b)。 基于網絡的知識推理方法在給定圖中的知識體的情況下,利用神經網絡來推斷新的三元組(Xian et al, 2019)。 在知識推理中有兩個任務:單跳預測和多跳推理(Ren et al, 2022)。單跳預測為給定的兩個元素預測三元組中的一個元素,而多跳推理預測多跳邏輯查詢中的一個或多個元素。換句話說,在多跳推理場景中,找到一個典型問題的答案并形成新的三元組,需要對多個邊和節點進行預測和填補。與單跳預測相比,多跳推理實現了更精確的三元組形成。因此,多跳推理受到越來越多的關注,成為近年來知識圖譜發展的迫切需求。盡管已有許多相關工作,但知識圖譜上的多跳推理仍處于起步階段。值得注意的是,海量知識圖譜上的多跳推理是具有挑戰性的任務之一(Zhu et al, 2022a)。例如,最近的研究主要集中在知識圖譜上的多跳推理,而這類圖譜只有63K個實體和592K個關系。對于數百萬個以上實體的海量知識圖譜,現有模型無法有效學習訓練集。此外,多跳推理需要遍歷知識圖譜中的多個關系和中間實體,這可能導致指數計算代價(Zhang et al, 2021)。因此,探索多跳知識推理仍然是一項艱巨的任務。 此外,對推斷出的新知識的驗證也是一個關鍵問題。知識推理豐富了現有的知識圖譜,給下游任務帶來了好處(Wan等,2021)。然而,推斷出的新知識有時是不確定的,新三元組的準確性需要驗證。此外,還需要檢測新知識與現有知識之間的沖突。為了解決這些問題,一些研究提出了多源知識推理(Zhao et al, 2020),可以檢測錯誤知識和沖突知識。總的來說,應該更多地關注多源知識推理和錯誤知識約簡。
6. 結論
知識圖譜在為各個領域創建許多智能服務和應用方面發揮了重要作用。本文從知識圖譜發展的機遇與挑戰兩個方面對其進行綜述。首先介紹了知識圖譜的定義和現有的研究方向,對知識圖譜進行了介紹性分析;之后,我們討論了利用知識圖譜的人工智能系統。然后,給出了知識圖譜在多個領域中的代表性應用;進一步,分析了現有知識圖譜技術存在的局限性和面臨的嚴峻技術挑戰。我們期待該調研為未來涉及知識圖譜的研發活動激發新的想法和有洞察力的視角。
近年來,人工智能(AI)及其應用引發了極大的興趣。這一成就可以部分歸因于人工智能子領域的進步,包括機器學習(ML)、計算機視覺(CV)和自然語言處理(NLP)。深度學習是機器學習的一個子領域,它采用人工神經網絡的概念,使這些領域增長最快。因此,視覺和語言的融合引發了很多關注。這些任務的創建方式恰當地示范了深度學習的概念。本文對最先進的方法、關鍵模型設計原則進行了全面和廣泛的回顧,并討論了現有的數據集、方法及其問題表述和評估措施,用于VQA和視覺推理任務,以理解視覺和語言表示學習。本文還提出了該研究領域的一些潛在未來路徑,希望我們的研究可以產生新的想法和新方法,以處理現有的困難和開發新的應用。
//www.zhuanzhi.ai/paper/c05fe89db0bbc0ddc6f7535150f36371
1. 引言
深度神經網絡(DNNs)的最新進展促進了人工智能(AI)許多領域的研究,如自然語言處理(NLP)和計算機視覺(CV)。隨著計算資源的指數級增長和數據集規模的不斷增大,卷積神經網絡(CNN)[1]、循環神經網絡(RNNs)[2]和自編碼器[3]等DNNs模型在目標檢測[4]、機器翻譯[5]、圖像標題生成[6]、語音識別[7]等機器學習(ML)任務中取得了巨大的勝利。盡管如此,在處理混合了兩個通常獨立領域的語義和視覺數據的問題時,仍然存在一些好奇心。解決集成問題的方法應該支持視覺或文本信息的全面知識。
盡管最近取得了一些進展,但在一些需要對關系和圖結構數據進行推理的研究領域,如場景圖[8]和自然語言理解,智能體和人腦之間仍然存在巨大的差距。人類可以快速識別物體、它們在網格上的位置和圖像等歐幾里得數據,推斷它們的關系,識別活動,并響應關于圖像的隨機問題。建立一個具有計算機視覺和自然語言能力的系統模型,該系統可以回答關于圖像的隨機問題,這似乎很鼓舞人心。
有效地解決上述及相關問題可以帶來許多可能的應用。例如,視覺障礙者可以受益于視覺場景理解,這允許他們通過生成的描述獲取有關場景的信息并提出有關問題。理解監控視頻是另一個用途。[9]、自動駕駛[10]、視覺解說機器人、人機交互[11]、城市導航[12]等解決這些問題通常需要對圖像內容進行更高層次的推理。鑒于基礎和應用研究的廣泛跨度,近年來進行了各種調查,以提供視覺和語言任務集成的徹底概述。另一方面,這些研究側重于涉及語言和視覺融合的特定任務,如圖像描述[13-15]視覺問答[16,17]、動作識別[18]和視覺語義[19]。
本文對最先進的方法、關鍵模型設計原則進行了全面和廣泛的回顧,并討論了用于VQA和視覺推理任務的現有數據集和方法,以理解視覺和語言表示學習。首先,以視覺和語言表示學習任務為例介紹了視覺問答(VQA)和視覺推理。詳細探索了現有的標注數據集驅動的這些領域的巨大進步。然后,進一步介紹了視覺問答和視覺推理的現有方法和最新進展;最后,討論了存在的問題和未來可能的研究方向。
2. 視覺與語言
視覺和語言(V+L)研究是CV和NLP交叉的一個迷人的領域,它受到了兩個群體的大量關注。許多V+L挑戰促使組合式多模態表示學習取得了重大進展,已經在大規模人工標注數據集上進行了基準測試。V+L的基礎是視覺理解主題,例如流行的ResNet,它提取CNN特征。其次是語言理解,其最終目標是多模態學習。
3. 數據集
我們有許多大規模的標注數據集,這些數據集正在推動這一領域的巨大進步。VQA領域是如此復雜,一個合適的數據集應該足夠大,以表示現實世界中問題和視覺材料中的各種各樣的選項。事實上,在過去的幾年里,有許多流行的數據集來解決VQA和視覺推理的挑戰。我們將在接下來的幾節中討論在這項艱巨任務中經常使用的數據集。
4. 方法
在過去的五年中,發展了大量的視覺問答和視覺推理方法。另一方面,所有已知的方法都是從問題和圖像中提取特征,然后將特征組合起來給出答案。詞袋模型(BOW)[61],長短期記憶網絡(LSTM)[62],門控循環單元(GRU),編碼器和跳過思維向量都可以用于文本。在ImageNet上預訓練的CNN是最受歡迎的圖像特征選擇。在生成答案時,大多數技術都將問題表示為分類練習。因此,這些技術之間的主要區別在于它們如何合并文本和視覺數據。例如,將它們連接起來并通過線性分類器運行。此外,貝葉斯模型也可以用來表示問題、圖像和答案特征分布之間的核心關系。在本節中,我們將介紹幾種最近為VQA和視覺推理任務提出的架構。將這些模型分為三個主要部分:外部知識、神經網絡和顯式推理。下面我們將更詳細地討論每一節。
通過使用像BERT這樣的預訓練語言模型(PLMs),自然語言處理(NLP)已經發生了革命性的變化。盡管幾乎在每個NLP任務中都創造了新記錄,但PLM仍然面臨許多挑戰,包括可解釋性差、推理能力弱,以及在應用于下游任務時需要大量昂貴的注釋數據。通過將外部知識集成到PLM中,知識增強的預訓練語言模型(KEPLMs)有可能克服上述限制。本文通過一系列研究對KEPLMs進行了系統的考察。具體地,概述了可集成到KEPLMs中的知識的常見類型和不同格式,詳細介紹了現有的構建和評估KEPLMs的方法,介紹了KEPLMs在下游任務中的應用,并討論了未來的研究方向。研究人員將從這項調研中受益,通過獲得該領域最新發展的快速和全面的概述。
//www.zhuanzhi.ai/paper/08b18a51703942d4625d10b8f6cb8e4b
1. 引言
預訓練語言模型(PLMs)首先在大型數據集上進行訓練,然后直接遷移到下游任務,或在另一個小型數據集上進一步微調,以適應特定的NLP任務。早期的PLMs,如Skip-Gram[1]和GloVe[2],是淺層神經網絡,其詞嵌入(從窗口大小的上下文中學習)是靜態語義向量,這使得它們無法處理動態環境下的一詞多義問題。隨著深度學習的發展,研究人員試圖利用深度神經網絡來通過動態語義嵌入來提高任務的性能。起初,人們仍然局限于監督學習的范式,認為沒有足夠的標記數據,很難釋放深度學習的潛力。然而,隨著自監督學習的出現,BERT[3]等大型語言模型可以通過預測事先被掩蓋的標記,從大規模無標記文本數據中學習大量知識。因此,他們在許多下游NLP任務中取得了突破性進展。此后,許多大型模型開始采用Transformer[4]結構和自監督學習來解決NLP問題,plm逐漸進入快速發展階段。PLMs最近的驚人成功是OpenAI的ChatGPT。隨著研究的進展,人們發現PLMs仍然面臨可解釋性差、魯棒性弱和缺乏推理能力的問題。具體來說,PLMs被廣泛認為是黑盒,其決策過程是不透明的,因此很難解釋。此外,PLMs可能不夠魯棒,因為深度神經模型容易受到對抗性樣本的影響。此外,由于純數據驅動,PLMs的推理能力也受到限制。PLMs的所有這些缺點都可以通過納入外部知識來改善,這就產生了所謂的知識增強的預訓練語言模型(KEPLMs)。圖1用ChatGPT的話說就是KEPLMs的優勢。
盡管目前對KEPLMs 中[5]、[6]、[7]、[8]的研究尚不多見,但隨著許多新技術的出現,該研究領域正在迅速發展和擴展。本綜述旨在從不同的角度為人工智能研究人員提供關于KEPLMs 最新進展的最全面和最新的圖景。 本綜述的其余部分組織如下。第2節解釋了KEPLMs 的背景。第3節對keplm常用的知識類型和格式進行了分類。第4節介紹了構建keplm的不同方法。第5節描述了評估KEPLMs 可能的性能指標。第6節討論了KEPLMs 在下游知識密集型NLP任務中的典型應用。第7節概述了KEPLMs 的未來研究方向。第8節總結了貢獻。
構建 KEPLMS
隱性知識整合
以BERT為代表的PLMs 通常使用維基百科等的非結構化文本文檔作為預訓練的語料庫。非結構化文本數據包含豐富的上下文語義信息,BERT可以通過掩碼語言模型(MLM)從中學習單詞的上下文知識。然而,文本中同樣包含有價值信息的實體和短語被忽略了。通過采用知識引導的超越單個單詞層面的掩碼策略,PLMs 能夠融合實體、短語等知識,如圖3所示。
一些構建KEPLMs的方法通過添加知識相關的預訓練任務隱式地納入知識,如圖6所示。
顯性知識整合
PLMs 顯式地合并外部知識主要有三種方式:修改模型輸入、添加知識融合模塊和利用外部內存。前兩種方法將相關知識插入PLMs中,其形式為模型的額外輸入或模型中的額外組件,如圖7①和②所示。第三種方法使文本空間和知識空間保持獨立,從而便于知識更新
參考文獻
[1] T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” in Proc. Int. Conf. Neural Inf. Process. Syst, vol. 26, 2013. [2] J. Pennington, R. Socher, and C. D. Manning, “Glove: Global vectors for word representation,” in Proc. Conf. Empir. Methods Natural Lang. Process., 2014, pp. 1532–1543.
推理在人類歷史的各個時期都被采用,至少從兩千年前就開始研究,可以追溯到著名的古希臘哲學家亞里士多德,他展示了形式邏輯推理的原理[1]。人工智能(AI)的長期目標之一是建立能夠對其周圍環境進行推理的系統。從傳統的專家系統到現代機器學習和深度學習驅動的系統,研究人員在為各種任務建立智能系統方面做出了不懈的努力和巨大的進展。
在這篇論文中,我們對知識推理感興趣,它要求智能系統根據輸入或現有的知識來推斷新的知識[2]。知識推理是從現有的事實和規則中得出結論的過程[3],這需要一系列的能力,包括但不限于理解概念,應用邏輯,以及基于現有知識的校準或驗證架構[4]。隨著通信技術和移動設備的爆炸性增長,今天人類的大部分集體知識都駐留在互聯網上,以非結構化和半結構化的形式存在,如文本、表格、圖像、視頻等。如果沒有搜索引擎和問題回答系統等智能系統的幫助,人類要想瀏覽巨大的互聯網知識是非常困難的。為了滿足各種信息需求,在本論文中,我們開發了對結構化和非結構化數據進行知識推理的方法。
對于結構化數據,由于現有的大規模知識庫將百科知識存儲在圖結構中,如Freebase[5]、NELL[6]和Wikidata[7],我們可以通過查詢知識庫有效地查詢感興趣的知識。
在這篇論文中,我們研究了如何用圖嵌入技術對知識圖進行多跳推理。我們還研究了如何在一個一致的概率框架內進行符號推理,這可以應用于知識完成任務,根據知圖譜中的現有事實推斷出新的知識。
盡管做出了最大的努力,現有的知識庫只能覆蓋人類知識的一小部分。人類的許多知識在本質上很難用任何允許的知識庫模式進行編碼,如常識和程序性知識[8]。事實上,絕大多數的人類知識只能存儲在非結構化文本中。為了對非結構化文本進行知識推理,在本論文中,我們利用大規模預訓練語言模型(如BERT[9],RoBERTa[10],ALBERT[11]等)的最新進展來產生高質量的上下文文本編碼,同時利用圖神經網絡在多個文檔中傳播信息。在圖神經網絡的幫助下,我們還開發了一種用于數字問題回答任務的方法,這是一個具有挑戰性的開放問題,需要對文本段落進行數字推理。
在這篇論文中,我們研究了一個假設,即圖神經網絡可以幫助提高各種知識推理任務的性能,包括知識圖譜的完成、知識感知問題的回答、開放域問題的回答等等。更具體地說,本論文試圖回答以下研究問題:
1.如何在知識圖譜上進行多跳推理?我們應該如何利用圖神經網絡來有效地學習圖感知的表示?以及,如何系統地處理人類問題中的噪音?
2.如何在一個一致的概率框架中結合深度學習和符號推理?如何使推理對大規模的知識圖譜高效且可擴展?我們能否在表示能力和模型的簡單性之間取得平衡?
3.圖形神經網絡對于知識感知的QA任務的推理模式是什么?那些精心設計的GNN模塊真的能完成復雜的推理過程嗎?它們是不夠復雜還是過于復雜?我們能不能設計一個更簡單但有效的模型來達到類似的性能?
4.如何建立一個能夠對多個檢索到的文檔進行推理的開放域問題回答系統?如何有效地對檢索到的文檔進行排序和過濾,以減少下游的答案預測模塊的噪音?如何在多個檢索到的文檔中傳播和匯集信息?
5.如何回答那些需要對文本段落進行數字推理的問題?如何使預先訓練好的語言模型能夠進行數字推理?
在接下來的章節中,我們對上述研究問題進行了探討,發現圖神經網絡可以作為一個強大的工具,用于結構化和非結構化知識源的各種知識推理任務。在基于結構化圖形的知識源上,我們在圖結構的基礎上建立圖神經網絡,為下游推理任務捕獲拓撲信息。在基于非結構化文本的知識源上,我們首先識別圖結構信息,如實體共現和實體編號綁定,然后采用圖神經網絡對構建的圖進行推理,與預訓練的語言模型一起處理知識源的非結構化部分。
如上所述,知識圖譜并不總是可以用于各種領域的知識推理任務。即使我們能夠獲得現有的知識圖譜作為知識源,它們也可能來自于自動知識提取(如Wikidata[7]和ConceptNet[12]),并有可能引入大量的噪音。因此,在本論文中,我們從建立能夠處理噪音的強大推理框架開始。我們建立了一個端到端的可訓練的QA框架,以避免級聯錯誤;我們還設計了一個概率邏輯推理框架,利用一階邏輯規則來調節知識圖譜中的噪音。由于知識圖譜的低覆蓋率問題,我們在本論文的后半部分繼續探索基于文本的知識推理。我們建立了開放領域的質量保證框架,只需要大規模的文本語料庫,如維基百科作為知識源。此外,我們還研究了如何從文本段落中提取數字知識圖譜,然后在構建的圖之上進行數字推理。
本論文的主要貢獻如下。
知識圖譜上的多跳問題回答(第三章)。對于復雜的信息需求,許多人的問題需要在知識圖譜上進行多跳知識推理。同時,當人們提出問題時,他們的表達通常是有噪聲的(例如,文本中的錯別字,或發音的變化),這對問題回答(QA)系統來說,在知識圖譜中匹配那些提到的實體是非難事。為了應對這些挑戰,我們提出了一個端到端的變異學習框架,它可以處理問題中的噪音,并同時學習進行多跳推理。我們還得出了一系列新的基準數據集,包括多跳推理的問題,由神經翻譯模型解析的問題,以及人聲中的問題。本章內容出現在AAAI 2018的論文集中[13]。
知識圖譜的概率邏輯推理(第四章)。作為一個優雅而強大的工具,馬爾科夫邏輯網絡(MLN)成功地結合了邏輯規則和概率圖模型,可以解決許多知識圖的推理問題。然而,MLN推理的計算量很大,使得MLN的工業規模應用非常困難。近年來,圖神經網絡(GNNs)已經成為解決大規模圖問題的高效工具。然而,GNN并沒有明確地將先驗邏輯規則納入模型,而且可能需要許多標記的例子來完成目標任務。我們探索了MLN和GNN的結合,并將圖神經網絡用于MLN的變異推理。本章的內容出現在ICLR 2020的論文集中[14]。
圖神經網絡的知識推理模式(第五章)。為了接近人類復雜的推理過程,最先進的質量保證系統通常使用精心設計的基于圖神經網絡(GNNs)的模塊來進行知識圖譜(KGs)的推理。然而,關于這些基于GNN的模塊的推理功能,許多問題仍然沒有解決。這些基于GNN的模塊真的能進行復雜的推理過程嗎?對于質量保證來說,它們是不夠復雜還是過于復雜?為了打開GNN的黑匣子并研究這些問題,我們剖析了最先進的用于質量保證的GNN模塊并分析了它們的推理能力。我們發現,即使是一個非常簡單的圖形神經計數器也能在流行的QA基準數據集上勝過所有現有的GNN模塊。我們的工作揭示了現有的知識感知型GNN模塊可能只進行一些簡單的推理,如計數。為知識驅動的質量保證建立全面的推理模塊仍然是一個具有挑戰性的開放問題。本章內容已提交給ICLR 2022,目前正在審核中。
多文檔的開放域問題回答(第6章)。作為一個實際的應用,開放域的質量保證需要檢索多個支持性文件。文檔檢索過程中往往會產生更多的相關但不支持的文檔,這就抑制了下游的噪聲敏感的答案預測模塊。為了應對這一挑戰,我們開發了一種方法來迭代檢索、重新排序和過濾文檔,并自適應地確定何時停止檢索過程。重排文檔是一個關鍵步驟,但由于問題和每個檢索到的文檔都是串聯的,所以非常耗時。因此,我們提出了一個解耦的上下文編碼框架,它有雙重的BERT模型:一個在線BERT,只對問題進行一次編碼;一個離線BERT,對所有的文檔進行預編碼并緩存其編碼。本章內容出現在SIGIR 2020[15]和SIGIR 2021[16]的論文集中。
文本段落上的數字問題回答(第7章)。對文本段落的數字推理,如加法、減法、分類和計數,是一項具有挑戰性的機器閱讀理解任務,因為它需要自然語言理解和算術計算。我們試圖使預先訓練好的語言模型,如BERT,在圖神經網絡的幫助下進行數字推理。更具體地說,我們為這種推理所需的段落和問題的上下文提出了一個異質圖表示,并設計了一個問題定向圖注意網絡來驅動所構建的異質圖上的多步驟數字推理。本章內容出現在EMNLP 2020的論文集中[17]。
我們首先在第二章中對相關工作進行了概述,作為本論文的背景。接下來的5章(三-七章)分為兩部分。第一部分探討了結構化數據的知識推理,包括多跳問題回答(第三章)和概率邏輯推理(第四章),這兩部分都是在現有的知識圖上工作。然后,我們研究圖神經網絡如何為知識意識的問題回答任務進行推理(第五章)。第二部分將重點轉向非結構化數據的知識推理,包括開放領域的問題回答(第六章)和數字問題回答(第七章),兩者都是在非結構化文本上工作。我們在第八章中總結了論文并討論了未來的研究方向。
盡管最近在深度學習方面取得了進展,但大多數方法仍然采用豎井式的解決方案,即為每個單獨的任務訓練一個單獨的神經網絡。然而,許多現實世界的問題需要同時解決許多任務。例如,一輛自動駕駛汽車應該能夠檢測場景中的所有物體,對其進行定位,估計其距離和軌跡等,以便在其周圍環境中安全導航。類似地,用于商業應用的圖像識別系統應該能夠標記產品、檢索類似的商品、提出個性化的建議等,以便為客戶提供盡可能好的服務。這類問題促使研究人員建立多任務學習模型。多任務學習的核心思想是并行學習多個任務,同時共享學習到的表示。與單任務情況相比,多任務網絡具有許多實際的優點,單任務情況下,每個單獨的任務由自己的網絡單獨解決。首先,由于層的共享,產生的內存占用大大減少。其次,由于它們避免在共享層中重復計算特征,每個任務一次,它們顯示出提高的推理速度。第三,如果相關的任務共享互補信息,或者作為一個正則化器,它們有可能提高性能。
在構建多任務學習模型時,我們面臨著兩個重要的挑戰。首先,我們需要想出能夠處理多個任務的神經網絡架構。其次,我們需要為共同學習任務制定新的訓練方案。特別是,由于我們并行地優化多個目標,一個或多個任務可能會開始主導權重更新過程,從而阻礙模型學習其他任務。在這份手稿中,我們在視覺場景理解的背景下鉆研了這兩個問題。我們提出了兩種新的模型類型來解決體系結構問題。首先,我們探索了分支多任務網絡,其中神經網絡的更深層次逐漸成長為更具體的任務。我們介紹了一種有原則的方法來自動構建這樣的分支多任務網絡。構造過程將可以用一組相似特征來解決的任務組合在一起,同時在任務相似性和網絡復雜性之間進行權衡。通過這種方式,我們的方法生成的模型可以在性能和計算資源量之間做出更好的權衡。
其次,我們提出了一種新的神經網絡結構,用于聯合處理多個密集的預測任務。其關鍵思想是從多個尺度上對其他任務的預測中提取有用信息,從而提高對每個任務的預測。包含多個尺度的動機是基于這樣的觀察:在某個尺度上具有高相似性的任務不能保證在其他尺度上保持這種行為,反之亦然。在密集標記的兩個流行基準上進行的廣泛實驗表明,與之前的工作不同,我們的模型提供了多任務學習的全部潛力,即更小的內存占用,減少的計算數量,以及更好的性能w.r.t.單任務學習。此外,我們還考慮了多任務學習優化問題。我們首先分析幾種平衡任務學習的現有技術。令人驚訝的是,我們發現了這些工作之間的一些差異。我們假設,這可能是由于多任務學習缺乏標準化的基準,不同的基準受益于特定的策略。基于這個結果,我們然后分離最有希望的元素,并提出一組啟發式方法來平衡任務。啟發式具有實際性質,并在不同的基準測試中產生更魯棒的性能。
在最后一章中,我們從另一個角度來考慮場景理解的問題。文獻中描述的許多模型都受益于有監督的預訓練。在這種情況下,在轉移到感興趣的任務之前,模型首先在一個更大的帶注釋的數據集(如ImageNet)上進行預訓練。這使得模型能夠很好地執行,即使是在只有少量標記示例的數據集上。不幸的是,有監督的預訓練依賴于帶注釋的數據集本身,這限制了它的適用性。為了解決這個問題,研究人員開始探索自監督學習方法。我們以對比學習為基礎來回顧最近流行的作品。首先,我們展示了現有的方法,如MoCo可以在不同的數據集上獲得穩健的結果,包括以場景為中心的數據、長尾數據和特定領域的數據。其次,我們通過增加額外的不變性來改進學習的表示。這一結果直接有利于許多下游任務,如語義分割、檢測等。最后,我們證明了通過自監督學習所獲得的改進也可以轉化為多任務學習網絡。綜上所述,本文提出了幾個重要的貢獻,以改進多任務學習模型的視覺場景理解。創新集中在改進神經網絡結構、優化過程和訓練前方面。所有方法都經過了各種基準測試。該代碼公開發布://github.com/SimonVandenhende。
少樣本學習(FSL)在機器學習領域具有重要意義和挑戰性。成功地從很少的樣本中學習和歸納的能力是區分人工智能和人類智能的一個明顯的界限,因為人類可以很容易地從一個或幾個例子中建立他們對新穎性的認知,而機器學習算法通常需要數百或數千個監督樣本來保證泛化能力。盡管FSL的悠久歷史可以追溯到21世紀初,近年來隨著深度學習技術的蓬勃發展也引起了廣泛關注,但迄今為止,有關FSL的調研或評論還很少。在此背景下,我們廣泛回顧了2000年至2019年FSL的200多篇論文,為FSL提供了及時而全面的調研。在本綜述中,我們回顧了FSL的發展歷史和目前的進展,原則上將FSL方法分為基于生成模型和基于判別模型的兩大類,并特別強調了基于元學習的FSL方法。我們還總結了FSL中最近出現的幾個擴展主題,并回顧了這些主題的最新進展。此外,我們重點介紹了FSL在計算機視覺、自然語言處理、音頻和語音、強化學習和機器人、數據分析等領域的重要應用。最后,我們對調查進行了總結,并對未來的發展趨勢進行了討論,希望對后續研究提供指導和見解。
地址:
//www.zhuanzhi.ai/paper/ffc99a53aeb6629e21b9a42db76b9dd1
概述:
人類智能的一個令人印象深刻的特點是能夠從一個或幾個例子中迅速建立對新概念的認知。許多認知和心理學證據[184,224,371]表明,人類可以通過很少的圖像[23]識別視覺物體,甚至兒童也可以通過一次偶見就記住一個新單詞[35,51]。雖然從很少的樣本中支持人類學習和歸納能力的確切原因仍是一個深刻的謎,但一些神經生物學研究[285,29,157]認為,人類顯著的學習能力得益于人腦中的前額葉皮層(PFC)和工作記憶,特別是PFC特有的神經生物學機制與大腦中存儲的以往經驗之間的相互作用。相比之下,最先進的機器學習算法都需要大量數據,尤其是最廣為人知的深度學習[186],它將人工智能推向了一個新的高潮。深度學習作為機器學習發展的重要里程碑,在視覺[172,319,120]、語言[231,318]、語言[127]、游戲[308]、人口學[97]、醫學[74]、植物病理學[100]、動物學[252]等廣泛的研究領域都取得了顯著的成就。一般來說,深度學習的成功可以歸結為三個關鍵因素:強大的計算資源(如GPU)、復雜的神經網絡(如CNN[172]、LSTM[129])和大規模數據集(如ImageNet[287]、Pascal-VOC[75])。然而,在現實的應用場景中,比如在醫學、軍事、金融等領域,由于隱私、安全、數據標注成本高等因素,我們無法獲得足夠的標簽訓練樣本。因此,使學習系統能夠有效地從很少的樣本中進行學習和歸納,成為幾乎所有機器學習研究人員所期待的藍圖。
從高層次上看,研究少樣本學習的理論和現實意義主要來自三個方面。首先,FSL方法不依賴于大規模的訓練樣本,從而避免了在某些特定應用中數據準備的高昂成本。第二,FSL可以縮小人類智能和人工智能之間的差距,是發展通用人工智能的必要之旅[191]。第三,FSL可以實現一個新興任務的低成本和快速的模型部署,而這個任務只有幾個暫時可用的樣本,這有利于闡明任務早期的潛在規律。
少數樣本學習(FSL),又稱小樣本學習、少樣本學習或一次性學習,可以追溯到21世紀初。盡管該研究已有近20年的歷史,在理論和應用層面上都具有重要意義,但到目前為止,相關的調查和綜述還很少。在本文中,我們廣泛調查了從21世紀頭十年到2019年幾乎所有與FSL相關的科學論文,以詳細闡述一個系統的FSL調研。我們必須強調,這里討論的FSL與zero-shot learning (ZSL)正交[346],這是機器學習的另一個熱門話題。ZSL的設置需要與概念相關的側面信息來支持跨概念的知識遷移,這與FSL有很大的不同。據我們所知,到目前為止,只有兩份與fsl相關的預先打印的綜述倫恩[305,349]。與他們相比,本次綜述的新穎之處和貢獻主要來自五個方面:
(1) 我們對2000年至2019年的200多篇與FSL相關的論文進行了更全面、更及時的綜述,涵蓋了從最早的凝固模型[233]到最新的元學習方法的所有FSL方法。詳盡的闡述有助于把握FSL的整個發展過程,構建完整的FSL知識體系。
(2) 根據FSL問題的建模原則,我們提供了一種可理解的層次分類法,將現有的FSL方法分為基于生成模型的方法和基于判別模型的方法。在每個類中,我們根據可一般化的屬性進一步進行更詳細的分類。
(3) 我們強調當前主流目前的方法,例如,基于目前的元學習方法,和分類成五大類,他們希望通過元學習策略學習學習,包括Learn-to-Measure Learn-to-Finetune, Learn-to-Parameterize,學會調整和Learn-to-Remember。此外,本調查還揭示了各種基于元學習的FSL方法之間潛在的發展關系。
(4) 總結了最近在普通FSL之外出現的幾個外延研究課題,并回顧了這些課題的最新進展。這些主題包括半監督FSL、無監督FSL、跨域FSL、廣義FSL和多模態FSL,它們具有挑戰性,同時也為許多現實機器學習問題的解決賦予了突出的現實意義。這些擴展主題在以前的綜述中很少涉及。
(5) 我們廣泛總結了現有FSL在計算機視覺、自然語言處理、音頻和語音、增強學習和機器人、數據分析等各個領域的應用,以及目前FSL在基準測試中的表現,旨在為后續研究提供一本手冊,這是之前綜述中沒有涉及到的。
本文的其余部分組織如下。在第2節中,我們給出了一個概述,包括FSL的發展歷史、我們稍后將使用的符號和定義,以及現有FSL方法的分類建議。第3節和第4節分別詳細討論了基于生成模型的方法和基于判別模型的方法。然后,第5節總結了FSL中出現的幾個擴展主題。在第6節中,我們廣泛地研究了FSL在各個領域的應用以及FSL的基準性能。在第8節中,我們以對未來方向的討論來結束這次綜述。
當前的深度學習研究以基準評價為主。如果一種方法在專門的測試集上有良好的經驗表現,那么它就被認為是有利的。這種心態無縫地反映在持續學習的重現領域,在這里研究的是持續到達的基準數據集。核心挑戰是如何保護之前獲得的表示,以免由于迭代參數更新而出現災難性地遺忘的情況。然而,各個方法的比較是與現實應用程序隔離的,通常通過監視累積的測試集性能來判斷。封閉世界的假設仍然占主導地位。假設在部署過程中,一個模型保證會遇到來自與用于訓練的相同分布的數據。這帶來了一個巨大的挑戰,因為眾所周知,神經網絡會對未知的實例提供過于自信的錯誤預測,并在數據損壞的情況下崩潰。在這個工作我們認為值得注意的教訓來自開放數據集識別,識別的統計偏差以外的數據觀測數據集,和相鄰的主動學習領域,數據增量查詢等預期的性能收益最大化,這些常常在深度學習的時代被忽略。基于這些遺忘的教訓,我們提出了一個統一的觀點,以搭建持續學習,主動學習和開放集識別在深度神經網絡的橋梁。我們的結果表明,這不僅有利于每個個體范式,而且突出了在一個共同框架中的自然協同作用。我們從經驗上證明了在減輕災難性遺忘、主動學習中查詢數據、選擇任務順序等方面的改進,同時在以前提出的方法失敗的地方展示了強大的開放世界應用。
//www.zhuanzhi.ai/paper/e5bee7a1e93a93ef97e1c
概述:
隨著實用機器學習系統的不斷成熟,社區發現了對持續學習[1]、[2]的興趣。與廣泛練習的孤立學習不同,在孤立學習中,系統的算法訓練階段被限制在一個基于先前收集的i.i.d數據集的單一階段,持續學習需要利用隨著時間的推移而到來的數據的學習過程。盡管這種范式已經在許多機器學習系統中找到了各種應用,回顧一下最近關于終身機器學習[3]的書,深度學習的出現似乎已經將當前研究的焦點轉向了一種稱為“災難性推理”或“災難性遺忘”的現象[4],[5],正如最近的評論[6],[7],[8],[9]和對深度持續學習[8],[10],[11]的實證調查所表明的那樣。后者是機器學習模型的一個特殊效應,機器學習模型貪婪地根據給定的數據群更新參數,比如神經網絡迭代地更新其權值,使用隨機梯度估計。當包括導致數據分布發生任何變化的不斷到達的數據時,學習到的表示集被單向引導,以接近系統當前公開的數據實例上的任何任務的解決方案。自然的結果是取代以前學到的表征,導致突然忘記以前獲得的信息。
盡管目前的研究主要集中在通過專門機制的設計來緩解持續深度學習中的這種遺忘,但我們認為,一種非常不同形式的災難性遺忘的風險正在增長,即忘記從過去的文獻中吸取教訓的危險。盡管在連續的訓練中保留神經網絡表示的努力值得稱贊,但除了只捕獲災難性遺忘[12]的度量之外,我們還高度關注了實際的需求和權衡,例如包括內存占用、計算成本、數據存儲成本、任務序列長度和訓練迭代次數等。如果在部署[14]、[15]、[16]期間遇到看不見的未知數據或小故障,那么大多數當前系統會立即崩潰,這幾乎可以被視為誤導。封閉世界的假設似乎無所不在,即認為模型始終只會遇到與訓練過程中遇到的數據分布相同的數據,這在真實的開放世界中是非常不現實的,因為在開放世界中,數據可以根據不同的程度變化,而這些變化是不現實的,無法捕獲到訓練集中,或者用戶能夠幾乎任意地向系統輸入預測信息。盡管當神經網絡遇到不可見的、未知的數據實例時,不可避免地會產生完全沒有意義的預測,這是眾所周知的事實,已經被暴露了幾十年了,但是當前的努力是為了通過不斷學習來規避這一挑戰。選擇例外嘗試解決識別不可見的和未知的示例、拒絕荒謬的預測或將它們放在一邊供以后使用的任務,通常總結在開放集識別的傘下。然而,大多數現有的深度連續學習系統仍然是黑盒,不幸的是,對于未知數據的錯誤預測、數據集的異常值或常見的圖像損壞[16],這些系統并沒有表現出理想的魯棒性。
除了目前的基準測試實踐仍然局限于封閉的世界之外,另一個不幸的趨勢是對創建的持續學習數據集的本質缺乏理解。持續生成模型(如[17]的作者的工作,[18],[19],[20],[21],[22]),以及類增量持續學習的大部分工作(如[12]中給出的工作,[23],[24],[25],[26],[27],[28])一般調查sequentialized版本的經過時間考驗的視覺分類基準如MNIST [29], CIFAR[30]或ImageNet[31],單獨的類只是分成分離集和序列所示。為了在基準中保持可比性,關于任務排序的影響或任務之間重疊的影響的問題通常會被忽略。值得注意的是,從鄰近領域的主動機器學習(半監督學習的一種特殊形式)中吸取的經驗教訓,似乎并沒有整合到現代的連續學習實踐中。在主動學習中,目標是學會在讓系統自己查詢接下來要包含哪些數據的挑戰下,逐步地找到與任務解決方案最接近的方法。因此,它可以被視為緩解災難性遺忘的對抗劑。當前的持續學習忙于維護在每個步驟中獲得的信息,而不是無休止地積累所有的數據,而主動學習則關注于識別合適的數據以納入增量訓練系統的補充問題。盡管在主動學習方面的早期開創性工作已經迅速識別出了通過使用啟發式[32]、[33]、[34]所面臨的強大應用的挑戰和陷阱,但后者在深度學習[35]、[36]、[37]、[38]的時代再次占據主導地位,這些挑戰將再次面臨。
在這項工作中,我們第一次努力建立一個原則性和鞏固的深度持續學習、主動學習和在開放的世界中學習的觀點。我們首先單獨回顧每一個主題,然后繼續找出在現代深度學習中似乎較少受到關注的以前學到的教訓。我們將繼續爭論,這些看似獨立的主題不僅從另一個角度受益,而且應該結合起來看待。在這個意義上,我們建議將當前的持續學習實踐擴展到一個更廣泛的視角,將持續學習作為一個總括性術語,自然地包含并建立在先前的主動學習和開放集識別工作之上。本文的主要目的并不是引入新的技術或提倡一種特定的方法作為通用的解決方案,而是對最近提出的神經網絡[39]和[40]中基于變分貝葉斯推理的方法進行了改進和擴展,以說明一種走向全面框架的可能選擇。重要的是,它作為論證的基礎,努力闡明生成建模作為深度學習系統關鍵組成部分的必要性。我們強調了在這篇論文中發展的觀點的重要性,通過實證證明,概述了未來研究的含義和有前景的方向。