亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

**最近許多機器學習成功的基礎是在大量非結構化文本上預訓練的自然語言表示。在過去的幾十年里,自然語言表示一直在越來越大的數據集上進行訓練,最近的表示在超過一萬億token上進行訓練。**然而,盡管有如此巨大的規模,現有的表示仍然面臨著長期以來的挑戰,如捕捉罕見的或長尾的知識和適應自然語言反饋。一個關鍵的瓶頸是,當前的表示依賴于在非結構化數據中記憶知識,因此最終受到非結構化數據中存在的知識的限制。非結構化數據具有關于許多實體(人、地點或事物)的有限事實,以及有限的特定于領域的數據,如面向目標的對話。本文利用大量未開發和精心策劃的資源結構數據來改善自然語言表示。結構化數據包括知識圖譜和項集合(例如,播放列表),它們包含實體之間豐富的關系,例如藝術家的出生地、一首歌的所有版本或同一藝術家的所有歌曲。從非結構化數據中學習這些關系可能很困難,因為它們在非結構化數據中可能不經常出現,甚至可能根本不存在。然而,結構化數據有其局限性:人們使用非結構化的自然語言進行交流,而結構化數據也可能是不完整的和嘈雜的。

//searchworks.stanford.edu/view/14641232 **在非結構化和結構化數據互補知識的激勵下,本文提出三種將結構化數據與非結構化數據相結合以訓練自然語言表示的技術。**我們的技術跨越了機器學習管道的三個主要部分:訓練數據、模型架構和訓練目標。首先,通過TalkTheWalk,我們使用結構化數據為會話推薦系統生成非結構化訓練數據。通過在合成數據上訓練一個會話音樂推薦系統,展示了結構化數據如何幫助提高對標準推薦基線的適應性。Bootleg引入了一種基于transformer的架構,利用結構化數據從非結構化文本中學習命名實體消歧的關鍵推理模式。學習這些推理模式,可以顯著提高在文本中很少或從不出現的實體的消歧能力,討論了將Bootleg應用于一家大型技術公司的生產助理任務的結果。利用TABi,在對比損失函數中添加結構化數據作為監督,以提高魯棒性,同時使用更通用的模型。實驗結果表明,TABi不僅提高了稀有實體檢索,而且在結構化數據不完整和有噪聲的環境中表現強勁。本文中介紹的三種技術——talkthewalk、Bootleg和TABi——證明了將結構化數據與非結構化數據相結合的訓練方法可以實現更魯棒和適應性更強的自然語言表示。

付費5元查看完整內容

相關內容

 (StanfordUniversity)位于加利福尼亞州,臨近舊金山,占地35平方公里,是美國面積第二大的大學。它被公認為世界上最杰出的大學之一,相比美國東部的常春藤盟校,特別是哈佛大學、耶魯大學,斯坦福大學雖然歷史較短,但無論是學術水準還是其他方面都能與常春藤名校相抗衡。斯坦福大學企業管理研究所和法學院在美國是數一數二的,美國最高法院的9個大法官,有6個是從斯坦福大學的法學院畢業的。

這篇博士論文解決了大型語言模型(LLMs)的兩個重要挑戰:魯棒性和可擴展性。首先,我們通過學習代碼表示的視角來提高大型語言模型的魯棒性。我在這里強調我們在ContraCode上的工作,該模型學習了對保留標簽編輯具有魯棒性的代碼表示。其次,我們從系統角度解決可擴展性挑戰。我們提出了Checkmate,這是一個通過最優再物化超越GPU內存容量限制來支持模型訓練的系統。此外,Skyplane,一種優化云對象存儲之間大批量數據傳輸的系統,使得在云端訓練更大的預訓練數據集成為可能。總的來說,這些貢獻為提高大型語言模型的魯棒性和可擴展性提供了一條路徑。

在1945年,Vannevar Bush設想出了一種名為memex的假想設備,該設備能夠存儲和索引人類的所有知識,使用戶能夠通過"全新形式的百科全書"查詢和導航知識。盡管Bush設想的memex是一種基于機械微膠片的設備,但他的遠見遠超出了該設備的物理形態。他預見了深度語言理解、知識存儲和推理系統的發展。大型語言模型(LLMs)通過學習可以查詢和推理的語言表示,已經朝這個方向取得了重大進展。不同于以往的語言模型,這些神經網絡在大量數據上進行訓練,以預測單詞并理解語言。他們在某些基準測試上達到了人類水平的表現,但也面臨著限制其廣泛部署的重大挑戰。具體來說,大型語言模型在兩個維度上面臨重要難關:魯棒性和可擴展性。大型語言模型的魯棒性是一個多面的挑戰。雖然大型語言模型在理解和生成文本方面取得了顯著進步,但他們仍然在處理幻覺、對輸入擾動的敏感性和組合泛化上存在困難。另一方面,可擴展性是一個關于規模和計算資源的挑戰。對于大型語言模型,交叉熵損失隨著模型規模、數據集規模和用于訓練的計算量的增加而呈冪律增長。在這篇博士論文中,我為持續改進大型語言模型的魯棒性和可擴展性做出了貢獻。

第二章:增強大型語言模型的魯棒性

在第二章中,我們研究了提高大型語言模型魯棒性的策略。這個討論的一個核心問題是語言建模目標是否會導致學習魯棒的語義表示,或者僅僅是基于局部上下文預測標記。為了回答這個問題,我們轉向源代碼的情境,其中程序的語義是由其執行定義的。我們探索了對比預訓練任務ContraCode,它學習代碼的功能而不是形式。ContraCode預訓練一個神經網絡,區分功能上類似的程序變體與眾多非等效的干擾項。這種策略在JavaScript總結和TypeScript類型推斷精度上顯示出改善。我們還介紹了一個新的零射擊JavaScript代碼克隆檢測數據集,結果表明與其他方法相比,ContraCode更具魯棒性和語義意義。

第三章:解決大型語言模型的可擴展性挑戰

在第三章中,我們開始解決大型語言模型的可擴展性挑戰,首先考察了在訓練大型模型過程中出現的"內存壁"問題。在這里,我們介紹了Checkmate,一個在DNN訓練中優化計算時間和內存需求之間權衡的系統。Checkmate解決了張量重制化優化問題,這是先前檢查點策略的一種推廣。它使用現成的MILP求解器確定最優的重制化計劃,并加速了數百萬次的訓練迭代。該系統可以擴展到復雜、現實的架構,并且是硬件感知的,使用基于特定加速器的配置文件成本模型。Checkmate使得能夠訓練實際網絡,其輸入最大可達5.1倍。

第四章:大型預訓練數據集的管理

在第四章中,我們探討了大型預訓練數據集的管理,這也是可擴展性挑戰的另一個方面。具體而言,我們研究了如何在云端目標之間收集和移動這些數據集。我們介紹了Skyplane,一個使用云感知網絡覆蓋來進行云對象存儲間批量數據傳輸的系統。它使用混合整數線性規劃來確定數據傳輸的最優覆蓋路徑和資源分配,從而優化價格和性能的平衡。Skyplane在單一云中的傳輸性能比公共云傳輸服務高出4.6倍,跨云傳輸性能高出5.0

付費5元查看完整內容

文本分類作為自然語言處理的基本任務已經被研究了幾十年。部署分類器能實現更高效的信息處理,這對于各種應用(包括決策制定)都非常有用。然而,分類器也存在挑戰性和長期的問題。隨著它們的使用增加,人們對其魯棒性、公平性、準確性和其他指標的期望也隨之增加。在本論文中,我們的目標是開發更易于部署且魯棒性更強的文本分類器,重點關注通過開發攻擊和防御方法來提高分類器對抗對手攻擊的魯棒性。對手攻擊對文本分類器來說是一個安全隱患,因為它們涉及惡意用戶微調一個句子以操縱分類器的輸出的情況。為了設計更有效的攻擊方法,我們首先關注提高對抗句子質量 - 與現有的優先考慮誤分類并忽略句子相似性和流暢性的方法不同,我們將這三個標準綜合為一個綜合評分。然后,我們概述了一個重寫和回滾框架,用于優化這個分數并在提高相似性和流暢性的同時實現最先進的攻擊成功率。其次,我們關注計算需求。現有方法通常使用組合搜索來查找更改多個單詞的對抗性示例,這些方法效率低下且需要向分類器發出許多查詢。我們通過提出單詞對抗性擾動攻擊來克服這個問題。這種攻擊只需要用一個高對抗性單詞替換原句中的一個單詞,從而顯著提高效率,同時攻擊成功率與現有方法相似。接下來我們研究防御。目前,防御攻擊的最常用方法是使用對抗性示例作為數據增強來訓練分類器,但這種方法受到許多攻擊方法低效的限制。我們證明通過使用我們高效的單詞擾動攻擊進行數據增強訓練分類器可以提高分類器對其他攻擊方法的魯棒性。我們還設計了原位數據增強,以抵消分類器輸入中的對抗性擾動。我們使用梯度范數來識別分類的關鍵詞,并使用預訓練的語言模型替換它們。我們的原位增強可以有效提高魯棒性,而不需要調整分類器。最后,我們探討了一個非常新穎的文本分類架構——基于提示的分類器的脆弱性,發現它們同樣容易受到攻擊。我們還開發了一個名為Fibber的庫,以促進對抗性魯棒性研究。

//dspace.mit.edu/handle/1721.1/150071

付費5元查看完整內容

近年來,機器人領域發展迅速,機器人被用于越來越多的應用中,從制造業到醫療健康再到家務勞動。機器人技術的關鍵挑戰之一是使機器人能夠在非結構化和動態環境中執行復雜的操作任務。雖然機器人學習和控制已經取得了重大進展,但許多現有方法受到限制,因為它們依賴于預定義的運動基元或通用模型,而這些模型沒有考慮到個人用戶、其他合作智能體或交互對象的特定特征。為了在這些不同的環境中有效地工作,機器人需要能夠適應不同的任務和環境,并與不同類型的智能體進行交互,如人類和其他機器人。本論文研究學習方法,使機器人能夠適應他們的行為,以實現智能機器人行為。

在本文的第一部分中,我們專注于使機器人更好地適應人類。我們首先探索如何利用不同的數據源為人類用戶實現個性化。研究了人類如何喜歡用低維控制器(如操縱桿)遙控輔助機器人手臂。本文提出一種算法,可以有效地開發輔助機器人的個性化控制。這里的數據是通過最初演示機器人的行為,然后詢問用戶以從操縱桿收集他們相應的首選遙操作控制輸入來獲得的。探索了利用較弱的信號來推斷智能體的信息,如物理修正。實驗結果表明,人工修正是相互關聯的,共同推理這些修正可以提高精度。最后,研究了機器人如何通過推理和利用團隊結構更有效地與人類團隊合作和影響人類團隊,而不是只適應單個人類用戶。將該框架應用于兩種類型的群體動力學,即領導-跟隨和捕食者-被捕食者,并證明機器人可以首先開發一種群體表示,并利用這種表示成功地影響一個群體以實現各種目標。

在本文的第二部分,我們將研究范圍從人類用戶擴展到機器人智能體。本文解決了分散的機器人團隊如何通過只觀察其他智能體的行動來相互適應的問題。本文發現了團隊中存在無限推理循環的問題,并通過為機器人智能體分配不同的角色,如"發言人"和"聽眾",提出了解決方案。這種方法使我們能夠將觀察到的行動視為一個溝通渠道,從而實現分散團隊內的有效協作。在本文的第三部分,我們探討了如何通過開發定制的工具來適應不同的任務。強調了工具在確定機器人如何與物體交互方面的關鍵作用,使它們在為特定任務定制機器人方面變得重要。為解決這個問題,本文提出一個端到端的框架,通過利用可微物理模擬器來自動學習富接觸操作任務的工具形態學。最后,對全文進行了總結,并對未來的研究方向進行了展望。

付費5元查看完整內容

隨著人工智能和大數據的爆炸式增長,如何合理地組織和表示海量的知識變得至關重要。知識圖譜作為圖數據,積累和傳遞現實世界的知識。知識圖譜可以有效地表示復雜信息;因此,近年來迅速受到學術界和工業界的關注。為了加深對知識圖譜的理解,對該領域進行了系統綜述。具體來說,關注知識圖譜的機遇和挑戰。首先從兩個方面回顧了知識圖譜的發展機遇: (1)基于知識圖譜構建的人工智能系統; (2)知識圖譜的潛在應用領域。然后,深入討論了該領域面臨的知識圖譜表示、知識獲取、知識補全、知識融合和知識推理等技術挑戰;本綜述將為知識圖譜的未來研究和發展提供新的思路。 //www.zhuanzhi.ai/paper/93a14b6709974a3bbd86c10302053fea1. 引言

知識在人類的生存和發展中起著至關重要的作用。學習和表示人類知識是人工智能(AI)研究中的關鍵任務。雖然人類能夠理解和分析周圍環境,但AI系統需要額外的知識才能獲得相同的能力并解決現實場景中的復雜任務(Ji et al, 2021)。為了支持這些系統,我們已經看到了根據不同的概念模型來表示人類知識的許多方法的出現。在過去十年中,知識圖譜已經成為這一領域的標準解決方案,也是學術界和工業界的研究趨勢(Kong et al, 2022)。 **知識圖譜被定義為積累和傳遞真實世界知識的數據圖譜。知識圖譜中的節點表示感興趣的實體,邊表示實體之間的關系(Hogan et al, 2021;Cheng et al, 2022b)。**這些表示利用了形式化語義,這使得計算機能夠高效且無歧義地處理它們。例如,實體“比爾·蓋茨”可以與實體“微軟”聯系起來,因為比爾·蓋茨是微軟的創始人;因此,他們在現實世界中是有關系的。 由于知識圖譜在機器可讀環境下處理異構信息方面的重要意義,近年來對這些解決方案持續開展了大量研究(Dai et al, 2020b)。所提出的知識圖譜最近被廣泛應用于各種人工智能系統(Ko等,2021;Mohamed et al, 2021),如推薦系統、問答系統和信息檢索。它們也被廣泛應用于許多領域(例如教育和醫療保健),以造福人類生活和社會。(Sun et al, 2020;Bounhas et al, 2020)。 因此,知識圖譜通過提高人工智能系統的質量并應用到各個領域,抓住了巨大的機遇。然而,知識圖譜的研究仍然面臨著重大的技術挑戰。例如,現有的從多個來源獲取知識并將其集成到典型的知識圖譜中的技術存在很大的局限性。因此,知識圖譜在現代社會中提供了巨大的機遇。然而,它們的發展存在著技術上的挑戰。因此,有必要對知識圖譜進行機遇與挑戰的分析,以更好地理解知識圖譜。 為深入了解知識圖譜的發展歷程,全面分析了知識圖譜面臨的機遇和挑戰。首先,從知識圖譜顯著提升人工智能系統性能和受益于知識圖譜的應用領域兩個方面討論了知識圖譜的機遇;然后,考慮到知識圖譜技術的局限性,分析了知識圖譜面臨的挑戰;本文的主要貢獻如下:

**知識圖譜研究綜述。**對現有的知識圖譜研究進行了全面的調研。詳細分析了知識圖譜的最新技術和應用進展。

**知識圖譜機遇。**本文從利用知識圖譜的基于知識圖譜的人工智能系統和應用領域的角度,研究了知識圖譜的潛在機會。研究了知識圖譜對人工智能系統的好處,包括推薦系統、問答系統和信息檢索。然后,通過描述知識圖譜在教育、科研、社交媒體、醫療等各個領域的當前和潛在應用,探討了知識圖譜對人類社會的深遠影響。

**知識圖譜挑戰。**本文對知識圖譜面臨的重大技術挑戰提供了深入的見解。特別地,從知識圖譜表示、知識獲取、知識圖譜補全、知識融合和知識推理等5個方面,分析了目前具有代表性的知識圖譜技術的局限性。

論文的其余部分組織如下。第2節對知識圖譜進行概述,包括知識圖譜的定義和現有研究的分類。第3節和第4節分別介紹了相關的AI系統和應用領域,探討了知識圖譜的機遇。第5節詳細介紹了基于這些技術的知識圖譜面臨的挑戰。最后,在第6節對本文進行總結。

2 概述

首先給出知識圖譜的定義;然后,對該領域的重要最新研究進行了分類。 2.1 什么是知識圖譜?

知識庫是一種典型的數據集,它以三元組的形式表示現實世界中的事實和語義關系。當三元組被表示為一個邊為關系、節點為實體的圖時,它被認為是一個知識圖譜。通常,知識圖譜和知識庫被視為同一個概念,可以互換使用。此外,知識圖譜的模式可以定義為一個本體,它顯示了特定領域的屬性以及它們之間的關系。因此,本體構建是知識圖譜構建的一個重要階段。

2012年,谷歌首次提出了知識圖譜,介紹了他們的知識庫谷歌知識圖譜(Ehrlinger and W¨o?, 2016)。隨后,引入并采用了許多知識圖譜,例如:

DBpedia,一個知識圖譜,它試圖從維基百科中發現有語義意義的信息,并將其轉化為DBpedia中一個有效的結構良好的本體知識庫(Auer et al, 2007)。 * Freebase,一個基于多個來源的知識圖譜,提供結構化和全球性的信息資源(Bollacker et al, 2008)。 * Facebook的實體圖(entity graph),這是一個知識圖譜,可以將用戶配置文件的非結構化內容轉換為有意義的結構化數據(Ugander et al, 2011)。 * Wikidata,一個跨語言的面向文檔的知識圖譜,支持許多網站和服務,如維基百科(Vrande ci′c and Kr¨otzsch, 2014)。 * Yago,是一個高質量的知識庫,包含大量的實體及其對應關系。這些實體是從維基百科和WordNet等多個來源提取的(Rebele et al, 2016)。 * WordNet,是一個衡量單詞之間語義相似度的詞匯知識庫。該知識庫包含許多層次概念圖來分析語義相似度(Pedersen et al, 2004)。

知識圖譜是由節點和邊組成的有向圖,其中一個節點表示一個實體(真實對象或抽象概念),兩個節點之間的邊表達了兩個實體之間的語義關系(Bordes et al, 2011)。資源描述框架(Resource Description Framework, RDF)和標簽屬性圖(Labeled Property Graphs, LPGs)是兩種典型的知識圖譜表示和管理方法(F¨arber等,2018;博肯,2020)。知識圖譜的基本單位是三元組(主語、謂語、賓語)(或(頭、關系、尾)),即(比爾·蓋茨,創始人,微軟)。由于關系不一定是對稱的,所以鏈接的方向很重要。因此,知識圖譜也可以看成是頭部實體通過關系邊指向尾部實體的有向圖

圖2知識圖譜研究

圖1描繪了一個簡單知識圖譜的例子。如圖1所示,圖中顏色變暗2 的節點e1 and通過關系r連接,關系r從e1到e2。因此,e1、e2、r1可以形成三元組(e1、r1、e2),其中eand分別2 是頭實體1 和尾實體。 近年來,知識圖譜得到了廣泛的研究興趣。大量的研究集中在對知識圖譜的探索上。對知識圖譜進行了全面的綜述,列出了當前該領域的7類重要研究。圖2顯示了關于知識圖譜的最流行的研究路線的模式。其中,人工智能系統是利用知識圖譜作為基礎的服務,應用領域是知識圖譜所觸及的領域。列出這兩條研究方向是為了探討知識圖譜的發展機遇。另外5個研究方向是5個主要的知識圖譜技術,對應5個任務。對這5種技術進行了介紹,并強調了它們的局限性,為知識圖譜面臨的主要挑戰提供了有益的啟示。 * 知識圖譜嵌入:知識圖譜嵌入是知識圖譜嵌入研究的中心問題之一。該任務旨在將知識圖譜中的實體和關系映射到低維向量空間,從而高效地捕捉知識圖譜的語義和結構(Dai等,2020b)。然后,通過機器學習模型可以有效地學習得到的特征向量。三種主要的基于三元組事實的嵌入方法如下:(a)基于張量因子分解的,(b)基于翻譯的,和(c)基于神經網絡的方法(Dai et al, 2020b)。 * **知識獲取:**知識獲取主要是對知識圖譜進行建模和構建,是知識圖譜研究的另一個重要研究方向。通常,知識是通過使用映射語言(如R2RML)從結構化來源導入的(Rodriguez- Muro and Rezk, 2015)。此外,知識可以從

非結構化文檔(如新聞、研究論文和專利),采用關系、實體或屬性提取方法(Liu et al, 2020;Yu et al, 2020;Yao et al, 2019)。 * 知識圖譜完備性:盡管構建知識圖譜的方法有很多,但要建立一個領域內所有知識的全面表示仍然是不可實現的。大多數知識圖譜仍然缺乏大量的實體和關系。因此,對完備的知識圖譜進行了大量的研究。知識圖譜補全技術旨在通過預測新增的關系和實體來提高知識圖譜的質量。第一個任務通常采用鏈接預測技術生成三元組,然后對三元組的可信度評分進行分配(Ji et al, 2021)。第二個任務采用實體預測方法來獲取和整合來自外部來源的進一步信息。

**知識融合:**知識融合也是一個重要的研究方向,專注于捕獲不同來源的知識,并將其集成到知識圖譜中(Nguyen et al, 2020)。知識融合方法對于知識圖譜的生成和完善都有重要意義。最近,實體對齊已經成為實現知識融合任務的主要方法。 * **知識推理:**通過推理來豐富知識圖譜,旨在基于現有數據推斷新的事實(Minervini et al, 2020),是目前的研究熱點。特別是,在兩個不相連的實體之間推斷出新的關系,形成新的三元組。而且,通過推理出虛假的事實,知識推理具有識別錯誤知識的能力。知識推理的主要方法包括基于邏輯規則的方法、基于分布式表示的方法和基于神經網絡的方法(Chen et al, 2020b)。 * 人工智能系統:如今,知識圖譜被推薦、問答系統和信息檢索工具等人工智能系統(Liang et al, 2022)廣泛使用。通常情況下,知識圖譜中豐富的信息可以提高解決方案的性能。因此,許多研究側重于利用知識圖譜來提高人工智能系統的性能。 * **應用領域:**知識圖譜在教育、科學研究、社交媒體和醫療保健等各個領域都有眾多應用(Li et al, 2020b)。提高人類生活水平,需要各種智能應用。

與其他工作不同,重點關注知識圖譜的機遇與挑戰。特別是,隨著人工智能服務質量的提高,知識圖譜在各個領域的應用將迎來巨大的機遇。相反,認為知識圖譜技術的局限性是其面臨的挑戰。因此,討論知識圖譜表示、知識獲取、知識圖譜補全、知識融合、知識推理等方面的技術局限性。 3 面向人工智能系統的知識圖譜

本節通過分析知識圖譜對提高人工智能系統的功能所帶來的優勢,來說明它所帶來的機遇。具體來說,有幾個系統,包括推薦系統、問答系統和信息檢索工具(Guo et al, 2020;鄒,2020),將知識圖譜用于輸入數據,并從知識圖譜中獲益最大。除了這些系統外,其他人工智能系統,如圖像識別系統(Chen et al, 2020a),也開始考慮知識圖譜的特征。然而,知識圖譜在這些系統中的應用并不廣泛。此外,這些系統并沒有直接利用知識圖譜對輸入數據進行性能優化。因此,詳細討論了知識圖譜為推薦系統、問答系統和信息檢索工具帶來的優勢,分析了知識圖譜的發展機遇。通常,這些解決方案可以從采用知識圖譜中獲益,這些圖譜提供了高質量的領域知識表示。表1展示了我們將在下面討論的AI系統的摘要。

推薦系統 * 問答系統 * 信息檢索

4 應用和潛力

在本節中,我們將討論知識圖譜在教育、科學研究、社會網絡和健康/醫療保健四個領域的應用和潛力。盡管一些研究人員試圖利用知識圖譜開發其他領域的有益應用,如金融(Cheng et al, 2022c),但基于知識圖譜的智能服務在這些領域相對模糊,仍然需要探索。因此,本節主要圍繞教育、科研、社會網絡、醫療等方面,對知識圖譜的機遇進行總結。表2給出了知識圖譜在這些領域的幾個最新應用。 5 技術挑戰

雖然知識圖譜為各種服務和應用提供了極好的機會,但仍有許多挑戰有待解決(Noy等,2019)。具體而言,現有知識圖譜技術的局限性是推動知識圖譜發展的關鍵挑戰(Hogan et al, 2021)。因此,本節從知識圖譜嵌入、知識獲取、知識圖譜補全、知識融合和知識推理這5種熱門知識圖譜技術的局限性出發,討論知識圖譜面臨的挑戰。 5.1 知識圖譜的嵌入

知識圖譜嵌入的目標是在低維向量空間中有效表示知識圖譜,同時仍保留其語義(Xia et al, 2021;Vashishth et al, 2020)。首先,將實體和關系嵌入到給定知識圖譜的稠密維空間,并定義評分函數衡量每個事實(三元組)的可信性;然后,最大化事實的似然性以獲得實體和關系的嵌入(Chaudhri等人,2022;Sun et al, 2022)。知識圖譜的表示為下游任務帶來了諸多好處。基于三元組事實的知識圖譜嵌入方法主要有3類:基于張量因子化的方法、基于翻譯的方法和基于神經網絡的方法(Rossi et al, 2021)。 5.1.1 基于張量因子分解的方法

基于張量因子分解方法的核心思想是將知識圖譜中的三元組轉化為3D張量(Balazevi′c et al, 2019)。如圖5所示,張量X∈Rm×m×n,其中m和n分別表示實體和關系的數量,包含n個切片,每個切片對應一種關系類型。當滿足條件Xijk = 1時,知識圖譜中存在三元組(ej i, rk, e),其中e和r分別表示實體和關系。否則,當Xijk = 0時,表示知識圖譜中不存在這樣的三元組。那么,張量由由實體和關系的向量組成的嵌入矩陣表示。 5.1.2 基于翻譯的方法

基于翻譯的方法利用了基于翻譯不變性的評分函數。翻譯不變性解釋兩個詞的向量之間的距離,這是由它們的語義關系的向量表示的(Mikolov等人,2013)。Bordes et al. (Bordes et al., 2013)首先利用基于翻譯不變性的評分函數進行度量

嵌入結果。他們創造性地提出了TransE模型,該模型將知識圖譜中所有的實體和關系轉換到一個連續的低向量空間中。具體來說,三元組中頭部和尾部實體的向量由它們關系的向量連接起來。因此,在向量空間中,每個三元組的語義含義都被保留了下來。形式上,給定一個三元組(頭、關系、尾),頭實體、關系、尾實體的嵌入向量分別是h、r、t。在向量空間中,三元組(h, r, t)的似真度由基于平移不變性的評分函數計算,以確保它遵循幾何原理:h + r≈t。 在TransE之后,相關的擴展不斷被提出,如TransH (Wang et al, 2014)和TransR (Lin et al, 2015),以提高基于翻譯的知識圖譜表示的性能。

5.1.3 基于神經網絡的方法

目前,深度學習已經成為知識圖譜表示的流行工具,有相當多的研究提出使用神經網絡表示知識圖譜的三元組(Dai et al, 2020a)。在本節中,以SME、ConvKB和R-GCN這3個代表性的工作為例,對基于神經網絡的知識圖譜表示進行簡要介紹。 SME (Bordes et al, 2014)設計了一個能量函數來進行語義匹配,該能量函數利用神經網絡來度量知識圖譜中每個三元組(h, r, t)的置信度。SME的評分函數定義如下:

SME (bilinear)的評分函數為:

5.1.4 現有方法的局限性

現有的知識圖譜嵌入方法仍然存在嚴重的局限性。許多已有的方法只考慮知識圖譜的表面事實(三元組)。然而,忽略了實體類型和關系路徑等附加信息,這些信息可以進一步提高嵌入精度。大多數不考慮附加信息的傳統方法的性能并不令人滿意。表3列出了不考慮附加信息的嵌入方法。在表3中,性能評估是基于鏈接預測和三元組分類任務。用于評估結果的指標是命中率為10 (Hits@10)和準確率。如表3所示,只有少數模型有令人印象深刻的結果,包括QuatE(90%)、RMNN(89.9%)和KBGAN(89.2%)的結果。近年來,一些研究人員開始將附加信息與知識圖譜結合起來,以提高模型嵌入的效率。例如,Guo et al. (Guo et al, 2015)利用附加的實體類型信息,即每個實體的語義類別,來獲得實體之間的相關性,并解決數據稀疏問題。因此,知識圖譜的表示更加準確。不僅是實體類型,有些其他信息,包括關系路徑(Li et al, 2021)、動態圖的時間信息(Messner et al, 2022)和實體的文本描述(An et al, 2018),近年來也得到了研究人員的關注。然而,如何有效利用豐富的附加信息來提高知識圖譜表示的準確性仍然是一個艱巨的挑戰。 一般附加信息不能充分表示三元組的語義。例如,實體類型與三元組的語義信息無關。此外,可以納入三元組特征的附加信息的類型現在受到了嚴重的限制。因此,為了提高現有知識圖譜嵌入方法的性能,需要在三元組特征中融入多元信息(如關系的分層描述、實體類型與文本描述的結合)。 就我們所知,復雜關系路徑仍然是一個開放的研究問題(Peng et al, 2021)。例如,內在關系,指的是兩個不相連的實體之間的間接關系,沒有被有效地表示出來。雖然通過知識圖譜中的關系鏈可以挖掘實體間的內在關系,但實體間的內在關系復雜多樣。因此,有效地表示這些關系并不是一件直接的事情。 5.2 知識獲取

知識獲取是融合不同來源的數據并生成新的知識圖譜的關鍵步驟。知識從結構化和非結構化數據中提取。知識獲取的三種主要方法是關系抽取、實體抽取和屬性抽取(Fu et al, 2019)。這里,屬性抽取可以看作是實體抽取的一種特例。Zhang等人(Zhang et al, 2019b)利用知識圖譜嵌入和圖卷積網絡提取長尾關系。Shi等人(Shi et al, 2021)提出實體集擴展構建大規模知識圖譜。 然而,現有的知識獲取方法仍然面臨準確率低的挑戰,這可能導致知識圖譜不完整或噪音大,阻礙下游任務的完成。因此,第一個關鍵問題是知識獲取工具及其評估的可靠性。此外,特定于領域的知識圖譜模式是面向知識的,而構建的知識圖譜模式是面向數據的,以覆蓋所有數據特征(Zhou等,2022)。因此,從原始數據中抽取實體和屬性來生成特定領域的知識圖譜是低效的。因此,如何通過生成面向特定領域的知識圖譜來高效地完成知識獲取任務是一個至關重要的問題。 此外,現有的知識獲取方法大多針對特定語言構建知識圖譜。然而,為了使知識圖譜中的信息更豐富、更全面,需要進行跨語言實體抽取。因此,給予更多是至關重要的 關注跨語言實體抽取和多語言知識圖譜的生成。例如,Bekoulis et al.(Bekoulis et al, 2018)提出了一種跨語言(英語和荷蘭語)實體和關系抽取的聯合神經模型。然而,由于非英語訓練數據集有限,語言翻譯系統并不總是準確的,并且跨語言實體抽取模型必須針對每一種新語言重新訓練,多語言知識圖譜構建仍然是一項艱巨的任務。 多模態知識圖譜構建被認為是知識獲取的另一個具有挑戰性的問題。現有的知識圖譜多采用純符號表示,導致機器理解現實世界的能力較差(Zhu et al, 2022b)。因此,許多研究人員關注于包含文本、圖像等多種實體的多模態知識圖譜。多模態知識圖譜的構建需要探索具有不同模態的實體,使得知識獲取任務復雜且效率低下。

5.3 知識圖譜補全

知識圖譜通常是不完整的,即缺少幾個相關的三元組和實體(Zhang et al, 2020b)。例如,在Freebase,最著名的知識圖譜之一,超過一半的人實體沒有關于他們的出生地和父母的信息。一般情況下,可用于保證知識圖譜質量的半自動化和人工利用機制是知識圖譜完成度評價必不可少的工具。具體而言,人類監督目前被認為是知識圖譜完成中的金標準評價(Ballandies和Pournaras, 2021年)。

知識圖譜補全旨在利用鏈接預測技術,通過添加新的三元組來擴展現有的知識圖譜(Wang et al, 2020b;Akrami et al, 2020)和實體預測(Ji et al, 2021)。這些方法通常在知識圖譜上訓練機器學習模型,以評估新的候選三元組的合理性。然后,他們將具有高可信度的候選三元組添加到圖譜中。例如,對于一個不完整的三元組(Tom, friendOf, ?),可以評估尾巴的范圍,并返回更可信的,以豐富知識圖譜。這些模型成功地利用了許多不同領域的知識圖譜,包括數字圖書館(Yao等,2017年)、生物醫學(Harnoune等,2021年)、社交媒體(Abu-Salih, 2021年)和科學研究(Nayyeri等,2021年)。一些新的方法能夠處理每個三元組與置信值相關聯的模糊知識圖譜(Chen et al, 2019)。

然而,現有的知識圖譜補全方法僅關注于從封閉世界的數據源中抽取三元組。這意味著生成的三元組是新的,但三元組中的實體或關系需要已經存在于知識圖譜中。例如,對于不完整的三元組(Tom, friendOf, ?),只有當實體Jerry已經在知識圖譜中,才有可能預測三元組(Tom, friendOf, Jerry)。由于這一限制, 這些方法無法向知識圖譜中添加新的實體和關系。為了解決這個問題,我們開始看到知識圖譜補全的開放世界技術的出現,這些技術從現有的知識庫之外提取潛在的對象。例如,ConMask模型(Shi和Weninger, 2018)被提出用于預測知識圖譜中未見實體。然而,開放世界知識圖譜的補全方法仍存在準確率不高的問題。主要原因是數據源通常比較復雜和嘈雜。此外,預測的新實體與現有實體的相似性可能會誤導結果。換句話說,兩個相似的實體被視為有聯系的實體,而它們可能沒有直接關系。

知識圖譜補全方法假設知識圖譜是靜態的,無法捕捉知識圖譜的動態演化。為了獲得隨時間變化的準確事實,考慮反映知識有效性的時態信息的時態知識圖譜補全技術應運而生。與靜態知識圖譜補全方法相比,時序知識圖譜補全方法將時間戳融入到學習過程中。因此,它們探索了時間敏感的事實,并顯著提高了鏈路預測精度。時序知識圖譜補全方法在取得優異性能的同時,也面臨著嚴峻的挑戰。由于這些模型認為時間信息的效率較低(Shao et al, 2022),時序知識圖譜補全的關鍵挑戰是如何有效地將事實的時間戳納入學習模型,并適當地捕獲事實的時序動態。

5.4 知識融合

知識融合旨在將來自不同數據源的知識進行組合和整合。它往往是知識圖譜生成的必要步驟(Nguyen et al, 2020;Smirnov和Levashova, 2019)。知識融合的主要方法是實體對齊或本體對齊(Ren et al, 2021),旨在從多個知識圖譜中匹配同一實體(Zhao et al, 2020)。由于數據的復雜性、多樣性和大數據量,實現高效、準確的知識圖譜融合是一項具有挑戰性的任務。

雖然在這個方向已經做了大量的工作,但仍然有幾個有趣的研究方向值得在未來進行研究。這通常用于支持跨語言推薦系統(Javed et al, 2021)。例如,Xu et al. (Xu et al., 2019)采用圖匹配神經網絡實現跨語言實體對齊。然而,由于來自不同語言的匹配實體的準確率相對較低,跨語言知識融合的結果仍然不盡人意。因此,探索跨語言知識融合仍然是一項艱巨的挑戰。

另一個主要挑戰是實體消歧(Nguyen et al, 2020)。作為自然語言的一詞多義問題,同一個實體在不同的知識圖譜中可能有不同的表達方式。因此,在進行實體對齊之前,需要對實體進行消歧。現有的實體消歧方法主要集中在基于從包含豐富語境信息的文本中提取知識來判別和匹配歧義實體(Zhu and Iglesias, 2018)。然而,當文本較短且上下文信息有限時,這些方法無法精確衡量實體的語義相似度。只有少數工作專注于解決這個問題。例如,Zhu和Iglesias (Zhu and Iglesias, 2018)提出了用于實體消歧的SCSNED。SCSNED同時基于知識圖譜中實體的含信息量詞和短文本中的上下文信息來度量語義相似度。雖然SCSNED在一定程度上緩解了上下文信息有限的問題,但還需要更多的努力來提高實體消歧的性能。

此外,許多知識融合方法只注重匹配具有相同模態的實體,忽略了知識以不同形式呈現的多模態場景。具體而言,僅考慮單模態知識圖譜場景的實體對齊,由于不能充分反映現實世界中實體之間的關系,性能不顯著(Cheng等,2022a)。最近,為了解決這一問題,一些研究提出了多模態知識融合,將具有不同模態的實體進行匹配,生成多模態知識圖譜。例如,HMEA (Guo et al, 2021)通過將多模態表示映射到雙曲空間,將實體與多種形式對齊。盡管許多研究人員已經在多模態知識融合方面進行了研究,但這仍然是一項關鍵任務。多模態知識融合主要是通過整合它們的多模態特征來尋找等價實體(Cheng et al, 2022a)。然而,如何有效地合并具有多模態的特征仍然是當前方法面臨的棘手問題。

5.5 知識推理

知識推理的目標是推理新的知識,如兩個實體之間的隱式關系(Liu等人,2021;Wang et al, 2019c),基于現有數據。對于給定的知識圖譜,其中存在兩個不相連的實體h和t,表示為h, t∈G,這里G表示知識圖譜,知識推理可以發現這些實體之間的潛在關系r,形成新的三元組(h, r, t)。知識推理方法主要分為基于邏輯規則的方法(De Meester et al, 2021)、基于分布式表示的方法(Chen et al, 2020b)和基于神經網絡的方法(Xiong et al, 2017)。基于邏輯規則的知識推理旨在根據隨機游走和邏輯規則發現知識,而基于分布式表示的知識推理則將實體和關系嵌入到向量空間中以獲得分布式表示(Chen et al, 2020b)。 基于網絡的知識推理方法在給定圖中的知識體的情況下,利用神經網絡來推斷新的三元組(Xian et al, 2019)。 在知識推理中有兩個任務:單跳預測和多跳推理(Ren et al, 2022)。單跳預測為給定的兩個元素預測三元組中的一個元素,而多跳推理預測多跳邏輯查詢中的一個或多個元素。換句話說,在多跳推理場景中,找到一個典型問題的答案并形成新的三元組,需要對多個邊和節點進行預測和填補。與單跳預測相比,多跳推理實現了更精確的三元組形成。因此,多跳推理受到越來越多的關注,成為近年來知識圖譜發展的迫切需求。盡管已有許多相關工作,但知識圖譜上的多跳推理仍處于起步階段。值得注意的是,海量知識圖譜上的多跳推理是具有挑戰性的任務之一(Zhu et al, 2022a)。例如,最近的研究主要集中在知識圖譜上的多跳推理,而這類圖譜只有63K個實體和592K個關系。對于數百萬個以上實體的海量知識圖譜,現有模型無法有效學習訓練集。此外,多跳推理需要遍歷知識圖譜中的多個關系和中間實體,這可能導致指數計算代價(Zhang et al, 2021)。因此,探索多跳知識推理仍然是一項艱巨的任務。 此外,對推斷出的新知識的驗證也是一個關鍵問題。知識推理豐富了現有的知識圖譜,給下游任務帶來了好處(Wan等,2021)。然而,推斷出的新知識有時是不確定的,新三元組的準確性需要驗證。此外,還需要檢測新知識與現有知識之間的沖突。為了解決這些問題,一些研究提出了多源知識推理(Zhao et al, 2020),可以檢測錯誤知識和沖突知識。總的來說,應該更多地關注多源知識推理和錯誤知識約簡。

6. 結論

知識圖譜在為各個領域創建許多智能服務和應用方面發揮了重要作用。本文從知識圖譜發展的機遇與挑戰兩個方面對其進行綜述。首先介紹了知識圖譜的定義和現有的研究方向,對知識圖譜進行了介紹性分析;之后,我們討論了利用知識圖譜的人工智能系統。然后,給出了知識圖譜在多個領域中的代表性應用;進一步,分析了現有知識圖譜技術存在的局限性和面臨的嚴峻技術挑戰。我們期待該調研為未來涉及知識圖譜的研發活動激發新的想法和有洞察力的視角。

付費5元查看完整內容

**自然語言生成(NLG)已經從深度學習技術的發展中取得了顯著的成功。隨著大規模的預訓練成為NLP中事實上的標準,大量的訓練數據和模型參數始終能夠在標準NLG任務中獲得最先進的性能。**雖然相當成功,但目前的NLG方法在幾個方面都是低效的,這阻礙了它們在更廣泛和實際的環境中的使用:(1)它們是標簽低效的-條件神經生成(例如機器翻譯)通常需要大量的注釋樣本來訓練,這限制了它們在低資源環境中的應用;(2)它們的參數效率不高——通常的做法是對預訓練的模型進行微調,使其適應下游任務,然而,這些模型可以擴展到數萬億的參數(Fedus等人,2021年),這將在服務大量任務時造成大量的內存占用;(3)最后,我們重點研究了趨勢模型類——檢索增強NLG模型的計算效率低下問題。它們從外部數據存儲中檢索以輔助生成,由于額外的計算,添加的數據存儲和檢索過程會引起不小的空間和時間成本。

**本文旨在對高效NLG的研究問題有更深入的理解,并利用這些見解來設計更好的方法。**具體來說,(1)在標簽效率方面,研究了無監督和半監督的條件生成,利用豐富的無標簽文本數據,從而減輕了對大量標注樣本的需求。所提出的方法在各種NLG任務上進行了驗證;(2)在參數效率方面,本文提出了一個統一的框架來連接參數高效的遷移學習,其中只需要更新少數參數,就可以使大型預訓練模型適應下游任務。所提出框架為這一方向提供了新的理解,以及為參數高效的NLG實例化最先進的方法;(3)對于檢索增強NLG的計算效率,我們設計了新的模型或后適應檢索組件,以壓縮數據存儲,減少檢索計算,并加快推理。 語言是人類交流的主要媒介。在人工智能中,語言是機器與人交流的主要接口之一,因此機器需要能夠理解并生成自然語言。本文重點研究后者,即自然語言生成。自然語言生成是最基本的范疇之一的任務在NLP,橫跨在機器翻譯(Bahdanau et al ., 2015),文本摘要(Rush et al ., 2015),對話生成(Sordoni et al ., 2015),數據描述(Novikova et al ., 2017),等等。隨著近年來深度學習在NLP領域的快速發展(Hochreiter and Schmidhuber, 1997;Bahdanau等人,2015;Vaswani et al., 2017),我們已經見證了這些任務的巨大進展。特別是大規模的自監督預訓練(Peters等人,2018;Devlin等人,2019a;)將NLG任務的性能提升到了一個新的水平(Lewis等人,2020a;Raffel等人,2020)。最近,越來越大的預訓練語言模型顯示出了將所有NLP任務作為生成任務處理的潛力,在適當的文本提示下實現有競爭力的零次或少次結果(Radford et al., 2019; Brown et al., 2020; Schick and Schütze, 2021c; Du et al., 2021; Liu et al., 2021a; Sanh et al., 2022)。盡管取得了巨大的成功,但目前的NLG方法在許多方面都是低效的,這阻止了它們在更廣泛的環境中使用。在本文中,我們考慮了以下三個方面的低效率。

標簽低效: 最先進的自然語言生成模型通常是深度編碼器-解碼器或僅解碼器的神經網絡,通常由自注意力transformer架構提供動力(Vaswani等人,2017)。這些模型以端到端的方式在具有交叉熵損失的并行示例上進行訓練。模型訓練需要大量的標注樣本才能達到合理的性能。例如,翻譯系統通常用數百萬個句子對進行訓練,以達到實際性能(Akhbardeh等人,2021);流行的文本摘要基準也由數十萬個并行示例組成(Hermann等人,2015;Narayan等人,2018)。然而,帶標簽的示例通常是稀缺資源——豐富的注釋只存在于某些領域。此外,目前大多數數據集都是以英語為中心的,而世界上有7000多種語言,這意味著大多數語言的任務標簽都不容易獲得。這對應用通用的深度NLG模型提出了挑戰。

**參數低效:**自監督預訓練技術已在各種NLP任務上取得了巨大成功(Peters等人,2018;Devlin等人,2019a;Liu等人,2019a;Yang等人,2019)。通常,模型首先只在自監督損失的情況下對原始文本進行預訓練,然后在帶有標記數據的下游任務上對預訓練模型進行微調。這樣的管道已經成為當今創建最先進的NLG系統的事實標準。在這個方向上,研究人員正在追求越來越強大的預訓練模型,這實際上在大多數情況下導致了更多的參數——越來越大的語言模型由數億到萬億參數組成(Brown et al., 2020;Fedus等人,2021;Rae等人,2021)。這樣,每個單獨的微調過程都會獲得巨大模型的不同副本,導致微調和推理時的參數利用率低下。當服務于大量任務時,這種參數低效會導致大量內存占用。

本文提出了一系列方法來提高自然語言生成的效率,從而可以在不顯著增加資源需求的情況下創建更好的NLG系統。首先描述了如何利用無標記樣本來幫助改善無監督或半監督文本生成(第一部分),然后提出了一個參數高效遷移學習(PETL)的統一框架和伴隨的最先進的PETL方法(第二部分)。PETL方法旨在微調凍結的大型模型的一小部分參數,以實現與完全微調相當的性能,從而提高參數效率。最后,我們關注通過減少數據存儲大小和加快檢索過程,在空間和時間上簡化檢索增強方法(第三部分)。

付費5元查看完整內容

機器學習和數據挖掘中的許多重要問題,如知識庫推理、個性化實體推薦、科學假設生成等,都可以歸結為圖數據結構上的學習和推理。這些問題代表了推進圖學習的令人興奮的機會,但也帶來了重大挑戰。由于圖通常是稀疏的,并且由模式定義,因此它們通常不能完全捕獲數據中潛在的復雜關系。將圖與豐富的輔助文本模態相結合的模型具有更高的表達潛力,但聯合處理這些不同的模態——即稀疏的結構化關系和密集的非結構化文本——并不是直接的。

本文考慮了通過結合結構和文本來改進圖學習的重要問題。論文的第一部分考慮了關系知識表示和推理任務,展示了預訓練上下文語言模型在為圖結構知識庫增加新的深度和豐富度方面的巨大潛力。論文的第二部分超越了知識庫,通過對文檔交互和內容進行聯合建模,改進信息檢索和推薦系統中出現的圖學習任務。所提出的方法在單模態和跨模態基線上不斷提高準確性,這表明,通過適當選擇的歸納偏差和仔細的模型設計,可以充分利用結構和文本的獨特互補方面。

//deepblue.lib.umich.edu/handle/2027.42/174515

付費5元查看完整內容

來自清華大學的韓旭博士論文,入選2022年度“CCF優秀博士學位論文獎”初評名單!

//www.ccf.org.cn/Focus/2022-12-08/781244.shtml

知識圖譜以結構化符號系統組織人類知識,是推動人工智能發展、支撐智能 服務應用的基礎技術。相比于現實世界中的海量知識,已有知識圖譜距離完善仍 有較大距離。開放域文本規模大、形式多、內容豐富,從開放域文本中自動獲取結 構化知識,是擴充知識圖譜的有效手段。本文面向開放域文本結構化知識獲取中 “一少三多” 四大挑戰,即標注數據少、長尾數據多、增量數據多、數據多源異構, 進行了四方面工作:

(1)面向遠程監督的降噪學習,包括:基于內部信息的遠程監督降噪,利用對 抗訓練挖掘數據內部信息來過濾遠程監督自動標注數據中的噪聲樣本;基于外部 信息的遠程監督降噪,利用實體間關系的層次結構作為外部信息來從自動標注數 據中選擇高質量樣本;遠程監督降噪的適用條件分析,系統評測各類遠程監督降 噪算法,剖析各類降噪機制的適用條件。 (2)面向長尾關系的小樣本學習,包括:小樣本知識獲取的框架構建,基于元 學習與度量學習構建針對知識獲取的小樣本學習框架;小樣本知識獲取的富信息 樣本選擇,基于混合注意力機制選擇富信息樣本來強化小樣本學習能力;小樣本 知識獲取的知識遷移,基于預訓練語言模型學習無標注數據來緩解樣本不足。

(3)面向新增關系的持續學習,包括:知識獲取的樣本持續挖掘,基于神經雪 球系統持續挖掘開放域文本中適于訓練知識獲取模型的樣本;知識獲取的模型持 續學習,基于記憶再鞏固進行開放域文本上實體間新關系的持續學習,規避災難 性遺忘問題。

(4)多源異構數據的聯合學習,包括:聯合跨結構信息的知識獲取,基于互注 意力進行非結構化文本與結構化知識圖譜的跨結構聯合;聯合跨語言信息的知識 獲取,基于對抗訓練在統一語義空間中進行多語言文本的跨語言聯合;聯合文本 與規則的知識獲取,基于預訓練語言模型提示微調進行文本與邏輯規則的聯合。

基于上述四方面工作,本文形成了開放域文本的結構化知識獲取算法體系。圍 繞該算法體系,本文也將從工程實現角度出發,介紹如何構建高效的知識應用系 統。上述算法與系統有利于進一步豐富知識圖譜的知識規模,促進當前數據驅動 的深度學習善于刻畫特征以及符號表示的結構化知識善于認知推理的雙重優勢結 合,對于揭示自然語言處理機理、實現智能語言理解具有重要意義。

付費5元查看完整內容

推理在人類歷史的各個時期都被采用,至少從兩千年前就開始研究,可以追溯到著名的古希臘哲學家亞里士多德,他展示了形式邏輯推理的原理[1]。人工智能(AI)的長期目標之一是建立能夠對其周圍環境進行推理的系統。從傳統的專家系統到現代機器學習和深度學習驅動的系統,研究人員在為各種任務建立智能系統方面做出了不懈的努力和巨大的進展。

在這篇論文中,我們對知識推理感興趣,它要求智能系統根據輸入或現有的知識來推斷新的知識[2]。知識推理是從現有的事實和規則中得出結論的過程[3],這需要一系列的能力,包括但不限于理解概念,應用邏輯,以及基于現有知識的校準或驗證架構[4]。隨著通信技術和移動設備的爆炸性增長,今天人類的大部分集體知識都駐留在互聯網上,以非結構化和半結構化的形式存在,如文本、表格、圖像、視頻等。如果沒有搜索引擎和問題回答系統等智能系統的幫助,人類要想瀏覽巨大的互聯網知識是非常困難的。為了滿足各種信息需求,在本論文中,我們開發了對結構化和非結構化數據進行知識推理的方法。

對于結構化數據,由于現有的大規模知識庫將百科知識存儲在圖結構中,如Freebase[5]、NELL[6]和Wikidata[7],我們可以通過查詢知識庫有效地查詢感興趣的知識。

在這篇論文中,我們研究了如何用圖嵌入技術對知識圖進行多跳推理。我們還研究了如何在一個一致的概率框架內進行符號推理,這可以應用于知識完成任務,根據知圖譜中的現有事實推斷出新的知識

盡管做出了最大的努力,現有的知識庫只能覆蓋人類知識的一小部分。人類的許多知識在本質上很難用任何允許的知識庫模式進行編碼,如常識和程序性知識[8]。事實上,絕大多數的人類知識只能存儲在非結構化文本中。為了對非結構化文本進行知識推理,在本論文中,我們利用大規模預訓練語言模型(如BERT[9],RoBERTa[10],ALBERT[11]等)的最新進展來產生高質量的上下文文本編碼,同時利用圖神經網絡在多個文檔中傳播信息。在圖神經網絡的幫助下,我們還開發了一種用于數字問題回答任務的方法,這是一個具有挑戰性的開放問題,需要對文本段落進行數字推理。

在這篇論文中,我們研究了一個假設,即圖神經網絡可以幫助提高各種知識推理任務的性能,包括知識圖譜的完成、知識感知問題的回答、開放域問題的回答等等。更具體地說,本論文試圖回答以下研究問題

1.如何在知識圖譜上進行多跳推理?我們應該如何利用圖神經網絡來有效地學習圖感知的表示?以及,如何系統地處理人類問題中的噪音?

2.如何在一個一致的概率框架中結合深度學習和符號推理?如何使推理對大規模的知識圖譜高效且可擴展?我們能否在表示能力和模型的簡單性之間取得平衡?

3.圖形神經網絡對于知識感知的QA任務的推理模式是什么?那些精心設計的GNN模塊真的能完成復雜的推理過程嗎?它們是不夠復雜還是過于復雜?我們能不能設計一個更簡單但有效的模型來達到類似的性能?

4.如何建立一個能夠對多個檢索到的文檔進行推理的開放域問題回答系統?如何有效地對檢索到的文檔進行排序和過濾,以減少下游的答案預測模塊的噪音?如何在多個檢索到的文檔中傳播和匯集信息?

5.如何回答那些需要對文本段落進行數字推理的問題?如何使預先訓練好的語言模型能夠進行數字推理?

在接下來的章節中,我們對上述研究問題進行了探討,發現圖神經網絡可以作為一個強大的工具,用于結構化和非結構化知識源的各種知識推理任務。在基于結構化圖形的知識源上,我們在圖結構的基礎上建立圖神經網絡,為下游推理任務捕獲拓撲信息。在基于非結構化文本的知識源上,我們首先識別圖結構信息,如實體共現和實體編號綁定,然后采用圖神經網絡對構建的圖進行推理,與預訓練的語言模型一起處理知識源的非結構化部分。

如上所述,知識圖譜并不總是可以用于各種領域的知識推理任務。即使我們能夠獲得現有的知識圖譜作為知識源,它們也可能來自于自動知識提取(如Wikidata[7]和ConceptNet[12]),并有可能引入大量的噪音。因此,在本論文中,我們從建立能夠處理噪音的強大推理框架開始。我們建立了一個端到端的可訓練的QA框架,以避免級聯錯誤;我們還設計了一個概率邏輯推理框架,利用一階邏輯規則來調節知識圖譜中的噪音。由于知識圖譜的低覆蓋率問題,我們在本論文的后半部分繼續探索基于文本的知識推理。我們建立了開放領域的質量保證框架,只需要大規模的文本語料庫,如維基百科作為知識源。此外,我們還研究了如何從文本段落中提取數字知識圖譜,然后在構建的圖之上進行數字推理。

1.1 貢獻

本論文的主要貢獻如下。

知識圖譜上的多跳問題回答(第三章)。對于復雜的信息需求,許多人的問題需要在知識圖譜上進行多跳知識推理。同時,當人們提出問題時,他們的表達通常是有噪聲的(例如,文本中的錯別字,或發音的變化),這對問題回答(QA)系統來說,在知識圖譜中匹配那些提到的實體是非難事。為了應對這些挑戰,我們提出了一個端到端的變異學習框架,它可以處理問題中的噪音,并同時學習進行多跳推理。我們還得出了一系列新的基準數據集,包括多跳推理的問題,由神經翻譯模型解析的問題,以及人聲中的問題。本章內容出現在AAAI 2018的論文集中[13]。

知識圖譜的概率邏輯推理(第四章)。作為一個優雅而強大的工具,馬爾科夫邏輯網絡(MLN)成功地結合了邏輯規則和概率圖模型,可以解決許多知識圖的推理問題。然而,MLN推理的計算量很大,使得MLN的工業規模應用非常困難。近年來,圖神經網絡(GNNs)已經成為解決大規模圖問題的高效工具。然而,GNN并沒有明確地將先驗邏輯規則納入模型,而且可能需要許多標記的例子來完成目標任務。我們探索了MLN和GNN的結合,并將圖神經網絡用于MLN的變異推理。本章的內容出現在ICLR 2020的論文集中[14]。

圖神經網絡的知識推理模式(第五章)。為了接近人類復雜的推理過程,最先進的質量保證系統通常使用精心設計的基于圖神經網絡(GNNs)的模塊來進行知識圖譜(KGs)的推理。然而,關于這些基于GNN的模塊的推理功能,許多問題仍然沒有解決。這些基于GNN的模塊真的能進行復雜的推理過程嗎?對于質量保證來說,它們是不夠復雜還是過于復雜?為了打開GNN的黑匣子并研究這些問題,我們剖析了最先進的用于質量保證的GNN模塊并分析了它們的推理能力。我們發現,即使是一個非常簡單的圖形神經計數器也能在流行的QA基準數據集上勝過所有現有的GNN模塊。我們的工作揭示了現有的知識感知型GNN模塊可能只進行一些簡單的推理,如計數。為知識驅動的質量保證建立全面的推理模塊仍然是一個具有挑戰性的開放問題。本章內容已提交給ICLR 2022,目前正在審核中。

多文檔的開放域問題回答(第6章)。作為一個實際的應用,開放域的質量保證需要檢索多個支持性文件。文檔檢索過程中往往會產生更多的相關但不支持的文檔,這就抑制了下游的噪聲敏感的答案預測模塊。為了應對這一挑戰,我們開發了一種方法來迭代檢索、重新排序和過濾文檔,并自適應地確定何時停止檢索過程。重排文檔是一個關鍵步驟,但由于問題和每個檢索到的文檔都是串聯的,所以非常耗時。因此,我們提出了一個解耦的上下文編碼框架,它有雙重的BERT模型:一個在線BERT,只對問題進行一次編碼;一個離線BERT,對所有的文檔進行預編碼并緩存其編碼。本章內容出現在SIGIR 2020[15]和SIGIR 2021[16]的論文集中。

文本段落上的數字問題回答(第7章)。對文本段落的數字推理,如加法、減法、分類和計數,是一項具有挑戰性的機器閱讀理解任務,因為它需要自然語言理解和算術計算。我們試圖使預先訓練好的語言模型,如BERT,在圖神經網絡的幫助下進行數字推理。更具體地說,我們為這種推理所需的段落和問題的上下文提出了一個異質圖表示,并設計了一個問題定向圖注意網絡來驅動所構建的異質圖上的多步驟數字推理。本章內容出現在EMNLP 2020的論文集中[17]。

1.2 論文大綱

我們首先在第二章中對相關工作進行了概述,作為本論文的背景。接下來的5章(三-七章)分為兩部分。第一部分探討了結構化數據的知識推理,包括多跳問題回答(第三章)和概率邏輯推理(第四章),這兩部分都是在現有的知識圖上工作。然后,我們研究圖神經網絡如何為知識意識的問題回答任務進行推理(第五章)。第二部分將重點轉向非結構化數據的知識推理,包括開放領域的問題回答(第六章)和數字問題回答(第七章),兩者都是在非結構化文本上工作。我們在第八章中總結了論文并討論了未來的研究方向。

付費5元查看完整內容

深度學習模型最近徹底改變了在線環境,為改善用戶體驗打開了許多令人興奮的機會。然而,這些模型也可能通過故意或惡意用戶制造或推廣虛假信息來引入新的威脅。在這篇論文中,我們提出了新的方法來對抗網上虛假信息的擴散。我們專注于自動事實驗證的任務,即根據外部可靠來源檢查給定索賠的準確性。我們分析了事實驗證系統所需的規范,并描述了對大量全面的免費文本信息資源進行操作時對效率的需求,同時確保對具有挑戰性的輸入的魯棒性和對參考證據修改的敏感性。我們的方法是通用的,正如我們所證明的,提高了事實驗證之外的許多其他模型的穩健性、效率和可解釋性。

在本文的第一部分,我們重點研究了句子對分類器的魯棒性、敏感性和可解釋性。我們提出了在大型策劃數據集中識別和量化特性的方法,這些方法不希望導致模型依賴于不可普遍化的統計線索。我們演示了對比證據對如何通過強制模型執行句子對推理來緩解這一問題。為了自動獲得這些例子,我們開發了一種新的基于原理的去噪管道,用于修改反駁證據以同意給定的主張。此外,我們提出了一個半自動的解決方案,從維基百科修訂中創建對比對,并共享一個新的大型數據集。

在第二部分中,我們轉向提高證據檢索和聲明分類模塊的推理效率,同時可靠地控制它們的準確性。我們引入了新的置信度測度,并對共形預測框架進行了新的擴展。我們的方法可以為每個輸入動態分配所需的計算資源,以滿足任意用戶指定的容忍水平。我們在多個數據集上演示了我們經過良好校準的決策規則可靠地提供了顯著的效率提高。

//dspace.mit.edu/handle/1721.1/140022

付費5元查看完整內容

面向知識圖譜的知識推理旨在通過已有的知識圖譜事實,去推斷新的事實,進而實現知識庫的補全。近年來,盡管基于分布式表示學習的方法在推理任務上取得了巨大的成功,但是他們的黑盒屬性使得模型無法為預測出的事實做出解釋。所以,如何設計用戶可理解、可信賴的推理模型成為了人們關注的問題。本文從可解釋性的基本概念出發,系統梳理了面向知識圖譜的可解釋知識推理的相關工作,具體介紹了事前可解釋推理模型和事后可解釋推理模型的研究進展;根據可解釋范圍的大小,本文將事前可解釋推理模型進一步細分為全局可解釋的推理和局部可解釋的推理;在事后解釋模型中,本文回顧了推理模型的代表方法,并詳細介紹提供事后解釋的兩類解釋方法。此外,本文還總結了可解釋知識推理在醫療、金融領域的應用。隨后,本文對可解釋知識推理的現狀進行概述,最后展望了可解釋知識推理的未來發展方向,以期進一步推動可解釋推理的發展和應用。

//www.jos.org.cn/jos/article/abstract/6522

知識圖譜(Knowledge Graph)本質是一種語義網絡,通常用 (頭實體,關系,尾實體)/ ( ,r, t) h 這樣 的三元組來表達事物屬性以及事物之間的語義關系。自谷歌提出知識圖譜概念以來,知識圖譜已經為智能 問答、對話生成、個性化推薦等多個 NLP 任務領域提供了有力支撐。雖然目前的知識圖譜中存在大量的實 體和事實數據,但是這樣大規模的數據仍然不完整,大量缺失的三元組嚴重限制了這些下游任務的性能。知識推理,這一旨在根據一定的推理機制去預測圖譜中缺失三元組的任務,也吸引了學術界越來越多的目光。

早在 2013 年,Li 等人[1] 提出利用表示學習的方法去做知識推理,通過將實體和關系映射到低維連續 的向量空間,將推理預測任務轉化為實體與關系所關聯的簡單的向量/矩陣操作。鑒于該方法的自由度高、 可計算性好、推理效率高等優點,該類方法在近幾年得到了廣泛關注和發展,并且廣泛的應用在推薦系統、 對話生成等互聯網場景。在這些場景下,研究者們更多的關注如何提高知識推理的性能,忽略知識推理發 生錯誤時的風險問題。即便推理模型在這些場景下產生錯誤推理時,通常來說,并不會招致非常嚴重的后果。然而,在當今人工智能技術應用的大趨勢下,知識推理不僅可以應用在上述互聯網場景,而且越來越 多的被應用在和人類的生產生活息息相關的一些領域(例如,智能醫療[98,99,100]、軍事[112] 、金融[90,111]、交 通運輸[113,114]),這些領域往往對模型的安全性能要求較高,風險高度敏感。例如,在醫療領域,推理的可 靠性會關系到人的生命安全。通常來說,在這些領域,僅僅獲得預測結果是不夠的,模型還必須解釋是怎 么獲得這個預測的,來建立用戶和推理模型之間的信任。

隨著深度學習的發展,知識推理方法的模型結構越來越復雜,僅僅一個網絡就可能包含幾百個神經元、 百萬個參數。盡管這些推理模型在速度、穩定性、可移植性、準確性等諸多方面優于人類,但由于用戶無 法對這類模型里的參數、結構、特征產生直觀理解,對于模型的決策過程和模型的推理依據知之甚少,對 于模型的決策過程知之甚少,不知道它何時會出現錯誤,在風險敏感的領域中,用戶仍然無法信任模型的 預測結果。因此,為了建立用戶和推理模型之間的信任,平衡模型準確率和可解釋性之間的矛盾,可解釋 性知識推理在近幾年的科研會議上成為關注熱點。

盡管有很多學者對知識推理領域進行了深入的研究,并從不同的角度(如分布式表示角度[120] 、圖神 經網絡角度[121] 、神經-符號角度[119] 等)對推理模型進行梳理和總結。然而,在推理模型的可解釋性方面 卻缺少深入的對比和總結。為了促進可解釋知識推理的研究與發展,本文對現有的可解釋推理模型進行了 系統梳理、總結和展望。本文首先闡述可解釋性的定義和可解釋性在推理任務中的必要性,并介紹常見的 可解釋模型劃分標準;然后,根據解釋產生的方式,對現有的可解釋知識推理模型進行總結和歸類,并討 論相關方法的局限性;接著,簡單介紹可解釋知識推理在金融領域和醫療領域的應用。最后,本文討論可 解釋知識推理面臨的挑戰以及可能的研究方向。

1 可解釋的知識推理

在詳細介紹現有的可解釋知識推理模型之前,首先介紹知識推理的基本概念,接著對什么是可解釋性 (Interpretability),以及為什么要在推理任務中注重可解釋性進行介紹,最后對本文的劃分標準做簡要說明。

1.1 知識推理的基本概念

2012 年,谷歌正式提出知識圖譜的概念,用于改善自身的搜索質量。知識圖譜通常用 ( ,r, t) h 這樣 的三元組表達實體及其實體之間的語義關系,其中 h 代表頭實體, r 代表實體之間的關系, t 代表尾實體。例如(詹姆斯·卡梅隆,執導,泰坦尼克號)即是一個三元組,其中頭實體和尾實體分別為“詹姆斯·卡梅隆” 和“泰坦尼克號”,“執導”是兩個實體之間的關系。代表性的知識圖譜,如 DBpedia[108] 、Freebase[53] 、 Wikidata[55] 、YAGO[107] 等,雖然包含數以億計的三元組,但是卻面臨非常嚴重的數據缺失問題。據 2014 年的統計,在 Freebase 知識庫中,有 75%的人沒有國籍信息,DBpedia 中 60% 的人缺少沒有出生地信息 [125] 。知識圖譜的不完整性嚴重制約了知識圖譜在下游任務中的效能發揮。因此,如何讓機器自動基于知 識圖譜中的已有知識進行推理,從而補全和完善知識圖譜,成為了工業界和學術界都亟待解決的問題。

總的來說,面向知識圖譜的知識推理實質上是指利用機器學習或深度學習的方法,根據知識圖譜中已 有的三元組去推理出缺失的三元組,從而對知識圖譜進行補充和完善。例如,已知(詹姆斯·卡梅隆,執導, 泰坦尼克號)和(萊昂納多·迪卡普里奧,出演,泰坦尼克號),可以得到(詹姆斯·卡梅隆,合作,萊昂納 多·迪卡普里奧)。知識推理主要包含知識圖譜去噪[12] 和知識圖譜補全(又稱之為鏈接預測)[1,27,94,95]兩個 任務[117] ,其中,知識圖譜去噪任務專注于知識圖譜內部已有三元組正確性的判斷;而知識圖譜補全專注 于擴充現有的圖譜。根據要推理元素的不同,知識圖譜補全任務可以進一步細分為實體預測和關系預測。其中,實體預測是指給定查詢 ( ,r,?) h ,利用已有事實的關系,推理出另一個實體并由此構成完整三元組, 同理,關系預測則是指給定查詢 ( ,?, t) h ,推理給定的頭尾實體之間的關系。由于知識圖譜中大多數三元組 都是正確的,知識圖譜去噪任務通常采用對已有三元組進行聯合建模并進一步判斷特定三元組是否成立的 方法。在這種情況下,知識圖譜補全任務可以轉化為知識圖譜去噪任務[123,124]。為此,在下面的內容里,本 文以知識圖譜補全任務為中心,對相關的可解釋性方法進行梳理和總結。

1.2 可解釋性及其在知識推理中的必要性

目前學術界和工業界對于可解釋性沒有明確的數學定義[62] ,不同的研究者解決問題的角度不同,為 可解釋性賦予的涵義也不同,所提出的可解釋性方法也各有側重。目前被廣泛接受的一種定義由 Miller (2017)[2,42]所提出,指可解釋性是人們能夠理解決策原因的程度。如果一個模型比另一個模型的決策過程 更簡單、明了、易于理解,那么它就比另一個模型具有更高的可解釋性。

在某些情況下,我們不必關心模型為什么做出這樣的預測,因為它們是在低風險的環境中使用的,這 意味著錯誤不會造成嚴重后果(例如,電影推薦系統),但是對于某些問題或任務,僅僅獲得預測結果是 不夠的。該模型還必須解釋是怎么獲得這個預測的,因為正確的預測只部分地解決了原始問題。通常來說, 以下三點原因推動了對可解釋性的需求:

1、高可靠性要求。盡管可解釋性對于一些系統來說并不是不可或缺的,但是,對于某些需要高度可靠 的預測系統來說很重要,因為錯誤可能會導致災難性的結果(例如,人的生命、重大的經濟損失)。可解釋性可以使潛在的錯誤更容易被檢測到,避免嚴重的后果。此外,它可以幫助工程師查明根 本原因并相應地提供修復。可解釋性不會使模型更可靠或其性能更好,但它是構建高度可靠系統 的重要組成部分。

2、道德和法律要求。第一個要求是檢測算法歧視。由于機器學習技術的性質,經過訓練的深度神經網 絡可能會繼承訓練集中的偏差,這有時很難被注意到。在我們的日常生活中使用 DNN 時存在公 平性問題,例如抵押資格、信用和保險風險評估。人們要求算法能夠解釋作出特定預測或判斷的 原因,希望模型的解釋能夠使“算法歧視”的受害者訴諸人權。此外,推理模型目前也被用于新 藥的發現和設計[124] 。在藥物設計領域,除了臨床測試結果以外,新藥還需要通常還需要支持結 果的生物學機制,需要具備可解釋性才能獲得監管機構的批準,例如國家藥品監督管理局 (NMPA)。

3、科學發現的要求。推理模型本身應該成為知識的來源,可解釋性使提取模型捕獲的這些額外知識成 為可能。當深度網絡達到比舊模型更好的性能時,它們一定發現了一些未知的“知識”。可解釋性 是揭示這些知識的一種方式。

1.3 本文的劃分標準

根據不同的劃分標準,知識推理模型可以被劃分成不同的類別。其中,根據解釋產生的方法,可以將 推理模型劃分為兩大類:事前可解釋和事后可解釋[41,62,96,97,102,118]。其中,事前可解釋模型主要指不需要額 外的解釋方法,解釋蘊含在自身架構之中的模型。事后可解釋性是指模型訓練后運用解釋方法進行推理過 程和推理結果的解釋,解釋方法自身是不包含在模型里面的。一種方法被看作能夠對黑盒模型進行解釋, 是指該方法可以:(1)通過可解釋和透明的模型(例如,淺決策樹、規則列表或者稀疏線性模型)對模型 的行為進行近似,可以為模型提供全局的可解釋;(2)能夠解釋模型在特定輸入樣例上進行預測的原因;(3)可以對模型進行內部檢查,了解模型的某些特定屬性,譬如模型敏感性或深度學習中神經元在某一特 定決策中起到的作用[41] 。值得注意的是,可以將事后解釋方法應用于事前可解釋的模型上,例如,可以 從敏感性分析的角度對事前模型進行剖析。此外,根據可解釋的范圍大小----是否解釋單個實例預測或整個 模型行為,可以將模型劃分為局部可解釋和全局可解釋兩大類[97,96];根據解釋方法是否特定于模型,可以 將模型劃分為特定于模型和模型無關兩種類別[96] 。在接下來的內容里,本文按照解釋產生的方式,對知 識推理模型進行總結和歸類。

付費5元查看完整內容
北京阿比特科技有限公司