幾個世紀以來,人類一直在收集數據和表征信息,但數字技術的出現,特別是萬維網的出現,導致了新的挑戰:穩步增長的各種數據需要以系統和有意義的方式進行整合管理。否則,只剩下質量不明的大量無關聯的數據。
為了實現信息的智能管理,我們需要以統一的方式表示數據。此外,我們需要表示限制條件,以定義哪些數據連接在某個用例中是有意義的或有效的,以表示手頭的信息。一個簡單但強大的方法是通過兩件事來表示信息:概念和概念之間的關系。這就形成了一個以概念為節點、以連接節點的關系為邊的圖結構,即所謂的知識圖譜。像這樣,我們可以表示 "作者"、"人 "和 "書 "這三個概念,以及 "寫 "或 "買 "這樣的關系。而作者 "安迪-威爾 "寫了《火星人》一書的信息是有意義的信息,《火星人》一書不能寫作者 "安迪-威爾"。然而,對于計算機來說,如果沒有限制條件來限制連接概念與關系的可能方式,這兩個例子都是有效的。
表達什么是在特定環境下有意義的或者什么是高質量的限制是主觀的,必須由人類來定義。在給定的例子中,限制可以是作者寫書,作者也是一個人。在這種情況下,這些限制是所謂的公理:說明根據模型什么是真的。這些限制可以被計算機用來推斷新的知識:根據安迪-威爾寫了《火星人》這本書的知識,可以推斷出他是一個作家和一個人。另一個限制可能是,只有人可以寫書,而且數據庫中的所有書都需要有作者。在這種情況下,這些限制是所謂的約束,用來識別無效的數據。這可以用于質量評估,以識別缺失的作者信息或錯誤的數據。
本論文主要研究人類對知識圖譜的創建和使用限制。當定義抽象的概念,如 "作者 "或 "書 "時,人們通常把它稱為詞匯表。它的術語可以通過公理來限制意義,那么這個詞匯就可以被稱為本體論。當連接知識圖譜中的具體數據時,如作者 "安迪-威爾 "和書 "火星人",人們使用這種詞匯表的術語將其稱為數據,例如 "安迪-威爾是一位作者 "和 "火星人是一本書"。在某種情況下,對這些數據有效的東西可能受到限制。為了用機器友好的方式表示所有這些,我們可以使用萬維網聯盟(W3C)推薦的以下語言:(i)資源描述框架(RDF)來表示術語,(ii)RDF Schema(RDFS)和網絡本體語言(OWL)來表示公理(iii)和形狀約束語言(SHACL)來表示約束。
第一個挑戰是支持用戶根據使用的限制條件來評估知識圖譜。在構建知識圖譜時,現有的詞匯表經常被重復使用,這使得一個系統中的信息在其他系統中也能被理解。這些詞匯表通常包含影響潛在重用的公理:一些公理在計算上更加復雜,人們可能希望在某個使用案例中避免重用包含這些公理的詞匯表。同樣地,人們可能要評估現有約束條件對通用詞匯的使用。但在這兩種情況下,目前對用戶比較和選擇所使用的限制條件的知識圖譜的支持有限。
第二個挑戰是如何支持用戶創建約束條件。通常情況下,領域專家最清楚他們要施加哪些限制,但他們不是知識圖譜專家,需要一種用戶友好的方式來創建知識圖譜限制。其他研究表明,表示如何以視覺方式表示某些概念的可視化符號可以支持用戶。目前,還沒有這樣的可視化符號來可視化知識圖譜的約束。
限制條件的使用是特定的,因此在本論文中,我們專注于數據管理的某個用例:支持國家圖書館對社會媒體的保存。一方面,在保存動態社交媒體內容時,需要考慮不同的異質數據源。然而,目前還沒有一個完整的社交媒體歸檔工作流程,可以有意義地結合不同的數據片段。另一方面,保存的內容需要被訪問和查詢,這對主觀的數據質量約束提出了挑戰。
為了解決第一個挑戰,我們提出了一種方法來衡量知識圖譜中限制條件的使用,并提出了收集到的原理和限制條件的統計數據。我們首先介紹了Montolo,這是一種定義抽象限制類型的方法,如 "subclass "和RDF中的具體表達,如rdfs:subClassOf。然后,我們介紹了一個在RDF中創建可互操作的限制使用統計的實現。我們通過測量(i)RDFS和OWL公理在來自通用LOV和特定領域的BioPortal資源庫的一千多個本體中的使用情況,以及(ii)來自確定的GitHub資源庫的SHACL形狀中的限制使用情況,來證明這種方法的可行性。
為了解決第二個挑戰,我們關注的是如何支持人類用視覺符號來創建約束,這些符號可以直觀地顯示SHACL中指定的所有約束。我們在計算機科學和知識圖譜領域現有的常用可視化符號的基礎上,提出了兩個可視化符號ShapeUML和ShapeVOWL。我們根據認知有效的設計原則對它們進行了比較,因為它們是要被人類用戶認知處理的,并在一個用戶比較研究中對這兩種符號進行了評估。
為了解決第三個挑戰,我們引入了一個基于知識圖譜的社交媒體歸檔解決方案和相應的質量評估與約束。我們的BESOCIAL解決方案是基于聲明式的知識圖譜生成:使用通用詞匯及其公理來有意義地整合異質的社會媒體歸檔相關數據。此外,我們提出了社交媒體檔案相關的數據質量類別、維度和指標,以及用知識圖譜約束的低級驗證來衡量相應的高級數據質量指標。我們遵循既定的方法,但與現有作品相比,我們的質量評估依賴于萬維網聯盟(W3C)的相關規范,而不是定制軟件。
本論文的貢獻為評估和處理知識圖譜的限制提供了可互操作的手段。
Montolo使用戶能夠評估現有的知識圖譜在公理和約束方面的使用情況。關于公理,我們發現來自通用LOV和特定領域的BioPortal資源庫的詞匯顯示出類似的模式:95%以上使用基于RDFS的限制,但只有一半使用基于OWL的限制。創建的統計數據可以支持本體的重用:本體工程師現在可以依靠公理的使用統計數據來評估現有的本體。關于約束,我們發現了與公理使用類似的模式:概念之間的關系經常被限制在某些類別或數據類型中,而關于字面價值的約束則使用得較少。我們的統計數據揭示了一個可能的問題:一個自我實現的預言,即創建約束的工具只關注常用的約束類型,最終產生更多這樣的約束。因此,少用的約束類型應該得到更多的關注。
ShapeUML和ShapeVOWL的可視化符號獨立于特定的約束語言,并且是在考慮到認知有效性的情況下建立的。因此,人類可以利用他們的快速認知系統,而不必依賴特定的文本語法。我們的比較分析的定量部分顯示,用戶使用一種視覺符號或另一種視覺符號所犯的錯誤并沒有減少,而且兩種符號都有超過80%的問題被正確回答。因此,兩種可視化符號都有可能被用于不同的使用案例,我們的定性分析也指出了可能的改進。
我們的BESOCIAL社交媒體歸檔工作流程使文化遺產專家能夠使用聲明性的手段來保存社交媒體,因此無需他們編寫代碼。此外,我們還定義了與社交媒體收集相關的質量類別、維度和指標,可供社區重新使用。這個用例體現了使用公理和約束來實現數據管理,并在數據整合和數據質量方面提供附加價值。開發的數據質量評估也可以應用于其他用例,因為我們的解決方案只依賴于公開的W3C相關規范。
未來方向包括增加對約束條件的可視化符號的采用,以及創建知識圖譜限制的方法。
關于約束條件的創建,我們對兩種可視化符號與知識圖譜專家的比較評估所得到的結果,是向用戶友好型支持知識圖譜約束條件工作邁出的第一步。類似的研究可以與來自不同領域的專家一起進行,以改進可視化符號和實現符號的工具。后者可以通過調查不同的編輯工作流程來改進。此外,還可以研究如何用我們的可視化符號來表示SHACL以外的其他約束語言。一個有希望的候選語言是形狀表達語言(ShEx),它在從事維基數據工作的社區中引起了關注。
目前有幾種本體工程方法,但特別是隨著SHACL等約束語言的出現,出現了新的建模范式。在這篇論文中,我們將公理和約束同時應用于文化遺產的使用案例,未來的工作可以研究一種通用的方法來支持知識工程師創建知識圖譜。創建知識圖譜的方法論支持何時使用哪些公理,何時使用哪些約束。這使得與限制有關的設計決策透明化,從而最大限度地減少了關于使用公理和使用限制的主觀討論。
在全球化和合作日益加強的時代,政府通過互聯網提供法律信息,使所有感興趣的人有可能獲得這些信息,這一點越來越重要。隨著時間的推移,不同國家的法律信息系統在可用數據、格式和可訪問性方面有不同的發展。這導致了更復雜的法律信息搜索過程,特別是當涉及到來自不同國家的法律信息,從而也涉及到不同的法律信息系統。特別是,來自不同國家的法律信息的跨國界相互聯系是缺失的。為了克服這些問題,歐盟提出了促進法律信息更容易獲取和相互連接的建議。這些建議的目標是利用獨特的標識符和注釋,以標準化和機器可讀的方式提供法律信息。語義技術使我們能夠將法律信息表現為 "知識圖譜",它將法律數據連接起來,并實現結構化查詢。在這篇論文中,我們研究了為奧地利法律系統創建和查詢法律知識圖譜的可能性。建議的法律知識圖譜是根據奧地利法律信息系統中的數據創建的,并根據歐盟的建議進行建模。此外,我們還分析了來自其他國家的可用鏈接法律數據,以及這些數據如何被整合。我們展示并比較了以理想的自動化方式填充擬議的法律知識圖譜的不同方法。最后,我們展示了擬議中的法律知識圖譜是如何用來自不同國家的法律數據來填充的,以增強法律信息搜索的可能性,從而回答搜索查詢,這在目前是不可能的。
在我們的日常生活中,能夠獲取法律信息是一個非常重要的方面,因為 "法律 "無處不在,例如,當我們在超市買東西或參與交通時。一項在101個國家進行的、每個國家有1000名參與者的研究[世界正義項目,2019]顯示,在2015年至2017年期間,全球約有一半的參與者面臨法律挑戰。奧地利更詳細的數字顯示,只有三分之二的參與者知道在哪里可以找到法律信息。這些數字表明,對于剩下的三分之一的人來說,獲取法律信息的途徑需要改進,并使之更容易。
我們所說的 "法律信息 "到底是什么意思?法律信息可以出現在不同的方面,例如,作為規定義務或禁止的法律。更廣泛地說,我們可以將法律定義為管理我們日常生活的規則框架。法律信息也可以包含在法院的判決中,這些判決也被用來解釋和完善法律。通常情況下,法律信息包含在文件中,這就是為什么我們也稱它們為法律文件。這種文件可以是,例如,法律和法院判決,但也可以是個人之間的合同,其中包括受影響的當局的具體信息或對其他法律文件的引用。我們把這些特定的詞的序列稱為法律實體。此外,法律文件還可以包括時間表達,這些表達可以與法律實體相結合,以表示法律事件并描述何時發生。
與以前不同的是,以前為了遵守法律出版的要求,法律的修改只在官方公告牌上打印公布,現在我們可以使用法律信息系統。法律信息系統被用來支持搜索和尋找解決法律問題所需的信息[van Opijnen and Santos, 2017]。例如,這樣的法律信息系統是由聯邦數字和經濟事務部(BMDW)提供的奧地利Rechtsinformationssystem des Bundes(RIS),該系統可以在網上獲得,并且可以免費訪問。RIS提供了一個基于關鍵詞的搜索界面,允許用戶在不同種類的文件中進行搜索,例如法律或法院判決。可以使用額外的過濾器來限制搜索,例如搜索文件的特定出版日期。搜索結果以長長的結果列表形式呈現,要求用戶瀏覽所有的單個文件,并檢查它們是否包含所需的信息。此外,這些文件只有部分的相互聯系,例如,法院判決中的法律參考文獻沒有與實際的法律文件相聯系。這就要求用戶在RIS法律欄目中為每個法律參考文獻進行額外的法律搜索。因此,文件中缺失的鏈接降低了可操作性,并使搜索過程變得復雜,因為它是一個不必要的繁瑣和耗時的過程。此外,搜索的可能性往往受到現有元數據的限制,這意味著實際文件中包含的信息,例如法律實體,并不能用于搜索過程。當需要來自歐盟或外國的法律資源來解決一個法律問題時,情況就更糟糕了。在這種情況下,需要參考外國的法律信息系統,而這些系統可能以完全不同的方式組織。
因此,缺失鏈接的問題可以通過增加文件之間的鏈接來解決。此外,信息提取方法可用于提取法律文件中包含的額外信息,例如法律實體,以補充現有的元數據并使其可用于搜索過程。為此,可以使用資源描述框架(RDF)[W3C工作組,2014]這種機器可讀的數據格式來鏈接法律數據,以實現結構化查詢和更容易地瀏覽相互鏈接的法律文件。2011年,歐盟開始為解決這些問題做出努力,提出了一些標準,這些標準應該有助于在歐盟成員國之間基于RDF的法律信息的相互連接。用于立法文件的歐洲法律標識符(ELI)和用于司法文件的歐洲判例法標識符(ECLI)已由歐盟理事會提出。ELI和ECLI都為法律文件分配了唯一的標識符,并描述了一套最低限度的元數據。對歐盟成員國來說,擬議標準的實施不是強制性的,這可能是吸收緩慢的原因。在ELI和ECLI提出的過去幾年中,一些歐盟成員國至少為其法律文件分配了標識符,而其他成員國則沒有表現出參與這些倡議的興趣。
奧地利是歐盟成員國之一,在第一步中,ELI和ECLI標識符(而且只有標識符)已經被分配給RIS文件。這意味著,我們可以把目前的狀態作為一個起點,克服上述搜索過程中的缺點。此外,我們還可以在已經采取的努力基礎上,參與ELI和ECLI。此外,ELI和ECLI還提供了必要的靈活性,通過用奧地利法律體系特有的類和屬性來擴展ELI和ECLI本體,以適應特定的國家要求。因此,一個能夠代表相關信息的法律知識圖譜,例如與其他法律文件的鏈接或根據分類模式歸入同一類別的文件,能夠增強搜索能力。此外,從法律文件中提取的信息可用于將實體鏈接到外部知識庫,如Geonames或DBpedia,這也增強了法律信息搜索。此外,通過整合其他國家和歐盟的法律數據,它還支持跨法域的搜索請求。我們為ELI和ECLI的目標做出了貢獻,這些目標旨在為整個歐洲的法律信息提供更便捷的訪問和相互鏈接,而這只有在各成員國參與并使用同一系統時才能成功。從實用的角度來看,這將使我們能夠實現更復雜的搜索查詢,這些查詢要么需要復雜的搜索過程,要么在目前的系統中根本無法回答,比如下面的問題(Q),將在第三章中詳細解釋。
問題1 在一個具體的法院判決中引用了哪些文件?
問題2 法院對哪些地區有管轄權?
問題3 某一特定歐盟指令的國家轉換是什么?
問題4 用外語的關鍵詞搜索,哪些法律文件規定了特定的法律領域?
問題5 法院判決中提到了哪些事件,可以用來快速了解案件的情況?
事實上,由法律專家進行的法律搜索過程涉及回答這樣的問題及其組合。任何對這些問題的回答和部分自動處理的支持,都將使這些搜索任務對法律專業人士來說更加有效。
以前關于處理法律信息以支持各種任務的研究已經在不同的科學領域進行。計算法的法律信息學領域著眼于 "法律分析的機械化"[Genesereth, 2018],將規則和事實在邏輯表達方面的形式化與推理相結合,從而得出結果。20世紀80年代,人工智能(AI)開始被應用于法律領域,以支持解決法律問題,例如在法律推理方面[v. d. L. Gardner, 1983]。后來,法律領域的另一個工作領域集中在表示法律信息的數據格式上,如Metalex[Boer等人,2002]和Akoma-Ntoso[Palmirani和Vitali,2011],都是用于描述法律文件結構和內容的XML(可擴展標記語言)標準。與此同時,關于法律本體的工作也開始了,目標是實現法律信息的交換,例如法律知識交換格式(LKIF)[Hoekstra等人,2007]和法律領域的特定本體,例如隱私政策的本體[Oltramari等人,2018,Palmirani等人,2018],以描述法律領域的一個子集或問題。法律領域的自然語言處理這一新興領域始于基于模板的法律文件中的人物提取[Dozier和Haschart, 2000]。隨著時間的推移,這項工作在提取不同種類的實體和法律文件的分類方面得到了擴展,從使用基于規則的方法到機器學習,最后到深度學習方法[Dozier等人,2010,Cardellino等人,2017a,Chalkidis等人,2019,Leitner等人,2019,Tuggener等人,2020] 。然而,以前這些努力的重點是法律文件的內容,而不是它們之間的聯系。只有在最近幾年,我們才能看到向連接國家法律數據轉變的小跡象。希臘的Diavgeia項目旨在通過強迫當局通過網絡提供他們的文件來增加法律信息的可及性,從中可以創建鏈接的法律數據[Chalkidis等人,2017]。使用ELI和ECLI為芬蘭立法和案例法發布RDF的類似工作是Finlex數據庫[Oksanen等人,2019]。
因此,有必要建立鏈接的法律信息,使專業和非專業用戶能夠通過在法律知識圖譜(LKG)中相互鏈接本國和外國的法律文件來搜索和瀏覽法律信息。基于所有歐盟成員國使用的共同本體,用圖結構表示法律信息,有助于我們簡化法律信息的獲取,并支持跨邊界的搜索。
在創建奧地利法律知識圖譜的明確動機下,在努力實現鏈接法律數據的基礎上,本文提出的工作由以下總體假設指導:
從這個假設中,我們可以得出以下具體的研究問題(RQ):
研究問題1 為了從現有的法律信息系統中構建一個法律知識圖譜,需要什么?
為了回答這個研究問題,我們想知道,為了將傳統法律信息系統中的數據轉化為知識圖譜,我們可以使用哪些要求和預先存在的構建模塊。此外,我們需要將現有的數據與現有的本體結合起來,這些本體需要被擴展以支持國家的要求。奧地利的法律體系被嵌入到歐洲體系中,并與其他國家的法律體系相互影響,這就是為什么ELI和ECLI作為我們法律知識圖譜的基礎。
研究問題2 為了以自動化的方式從不同的數據源填充法律知識圖譜,可以采取哪些方法?
奧地利法律信息系統中的數據可以被轉移到法律知識圖譜中。因此,我們需要找到方法來實現從不同的數據源進行填充。我們有必要分析來自RIS的可用數據(元數據和文件),并將其與我們需要填充的本體的屬性進行比較。我們可以衍生出三個子研究問題:
研究問題 2.1 哪些方法可用于從結構化數據中獲取法律知識圖譜,它們的效果如何?
為了回答這個研究問題,我們需要分析哪些信息是由RIS提供的結構化格式的元數據,并研究使用這些信息來填充法律知識圖譜的方法。
研究問題2.2 哪些方法可用于從文本來源(即法律文件)中獲取法律知識圖譜,它們的效果如何?
為了回答這個研究問題,我們需要研究哪些ELI和ECLI屬性不能從RIS元數據中填充,而是從法律文件中的信息中填充。我們將分析和比較不同的方法來從文件中提取法律實體。此外,我們還將研究允許我們將法律文件歸類到一組給定類別的方法。
研究問題2.3 哪些方法可用于從法律文件中提取事件,它們的效果如何?
為了回答這個研究問題,我們需要調查法律文件中包含的事件。此外,我們有必要分析各個事件的組成部分,并比較不同的提取方法對這些組成部分的性能。
研究問題3 在多大程度上有可能通過鏈接法律數據來提高法律查詢和搜索過程?
為了找到這個研究問題的答案,我們需要分析當前的法律信息搜索過程,為此我們使用了上述的樣本問題。我們調查我們是否可以利用增加的鏈接和增強的元數據進行增強的搜索查詢,以回答樣本問題。
本論文的貢獻可以概括為以下幾點:
對問題1的貢獻:我們分析了擬議的ELI和ECLI本體,以及它們在涉及奧地利法律數據時的適用性,并在必要時擴展本體。特別是,我們描述了法律知識圖譜的創建方法,并用類和屬性來擴展ELI和ECLI本體,以表示奧地利法律信息系統中的數據。此外,我們引入了一個新的詞庫,包含了奧地利法律語言和信息中使用的特定術語,其中ELI和ECLI本體規定了國家擴展,例如文件分類方案或國家特定的文件類型。
對問題2.1的貢獻:對于奧地利的法律知識圖譜,我們根據RIS提供的可用元數據,提出了三種不同的人口方法。特別是,我們為法律知識圖譜的人口提出了三種方法。(i)允許直接轉移數據的方法,只需要最低限度的預處理工作;(ii)基于附加條件和查詢的方法;(iii)將RIS數據與外部知識庫相互鏈接的方法。
對問題2.2的貢獻:我們提出了基于NLP工具和技術的群體方法:(i)從文件中提取信息;(ii)使用文件內容將這些文件分類到一個給定的術語庫中。對于這兩項任務,我們使用了已經成功應用于其他領域文件的最先進的方法,我們根據包含法律文件的數據集對其性能進行了比較和評估。更詳細地說,我們提供了一個包含50個手動注釋的奧地利最高法院判決的新語料庫,它被用于法律實體提取實驗。分類方法的性能在包含歐盟法律文件的黃金標準數據集上進行了評估。
對問題2.3的貢獻:我們確定了在法院判決中提取時間性表達的問題。此外,我們提出了三個時間維度,可以沿著這些維度對法院判決中的時間表達進行分類。我們提供了一個新的黃金標準語料庫,其中有30個人工注釋的法院判決的時間性注釋,分別來自歐洲法院、歐洲人權法院和美國最高法院的10份文件。我們使用這個語料庫來比較和討論十個最先進的、但不針對法律領域的時間標記器的特征和性能。我們對這些通用時間標記器的最常見的錯誤和問題進行了概述。從法院判決中提取法律事件有助于快速了解一個案件的概況。我們介紹了兩種不同類型的事件,并定義了事件組件以進一步分割事件中包含的信息。我們提供了另一個人工注釋的黃金標準語料庫,其中有30個來自歐洲人權法院的法院判決,并附有法律事件的注釋。這個語料庫被用來提取法院判決中的事件并進行分類。對于這兩項任務,我們分析了最先進的事件提取方法的性能。
對問題3的貢獻:我們對所有歐盟成員國的法律信息系統和搜索可能性的現狀進行了比較。我們分析了法律數據的可用性以及ELI和ECLI的實施狀況,使用的數據格式和附加信息。我們還從更普遍的角度描述了所有歐盟成員國的法律數據庫的訪問和特點,用于傳播法律文件的文件格式,以及以何種語言提供法律信息。我們描述了基于ELI和ECLI的非政府努力,以提供鏈接的法律數據,并根據它們的特點進行分類。我們通過展示由實際的法律搜索用例驅動的查詢來證明鏈接法律數據的好處,這在法律知識圖譜中是可能的,但在包括其他國家的綜合法律數據之前是不可能的。
本論文的其余部分結構如下。
第二章介紹了與知識圖譜、語義網、關聯數據有關的背景信息,并介紹了論文中所使用的法律本體和術語表。此外,它還包括對自然語言處理(NLP)和語言模型的介紹,以及常用的NLP任務、方法和工具。
第三章描述了傳統法律信息系統所面臨的挑戰,以奧地利的RIS為例,介紹了創建法律知識圖譜的衍生要求。本章還介紹了創建方法,最后介紹了法律知識圖譜本體論(LKG),其中包含了新的類別和屬性,以正確表示奧地利的法律體系。
第四章介紹了使用自然語言處理工具和技術從各種數據源中獲取不同的知識圖譜的方法。特別是,我們描述了從法律文件中提取實體和將文件分類為大量不相干的類。我們進行了實驗,并對這兩項任務的結果進行了比較和討論。
第五章集中討論了法律文件中的時間信息,特別是法院判決。我們描述了從法院判決中提取時間信息的挑戰,并介紹了不同的時間維度。此外,我們比較了10個非領域特定的時間標記器在檢測時間信息方面的表現。此外,時間信息也是可以從法院判決中提取的事件的一部分,并以時間軸的形式呈現。我們比較了從法院判決中提取法律事件的不同方法,并討論了它們的性能。
第六章介紹并比較了其他歐洲國家在(鏈接)法律數據方面的舉措。一個概述顯示了哪些國家參與了歐盟驅動的倡議或決定走另一條路。此外,本章還介紹了在鏈接法律數據領域的非政府倡議。最后,我們介紹了鏈接法律數據的好處,并為考慮提供鏈接法律數據或創建法律知識圖譜的利益相關者提出了一個鏈接法律知識圖譜的路線圖。
第七章總結了本論文的發現,回答了研究問題并討論了未來的研究方向。
本論文介紹的內容已經在不同的同行評議的國際會議和期刊上提出和發表,包含了來自(按時間順序)的材料。
在本文中,我們比較了各種可用于在多標簽分類設置中對法律文件進行分類的方法,這些方法使用的是帶有歐盟發布的法律文件的語料。我們將結果與分類任務中使用的來自新聞領域的知名數據集進行對比。在論文中,這項工作將在第4.3節中介紹。這項工作的延伸表明,通過使用轉化器模型可以提高結果[Shaheen等人, 2020]。
該出版物對RQ2.2有所貢獻。
這項工作的重點是法院判決中包含的時間信息,并比較了10個非領域特定的時間標記器的性能。為了評估這些標記器的性能,我們創建了一個來自三個不同法院的手工注釋的黃金標準語料庫。這項工作將在第5.1節中介紹。
本出版物對RQ2.3有所貢獻。
在這篇文章中,我們介紹了法院判決中常見的兩種不同類型的事件,并比較了不同的先進的事件提取方法。此外,我們還提取了三個事件組件來描述一個事件,這使得我們能夠創建一個時間線來提供一個法院判決的快速概覽。這項工作的內容將在第5.2節中介紹。
本出版物對RQ2.3有所貢獻。
在本文中,我們描述了基于奧地利法律信息系統的法律知識圖譜的奧地利用例,并涵蓋了從建模到整合其他國家的法律數據的所有主題。本文的背景信息在第二章中涉及。第三章介紹了挑戰和要求,以及建模部分的描述。第四章介紹了人口方法的描述。最后,第六章討論了法律數據的整合。
本出版物對研究問題1、2.1、2.2和3有所貢獻。
以下是作者已經發表的其他作品,與本文介紹的工作部分相關,同時對本論文介紹的內容沒有直接貢獻:
Erwin Filtz. 構建和處理法律數據的知識圖譜。The Semantic Web - 14th International Conference, ESWC 2017, Portoro?, Slovenia, May 28 - June 1, 2017, Proceedings, Part II, Volume 10250 of Lecture Notes in Computer Science, pages 184-194, 2017. [Filtz, 2017]
Erwin Filtz, Sabrina Kirrane, and Axel Polleres. 法律數據的相互聯系。與第14屆國際語義系統會議同地舉行的第14屆國際語義系統會議(SEMANTiCS 2018)的海報和演示論文集,奧地利維也納,2018年9月10-13日。,《CEUR研討會論文集》第2198卷。CEUR-WS.org,2018。[Filtz et al., 2018]
Martin Beno, Erwin Filtz, Sabrina Kirrane, and Axel Polleres. Doc2rdfa: 網絡文檔的語義注釋。第15屆國際語義系統會議海報和演示論文集(SEMANTiCS 2019),德國卡爾斯魯厄,2019年9月9日至12日。,CEUR研討會論文集第2451卷。CEUR-WS.org,2019年。[Filtz et al., 2019]
Zein Shaheen, Gerhard Wohlgenannt和Erwin Filtz. 使用轉化器模型的大規模法律文本分類。SEMAPRO 2020第十四屆語義處理進展國際會議,法國尼斯,2020年10月25-29日,第7-17頁,IARIA 2020。[Shaheen et al., 2020]
推理在人類歷史的各個時期都被采用,至少從兩千年前就開始研究,可以追溯到著名的古希臘哲學家亞里士多德,他展示了形式邏輯推理的原理[1]。人工智能(AI)的長期目標之一是建立能夠對其周圍環境進行推理的系統。從傳統的專家系統到現代機器學習和深度學習驅動的系統,研究人員在為各種任務建立智能系統方面做出了不懈的努力和巨大的進展。
在這篇論文中,我們對知識推理感興趣,它要求智能系統根據輸入或現有的知識來推斷新的知識[2]。知識推理是從現有的事實和規則中得出結論的過程[3],這需要一系列的能力,包括但不限于理解概念,應用邏輯,以及基于現有知識的校準或驗證架構[4]。隨著通信技術和移動設備的爆炸性增長,今天人類的大部分集體知識都駐留在互聯網上,以非結構化和半結構化的形式存在,如文本、表格、圖像、視頻等。如果沒有搜索引擎和問題回答系統等智能系統的幫助,人類要想瀏覽巨大的互聯網知識是非常困難的。為了滿足各種信息需求,在本論文中,我們開發了對結構化和非結構化數據進行知識推理的方法。
對于結構化數據,由于現有的大規模知識庫將百科知識存儲在圖結構中,如Freebase[5]、NELL[6]和Wikidata[7],我們可以通過查詢知識庫有效地查詢感興趣的知識。
在這篇論文中,我們研究了如何用圖嵌入技術對知識圖進行多跳推理。我們還研究了如何在一個一致的概率框架內進行符號推理,這可以應用于知識完成任務,根據知圖譜中的現有事實推斷出新的知識。
盡管做出了最大的努力,現有的知識庫只能覆蓋人類知識的一小部分。人類的許多知識在本質上很難用任何允許的知識庫模式進行編碼,如常識和程序性知識[8]。事實上,絕大多數的人類知識只能存儲在非結構化文本中。為了對非結構化文本進行知識推理,在本論文中,我們利用大規模預訓練語言模型(如BERT[9],RoBERTa[10],ALBERT[11]等)的最新進展來產生高質量的上下文文本編碼,同時利用圖神經網絡在多個文檔中傳播信息。在圖神經網絡的幫助下,我們還開發了一種用于數字問題回答任務的方法,這是一個具有挑戰性的開放問題,需要對文本段落進行數字推理。
在這篇論文中,我們研究了一個假設,即圖神經網絡可以幫助提高各種知識推理任務的性能,包括知識圖譜的完成、知識感知問題的回答、開放域問題的回答等等。更具體地說,本論文試圖回答以下研究問題:
1.如何在知識圖譜上進行多跳推理?我們應該如何利用圖神經網絡來有效地學習圖感知的表示?以及,如何系統地處理人類問題中的噪音?
2.如何在一個一致的概率框架中結合深度學習和符號推理?如何使推理對大規模的知識圖譜高效且可擴展?我們能否在表示能力和模型的簡單性之間取得平衡?
3.圖形神經網絡對于知識感知的QA任務的推理模式是什么?那些精心設計的GNN模塊真的能完成復雜的推理過程嗎?它們是不夠復雜還是過于復雜?我們能不能設計一個更簡單但有效的模型來達到類似的性能?
4.如何建立一個能夠對多個檢索到的文檔進行推理的開放域問題回答系統?如何有效地對檢索到的文檔進行排序和過濾,以減少下游的答案預測模塊的噪音?如何在多個檢索到的文檔中傳播和匯集信息?
5.如何回答那些需要對文本段落進行數字推理的問題?如何使預先訓練好的語言模型能夠進行數字推理?
在接下來的章節中,我們對上述研究問題進行了探討,發現圖神經網絡可以作為一個強大的工具,用于結構化和非結構化知識源的各種知識推理任務。在基于結構化圖形的知識源上,我們在圖結構的基礎上建立圖神經網絡,為下游推理任務捕獲拓撲信息。在基于非結構化文本的知識源上,我們首先識別圖結構信息,如實體共現和實體編號綁定,然后采用圖神經網絡對構建的圖進行推理,與預訓練的語言模型一起處理知識源的非結構化部分。
如上所述,知識圖譜并不總是可以用于各種領域的知識推理任務。即使我們能夠獲得現有的知識圖譜作為知識源,它們也可能來自于自動知識提取(如Wikidata[7]和ConceptNet[12]),并有可能引入大量的噪音。因此,在本論文中,我們從建立能夠處理噪音的強大推理框架開始。我們建立了一個端到端的可訓練的QA框架,以避免級聯錯誤;我們還設計了一個概率邏輯推理框架,利用一階邏輯規則來調節知識圖譜中的噪音。由于知識圖譜的低覆蓋率問題,我們在本論文的后半部分繼續探索基于文本的知識推理。我們建立了開放領域的質量保證框架,只需要大規模的文本語料庫,如維基百科作為知識源。此外,我們還研究了如何從文本段落中提取數字知識圖譜,然后在構建的圖之上進行數字推理。
本論文的主要貢獻如下。
知識圖譜上的多跳問題回答(第三章)。對于復雜的信息需求,許多人的問題需要在知識圖譜上進行多跳知識推理。同時,當人們提出問題時,他們的表達通常是有噪聲的(例如,文本中的錯別字,或發音的變化),這對問題回答(QA)系統來說,在知識圖譜中匹配那些提到的實體是非難事。為了應對這些挑戰,我們提出了一個端到端的變異學習框架,它可以處理問題中的噪音,并同時學習進行多跳推理。我們還得出了一系列新的基準數據集,包括多跳推理的問題,由神經翻譯模型解析的問題,以及人聲中的問題。本章內容出現在AAAI 2018的論文集中[13]。
知識圖譜的概率邏輯推理(第四章)。作為一個優雅而強大的工具,馬爾科夫邏輯網絡(MLN)成功地結合了邏輯規則和概率圖模型,可以解決許多知識圖的推理問題。然而,MLN推理的計算量很大,使得MLN的工業規模應用非常困難。近年來,圖神經網絡(GNNs)已經成為解決大規模圖問題的高效工具。然而,GNN并沒有明確地將先驗邏輯規則納入模型,而且可能需要許多標記的例子來完成目標任務。我們探索了MLN和GNN的結合,并將圖神經網絡用于MLN的變異推理。本章的內容出現在ICLR 2020的論文集中[14]。
圖神經網絡的知識推理模式(第五章)。為了接近人類復雜的推理過程,最先進的質量保證系統通常使用精心設計的基于圖神經網絡(GNNs)的模塊來進行知識圖譜(KGs)的推理。然而,關于這些基于GNN的模塊的推理功能,許多問題仍然沒有解決。這些基于GNN的模塊真的能進行復雜的推理過程嗎?對于質量保證來說,它們是不夠復雜還是過于復雜?為了打開GNN的黑匣子并研究這些問題,我們剖析了最先進的用于質量保證的GNN模塊并分析了它們的推理能力。我們發現,即使是一個非常簡單的圖形神經計數器也能在流行的QA基準數據集上勝過所有現有的GNN模塊。我們的工作揭示了現有的知識感知型GNN模塊可能只進行一些簡單的推理,如計數。為知識驅動的質量保證建立全面的推理模塊仍然是一個具有挑戰性的開放問題。本章內容已提交給ICLR 2022,目前正在審核中。
多文檔的開放域問題回答(第6章)。作為一個實際的應用,開放域的質量保證需要檢索多個支持性文件。文檔檢索過程中往往會產生更多的相關但不支持的文檔,這就抑制了下游的噪聲敏感的答案預測模塊。為了應對這一挑戰,我們開發了一種方法來迭代檢索、重新排序和過濾文檔,并自適應地確定何時停止檢索過程。重排文檔是一個關鍵步驟,但由于問題和每個檢索到的文檔都是串聯的,所以非常耗時。因此,我們提出了一個解耦的上下文編碼框架,它有雙重的BERT模型:一個在線BERT,只對問題進行一次編碼;一個離線BERT,對所有的文檔進行預編碼并緩存其編碼。本章內容出現在SIGIR 2020[15]和SIGIR 2021[16]的論文集中。
文本段落上的數字問題回答(第7章)。對文本段落的數字推理,如加法、減法、分類和計數,是一項具有挑戰性的機器閱讀理解任務,因為它需要自然語言理解和算術計算。我們試圖使預先訓練好的語言模型,如BERT,在圖神經網絡的幫助下進行數字推理。更具體地說,我們為這種推理所需的段落和問題的上下文提出了一個異質圖表示,并設計了一個問題定向圖注意網絡來驅動所構建的異質圖上的多步驟數字推理。本章內容出現在EMNLP 2020的論文集中[17]。
我們首先在第二章中對相關工作進行了概述,作為本論文的背景。接下來的5章(三-七章)分為兩部分。第一部分探討了結構化數據的知識推理,包括多跳問題回答(第三章)和概率邏輯推理(第四章),這兩部分都是在現有的知識圖上工作。然后,我們研究圖神經網絡如何為知識意識的問題回答任務進行推理(第五章)。第二部分將重點轉向非結構化數據的知識推理,包括開放領域的問題回答(第六章)和數字問題回答(第七章),兩者都是在非結構化文本上工作。我們在第八章中總結了論文并討論了未來的研究方向。
第四次工業革命,即工業4.0(I40)的目的是創建智能工廠,其中采用網絡物理系統(CPS)、物聯網(IoT)和人工智能(AI)。根據I40的愿景,實現智能工廠需要智能的人與機器和機器與機器的溝通。為了實現這種通信,需要對CPS及其數據進行描述,并解決由各種表現形式引起的互操作性沖突。為了建立互操作性,工業界已經創建了標準和標準化框架。標準描述了實體、系統和流程的主要屬性,以及它們之間的相互作用。標準化框架根據其目的和特點對工業標準進行分類、調整和整合。盡管是由官方國際組織發布的,不同的標準對類似的實體可能包含不同的定義。此外,當利用同一標準來設計CPS時,不同的觀點會產生互操作性沖突。盡管標準化框架具有表達性,但在某種程度上可能代表了同一標準的不同分類,需要解決互操作性沖突,以支持智能工廠的有效和高效通信。
為了實現互操作性,需要對數據進行語義整合,調解現有的沖突。這個問題已經在文獻中得到了廣泛的研究。獲得的結果可以應用于一般的集成問題。然而,目前的方法未能考慮I40場景中實體之間發生的特定互操作性沖突。在這篇論文中,我們解決了I40場景中的語義數據整合問題。我們提出了一種基于知識圖譜的方法,允許在考慮其語義的同時整合I40中的實體。為了實現這種整合,在不同的概念層面上有一些挑戰需要解決。首先,定義標準和標準化框架之間的映射;其次,代表標準所描述的I40場景中的實體知識;第三,在解決語義異質性問題的同時,整合CPS設計的觀點;最后,確定所提出方法的實際行業應用。
我們首先設計了一種知識驅動的方法,允許將標準和標準化框架整合到工業4.0知識圖譜(I40KG)中。標準本體用于表示標準和標準化框架的主要屬性,以及它們之間的關系。I40KG允許整合標準和標準化框架,同時解決該領域中特定的語義異質性沖突。此外,我們在知識圖譜中對標準進行語義描述。為此,我們考慮了對I40場景具有核心重要性的標準,即I40的參考架構模型(RAMI4.0)、AutomationML和供應鏈操作參考模型(SCOR)。此外,描述CPS的實體的不同角度被整合到知識圖譜中。為了評估所提出的方法,我們依靠經驗性的評估以及具體用例的開發。獲得的結果證明,知識圖譜方法能夠在I40場景中對實體進行有效的數據整合,同時解決語義上的互操作性沖突,從而增強了智能工廠中的通信。
目前許多領域因數字化進程而產生的數據越來越多地影響著社會的許多方面。全球化、無處不在的通信網絡和互聯網、新的人機協作場景,例如社會和職業網絡,以及復雜的信息系統的存在,是一些消耗和產生大量數據的活動。這些活動實際上正在影響著社會和工業的所有領域。在這些數字化過程中產生的數據對于改善人類發展的許多領域可能具有極其重要的意義。特別是,公司越來越多地將數據視為對提高其流程的效率和效能具有關鍵意義的資產。
在工程和制造領域,目前有一種向數字化生產的新時代出發的氛圍。第四次工業革命在德國被稱為"工業4.0",而相關術語,如美國的 "工業互聯網"、中國的 "智能制造"、法國的 "未來工業",在不同的國家被用來表示同一概念。工業4.0(I40)一詞似乎已被國際社會認可,指的是第四次工業革命。I40的主要目標是通過結合物聯網(IoT)、服務互聯網(IoS)和網絡物理系統(CPS)的優勢創建智能工廠。在智能工廠中,人類、機器、材料以及CPS需要以智能方式合作,以提高產量。
為了實現創建智能工廠的目標,必須確保數據整合的三個方面:1)垂直整合,在工廠/生產車間內;2)水平整合,通過整個價值創造網絡;3)端到端整合,貫穿整個產品生命周期[1,2]。首先,垂直整合包括將不同層次的制造水平的系統整合成一個全面的解決方案。這種集成是在車間層面上進行的,在車間層面上,傳感器、執行器、CPS等設備位于企業規劃層面上的企業資源系統(ERP)。第二,橫向整合,涉及合作伙伴、供應商、客戶以及其他生態系統成員之間的合作,從物流到創新、流動以及利益相關者。智能工廠通過在其運營中使用世界范圍內的生產鏈和數據網絡達到全球。因此,有必要在所有這些參與者之間進行數據整合,也就是橫向整合。橫向整合需要確保工廠能夠作為一個智能工廠在全球市場上進行互動。最后,產品生命周期的發展包括許多工程活動,以創建一個CPS,如構思、設計、生產、利用和終止。在復雜系統(如CPS)的工程中,通常屬于不同工程學科的利益相關者必須進行有效的合作。CPS工程過程的目的是提供高質量的最終產品,例如,完整的生產工廠設計,并滿足嚴格的時間框架。各種工程學科的存在導致了高度復雜和軟件密集型的環境,其特點是:a)眾多的工程工具在設計上不能相互合作;b)各種工程領域的特定表示和數據交換格式的應用;以及c)各相關學科采用的工作流程的差異。不同的系統、組織和利益相關者參與到CPS的工程和運營中,既要跨越工程領域的界限,即橫向整合,又要在系統的不同抽象層次(業務、工程、運營)之間,即縱向整合[3]。此外,這些環境中的一個核心挑戰是確保互操作性,允許在整個產品生命周期中進行數據整合。為了實現這種互操作性,實現CPS的一個關鍵問題依賴于解決這些系統、組織和利益相關者之間的數據整合挑戰。這意味著要開發一個CPS,受影響的學科必須確保生成的數據的整合。
實現這樣的整合是一項復雜的任務,特別是當考慮到世界各地的工廠,它們通常根據不同的商業和法律規則以及不同的標準運作。互操作性是一個主要挑戰,也是I40的設計原則之一[4]。為了實現I40場景中的互操作性,像執行器、傳感器、傳送帶和CPS等實體的含義需要以語義描述的方式,讓機器和人類都能夠理解和分享它們的含義。當試圖在所描述的集成中進行合作時,相關實體之間會出現語義互操作性沖突。語義互操作性沖突表示不同或等同概念的建模以及這些概念的表達方式的差異[5]。為了實現I40的愿景,需要解決不同實體間的這些互操作性沖突。
為了解決智能工廠的互操作性問題,世界各地的工業界都提出了標準和標準化框架。這方面的相關例子有工業4.0參考架構(RAMI4.0)[6] 或工業互聯網參考架構(IIRA)[7]。這些環境的基本價值在于使基于這些標準化框架建立的CPS之間具有互操作性。盡管在對現有標準進行分類和調整方面很有表現力,但標準化框架可能對同一標準提出不同的解釋或分類。例如,OPC UA被RAMI4.0分類為通信標準,而IIRA將OPC UA定位在其架構的框架層[8]。標準分類之間的不匹配產生沖突,對智能工廠的互操作性產生負面影響。因此,盡管為創建標準以及標準化框架做出了所有這些努力,語義互操作性沖突仍然是I40場景中未解決的問題。
由于對實體或過程的不同和/或類似的表述,類似的I40相關標準之間的互操作性受到阻礙。例如,在旨在合作的標準中,不同的名稱被用來表達相同的含義,例如,AutomationML(AML)中的InternalElement描述的含義與OPC UA中的Object相同[9]。如果這些標準被聯合用來為同一個CPS建模,那么他們的信息模型的整合是必須的。為此,所涉及的實體的含義需要被精確定義,并解決互操作性沖突[10]。總之,為了實現I40場景下所需的互操作性,數據需要在語義上進行整合,與所面臨的整合類型無關,即垂直、水平或端到端的工程整合。
圖1.1: I40場景中的語義互操作性沖突。已經定義了四個層次來描述I40場景中的語義互操作性沖突。從標準化框架到由網絡物理系統代表的物理世界。語義互操作性沖突發生在所有層面,對I40場景中的數據集成產生了負面影響。
在概念層面上,面臨著一個語義數據整合問題。指導本論文工作的研究問題可以表達如下:我們研究如何通過描述I40場景中實體的含義來增強這些場景的互操作性。
由于I40場景中的語義數據整合問題包括許多需要解決的問題和障礙,我們認為以下挑戰和問題不屬于本論文的范圍:在I40場景中語義整合數據時的大數據挑戰;I40場景的安全問題;以及I40數據的實時語義數據整合。盡管如此,我們承認本論文中提出的結果為擴展這項工作以涵蓋這些方面奠定了基礎。
為了更好地理解I40場景中的語義數據整合問題,以及需要解決的不同語義互操作性沖突,我們確定了四個層次(參見圖1.1)。頂層對應的是標準化框架。在這個層次中,調查了標準化框架,如RAMI4.0、IIRA、IICF,以及美國國家標準與技術研究院(NIST)的標準化景觀。我們調查了標準化框架用于對標準進行分類的不同分類層次,如維度和層次。此外,我們研究了標準是如何被納入這些層次的,目的是了解需要解決的現有語義互操作性沖突,例如,相同的標準被不同的標準化框架進行不同的分類。第二個層次--工業4.0標準,考慮到了標準之間的關系。這一層次也包括語義上的互操作性沖突。例如,對應于兩個應該互動的標準的信息模型的不同名稱被用來表達一個實體的相同含義,例如,AML中的InternalElement與OPC UA中的Object具有相同的含義。第三層,文檔,指的是基于描述I40實體的特征和關系的標準而生成的文檔,例如,CPS。這些文件是由不同的學科建立的,代表了同一CPS的不同觀點。通常情況下,語義異質性沖突被引入,即對同一領域的不同解釋被建模。這是由參與該過程的不同觀點造成的。第四層,網絡物理系統,描述了物理世界,其中有CPS的存在。在下文中,將介紹本論文所解決的主要挑戰。前三個挑戰是指研究,而第四個挑戰的重點是將研究應用于具體場景。
挑戰1: 定義標準和標準化框架之間的映射關系。標準化框架根據其功能對標準進行分類。然而,標準化框架代表了I40場景中關于標準的區域觀點。一些標準,如OPC UA,可能被RAMI4.0、IIRA和NIST的標準化景觀分類在不同的層次。因此,存在關于標準和標準化框架的不同觀點。需要確定不同標準化框架的標準表述之間的語義沖突。此外,一些標準被不同的標準化組織以不同的方式命名,例如,OPC UA在其國際版本中被命名為IEC 62541。標準化框架中的這些不同的標準表述對I40場景中的互操作性產生了負面影響。因此,需要確定標準化框架和標準之間的映射,以及標準之間的映射。
挑戰2:在工業4.0場景中表示關于實體的知識。標準由信息模型組成,以表示它們所涵蓋的領域的知識。在某些情況下,這些信息模型包含模糊的、冗余的和重疊的信息。此外,這些信息是以半結構化或非結構化格式(如XML或純文本)以及結構化格式(如數據庫模型)進行編碼。以計算機可讀的形式表示這些知識,允許識別和解決I40實體之間的語義互操作性沖突,對于本論文的工作至關重要。
挑戰3:整合工業4.0場景中的實體的沖突觀點。CPS是復雜的系統,通常需要多個學科的投入,如機械、電氣或軟件工程。在設計CPS時,這些學科中的每一個都會產生不同的觀點。不同的觀點需要被整合到最終的CPS設計中。此外,在每個觀點中單獨建模的實體,以及解決可能引起的相應的語義異質性沖突,應根據它們與其他觀點的一致性程度,成為最終CPS設計的一部分。
挑戰4:確定工業4.0中實體的語義數據整合的現實世界應用。互操作性和語義數據整合是公認的設計原則和I40愿景發展的要求。然而,由于以下原因,確定基于語義的方法的附加值的現實世界的應用是困難的。1)對I40背景下產生的數據的語義異質性沖突缺乏了解;2)使用的標準沒有足夠的表達能力來解決I40背景下的數據語義整合問題,例如XML;以及3)缺乏成功案例來證明基于語義的數據整合方法的好處。
經過前面幾節的討論,我們確定了以下研究問題。
問題1:知識圖譜方法如何定義標準和標準化框架的映射并解決它們之間現有的語義互操作性沖突?
為了回答這個研究問題,知識圖譜方法被用來表示和整合各種標準化框架和標準中編碼的知識。通過這種方法,標準化框架和標準之間的語義互操作性沖突得到了調解。
問題2:知識圖譜如何表示工業4.0實體中編碼的語義?
為了回答這個問題,我們開發了涵蓋I40領域不同領域的本體論。與傳統的知識管理方法相比,這種方法所提供的好處被證明。
問題3:如何利用現有的基于規則的方法來解決知識圖譜的語義互操作性沖突?
為了回答這個研究問題,我們研究了用于創建和利用知識圖譜的邏輯編程方法和概率技術。邏輯編程方法和概率技術被用于捕捉不同CPS視角下的知識編碼。這些知識被編碼在知識圖譜中并被利用,目的是識別CPS視角之間的語義互操作性沖突。然后,語義互操作性沖突通過依靠知識圖譜來解決。最后,代表CPS觀點的綜合知識的最終設計被創建。
問題4:基于知識圖譜的實體集成如何應用于工業4.0的真實場景?
為了解決這個問題,研究了I40場景中語義數據集成的不同應用領域。已經開發了真實的用例,并報告了一家制造公司使用這種應用的實際經驗。
圖1.2:論文的貢獻。本論文的四個貢獻提出了基于知識圖譜調和工業4.0場景下的互操作性沖突的解決方案。1)將標準和標準化框架整合到知識圖譜中;2)使用本體對標準進行語義描述;3)將CPS整合到知識圖譜中;4)基于知識圖譜的方法在I40場景中對數據進行語義整合的實際應用建議。標準和標準化框架的語義被編碼在知識圖譜中,以解決工業4.0場景下的語義互操作性沖突。
為了指導讀者閱讀本文,我們對本論文的主要貢獻和研究領域進行了概述。此外,還包括支持這項工作的科學出版物的參考文獻。
本論文的貢獻是跨學科的,涉及語義建模、知識圖譜的創建和完善,以及I40場景下的語義數據整合。圖1.2描述了在解決I40場景中語義互操作性沖突的同時,根據確定的層次,提出了整合數據的解決方案。接下來,將概述本論文的貢獻。
事實證明,知識圖譜(KGs)已經成功地應對了不同領域的數據整合過程中的語義互操作性沖突,如醫學[11]、農業[12]和人類交通[13]。對于工廠來說,KGs被認為是下一代企業信息系統的核心[14]。數據的意義與圖一起存儲,以本體的形式捕捉領域的語義。KGs也能在現有的基礎上得出結論和新的知識。這使得KGs成為尋找和理解數據的單一場所。為了實現語義互操作性,由標準和標準化框架描述的數據需要在語義上進行整合。這些數據的意義需要被保留下來,并且在整合過程中需要解決語義異質性沖突。
貢獻1:將標準和標準化框架整合到知識圖譜中。我們提出了一種基于知識圖譜的方法,對遵守I40標準和標準化框架的文件進行語義整合。開發了STO本體,它描述了標準和標準化框架的概念。此外,還提出了一種建立和利用工業4.0標準和標準化框架知識圖的方法。基于這種方法和STO中的語義,我們建立了工業4.0標準知識圖(I40KG)。I40KG包含了對200多個標準、25個以上的標準化組織和100個標準之間關系的描述。最后,I40KG與現有的知識圖譜(如DBpedia)相連接,并實現了自動推理,以揭示標準之間的隱性關系以及跨標準化框架的映射關系。這一貢獻旨在回答RQ1。
貢獻2:使用本體對標準進行語義描述。對于第二層次,即工業4.0標準,建議使用本體對標準進行語義描述。概述了一種新的方法,以語義表示和利用與I40相關的標準和標準化框架的知識。對I40愿景極為重要的標準被建模為本體。首先,RAMI4.0涵蓋了I40解決方案的參考架構和提供資產代表的Administration Shell概念。第二,AML本體,涵蓋AutomationML標準。該標準對于從不同學科角度設計CPS的工業解決方案至關重要,如機械、電氣和軟件工程。最后,SCORVoc代表APICS行業協會的供應鏈運營參考模型。我們展示了工業4.0實體的語義表示的好處。我們開發了I40場景中語義表示的常見用例,例如,測量單位。介紹了這些場景中實體間語義異質性沖突的編纂。此外,通過考慮和應用本體的語義,開發了沖突的解決方案。這一貢獻涵蓋了研究問題RQ2。
貢獻3:將CPS整合到知識圖譜中。我們提出了一種將CPS的觀點融入知識圖譜的方法。知識圖譜是為代表CPS設計的不同角度的信息而創建的,即機械、電氣和軟件觀點。這些觀點之間發生的語義互操作性沖突被描述出來。為此,我們按照兩種邏輯方法對識別和解決CPS視角的I40實體之間的沖突問題進行了形式化:演繹數據庫和概率軟邏輯。這些形式化的規范分別在Alligator和SemCPS中實現。首先,我們介紹了Alligator,一種用于識別和解決CPS文件之間語義互操作性沖突的演繹方法。Alligator依靠Datalog來準確地表示描述CPS文檔中不同類型的語義異質性沖突的知識。Alligator使用一個知識圖譜來編碼CPS觀點的知識。其次,我們開發了SemCPS,一個依靠概率軟邏輯(PSL)的規則庫框架,用于捕捉不同CPS視角中編碼的知識,并在解決現有語義異質性沖突的同時利用這些知識進行CPS視角整合。關于文件層面,以及網絡物理系統層面,我們的目標是創建一個能夠描述和整合由不同標準定義的CPS文件的CPS KG。通過這一提議,研究問題RQ3得到了解決。
貢獻4:為了展示知識圖譜方法的適用性,我們進行了一個基于制造公司的案例研究。開發了對工廠生產效率具有核心意義的兩個用例,即工具可用性和能源消耗。我們調查了與這些用例相關的制造公司的數據源。分析了數據源之間現有的語義互操作性沖突。為了執行這些用例,我們開發了一種知識圖譜的方法來解決公司數據源之間存在的語義互操作性沖突。我們開發了一套本體論來描述數據源的語義,即物料清單、制造執行系統和傳感器數據。此外,還定義了一套映射,將數據源與本體進行映射。定義了一個實現知識圖譜方法的架構。該架構使數據的整合考慮到了數據源、本體、映射和應用。通過使用提議的方法,數據源之間的語義互操作性沖突得到了解決。本報告中獲得的結果回答了RQ4。
本論文中的部分工作已經作為會議、研討會和期刊文章或書籍章節發表。在每一章的開頭,都提到了該章所依據的出版物。在下文中,將概述作為本論文基礎的主要出版物。
1.Irlán Grangel-González, Lavdim Halilaj, G?khan Coskun, S?ren Auer. Towards Vocabulary Development by Convention. In Proceedings of the International Conference on Knowledge Engineering and Ontology Development (KEOD), 2015, 334-343, SciTePress; 本文是與波恩大學的博士生Lavdim Halilaj的合作作品。在這篇文章中,我參與了問題的定義、詞匯開發方法的開發、評估以及結果的分析。
2.Irlán Grangel-González, Lavdim Halilaj, G?khan Coskun, S?ren Auer, Diego Collarana, Michael Hoffmeister. 邁向工業4.0組件的語義管理殼。在2016年第十屆IEEE國際語義計算會議(ICSC)論文集,230-237,IEEE。Fraunhofer IAIS月度論文,2016年6月。這篇文章是與波恩大學博士生Lavdim Halilaj的合作作品。在這篇文章中,我參與了問題的定義、方法的開發、對最先進方法的回顧、用例的介紹以及對結果的分析。
3.Lavdim Halilaj, Irlán Grangel-González, G?khan Coskun, S?ren Auer. Git4Voc: 基于Git的版本管理,用于協作式詞匯開發。In Proceedings of the Tenth IEEE International Conference on Semantic Computing 2016, 285-292, IEEE; 本文是與波恩大學的博士生Lavdim Halilaj的聯合工作。在這篇文章中,我參與了問題的定義、方法的開發、對最先進技術的批判性審查以及對結果的分析。
4.Irlán Grangel-González, Lavdim Halilaj, G?khan Coskun, S?ren Auer, Diego Collarana. 基于RDF的方法,用Administration Shells實現工業4.0組件。在2016年第21屆IEEE新興技術和工廠自動化國際會議(EFTA)論文集,1-8,IEEE。本文是與波恩大學博士生Lavdim Halilaj的合作作品。在這篇文章中,我參與了問題的定義、方法的開發、對最先進方法的回顧、用例的介紹以及對結果的分析。
5.Niklas Petersen, Irlán Grangel-González, S?ren Auer, G?khan Coskun, Marvin Frommhold, Sebastian Tramp, Maxime Lefranc, Antoine Zimmermann. SCORVoc: 基于詞匯的供應網絡信息集成和交流。2016年第十屆IEEE語義計算國際會議論文集》,132-139頁,IEEE;本文是與波恩大學的博士生Niklas Petersen的合作作品。我對本文的貢獻是致力于問題的定義、本體的建模,以及對相關工作的分析和回顧。
6.Irlán Grangel-González, Diego Collarana Vargas, Lavdim Halilaj, Steffen Lohmann, Christoph Lange, Maria-Esther Vidal, S?ren Auer. Alligator: 用于整合工業4.0標準的演繹方法。In Proceedings of the 20th International Conference of Knowledge Engineering and Knowledge Management (EKAW) 2016, 272-287; 本文是與波恩大學的博士生Diego Collarana Vargas和Lavdim Halilaj的聯合工作。在這篇文章中,我參與了問題和激勵性例子的定義、方法的開發、對最先進方法的修訂、軟件的開發,以及實驗和結果的執行和分析。
7.Irlán Grangel-González, Paul Baptista, Lavdim Halilaj, Steffen Lohmann, MariaEsther Vidal, Christian Mader, S?ren Auer. 從語義整合的角度看工業4.0的標準環境。在2017年第21屆IEEE新興技術和工廠自動化國際會議論文集中,1-8;在這篇文章中,我的貢獻是對問題和激勵性例子的定義、方法的開發、本體和知識圖譜的開發、對最先進方法的修訂,以及實驗和結果的執行和分析。
8.Irlán Grangel-González, Lavdim Halilaj, Omar Rana, Maria-Esther Vidal, Steffen Lohmann, S?ren Auer, Andreas W. Müller. 用于網絡物理系統語義整合的知識圖譜。在2018年第29屆數據庫和專家系統應用國際會議(DEXA)論文集,184-199。在這篇文章中,我參與了問題的定義和激勵性的例子,方法的開發,軟件的實現,相關工作的回顧,以及實驗和結果的執行和分析。
9.Niklas Petersen, Lavdim Halilaj, Irlán Grangel-González, Steffen Lohmann, Christoph Lange, S?ren Auer. 為一家制造公司實現基于RDF的信息模型--一個案例研究。(最佳使用中論文獎的兩個提名者之一)《2017年第16屆國際語義網會議(ISWC)論文集》,350-366,Springer。這是與Niklas Petersen和Lavdim Halilaj兩位波恩大學的博士生共同完成的工作。在這篇文章中,我參與了信息模型的開發、映射的定義、架構的開發、用例的描述,以及對如何用信息模型解決語義異質性沖突的分析。
在博士期間完成的完整的出版物清單見附錄A.1。
本論文的結構分為七章,概述如下。
第1章 - 緒論為論文作序,包括主要的研究問題和挑戰,開展工作的動機,研究問題,解決研究問題的科學貢獻,以及正式描述這些貢獻的已發表的科學文章列表。
第2章--背景和前提介紹了理解本論文工作所需的關鍵概念。最初,解釋了I40場景和核心相關概念。接下來,描述了語義技術的基礎。研究了數據整合的一般原則,重點是語義數據整合;介紹了語義異質性沖突以及它們在I40場景中的存在。最后,研究了用于整合數據同時解決語義異質性沖突的技術描述。
第3章--相關工作研究了當前最先進的方法,以使讀者更好地理解本論文中所進行的工作。對語義數據整合的一般方法進行了調查。此外,還描述了與I40領域的標準語義表示有關的具體工作。接下來,概述了關于將標準整合到知識圖譜中的工作。最后,描述了I40領域中實體語義整合的現有方法。
第4章--將工業4.0標準整合到知識圖譜中,描述了解決標準化框架之間以及標準之間互操作性沖突的知識圖譜方法;還概述了建立和完善知識圖譜的方法。
第5章--使用本體對工業4.0標準進行語義描述,介紹了一種建立本體的方法,這些本體是在I40場景中常用的標準,即RAMI4.0、AML和SCOR。這種方法被用來利用這些標準中編碼的實體的語義,并幫助解決語義異質性問題。
第6章--將網絡物理系統整合到知識圖譜中,概述了將CPS整合到知識圖譜中的情況。對本章所處理的問題提出了兩種解決方案:i)結合Datalog和本體的力量的演繹方法;以及ii)考慮到CPS設計中存在的不確定性并使用概率軟邏輯方法來獲得CPS的最可能的設計的方法。
第7章 - 語義數據集成在工業4.0場景中的應用,展示了知識圖譜方法在實際制造公司中語義集成數據的適用性。
第8章--結論和未來方向最后總結了本論文的結果和對I40場景中語義互操作性問題的貢獻。討論了所提出的方法的現有限制,并對未來研究的可能方向進行了展望。
知識圖譜代表了關于人、地方和事物的數百萬事實和可靠信息。這些知識圖譜已經證明了它們的可靠性,并被用于提供更好的搜索結果;回答有關實體的模糊問題;以及訓練語義分析器以增強語義網的語義關系。然而,雖然互聯網上存在大量與糧食、能源和水(FEW)相關的數據集,但缺乏能夠使用這些資源的可靠方法和工具。這阻礙了利用知識圖譜的新型決策應用的發展。在這篇論文中,我們介紹了一個新的工具,叫做FoodKG,它利用先進的機器學習技術豐富了FEW知識圖譜。我們的首要目標是改善決策、知識發現,并為FEW領域的數據科學家提供更好的搜索結果。給定一個輸入的知識圖譜(在原始FEW數據集上構建),FoodKG根據原始數據集的術語和類別,用語義相關的三元組、關系和圖像來豐富它。FoodKG采用了一種現有的圖嵌入技術,該技術是在聯合國糧食及農業組織發布的受控詞匯AGROVOC上訓練出來的。AGROVOC包括農業和食品領域的術語和類別。因此,FoodKG可以用語義相似度分數和不同類別之間的關系來增強知識圖譜,對現有實體進行分類,并允許FEW專家和研究人員使用科學術語來描述FEW概念。在AGROVOC上訓練后得到的模型與在同一數據集上訓練的最先進的詞嵌入和知識圖譜嵌入模型進行了評估。我們觀察到,根據Spearman Correlation Coefficient得分,該模型的表現優于其競爭對手。
我們引入了聯邦學習(FL)技術來進一步擴展我們的工作,通過在每個數據集網站上訓練較小版本的模型而不訪問數據,然后在服務器端匯總所有的模型,將私有數據集包括在內。我們提出了一種我們稱之為RefinedFed的算法,通過在聚合階段之前過濾每個數據集站點的模型來進一步擴展當前的FL工作。我們的算法將目前在MNIST日期集上的FL模型準確率從84%提高到91%。
在本章中,我們簡要介紹了研究領域、我們在該領域解決的研究問題、工作目標、工具、已經使用的網絡服務以及我的工作貢獻。
20年前,任何人都很難相信他們會擁有一部手機,更不用說一臺筆記本電腦了,現在大多數汽車的計算微處理器比用來作為交通工具送人登月的太空車的微處理器還要強大[9]。技術的巨大飛躍革新了新的生活方式和我們在許多不同方面的溝通方式。它甚至改變了我們思維方式的優先次序,將農業革命轉變為工業革命,并導致了巨大的信息革命。如今,任何事情都可以通過技術完成,包括在線會議、在線學位、在線工作、社會溝通等等。此外,娛樂和與朋友和家人的溝通也可以通過社交網站在網上完成。這場重大的信息革命每天都會產生大量的數據,稱為大數據(BD)[13]。大數據的概念是指結構化和非結構化數據的復雜和大量,傳統的數據處理應用軟件不足以處理每天產生的大量數據[57]。
大數據科學(BDS)是研究管理、存儲、分析和檢索海量數據的科學。BDS面臨的挑戰之一是,互聯網上的數據并不遵循特定的格式。不同的社交媒體網站使用不同的方式來存儲和處理在線數據[43]。例如,YouTube網站表示,每分鐘有價值400小時的視頻被上傳,10億小時是YouTube上每天被觀看的內容[91]。YouTube以結構化格式存儲這些小時的視頻,而擁有比中國人口更多用戶的Facebook則以圖表形式存儲數據[15]。這些不同的格式給想要分析和處理這些數據的用戶帶來了新的挑戰。BDS的重要部分是使用戶能夠分析和處理不同格式的大數據。結構化數據,也被稱為關系型數據庫(RDB),包括表格、電子表格和使用結構化查詢語言(SQL)進行處理的數據庫。雖然SQL是一種常見的、強大的語言,但對于連接結構化和非結構化的數據,如文本、視頻、圖像、電子郵件和音頻文件,仍然存在許多挑戰。
幸運的是,有一種通用的數據模型,被認為是解決上述所有挑戰的方法。資源描述框架(RDF)是一個萬維網聯盟(W3C)的數據模型。RDF將數據分為三部分:主語、謂語和賓語,它們被稱為RDF三要素,<主語><謂語>"賓語",圖1。可以添加一個新的值來描述三聯體的上下文,這被稱為
圖1:RDF模型
RDF三元組代表了人類和計算機的實體和概念之間的語義信息和事實[90]。RDF數據模型中的主體提供了一個通用資源標識符(URI)來呈現獨特的信息和事實。這使得人類和計算機可以追溯一個詞的起源、相關術語以及在什么情況下被提及[71]。清單1說明了參與URI后的四維模型。
清單1:RDF四元組例子
此外,RDF模型的一個最重要的用途是連接和合并不同格式的數據。如果不使用RDF模型,合并兩個不同的數據庫會很復雜。復雜程度隨著數據庫數量的增加而增加。當使用RDF模型時,這個過程首先是將表轉換為RDF模型,然后連接這些三要素。連接RDF數據模型的好處是可以用于不同格式的不同數量的數據。將數據庫轉換為RDF模型是許多用戶面臨的挑戰之一,因為沒有特定的工具可以在沒有人的幫助下自動使用。將數據庫轉換為RDF模型需要一個特殊的結構,將數據庫中的數據映射為RDF模型。不同的數據庫需要不同的結構;這些結構被稱為本體。對于每個數據庫,用戶都需要提供一個本體。
互聯網上存在少數本體,但它們并沒有涵蓋不同用戶的目的。因此,我們在DBpedia本體的基礎上開發了一個新的本體,可以用來為使用FEW知識庫的用戶服務,這個本體叫做FEW本體。FEW本體包含數十種關系,在轉換為RDF模型時,可以用來指定兩個實體之間的關系。例如,表1包含書籍的標題、作者、出版商等。
表1:圖書數據庫的例子
書名 | 標題 | 作者 | 出版標識 | 頁數 |
---|---|---|---|---|
0596002637 | 部分RDF | Shelley Powers | 7642 | 350 |
0596000480 | 腳本 | 大衛-弗拉納根 | 3556 | 936 |
將第二本書與 "JavaScript "聯系起來的關系是 "標題"。很少有本體定義這樣簡單的關系,但是對于另一列來說,關系可能是 "頁數"。在這種情況下,用戶必須搜索定義 "頁數 "關系的本體或創建自己的本體。在將前面的表格轉換為RDF模型后,數據將如圖2所示呈現。
圖2:第二本書的RDF模型[8]
RDF數據模型的另一個優點是,用戶可以簡單地理解使用這些RDF三元組呈現的所有信息。用戶可以添加額外的信息,如作者個人網站的鏈接,他有多少個孩子,以及他還寫過哪些書。
我們工作的第二部分是通過添加基于給定數據集中實體之間語義相似性的額外信息來增強映射的RDF數據集。我們的程序開始時,一次對兩個實體進行語義上的比較。基于這些實體之間的關系,額外的三元組將被添加到數據集中,其中包含被比較的實體的語義相似度分數和它們之間的關系。在一個數據集中,多個實體可能具有除現有實體以外的關系[109]。例如,一個數據集可能包含諸如 "David Flanagan "和 "Java in a Nutshell "這樣的名稱,這會讓用戶感到困惑。在這種情況下,根據第一個和第二個名字之間的語義相似性添加額外的信息,如 "作者 "或 "擁有者",將豐富數據集,為用戶了解名字和實體之間的確切關系提供寶貴的信息。此外,用額外的信息來充實數據集將最大限度地減少搜索時間。例如,在 "David Flanagan "和 "Java in a Nutshell "之間添加 "作者 "關系,將為想要搜索這些名字之間關系的用戶節省時間和精力。為此,我們利用ConceptNet網絡服務為我們提供了一個給定詞的所有語義相關的概念,以便用它們來進行計算。在開始解釋我們的工作之前,我們想提一下選擇FEW領域的幾個原因。
現在的技術大多與計算機相關的項目有關,如社交媒體、銀行、廣告、教育等。食品、水和能源系統并不像其他專業那樣擁有相同的技術興趣。因此,我們的項目旨在建立一個系統來改進糧食、水和能源的知識圖譜,以增強這些系統的功能,使用戶能夠以更好的方式分析數據庫和圖譜[83]。
在將數據庫轉換為RDF模型時,由于缺乏現有的本體,我們不得不在DBpedia本體的基礎上創建一個新的本體,以便與FEW系統一起使用。
分析數據并不是一個新的概念,但是通過添加與現有數據相關的額外的RDF四元組來豐富數據集,基于這些四元組之間的語義相似性是一個真正的挑戰,這將豐富一個數據集,為用戶提供更多關于該特定數據集中存在的概念的有用信息和事實。
食物、能源和水是維持地球上人類生活的關鍵資源。目前,互聯網上有大量與食物和能源資源相關的數據集。但是,仍然缺乏能夠消費這些資源并提供決策能力的可靠工具[82]。此外,互聯網上的水電數據以不同的格式存在,文件擴展名為CSV、XML和JSON,這使得用戶在加入、查詢和執行其他任務方面面臨挑戰[51]。一般來說,這樣的數據類型在關聯開放數據(LOD)的世界中是不可消費的,也不準備被不同的深度學習網絡處理[64]。最近,在2018年9月,谷歌宣布了其 "谷歌數據集搜索",這是一個包括圖形和關聯數據的搜索引擎。谷歌數據集搜索是語義網領域的一次巨大飛躍,但挑戰在于缺乏已發布的知識圖譜,尤其是在FEW系統領域[35]。
包括Freebase[18]、DBpedia、[14]和YAGO[98]在內的知識圖譜由于其語義屬性而被普遍用于語義網技術、關聯開放數據和云計算[29]。近年來,許多免費的和商業的知識圖譜都是從維基百科這樣的半結構化資源庫中構建的,或者是從網絡上收獲的。在這兩種情況下,其結果都是大型的全局知識圖,在完整性和正確性之間有一個權衡[42]。最近,人們提出了不同的細化方法,以利用這些圖中的知識,通過增加缺失的知識、識別錯誤部分和提取對用戶有用的信息,使它們在特定領域更有用[74]。此外,大多數知識圖譜中使用的知識提取方法是基于二元事實的[31]。這些二元事實代表了兩個實體之間的關系,當有多個實體時,特別是在像FEW這樣的特定領域,這限制了它們的深度推理能力[102]。
缺乏可靠的知識圖譜服務于FEW資源,這在很大程度上促使我們建立了我們的工具--FoodKG,它使用特定領域的圖嵌入來幫助決策,改善知識發現,簡化訪問,并提供更好的搜索結果[36]。FoodKG通過添加額外的知識和圖像來豐富FEW數據集,這些知識和圖像是基于同一背景下實體之間的語義相似性[101]。為了實現這些任務,FoodKG采用了最近的基于自聚類的圖嵌入技術,稱為GEMSEC[84],該技術在AGROVOC[21]數據集上重新訓練。AGROVOC是一個詞匯集合,涵蓋了聯合國糧食和農業組織關注的所有領域,包括糧食、營養、農業、漁業、林業和環境。重新訓練的模型AGROVEC是一個特定領域的圖嵌入模型,使FoodKG能夠用不同術語和概念之間的語義相似度分數來增強知識圖。此外,FoodKG還允許用戶通過一個友好的用戶界面使用SPARQL查詢知識圖。
目前現有的知識圖譜和數據大多是私有的。因此,我們通過添加聯邦學習(FL)技術來擴展我們的工作,以便能夠從私有和安全的數據中獲益。聯邦學習是由McMahan[61]提出的一種分布式機器學習方法,其目標是使用大量的分布式數據集來訓練一個集中的/全球的模型,而不訪問數據并保持數據的本地化。這個想法是在每個數據集所在地訓練一個較小版本的模型,然后在服務器上聚集所有的模型,目標是最小化目標函數,如下圖所示:
其中n是客戶的數量,。FL允許在這些數據上進行訓練,而不需要將數據傳輸到持有人的場所之外。特別是,FL是 "把代碼帶到數據上,而不是把數據帶到代碼上 "這種更普遍的方法的一個實例,反過來,它將使用本地化的數據訓練一個模型,而不需要允許訪問它。Mcmahan和Ramage[20]給出了FL的一般描述,Konecn等人(2016a)[52]McMahan等人(2017[20]2018[63])和[19]給出了理論,以解決數據的隱私、所有權和定位的基本問題。FL最初是針對手機和邊緣設備應用而推出的[62],后來FL也被用于多個組織,如醫院,我們將這兩種設置分別稱為 "跨設備 "和 "跨語境",正如[62]中提到的。
聯邦學習(FL)是在保護隱私的機器背景下廣泛采用的技術之一,目的是在無法訪問的數據上訓練模型,如醫院的病人記錄。特別是,FL技術不是將數據上傳到一個集中的服務器上進行模型訓練,而是將模型發送給數據持有者,作為回報,數據持有者將訓練一個模型,而不需要分享數據或允許訪問數據。此外,FL經常被用來訓練來自邊緣和可穿戴設備的模型,這些設備不斷收集用戶的數據,如電話和醫療設備。例如,FL最有名的用途之一是在智能手機的鍵盤領域。谷歌在Gboard移動鍵盤[40, 46, 80, 106](簡化的FL架構見圖3)、安卓信息[24]中廣泛使用FL,而蘋果在iOS 13[99]中使用跨設備FL。預測智能手機鍵盤中下一個單詞的模型是用FL技術訓練的。與其將用戶的所有私人文本上傳到一個集中的服務器并訓練一個模型,不如在用戶手機上訓練一個簡單的模型,產生一個準確率不高的模型。然而,當收集數以千計的用戶模型并在服務器上平均其權重時,將產生一個更好和更普遍的模型。然后,產生的模型將在下一輪中被發送給所有的用戶。在FL的一個回合中,服務器將全球模型發送給所有的客戶,每個客戶將在自己的私人數據上進一步訓練這個模型,然后將更新的數據再次發送給服務器進行匯總。這個過程將繼續重復,更多的通用模型將被產生。
圖3:FL的簡化結構,服務器最初向客戶發送一個全局模型。客戶端進行本地訓練并與服務器共享更新的權重。服務器匯總這些權重并更新全局模型,然后再繼續執行這些步驟。
對所有客戶模型進行平均化是目前用于生成具有更好準確性的全局通用模型的標準方法。這種技術類似于隨機森林,其想法是對所有過度擬合的樹狀模型進行平均,以產生一個更好的整體模型。然而,當參與實體(即參與訓練小模型的場所的數據持有者)不持有 "好的 "數據或他們的數據可能包括很多噪音時,這種方法面臨著真正的挑戰。例如,在使用FL來改善智能手機的下一個單詞預測的情況下,許多人使用英語來輸入其他語言的單詞(例如,我可能用英語輸入 "salam",而它是阿拉伯語的問候語)。更不用說那些語法錯誤和捷徑了,比如輸入 "u "而不是 "you"。不同的口音和不同的俚語也可能降低模型的準確性,如輸入 "goin "而不是 "going "等。從這些用戶那里收集到的模型將對一般模型有害。
另一方面,我們有在圖像上訓練的計算機視覺模型。然而,有些客戶可能有大量高分辨率的圖像。其他客戶可能只有少量的圖像、損壞的圖像、低分辨率的圖像、黑白圖像和有大量噪音的圖像,這些都會對整個模型產生不良影響。此外,從更大的人群中收集模型需要更多的計算能力、帶寬和引入的延遲。因此,我們提出的算法將在每一輪之后對每個客戶的模型進行簡單的準確性測試,并根據輸出結果將模型納入服務器的進一步操作或不納入。
在這篇論文中,我們提出了一個名為FoodKG的工具,它完善和豐富了FEW資源,以利用FEW圖中的知識,從而使其對研究人員、專家和領域用戶更加有用。我們工作的主要貢獻如下:
FoodKG是一個新穎的軟件工具,旨在使用多種功能來豐富和增強FEW圖。為所提供的三元組添加上下文是首批功能之一,可以更容易地查詢圖,為深度學習模型提供更好的輸入。
FoodKG提供了不同的自然語言處理(NLP)技術,如POS標簽、chunking和Stanford Parser,用于提取有意義的主題,統一重復的概念,并將相關實體連接在一起[22, 50, 59]。
FoodKG采用了專業化張量模型(STM)[37]來預測圖中新增加的關系。
我們采用WordNet[67]來返回所提供主題的所有偏移量,以解析ImageNet[85]中的相關圖像。這些圖像將以通用資源定位器(URL)的形式被添加到圖中,作為相關的和純粹的圖像。
FoodKG利用GEMSEC[84]模型,該模型在AGROVOC上經過轉移學習和微調后產生AGROVEC,以提供相似和鏈接概念之間的語義相似度分數。AGROVEC與在同一數據集上訓練的詞嵌入和知識圖譜嵌入模型進行了比較。由于在特定領域的圖數據上進行了訓練,AGROVEC在Spearman Correlation Coefficient得分方面取得了優于其競爭對手的表現。
我們引入了聯邦學習(FL)技術來進一步擴展我們的工作,通過在每個數據集站點訓練較小版本的模型而不訪問數據,然后在服務器端匯總所有的模型,將私人數據集納入其中。我們提出了一種我們稱之為RefinedFed的算法,通過在聚合階段之前對每個數據集站點的模型進行過濾來進一步擴展當前的FL工作。我們的算法在MNIST日期集上將目前的FL模型準確性從84%提高到91%。
我們的結果表明,AGROVEC在不同的場景下提供了比其他嵌入更準確和可靠的結果:類別分類、語義相似性和科學概念。
我們的目標是使FoodKG成為FEW領域的數據科學家和研究人員利用知識圖譜的概念和機器學習技術開發下一代應用的最佳工具之一。本論文的其余部分組織如下。第2節討論了最近的相關工作;第3節介紹了FoodKG的設計細節;第4節討論了FoodKG的實現和性能評估;最后,我們在第5節得出結論。
知識圖譜(KGs)在許多領域都有應用,如金融、制造和醫療等領域。雖然最近的努力已經創建了大型的KGs,但它們的內容還遠遠不夠完整,有時還包括無效的語句。因此,通過KG的完成和KG的驗證來提高KG的覆蓋率和準確性是至關重要的,這些都被稱為KG的完善。在這種情況下,為KG的完善輸出提供人類可理解的解釋也是至關重要的,這樣人類就會對完善后的KG質量產生信任。
通過搜索和瀏覽進行的KG探索,對于用戶了解KG的價值和對下游應用的限制至關重要。然而,KG的龐大規模使得KG的探索具有挑戰性。雖然KG的類型分類法是一個有用的資產,但它仍然不足以進行深度探索。
本論文通過對KG的邏輯推理,結合KG嵌入模型和文本挖掘等其他技術,解決了KG細化和KG探索的挑戰。我們為這些目標引入了提供人類可理解的輸出的方法。
具體來說,本論文包括以下貢獻:
為了解決KG的不完整性,我們提出了ExRuL,一種通過在Horn規則的主體中添加例外(即否定的原子)來修訂Horn規則的方法。學習到的規則可以用來預測新的事實,以填補KG中的空白。在真實世界的KG上的實驗表明,例外意識的規則極大地降低了事實預測的錯誤率。此外,規則為這些預測提供了用戶可理解的解釋。
我們還提出了RuLES,一種利用缺失事實的概率表示的規則學習方法。該方法通過結合預先計算的KG嵌入和文本語料庫的反饋,反復擴展從KG誘導出的規則。該方法利用了新設計的規則質量衡量標準。RuLES提高了所學規則及其預測的質量。
為了支持KG驗證,我們提出了ExFaKT,一個為候選事實構建人類可理解的解釋的框架。該方法使用規則將一個候選事實改寫成一組更容易發現和確認(或反駁)的相關事實。ExFaKT的輸出是一組來自文本和KG的候選事實的語義痕跡。實驗表明,基于規則的重寫極大地提高了所發現的痕跡的召回率,同時保留了高精確度。此外,這些解釋支持手動和自動的KG驗證。
為了促進KG的探索,我們介紹了ExCut,一種將KG嵌入與規則挖掘相結合的方法,以計算帶有解釋的信息性實體集群。集群的解釋由區分這個集群的實體關系的簡明組合組成。ExCut通過迭代交織學習嵌入和規則,共同提高了實體集群及其解釋的質量。實驗表明,ExCut產生了高質量的聚類,為它們計算的解釋幫助人類理解這些聚類中的實體之間的共同點。
人工智能追求的是開發能夠推理出理性決策的自動化代理。如果沒有關于世界的足夠知識,自動推理是不可行的[Lenat and Feigenbaum, 1991]。對這種知識的需求推動了各種努力,將人類知識表現為機器可讀的結構化模型。理想情況下,創建的資源應該同時保持高覆蓋率和高準確性。
對機器可讀知識的需求體現在創建一些適合自動推理任務的大型結構化知識庫,這些知識庫后來被稱為知識圖譜。
知識圖譜(KGs)是事實三要素h主語謂語賓語i的大集合。主語和賓語是代表人、地方、組織等的實體,而謂語是它們之間的關系。此外,有些KG還包括一個類型化系統,表明KG實體的類型和這些類型分類學之間的關系。類型化系統對推理和探索任務很有價值。
例1.1. 關于阿爾伯特-愛因斯坦的知識,比如他是一個出生在德國烏爾姆、生活在美國的科學家,以三要素的格式表示為。
<阿爾伯特-愛因斯坦 生于 烏爾姆>
<烏爾姆 位于 德國>
<阿爾伯特-愛因斯坦 移民 到美國>
而上述實體背后的類型化系統包括:
<阿爾伯特-愛因斯坦 屬于 科學家>
<烏爾姆 屬于 城市>
<德國 屬于 國家>
<科學家 屬于 人>
歷史。早期的KG是手工制作的;結果是高質量的KG,但范圍和規模有限,例如,Cyc [Lenat, 1995] 和WordNet [Miller, 1995]。隨著新千年的開始,自動知識采集的進展導致了所構建的KG在規模、質量和覆蓋面方面的飛躍。一些大規模的KG出現了,包括Freebase [Bollacker et al., 2008]和Wikidata [Vrandecic and Kr?tzsch, 2014],它們是通過在線社區手動構建的。其他KG項目,如DBpedia[Auer等人,2007]、YAGO[Suchanek等人,2007]、BabelNet[Navigli和Ponzetto,2012]、NELL[Mitchell等人,2015]和KnowledgeVault[Dong等人,2014]利用來自異質資源的(半)自動策展技術。同時,對現有的KGs進行調整和互聯的努力,比如,[Saeedi等人, 2018, Raad等人, 2020]出現了,目的是創造一個統一的視圖,這被稱為關聯開放數據[Bizer等人, 2011]。
應用。KGs被用于信息檢索任務,比如語義搜索[Haussmann, 2017, Dietz等人, 2018]和問題回答[Diefenbach等人, 2018, Abujabal, 2019]。它們對于文本分析和語言理解任務也至關重要。在這類任務中,KGs提供了所需的語義和背景,以分析和提取來自噪聲源的信息。此外,KGs擁有描述現實世界動態和人類常識的隱含模式,這在推理[Liu等人,2020]和數據清理[Chu等人,2015]任務中很有用。
KGs的使用已經超出了通用搜索和文本分析的范圍,例如[Singhal, 2012],而擴展到更多特定領域的應用。KGs被廣泛用于商業目的,例如,在推薦系統中[Wang等人,2019b, Guo等人,2020]。KGs也被利用于更復雜的領域,如學術文獻[Wan等人,2019]、法律[González-Conejero等人,2018,Junior等人,2020]、金融[Reuters,2017,Meij,2019,Albrecht等人,2019]和制造[Bader等人,2020,Mehdi等人,2019,Kalayci等人,2020]。最值得注意的是,KGs在敏感領域逐漸被采用,如醫療保健[Ernst et al., 2015, Noy et al., 2019, Terolli et al., 2020, Li et al., 2020]
覆蓋率和質量。知識圖譜的質量是由其構建過程決定的。例如,貢獻者的專業知識和偏見決定了人工構建的KGs的質量[Demartini, 2019]。同樣,自動策劃的KGs也受到來源的質量和提取方法的有效性的影響[Weikum等人,2020,Hogan等人,2020]。盡管現有的知識圖譜規模很大,但它們仍然有幾個缺點[Darari等人,2013,Hogan等人,2020],包括(i)實體和關于實體的事實都不完整;有時(ii)不準確,表現為不正確的策劃或過時的陳述(例如,婚姻狀況的改變)。
KG的缺點直接影響到下游應用的有效性。例如,在推理任務中,KG的覆蓋率和準確性對于得出有效的結論都是至關重要的。同樣,在語義文本分析中,缺失的實體和關系會損害實體鏈接算法的輸出質量。
完善的方法。鑒于上述KG的局限性,提高現有KG的質量至關重要,這就是KG細化的目的[Paulheim, 2017]。與KG構建不同,KG細化利用現有的KG事實,可能與其他資源相結合,以執行兩個主要任務:(i)KG完成,涉及預測KG實體之間的缺失關系,以及(ii)KG驗證,旨在確保KG中事實的正確性和一致性。
補全和驗證的方法分為兩類:符號化(基于邏輯)和亞符號化(即基于統計)方法。符號方法,例如[Drabent等人,2009,Nakashole等人,2012a,Fierens等人,2015,Bienvenu等人,2016],在KG上學習推理規則,并利用這些規則來推斷新的事實或使現有事實失效。另一方面,亞符號方法從KG三要素中學習統計相關性模型,并利用這些模型來估計新的候選事實的可信度[Paulheim和Bizer, 2014, Nakashole和Mitchell, 2014, Nickel等人, 2016a]。最突出的統計方法是KG嵌入模型,例如[Bordes等人,2013,Trouillon等人,2016],其中KG被嵌入到一個多維的連續空間[Nickel等人,2016a],反映了KG實體之間的語義關聯。
可解釋性和可擴展性。KGs在敏感領域有應用,這些領域由于質量保證和安全原因需要人類參與,例如醫療保健。因此,開發具有人類可理解輸出的細化方法是至關重要的。理解結果有助于人類建立對KGs質量的信任。可解釋性也允許克服KG構建和細化方法的局限性。例如,可解釋的結果可以幫助檢測和解決KG嵌入模型的社會偏見[Fisher等人,2020]。
統計方法有能力處理噪聲和大規模數據[Nickel等人,2016a],并支持異質數據模式的融合,例如,文本與關系圖元[Wang等人,2014a]。然而,它們受到一些限制;特別是,它們的結果不容易解釋[Bianchi等人,2020]。另一方面,產生可解釋的結果是符號方法的一個核心優勢[Eiter等人,2016,Martires等人,2020]。然而,僅靠邏輯推理無法處理噪聲源[Ji等人,2011]。
將基于邏輯的方法和統計方法結合起來,有可能開發出大規模的KG細化方法,產生人類可理解的結果。更具體地說,對KG的規則學習可以為解釋獲得的結果提供一個很好的代理,而統計技術可以提供邏輯推理的接口,以收集來自噪聲源的信號。
對于知識工程師來說,KG探索對于了解KG的價值和對下游應用的限制是至關重要的。然而,鑒于現有KG的規模,探索KG是具有挑戰性的。此外,KG包含異質數據,并且缺乏預定義的模式[Mohanty和Ramanath,2019];因此,在KG上組成探索性查詢是繁瑣而耗時的。
已經開發了幾個KG可視化和導航工具,以促進KG的探索[Gómez-Romero等人,2018]。其他方法支持通過基于KG的自動補全[Mohanty and Ramanath, 2019]、查詢擴展[Lissandrini et al., 2020]或通過實例查詢[Mottin et al., 2016]制定查詢。然而,這些方法并不能提供對KG的整體看法,仍然需要大量的人工努力來掌握KG的主要內容。
另一種方法是對KG進行總結,以產生人類可讀的綜合視圖[Cebiric等人,2019,Liu等人,2018]。在一些KG中,例如YAGO,類型系統在這種情況下是一種有用的資產。然而,這類KG中的類型仍然是粗粒度的,不能支持深度探索。因此,需要額外的支持,這可以通過發現語義相關實體的實體集群來實現。
本論文研究了符號推理與統計技術(如KG嵌入和文本挖掘)的整合,以解決以下挑戰。
KG的完成。我們的目標是通過提高從KG中學習到的規則的質量來提高基于規則的完成的精度。
KG驗證。我們研究收集支持(或反駁)候選事實的足夠證據的挑戰。
KG探索。我們研究了將語義相關的KG實體歸入基于KG結構的可解釋集群的問題。
最重要的是,我們專注于開發能夠提供人類可理解的輸出的方法。具體來說,我們提出了以下貢獻。
ExRuL:例外意識的規則學習。雖然KG不可避免地注定是不完整的,但KG中的相關性可以被分析,以挖掘推理規則來預測可能缺失的事實。早期的方法,例如[Galárraga等人,2015],主要是學習Horn規則,它不考慮可能的例外。因此,使用Horn規則來推斷新的事實往往會導致許多錯誤。
為了提高基于規則的預測的精確性,我們提出了ExRuL,一種將Horn規則有效修改為例外意識規則(即非單調規則)的方法。我們通過在這些規則的主體中加入從KG中挖掘的例外(即否定的原子)來實現這一目標。在現實世界的KG上進行的實驗表明,與Horn規則相比,修訂后的規則的預測誤差大大降低。此外,修訂后的規則不僅解釋了推斷的事實,而且還指出了規則在什么時候不應該推斷出一個三元組。
RuLES:知識圖譜嵌入的規則學習。標準的規則質量衡量標準,如置信度,是單獨基于KG計算的。因此,當在稀疏的KG上計算時,這些措施可能會產生誤導,使規則學習方法無法發現高質量的規則。
我們介紹了RuLES,這是一種規則學習方法,利用缺失事實的概率表示來解決這個問題。該方法通過結合預先計算的KG嵌入模型和文本語料庫的反饋,迭代擴展了從KG誘導出的候選規則。該方法利用了新設計的規則質量衡量標準,超越了KG本身,提高了規則的排名。實驗證明了我們方法的有效性,提高了所學規則及其預測的質量。
ExFaKT: 可解釋的事實核查。自動事實核查通常從收集網絡來源中候選事實的證據開始。這種證據通常是在支持或反駁的背景下直接提到該事實。然后,提取的證據被用來計算這個事實的真相分數。這個過程有兩個限制。首先,直接提到的事實很難被發現,而且由于網絡來源的自然報道偏差,直接提到的事實往往不夠充分。第二,每當人類做出最終決定時,計算出來的分數是不夠的,沒有解釋。
為了更好地支持KG策展人決定候選事實的有效性,我們提出了ExFaKT,一個為候選事實構建人類可理解的解釋的框架。ExFaKT使用霍恩規則將一個候選事實改寫成一組更容易發現和確認(或反駁)的其他事實。其輸出是一組來自網絡資源和KG的候選事實的語義痕跡(即證據)。實驗表明,基于規則的重寫大大增強了所發現的相關線索的召回率,同時保持了較高的精度。此外,實驗表明,所發現的解釋對人工和自動事實核查都有好處。最后,我們介紹了Tracy,一個向終端用戶展示我們框架的網絡界面。
ExCut:可解釋的聚類。通過實體聚類,使用無監督的方法將實體歸入信息子集,可以促進KG的探索。然而,僅僅對實體集進行聚類是不夠的。用戶還需要了解每個集群的性質。因此,聚類必須以用戶可理解的標簽形式進行解釋。在KG中提供的粗粒度的類型可能不足以區分個別領域內的實體群。
為了促進KG的探索,我們介紹了ExCut,一種將KG嵌入與規則挖掘相結合的方法,以計算具有可理解解釋的信息集群。每個解釋都由區分相應集群的實體關系的簡明組合組成。這種可解釋的聚類可以幫助分析者探索實體集并發現潛在結構。此外,ExCut通過交錯學習嵌入和規則,共同提高實體集群及其解釋的質量。實驗表明,迭代過程提高了聚類和解釋的質量。此外,用戶研究表明,所產生的解釋可以幫助人類理解所識別的聚類。
本節列出了為構建本學位論文而發表的研究論文。它還指出了本論文作者在每篇出版物中的作用。
第3章(異常感知的規則學習)是基于:
[Gad-Elrab等人,2016] Gad-Elrab, M. H., Stepanova, D., Urbani, J., and Weikum, G. (2016). Exception-Enriched Rule Learning from Knowledge Graphs. In: International Semantic Web Conference (ISWC ’16).
作者在這項研究的形式化和執行方面發揮了主導作用。
[Tran et al., 2016] Tran, D., Stepanova, D., Gad-Elrab, M. H., Lisi, F. A., and Weikum, G. (2016). Towards Nonmonotonic Relational Learning from Knowledge Graphs. In: International Conference on Inductive Logic Programming (ILP ’16). The author made major contributions in formalizing the problem, developing the approach, designing the experiments, and analyzing the results.
作者在問題的形式化、方法的開發、實驗的設計和結果的分析方面做出了主要貢獻。
第4章(知識圖譜嵌入的規則學習)是基于:
[Ho et al., 2018] Ho, V. T., Stepanova, D., Gad-Elrab, M. H., Kharlamov, E., and Weikum, G. (2018). Rule Learning from Knowledge Graphs Guided by Embedding Models. In: International Semantic Web Conference (ISWC ’18). The author made major contributions in formalizing the problem, developing the approach, designing the experiments, and analyzing the results.
作者在問題的形式化、方法的開發、實驗的設計和結果的分析方面做出了主要貢獻。
第5章(可解釋的事實核查)結合了兩者的產出:
[Gad-Elrab等人,2019]Gad-Elrab, M. H., Stepanova, D., Urbani, J., and Weikum, G. (2019). ExFaKT: A Framework for Explaining Facts over Knowledge Graphs and Text. In: International Conference on Web Search and Data Mining (WSDM ’19).
作者在這項研究的形式化和執行中發揮了主導作用。
[Gad-Elrab et al., 2019] Gad-Elrab, M. H., Stepanova, D., Urbani, J., and Weikum, G. (2019). Tracing Facts over Knowledge Graphs and Text. In: The Web Conference (WWW ’19).
作者在這項研究的形式化和執行中發揮了主導作用。
第6章(可解釋聚類)是基于:
[Gad-Elrab等人,2020b] Gad-Elrab, M. H., Stepanova, D., Tran, T., Adel, H., and Weikum, G. (2020). ExCut: Explainable Embedding-based Clustering over Knowledge Graph. In: International Semantic Web Conference (ISWC ’20).
作者在這項研究的形式化和執行方面發揮了主導作用。
[Gad-Elrab et al., 2020a] Gad-Elrab, M. H., Ho, V. T., Levinkov, E., Tran, T., and Stepanova, D. (2020). Towards Utilizing Knowledge Graph Embedding Models for Conceptual Clustering. In: International Semantic Web Conference (ISWC ’20).
作者在這項研究的形式化和執行中發揮了主導作用。
第2章(背景)部分是基于:
[Stepanova et al., 2018] Stepanova, D., Gad-Elrab, M. H., and Ho, V. T. (2018). Rule Induction and Reasoning over Knowledge Graphs. In: Reasoning Web International Summer School (RW ’18).
作者在編寫本教程的手稿中發揮了很大作用。
其他出版物。作者還對以下相關研究做出了貢獻,這些研究不包括在本論文的貢獻中。這項工作通過引入一種高效的方法來生成對KGs不一致的解釋,從而解決了KG驗證的難題。
[Tran et al., 2020] Tran, T., Gad-Elrab, M. H., Stepanova, D., Kharlamov, E., and Str?tgen, J. (2020). Fast Computation of Explanations for Inconsistency in LargeScale Knowledge Graphs. In: The Web Conference (WWW ’20).
本論文的其余部分組織如下。第2章提供了與知識圖譜和符號推理有關的必要背景。第3章和第4章描述了我們在通過挖掘例外意識規則來改善基于規則的完成方面的貢獻。第5章描述了我們在通過收集復雜證據驗證KG事實領域的貢獻。第6章描述了我們通過發現可解釋實體集群來促進KG探索的方法。最后,第七章總結了本論文的貢獻并提出了未來工作的可能方向。
隨著表示學習在提供強大的預測和數據洞察方面取得的顯著成功,我們見證了表示學習技術在建模、分析和網絡學習方面的快速擴展。生物醫學網絡是相互作用系統的通用描述,從蛋白質相互作用到疾病網絡,一直到醫療保健系統和科學知識。
在本綜述論文中,我們提出了一項觀察,即長期存在的網絡生物學和醫學原理(在機器學習研究中經常未被提及)可以為表示學習提供概念基礎,解釋其目前的成功和局限,并為未來的發展提供信息。我們整合了一系列算法方法,其核心是利用拓撲特征將網絡嵌入緊湊的向量空間。我們還提供了可能從算法創新中獲益最多的生物醫學領域的分類。
表示學習技術在識別復雜特征背后的因果變異、解開單細胞行為及其對健康的影響、用安全有效的藥物診斷和治療疾病等方面正變得至關重要。
引言
網絡,或稱圖表,在生物學和醫學中非常普遍,從分子相互作用圖到一個人疾病之間的依賴關系,一直到包括社會和健康相互作用的人群。根據網絡中編碼的信息類型,兩個實體之間“交互”的含義可能不同。例如,蛋白質-蛋白質相互作用(PPI)網絡中的邊緣可以表明實驗中測量到的物理相互作用,如酵母雙雜交篩選和質譜分析(例如,[148,197]);調節網絡中的邊緣可以指示通過動態單細胞表達測量的基因之間的因果相互作用(例如,[174]);電子健康記錄(EHR)網絡中的邊緣可以表明在醫療本體中發現的層次關系(例如,[182,190])。從分子到醫療保健系統,網絡已經成為代表、學習和推理生物醫學系統的主要范式。
生物醫學網絡上表示學習的案例。捕捉生物醫學系統中的交互作用會帶來令人困惑的復雜程度,只有通過整體和集成系統的觀點才能完全理解[17,28,164]。為此,網絡生物學和醫學在過去二十年中已經確定了一系列管理生物醫學網絡的組織原則(例如,[16,86,106,262])。這些原則將網絡結構與分子表型、生物學作用、疾病和健康聯系起來。我們認為,長期存在的原則——雖然在機器學習研究中經常未被提及——提供了概念基礎,可以解釋表示學習在生物醫學網絡建模中的成功(和局限性),并為該領域的未來發展提供信息。特別是,當對網絡中邊緣的解釋取決于上下文時,相互作用的實體往往比非相互作用的實體更相似。例如,疾病本體的結構是這樣的:通過邊緣連接的疾病術語往往比不連接的疾病術語更相似。在PPI網絡中,相互作用的蛋白質突變常常導致類似的疾病。相反,與同一疾病有關的蛋白質之間相互作用的傾向增加。在細胞網絡中,與特定表型相關的成分往往聚集在同一網絡鄰居。
表示學習實現網絡生物學和醫學的關鍵原理。我們假設表示學習可以實現網絡生物學和醫學的關鍵原則。這個假設的一個推論是表示學習可以很好地適用于生物醫學網絡的分析、學習和推理。表示學習的核心是向量空間嵌入的概念。其思想是學習如何將網絡中的節點(或更大的圖結構)表示為低維空間中的點,該空間的幾何結構經過優化,以反映節點之間的交互結構。表示學習通過指定(深度的、非線性的)轉換函數,將節點映射到緊湊的向量空間(稱為嵌入)中的點,從而形式化了這一思想。這些函數被優化以嵌入輸入圖,以便在學習空間中執行代數運算反映圖的拓撲結構。節點被映射到嵌入點,這樣具有相似網絡鄰域的節點被緊密地嵌入到嵌入空間中。值得注意的是,嵌入空間對于理解生物醫學網絡(例如,PPI網絡)的意義在于空間中點的鄰近性(例如,蛋白質嵌入之間的距離)自然地反映了這些點所代表的實體的相似性(例如,蛋白質表型的相似性),提示嵌入可被認為是網絡生物醫學關鍵原理的可微表現。
算法范式(圖1)。網絡科學和圖論技術促進了生物醫學的發現,從揭示疾病之間的關系[91,135,159,200]到藥物再利用[41,42,96]。進一步的算法創新,如隨機游走[40,229,242]、核函數[83]和網絡傳播[214],也在從網絡中捕獲結構和鄰域信息以生成下游預測的嵌入信息方面發揮了關鍵作用。特征工程是生物醫學網絡上機器學習的另一個常用范例,包括但不限于硬編碼網絡特征(例如,高階結構、網絡主題、度計數和共同鄰居統計),并將工程特征向量輸入預測模型。這種策略雖然強大,但并不能充分利用網絡信息,也不能推廣到新的網絡類型和數據集[255]。
近年來,圖表示學習方法已成為生物醫學網絡深度學習的主要范式。然而,對圖的深度學習具有挑戰性,因為圖包含復雜的拓撲結構,沒有固定的節點排序和參考點,它們由許多不同類型的實體(節點)和各種類型的相互關系(邊)組成。傳統的深度學習方法無法考慮生物醫學網絡的本質——多樣性的結構特性和豐富的交互作用。這是因為經典的深度模型主要是為固定大小的網格(例如,圖像和表格數據集)設計的,或者是為文本和序列優化的。因此,它們在計算機視覺、自然語言處理、語音和機器人技術方面取得了非凡的成就。就像對圖像和序列的深度學習徹底改變了圖像分析和自然語言處理領域一樣,圖表示學習也將改變生物學和醫學中復雜系統的研究。
我們的重點是表示學習,特別是流形學習[27]、圖變壓器網絡[250]、微分幾何深度學習[25]、拓撲數據分析(TDA)[34,224]和圖神經網絡(GNN)[125]。圖2描述了這次評審的結構和組織。我們首先提供流行的圖學習范式的技術說明,并描述其在加速生物醫學研究的關鍵影響。在圖表示學習的每個當前應用領域(圖4),我們展示了圖表示學習的潛在方向,可以通過四個獨特的前瞻性研究,每個研究至少解決以下圖機器學習的關鍵預測任務之一:節點、邊緣、子圖和圖級預測、連續嵌入和生成。