仿真想定的開發, 存在著專業性強、定制要求高、遷移性差等問題. 針對這一系列問題, 設計并實現一種基于知識圖譜的 仿真想定智能生成方法. 通過基于強化學習的全局特征鏈接多源仿真模型實體, 構建了知識圖譜;基于該知識圖譜, 設計了適用 于仿真模型匹配的實體對齊算法和基于文檔對象模型(document object model,DOM)的腳本生成方法, 實現仿真想定的智能映射, 以 “立體投送”行動為實例展開實驗, 實驗結果表明:生成的仿真想定能夠驅動仿真系統按照預定行動時序運行, 方法有效。
隨著戰爭復雜性的不斷加劇, 模擬仿真系統已 被廣泛應用于作戰理論創新、作戰方案設計優化、 作戰能力評估, 以及各類演習演訓和裝備采辦活動 中[1-2] . 作為初始化并驅動模擬仿真系統運行的基礎 支撐, 仿真想定的質量直接影響系統運行效率和仿 真結果的真實可信[3] . 由于仿真系統存在仿真層級(平 臺級、聚合級)、仿真模式(人在回路、人不在回路)、 仿真模型等差異, 對仿真想定的需求、可驅動運行的 想定腳本的要求等并不完全一致. 因此, 仿真想定的 開發, 普遍存在專業性強、定制要求高、遷移性差的 問題. 針對這一系列問題, 提出了一種基于知識圖譜 的仿真想定智能生成方法. 該方法通過多源仿真模 型的實體鏈接, 構建支撐仿真想定生成的知識圖譜, 提升仿真系統模型的重用性[4];研究適用于仿真模型 匹配的實體對齊算法, 提高數據匹配度[5] . 方法中待 解決的核心關鍵技術包括:1)仿真想定的形式化描 述. 與軍事想定不同, 仿真想定用以驅動仿真系統運 行, 應表示為結構化、形式化的想定數據, 并確保其 能被仿真系統識別、理解和使用;2)知識圖譜的構 建. 為支撐仿真想定的映射匹配, 知識圖譜構建過程 中, 要按照仿真想定的要素需求, 搭建知識圖譜框架, 并有效鏈接主流仿真系統模型實體;3)實體對齊算 法的選擇. 在不同的仿真推演系統中, 相同實體可能 對應不同仿真模型, 或擁有不同模型屬性, 需要選擇 有效的實體對齊算法, 提高仿真想定與知識圖譜的 匹配速度和精度.
第四次工業革命,即工業4.0(I40)的目的是創建智能工廠,其中采用網絡物理系統(CPS)、物聯網(IoT)和人工智能(AI)。根據I40的愿景,實現智能工廠需要智能的人與機器和機器與機器的溝通。為了實現這種通信,需要對CPS及其數據進行描述,并解決由各種表現形式引起的互操作性沖突。為了建立互操作性,工業界已經創建了標準和標準化框架。標準描述了實體、系統和流程的主要屬性,以及它們之間的相互作用。標準化框架根據其目的和特點對工業標準進行分類、調整和整合。盡管是由官方國際組織發布的,不同的標準對類似的實體可能包含不同的定義。此外,當利用同一標準來設計CPS時,不同的觀點會產生互操作性沖突。盡管標準化框架具有表達性,但在某種程度上可能代表了同一標準的不同分類,需要解決互操作性沖突,以支持智能工廠的有效和高效通信。
為了實現互操作性,需要對數據進行語義整合,調解現有的沖突。這個問題已經在文獻中得到了廣泛的研究。獲得的結果可以應用于一般的集成問題。然而,目前的方法未能考慮I40場景中實體之間發生的特定互操作性沖突。在這篇論文中,我們解決了I40場景中的語義數據整合問題。我們提出了一種基于知識圖譜的方法,允許在考慮其語義的同時整合I40中的實體。為了實現這種整合,在不同的概念層面上有一些挑戰需要解決。首先,定義標準和標準化框架之間的映射;其次,代表標準所描述的I40場景中的實體知識;第三,在解決語義異質性問題的同時,整合CPS設計的觀點;最后,確定所提出方法的實際行業應用。
我們首先設計了一種知識驅動的方法,允許將標準和標準化框架整合到工業4.0知識圖譜(I40KG)中。標準本體用于表示標準和標準化框架的主要屬性,以及它們之間的關系。I40KG允許整合標準和標準化框架,同時解決該領域中特定的語義異質性沖突。此外,我們在知識圖譜中對標準進行語義描述。為此,我們考慮了對I40場景具有核心重要性的標準,即I40的參考架構模型(RAMI4.0)、AutomationML和供應鏈操作參考模型(SCOR)。此外,描述CPS的實體的不同角度被整合到知識圖譜中。為了評估所提出的方法,我們依靠經驗性的評估以及具體用例的開發。獲得的結果證明,知識圖譜方法能夠在I40場景中對實體進行有效的數據整合,同時解決語義上的互操作性沖突,從而增強了智能工廠中的通信。
目前許多領域因數字化進程而產生的數據越來越多地影響著社會的許多方面。全球化、無處不在的通信網絡和互聯網、新的人機協作場景,例如社會和職業網絡,以及復雜的信息系統的存在,是一些消耗和產生大量數據的活動。這些活動實際上正在影響著社會和工業的所有領域。在這些數字化過程中產生的數據對于改善人類發展的許多領域可能具有極其重要的意義。特別是,公司越來越多地將數據視為對提高其流程的效率和效能具有關鍵意義的資產。
在工程和制造領域,目前有一種向數字化生產的新時代出發的氛圍。第四次工業革命在德國被稱為"工業4.0",而相關術語,如美國的 "工業互聯網"、中國的 "智能制造"、法國的 "未來工業",在不同的國家被用來表示同一概念。工業4.0(I40)一詞似乎已被國際社會認可,指的是第四次工業革命。I40的主要目標是通過結合物聯網(IoT)、服務互聯網(IoS)和網絡物理系統(CPS)的優勢創建智能工廠。在智能工廠中,人類、機器、材料以及CPS需要以智能方式合作,以提高產量。
為了實現創建智能工廠的目標,必須確保數據整合的三個方面:1)垂直整合,在工廠/生產車間內;2)水平整合,通過整個價值創造網絡;3)端到端整合,貫穿整個產品生命周期[1,2]。首先,垂直整合包括將不同層次的制造水平的系統整合成一個全面的解決方案。這種集成是在車間層面上進行的,在車間層面上,傳感器、執行器、CPS等設備位于企業規劃層面上的企業資源系統(ERP)。第二,橫向整合,涉及合作伙伴、供應商、客戶以及其他生態系統成員之間的合作,從物流到創新、流動以及利益相關者。智能工廠通過在其運營中使用世界范圍內的生產鏈和數據網絡達到全球。因此,有必要在所有這些參與者之間進行數據整合,也就是橫向整合。橫向整合需要確保工廠能夠作為一個智能工廠在全球市場上進行互動。最后,產品生命周期的發展包括許多工程活動,以創建一個CPS,如構思、設計、生產、利用和終止。在復雜系統(如CPS)的工程中,通常屬于不同工程學科的利益相關者必須進行有效的合作。CPS工程過程的目的是提供高質量的最終產品,例如,完整的生產工廠設計,并滿足嚴格的時間框架。各種工程學科的存在導致了高度復雜和軟件密集型的環境,其特點是:a)眾多的工程工具在設計上不能相互合作;b)各種工程領域的特定表示和數據交換格式的應用;以及c)各相關學科采用的工作流程的差異。不同的系統、組織和利益相關者參與到CPS的工程和運營中,既要跨越工程領域的界限,即橫向整合,又要在系統的不同抽象層次(業務、工程、運營)之間,即縱向整合[3]。此外,這些環境中的一個核心挑戰是確保互操作性,允許在整個產品生命周期中進行數據整合。為了實現這種互操作性,實現CPS的一個關鍵問題依賴于解決這些系統、組織和利益相關者之間的數據整合挑戰。這意味著要開發一個CPS,受影響的學科必須確保生成的數據的整合。
實現這樣的整合是一項復雜的任務,特別是當考慮到世界各地的工廠,它們通常根據不同的商業和法律規則以及不同的標準運作。互操作性是一個主要挑戰,也是I40的設計原則之一[4]。為了實現I40場景中的互操作性,像執行器、傳感器、傳送帶和CPS等實體的含義需要以語義描述的方式,讓機器和人類都能夠理解和分享它們的含義。當試圖在所描述的集成中進行合作時,相關實體之間會出現語義互操作性沖突。語義互操作性沖突表示不同或等同概念的建模以及這些概念的表達方式的差異[5]。為了實現I40的愿景,需要解決不同實體間的這些互操作性沖突。
為了解決智能工廠的互操作性問題,世界各地的工業界都提出了標準和標準化框架。這方面的相關例子有工業4.0參考架構(RAMI4.0)[6] 或工業互聯網參考架構(IIRA)[7]。這些環境的基本價值在于使基于這些標準化框架建立的CPS之間具有互操作性。盡管在對現有標準進行分類和調整方面很有表現力,但標準化框架可能對同一標準提出不同的解釋或分類。例如,OPC UA被RAMI4.0分類為通信標準,而IIRA將OPC UA定位在其架構的框架層[8]。標準分類之間的不匹配產生沖突,對智能工廠的互操作性產生負面影響。因此,盡管為創建標準以及標準化框架做出了所有這些努力,語義互操作性沖突仍然是I40場景中未解決的問題。
由于對實體或過程的不同和/或類似的表述,類似的I40相關標準之間的互操作性受到阻礙。例如,在旨在合作的標準中,不同的名稱被用來表達相同的含義,例如,AutomationML(AML)中的InternalElement描述的含義與OPC UA中的Object相同[9]。如果這些標準被聯合用來為同一個CPS建模,那么他們的信息模型的整合是必須的。為此,所涉及的實體的含義需要被精確定義,并解決互操作性沖突[10]。總之,為了實現I40場景下所需的互操作性,數據需要在語義上進行整合,與所面臨的整合類型無關,即垂直、水平或端到端的工程整合。
圖1.1: I40場景中的語義互操作性沖突。已經定義了四個層次來描述I40場景中的語義互操作性沖突。從標準化框架到由網絡物理系統代表的物理世界。語義互操作性沖突發生在所有層面,對I40場景中的數據集成產生了負面影響。
在概念層面上,面臨著一個語義數據整合問題。指導本論文工作的研究問題可以表達如下:我們研究如何通過描述I40場景中實體的含義來增強這些場景的互操作性。
由于I40場景中的語義數據整合問題包括許多需要解決的問題和障礙,我們認為以下挑戰和問題不屬于本論文的范圍:在I40場景中語義整合數據時的大數據挑戰;I40場景的安全問題;以及I40數據的實時語義數據整合。盡管如此,我們承認本論文中提出的結果為擴展這項工作以涵蓋這些方面奠定了基礎。
為了更好地理解I40場景中的語義數據整合問題,以及需要解決的不同語義互操作性沖突,我們確定了四個層次(參見圖1.1)。頂層對應的是標準化框架。在這個層次中,調查了標準化框架,如RAMI4.0、IIRA、IICF,以及美國國家標準與技術研究院(NIST)的標準化景觀。我們調查了標準化框架用于對標準進行分類的不同分類層次,如維度和層次。此外,我們研究了標準是如何被納入這些層次的,目的是了解需要解決的現有語義互操作性沖突,例如,相同的標準被不同的標準化框架進行不同的分類。第二個層次--工業4.0標準,考慮到了標準之間的關系。這一層次也包括語義上的互操作性沖突。例如,對應于兩個應該互動的標準的信息模型的不同名稱被用來表達一個實體的相同含義,例如,AML中的InternalElement與OPC UA中的Object具有相同的含義。第三層,文檔,指的是基于描述I40實體的特征和關系的標準而生成的文檔,例如,CPS。這些文件是由不同的學科建立的,代表了同一CPS的不同觀點。通常情況下,語義異質性沖突被引入,即對同一領域的不同解釋被建模。這是由參與該過程的不同觀點造成的。第四層,網絡物理系統,描述了物理世界,其中有CPS的存在。在下文中,將介紹本論文所解決的主要挑戰。前三個挑戰是指研究,而第四個挑戰的重點是將研究應用于具體場景。
挑戰1: 定義標準和標準化框架之間的映射關系。標準化框架根據其功能對標準進行分類。然而,標準化框架代表了I40場景中關于標準的區域觀點。一些標準,如OPC UA,可能被RAMI4.0、IIRA和NIST的標準化景觀分類在不同的層次。因此,存在關于標準和標準化框架的不同觀點。需要確定不同標準化框架的標準表述之間的語義沖突。此外,一些標準被不同的標準化組織以不同的方式命名,例如,OPC UA在其國際版本中被命名為IEC 62541。標準化框架中的這些不同的標準表述對I40場景中的互操作性產生了負面影響。因此,需要確定標準化框架和標準之間的映射,以及標準之間的映射。
挑戰2:在工業4.0場景中表示關于實體的知識。標準由信息模型組成,以表示它們所涵蓋的領域的知識。在某些情況下,這些信息模型包含模糊的、冗余的和重疊的信息。此外,這些信息是以半結構化或非結構化格式(如XML或純文本)以及結構化格式(如數據庫模型)進行編碼。以計算機可讀的形式表示這些知識,允許識別和解決I40實體之間的語義互操作性沖突,對于本論文的工作至關重要。
挑戰3:整合工業4.0場景中的實體的沖突觀點。CPS是復雜的系統,通常需要多個學科的投入,如機械、電氣或軟件工程。在設計CPS時,這些學科中的每一個都會產生不同的觀點。不同的觀點需要被整合到最終的CPS設計中。此外,在每個觀點中單獨建模的實體,以及解決可能引起的相應的語義異質性沖突,應根據它們與其他觀點的一致性程度,成為最終CPS設計的一部分。
挑戰4:確定工業4.0中實體的語義數據整合的現實世界應用。互操作性和語義數據整合是公認的設計原則和I40愿景發展的要求。然而,由于以下原因,確定基于語義的方法的附加值的現實世界的應用是困難的。1)對I40背景下產生的數據的語義異質性沖突缺乏了解;2)使用的標準沒有足夠的表達能力來解決I40背景下的數據語義整合問題,例如XML;以及3)缺乏成功案例來證明基于語義的數據整合方法的好處。
經過前面幾節的討論,我們確定了以下研究問題。
問題1:知識圖譜方法如何定義標準和標準化框架的映射并解決它們之間現有的語義互操作性沖突?
為了回答這個研究問題,知識圖譜方法被用來表示和整合各種標準化框架和標準中編碼的知識。通過這種方法,標準化框架和標準之間的語義互操作性沖突得到了調解。
問題2:知識圖譜如何表示工業4.0實體中編碼的語義?
為了回答這個問題,我們開發了涵蓋I40領域不同領域的本體論。與傳統的知識管理方法相比,這種方法所提供的好處被證明。
問題3:如何利用現有的基于規則的方法來解決知識圖譜的語義互操作性沖突?
為了回答這個研究問題,我們研究了用于創建和利用知識圖譜的邏輯編程方法和概率技術。邏輯編程方法和概率技術被用于捕捉不同CPS視角下的知識編碼。這些知識被編碼在知識圖譜中并被利用,目的是識別CPS視角之間的語義互操作性沖突。然后,語義互操作性沖突通過依靠知識圖譜來解決。最后,代表CPS觀點的綜合知識的最終設計被創建。
問題4:基于知識圖譜的實體集成如何應用于工業4.0的真實場景?
為了解決這個問題,研究了I40場景中語義數據集成的不同應用領域。已經開發了真實的用例,并報告了一家制造公司使用這種應用的實際經驗。
圖1.2:論文的貢獻。本論文的四個貢獻提出了基于知識圖譜調和工業4.0場景下的互操作性沖突的解決方案。1)將標準和標準化框架整合到知識圖譜中;2)使用本體對標準進行語義描述;3)將CPS整合到知識圖譜中;4)基于知識圖譜的方法在I40場景中對數據進行語義整合的實際應用建議。標準和標準化框架的語義被編碼在知識圖譜中,以解決工業4.0場景下的語義互操作性沖突。
為了指導讀者閱讀本文,我們對本論文的主要貢獻和研究領域進行了概述。此外,還包括支持這項工作的科學出版物的參考文獻。
本論文的貢獻是跨學科的,涉及語義建模、知識圖譜的創建和完善,以及I40場景下的語義數據整合。圖1.2描述了在解決I40場景中語義互操作性沖突的同時,根據確定的層次,提出了整合數據的解決方案。接下來,將概述本論文的貢獻。
事實證明,知識圖譜(KGs)已經成功地應對了不同領域的數據整合過程中的語義互操作性沖突,如醫學[11]、農業[12]和人類交通[13]。對于工廠來說,KGs被認為是下一代企業信息系統的核心[14]。數據的意義與圖一起存儲,以本體的形式捕捉領域的語義。KGs也能在現有的基礎上得出結論和新的知識。這使得KGs成為尋找和理解數據的單一場所。為了實現語義互操作性,由標準和標準化框架描述的數據需要在語義上進行整合。這些數據的意義需要被保留下來,并且在整合過程中需要解決語義異質性沖突。
貢獻1:將標準和標準化框架整合到知識圖譜中。我們提出了一種基于知識圖譜的方法,對遵守I40標準和標準化框架的文件進行語義整合。開發了STO本體,它描述了標準和標準化框架的概念。此外,還提出了一種建立和利用工業4.0標準和標準化框架知識圖的方法。基于這種方法和STO中的語義,我們建立了工業4.0標準知識圖(I40KG)。I40KG包含了對200多個標準、25個以上的標準化組織和100個標準之間關系的描述。最后,I40KG與現有的知識圖譜(如DBpedia)相連接,并實現了自動推理,以揭示標準之間的隱性關系以及跨標準化框架的映射關系。這一貢獻旨在回答RQ1。
貢獻2:使用本體對標準進行語義描述。對于第二層次,即工業4.0標準,建議使用本體對標準進行語義描述。概述了一種新的方法,以語義表示和利用與I40相關的標準和標準化框架的知識。對I40愿景極為重要的標準被建模為本體。首先,RAMI4.0涵蓋了I40解決方案的參考架構和提供資產代表的Administration Shell概念。第二,AML本體,涵蓋AutomationML標準。該標準對于從不同學科角度設計CPS的工業解決方案至關重要,如機械、電氣和軟件工程。最后,SCORVoc代表APICS行業協會的供應鏈運營參考模型。我們展示了工業4.0實體的語義表示的好處。我們開發了I40場景中語義表示的常見用例,例如,測量單位。介紹了這些場景中實體間語義異質性沖突的編纂。此外,通過考慮和應用本體的語義,開發了沖突的解決方案。這一貢獻涵蓋了研究問題RQ2。
貢獻3:將CPS整合到知識圖譜中。我們提出了一種將CPS的觀點融入知識圖譜的方法。知識圖譜是為代表CPS設計的不同角度的信息而創建的,即機械、電氣和軟件觀點。這些觀點之間發生的語義互操作性沖突被描述出來。為此,我們按照兩種邏輯方法對識別和解決CPS視角的I40實體之間的沖突問題進行了形式化:演繹數據庫和概率軟邏輯。這些形式化的規范分別在Alligator和SemCPS中實現。首先,我們介紹了Alligator,一種用于識別和解決CPS文件之間語義互操作性沖突的演繹方法。Alligator依靠Datalog來準確地表示描述CPS文檔中不同類型的語義異質性沖突的知識。Alligator使用一個知識圖譜來編碼CPS觀點的知識。其次,我們開發了SemCPS,一個依靠概率軟邏輯(PSL)的規則庫框架,用于捕捉不同CPS視角中編碼的知識,并在解決現有語義異質性沖突的同時利用這些知識進行CPS視角整合。關于文件層面,以及網絡物理系統層面,我們的目標是創建一個能夠描述和整合由不同標準定義的CPS文件的CPS KG。通過這一提議,研究問題RQ3得到了解決。
貢獻4:為了展示知識圖譜方法的適用性,我們進行了一個基于制造公司的案例研究。開發了對工廠生產效率具有核心意義的兩個用例,即工具可用性和能源消耗。我們調查了與這些用例相關的制造公司的數據源。分析了數據源之間現有的語義互操作性沖突。為了執行這些用例,我們開發了一種知識圖譜的方法來解決公司數據源之間存在的語義互操作性沖突。我們開發了一套本體論來描述數據源的語義,即物料清單、制造執行系統和傳感器數據。此外,還定義了一套映射,將數據源與本體進行映射。定義了一個實現知識圖譜方法的架構。該架構使數據的整合考慮到了數據源、本體、映射和應用。通過使用提議的方法,數據源之間的語義互操作性沖突得到了解決。本報告中獲得的結果回答了RQ4。
本論文中的部分工作已經作為會議、研討會和期刊文章或書籍章節發表。在每一章的開頭,都提到了該章所依據的出版物。在下文中,將概述作為本論文基礎的主要出版物。
1.Irlán Grangel-González, Lavdim Halilaj, G?khan Coskun, S?ren Auer. Towards Vocabulary Development by Convention. In Proceedings of the International Conference on Knowledge Engineering and Ontology Development (KEOD), 2015, 334-343, SciTePress; 本文是與波恩大學的博士生Lavdim Halilaj的合作作品。在這篇文章中,我參與了問題的定義、詞匯開發方法的開發、評估以及結果的分析。
2.Irlán Grangel-González, Lavdim Halilaj, G?khan Coskun, S?ren Auer, Diego Collarana, Michael Hoffmeister. 邁向工業4.0組件的語義管理殼。在2016年第十屆IEEE國際語義計算會議(ICSC)論文集,230-237,IEEE。Fraunhofer IAIS月度論文,2016年6月。這篇文章是與波恩大學博士生Lavdim Halilaj的合作作品。在這篇文章中,我參與了問題的定義、方法的開發、對最先進方法的回顧、用例的介紹以及對結果的分析。
3.Lavdim Halilaj, Irlán Grangel-González, G?khan Coskun, S?ren Auer. Git4Voc: 基于Git的版本管理,用于協作式詞匯開發。In Proceedings of the Tenth IEEE International Conference on Semantic Computing 2016, 285-292, IEEE; 本文是與波恩大學的博士生Lavdim Halilaj的聯合工作。在這篇文章中,我參與了問題的定義、方法的開發、對最先進技術的批判性審查以及對結果的分析。
4.Irlán Grangel-González, Lavdim Halilaj, G?khan Coskun, S?ren Auer, Diego Collarana. 基于RDF的方法,用Administration Shells實現工業4.0組件。在2016年第21屆IEEE新興技術和工廠自動化國際會議(EFTA)論文集,1-8,IEEE。本文是與波恩大學博士生Lavdim Halilaj的合作作品。在這篇文章中,我參與了問題的定義、方法的開發、對最先進方法的回顧、用例的介紹以及對結果的分析。
5.Niklas Petersen, Irlán Grangel-González, S?ren Auer, G?khan Coskun, Marvin Frommhold, Sebastian Tramp, Maxime Lefranc, Antoine Zimmermann. SCORVoc: 基于詞匯的供應網絡信息集成和交流。2016年第十屆IEEE語義計算國際會議論文集》,132-139頁,IEEE;本文是與波恩大學的博士生Niklas Petersen的合作作品。我對本文的貢獻是致力于問題的定義、本體的建模,以及對相關工作的分析和回顧。
6.Irlán Grangel-González, Diego Collarana Vargas, Lavdim Halilaj, Steffen Lohmann, Christoph Lange, Maria-Esther Vidal, S?ren Auer. Alligator: 用于整合工業4.0標準的演繹方法。In Proceedings of the 20th International Conference of Knowledge Engineering and Knowledge Management (EKAW) 2016, 272-287; 本文是與波恩大學的博士生Diego Collarana Vargas和Lavdim Halilaj的聯合工作。在這篇文章中,我參與了問題和激勵性例子的定義、方法的開發、對最先進方法的修訂、軟件的開發,以及實驗和結果的執行和分析。
7.Irlán Grangel-González, Paul Baptista, Lavdim Halilaj, Steffen Lohmann, MariaEsther Vidal, Christian Mader, S?ren Auer. 從語義整合的角度看工業4.0的標準環境。在2017年第21屆IEEE新興技術和工廠自動化國際會議論文集中,1-8;在這篇文章中,我的貢獻是對問題和激勵性例子的定義、方法的開發、本體和知識圖譜的開發、對最先進方法的修訂,以及實驗和結果的執行和分析。
8.Irlán Grangel-González, Lavdim Halilaj, Omar Rana, Maria-Esther Vidal, Steffen Lohmann, S?ren Auer, Andreas W. Müller. 用于網絡物理系統語義整合的知識圖譜。在2018年第29屆數據庫和專家系統應用國際會議(DEXA)論文集,184-199。在這篇文章中,我參與了問題的定義和激勵性的例子,方法的開發,軟件的實現,相關工作的回顧,以及實驗和結果的執行和分析。
9.Niklas Petersen, Lavdim Halilaj, Irlán Grangel-González, Steffen Lohmann, Christoph Lange, S?ren Auer. 為一家制造公司實現基于RDF的信息模型--一個案例研究。(最佳使用中論文獎的兩個提名者之一)《2017年第16屆國際語義網會議(ISWC)論文集》,350-366,Springer。這是與Niklas Petersen和Lavdim Halilaj兩位波恩大學的博士生共同完成的工作。在這篇文章中,我參與了信息模型的開發、映射的定義、架構的開發、用例的描述,以及對如何用信息模型解決語義異質性沖突的分析。
在博士期間完成的完整的出版物清單見附錄A.1。
本論文的結構分為七章,概述如下。
第1章 - 緒論為論文作序,包括主要的研究問題和挑戰,開展工作的動機,研究問題,解決研究問題的科學貢獻,以及正式描述這些貢獻的已發表的科學文章列表。
第2章--背景和前提介紹了理解本論文工作所需的關鍵概念。最初,解釋了I40場景和核心相關概念。接下來,描述了語義技術的基礎。研究了數據整合的一般原則,重點是語義數據整合;介紹了語義異質性沖突以及它們在I40場景中的存在。最后,研究了用于整合數據同時解決語義異質性沖突的技術描述。
第3章--相關工作研究了當前最先進的方法,以使讀者更好地理解本論文中所進行的工作。對語義數據整合的一般方法進行了調查。此外,還描述了與I40領域的標準語義表示有關的具體工作。接下來,概述了關于將標準整合到知識圖譜中的工作。最后,描述了I40領域中實體語義整合的現有方法。
第4章--將工業4.0標準整合到知識圖譜中,描述了解決標準化框架之間以及標準之間互操作性沖突的知識圖譜方法;還概述了建立和完善知識圖譜的方法。
第5章--使用本體對工業4.0標準進行語義描述,介紹了一種建立本體的方法,這些本體是在I40場景中常用的標準,即RAMI4.0、AML和SCOR。這種方法被用來利用這些標準中編碼的實體的語義,并幫助解決語義異質性問題。
第6章--將網絡物理系統整合到知識圖譜中,概述了將CPS整合到知識圖譜中的情況。對本章所處理的問題提出了兩種解決方案:i)結合Datalog和本體的力量的演繹方法;以及ii)考慮到CPS設計中存在的不確定性并使用概率軟邏輯方法來獲得CPS的最可能的設計的方法。
第7章 - 語義數據集成在工業4.0場景中的應用,展示了知識圖譜方法在實際制造公司中語義集成數據的適用性。
第8章--結論和未來方向最后總結了本論文的結果和對I40場景中語義互操作性問題的貢獻。討論了所提出的方法的現有限制,并對未來研究的可能方向進行了展望。
論文題目: Deep Reinforcement Learning for Entity Alignment
本文作者: 郭凌冰、韓玉強、張強、陳華鈞(浙江大學)
發表會議: ACL 2022 Findings
論文鏈接: //openreview.net/pdf?id=CRBzhRdkycU
代碼鏈接:
歡迎轉載,轉載請注明出處****
一、引言
實體對齊(Entity Alignment)是知識圖譜表示學習研究中關鍵任務之一,其基本目標在于發現兩個知識圖譜間指向同一現實對象的實體對,以便將不同知識圖譜鏈接起來,更好地支持下游應用。 目前,基于知識圖譜嵌入(Knowledge Graph Embedding)的方法,如MTransE、JAPE,受到了廣泛關注,它們提供了一種端到端的、具有強魯棒性的實體對齊手段。盡管這些方法在性能和效率上相較以往有了顯著提升,但它們很少考慮如何根據訓練得到的實體嵌入(Entity Embedding)高效地搜尋和評估匹配的實體對,往往只是強行把相似度最高的候選實體直接作為輸入實體的匹配,而不考慮該候選實體也許已經找到了更優的匹配。 下圖中的例子說明了這一現象,對角線對應的為正確匹配,顏色越深則表示兩個實體相似度越高。目前主流方法貪心地選擇相似度最高的匹配對,如左圖所示,將會錯誤地只選擇第一列作為匹配結果。而如果將匹配過程視為一個序列,如右圖所示,已經匹配的候選實體不能再被后續輸入實體匹配,就能避免落入高相似度陷阱。
二、基于強化學習的知識圖譜實體對齊
上述序列決策方式盡管能夠正確地排除一些候選實體,但也存在著累積錯誤的風險。因此,本文提出了一種基于強化學習的方法來克服這一缺陷,其并不直接使用實體嵌入的相似度作為判斷依據,而是直接把嵌入作為輸入,訓練一個策略網絡(Policy Network)使其能夠尋找到盡可能多的實體對,以實現最大回報(Reward)。同時,本文還采用了一種課程學習(Curriculum Learning)的策略,在訓練過程中逐步增加難度,避免因任務復雜性而導致學習失敗。
下圖展示了策略網絡的基本構成,對于輸入實體和候選實體,我們選擇了額外k個與輸入實體接近的實體(即 opponent entities)作為context信息,可以用于拒絕當前匹配。對于每個實體,我們使用GNN模型同時編碼其鄰居向量以得到中間表示。除了線性層以外,最終的輸出層還考慮了實體對間的互信息,綜合兩個評估器得到最終的輸出標簽,即匹配或不匹配。
下圖中展示了學習過程中,策略網絡是如何與環境(Environment)互動的。在環境中維持了一個匹配對序列,其排序方法為實體對間的相似度,以保證在測試階段該序列仍可用。如前文所述,相似度高的實體對未必真正匹配,因此在訓練過程中本文通過對比實際標簽與相似度信息來判斷一個匹配對的難易程度,根據當前訓練輪數,一些較高難度的匹配對將有更大的概率直接逃過訓練。在一個情節(Episode)中,環境所給出的實體對將被策略網絡一一判斷,被認為匹配的實體對將會直接排除環境序列中的所有涉及這些實體的匹配對,這一過程一直持續到序列終止或所有實體均被匹配。
三、實驗
本文選取了數個性能領先且具有不同特點的實體對齊模型作為對比,并在OpenEA數據集上進行了實驗。結果如下表所示:本文所述方法RLEA在全部四種數據集上均相較原有方法有明顯提升。Seq為僅僅采用序列決策而不涉及強化學習的對比方法,可以看出,其仍在絕大多數情況下也優于目前所采用的貪心策略。
同時,本文還與傳統實體對齊方法進行了對比。在此之前,盡管基于知識圖譜嵌入的方法具有許多優點,但在絕對性能上與基于字符匹配等技術的傳統方法有著較大差距。本文所提出的基于強化學習的方法不但縮小了這一差距,并且在一些數據集上(如D-Y)顯著優于傳統方法。