亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

這項工作提出了一個支持決策過程的算法框架,其中終端用戶在領域專家的協助下解決一個問題。此外,終端用戶和領域專家之間的交流的特點是問題和答案的數量有限。開發的框架可以幫助領域專家向終端用戶精確定位少量的問題,以增加其見解正確的可能性。建議的框架是基于領域專家的知識,包括與領域專家和終端用戶的互動。領域專家的知識由知識圖譜表示,而終端用戶與問題相關的信息作為證據被輸入圖譜。這就觸發了圖中的推理算法,該算法向領域專家建議最終用戶的下一個問題。本文在醫學診斷領域提出了一個詳細的建議框架;然而,它也可以適應具有類似設置的其他領域。我們開發的軟件框架使決策過程以互動和可解釋的方式進行,這包括使用語義技術,因此是創新的。

簡介

近年來,"大數據 "世界獲得了巨大的發展動力,并不斷產生機遇和挑戰[1,2]。大數據的各種用途已經滲透到技術世界的幾乎每一個領域。我們對在處理決策過程的技術領域整合大數據的挑戰感興趣,以便利用這些過程。

這些過程可以在各種各樣的內容世界(醫學、商業、教育等)中找到,并且需要了解情況意識、數據建模以及提供智能見解的算法。然而,這些過程為不同的需求提供不同的答案;因此,有幾種類型的決策過程,每一種都有合適的設置[3,4]。

在這項工作中,我們專注于具有以下設置的決策過程:(a)該過程涉及兩個實體:一個最終用戶和一個領域專家,(b)最終用戶啟動該過程,(c)兩個實體之間存在互動,包括(領域專家的)問題和(最終用戶的)答案,(d)兩個實體之間的互動盡可能有限(在時間、問題數量、金錢等方面)。

鑒于上述情況,本報告的目的是提供一個基于語義技術的框架,該框架能夠整合大數據,在決策過程中協助領域專家,向他們建議一套針對最終用戶的問題(從數據中推斷出來的),這將減少問題和答案的循環。 考慮以下兩個領域的例子,其流程自然適合這樣的設置:醫療診斷[5]和家電維修[6](表1)。

如前所述,上述兩個領域包含了一個兩方面的有限互動。這種限制可以用時間、問題的數量等來表示。請注意,醫療和家電維修這兩個領域都是寬泛的領域,可以被專門化為特定的子領域。例如,家電維修領域可以被專業化為建筑服務、互聯網服務、家庭故障服務等。醫療領域也是如此。它也可以包含一些子域,如各領域的醫療咨詢(如心理學)、緊急醫療電話的處理等。

建議的框架包括兩個主要部分:(a) 使用語義技術對相關領域專家的知識進行正式表示,特別是知識圖譜,以及(b) 一套互動的算法,從一組初始領域值(即最終用戶的先驗知識)開始,然后,基于這些先驗知識和知識圖譜表示,它將向最終用戶提出具體問題。這些問題的答案將推動領域專家的決策過程,并成為下一次迭代的輸入。迭代將繼續進行,直到領域專家感到滿意并做出決定。

我們有動力通過知識圖譜來表示專家的知識,因為圖譜已經成為表示連接數據的一種自然方式[7]。在過去的十年中,人們努力將大量的數據組織成節點和邊的集合,特別是在推薦系統、搜索引擎優化和決策過程中[8,9,10]。由此產生的靈活結構,稱為知識圖譜,允許快速適應復雜的數據和通過關系的連接。它們固有的互連性使人們能夠使用圖算法來揭示隱藏的模式和推斷新的知識[11,12,13,14]。此外,知識圖譜在計算上是高效的,并且可以擴展到非常大的規模,社會圖譜分析就是一個例子[15,16]。

我們的框架受到了Musen和他的同事[17]的啟發,他們是生物醫學信息學領域的知名研究者,提出了關于協助臨床決策支持(CDS)的信息技術的看法。Musen等人[17]提出了提供CDS的系統的指導原則:他們的論述是關于交流而不是檢索信息,建議而不是產生報告,以及協助領域專家發展更多的知情判斷。分別來說,引導我們開發框架的概念是為領域專家提供從分析圖表示的相關數據中推斷出的建議,并使他能夠做出明智的決定。然而,另外一個領先的概念是以有限的迭代次數來進行。我們的框架可以擴展到其他領域。

在所提交的工作中,我們為一個交互式框架引入了一種新的方法,以支持以有限的交互次數為特征的決策過程。該框架通過使用圖數據模型、圖算法和語義技術,以通用的方式進行創新。我們在一個真實的數據集上運行我們的算法,并在一個可能的現實場景中展示框架的可行性。因此,我們為我們的框架提供了一個概念證明。

為了說明擬議的框架,我們首先回顧了知識圖譜和決策過程(第2節)。然后,我們定義了該框架的術語和算法(第3節)。隨后,我們在醫學診斷領域使用由疾病和病人癥狀組成的數據集來演示該框架(第4節)。最后,我們總結并考慮潛在的未來方向(第5節)。

框架與算法

這一節中介紹了所提出的框架,其中包括一個算法集合和它們之間的互動。

目標是基于互動的決策過程。互動是在領域專家和終端用戶之間進行的,結果是有限的迭代,由框架建議領域專家問終端用戶的問題組成。決策過程將根據終端用戶的回答而進行。

當分析這些類型的過程時,我們得出結論,它們可以被籠統地建模為一個癥狀和疾病的集合。最終,該過程的目標是協助領域專家決定診斷(即在分析現有數據的基礎上為一組給定的癥狀提供解釋)。Musen將診斷過程描述為決定要問哪些問題,要做哪些測試,或要執行哪些程序[7,17]。診斷過程中可能出現的問題有以下幾種類型。終端用戶是否有一個特定的癥狀?

上述術語(即癥狀、疾病、問題和診斷)產生的行話可以自然地用于醫學診斷領域,然而它也適用于其他領域,如家電維修:癥狀代表問題,疾病代表故障,診斷是一種故障識別,一個典型的問題可以是。終端用戶的電器有什么特別的問題嗎?

當在提議的框架中使用這個行話時,我們用假設一詞來代替診斷,因為該框架并不向領域專家提供診斷,而是提供可能的假設。每個假說實際上是一種潛在的疾病,它伴隨著一個問題,是表明疾病(假說)的癥狀。因此,我們在本文中用來描述框架及其各種算法的行話包括:癥狀、疾病、問題和假設。特別是,該框架推斷出假設及其相關的問題,并將它們提交給領域專家,后者決定是否使用(或不使用)這些問題來確認(或不確認)這些假設(疾病)。

在本節的其余部分,我們將描述該框架及其算法,首先是一般的,然后是詳細的。

一般來說,我們首先從原始數據建立一個知識圖譜,這將有助于探索疾病和癥狀之間的關系。在此之后,我們在KG上使用魯汶分層聚類法[21](算法1)來尋找社區(即具有類似癥狀的疾病群)。然后,給定最終用戶報告的癥狀(稱為證據癥狀),我們使用KG上的推理找到與證據癥狀相匹配的可能疾病(算法2)。在這一點上,我們推斷出最可能的社區,以包括最終用戶的疾病,并向領域專家建議一個表明這個社區的問題(癥狀)(算法3)。最后,我們找到最佳假設建議給領域專家(算法4),也就是說,我們向領域專家建議最終用戶可能有的疾病和癥狀,以解決診斷過程的改進。

整個框架分為兩個主要部分:第一部分,預處理部分,在框架啟動后進行;而第二部分,處理部分,在每次有新請求到達框架時進行。預處理部分包括兩個步驟和一個算法(算法1),而處理部分包括三個步驟和三個算法(算法2-4),正如我們在下面描述的那樣。

我們使用的數據結構包括代表KG的結構(默認是鄰接列表)和運行算法所需的額外結構。在下面描述算法的段落中,我們將詳細介紹這些結構和它們的用途。

預處理部分:

輸入:一個疾病及其癥狀的列表

第1步:構建一個疾病和癥狀的知識圖(KG)(見第3.1節)。

第2步:根據疾病的癥狀將其聚類為一組(稱為社區),即具有類似癥狀的疾病將在同一個社區中(算法1)。

輸出:(1)每一種疾病都與KG中的一個社區相關聯;(2)額外的數據結構,稱為癥狀社區矩陣(SCM),表示疾病組和各種癥狀之間的聯系 處理部分:

輸入:K證據癥狀

第一步:尋找最可能的疾病,即與證據癥狀相匹配的可能疾病(算法2)。

第2步:推斷并向領域專家建議(根據需要重復)一個問題(癥狀),表明最可能的社區包括最終用戶疾病(算法3)。

第3步:推斷并向領域專家建議一個假說(最終用戶可能患有的疾病)及其相關問題(癥狀)的列表,并按相關性排序(算法4)。

圖1顯示了整個建議框架的高級視圖。

付費5元查看完整內容

相關內容

知識圖譜(Knowledge Graph),在圖書情報界稱為知識域可視化或知識領域映射地圖,是顯示知識發展進程與結構關系的一系列各種不同的圖形,用可視化技術描述知識資源及其載體,挖掘、分析、構建、繪制和顯示知識及它們之間的相互聯系。 知識圖譜是通過將應用數學、圖形學、信息可視化技術、信息科學等學科的理論與方法與計量學引文分析、共現分析等方法結合,并利用可視化的圖譜形象地展示學科的核心結構、發展歷史、前沿領域以及整體知識架構達到多學科融合目的的現代理論。它能為學科研究提供切實的、有價值的參考。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

摘要

在全球化和合作日益加強的時代,政府通過互聯網提供法律信息,使所有感興趣的人有可能獲得這些信息,這一點越來越重要。隨著時間的推移,不同國家的法律信息系統在可用數據、格式和可訪問性方面有不同的發展。這導致了更復雜的法律信息搜索過程,特別是當涉及到來自不同國家的法律信息,從而也涉及到不同的法律信息系統。特別是,來自不同國家的法律信息的跨國界相互聯系是缺失的。為了克服這些問題,歐盟提出了促進法律信息更容易獲取和相互連接的建議。這些建議的目標是利用獨特的標識符和注釋,以標準化和機器可讀的方式提供法律信息。語義技術使我們能夠將法律信息表現為 "知識圖譜",它將法律數據連接起來,并實現結構化查詢。在這篇論文中,我們研究了為奧地利法律系統創建和查詢法律知識圖譜的可能性。建議的法律知識圖譜是根據奧地利法律信息系統中的數據創建的,并根據歐盟的建議進行建模。此外,我們還分析了來自其他國家的可用鏈接法律數據,以及這些數據如何被整合。我們展示并比較了以理想的自動化方式填充擬議的法律知識圖譜的不同方法。最后,我們展示了擬議中的法律知識圖譜是如何用來自不同國家的法律數據來填充的,以增強法律信息搜索的可能性,從而回答搜索查詢,這在目前是不可能的。

第一章 簡介

在我們的日常生活中,能夠獲取法律信息是一個非常重要的方面,因為 "法律 "無處不在,例如,當我們在超市買東西或參與交通時。一項在101個國家進行的、每個國家有1000名參與者的研究[世界正義項目,2019]顯示,在2015年至2017年期間,全球約有一半的參與者面臨法律挑戰。奧地利更詳細的數字顯示,只有三分之二的參與者知道在哪里可以找到法律信息。這些數字表明,對于剩下的三分之一的人來說,獲取法律信息的途徑需要改進,并使之更容易。

我們所說的 "法律信息 "到底是什么意思?法律信息可以出現在不同的方面,例如,作為規定義務或禁止的法律。更廣泛地說,我們可以將法律定義為管理我們日常生活的規則框架。法律信息也可以包含在法院的判決中,這些判決也被用來解釋和完善法律。通常情況下,法律信息包含在文件中,這就是為什么我們也稱它們為法律文件。這種文件可以是,例如,法律和法院判決,但也可以是個人之間的合同,其中包括受影響的當局的具體信息或對其他法律文件的引用。我們把這些特定的詞的序列稱為法律實體。此外,法律文件還可以包括時間表達,這些表達可以與法律實體相結合,以表示法律事件并描述何時發生。

與以前不同的是,以前為了遵守法律出版的要求,法律的修改只在官方公告牌上打印公布,現在我們可以使用法律信息系統。法律信息系統被用來支持搜索和尋找解決法律問題所需的信息[van Opijnen and Santos, 2017]。例如,這樣的法律信息系統是由聯邦數字和經濟事務部(BMDW)提供的奧地利Rechtsinformationssystem des Bundes(RIS),該系統可以在網上獲得,并且可以免費訪問。RIS提供了一個基于關鍵詞的搜索界面,允許用戶在不同種類的文件中進行搜索,例如法律或法院判決。可以使用額外的過濾器來限制搜索,例如搜索文件的特定出版日期。搜索結果以長長的結果列表形式呈現,要求用戶瀏覽所有的單個文件,并檢查它們是否包含所需的信息。此外,這些文件只有部分的相互聯系,例如,法院判決中的法律參考文獻沒有與實際的法律文件相聯系。這就要求用戶在RIS法律欄目中為每個法律參考文獻進行額外的法律搜索。因此,文件中缺失的鏈接降低了可操作性,并使搜索過程變得復雜,因為它是一個不必要的繁瑣和耗時的過程。此外,搜索的可能性往往受到現有元數據的限制,這意味著實際文件中包含的信息,例如法律實體,并不能用于搜索過程。當需要來自歐盟或外國的法律資源來解決一個法律問題時,情況就更糟糕了。在這種情況下,需要參考外國的法律信息系統,而這些系統可能以完全不同的方式組織。

因此,缺失鏈接的問題可以通過增加文件之間的鏈接來解決。此外,信息提取方法可用于提取法律文件中包含的額外信息,例如法律實體,以補充現有的元數據并使其可用于搜索過程。為此,可以使用資源描述框架(RDF)[W3C工作組,2014]這種機器可讀的數據格式來鏈接法律數據,以實現結構化查詢和更容易地瀏覽相互鏈接的法律文件。2011年,歐盟開始為解決這些問題做出努力,提出了一些標準,這些標準應該有助于在歐盟成員國之間基于RDF的法律信息的相互連接。用于立法文件的歐洲法律標識符(ELI)和用于司法文件的歐洲判例法標識符(ECLI)已由歐盟理事會提出。ELI和ECLI都為法律文件分配了唯一的標識符,并描述了一套最低限度的元數據。對歐盟成員國來說,擬議標準的實施不是強制性的,這可能是吸收緩慢的原因。在ELI和ECLI提出的過去幾年中,一些歐盟成員國至少為其法律文件分配了標識符,而其他成員國則沒有表現出參與這些倡議的興趣。

奧地利是歐盟成員國之一,在第一步中,ELI和ECLI標識符(而且只有標識符)已經被分配給RIS文件。這意味著,我們可以把目前的狀態作為一個起點,克服上述搜索過程中的缺點。此外,我們還可以在已經采取的努力基礎上,參與ELI和ECLI。此外,ELI和ECLI還提供了必要的靈活性,通過用奧地利法律體系特有的類和屬性來擴展ELI和ECLI本體,以適應特定的國家要求。因此,一個能夠代表相關信息的法律知識圖譜,例如與其他法律文件的鏈接或根據分類模式歸入同一類別的文件,能夠增強搜索能力。此外,從法律文件中提取的信息可用于將實體鏈接到外部知識庫,如Geonames或DBpedia,這也增強了法律信息搜索。此外,通過整合其他國家和歐盟的法律數據,它還支持跨法域的搜索請求。我們為ELI和ECLI的目標做出了貢獻,這些目標旨在為整個歐洲的法律信息提供更便捷的訪問和相互鏈接,而這只有在各成員國參與并使用同一系統時才能成功。從實用的角度來看,這將使我們能夠實現更復雜的搜索查詢,這些查詢要么需要復雜的搜索過程,要么在目前的系統中根本無法回答,比如下面的問題(Q),將在第三章中詳細解釋。

問題1 在一個具體的法院判決中引用了哪些文件?

問題2 法院對哪些地區有管轄權?

問題3 某一特定歐盟指令的國家轉換是什么?

問題4 用外語的關鍵詞搜索,哪些法律文件規定了特定的法律領域?

問題5 法院判決中提到了哪些事件,可以用來快速了解案件的情況?

事實上,由法律專家進行的法律搜索過程涉及回答這樣的問題及其組合。任何對這些問題的回答和部分自動處理的支持,都將使這些搜索任務對法律專業人士來說更加有效。

以前關于處理法律信息以支持各種任務的研究已經在不同的科學領域進行。計算法的法律信息學領域著眼于 "法律分析的機械化"[Genesereth, 2018],將規則和事實在邏輯表達方面的形式化與推理相結合,從而得出結果。20世紀80年代,人工智能(AI)開始被應用于法律領域,以支持解決法律問題,例如在法律推理方面[v. d. L. Gardner, 1983]。后來,法律領域的另一個工作領域集中在表示法律信息的數據格式上,如Metalex[Boer等人,2002]和Akoma-Ntoso[Palmirani和Vitali,2011],都是用于描述法律文件結構和內容的XML(可擴展標記語言)標準。與此同時,關于法律本體的工作也開始了,目標是實現法律信息的交換,例如法律知識交換格式(LKIF)[Hoekstra等人,2007]和法律領域的特定本體,例如隱私政策的本體[Oltramari等人,2018,Palmirani等人,2018],以描述法律領域的一個子集或問題。法律領域的自然語言處理這一新興領域始于基于模板的法律文件中的人物提取[Dozier和Haschart, 2000]。隨著時間的推移,這項工作在提取不同種類的實體和法律文件的分類方面得到了擴展,從使用基于規則的方法到機器學習,最后到深度學習方法[Dozier等人,2010,Cardellino等人,2017a,Chalkidis等人,2019,Leitner等人,2019,Tuggener等人,2020] 。然而,以前這些努力的重點是法律文件的內容,而不是它們之間的聯系。只有在最近幾年,我們才能看到向連接國家法律數據轉變的小跡象。希臘的Diavgeia項目旨在通過強迫當局通過網絡提供他們的文件來增加法律信息的可及性,從中可以創建鏈接的法律數據[Chalkidis等人,2017]。使用ELI和ECLI為芬蘭立法和案例法發布RDF的類似工作是Finlex數據庫[Oksanen等人,2019]。

因此,有必要建立鏈接的法律信息,使專業和非專業用戶能夠通過在法律知識圖譜(LKG)中相互鏈接本國和外國的法律文件來搜索和瀏覽法律信息。基于所有歐盟成員國使用的共同本體,用圖結構表示法律信息,有助于我們簡化法律信息的獲取,并支持跨邊界的搜索。

1.1 假設和研究問題

在創建奧地利法律知識圖譜的明確動機下,在努力實現鏈接法律數據的基礎上,本文提出的工作由以下總體假設指導:

  • “法律知識圖譜可用于將國內和國際來源的法律文件聯系起來,從而增強法律信息的搜索過程,擴大搜索的可能性,這在目前使用傳統的法律信息系統是不可能的。”

從這個假設中,我們可以得出以下具體的研究問題(RQ):

研究問題1 為了從現有的法律信息系統中構建一個法律知識圖譜,需要什么?

為了回答這個研究問題,我們想知道,為了將傳統法律信息系統中的數據轉化為知識圖譜,我們可以使用哪些要求和預先存在的構建模塊。此外,我們需要將現有的數據與現有的本體結合起來,這些本體需要被擴展以支持國家的要求。奧地利的法律體系被嵌入到歐洲體系中,并與其他國家的法律體系相互影響,這就是為什么ELI和ECLI作為我們法律知識圖譜的基礎。

研究問題2 為了以自動化的方式從不同的數據源填充法律知識圖譜,可以采取哪些方法?

奧地利法律信息系統中的數據可以被轉移到法律知識圖譜中。因此,我們需要找到方法來實現從不同的數據源進行填充。我們有必要分析來自RIS的可用數據(元數據和文件),并將其與我們需要填充的本體的屬性進行比較。我們可以衍生出三個子研究問題:

研究問題 2.1 哪些方法可用于從結構化數據中獲取法律知識圖譜,它們的效果如何?

為了回答這個研究問題,我們需要分析哪些信息是由RIS提供的結構化格式的元數據,并研究使用這些信息來填充法律知識圖譜的方法。

研究問題2.2 哪些方法可用于從文本來源(即法律文件)中獲取法律知識圖譜,它們的效果如何?

為了回答這個研究問題,我們需要研究哪些ELI和ECLI屬性不能從RIS元數據中填充,而是從法律文件中的信息中填充。我們將分析和比較不同的方法來從文件中提取法律實體。此外,我們還將研究允許我們將法律文件歸類到一組給定類別的方法。

研究問題2.3 哪些方法可用于從法律文件中提取事件,它們的效果如何?

為了回答這個研究問題,我們需要調查法律文件中包含的事件。此外,我們有必要分析各個事件的組成部分,并比較不同的提取方法對這些組成部分的性能。

研究問題3 在多大程度上有可能通過鏈接法律數據來提高法律查詢和搜索過程?

為了找到這個研究問題的答案,我們需要分析當前的法律信息搜索過程,為此我們使用了上述的樣本問題。我們調查我們是否可以利用增加的鏈接和增強的元數據進行增強的搜索查詢,以回答樣本問題。

1.2 貢獻

本論文的貢獻可以概括為以下幾點:

  • 對問題1的貢獻:我們分析了擬議的ELI和ECLI本體,以及它們在涉及奧地利法律數據時的適用性,并在必要時擴展本體。特別是,我們描述了法律知識圖譜的創建方法,并用類和屬性來擴展ELI和ECLI本體,以表示奧地利法律信息系統中的數據。此外,我們引入了一個新的詞庫,包含了奧地利法律語言和信息中使用的特定術語,其中ELI和ECLI本體規定了國家擴展,例如文件分類方案或國家特定的文件類型。

  • 對問題2.1的貢獻:對于奧地利的法律知識圖譜,我們根據RIS提供的可用元數據,提出了三種不同的人口方法。特別是,我們為法律知識圖譜的人口提出了三種方法。(i)允許直接轉移數據的方法,只需要最低限度的預處理工作;(ii)基于附加條件和查詢的方法;(iii)將RIS數據與外部知識庫相互鏈接的方法。

  • 對問題2.2的貢獻:我們提出了基于NLP工具和技術的群體方法:(i)從文件中提取信息;(ii)使用文件內容將這些文件分類到一個給定的術語庫中。對于這兩項任務,我們使用了已經成功應用于其他領域文件的最先進的方法,我們根據包含法律文件的數據集對其性能進行了比較和評估。更詳細地說,我們提供了一個包含50個手動注釋的奧地利最高法院判決的新語料庫,它被用于法律實體提取實驗。分類方法的性能在包含歐盟法律文件的黃金標準數據集上進行了評估。

  • 對問題2.3的貢獻:我們確定了在法院判決中提取時間性表達的問題。此外,我們提出了三個時間維度,可以沿著這些維度對法院判決中的時間表達進行分類。我們提供了一個新的黃金標準語料庫,其中有30個人工注釋的法院判決的時間性注釋,分別來自歐洲法院、歐洲人權法院和美國最高法院的10份文件。我們使用這個語料庫來比較和討論十個最先進的、但不針對法律領域的時間標記器的特征和性能。我們對這些通用時間標記器的最常見的錯誤和問題進行了概述。從法院判決中提取法律事件有助于快速了解一個案件的概況。我們介紹了兩種不同類型的事件,并定義了事件組件以進一步分割事件中包含的信息。我們提供了另一個人工注釋的黃金標準語料庫,其中有30個來自歐洲人權法院的法院判決,并附有法律事件的注釋。這個語料庫被用來提取法院判決中的事件并進行分類。對于這兩項任務,我們分析了最先進的事件提取方法的性能。

  • 對問題3的貢獻:我們對所有歐盟成員國的法律信息系統和搜索可能性的現狀進行了比較。我們分析了法律數據的可用性以及ELI和ECLI的實施狀況,使用的數據格式和附加信息。我們還從更普遍的角度描述了所有歐盟成員國的法律數據庫的訪問和特點,用于傳播法律文件的文件格式,以及以何種語言提供法律信息。我們描述了基于ELI和ECLI的非政府努力,以提供鏈接的法律數據,并根據它們的特點進行分類。我們通過展示由實際的法律搜索用例驅動的查詢來證明鏈接法律數據的好處,這在法律知識圖譜中是可能的,但在包括其他國家的綜合法律數據之前是不可能的。

1.3 論文結構

本論文的其余部分結構如下。

第二章介紹了與知識圖譜、語義網、關聯數據有關的背景信息,并介紹了論文中所使用的法律本體和術語表。此外,它還包括對自然語言處理(NLP)和語言模型的介紹,以及常用的NLP任務、方法和工具。

第三章描述了傳統法律信息系統所面臨的挑戰,以奧地利的RIS為例,介紹了創建法律知識圖譜的衍生要求。本章還介紹了創建方法,最后介紹了法律知識圖譜本體論(LKG),其中包含了新的類別和屬性,以正確表示奧地利的法律體系。

第四章介紹了使用自然語言處理工具和技術從各種數據源中獲取不同的知識圖譜的方法。特別是,我們描述了從法律文件中提取實體和將文件分類為大量不相干的類。我們進行了實驗,并對這兩項任務的結果進行了比較和討論。

第五章集中討論了法律文件中的時間信息,特別是法院判決。我們描述了從法院判決中提取時間信息的挑戰,并介紹了不同的時間維度。此外,我們比較了10個非領域特定的時間標記器在檢測時間信息方面的表現。此外,時間信息也是可以從法院判決中提取的事件的一部分,并以時間軸的形式呈現。我們比較了從法院判決中提取法律事件的不同方法,并討論了它們的性能。

第六章介紹并比較了其他歐洲國家在(鏈接)法律數據方面的舉措。一個概述顯示了哪些國家參與了歐盟驅動的倡議或決定走另一條路。此外,本章還介紹了在鏈接法律數據領域的非政府倡議。最后,我們介紹了鏈接法律數據的好處,并為考慮提供鏈接法律數據或創建法律知識圖譜的利益相關者提出了一個鏈接法律知識圖譜的路線圖。

第七章總結了本論文的發現,回答了研究問題并討論了未來的研究方向。

1.4 出版物和影響

本論文介紹的內容已經在不同的同行評議的國際會議和期刊上提出和發表,包含了來自(按時間順序)的材料。

  • Erwin Filtz, Sabrina Kirrane, Axel Polleres, and Gerhard Wohlgenannt. 利用Eurovoc的分層結構對法律文件進行分類。在邁向有意義的互聯網系統。OTM 2019年會議--聯邦國際會議。CoopIS, ODBASE, C&TC 2019, Rhodes, Greece, October 21-25, 2019, Proceedings, Volume 11877 of Lecture Notes in Computer Science, pages 164-181. Springer,2019年。[Filtz等人,2019年]

在本文中,我們比較了各種可用于在多標簽分類設置中對法律文件進行分類的方法,這些方法使用的是帶有歐盟發布的法律文件的語料。我們將結果與分類任務中使用的來自新聞領域的知名數據集進行對比。在論文中,這項工作將在第4.3節中介紹。這項工作的延伸表明,通過使用轉化器模型可以提高結果[Shaheen等人, 2020]。

該出版物對RQ2.2有所貢獻。

  • María Navas-Loro, Erwin Filtz, Víctor Rodríguez-Doncel, Axel Polleres和Sabrina Kirrane. TempCourt: 在一個新的法院判決語料庫上評估時間標簽器。The Knowledge Engineering Review, 34:e24, 2019. doi:10.1017/S0269888919000195. [Navas-Loro et al., 2019].

這項工作的重點是法院判決中包含的時間信息,并比較了10個非領域特定的時間標記器的性能。為了評估這些標記器的性能,我們創建了一個來自三個不同法院的手工注釋的黃金標準語料庫。這項工作將在第5.1節中介紹。

本出版物對RQ2.3有所貢獻。

  • Erwin Filtz, María Navas-Loro, Cristiana Santos, Axel Polleres, and Sabrina Kirrane. 事件很重要。從法院判決中提取事件。法律知識和信息系統 - JURIX 2020: 第三十三屆年會,捷克共和國布爾諾,2020年12月9-11日,《人工智能及應用前沿》第334卷,第33-42頁。IOS出版社,2020年。[Filtz等人, 2020]

在這篇文章中,我們介紹了法院判決中常見的兩種不同類型的事件,并比較了不同的先進的事件提取方法。此外,我們還提取了三個事件組件來描述一個事件,這使得我們能夠創建一個時間線來提供一個法院判決的快速概覽。這項工作的內容將在第5.2節中介紹。

本出版物對RQ2.3有所貢獻。

  • Erwin Filtz, Sabrina Kirrane, and Axel Polleres. 鏈接的法律數據景觀:鏈接不同國家的法律數據。人工智能與法律》,第1-55頁。[Filtz等人,2021年] 。

在本文中,我們描述了基于奧地利法律信息系統的法律知識圖譜的奧地利用例,并涵蓋了從建模到整合其他國家的法律數據的所有主題。本文的背景信息在第二章中涉及。第三章介紹了挑戰和要求,以及建模部分的描述。第四章介紹了人口方法的描述。最后,第六章討論了法律數據的整合。

本出版物對研究問題1、2.1、2.2和3有所貢獻。

以下是作者已經發表的其他作品,與本文介紹的工作部分相關,同時對本論文介紹的內容沒有直接貢獻:

  • Erwin Filtz. 構建和處理法律數據的知識圖譜。The Semantic Web - 14th International Conference, ESWC 2017, Portoro?, Slovenia, May 28 - June 1, 2017, Proceedings, Part II, Volume 10250 of Lecture Notes in Computer Science, pages 184-194, 2017. [Filtz, 2017]

  • Erwin Filtz, Sabrina Kirrane, and Axel Polleres. 法律數據的相互聯系。與第14屆國際語義系統會議同地舉行的第14屆國際語義系統會議(SEMANTiCS 2018)的海報和演示論文集,奧地利維也納,2018年9月10-13日。,《CEUR研討會論文集》第2198卷。CEUR-WS.org,2018。[Filtz et al., 2018]

  • Martin Beno, Erwin Filtz, Sabrina Kirrane, and Axel Polleres. Doc2rdfa: 網絡文檔的語義注釋。第15屆國際語義系統會議海報和演示論文集(SEMANTiCS 2019),德國卡爾斯魯厄,2019年9月9日至12日。,CEUR研討會論文集第2451卷。CEUR-WS.org,2019年。[Filtz et al., 2019]

  • Zein Shaheen, Gerhard Wohlgenannt和Erwin Filtz. 使用轉化器模型的大規模法律文本分類。SEMAPRO 2020第十四屆語義處理進展國際會議,法國尼斯,2020年10月25-29日,第7-17頁,IARIA 2020。[Shaheen et al., 2020]

付費5元查看完整內容

目前,海事監控人員不得不通過手工監測他們所掌握的大量數據來發現感興趣的事件,這限制了他們的能力。海事數據來自各種不同的來源,可以合并成一個動態的歸屬知識圖譜,呈現不斷變化的海事情況。利用這個圖譜,通過一個鏈路預測任務來實現告警自動化:給定一些來自專家知識的標簽,圖譜中其他地方是否有類似的情況?在這篇文章中,我們回顧了在海洋背景下的態勢感知鏈路預測技術,并得出結論,在動態圖譜模型中增加屬性可以改善這項任務的結果。

付費5元查看完整內容

數據稀疏和冷啟動是當前推薦系統面臨的兩大挑戰. 以知識圖譜為表現形式的附加信息能夠在某種程度上緩解數據稀疏和冷啟動帶來的負面影響, 進而提高推薦的準確度. 本文綜述了最近提出的應用知識圖譜的推薦方法和系統, 并依據知識圖譜來源與構建方法、推薦系統利用知識圖譜的方式, 提出了應用知識圖譜的推薦方法和系統的分類框架, 進一步分析了本領域的研究難點. 本文還給出了文獻中常用的數據集. 最后討論了未來有價值的研究方向.

//www.aas.net.cn/cn/article/doi/10.16383/j.aas.c200128

推薦系統推薦系統是一種向目標用戶建議可能感興趣物品的軟件工具. 隨著網絡與現實信息的爆炸式增長, 越來越多的在線服務商為用戶提供商品、音樂、電影等(以下統稱為物品)的推薦服務. 推薦系統能夠滿足用戶的個性化需求, 為在線服務商帶來巨大商業價值. 同時, 推薦方法與系統的研究促進了偏好挖掘、大數據處理、決策支持等領域的相關理論和實踐的飛速發展, 其學術價值也引起了廣泛的關注.

推薦系統面臨的重要挑戰主要是數據稀疏性問題和冷啟動問題. 數據稀疏問題指的是相對于數量龐大的用戶和物品, 僅有少量的物品獲得了用戶的評價或者購買, 難以據此獲得相似的用戶或相似的物品, 使得傳統推薦方法失效了. 冷啟動問題指的是系統由于并不知道新加入用戶的歷史行為, 無法給他們推薦物品, 同樣新加入的物品也由于沒有被用戶評價或購買過而無法被針對性的推薦.

推薦系統中通常利用附加信息來解決上述問題, 以提高性能. 附加信息(一般也稱上下文信息)分為顯式信息和隱式信息[1]. 顯式信息是通過諸如物理設備感知、用戶問詢、用戶主動設定等方式獲取的與用戶、物品相關聯的上下文信息. 隱式信息即利用已有數據或周圍環境間接獲取的一些上下文信息, 例如可根據用戶與系統的交互日志獲取時間上下文信息.

近年來, 利用以知識圖譜為表示形式的附加信息的推薦方法受到了學者們的關注. 知識圖譜最初用于提升搜索系統的性能[2], 刻畫了海量實體之間的多種關系, 具有網狀結構, 能夠用于推薦系統中來增強用戶、物品之間聯系的認知與解釋, 從而提高推薦準確度. 本文綜述了2015年~2019年發表在DLRS、RecSys、KDD、CIKM、NIPS、TIST、UMAP、SIGIR等會議和期刊中的利用知識圖譜的推薦方法的文獻, 共23篇. 在利用知識圖譜的推薦系統中, 通常首先將收集到的用戶信息、物品信息、在利用知識圖譜的推薦系統中, 通常首先將收集到的用戶信息、物品信息、用戶歷史行為等數據或者一些相關的外部數據表示成知識圖譜的形式. 然后, 設計推薦算法, 利用知識圖譜生成推薦. 此類推薦系統通常包含知識圖譜構建和利用知識圖譜產生推薦兩個環節. 本文根據這兩個環節中構建知識圖譜數據的不同來源, 以及推薦方法中利用知識圖譜信息的不同形式提出了分類框架, 并據此對相關文獻進行了分類綜述, 詳情請參看本文第三章. 與本文最為相關是文獻[3]. 該文獻綜述了2009年~2017年16篇利用知識圖譜的推薦方法的文獻. 本文在綜述的文章數量上超過了文獻[3]. 此外, 本文提出文獻分類框架能夠更好地覆蓋新提出的方法.

本文第一章介紹了利用知識圖譜的推薦方法的相關背景知識; 第二章對利用知識圖譜的推薦方法文獻進行分類與綜述; 第三章整理了目前常用的推薦系統數據集和知識圖譜數據集; 第四章、第五章分別討論了應用知識圖譜的推薦系統的研究難點與發展前景; 最后, 在第六章中對全文進行了總結.

付費5元查看完整內容
北京阿比特科技有限公司