亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

在全球化和合作日益加強的時代,政府通過互聯網提供法律信息,使所有感興趣的人有可能獲得這些信息,這一點越來越重要。隨著時間的推移,不同國家的法律信息系統在可用數據、格式和可訪問性方面有不同的發展。這導致了更復雜的法律信息搜索過程,特別是當涉及到來自不同國家的法律信息,從而也涉及到不同的法律信息系統。特別是,來自不同國家的法律信息的跨國界相互聯系是缺失的。為了克服這些問題,歐盟提出了促進法律信息更容易獲取和相互連接的建議。這些建議的目標是利用獨特的標識符和注釋,以標準化和機器可讀的方式提供法律信息。語義技術使我們能夠將法律信息表現為 "知識圖譜",它將法律數據連接起來,并實現結構化查詢。在這篇論文中,我們研究了為奧地利法律系統創建和查詢法律知識圖譜的可能性。建議的法律知識圖譜是根據奧地利法律信息系統中的數據創建的,并根據歐盟的建議進行建模。此外,我們還分析了來自其他國家的可用鏈接法律數據,以及這些數據如何被整合。我們展示并比較了以理想的自動化方式填充擬議的法律知識圖譜的不同方法。最后,我們展示了擬議中的法律知識圖譜是如何用來自不同國家的法律數據來填充的,以增強法律信息搜索的可能性,從而回答搜索查詢,這在目前是不可能的。

第一章 簡介

在我們的日常生活中,能夠獲取法律信息是一個非常重要的方面,因為 "法律 "無處不在,例如,當我們在超市買東西或參與交通時。一項在101個國家進行的、每個國家有1000名參與者的研究[世界正義項目,2019]顯示,在2015年至2017年期間,全球約有一半的參與者面臨法律挑戰。奧地利更詳細的數字顯示,只有三分之二的參與者知道在哪里可以找到法律信息。這些數字表明,對于剩下的三分之一的人來說,獲取法律信息的途徑需要改進,并使之更容易。

我們所說的 "法律信息 "到底是什么意思?法律信息可以出現在不同的方面,例如,作為規定義務或禁止的法律。更廣泛地說,我們可以將法律定義為管理我們日常生活的規則框架。法律信息也可以包含在法院的判決中,這些判決也被用來解釋和完善法律。通常情況下,法律信息包含在文件中,這就是為什么我們也稱它們為法律文件。這種文件可以是,例如,法律和法院判決,但也可以是個人之間的合同,其中包括受影響的當局的具體信息或對其他法律文件的引用。我們把這些特定的詞的序列稱為法律實體。此外,法律文件還可以包括時間表達,這些表達可以與法律實體相結合,以表示法律事件并描述何時發生。

與以前不同的是,以前為了遵守法律出版的要求,法律的修改只在官方公告牌上打印公布,現在我們可以使用法律信息系統。法律信息系統被用來支持搜索和尋找解決法律問題所需的信息[van Opijnen and Santos, 2017]。例如,這樣的法律信息系統是由聯邦數字和經濟事務部(BMDW)提供的奧地利Rechtsinformationssystem des Bundes(RIS),該系統可以在網上獲得,并且可以免費訪問。RIS提供了一個基于關鍵詞的搜索界面,允許用戶在不同種類的文件中進行搜索,例如法律或法院判決。可以使用額外的過濾器來限制搜索,例如搜索文件的特定出版日期。搜索結果以長長的結果列表形式呈現,要求用戶瀏覽所有的單個文件,并檢查它們是否包含所需的信息。此外,這些文件只有部分的相互聯系,例如,法院判決中的法律參考文獻沒有與實際的法律文件相聯系。這就要求用戶在RIS法律欄目中為每個法律參考文獻進行額外的法律搜索。因此,文件中缺失的鏈接降低了可操作性,并使搜索過程變得復雜,因為它是一個不必要的繁瑣和耗時的過程。此外,搜索的可能性往往受到現有元數據的限制,這意味著實際文件中包含的信息,例如法律實體,并不能用于搜索過程。當需要來自歐盟或外國的法律資源來解決一個法律問題時,情況就更糟糕了。在這種情況下,需要參考外國的法律信息系統,而這些系統可能以完全不同的方式組織。

因此,缺失鏈接的問題可以通過增加文件之間的鏈接來解決。此外,信息提取方法可用于提取法律文件中包含的額外信息,例如法律實體,以補充現有的元數據并使其可用于搜索過程。為此,可以使用資源描述框架(RDF)[W3C工作組,2014]這種機器可讀的數據格式來鏈接法律數據,以實現結構化查詢和更容易地瀏覽相互鏈接的法律文件。2011年,歐盟開始為解決這些問題做出努力,提出了一些標準,這些標準應該有助于在歐盟成員國之間基于RDF的法律信息的相互連接。用于立法文件的歐洲法律標識符(ELI)和用于司法文件的歐洲判例法標識符(ECLI)已由歐盟理事會提出。ELI和ECLI都為法律文件分配了唯一的標識符,并描述了一套最低限度的元數據。對歐盟成員國來說,擬議標準的實施不是強制性的,這可能是吸收緩慢的原因。在ELI和ECLI提出的過去幾年中,一些歐盟成員國至少為其法律文件分配了標識符,而其他成員國則沒有表現出參與這些倡議的興趣。

奧地利是歐盟成員國之一,在第一步中,ELI和ECLI標識符(而且只有標識符)已經被分配給RIS文件。這意味著,我們可以把目前的狀態作為一個起點,克服上述搜索過程中的缺點。此外,我們還可以在已經采取的努力基礎上,參與ELI和ECLI。此外,ELI和ECLI還提供了必要的靈活性,通過用奧地利法律體系特有的類和屬性來擴展ELI和ECLI本體,以適應特定的國家要求。因此,一個能夠代表相關信息的法律知識圖譜,例如與其他法律文件的鏈接或根據分類模式歸入同一類別的文件,能夠增強搜索能力。此外,從法律文件中提取的信息可用于將實體鏈接到外部知識庫,如Geonames或DBpedia,這也增強了法律信息搜索。此外,通過整合其他國家和歐盟的法律數據,它還支持跨法域的搜索請求。我們為ELI和ECLI的目標做出了貢獻,這些目標旨在為整個歐洲的法律信息提供更便捷的訪問和相互鏈接,而這只有在各成員國參與并使用同一系統時才能成功。從實用的角度來看,這將使我們能夠實現更復雜的搜索查詢,這些查詢要么需要復雜的搜索過程,要么在目前的系統中根本無法回答,比如下面的問題(Q),將在第三章中詳細解釋。

問題1 在一個具體的法院判決中引用了哪些文件?

問題2 法院對哪些地區有管轄權?

問題3 某一特定歐盟指令的國家轉換是什么?

問題4 用外語的關鍵詞搜索,哪些法律文件規定了特定的法律領域?

問題5 法院判決中提到了哪些事件,可以用來快速了解案件的情況?

事實上,由法律專家進行的法律搜索過程涉及回答這樣的問題及其組合。任何對這些問題的回答和部分自動處理的支持,都將使這些搜索任務對法律專業人士來說更加有效。

以前關于處理法律信息以支持各種任務的研究已經在不同的科學領域進行。計算法的法律信息學領域著眼于 "法律分析的機械化"[Genesereth, 2018],將規則和事實在邏輯表達方面的形式化與推理相結合,從而得出結果。20世紀80年代,人工智能(AI)開始被應用于法律領域,以支持解決法律問題,例如在法律推理方面[v. d. L. Gardner, 1983]。后來,法律領域的另一個工作領域集中在表示法律信息的數據格式上,如Metalex[Boer等人,2002]和Akoma-Ntoso[Palmirani和Vitali,2011],都是用于描述法律文件結構和內容的XML(可擴展標記語言)標準。與此同時,關于法律本體的工作也開始了,目標是實現法律信息的交換,例如法律知識交換格式(LKIF)[Hoekstra等人,2007]和法律領域的特定本體,例如隱私政策的本體[Oltramari等人,2018,Palmirani等人,2018],以描述法律領域的一個子集或問題。法律領域的自然語言處理這一新興領域始于基于模板的法律文件中的人物提取[Dozier和Haschart, 2000]。隨著時間的推移,這項工作在提取不同種類的實體和法律文件的分類方面得到了擴展,從使用基于規則的方法到機器學習,最后到深度學習方法[Dozier等人,2010,Cardellino等人,2017a,Chalkidis等人,2019,Leitner等人,2019,Tuggener等人,2020] 。然而,以前這些努力的重點是法律文件的內容,而不是它們之間的聯系。只有在最近幾年,我們才能看到向連接國家法律數據轉變的小跡象。希臘的Diavgeia項目旨在通過強迫當局通過網絡提供他們的文件來增加法律信息的可及性,從中可以創建鏈接的法律數據[Chalkidis等人,2017]。使用ELI和ECLI為芬蘭立法和案例法發布RDF的類似工作是Finlex數據庫[Oksanen等人,2019]。

因此,有必要建立鏈接的法律信息,使專業和非專業用戶能夠通過在法律知識圖譜(LKG)中相互鏈接本國和外國的法律文件來搜索和瀏覽法律信息。基于所有歐盟成員國使用的共同本體,用圖結構表示法律信息,有助于我們簡化法律信息的獲取,并支持跨邊界的搜索。

1.1 假設和研究問題

在創建奧地利法律知識圖譜的明確動機下,在努力實現鏈接法律數據的基礎上,本文提出的工作由以下總體假設指導:

  • “法律知識圖譜可用于將國內和國際來源的法律文件聯系起來,從而增強法律信息的搜索過程,擴大搜索的可能性,這在目前使用傳統的法律信息系統是不可能的。”

從這個假設中,我們可以得出以下具體的研究問題(RQ):

研究問題1 為了從現有的法律信息系統中構建一個法律知識圖譜,需要什么?

為了回答這個研究問題,我們想知道,為了將傳統法律信息系統中的數據轉化為知識圖譜,我們可以使用哪些要求和預先存在的構建模塊。此外,我們需要將現有的數據與現有的本體結合起來,這些本體需要被擴展以支持國家的要求。奧地利的法律體系被嵌入到歐洲體系中,并與其他國家的法律體系相互影響,這就是為什么ELI和ECLI作為我們法律知識圖譜的基礎。

研究問題2 為了以自動化的方式從不同的數據源填充法律知識圖譜,可以采取哪些方法?

奧地利法律信息系統中的數據可以被轉移到法律知識圖譜中。因此,我們需要找到方法來實現從不同的數據源進行填充。我們有必要分析來自RIS的可用數據(元數據和文件),并將其與我們需要填充的本體的屬性進行比較。我們可以衍生出三個子研究問題:

研究問題 2.1 哪些方法可用于從結構化數據中獲取法律知識圖譜,它們的效果如何?

為了回答這個研究問題,我們需要分析哪些信息是由RIS提供的結構化格式的元數據,并研究使用這些信息來填充法律知識圖譜的方法。

研究問題2.2 哪些方法可用于從文本來源(即法律文件)中獲取法律知識圖譜,它們的效果如何?

為了回答這個研究問題,我們需要研究哪些ELI和ECLI屬性不能從RIS元數據中填充,而是從法律文件中的信息中填充。我們將分析和比較不同的方法來從文件中提取法律實體。此外,我們還將研究允許我們將法律文件歸類到一組給定類別的方法。

研究問題2.3 哪些方法可用于從法律文件中提取事件,它們的效果如何?

為了回答這個研究問題,我們需要調查法律文件中包含的事件。此外,我們有必要分析各個事件的組成部分,并比較不同的提取方法對這些組成部分的性能。

研究問題3 在多大程度上有可能通過鏈接法律數據來提高法律查詢和搜索過程?

為了找到這個研究問題的答案,我們需要分析當前的法律信息搜索過程,為此我們使用了上述的樣本問題。我們調查我們是否可以利用增加的鏈接和增強的元數據進行增強的搜索查詢,以回答樣本問題。

1.2 貢獻

本論文的貢獻可以概括為以下幾點:

  • 對問題1的貢獻:我們分析了擬議的ELI和ECLI本體,以及它們在涉及奧地利法律數據時的適用性,并在必要時擴展本體。特別是,我們描述了法律知識圖譜的創建方法,并用類和屬性來擴展ELI和ECLI本體,以表示奧地利法律信息系統中的數據。此外,我們引入了一個新的詞庫,包含了奧地利法律語言和信息中使用的特定術語,其中ELI和ECLI本體規定了國家擴展,例如文件分類方案或國家特定的文件類型。

  • 對問題2.1的貢獻:對于奧地利的法律知識圖譜,我們根據RIS提供的可用元數據,提出了三種不同的人口方法。特別是,我們為法律知識圖譜的人口提出了三種方法。(i)允許直接轉移數據的方法,只需要最低限度的預處理工作;(ii)基于附加條件和查詢的方法;(iii)將RIS數據與外部知識庫相互鏈接的方法。

  • 對問題2.2的貢獻:我們提出了基于NLP工具和技術的群體方法:(i)從文件中提取信息;(ii)使用文件內容將這些文件分類到一個給定的術語庫中。對于這兩項任務,我們使用了已經成功應用于其他領域文件的最先進的方法,我們根據包含法律文件的數據集對其性能進行了比較和評估。更詳細地說,我們提供了一個包含50個手動注釋的奧地利最高法院判決的新語料庫,它被用于法律實體提取實驗。分類方法的性能在包含歐盟法律文件的黃金標準數據集上進行了評估。

  • 對問題2.3的貢獻:我們確定了在法院判決中提取時間性表達的問題。此外,我們提出了三個時間維度,可以沿著這些維度對法院判決中的時間表達進行分類。我們提供了一個新的黃金標準語料庫,其中有30個人工注釋的法院判決的時間性注釋,分別來自歐洲法院、歐洲人權法院和美國最高法院的10份文件。我們使用這個語料庫來比較和討論十個最先進的、但不針對法律領域的時間標記器的特征和性能。我們對這些通用時間標記器的最常見的錯誤和問題進行了概述。從法院判決中提取法律事件有助于快速了解一個案件的概況。我們介紹了兩種不同類型的事件,并定義了事件組件以進一步分割事件中包含的信息。我們提供了另一個人工注釋的黃金標準語料庫,其中有30個來自歐洲人權法院的法院判決,并附有法律事件的注釋。這個語料庫被用來提取法院判決中的事件并進行分類。對于這兩項任務,我們分析了最先進的事件提取方法的性能。

  • 對問題3的貢獻:我們對所有歐盟成員國的法律信息系統和搜索可能性的現狀進行了比較。我們分析了法律數據的可用性以及ELI和ECLI的實施狀況,使用的數據格式和附加信息。我們還從更普遍的角度描述了所有歐盟成員國的法律數據庫的訪問和特點,用于傳播法律文件的文件格式,以及以何種語言提供法律信息。我們描述了基于ELI和ECLI的非政府努力,以提供鏈接的法律數據,并根據它們的特點進行分類。我們通過展示由實際的法律搜索用例驅動的查詢來證明鏈接法律數據的好處,這在法律知識圖譜中是可能的,但在包括其他國家的綜合法律數據之前是不可能的。

1.3 論文結構

本論文的其余部分結構如下。

第二章介紹了與知識圖譜、語義網、關聯數據有關的背景信息,并介紹了論文中所使用的法律本體和術語表。此外,它還包括對自然語言處理(NLP)和語言模型的介紹,以及常用的NLP任務、方法和工具。

第三章描述了傳統法律信息系統所面臨的挑戰,以奧地利的RIS為例,介紹了創建法律知識圖譜的衍生要求。本章還介紹了創建方法,最后介紹了法律知識圖譜本體論(LKG),其中包含了新的類別和屬性,以正確表示奧地利的法律體系。

第四章介紹了使用自然語言處理工具和技術從各種數據源中獲取不同的知識圖譜的方法。特別是,我們描述了從法律文件中提取實體和將文件分類為大量不相干的類。我們進行了實驗,并對這兩項任務的結果進行了比較和討論。

第五章集中討論了法律文件中的時間信息,特別是法院判決。我們描述了從法院判決中提取時間信息的挑戰,并介紹了不同的時間維度。此外,我們比較了10個非領域特定的時間標記器在檢測時間信息方面的表現。此外,時間信息也是可以從法院判決中提取的事件的一部分,并以時間軸的形式呈現。我們比較了從法院判決中提取法律事件的不同方法,并討論了它們的性能。

第六章介紹并比較了其他歐洲國家在(鏈接)法律數據方面的舉措。一個概述顯示了哪些國家參與了歐盟驅動的倡議或決定走另一條路。此外,本章還介紹了在鏈接法律數據領域的非政府倡議。最后,我們介紹了鏈接法律數據的好處,并為考慮提供鏈接法律數據或創建法律知識圖譜的利益相關者提出了一個鏈接法律知識圖譜的路線圖。

第七章總結了本論文的發現,回答了研究問題并討論了未來的研究方向。

1.4 出版物和影響

本論文介紹的內容已經在不同的同行評議的國際會議和期刊上提出和發表,包含了來自(按時間順序)的材料。

  • Erwin Filtz, Sabrina Kirrane, Axel Polleres, and Gerhard Wohlgenannt. 利用Eurovoc的分層結構對法律文件進行分類。在邁向有意義的互聯網系統。OTM 2019年會議--聯邦國際會議。CoopIS, ODBASE, C&TC 2019, Rhodes, Greece, October 21-25, 2019, Proceedings, Volume 11877 of Lecture Notes in Computer Science, pages 164-181. Springer,2019年。[Filtz等人,2019年]

在本文中,我們比較了各種可用于在多標簽分類設置中對法律文件進行分類的方法,這些方法使用的是帶有歐盟發布的法律文件的語料。我們將結果與分類任務中使用的來自新聞領域的知名數據集進行對比。在論文中,這項工作將在第4.3節中介紹。這項工作的延伸表明,通過使用轉化器模型可以提高結果[Shaheen等人, 2020]。

該出版物對RQ2.2有所貢獻。

  • María Navas-Loro, Erwin Filtz, Víctor Rodríguez-Doncel, Axel Polleres和Sabrina Kirrane. TempCourt: 在一個新的法院判決語料庫上評估時間標簽器。The Knowledge Engineering Review, 34:e24, 2019. doi:10.1017/S0269888919000195. [Navas-Loro et al., 2019].

這項工作的重點是法院判決中包含的時間信息,并比較了10個非領域特定的時間標記器的性能。為了評估這些標記器的性能,我們創建了一個來自三個不同法院的手工注釋的黃金標準語料庫。這項工作將在第5.1節中介紹。

本出版物對RQ2.3有所貢獻。

  • Erwin Filtz, María Navas-Loro, Cristiana Santos, Axel Polleres, and Sabrina Kirrane. 事件很重要。從法院判決中提取事件。法律知識和信息系統 - JURIX 2020: 第三十三屆年會,捷克共和國布爾諾,2020年12月9-11日,《人工智能及應用前沿》第334卷,第33-42頁。IOS出版社,2020年。[Filtz等人, 2020]

在這篇文章中,我們介紹了法院判決中常見的兩種不同類型的事件,并比較了不同的先進的事件提取方法。此外,我們還提取了三個事件組件來描述一個事件,這使得我們能夠創建一個時間線來提供一個法院判決的快速概覽。這項工作的內容將在第5.2節中介紹。

本出版物對RQ2.3有所貢獻。

  • Erwin Filtz, Sabrina Kirrane, and Axel Polleres. 鏈接的法律數據景觀:鏈接不同國家的法律數據。人工智能與法律》,第1-55頁。[Filtz等人,2021年] 。

在本文中,我們描述了基于奧地利法律信息系統的法律知識圖譜的奧地利用例,并涵蓋了從建模到整合其他國家的法律數據的所有主題。本文的背景信息在第二章中涉及。第三章介紹了挑戰和要求,以及建模部分的描述。第四章介紹了人口方法的描述。最后,第六章討論了法律數據的整合。

本出版物對研究問題1、2.1、2.2和3有所貢獻。

以下是作者已經發表的其他作品,與本文介紹的工作部分相關,同時對本論文介紹的內容沒有直接貢獻:

  • Erwin Filtz. 構建和處理法律數據的知識圖譜。The Semantic Web - 14th International Conference, ESWC 2017, Portoro?, Slovenia, May 28 - June 1, 2017, Proceedings, Part II, Volume 10250 of Lecture Notes in Computer Science, pages 184-194, 2017. [Filtz, 2017]

  • Erwin Filtz, Sabrina Kirrane, and Axel Polleres. 法律數據的相互聯系。與第14屆國際語義系統會議同地舉行的第14屆國際語義系統會議(SEMANTiCS 2018)的海報和演示論文集,奧地利維也納,2018年9月10-13日。,《CEUR研討會論文集》第2198卷。CEUR-WS.org,2018。[Filtz et al., 2018]

  • Martin Beno, Erwin Filtz, Sabrina Kirrane, and Axel Polleres. Doc2rdfa: 網絡文檔的語義注釋。第15屆國際語義系統會議海報和演示論文集(SEMANTiCS 2019),德國卡爾斯魯厄,2019年9月9日至12日。,CEUR研討會論文集第2451卷。CEUR-WS.org,2019年。[Filtz et al., 2019]

  • Zein Shaheen, Gerhard Wohlgenannt和Erwin Filtz. 使用轉化器模型的大規模法律文本分類。SEMAPRO 2020第十四屆語義處理進展國際會議,法國尼斯,2020年10月25-29日,第7-17頁,IARIA 2020。[Shaheen et al., 2020]

付費5元查看完整內容

相關內容

人工智能還用于法律研究、案例預測、法律分析、訴訟策略、提供法律咨詢、采購、合規和合同審查。

1 報告概述

2022年5月9日蘭德公司發布《利用機器學習進行作戰評估》報告。作者描述了一種利用機器學習來支持軍事作戰評估的方法。他們展示了如何利用機器學習從情報報告、作戰報告以及傳統和社會媒體中的非結構化文本中快速、系統地提取與評估相關的見解。這些數據已經由作戰級別的總部收集,通常是關于當地居民、敵人和伙伴部隊的最佳可用信息來源,但很少被納入評估,因為它們的結構不容易被分析。本報告中描述的機器學習方法有助于克服這一挑戰。

本報告中描述的方法,作者利用最近結束的針對上帝抵抗軍的戰役進行了說明,使評估小組能夠向指揮官提供關于戰役的近乎實時的見解,這些見解是客觀的,與統計學相關。這種機器學習方法可能特別有利于資源有限或沒有具體評估數據的戰役,這在資源有限或被拒絕地區的戰役中很常見。這種機器學習的應用對大多數評估小組來說應該是可行的,并且可以通過公開和免費的機器學習工具來實現,這些工具已被授權在美國國防部系統上使用。

2 研究問題

如何利用機器學習工具將現有的情報報告、作戰報告和環境數據(如社交媒體、傳統媒體)納入戰爭行動層面的評估?

3 研究背景

準確和及時的評估--提供關于哪些是有效的,哪些是無效的,以及如何改進作戰的反饋--是所有美國軍事作戰的一個關鍵要求。對軍事作戰的評估是圍繞戰役的作戰目標進行的,評估過程的重點是確定在實現這些目標方面是否正在取得進展。評估小組--最好是與指揮小組一起--確定與每個目標相關的預期效果,然后制定有效性措施(MOE),以跟蹤實現這些目標的進展。

獲得和處理正確的數據類型對于產生相關和可辯護的評估至關重要,這也是本報告的主題。有效的評估要求數據是客觀的、縱向的、與軍事作戰希望達到的效果類型相關的、有適當的評估結構,并且有足夠的時間頻率來支持決策。

在以前的研究中,我們為特種作戰部隊(SOF)的作戰評估開發了一種標準化的方法,我們發現作戰總部已經收集的各種數據與評估有關,但很少被使用。三種類型的數據--情報報告(如來自人類情報或信號情報來源)、作戰報告(如情況報告[SITREPs])和環境數據(如社交媒體)中已有的對正在發生的事件的文字描述,往往是有關當地居民、敵人和伙伴部隊的最佳可用信息來源。然而,這些數據的結構很少能被輕易地納入評估過程。

本報告描述了一種方法,即如何利用機器學習(ML)工具將這些現有數據納入作戰評估。我們展示了一個基于ML的文本分類器如何快速整理和準備這些數據,以便使用評估小組常用的標準統計工具進行后續分析。然后,我們使用最近結束的針對上帝抵抗軍的作戰數據來說明這一方法。這種基于ML的方法對大多數評估小組來說應該是可行的,并且可以用公開和免費提供的ML工具來實施,這些工具已被預先授權用于美國國防部(DoD)的機密系統。

本報告所描述的方法使評估小組能夠準確、及時地了解一場戰役,為指揮官提供近乎實時的、客觀的、與統計學相關的結果。可以使用我們的方法分析的每一種類型的數據--情報、作戰和環境--為理解一個戰役的效果提供了一個不同的視角。在有評估特定數據(如投票)的軍事作戰中,這些新的數據來源使評估小組能夠對調查結果進行三角測量,提高評估的可靠性。然而,ML工具在評估專用數據有限或沒有的情況下特別有用--這在資源有限或在被拒絕地區的作戰中很常見。

4 評估方法:有監督機器學習

我們的分析集中在一個具體ML評估應用上:使用 "有監督機器學習"(SML),從現有的情報、作戰和環境報告中的非結構化文本中構建一個可供評估的數據庫。SML的這種應用的直覺是相對簡單的。首先,人類分析員通過手工審查和分析可用的非結構化文本的一個子集。這第一步的輸出通常被稱為 "訓練數據"。然后,ML算法分析這個訓練數據,并試圖模仿人類分析師對所有剩余文本使用的相同分析過程。

這種方法允許評估小組系統地編輯非結構化文本中的信息--每份報告中提供的定性描述成為客觀和定量評估中的單一數據點--然后檢查這些信息如何隨時間演變。這種方法是將ML納入評估過程的最簡單方法,但它仍然是一種有效的方法,可以從這些現有數據中信息豐富的非結構化文本中獲得與評估相關的見解。

在本報告中,我們詳細說明了一個五步工作流程,并在圖S.1中進行了總結,評估小組可以按照這個流程將SML納入評估過程。


圖S.1 用于評估工作流的監督機器學習

  • 第1步是整理大量的潛在相關報告--通常是數以千計的年度報告(或更多)--可用于大多數業務。這個整理過程包括刪除不必要的重復內容,并將數據重新組織成適合ML算法分析的格式。在我們的方法中,現有報告中的非結構化文本被分為單句,然后分析其與競選活動的相關性。

  • 第2步是制定適合每個相關MOE的編碼標準。這些編碼標準是歸納出來的,評估小組首先審查現有的數據,以確定哪些MOE是可以用現有的數據衡量的。然后,評估小組制定具體的編碼標準--也就是一套規則,說明什么時候一份報告應該被認為與該MOE相關(或不相關)。至關重要的是,這些編碼標準要足夠清晰和詳細,以便于復制,使不同的分析員在應用這些標準時產生幾乎相同的結果。本報告為每一類數據(情報、作戰和環境)提供了常用的MOE的編碼標準樣本,盡管具體的編碼標準必須是針對作戰的。

  • 第3步是準備訓練數據,這是SML方法中ML算法的主要輸入。這些訓練數據是整體非結構化數據的一個子集,由評估小組使用步驟2中制定的編碼標準進行審查、分析和編碼。確保編碼標準的穩健性和可復制性是開發這些訓練數據的一個關鍵組成部分,因為ML算法試圖復制人類分析員的編碼。

  • 第4步是實現和校準一個或幾個選定的ML算法。校準過程包括審查由ML算法編碼的報告,以驗證其準確性--也就是說,即確保被識別為相關的報告確實是相關的。如果算法表現不佳,評估小組需要調整算法參數或擴大訓練數據的數量。在一個實際的活動中,這個校準過程應定期重復,以確保算法在更多的數據可用時仍然表現良好。

  • 第5步,評估小組處理來自ML算法的輸出,以整合到評估過程中。ML算法的輸出是一個結構化的數據庫(例如,Excel),確定所有滿足步驟2中制定的編碼標準的報告。這種通用的結構化格式允許用評估小組常用的工具進行分析,并便于插入現有的態勢感知工具中。在某些情況下,可以直接分析這些數據,以產生報告在一段時間內的趨勢線,例如,以正面方式討論一個實體(如敵人或伙伴部隊)的社交媒體報告的百分比與以負面方式討論它的數量相比。在其他情況下,這些數據需要與報告中的其他信息相結合--例如,提取特定地點的信息可以使評估小組生成不斷變化的敵人作戰自由地圖。

主要發現

機器學習可以成為支持作戰評估的有力工具

  • 作戰總部已經收集的數據--情報報告、作戰報告和環境數據(社會和傳統媒體)--往往是關于敵人和伙伴部隊以及當地居民的最佳可用信息類型。然而,它們很少被納入評估,因為它們往往(1)不被認為是足夠客觀的,(2)沒有以易于分析的結構化格式提供,以及(3)數量極大,需要花費一些精力來獲取和組織。
  • 機器學習(ML)工具,可以快速攝取和解釋大量的非結構化文本,允許對這些數據進行快速、系統和客觀的分析,產生關于作戰的客觀和統計相關的見解。
  • 監督機器學習(SML)是使用ML將這些數據納入評估過程的最簡單方法。在SML方法中,評估小組首先通過手工分析非結構化文本的子集,然后應用ML算法來模仿評估小組對剩余數據的分析方法。
  • ML衍生的數據可以為指揮官提供關于戰役的近乎實時的洞察力,每種類型的數據(情報、作戰和環境)為理解戰役的效果提供不同的視角。
  • ML工具在評估數據有限或沒有評估數據的戰役中特別有利--這在資源有限的戰役或在被拒絕的地區很常見。
  • 這種基于ML的方法對大多數評估小組來說應該是可行的,并且可以用免費提供的ML工具來實施,這些工具已被預先授權用于美國國防部的機密系統。

主要建議

我們的研究確定了五個建議,這些建議將提高基于ML的評估方法的價值。

  • 建議1:在受控演習中驗證SML方法。本報告所描述的方法是特意設計的,以使評估小組盡可能容易復制,而且該方法的設計依靠的是既免費又已被批準在許多軍事網絡上使用的工具。然而,盡管我們已經用實際作戰測試了我們的方法,但我們并沒有試圖在實時或與軍事分析員團隊一起做這件事。因此,我們建議利用實戰演習,但在受控條件下驗證各項要求--如任務前培訓、人員配置、分析工具的可用性和必要的數據訪問。

  • 建議2:探索如何利用無監督的ML為作戰評估提供信息。無監督的ML可以提供一種工具,用于發現戰役活動和這些活動的行動目標之間的未預期模式。經過評估小組的審查,這些信息可以為指揮官提供一個寶貴的工具,用來探索未預料到的模式。考慮到我們的任務是探索如何利用ML將現有數據用于評估,我們沒有詳細研究將無監督ML納入評估的實用性或價值。

  • 建議3:對作戰報告實施適度的標準化。SITREP和其他作戰報告往往是關于伙伴部隊活動和能力的唯一最佳歷史數據來源,而且這種報告還可以提供關于美國部隊活動的詳細歷史記錄。這些特點使作戰報告成為評估小組潛在的有力工具--特別是如果有ML(或類似的)工具可以快速提取與評估有關的信息--但這種報告在質量和細節上并不一致。我們建議對這種作戰報告進行適度的標準化。要求(簡單地)戰術部門持續討論其伙伴部隊的活動和能力。

  • 建議4:改善歷史情報和作戰報告的歸檔、發現和提取。獲取和提取本報告所述方法所需的相關情報和作戰報告在現有系統中并不容易。對于情報報告,我們建議在現有系統中增加快速提取縱向數據(如三個月或更長時間的數據)的能力,以滿足一組特定的搜索參數(如地理、布爾邏輯),其中包括報告全文和一些關于數據的基本描述性信息(日期、來源等)。對于業務報告,我們建議業務層面的總部確保所有下屬總部的SITREPs被系統地歸檔。

  • 建議5:擴大專業軍事教育中要求的具體評估討論。盡管承認評估對軍事行動的重要性,但在向聯合部隊提供的與評估有關的教育和培訓方面存在重大差距。因此,評估小組往往難以提供指導有效決策所需的信息,而作戰級總部的其他工作人員往往缺乏經驗。

付費5元查看完整內容

為機器配備對世界實體及其關系的全面了解一直是人工智能的一個長期目標。在過去的十年中,大規模知識庫(也稱為知識圖譜)已經從Web內容和文本源中自動構建出來,并且已經成為搜索引擎的關鍵模塊。這種機器知識可以被用來從語義上解釋新聞、社交媒體和網絡表格中的文本短語,并有助于回答問題、自然語言處理和數據分析。本文調查基本概念和實際的方法來創建和管理大型知識庫。它涵蓋了用于發現和規范化實體及其語義類型以及將它們組織成干凈的分類法的模型和方法。在此基礎上,本文討論了以實體為中心的屬性的自動提取。為了支持機器知識的長期生命周期和質量保證,本文提出了構建開放模式和知識管理的方法。學術項目的案例研究和工業知識圖表補充了概念和方法的調查。

概述

增強計算機的“機器知識”,可以推動智能應用是計算機科學的一個長期目標[323]。由于知識獲取方面取得了重大進展,這一以前難以捉摸的愿景如今已變得切實可行。這包括將嘈雜的互聯網內容轉化為實體和關系上的清晰知識結構的方法。知識獲取方法使得自動建設知識庫(KB):機器可讀的關于現實世界的事實的集合。如今,公開的KBs提供了數以百萬計的實體(比如人、組織、地點和書籍、音樂等創意作品)和數十億的聲明(比如誰研究了哪里,哪個國家擁有哪一種資本,或者哪位歌手演唱了哪首歌)。大公司部署的專有KBs包含了更大范圍的知識,有一到兩個數量級的實體。

知識庫成為關鍵資產的一個突出用例是Web搜索。當我們向百度、Bing或谷歌發送一個類似“迪倫抗議歌曲”的查詢時,我們會得到一個清晰的歌曲列表,比如《Blowin ' in the Wind》、《Masters of War》或《a- gonna Rain ' s a- gonna Fall》。因此,搜索引擎自動檢測到我們對某一個體實體的事實感興趣——這里是鮑勃·迪倫——并要求特定類型的相關實體——抗議歌曲——作為答案。這是可行的,因為搜索引擎在其后端數據中心有一個巨大的知識庫,有助于發現用戶請求(及其上下文)中的實體,并找到簡明的答案。

本文介紹了從Web和文本源自動構建和管理大型知識庫的方法。我們希望它將對博士生和對廣泛的主題感興趣的教師有用——從機器知識和數據質量到機器學習和數據科學,以及web內容挖掘和自然語言理解的應用。此外,本文還旨在為從事web、社會媒體或企業內容的語義技術的行業研究人員和實踐者提供幫助,包括從文本或半結構化數據構建意義的各種應用程序。不需要有自然語言處理或統計學習的先驗知識;我們將根據需要介紹相關的方法(或至少給出文獻的具體指示)。

這篇文章共分為十章。第2章給出了知識表示的基礎知識,并討論了知識庫的設計空間。第3、4和5章介紹了構建包含實體和類型的知識庫核心的方法。第3章討論了利用具有豐富和干凈的半結構化內容的優質資源,第4章討論了從文本內容中獲取的知識。第5章特別關注將實體規范化為唯一表示的重要問題。第6章和第7章通過發現和提取實體的屬性以及實體之間的關系的方法擴展了知識庫的范圍。第6章主要討論為感興趣的屬性預先設計模式的情況。第7章討論了為KB模式中尚未指定的屬性和關系發現新的屬性類型的情況。第8章討論了知識庫管理和知識庫長期維護的質量保證問題。第9章介紹了幾個具體KBs的案例研究,包括工業知識圖譜(KGs)。我們在第10章以關鍵課程和關于機器知識主題可能走向的展望來結束。

付費5元查看完整內容

在本文中,我們對知識圖譜進行了全面的介紹,在需要開發多樣化、動態、大規模數據收集的場景中,知識圖譜最近引起了業界和學術界的極大關注。在大致介紹之后,我們對用于知識圖譜的各種基于圖的數據模型和查詢語言進行了歸納和對比。我們將討論模式、標識和上下文在知識圖譜中的作用。我們解釋如何使用演繹和歸納技術的組合來表示和提取知識。我們總結了知識圖譜的創建、豐富、質量評估、細化和發布的方法。我們將概述著名的開放知識圖譜和企業知識圖譜及其應用,以及它們如何使用上述技術。最后,我們總結了未來高層次的知識圖譜研究方向。

盡管“知識圖譜”一詞至少從1972年就開始出現在文獻中了[440],但它的現代形式起源于2012年發布的谷歌知識圖譜[459],隨后Airbnb[83]、亞馬遜[280]、eBay[392]、Facebook[365]、IBM[123]、LinkedIn[214]、微軟[457]、優步[205]等公司相繼發布了開發知識圖譜的公告。事實證明,學術界難以忽視這一概念的日益普及: 越來越多的科學文獻發表關于知識圖譜的主題,其中包括書籍(如[400]),以及概述定義(如[136])的論文,新技術(如[298,399,521]),以及對知識圖譜具體方面的調查(如[375,519])。

所有這些發展的核心思想是使用圖形來表示數據,通常通過某種方式顯式地表示知識來增強這種思想[365]。結果最常用于涉及大規模集成、管理和從不同數據源提取價值的應用場景[365]。在這種情況下,與關系模型或NoSQL替代方案相比,使用基于圖的知識抽象有很多好處。圖為各種領域提供了簡潔而直觀的抽象,其中邊捕獲了社會數據、生物交互、書目引用和合作作者、交通網絡等[15]中固有實體之間的(潛在的循環)關系。圖允許維護者推遲模式的定義,允許數據(及其范圍)以比關系設置中通常可能的更靈活的方式發展,特別是對于獲取不完整的知識[2]。與(其他)NoSQL模型不同,專門的圖形查詢語言不僅支持標準的關系運算符(連接、聯合、投影等),而且還支持遞歸查找通過任意長度路徑[14]連接的實體的導航運算符。標準的知識表示形式主義——如本體論[66,228,344]和規則[242,270]——可以用來定義和推理用于標記和描述圖中的節點和邊的術語的語義。可伸縮的圖形分析框架[314,478,529]可用于計算中心性、集群、摘要等,以獲得對所描述領域的洞察。各種表示形式也被開發出來,支持直接在圖上應用機器學習技術[519,527]。

總之,構建和使用知識圖譜的決策為集成和從不同數據源提取價值提供了一系列技術。但是,我們還沒有看到一個通用的統一總結,它描述了如何使用知識圖譜,使用了哪些技術,以及它們如何與現有的數據管理主題相關。

本教程的目標是全面介紹知識圖譜: 描述它們的基本數據模型以及如何查詢它們;討論與schema, identity, 和 context相關的表征;討論演繹和歸納的方式使知識明確;介紹可用于創建和充實圖形結構數據的各種技術;描述如何識別知識圖譜的質量以及如何改進知識圖譜;討論發布知識圖譜的標準和最佳實踐;并提供在實踐中發現的現有知識圖譜的概述。我們的目標受眾包括對知識圖譜不熟悉的研究人員和實踐者。因此,我們并不假設讀者對知識圖譜有特定的專業知識。

知識圖。“知識圖譜”的定義仍然存在爭議[36,53,136],其中出現了一些(有時相互沖突的)定義,從具體的技術建議到更具包容性的一般性建議;我們在附錄a中討論了這些先前的定義。在這里,我們采用了一個包容性的定義,其中我們將知識圖譜視為一個數據圖,目的是積累和傳遞真實世界的知識,其節點表示感興趣的實體,其邊緣表示這些實體之間的關系。數據圖(又稱數據圖)符合一個基于圖的數據模型,它可以是一個有向邊標記的圖,一個屬性圖等(我們在第二節中討論具體的替代方案)。這些知識可以從外部資源中積累,也可以從知識圖譜本身中提取。知識可以由簡單的語句組成,如“圣地亞哥是智利的首都”,也可以由量化的語句組成,如“所有的首都都是城市”。簡單的語句可以作為數據圖的邊來積累。如果知識圖譜打算積累量化的語句,那么就需要一種更有表現力的方式來表示知識——例如本體或規則。演繹的方法可以用來繼承和積累進一步的知識(例如,“圣地亞哥是一個城市”)。基于簡單或量化語句的額外知識也可以通過歸納方法從知識圖譜中提取和積累。

知識圖譜通常來自多個來源,因此,在結構和粒度方面可能非常多樣化。解決這種多樣性, 表示模式, 身份, 和上下文常常起著關鍵的作用,在一個模式定義了一個高層結構知識圖譜,身份表示圖中哪些節點(或外部源)引用同一個真實的實體,而上下文可能表明一個特定的設置一些單位的知識是真實的。如前所述,知識圖譜需要有效的提取、充實、質量評估和細化方法才能隨著時間的推移而增長和改進。

在實踐中 知識圖譜的目標是作為組織或社區內不斷發展的共享知識基礎[365]。在實踐中,我們區分了兩種類型的知識圖譜:開放知識圖譜和企業知識圖譜。開放知識圖譜在網上發布,使其內容對公眾有好處。最突出的例子——DBpedia[291]、Freebase[51]、Wikidata[515]、YAGO[232]等——涵蓋了許多領域,它們要么是從Wikipedia[232,291]中提取出來的,要么是由志愿者社區[51,515]建立的。開放知識圖譜也在特定領域內發表過,如媒體[406]、政府[222,450]、地理[472]、旅游[11,263,308,540]、生命科學[79]等。企業知識圖譜通常是公司內部的,并應用于商業用例[365]。使用企業知識圖譜的著名行業包括網絡搜索(如Bing[457]、谷歌[459])、商業(如Airbnb[83]、亞馬遜[127、280]、eBay[392]、Uber[205])、社交網絡(如Facebook[365]、LinkedIn[214])、金融(如埃森哲[368]、意大利銀行[32][326]、彭博[326]、Capital One[65]、富國銀行[355])等。應用包括搜索[457,459],推薦[83,205,214,365],個人代理[392],廣告[214],商業分析[214],風險評估[107,495],自動化[223],以及更多。我們將在第10節中提供更多關于在實踐中使用知識圖譜的細節。

結構。本文件其余部分的結構如下:

  • 第2節概述了圖形數據模型和可用于查詢它們的語言。
  • 第3節描述了知識圖譜中模式、標識和上下文的表示形式。
  • 第四節介紹了演繹式的形式主義,通過這種形式主義,知識可以被描述和推導出來。
  • 第5節描述了可以提取額外知識的歸納技術。
  • 第6節討論了如何從外部資源中創建和豐富知識圖譜。
  • 第7節列舉了可用于評估知識圖譜的質量維度。
  • 第8節討論知識圖譜細化的各種技術。
  • 第9節討論發布知識圖譜的原則和協議。
  • 第10節介紹了一些著名的知識圖譜及其應用。
  • 第11節總結了知識圖譜的研究概況和未來的研究方向。
  • 附錄A提供了知識圖譜的歷史背景和以前的定義。
  • 附錄B列舉了將從論文正文中引用的正式定義。
付費5元查看完整內容
北京阿比特科技有限公司