摘要
雖然人工智能應用于法律領域是一個起源于上個世紀的話題,但人工智能最近的進展使其發生了革命性的變化。本工作概述和背景介紹了自然語言處理領域的主要進展,以及這些進展如何被用于進一步發展法律文本分析的現狀。
世界上每個國家的內部運作都建立在一個復雜的司法系統之上。例如,在葡萄牙,《葡萄牙官方公報》(Di′ario da Rep′ublica)是公布葡萄牙共和國所有法律和規范的場所。目前有150多萬項法律法規在實施,每個月有1000多項新的法律法規在DRE上發表。這個在線資源提供了訪問葡萄牙所有立法的途徑,以及讓公民找到他們所需要的法律和規范的服務。
鑒于公民擁有的權利和必須遵守的義務,這類信息對所有公民來說都很容易獲得,這一點顯然很重要。在訪問立法搜索時,由于使用的語言級別,一些公民可能很難找到搜索結果。普通市民通常使用自然語言(NL)來引入搜索查詢。問題在于,法律和法律規范包含的語言——盡管在技術上屬于非母語——使用了專門的術語和句子結構。即使是簡單的搜索也會遇到雙重障礙。一方面,系統必須理解用戶的查詢,并將其與正確的法規聯系起來。另一方面,由于格式的原因,返回的文本不容易被普通用戶理解。
法律文本、規范、程序和論證的邏輯特征表明,形式邏輯可以作為代表法律規則和情境事實的模型。因此,根據規則對事實的應用,可以幫助公民進行推理。但是,要使這個系統發揮作用,我們前面提到的“自然語言障礙”必須克服。首先,有必要將法律規范從NL翻譯成某種與機器兼容的語義或邏輯表示形式。由于NL和法律語言的一些特性,這個困難成為了一個真正的障礙。然后,還必須將用戶查詢從NL轉換為語義或邏輯表示。最后,在系統完成邏輯推理后,“自然語言障礙”必須進行第三次換位,為外行人生成用戶友好的解釋或程序描述。自然語言處理的革命性進展最近改變了這一局面,創造了可擴展的方法來分析大型文本語料庫。它們也已開始應用于法律領域,為跨越上述障礙開辟了新的途徑。許多困難和未決問題仍然存在,但似乎在未來幾年內,我們將能夠創造新的工具,開發創新的應用,以幫助公民與法律互動。
本文對人工智能和法律領域、自然語言處理(NLP)及其在法律領域的應用現狀進行了概述、情境化和分析,目的是確定如何最好地利用最近的進展來改善由DRE提供給用戶的搜索服務。本文檔組織如下。在下一節中,我們將簡要概述人工智能應用于法律領域的子領域。在第三部分,NLP的深度學習進展,我們將介紹NLP的深度學習的最新進展。語義表示部分概述了語義表示語言和自然語言處理中的語義信息提取。之后,我們將討論NLP(探索新的進展和語義表示語言的使用)在與法律領域相關的任務中的新應用,如法律信息檢索和規范提取。
應用于法律領域的兩種傳統人工智能方法,要么是以邏輯為基礎,要么以數據為中心。基于邏輯的方法植根于像[3]這樣的先驅的工作,但是第一次將其應用于真正的法律,像英國國家法案[52]的規則的形式化,是在80年代制定的。以數據為中心的方法在法律領域的應用也始于20世紀80年代,以基于案例的推理HYPO系統[4]為例。該制度的目標是在先例的基礎上建立推理模式,引用過去的案例作為法律結論的理由。
2.1基于邏輯的方法
圖1顯示了基于會話邏輯的法律推理系統的體系結構。原則上,可以從有關法律和案件事實的形式化版本中推斷出法律結論。但是,“自然語言障礙”造成了兩個主要障礙:以邏輯表達形式表示法律文本的挑戰,以及從自然語言[15]表達的事實評估法律謂詞的困難。
基于會話邏輯的法律推理系統結構
2.2 以數據為中心的方法
以數據為中心或數據驅動的方法具有自動化和可伸縮性的優點,大大減少了以邏輯形式對法律文本進行人工編碼的繁瑣工作。它可以用來替代法律推理系統或整個系統的特定組件。如圖3所示,主要的前提是通過構建一個數據集的例子,例如一組與法律文本翻譯成一個邏輯表示的例子,一個可以使用機器學習技術——如深度神經網絡——歸納學習如何自動執行相同的任務在新的例子。但是,這里有一個權衡,因為以數據為中心的方法通常透明度和解釋性較低[15]。例如,在深度神經網絡的情況下,學習的模型將是一個非常復雜的模型,通常有數百萬甚至數十億個參數被組合起來——通常以非線性的方式——來確定一個特定的輸出。對于人類觀察者來說,理解模型產生特定翻譯、預測或決策的原因或方式并不容易。出于這個原因,我們認為,與其取代整個系統,不如將數據為中心的方法用作改進法律推理系統某些組件的工具——例如將法律文本翻譯成相應邏輯形式的組件。
在基于會話邏輯的法律推理系統的體系結構中增加一個以數據為中心的組件。
近年來,由于基于Transformer的模型的出現,研究人員看到了深度學習模型和技術在自然語言處理領域的應用取得了重大突破。本節將通過描述NLP中使用的編碼器-解碼器模型的演變來概述這些進展,從基于LSTM的序列到序列模型,最后介紹最新的基于transformer的方法。
Transformer架構
Multi2OIE的體系結構。利用BERT的隱藏狀態提取謂詞,然后將隱藏序列、謂詞的平均向量和位置嵌入連接起來,作為多頭注意力塊的輸入進行參數提取。
研究人員已經開始探索利用深度學習模型對一系列下游任務實現的自然語言處理的最新進展。在本節中,我們將介紹一些系統的示例,這些系統將說明如何使用自然語言處理來改進一組對法律領域有用的任務,例如信息檢索或規范提取。我們將描述直接應用于法律文本的系統的例子,但也將描述其技術可以容易地應用和轉移到法律領域的系統。
法律信息檢索的語義NLP方法
NLP領域已經顯示出在創造解釋和代表法律文本的新方式方面非常相關,以便不了解基本法律概念的普通公民能夠理解和查詢該系統。對于這個復雜的任務,有幾個因素會影響基于NL的法律查詢系統的良性運行。在一個句子中,單詞的順序是決定其語義價值的一個非常重要的因素。發布的前幾個句子編碼器——有些實際上是改頭換面的單詞編碼器——也陷入了同樣的困境。缺少詞序編碼。兩個單詞完全相同,但順序不同的句子,可能有完全不同的意思。由這個順序定義的語境會影響特定單詞的意思。例如,當一個人說“我去跑步了”時,我們就會認為“跑”這個詞與這項運動有關聯。當另一個人說,你必須在你的電腦上運行這個,意思完全不同于另一個句子。它不僅被用作動詞,而且它的意思也不再與體育有關,而是與計算任務有關。而且,即使在run這個詞被用作與這項運動相關的動詞的情況下,在大多數情況下,由于相關的單詞,它仍然可以與計算意義區分開來。
評價兩篇文本之間的語義文本相似度(STS)非常重要,它是指兩篇文本之間的意義相似度。這項任務對于確定搜索系統如何能夠捕獲查詢的含義并將其作為選擇搜索結果的一個因素非常有用。在STS任務中度量模型性能的一個重要基準是GLUE基準。它使用指標和STS數據集,專門用于評估模型將意義編碼到生成的令牌嵌入中的能力。
句子BERT的相似性計算
自動合規檢查的語義NLP方法
SNACC(基于語義自然語言處理的自動合規檢查)系統[63]能夠自動從國際建筑規范的法規文件中提取法規信息。提取的法規信息用一階邏輯(FOL)表示。通過使用FOL形式主義表示這些信息,SNACC能夠自動檢查特定的建筑模型是否與法規一致。SNACC的另一個有趣的方面是,作者探索了基于樹的可視化表示的法規陳述(基于樹的表示形式是由符合表示),并認為基于樹的表示讓用戶更容易理解。圖21顯示了一個基于樹的表示的示例。
利用SRL從法律文本中提取規范
Humphreys和他的同事[36]最近研究了如何從法律文本中自動提取知識,并使用這些知識填充法律本體的問題。為了解決這個問題,他們創建了一個基于自然語言處理和基于領域知識的后處理規則的系統。作者聲稱他們是第一個使用PropBank語義角色標簽從法律文本中提取定義和規范的人。該系統主要由兩部分組成。第一個組件是Mate Tools語義角色標記器[10],它從法律文本中提取抽象語義表示以及依賴解析樹。第二個組件由一組規則組成,這些規則標識可能的規范和定義,對它們的類型進行分類,并將語義角色樹中的參數映射到法律本體中特定領域的位置。使用SRL的優勢在于,它用相關的語義信息豐富了句子解析樹,這將簡化為提取規范和定義而必須創建的規則。
在本文中,我們簡要分析了人工智能應用于法律領域的研究領域的歷史和現狀,以及它的前景和挑戰。我們還發現了一些可用的產品。然后,我們回顧了深度學習應用于自然語言處理、信息檢索和語義表示的最新趨勢,這些可用于構建更好的系統,幫助公民訪問和理解法律。這些技術,有些是最近才發表的論文,就在這些結論發表前的幾周,可以用來幫助解決我們上面描述的法律信息搜索系統的非專業用戶面臨的三重自然語言障礙。特別有趣的是,最近關注的系統能夠探索使用自動提取的語法和語義信息來完成需要自然語言理解的任務。語義信息——即使只是在較淺的層次上提供——提供了對法律語料庫中的文本的更深入的理解,使我們能夠超越單詞匹配技術。另一個相關趨勢是使用弱監督技術(具有低注釋成本和易于擴展到大領域)自動生成問題和答案的數據集,并使用它們在信息檢索或問題回答等下游任務中訓練模型。我們相信,以其中一些技術為基礎,將有可能建立一個“主動法律信息檢索和過濾系統”,允許以簡化程序并使檢索數據更相關和及時的方式訪問法律文本。
[1] Ajani, G., Boella, G., Caro, L.D., Robaldo, L., Humphreys, L., Praduroux, S., Rossi, P., Violato, A.: The european taxonomy syllabus: A multilingual, multi-level ontology framework to untangle the web of european legal terminology. Appl. Ontology 11(4), 325–375 (2016)
[2] Aletras, N., Tsarapatsanis, D., Preot?iuc-Pietro, D., Lampos, V.: Predicting judicial decisions of the european court of human rights: A natural language processing perspective. PeerJ Computer Science 2, e93 (2016)
[3] Allen, L.E.: Symbolic logic: A razor-edged tool for drafting and interpreting legal documents. Yale Law Journal 66, 833—-879 (1957)
[4] Ashley, K.D.: Reasoning with cases and hypotheticals in HYPO. International Journal of Man-Machine Studies 34, 753–796 (1991)
[5] Ashley, K.D.: Case-based models of legal reasoning in a civil law context. In: International congress of comparative cultures and legal systems of the instituto de investigaciones jur′?dicas (2004)
[6] Athan, T., Governatori, G., Palmirani, M., Paschke, A., Wyner, A.: LegalRuleML: Design Principles and Foundations, pp. 151–188. Springer International Publishing (2015)
[7] Banarescu, L., Bonial, C., Cai, S., Georgescu, M., Griffitt, K., Hermjakob, U., Knight, K., Koehn, P., Palmer, M., Schneider, N.: Abstract Meaning Representation for sembanking. In: Proceedings of the 7th Linguistic Annotation Workshop and Interoperability with Discourse. pp. 178–186. Association for Computational Linguistics, Sofia, Bulgaria (Aug 2013), //www.aclweb.org/anthology/W13-2322
[8] Barros, R., Peres, A., Lorenzi, F., Wives, L.K., da Silva Jaccottet, E.H.: Case law analysis with machine learning in brazilian court. In: International Conference on Industrial, Engineering and Other Applications of Applied Intelligent Systems. pp. 857–868. Springer (2018)
葡萄牙貝拉內大學最新《醫學診斷中可解釋深度學習方法》綜述,值得關注!
深度學習的顯著成功引發了人們對其在醫學診斷中的應用的興趣。即使最先進的深度學習模型在對不同類型的醫療數據進行分類時達到了人類水平的準確性,但這些模型在臨床工作流程中很難被采用,主要是因為它們缺乏可解釋性。深度學習模型的黑盒性提出了設計策略來解釋這些模型的決策過程的需要,這導致了可解釋人工智能(XAI)這個話題的產生。在此背景下,我們提供了XAI應用于醫療診斷的全面綜述,包括可視化、文本和基于示例的解釋方法。此外,這項工作回顧了現有的醫學成像數據集和現有的指標,以評估解釋的質量。作為對大多數現有綜述的補充,我們包含了一組基于報告生成方法之間的性能比較。最后,還討論了XAI在醫學影像應用中的主要挑戰。 //www.zhuanzhi.ai/paper/f6e90091666dbcaa5b40c1ab82e9703b
人工智能(AI)領域在過去十年取得的進展,支持了大多數計算機視覺應用的準確性的顯著提高。醫學圖像分析是在對不同類型的醫學數據(如胸部X光片[80]、角膜圖像[147])進行分類時取得人類水平精確度的應用之一。然而,盡管有這些進展,自動化醫學成像在臨床實踐中很少被采用。Zachary Lipton[69]認為,對這一明顯的悖論的解釋很簡單,醫生在不了解決策過程的情況下,永遠不會相信算法的決策。這一事實提出了產生能夠解釋人工智能算法的決策過程的策略的必要性,隨后導致了一個新的研究主題的創建,稱為可解釋人工智能(XAI)。根據DARPA[41]的說法,XAI的目標是“在保持高水平的學習性能(預測精度)的同時,產生更多可解釋的模型;并使人類用戶能夠理解、適當、信任和有效地管理新一代人工智能伙伴”。盡管XAI具有普遍適用性,但它在高風險決策(如臨床工作流程)中尤其重要,在這種情況下,錯誤決策的后果可能導致人類死亡。這也得到了歐盟通用數據保護條例(GDPR)法律的證明,該法律要求解釋算法的決策過程,使其透明,然后才能用于患者護理[37]。
因此,在將深度學習方法應用于臨床實踐之前,投資研究新的策略以提高其可解釋性是至關重要的。近年來,對這一課題的研究主要集中在設計間接分析預建模型決策過程的方法。這些方法要么分析輸入圖像的特定區域對最終預測的影響(基于擾動的方法[77;101]和基于遮擋的方法[151])或檢查網絡激活(顯著性方法[112;153])。這些方法可以應用于任意網絡架構,而不需要對模型進行額外的定制,這一事實支持了它們在XAI早期的流行。然而,最近的研究表明,事后策略在解釋的重要性方面存在一些缺陷[2;105]。因此,研究人員將他們的注意力集中在能夠解釋其決策過程本身的模型/架構的設計上。現有的可解釋模型被認為在醫學成像中特別有用[105],證明了最近集中于這一范式而不是傳統的后特殊策略的醫學成像作品數量的增長是合理的[53;144]。盡管近年來固有可解釋模型的流行,但現有的關于深度學習應用于醫學成像的可解釋性的研究并沒有全面回顧這一新的研究趨勢的進展。此外,專注于解釋應用于醫學成像的深度學習決策過程的著作數量顯著增加,因此有必要對最近一次關于該主題的綜述未涵蓋的最新方法進行更新調研。
**為了解決這些問題,我們全面回顧了可解釋深度學習應用于醫學診斷的最新進展。特別是,這項綜述提供了以下貢獻: **
回顧最近關于醫學成像中可解釋深度學習主題的調研,包括從每個工作中得出的主要結論,以及對我們調研的比較分析。 用于醫學成像的深度學習方法可解釋性研究中常用的數據集的詳盡列表。 全面調研最先進的可解釋醫學成像方法,包括事后模型和固有的可解釋模型。 對基準可解釋性方法常用的度量標準的完整描述,無論是可視化的還是文本的解釋。關于文本解釋質量的可解釋醫學成像方法的基準。 醫學影像中可解釋深度學習的未來研究方向
基于文獻綜述,XAI方法可以根據三個標準進行分類: (i) 模型無關性vs模型具體; (ii)全局可釋性與局部可釋性; (iii)事后對內在。圖1說明了XAI方法的分類法,
正如前面提到的,深度學習模型在部署到現實場景時必須具有透明性和可信賴性。此外,這一要求在臨床實踐中尤其相關,在臨床實踐中,不知情的決定可能會將患者的生命置于危險之中。在綜述的文獻中,已經提出了幾種方法來賦予應用于醫學診斷的深度學習方法解釋性。以下部分總結和分類了應用于醫學診斷的可解釋模型范圍內最相關的工作。此外,我們特別關注內在可解釋的神經網絡及其在醫學成像中的適用性。我們根據解釋方式將這些方法分為:(i)特征歸因解釋,(ii)文本解釋,(iii)實例解釋,(iv)概念解釋,(v)其他解釋;受[86]提出的分類學啟發。根據所使用的算法、圖像形態和數據集分類的綜述方法列表見表4。
近年來,得益于神經網絡技術特別是注意力深度學習模型的突破,自然語言處理取得了許多令人矚目的成就。然而,自動化的法律文字處理仍然是自然語言處理的一個困難分支。法律句子通常很長并且包含復雜的法律術語。因此,適用于一般文件的模型在處理法律文件時仍然面臨挑戰。我們已經通過我們在這項工作中的實驗驗證了這個問題的存在。在本論文中,我們選擇性地介紹了在自動法律文件處理中改進注意力神經網絡的主要成果。語言模型往往會變得越來越大,但是,如果沒有專家知識,這些模型仍然可能無法適應領域,尤其是對于法律等專業領域。
本論文的三個主要任務是實現改進法律文件處理中注意力模型。首先,我們調查并驗證了在法律等特定領域運行時影響模型性能的因素。這項調查旨在為改進該領域的模型提供更清晰的見解。其次,由于預訓練語言模型是最近自然語言處理中最眾所周知的專注方法,我們提供了創建特定于法律領域的語言模型方法,從而在可靠的數據集上產生最先進的結果。這些模型建立在法律文件數據的特征之上,旨在克服我們之前調查中發現的挑戰。第三,除了讓模型完全從原始數據中學習的方法外,我們提出并證明了使用不同的知識源以不同的方式注入模型以調整其輸出的有效性。這種方法不僅增加了可解釋性,還允許人類控制預訓練的語言模型,并利用該領域發展過程中可用的知識資源,如詞匯、語法、邏輯和法律。
關鍵詞:法律文本處理、注意力神經網絡、深度法律、預訓練語言模型、知識注入
法律文件的自動化處理是當今信息社會的迫切需求。除了社交媒體的便利性,我們在這些平臺上的行為可能涉及或導致許多法律效力。Twitter禁止美國前總統唐納德·特朗普在其平臺[57]上發表言論,以及特斯拉不得不雇傭員工來控制其董事長埃隆·馬斯克言論的法律風險,這些都是證明這一現象的典型例子。然而,由于社會和技術原因,自動法律處理系統的質量尚未滿足社會需求。
就社會原因而言,計算機科學是近幾年才取得顯著成果,而法律是國家建國以來數百年來一直依附于人們的領域。規律與人類的發展并存,是長期存在的,對技術沒有任何關聯。此外,法律和計算機科學都是沒有太多共同點的專業學科。因此,計算機科學在法律上的應用可能需要很長時間才能取得突破。
由于技術原因,句子通常很長并且具有復雜的語義結構。人類甚至很難在一讀時理解法律句子的確切含義。在英國、美國、加拿大等國家,法院必須在普通法體系中發揮解釋作用;德國、日本、越南等國民法系需要的指導性文件。此外,法律文件是用自然語言編寫的,這種交流方式并非旨在確保正確性。自然語言中的歧義可能成為任何智能系統的障礙,甚至對人類也是如此。尤其是在具有多層含義的語言中(如漢語、日語、越南語),通過句子理解確切的含義是一個更困難的問題。此外,法律領域使用的詞匯與人們日常交流的詞匯并不完全一致。因此,它可以被認為是我們語言中的一種特殊子語言。
隨著硬件計算能力的增長,深度學習,尤其是注意力模型已經在自然語言處理的許多不同任務中證明了它們的能力。使用這種方法的系統可以很好地執行諸如語音識別、問答和語言生成等精細任務。鑒于這些成就,我們可以期待使用深度學習模型來處理法律領域中更復雜的語言任務。在本論文中,我們選擇性地報告了我們在提高深度學習的性能和可解釋性方面的研究成果,特別是在處理法律文本中的注意力模型(我們簡稱為深度法律處理)。由于法律語言不同于日常語言,因此我們需要對此類數據采取適當的方法。除了性能的提高,論文還為讀者提供了深度法律處理的信息特征。
遷移學習和預訓練的注意力模型是領域適應的魯棒方法。然而,在法律等專業領域,如果不了解領域和數據,這些模型很難產生好的結果。因此,詳細研究將深度學習應用于法律文本處理的可能性和方法對于該領域自動化的發展是有用的信息。本論文將回答的三個主要研究問題包括:
1.哪些因素會影響僅使用提供數據訓練的端到端深度學習模型執行法律文件處理任務的性能?
2.預訓練語言模型已成為深度學習的強大方法之一。法律文本中的哪些特征可用于實施這些模式的成功實例?
3.如何利用現有的知識源注入深度學習模型以獲得更好的性能?可以獲得哪些知識?
為了回答這些問題,我們做出假設并在特定問題中進行測試。對于每個問題,我們提出方法、進行實驗、觀察、分析實驗結果并得出結論。
本研究的第一個動機是了解影響深層法律制度的因素,并在這些理解的基礎上提出適當的改進。開展本論文中介紹的工作,我們專注于提高深度法律模型的性能和顯性。深度學習模型通常被認為是黑箱,只要有足夠的數據,它們就會達到預期的效果。即便如此,在日常生活的所有領域都很難滿足足夠數據的假設。因此,分析深度法律的特征有助于我們更有效地使用數據。本論文還傳達了有關深度學習模型在法律領域可以執行哪些任務以及在什么條件下表現良好的信息。這項工作也可以被視為提高深度法律模型的可解釋性的努力,這對于將這些模型帶入現實生活中的應用至關重要。
了解可能影響域中系統的因素是良好設計的重要要求。法律領域的數據特征是數據碎片化、法律句子長、專業術語多。因此,我們選擇詳細研究數據量、數據表示方式以及處理數據的模型架構等因素。對于數據量因素,我們在數據有限的問題上進行實驗,提出增加數據的解決方案,并在新環境中比較結果。為了理解數據表示的影響,我們提出了一種方法來評估一般和法律領域中的不同嵌入方法。關于模型架構,我們比較了不同架構在同一個問題上的表現。實驗結果表明,與具有普通架構的預訓練繁瑣語言模型相比,注意力CNN 網絡具有明顯的優勢。
我們的第二個動機是驗證預訓練語言模型在法律領域的能力。近年來,預訓練語言模型得到了普及,并在自然語言處理的各種問題上取得了許多突破。順應這一趨勢,我們為深度法律任務設計了預訓練的語言模型。除了性能(評估模型的重要因素)之外,我們在設計模型時還關注哲學。引入的模型是從影響我們調查的深度法律模型的因素中得出的觀察結果。預訓練的語言模型通常包含訓練數據中存在的偏差,因此通常在非常不同的領域表現不佳。幸運的是,對于法律領域,我們可以利用該領域的數據屬性來訓練或調整這些模型的權重。
從觀察數據表示在法律領域的重要性出發,我們提出了一種名為 BERTLaw 的預訓練語言模型,該模型使用大量法律數據從頭開始訓練。除了在我們的實驗中取得了很好的結果外,這個模型還幫助我們確認了數據表示的重要性。擁有良好的數據表示是強大的深層法律體系的先決條件。除了 BERTLaw 之外,我們還引入了 Paralaw 和 Paraformer,這些模型基于預訓練的語言模型,克服了數據量和模型架構限制的問題。
我們的第三個動機是執行和利用法律和語言知識資源來提高深度法律模型的性能。深度學習模型可以從數據中學習并在廣泛的任務中展示其有效性。但是,僅依靠數據具有三個缺點。首先,模型的質量取決于數據的質量。當非專業用戶過于依賴數據時,這可能很危險。其次,人類將不太可能參與決策過程。這可能導致智能系統濫用權力。第三,這些系統被認為是黑盒,調試它們非常困難。因此,我們研究并提出將知識注入深度學習模型的方法,以指導這些模型的學習和生成過程。
對于語言知識,我們介紹了 HYDRA,這是一種架構,允許單獨訓練 Transformer 模型的注意力頭,然后將它們移植到原始身體上。這種方法可以提高培訓和存儲的成本效益。對于法律知識,我們嘗試了解法律句子的邏輯部分。我們使用一種特殊的機制將這些知識注入到 Transformer 模型的不同層中。最后,利用法律領域的語言生成模型,我們提出了一種利用公平知識來規范該系統輸出的方法。這些發現是使用其他類型的知識資源來改進未來的深度法律模型的基礎。
論文主要有三個價值:性能改進、方法論、理論。首先,本論文中提出的系統都比現有成果具有更好的性能。其中一些在可靠的數據集上取得了最先進的結果。其次,系統的性能改進都是基于對實驗結果的觀察而設計的方法。我們不僅解釋了每章中提出的方法,還概述了構建它們的過程。第三,本論文各部分的結論和討論對于深度法律模型的設計具有理論基礎價值。
圖1.1:論文中提到、分析和解決的主要問題。
論文的主要貢獻包括發現和解決了法律領域深度學習系統的4個常見問題,即數據缺失、領域差異、內容冗長和學習不受控制,如圖1.1所示。除了非架構解決方案外,本文提出的模型都利用了注意力機制。論文還表明,如果沒有適當的方法,注意力模型的力量可能會被浪費。這在注意力CNN、預訓練語言模型和 Paraformer 部分中得到了特別證明。
為此,我們提供了有關法律文本處理中注意力神經網絡的定性和定量信息。我們提出了不同的方法來利用法律文本和補充知識的特征,不僅可以提高這些模型的性能,還可以提高它們的可解釋性。此外,我們提出了定制神經網絡中注意力架構的方法,以實現更好的設計。通過對注意力網絡不同程度的干預以注入專家知識的詳細解釋,本論文也可以作為一個很好的技術參考文檔,供可能關注的人參考。
這項研究可能有助于科學和實踐意義。論文在其內容中提供了深度學習在法律文本處理和相關方面的全貌。此外,本文還將介紹每個深度學習模型中最重要的嵌入方法、訓練任務和架構設計。從實踐的角度來看,這項研究的結果可能有助于將深度學習中最先進的技術引入法律領域。本文檔對于在法律領域尋求深度學習模型的可解釋性但不僅將其用作黑盒的研究人員非常有用。可解釋性是深層法律制度被批準在現實生活中運作的先決條件。
本論文的目的是分析和改進當前使用深度學習模型處理法律文件的最新技術。首先,我們分析了將端到端深度學習模型應用于法律處理問題的不同方面。通過這樣做,我們獲得了清晰的洞察力,可以為每個特定條件設計有效的模型。其次,我們提出了在法律領域預訓練語言模型以提高其性能的新方法。第三,我們設計了使用專家知識來支持模型在法律領域進行更好的學習和預測的方法。
圖 1.2:論文大綱
論文的大綱如圖 1.2 所示。首先,我們要確認深度學習模型執行法律任務的能力,這通常需要專業知識。我們分析了數據表示、數據量和深度學習模型架構的影響。這一確認是探索深度法律處理知識的第一步。之后,我們進一步發現法律數據的哪些特征可用于預訓練強法律語言模型,這是最近在自然語言處理中取得許多良好成果的多頭注意力網絡家族。在回答這個問題時,會涉及到法律嵌入、法律多語言能力和法律結構表示。最后,我們研究了將知識注入神經網絡以獲得該領域模型的性能和可解釋性的可能性。研究語言知識、法律知識和自學知識來回答這個問題。
在回答研究問題之前,我們在第 1 章專門介紹了研究目標、挑戰以及我們進行這項研究的動機,第 2 章介紹了深度學習、注意力機制和多頭注意力模型的基本知識[62]。在撰寫本文時,這些技術具有很大的影響力。這些知識不僅為讀者閱讀下一章提供了基礎,而且有助于闡明研究的背景。這些技術將來可能會過時并被取代。但是,論文的哲學和方法論仍然具有參考價值。此外,我們還介紹了法律文件的特點、法律文件與日常文本的區別、挑戰和深度學習處理法律文件的優勢。
第 3 章回答了第一個研究問題。我們詳細研究了影響深度學習模型的因素,例如數據表示、數據量和模型架構。在我們對深度學習架構的研究中,我們發現了非常簡單的架構,例如 SCNN [44],它的參數數量很少,仍然可以勝過其他模型。有趣的是,我們還發現 CNN [35] 架構和注意力機制 [33] 的簡單組合在某些特定情況下可以提供比龐大模型更好的結果。本章將回答端到端模型在什么條件下可以在法律文本處理任務中表現良好的問題。
下一個研究問題將在第 4 章中回答。近年來,語言模型已成為深度學習中的一種強大方法。這些模型經過大量數據的預訓練,能夠理解語言并在基準數據中的任務上表現出色。與傳統的 NLP 方法相比,BERT [23]、GPT-3 [13] 和 BART [37] 等模型在 NLP 方面取得了突破。這些模型利用了遷移學習的思想,學習一項任務可以改善另一項任務的結果。許多研究表明,組合和交織任務可以提高模型的效率。在我們的研究中,我們提出了預訓練語言模型的新方法。在法律領域,我們提出的模型(如 BERTLaw [48]、ParaLaw [46])利用組織者提供的標準數據集證明了它們在 COLIEE 2020 和 COLIEE 2021 比賽中的有效性。使用端到端模型(如果垃圾輸入,則垃圾輸出),因此擁有適當的訓練方法對于構建高質量的深度學習模型非常重要。
第 5 章回答了最終的研究問題。除了傳統的訓練和預訓練-微調范式之外,還有第三種方法,知識注入 [47]。這種方法是利用專家知識來支持學習模型和決策。我們可以直接將專家知識以信號的形式輸入模型,而不是向模型提供數據以便它自己學習關系。該方法有助于解決稀疏、含噪的數據問題,并利用專家知識訓練深度學習模型。這種專業知識可以是語言特征或語義特征的形式。通過我們的實驗,我們證明將這種專家知識注入神經網絡將提高模型的性能。此外,這種方法還有助于提高深度學習模型的可問責性和可調試性。
論文的最終目標是展示我們在改進法律文本處理中注意力神經網絡的道路上的工作。第 3 章和第 4 章的內容是我們參與 COLIEE 的結果和觀察。第 5 章介紹了初步研究,試圖增強注意力神經網絡的可解釋性,注意力神經網絡被認為是黑盒子。盡管這項工作做得很細致,但實驗中可能存在盲點,對結果的解釋可能存在偏差。因此,在每項工作中,我們不僅將性能量化為數字,而且對實驗結果進行了更深入的分析。在每一章的最后,我們總結了該章的要點和相關的討論。我們的最終討論和結論將在第 6 章中介紹。本章使讀者能夠理解我們的貢獻,將其視為改進法律文本處理中注意力模型的連貫工作。最后但同樣重要的是,我們概述了可以擴大范圍并將這項研究提升到實際應用的未來方向。
元宇宙是當下熱門話題。區塊鏈技術在元宇宙究竟有何作用?最近來自韓國的學者發布了《人工智能區塊鏈》綜述論文,全面闡述探索區塊鏈在元宇宙的建立和發展中的作用,值得關注
自Facebook于2021年10月正式更名為Metaverse以來,Metaverse已經成為社交網絡和三維虛擬世界的新常態。這個元宇宙旨在利用許多相關技術為用戶帶來3D沉浸式和個性化的體驗。盡管有很多關注和好處,但元宇宙中的一個自然問題是如何保護用戶的數字內容和數據。在這方面,區塊鏈是一個很有希望的解決方案,因為它具有去中心化、不可變性和透明性的特點。**為了更好地理解區塊鏈在元宇宙中的作用,我們的目標是對區塊鏈在元宇宙中的應用進行廣泛的調研。**我們首先對區塊鏈和元宇宙進行了初步介紹,并強調了將區塊鏈用于元宇宙背后的動機。接下來,我們將從技術角度廣泛討論基于區塊鏈的元宇宙方法,如數據采集、數據存儲、數據共享、數據互操作性和數據隱私保護等。對于每個透視圖,我們首先討論元宇宙的技術挑戰,然后強調區塊鏈可以如何提供幫助。此外,我們還研究了區塊鏈對元宇宙中關鍵支持技術的影響,包括物聯網、數字孿生、多感官和沉浸式應用、人工智能和大數據。我們還介紹了一些主要項目,以展示區塊鏈在元宇宙應用程序和服務中的作用。最后,我們提出了一些有前景的方向,以推動進一步的研究創新和發展,以在未來的元宇宙中使用區塊鏈。
引言
元宇宙是數字進化的下一個階段,它可以以驚人的水平革新數字應用,并將服務領域擴展到標準的在線訪問系統之外。在過去的幾十年里,服務數字化已經成為提高商業、娛樂、教育或任何其他可以與在線訪問相結合的系統效率的趨勢。通過遠程數據中心和云平臺的數字系統和在線存儲/處理設施,這些服務和系統得到了最大限度的改進。隨著服務訪問的效率、性能和質量達到其最大潛力,視角已經轉向消費者體驗。因此,對改善服務體驗、增加互動能力的需求不斷增加,服務供應商也熱衷于將現有的服務標準提升到下一個水平。事實上,消費者對數字界面的觸覺和沉浸感的需求,只有在新興的虛擬現實(VR)、增強現實(AR)、混合現實(MR)和擴展現實(XR)[1]技術中才能實現。元宇宙是將所有這些相關技術合并到一起的解決方案。這一概念為它的消費者創造了一個模擬的數字化環境,可以作為身臨其境的虛擬世界。用戶可以通過他們的數字化身與這個虛擬生態系統進行交互,遵循二元性原則[2]。具體來說,化身是用戶的虛擬化身,在元宇宙中具有與在現實世界中的合法權利相同的法律權威; 這使得虛擬角色可以在虛擬域中進行任何交易,并限制拒絕任何承諾的行為。任何擁有支持VR/ AR的沉浸式設備的人都可以獲得訪問權限,例如在最低功能[3]下的耳機或玻璃。相反,像Teslasuit或Holosuit這樣的全身觸覺緊身衣,能夠跟蹤動作、提取觸覺反饋以及先進的生物識別技術,將身臨其境的體驗發揮到極致。
盡管元宇宙正在開發中,并打算擴大社交媒體的能力范圍,但它對其他工業、商業、社會、教育、醫療、軍事和政府部門的潛力是巨大的。缺乏身臨其境的體驗是在線遠程訪問和控制系統的一個眾所周知的缺點。特別是在控制監控和數據采集(SCADA)或基于可編程邏輯控制器(PLC)的遠程自動化系統[4]、服裝、商業地產或建筑感知、理解醫學/工程/或建筑教育中的三維(3D)可視化等方面,遙控無人駕駛的航空/海軍/或地面船只,體驗二維以外的數字娛樂是需要更多創新的領域。盡管AR和VR技術為這些領域提供了獨立的解決方案,但缺乏一個一體化的平臺或環境來組合這些工具。元宇宙向世界提供了這個數字生態系統,并廣泛開放了不可估量的可能性范圍。數字孿生(DTs)的概念使機器或車輛的遠程操作和控制具有更好的可視化和協調性,有利于工業和軍事部門[5]。三維可視化正在引導更好的準確性和上下文的理解,這有利于教育和娛樂應用。此外,基于AR的遠程機器人控制、基于AR的遠程手術等新指令也可以通過元宇宙平臺[6]實現。此外,加密貨幣[7]、數字生物識別技術[8]、可解釋人工智能(XAI)[9]等概念在現實世界中實施時面臨不可避免的挑戰;與現有系統的集成、兼容性、互操作性、法律和倫理差異等問題。由于元宇宙是一個新構建的世界,在設計階段實施這些策略將允許用戶在安全和隱私方面得到更多的保證,并增強服務體驗。
雖然元宇宙是作為未來數字擴張的靈丹妙藥而產生的,但它也存在著挑戰和實際問題。最關鍵的問題是缺乏可服務的數字基礎設施,以提供有保障的服務和具有屬性處理和網絡能力的應用程序。即使存在這樣的基礎設施,提供設想規格所需的接入技術也只有在新興的5G移動技術中才可行,而5G移動技術仍處于試驗階段,尚未在全球部署。在啟動元宇宙之前,需要理解和標準化虛擬世界和物理世界之間的兼容性和互操作性。很明顯,考慮到它與社交媒體主干的潛力和可擴展性,即使在元宇宙引擎上擁有強大的處理能力,資源可能也不足以滿足需求。因此,必須采用最優的處理和操作策略,以降低處理、存儲、網絡和財務方面的成本。這種策略只有通過基于自動化人工智能的方法才能實現,需要更多的同化和研究。因為要想進入元宇宙,至少需要戴上耳機或AR眼鏡,個人投資越高,它就會成為一種特權服務,而不是對所有人開放的系統。此外,用戶的安全和隱私是必要的方面,在現實世界中可能存在的某些隱私法律可能在虛擬領域中不起作用,而在現實世界中突出的生物特征可以在數字領域中復制。因此,在實用主義環境中部署元宇宙需要更多的研究和適當的標準化。
XR顯然是元宇宙開發所需的一項技術,當前的AR和MR技術應該改進到提倡虛擬實體完全集成到超現實的水平,并提高其無所不在的程度。如前所述,人工智能在自動化元宇宙生態系統、將完全控制權交給數字治理方面發揮著關鍵作用。人工智能的參與將進一步確保生產消費者的數字資產和內容安全,這是受他們的化身限制的。現有的計算視覺處理應通過AI集成來增強3D圖像處理,同時可以改進圖像/視頻/3D渲染技術來加速視覺數據和遙測數據的查詢處理。應該在設計階段采用XAI實踐,以確保兼容性的全局遵從性。由于現有的基于云計算的存儲和處理基礎設施缺乏托管元空間應用所需的網絡能力,邊緣計算是一種新興的范式,必須啟動它,因為它的近似性質,可以提高訪問容量以及上下文和位置感知功能。此外,還可以使用網絡切片來組織和構造[2]中給出的八個使能器之間的元宇宙程序。
與比特幣一起推出的區塊鏈,因其獨特的能力形成共享經濟而出名,并奠定了現有數字貨幣市場的基礎。區塊鏈被認為是一項突破性的安全和隱私保護技術[10]。簡單地說,區塊鏈是一個分類帳,存儲已提交的交易,以方便在商業網絡中追蹤數字資產并確保其安全。這些交易或記錄被存儲為塊,使用加密措施或精確的哈希機制連接在一起,確保分類賬的不可變性,并在不安全的環境中支持安全的共享能力。區塊鏈最顯著的特點是,它能夠在不需要集中權限[11]的情況下,對分散的分類賬內容進行操作。由于區塊鏈采用工作證明作為共識機制,該方法本身認為更安全,更適合電商平臺。在元宇宙的背景下,區塊鏈是相關的推動者,旨在對數字生態系統實施問責制。對區塊鏈的需求迫在眉睫,保護所有元空間用戶擁有的數字內容是其主要目的。元宇宙生態系統依賴于區塊鏈來計算其內容和交易,以確保用戶的完整性、隱私和聲譽。
** 區塊鏈在元宇宙中應用**
將區塊鏈和AI融合在一起進行元宇宙開發的想法在[11]中作為一項綜述提出。本文通過由數據層、網絡層、共識層、激勵層、契約層和應用層組成的分層體系結構,討論了元宇宙和區塊鏈之間的潛在關聯。雖然作者提出了四個支持區塊鏈的應用,但他們主要關注區塊鏈的商業應用。區塊鏈和AI對元宇宙的貢獻在[13]中提出,其中對處理和重用高質量/豐富數據、穩定分散網絡、數據隱私和處理經濟相關數據進行了簡要討論。此外,有很多研究[14]-[16]都將區塊鏈作為元宇宙的必要條件,但沒有進行嚴格的討論。表一強調了本文的貢獻。據我們所知,還沒有一項研究討論了區塊鏈在元宇宙應用中的應用。因此,我們的研究提出了區塊鏈集成將提高其效率的元宇宙的各種潛在應用,以及區塊鏈對實現技術的影響。 **本綜述的主要貢獻如下: **
首先,我們簡要介紹了區塊鏈和元宇宙,然后介紹了在元宇宙中集成區塊鏈的動機。
其次,我們討論了區塊鏈的應用,以解決元宇宙的幾個技術方面所面臨的挑戰,包括數據采集、數據存儲、數據共享、數據互操作性和數據隱私保護。
第三,我們討論了區塊鏈對元空間中的一些關鍵實現技術的影響,如物聯網、數字孿生、多感官XR和全息臨場呈現、人工智能和大數據。
第四,我們討論了一些有趣的項目,如Decentraland、Sandbox、axi Infinity和Illuvium,它們在元宇宙中利用了區塊鏈。
最后,我們總結了本文的一些潛在的未來研究方向。
【導讀】國際人工智能會議AAAI 2022論文將在全程線上舉辦,時間在 2 月 22 日-3 月 1 日,本屆大會也將是第 36 屆 AAAI 大會。大會涵蓋了眾多最近研究Tutorial報告,來自Punyajoy Saha等學者共同做了關于仇恨言論檢測的進展報告,非常值得關注!
像Twitter和Facebook這樣的社交媒體網站已經連接了數十億人,并給了用戶即時分享他們的想法和意見的機會。話雖如此,網絡騷擾、網絡噴子、網絡欺凌、假新聞和仇恨言論也會帶來一些不良后果。除此之外,仇恨言論是一種獨特的挑戰,因為它深深刻在我們的社會中,而且常常與線下暴力聯系在一起。社交媒體平臺依靠當地審查員來識別仇恨言論并采取必要行動,但隨著社交媒體上此類內容的大量增加,許多人開始轉向自動仇恨言論檢測和緩解系統。這種轉變給計算社會科學界帶來了一些挑戰,因此,這是一個重要的探索途徑。
地址:
摘要
預訓練語言模型(Pretrained Language Models, PLM)通過在大規模文本語料庫上學習信息語境化表示,建立了一種新的范式。這種新的范式已經徹底改變了整個自然語言處理領域,并為各種NLP任務設置了新的最先進的性能。然而,盡管PLM可以從訓練語料庫中存儲一定的知識/事實,但它們的知識意識還遠遠不能令人滿意。為了解決這個問題,將知識集成到PLM中已經成為一個非常活躍的研究領域,并且已經開發了各種各樣的方法。在本文中,我們對這一新興和快速發展的領域-知識增強的預訓練語言模型(KE-PLMs)提供了一個全面的文獻綜述。我們引入三種分類法來對現有工作進行分類。此外,我們還調研了各種NLU和NLG應用,在這些應用上,KE-PLM表現出了優于普通PLM的性能。最后,討論了KE-PLMs面臨的挑戰和未來的研究方向。
引言
近年來,大規模預訓練語言模型(大規模預訓練語言模型,簡稱PLM)給自然語言處理領域帶來了革命性的變化。預先訓練的模型如BERT [16], RoBERTa [50], GPT2/3[68][7]和T5[69]獲得了巨大的成功,極大地提升了各種NLP應用的最先進性能[67]。前訓練在NLP中的廣泛成功也啟發了自我監督前訓練在其他領域的應用,如圖表示學習[30][31]和推薦系統[81][98]。對大量文本數據的訓練也使這些plm能夠記住訓練語料庫中包含的某些事實和知識。最近的研究表明,這些經過訓練的語言模型可以擁有相當數量的詞匯知識[48][92]和事實知識[63][71][95]。然而,進一步的研究發現,PLM在知識意識方面也存在以下局限性:
對于NLU來說,最近的研究發現PLM傾向于依賴于表面信號/統計線索[62][55][58],并且很容易被否定的信息(例如,“Birds can [MASK]”vs .“Birds cannot [MASK]”)和錯誤啟動的探針[35]所愚弄。此外,已有研究發現,PLM在推理任務中往往會失敗[84]。
對于NLG,盡管PLM能夠生成語法正確的句子,但生成的文本可能不符合邏輯或不合理。例如,在[46]中提到,給定一組概念{dog, frisbee, catch, throw}, GPT2生成“a dog throw a frisbee at a football player”和T5生成“dog catch a frisbee and throw it to a dog”,這兩者都不符合人類的常識。
這些觀察結果促使人們設計更有知識意識的預訓練模型。最近,越來越多的研究致力于明確地將知識納入PLMs[100][108][61][90][96][49][33]。他們利用百科知識、常識知識和語言知識等多種來源,采用不同的注入策略。這種知識集成機制成功地增強了現有PLM的知識意識,提高了包括但不限于實體輸入[100]、問題回答[101][45]、故事生成[22]和知識圖完成[102]在內的各種任務的性能。
本文旨在對這一新興領域的知識增強預訓練語言模型(KE-PLMs)進行全面綜述。現有的KE-PLMs工作已經開發了一套不同的技術,用于在不同的知識來源上進行知識集成。為了深入了解這些模型并促進未來的研究,我們構建了三種分類法來對現有的KE-PLMs進行分類。圖1說明了我們提出的關于知識增強預訓練語言模型(KE-PLMs)的分類法。在現有的KE-PLMs中,已經探索了不同類型的知識來源(如語言學、常識、百科全書、特定應用),以增強PLMs在不同方面的能力。第一種分類法幫助我們理解在構建KE-PLMs時考慮了哪些知識來源。在第二種分類法中,我們認識到一個知識源可以被不同程度地利用,并基于知識粒度對已有的工作進行分類: 基于文本塊、基于實體、基于關系三元和基于子圖。最后,我們介紹了第三種分類法,它根據方法的應用領域對它們進行分組。這種分類法展示了現有的KE-PLMs在知識集成的幫助下旨在改進的一系列應用。通過認識到哪些應用領域已經被KE-PLMs很好地解決了,我們相信這將為未來將KE-PLMs應用于未解決領域的研究機會提供支持。
知識表示和推理是人工智能挑戰的核心: 要充分理解智能和認知的本質,使計算機能夠表現出類似人類的能力。早在1958年,約翰·麥卡錫(John McCarthy)就考慮過可以運用常識的人工智能系統。從這些早期工作中,研究人員確信(人工)智能可以被形式化為具有明確知識表征的符號推理,而研究的核心挑戰是弄清楚如何在計算機中表示知識,并使用它的算法來解決問題。
多年以后,這本書調研了構成知識表示和推理領域的大量科學和工程見解。在三個方面取得了進展。首先,研究人員探索了知識表示和推理的一般方法,解決了跨越應用領域的基本問題。其次,研究人員開發了專門的知識表示和推理方法來處理核心領域,如時間、空間、因果關系和行動。第三,研究人員處理了知識表示和推理的重要應用,包括查詢回答、規劃和語義網。因此,本書分為三個部分來涵蓋這些主題。
//www.elsevier.com/books/handbook-of-knowledge-representation/van-harmelen/978-0-444-52211-5
第一部分主要介紹人工智能系統中表示知識的一般方法。它從經典邏輯和定理證明的背景開始,然后轉向擴展經典邏輯的新方法——例如,處理定性的或不確定的信息——并改進其計算可處理性。
第二部分探討了用知識的一些核心領域(包括時間、空間、因果關系和行動)來表示和推理的特殊挑戰。這些挑戰在應用程序領域中普遍存在,因此解決方案必須是通用的和可組合的。
第三部分介紹了知識表示和推理的重要應用。應用領域涵蓋了人工智能的廣度,包括問題回答、語義網、計劃、機器人和多智能體系統。每一項應用都廣泛借鑒了第一部分和第二部分中所述的研究結果。
此外,這25章,組織在三個部分“一般方法”,“專門的表示和“應用”,提供了一個獨特的調研,最好的知識表示已經取得,由幫助塑造領域的研究人員寫。我們希望學生,研究人員和從業者在所有領域的人工智能和認知科學將發現這本書是一個有用的資源。
主題: Deep Natural Language Processing for Search Systems
簡介: 搜索引擎處理豐富的自然語言數據,如用戶查詢和記錄。提高搜索質量需要有效地處理和理解這類信息,通常使用自然語言處理技術。作為搜索系統中的代表性數據格式,查詢或記錄數據被表示為單詞序列。在傳統方法中,理解這樣的序列信息通常是一項非常重要的任務,面臨著來自數據稀疏性和數據泛化的挑戰。深度學習模型提供了一個有效提取有代表性的相關信息的機會,從而更好地理解復雜的語義和潛在的搜索意圖。近年來,深度學習在各種自然語言處理任務中取得了顯著的進步,顯示出其在促進搜索系統方面的巨大潛力。
然而,開發搜索系統中自然語言處理的深度學習模型不可避免地需要滿足復雜的搜索引擎生態系統的要求。例如,一些系統需要頻繁的模型更新,所以冗長的模型訓練時間是不容許的。此外,低服務延遲約束禁止使用復雜模型。如何以相對較低的復雜度保持模型質量是深度學習從業者面臨的持續挑戰。
在本教程中,作者總結了當前在搜索系統中自然語言處理的深度學習工作,首先概述了搜索系統和搜索中的自然語言處理,然后介紹了自然語言處理的深度學習的基本概念,并介紹了如何將深度自然語言處理應用于搜索系統的實踐。本教程全面概述了通過端到端搜索系統在上述組件中應用深度自然語言處理技術。除了傳統的搜索引擎,還包括一些高級搜索系統的用例,如對話搜索和面向任務的聊天機器人。我們還強調了幾個重要的未來趨勢,比如通過查詢生成與用戶交互,以及減少延遲以滿足行業標準。