亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

摘要

科學研究的一個基本目標是了解因果關系。然而,盡管因果關系在生命和社會科學中發揮著關鍵作用,但在自然語言處理(NLP)中卻沒有同等的重要性,后者傳統上更重視預測任務。隨著因果推理和語言處理融合的跨學科研究的興起,這種區別正開始消失。然而,關于NLP中因果關系的研究仍然分散在各個領域,沒有統一的定義、基準數據集和對剩余挑戰的清晰表述。在這項綜述中,我們鞏固了跨學術領域的研究,并將其置于更廣闊的NLP景觀中。我們介紹了估計因果效應的統計挑戰,包括文本作為結果、治療或解決混淆的手段的設置。此外,我們還探討了因果推理的潛在用途,以改善NLP模型的性能、魯棒性、公平性和可解釋性。因此,我們為計算語言學界提供了一個統一的因果推理概述。

引言

許多科學領域對將融入文本為數據越來越感興趣(例如,Roberts et al., 2014; Pryzant et al., 2017; Zhang et al., 2020a)。自然語言處理(NLP)研究人員可能不熟悉這些領域的一個關鍵特性,是強調因果推理,通常用于評估策略干預。例如,在推薦一種新的藥物治療之前,臨床醫生想知道這種藥物對疾病進展的因果關系。因果推理涉及到一個通過干預創造的反事實世界的問題:如果我們給病人用藥,他們的疾病進展會如何?正如我們下面所解釋的,在觀察數據中,因果關系并不等同于服用藥物的患者與其觀察到的疾病進展之間的相關性。現在有大量關于使用傳統(非文本)數據集進行有效推理的技術的文獻(例如,Morgan and Winship, 2015),但將這些技術應用于自然語言數據提出了新的和基本的挑戰。

相反,在經典的NLP應用中,目標只是做出準確的預測:任何統計相關性通常都被認為是可接受的,不管潛在的因果關系是什么。然而,隨著NLP系統越來越多地部署在具有挑戰性和高風險的場景中,我們不能依賴通常的假設,即訓練和測試數據是相同分布的,我們可能不會滿足于無法解釋的黑箱預測器。對于這兩個問題,因果關系提供了一條有希望的前進道路: 數據生成過程中因果結構的領域知識可以提示歸納偏差,導致更魯棒的預測器,而預測器本身的因果視圖可以提供關于其內部工作的新見解。

這篇調查論文的核心主張是,探究因果關系和NLP之間的聯系,有可能推進社會科學和NLP研究者的目標。我們將因果關系和自然語言處理的交集分為兩個不同的領域: 從文本中估計因果效應,以及使用因果形式主義使自然語言處理方法更可靠。我們將用兩個例子來說明這種區別。

NLP幫助因果關系。文本數據的因果推理涉及幾個不同于典型因果推理設置的挑戰:文本是高維的,需要復雜的建模來衡量語義上有意義的因素,如主題,并需要仔細思考,以形式化因果問題對應的干預。從主題模型到上下文嵌入,自然語言處理在建模語言方面的發展為從文本中提取所需信息以估計因果效應提供了有前景的方法。然而,我們需要新的假設,以確保使用NLP方法導致有效的因果推理。我們將在第3節討論從文本中估計因果效應的現有研究,并強調這些挑戰和機遇。

因果關系可以幫助NLP。為了解決NLP方法帶來的穩健性和可解釋性挑戰,我們需要新的標準來學習超越利用相關性的模型。例如,我們希望預測器對于我們對文本所做的某些更改是不變的,例如在保持ground truth標簽不變的情況下更改格式。利用因果關系來發展新的準則,為建立可靠的、可解釋的自然語言處理方法提供服務,這是相當有希望的。與文本因果推理的研究領域相比,因果關系和NLP研究的這一領域較少被理解,盡管最近的經驗成功很好地推動了這一領域的研究。在第4節中,我們涵蓋了現有的研究,并回顧了使用因果關系來改進自然語言處理的挑戰和機遇。

該論文調研了文本數據在因果推理中的作用(Egami et al., 2018; Keith et al., 2020)。在本文中,我們采取了一個更廣泛的視角,將因果關系和自然語言處理的交集分為兩個截然不同的研究線,即估計因果效應和因果驅動的自然語言處理方法。在閱讀了本文之后,我們設想讀者將對以下內容有一個廣泛的理解:

  • 使用文本數據和NLP方法所特有的統計和因果挑戰;
  • 在評估文本效果和應用因果關系來
  • 改進NLP方法方面的開放問題。
付費5元查看完整內容

相關內容

自然語言處理(NLP)是語言學,計算機科學,信息工程和人工智能的一個子領域,與計算機和人類(自然)語言之間的相互作用有關,尤其是如何對計算機進行編程以處理和分析大量自然語言數據 。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

人工智能已應用于藥物設計的各種方面,如藥物-蛋白質相互作用預測、藥物療效的發現、確保安全性生物標志物。本綜述提供了在藥物開發的各個階段通過ML工具和技術發現藥物的可行文獻,以加速研究過程,降低臨床試驗的風險和支出。機器學習技術改進了在不同應用中的藥物數據決策,如QSAR分析、hit發現、從頭藥物架構檢索準確的結果。在本綜述中,靶點驗證、預后生物標志物、數字病理學都被認為是存在問題的。ML挑戰必須適用于可解釋性結果不足的主要原因,這可能會限制藥物發現中的應用。在臨床試驗中,必須生成絕對數據和方法學數據,以解決在驗證ML技術、改進決策、提高ML方法的意識以及推斷藥物發現中的風險失敗方面的許多難題。 //pubmed.ncbi.nlm.nih.gov/34393317/

付費5元查看完整內容

在這個反事實和因果推理的第二版中,講述了反事實方法的基本特征,觀察數據分析來自社會,人口統計和健康科學的例子。首先介紹了使用潛在結果模型和因果圖的替代估計技術; 在此之后,條件調節技術,如匹配和回歸,從潛在結果的角度提出。在沒有觀察到重要的因果公開決定因素的研究情景中,然后提出了替代技術,如工具變量估計、縱向方法和通過因果機制的估計。本書強調了因果效應異質性的重要性,并討論了通過機制進行深度因果解釋的必要性。

在過去的三十年里,一個反事實的因果模型已經被開發出來,一個統一的框架起訴的因果問題現在是可用的。通過這本書,我們的目標是說服更多的社會科學家將這個模型應用到社會科學的核心經驗問題上。

在第2章介紹了反事實模型的主要部分之后,我們將在本書的第2部分介紹因果效應估計的條件反射技術。在第三章中,我們將使用因果圖來展示一個基本的條件作用框架。然后,在第4章和第5章,我們將解釋匹配和回歸估計量,說明它們是更一般條件作用方法的互補變量。在這本書的第三部分,我們將從因果效應估計的“容易”到“困難”的實例進行轉換,對于這種情況,簡單的條件作用是不夠的,因為決定因果公開的相關變量沒有被觀察到。在第6章介紹了一般性困境之后,我們將在第7章至第9章中介紹工具變量技術、基于機制的因果效應估計,以及使用超時數據來估計因果效應。最后,在第十章中,我們將總結一些反對反事實模型的意見。在本書的結尾,我們將對因果調研的互補模式進行廣泛的討論,這些模式包括觀察社會科學中的因果效應估計。在某種程度上,因為詳細的目錄已經給出了我們將在其余章節中呈現的材料的準確描述,我們在這里不提供一套詳細的章節摘要。相反,我們將用三個因果圖和它們所提出的因果效應估計策略來結束這一介紹性的章節。這些圖表使我們能夠預示許多具體的因果效應估計策略,我們將在后面介紹這些策略。因為本章的其余內容將在以后重新介紹和更全面地解釋(主要在第3、6和8章),所以現在可以跳過它,沒有任何后果。然而,我們在教學這一材料的經驗表明,在考慮觀察數據分析的反事實框架的細節之前,許多讀者可能受益于對基本估計技術的快速圖形介紹。

作者姓名: Stephen Morgan Christopher Winship

作者機構: 約翰霍普金斯大學 哈佛大學

圖書目錄 一、社會科學中的因果關系與實證研究 1 簡介 二、反事實、潛在結果和因果圖 2 反事實和潛在結果模型 3 因果圖 三、通過對觀察到的變量進行條件調節以阻止后門路徑來估計因果效應 4 因果暴露模型和識別標準 5 因果效應的匹配估計量 6 因果效應的回歸估計 7 因果效應的加權回歸估計 四、估計后門調節無效時的因果效應 8 自我選擇、異質性和因果圖 9 因果效應的工具變量估計量 10 機制與因果解釋 11 重復觀察和因果效應估計 五、當因果效應不是由可觀測點識別時的V估計 12 分布假設、集合識別和敏感性分析 六、結論 13 反事實與觀察社會科學實證研究的未來

付費5元查看完整內容

聯邦學習旨在在不犧牲本地數據隱私的情況下,從多個分散的邊緣設備(例如移動設備)或服務器中學習機器學習模型。最近的自然語言處理技術依賴于深度學習和大型預訓練語言模型。然而,大型深度神經模型和語言模型都是用大量數據訓練的,這些數據通常位于服務器端。由于文本數據廣泛來自最終用戶,在這項工作中,我們研究了最近使用聯邦學習作為學習框架的 NLP 模型和技術。我們的綜述討論了聯邦自然語言處理的主要挑戰,包括算法挑戰、系統挑戰以及隱私問題。我們還對現有的聯邦 NLP 評估方法和工具進行了嚴格審查。最后,我們強調了當前的研究差距和未來的方向。

//www.zhuanzhi.ai/paper/a7798d2845ab5942e6e095b0be202d08

付費5元查看完整內容

傳統的自然語言處理方法具有可解釋性,這些自然語言處理方法包括基于規則的方法、決策樹模型、隱馬爾可夫模型、邏輯回歸等,也被稱為白盒技術。近年來,以語言嵌入作為特征的深度學習模型(黑盒技術)不斷涌現,雖然這些方法在許多情況下顯著提高了模型的性能,但在另一方面這些方法使模型變得難以解釋。用戶難以了解數據經過怎樣的過程得到所期望的結果,進而產生許多問題,比如削弱了用戶與系統之間的交互(如聊天機器人、推薦系統等)。機器學習社區對可解釋性重要程度的認識日益增強,并創造了一個新興的領域,稱為可解釋人工智能(XAI)。而關于可解釋性有多種定義,大部分相關文章的論證也因此有所差異。這里我們關注的是可解釋人工智能給用戶提供關于模型如何得出結果的可解釋,也稱為結果解釋問題(outcome explanation problem)[1]。在可解釋人工智能中,解釋可以幫助用戶建立對基于NLP的人工智能系統的信任。本文依據前人的綜述[2]討論了可解釋的分類方式,介紹了能夠給出可解釋的技術及其具體操作,并簡要地描述了每一種技術及其代表性論文。

付費5元查看完整內容

近年來,機器學習取得了顯著進展,提供了一些新功能,比如創建復雜的、可計算的文本和圖像表示。這些功能催生了新產品,如基于圖像內容的圖像搜索、多種語言之間的自動翻譯,甚至是真實圖像和聲音的合成。同時,機器學習已經在企業中被廣泛采用,用于經典的用例(例如,預測客戶流失、貸款違約和制造設備故障)。

在機器學習取得成功的地方,它是非常成功的。

在許多情況下,這種成功可以歸因于對大量訓練數據的監督學習(結合大量計算)。總的來說,有監督的學習系統擅長于一項任務:預測。當目標是預測一個結果,并且我們有很多這個結果的例子,以及與它相關的特征時,我們可能會轉向監督學習。

隨著機器學習的普及,它在業務流程中的影響范圍已經從狹窄的預測擴展到決策制定。機器學習系統的結果經常被用來設定信用限額,預測制造設備故障,以及管理我們的各種新聞推送。當個人和企業試圖從這些復雜和非線性系統提供的信息中學習時,更多(和更好)的可解釋性方法已經被開發出來,這是非常重要的。

然而,僅僅基于預測的推理有一些基本的限制。例如,如果銀行提高客戶的信用額度會發生什么?這些問題不能用建立在先前觀察到的數據上的相關模型來回答,因為它們涉及到客戶選擇的可能變化,作為對信用限額變化的反應。在很多情況下,我們的決策過程的結果是一種干預——一種改變世界的行動。正如我們將在本報告中展示的,純粹相關的預測系統不具備在這種干預下進行推理的能力,因此容易產生偏差。對于干預下的數據決策,我們需要因果關系。

即使對于純粹的預測系統(這是監督學習的強項),應用一些因果思維也會帶來好處。根據因果關系的定義,它們是不變的,這意味著它們在不同的情況和環境中都是正確的。對于機器學習系統來說,這是一個非常理想的特性,在機器學習系統中,我們經常根據我們在訓練中沒有看到的數據進行預測;我們需要這些系統具有適應性和健壯性。

因果推理和機器學習的交集是一個迅速擴展的研究領域。它已經產生了可供主流采用的功能——這些功能可以幫助我們構建更健壯、可靠和公平的機器學習系統。

本書介紹了因果推理,因為它涉及很多數據科學和機器學習工作。我們引入因果圖,著重于消除理解的概念障礙。然后我們利用這個理解來探索關于不變預測的最新想法,它給高維問題帶來了因果圖的一些好處。通過附帶的原型,我們展示了即使是經典的機器學習問題,如圖像分類,也可以從因果推理工具中受益。

付費5元查看完整內容

因果推理是解釋性分析的強大建模工具,它可使當前的機器學習變得可解釋。如何將因果推理與機器學習相結合,開發可解釋人工智能(XAI)算法,是邁向人工智能2.0的關鍵步驟之一。為了將因果推理的知識帶給機器學習和人工智能領域的學者,我們邀請從事因果推理的研究人員,從因果推理的不同方面撰寫了本綜述。本綜述包括以下幾個部分:況琨博士的“平均因果效應評估——簡要回顧與展望”,李廉教授的“反事實推理的歸因問題”,耿直教授的“Yule-Simpson悖論和替代指標悖論”,徐雷教授的“因果發現CPT方法”,張坤教授的“從觀測數據中發現因果關系”,廖備水和黃華新教授的“形式論辯在因果推理和解釋中的作用”,丁鵬教授的“復雜實驗中的因果推斷”,苗旺教授的“觀察性研究中的工具變量和陰性對照方法”,蔣智超博士的“有干擾下的因果推斷”。

//www.engineering.org.cn/ch/10.1016/j.eng.2019.08.016

付費5元查看完整內容

在一個常見的機器學習問題中,使用對訓練數據集估計的模型,根據觀察到的特征預測未來的結果值。當測試數據和訓練數據來自相同的分布時,許多學習算法被提出并證明是成功的。然而,對于給定的訓練數據分布,性能最好的模型通常會利用特征之間微妙的統計關系,這使得它們在應用于分布與訓練數據不同的測試數據時,可能更容易出現預測錯誤。對于學術研究和實際應用來說,如何開發能夠穩定和穩健地轉換數據的學習模型是至關重要的。

因果推理是指根據效果發生的條件得出因果關系的結論的過程,是一種強大的統計建模工具,用于解釋和穩定學習。本教程側重于因果推理和穩定學習,旨在從觀察數據中探索因果知識,提高機器學習算法的可解釋性和穩定性。首先,我們將介紹因果推論,并介紹一些最近的數據驅動方法,以估計因果效應從觀測數據,特別是在高維設置。為了彌補因果推理和機器學習之間的差距,我們首先給出了穩定性和魯棒性學習算法的定義,然后將介紹一些最近的穩定學習算法來提高預測的穩定性和可解釋性。最后,我們將討論穩定學習的應用和未來的發展方向,并提供穩定學習的基準。

//kdd2020tutorial.thumedialab.com/

付費5元查看完整內容

題目: Causal Inference and Stable Learning

簡介:

在一個常見的機器學習問題中,使用一個根據訓練數據集估計的模型,根據觀察到的特征來預測未來的結果值。當測試數據和訓練數據來自相同的分布時,許多學習算法被提出并證明是成功的。然而,對于給定的訓練數據分布,性能最好的模型通常利用特征之間微妙的統計關系,這使得它們在應用于測試數據時更容易出現預測錯誤,因為測試數據的分布與訓練數據的分布不同。對于學術研究和實際應用來說,如何建立穩定、可靠的學習模型是至關重要的。因果推理是一種強大的統計建模工具,用于解釋和穩定的學習。因果推理是指基于某一效應發生的條件,對某一因果關系做出結論的過程。在本教程中,我們將重點討論因果推理和穩定學習,旨在從觀察數據中探索因果知識,以提高機器學習算法的可解釋性和穩定性。首先,我們將介紹因果推理,并介紹一些最近的數據驅動的方法來估計因果效應的觀測數據,特別是在高維設置。摘要為了彌補因果推理與機器學習在穩定學習上的差距,我們首先給出了學習算法的穩定性和魯棒性的定義,然后介紹了一些最近出現的穩定學習算法,以提高預測的穩定性和可解釋性。最后,我們將討論穩定學習的應用和未來方向,并為穩定學習提供基準。

邀請嘉賓:

張潼,香港科技大學計算機科學與數學教授。此前,他是羅格斯大學(Rutgers university)教授,曾在IBM、雅虎(Yahoo)、百度和騰訊(Tencent)工作。張潼的研究興趣包括機器學習算法和理論、大數據統計方法及其應用。他是ASA和IMS的研究員,曾在主要機器學習期刊的編委會和頂級機器學習會議的項目委員會任職。張潼在康奈爾大學獲得數學和計算機科學學士學位,在斯坦福大學獲得計算機科學博士學位。

崔鵬,清華大學計算機系長聘副教授,博士生導師。2010年于清華大學計算機系獲得博士學位。研究興趣包括社會動力學建模、大規模網絡表征學習以及大數據驅動的因果推理和穩定預測。近5年在數據挖掘及人工智能領域高水平會議和期刊發表論文60余篇,曾5次獲得頂級國際會議或期刊論文獎,并先后兩次入選數據挖掘領域頂級國際會議KDD最佳論文專刊。目前擔任IEEE TKDE、ACM TOMM、ACM TIST、IEEE TBD等國際期刊編委。曾獲得國家自然科學二等獎、教育部自然科學一等獎、電子學會自然科學一等獎、CCF-IEEE CS青年科學家獎、ACM中國新星獎。入選中組部萬人計劃青年拔尖人才,并當選中國科協全國委員會委員。

付費5元查看完整內容
北京阿比特科技有限公司