亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

強化學習是解決不確定序貫決策問題的一種重要方法。盡管近幾十年來取得了許多顯著的成就,但在現實世界中應用強化學習方法仍然具有挑戰性。其中一個主要障礙是強化學習智能體缺乏對世界的共同知識,因此必須通過大量的交互從頭開始學習。他們也可能很難解釋他們的決策和泛化學到的知識。另一方面,因果關系在形式化知識和利用結構不變性進行有效的知識轉移方面具有明顯的優勢。這導致了因果強化學習的出現,這是強化學習的一個子領域,旨在使用數據生成過程的結構化和可解釋表示來改進現有算法**。本文全面回顧了因果強化學習的文獻。首先介紹因果關系和強化學習的基本概念,然后解釋因果建模如何解決非因果強化學習中的核心挑戰。本文根據現有因果強化學習方法的目標問題和方法,對其進行了分類和系統回顧。**最后,對該新興領域存在的問題和未來發展方向進行了展望。

//openreview.net/forum?id=iATMbh8mhD&referrer=%5BTMLR%5D(%2Fgroup%3Fid%3DTMLR)

**1. 引言****人類從小就有一種與生俱來的能力來理解因果關系(Wellman, 1992;Inagaki & Hatano, 1993;Koslowski & Masnick, 2002;Sobel & Sommerville, 2010)。**這種程度的理解讓我們意識到改變某些事情可以導致其他事情的發生;因此,我們可以積極地干預我們的環境,以實現預期的目標或獲取新知識。理解因果關系使我們能夠解釋行為(Schult & Wellman, 1997),預測未來(Shultz, 1982),甚至可以進行反事實推理來反思過去的事件(Harris et al., 1996)。這些能力是人類智力發展所必需的,是現代社會和文明的基礎,也是推動科學技術進步的基礎。例如,考慮人類與壞血病斗爭的故事,如圖1所示(Pearl & Mackenzie, 2018年)。壞血病曾經阻礙了人類對世界的探索,奪走了大約200萬水手的生命。經過長期的探索,人類發現食用柑橘類水果可以預防這種可怕的疾病。今天,我們知道壞血病的真正原因是缺乏維生素C,但在當時,這種因果機制尚不清楚。人們最初認為酸性可以治愈這種疾病。然而,加熱果汁凈化破壞了維生素C的含量,使它對壞血病無效。當時人們認為酸性只是一種安慰劑,而腐爛的肉才是致病的原因。這個錯誤的判斷給斯科特的南極探險造成了重大損失。只有當人們完全了解了壞血病的因果關系后,才發現了對抗這種疾病的有效方法。這個例子展示了在決策中理解因果關系的重要性以及忽略它的潛在災難性后果。

**數據本身不能回答因果問題。理解因果關系涉及對數據生成過程進行假設和測試。**數據驅動的機器學習可以有效地捕捉柑橘類水果和壞血病之間的相關性,但無法處理因果關系。例如,如果在壞血病預測問題中,我們將柑橘類水果替換為動物肝臟(也富含維生素C),由于外觀和味道的顯著差異,算法可能會給出錯誤的預測。因果機器學習(Sch?lkopf et al., 2021;Kaddour et al., 2022)是為了解決這一缺陷而開發的。近年來,因果關系與機器學習的結合受到了廣泛關注,并被應用于各個領域,包括計算機視覺(Lopez-Paz et al., 2017;沈等,2018;Tang等人,2020;Wang et al., 2020b),自然語言處理(Wu et al., 2021;Jin等人,2021;Feder等人,2022)和推薦系統(Zheng等人,2021;Zhang et al., 2021b;Gao等人,2022年)。這些結果表明,因果建模顯著提高了學習系統的分布魯棒性和知識遷移能力。

**與其他機器學習范式不同,強化學習(RL) (Sutton & Barto, 2018)涉及對環境進行干預,以主動收集訓練數據;從這個意義上說,RL與因果關系自然相關。**然而,在大多數研究中,智能體只允許干預行動變量,很難完全理解因果關系。這種困難在離線和離線設置中進一步加劇。在強化學習中,智能體旨在獲得高回報的數據;因此,他們通過試錯不斷改進他們的策略。在這個動態過程中,環境通過從當前狀態轉移到新狀態并返回標量獎勵(或懲罰)來響應智能體的行動。狀態轉移和獎勵分配都是因果關系;例如,維生素C缺乏(當前狀態)會導致壞血病(下一狀態),反之則不會。其他環境因素,如食物的味道和外觀,不影響這種轉變。為了避免受到非因果相關性的困擾,智能體必須捕獲驅動底層數據生成過程的因果關系;否則,它將學習效率低下,甚至陷入次優策略。

**許多研究人員研究了將因果知識與強化學習結合的原則性方法。最流行的是使用因果圖(Glymour et al., 2016),這是因果知識的一種定性形式。**因果圖可用于表示不區分每個維度含義的高層、粗粒度數據生成過程,例如標準的馬爾可夫決策過程(MDP)。同時,因果圖還可以傳達低層次、細粒度的因果知識,如根據因果關系將狀態分解為多個變量。此外,因果知識可以根據結構因果模型(SCM)框架進行定量表示(Pearl, 2009a;b),我們將在第2節中進一步解釋。SCM認為數據生成過程是一個有序的方程集合,這些方程以結構化的方式生成數據。正如我們稍后在第4節中演示的那樣,配備SCM的強化學習智能體可以直接生成數據,而不與實際環境交互,實現反事實數據增強和策略評估。

**本文對因果強化學習的綜述提出了該領域的全面概述,在SCM框架內與現有研究保持一致。**本文通過回答三個基本問題來介紹因果強化學習:什么是因果強化學習?為什么需要研究它?因果模型如何改進現有的強化學習方法?本文還對因果關系研究和強化學習的基本概念進行了清晰和簡潔的概述。據我們所知,這是現有強化學習文獻中第一次對因果強化學習的全面綜述。

**確定了強化學習中的瓶頸問題,這些問題可以通過因果建模的方式解決或改進。**進一步提出了一種面向問題的分類方法。這種分類法將幫助強化學習研究人員更深入地了解因果建模的優勢和進一步研究的機會。另一方面,強化學習實踐者也可以通過確定他們面臨的挑戰的解決方案,從這項綜述中受益。根據現有的技術和設置,對現有的因果強化學習研究進行了比較和分析。

**強調了因果強化學習中未解決的主要問題和有希望的研究方向,如理論進展、基準和特定的學習范式。**這些研究主題在未來幾年將變得越來越重要,并將有助于推進RL在現實世界應用中的使用。因此,在這一新興領域中,有一個共同的基礎來討論這些有價值的想法是至關重要的,并將促進其持續發展和成功。

付費5元查看完整內容

相關內容

雖然強化學習(RL)在許多領域的連續決策問題上取得了巨大的成功,但它仍然面臨著數據效率低下和缺乏可解釋性的關鍵挑戰。有趣的是,近年來,許多研究人員利用因果關系文獻的見解,提出了大量統一因果關系優點的著作,并很好地解決了RL帶來的挑戰。因此,整理這些因果強化學習(CRL)著作,回顧CRL方法,研究因果強化學習的潛在功能是非常必要和有意義的。**特別是,我們根據現有CRL方法是否預先給出基于因果關系的信息,將其分為兩類。我們從不同模型的形式化方面進一步分析了每個類別,包括馬爾可夫決策過程(MDP)、部分觀察馬爾可夫決策過程(POMDP)、多臂賭博機(MAB)和動態處理制度(DTR)。**此外,我們總結了評估矩陣和開源,同時我們討論了新興的應用程序。

//www.zhuanzhi.ai/paper/2831beac5d3d0e0e8a42fa338f171c62

強化學習(RL)是智能體在[1]-[3]環境中學習最大化期望獎勵的策略(從狀態到動作的映射函數)的通用框架。當智能體與環境交互時,它試圖通過試錯方案來解決序列決策問題。由于其在性能上的顯著成功,已在各種真實世界應用中得到快速開發和部署,包括游戲[4]-[6]、機器人控制[7]、[8],以及推薦系統[9]、[10]等,受到不同學科研究人員的越來越多的關注。

然而,強化學習仍有一些關鍵挑戰需要解決。例如,**(一)數據效率低下。以前的方法大多需要交互數據,而在現實世界中,例如在醫療或醫療健康[11]中,只有少量記錄數據可用,這主要是由于昂貴、不道德或困難的收集過程。(二)缺乏可解釋性。**現有的方法往往通過深度神經網絡將強化學習問題形式化,將序列數據作為輸入,策略作為輸出,屬于黑盒理論。它們很難揭示數據背后的狀態、動作或獎勵之間的內部關系,也很難提供關于策略特征的直覺。這種挑戰將阻礙其在工業工程中的實際應用。有趣的是,因果關系可能在處理上述強化學習[12],[13]的挑戰中發揮著不可或缺的作用。因果關系考慮兩個基本問題[14]:(1)因果關系的合法推斷需要什么經驗證據?利用證據發現因果關系的過程簡稱為因果發現。(2)給定一個現象的公認的因果信息,我們可以從這些信息中得出什么推論,如何推斷?這種推斷因果效果或其他利益的過程稱為因果推斷。因果關系可以授權智能體進行干預或通過因果階梯進行反事實推理,放松了對大量訓練數據的要求;它還能夠描述世界模型,可能為智能體如何與環境交互提供可解釋性。

**在過去的幾十年里,因果學習和強化學習各自取得了巨大的理論和技術發展,而它們本可以相互融合。**Bareinboim[15]通過將它們放在相同的概念和理論框架下,開發了一個名為因果強化學習的統一框架,并提供了一個在線介紹教程;Lu[16]受當前醫療健康和醫學發展的啟發,將因果強化學習與強化學習相結合,引入因果強化學習并強調其潛在的適用性。近年來,一系列與因果強化學習相關的研究相繼提出,需要對其發展和應用進行全面的綜述。本文致力于為讀者提供關于因果強化學習的概念、類別和實際問題的良好知識。 盡管已有相關綜述,如Grimbly等人對[17]因果多智能體強化學習進行了綜述;Bannon等人,[18]關于批量強化學習中的因果效應估計和策略外評估,本文考慮了但不限于多智能體或策略外評估的情況。最近,Kaddour等人,[19]在arXiv上上傳了一篇關于因果機器學習的綜述,其中包括一章關于因果強化學習的內容。他們根據因果關系可以帶來的不同強化學習問題總結了一些方法,例如因果匪類、基于模型的強化學習、off-policy策略評估等。這種分類方法可能不完整或不完整,從而遺漏了其他一些強化學習問題,例如多智能體強化學習[18]。本文只是但完整地為這些因果強化學習方法構建了一個分類框架。我們對這份調研綜述的貢獻如下:

**本文正式定義了因果強化學習,并首次從因果性的角度將現有方法分為兩類。**第一類是基于先驗因果信息,通常這樣的方法假設關于環境或任務的因果結構是由專家給出的先驗信息,而第二類是基于未知的因果信息,其中相對的因果信息必須為策略學習。對每個類別上的當前方法進行了全面的回顧,并有系統的描述(和草圖)。針對第一類,CRL方法充分利用了策略學習中的先驗因果信息,以提高樣本效率、因果解釋能力或泛化能力。對于因果信息未知的CRL,這些方法通常包含因果信息學習和策略學習兩個階段,迭代或依次進行。進一步分析和討論了CRL的應用、評估指標、開源以及未來方向。

因果強化學習

定義18(因果強化學習,CRL): CRL是一套算法,旨在將因果知識嵌入到RL中,以實現更高效的模型學習、策略評估或策略優化。它被形式化為元組(M, G),其中M代表RL模型設置,如MDP、POMDP、MAB等,G代表關于環境或任務的基于因果的信息,如因果結構、因果表示或特征、潛在混雜因素等。

根據因果信息是否由經驗提供,因果強化學習方法大致分為兩類:(i)基于已知或假設的因果信息的方法;(2)基于技術學習的未知因果信息的方法。因果信息主要包括因果結構、因果表示或因果特征、潛在混淆因素等。

CRL框架的示意圖如上圖所示,概述了規劃和因果啟發學習程序之間可能的算法聯系。因果關系啟發的學習可以發生在三個地方:在學習因果表示或抽象(箭頭a),學習動態因果模型(箭頭b),以及學習策略或值函數(箭頭e和f)。大多數CRL算法只實現與因果關系的可能聯系的子集,在數據效率、可解釋性、魯棒性或模型或策略的泛化方面享受潛在好處。例如,t時刻的所有狀態會影響(t + 1)時刻的所有狀態。對于離線策略的學習和評估,因果信息未知的CRL會評估不同行為的影響,而因果信息已知的CRL通常通過敏感性分析來研究混淆對策略的影響。傳統的強化學習不會對混淆效應進行建模。對于數據增強問題,經典RL有時基于基于模型的RL,而CRL基于結構因果模型。CRL在學習到這樣的模型后,可以進行反事實推理來實現數據增強。在泛化方面,經典RL試圖探索不變性,而CRL試圖利用因果信息來產生因果不變性,例如結構不變性、模型不變性等。在理論分析方面,經典強化學習通常關注收斂性問題,包括學習策略的樣本復雜度、后悔界或模型誤差;CRL關注的是收斂性,但關注的是因果信息,側重于因果結構的可識別性分析。

付費5元查看完整內容

推理是人類智能的一個基本方面,在解決問題、決策和批判性思考等活動中起著至關重要的作用。近年來,大型語言模型(LLMs)在自然語言處理方面取得了重大進展,有人觀察到這些模型在足夠大的時候可能會表現出推理能力。然而,目前還不清楚LLMs的推理能力到何種程度。

本文對LLM推理的知識現狀進行了全面的概述,包括改進和誘導這些模型推理的技術、評估推理能力的方法和基準、該領域以前研究的發現和影響,以及對未來方向的建議。我們的目標是對這一主題提供詳細和最新的回顧,并激發有意義的討論和未來的工作。

//www.zhuanzhi.ai/paper/10caab0b58fcf5f8ddf7943e1a6060d5

1. 引言

推理是一種認知過程,包括使用證據、論據和邏輯來得出結論或做出判斷。它在許多智力活動中起著核心作用,如解決問題、決策和批判性思考。對推理的研究在心理學(Wason and Johnson-Laird, 1972)、哲學(Passmore, 1961)和計算機科學(Huth and Ryan, 2004)等領域很重要,因為它可以幫助個人做出決定、解決問題和批判性地思考。

**最近,大型語言模型(LLMs) (Brown et al., 2020; Chowdhery et al., 2022; Chung et al., 2022; Shoeybi et al., 2019, inter alia)在自然語言處理及相關領域取得了重大進展。**研究表明,當這些模型足夠大時,它們會表現出緊急行為,包括"推理"的能力(Wei等人,2022a)。例如,通過為模型提供"思維鏈",即推理范例,或簡單的提示" Let 's think step by step ",這些模型能夠以明確的推理步驟回答問題(Wei et al., 2022b;Kojima et al., 2022),例如,“所有鯨魚都是哺乳動物,所有哺乳動物都有腎臟;因此,所有的鯨魚都有腎臟。”這引發了社區的極大興趣,因為推理能力是人類智能的一個標志,而在當前的人工智能系統中,推理能力經常被認為是缺失的(Marcus, 2020; Russin et al., 2020; Mitchell, 2021; Bommasani et al., 2021)。

然而,盡管LLM在某些推理任務上表現強勁,但目前尚不清楚LLM是否真的在推理,以及它們在多大程度上能夠推理。例如,Kojima等人(2022)聲稱“LLMs是不錯的零次推理器(第1頁)”,而Valmeekam等人(2022)得出結論,“LLMs在對人類來說沒有問題的常見規劃/推理任務上仍然遠遠沒有達到可接受的性能(第2頁)。”Wei等人(2022b)也指出了這一局限性:“我們認為,盡管思維鏈模擬了人類推理的思維過程,但這并沒有回答神經網絡是否實際上是推理(第9頁)。

本文旨在對這一快速發展的主題的知識現狀進行全面概述。專注于改善LLM中推理的技術(§3);LLMs中衡量推理的方法和基準(§4);這一領域的發現和意義(§5);以及對該領域現狀的反思和討論(§6)。

2. 什么是推理?

推理是用邏輯和系統的方式思考某事的過程,利用證據和過去的經驗來得出結論或做出決定(Wason and Johnson-Laird, 1972; Wason, 1968; Galotti, 1989; Fagin et al., 2004; McHugh and Way, 2018)。推理包括根據現有信息進行推理、評估論點和得出邏輯結論。“推理”雖然是文學和日常生活中常用的術語,但它也是一個抽象的概念,可以指代很多事物。為了幫助讀者更好地理解這個概念,我們總結了幾種常見的推理類型:

演繹推理。演繹推理是一種基于前提的真實性而得出結論的推理。在演繹推理中,結論必須從前提中得出,這意味著如果前提為真,結論也必須為真。前提:所有哺乳動物都有腎臟。前提:所有鯨魚都是哺乳動物。結論:所有鯨魚都有腎臟。

歸納推理。歸納推理是一種基于觀察或證據得出結論的推理。根據現有的證據,這個結論很可能是正確的,但不一定是肯定的。觀察:我們每次看到有翅膀的生物,它就是鳥。觀察:我們看到一個有翅膀的生物。結論:這個生物很可能是一只鳥。

溯因推理。溯因推理是一種推理,它是在對一組給定的觀察做出最佳解釋的基礎上得出結論的。根據現有的證據,這一結論是最可能的解釋,但不一定是肯定的。觀察:汽車無法啟動,引擎下有一灘液體。結論: 最可能的解釋是汽車的散熱器有一個泄漏

3. 大語言模型中的推理

推理,尤其是多步推理,通常被視為語言模型和其他NLP模型的弱點(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。最近的研究表明,在一定規模的語言模型中可能會出現推理能力,例如具有超過1000億個參數的模型(Wei et al., 2022a,b;Cobbe等人,2021)。在本文中,我們遵循Wei等人(2022a)的觀點,將推理視為一種在小規模模型中很少出現的能力,因此關注于適用于改進或引出大規模模型中的“推理”的技術。

3.1 全監督微調

在討論大型語言模型中的推理之前,值得一提的是,有研究正在通過對特定數據集的全監督微調來激發/改進小型語言模型中的推理。例如,Rajani等人(2019)對預訓練的GPT模型進行微調(Radford等人,2018),以生成用構建的CoS-E數據集解釋模型預測的理由,并發現經過解釋訓練的模型在常識性問答任務上表現更好(Talmor等人,2019)。Talmor等人(2020)訓練RoBERTa (Liu等人,2019)基于隱式預訓練知識和顯式自由文本語句進行推理/推理。Hendrycks等人(2021)對預訓練語言模型進行微調,通過生成完整的分步解決方案來解決競賽數學問題,盡管準確性相對較低。Nye等人(2021)在產生最終答案之前,通過生成" scratchpad ",即中間計算,訓練語言模型進行程序合成/執行的多步驟推理。全監督微調有兩個主要限制。首先,它需要一個包含顯式推理的數據集,這可能很難和耗時創建。此外,模型僅在特定數據集上進行訓練,這將限制其應用于特定領域,并可能導致模型依賴于訓練數據中的工件而不是實際推理來進行預測。

3.2 提示與上下文學習

大型語言模型,如GPT-3 (Brown et al., 2020)和PaLM (Chowdhery et al., 2022),通過上下文學習在各種任務中表現出顯著的少樣本性能。這些模型可以通過一個問題和一些輸入、輸出的范例來提示,以潛在地通過“推理”(隱式或顯式)解決問題。然而,研究表明,這些模型在需要多個步驟推理來解決的任務方面仍然不理想(Bommasani et al., 2021; Rae et al., 2021; Valmeekam et al., 2022)。這可能是由于缺乏對這些模型的全部能力的探索,正如最近的研究所表明的那樣。

3.3 混合法

雖然"提示"技術可以幫助引出或更好地利用大型語言模型中的推理來解決推理任務,但它們實際上并沒有提高LLM本身的推理能力,因為模型的參數保持不變。相比之下,“混合方法”旨在同時提高LLM的推理能力,并更好地利用這些模型來解決復雜問題。這種方法既包括增強LLM的推理能力,也包括使用提示等技術來有效利用這些能力。

4 度量大型語言模型的推理能力

文獻中一直關注使用推理任務的下游性能作為模型"推理"能力的主要衡量標準。然而,直接分析這些模型產生的原理的工作相對較少。本節總結了評估LLM推理能力的方法和基準。

4.1 下游任務性能

衡量LLM推理能力的一種方法是評估它們在需要推理的任務上的表現。有各種現有的基準可用于此目的,組織如下。

**數學推理。**算術推理是理解和應用數學概念和原理以解決涉及算術運算的問題的能力。這涉及到在解決數學問題時使用邏輯思維和數學原理來確定正確的行動方案。算術推理的代表性基準包括GSM8K (Cobbe et al., 2021), Math (Hendrycks et al., 2021), MathQA (Amini et al., 2019), SVAMP (Patel et al., 2021), ASDiv (Miao et al., 2020), AQuA (Ling et al., 2017), and MAWPS (Roy and Roth, 2015).。值得一提的是,Anil等人(2022)生成了奇偶校驗數據集和布爾變量賦值數據集,用于分析LLMs的長度泛化能力(§3.3.1)。

**常識推理。**常識推理是利用日常知識和理解對新情況作出判斷和預測。這是人類智能的一個基本方面,它使我們能夠在環境中導航,理解他人,并在信息不完整的情況下做出決定。可用于測試llm常識推理能力的基準包括CSQA (Talmor et al., 2019), StrategyQA (Geva et al., 2021), and ARC (Clark et al., 2018)。我們建議讀者參考Bhargava和Ng(2022)的調研,以了解該領域的更多工作。

**符號推理。**符號推理是一種根據形式規則對符號進行操作的推理形式。在符號推理中,我們使用抽象的符號來表示概念和關系,然后根據精確的規則對這些符號進行操作,從而得出結論或解決問題。

4.2 推理的形式化分析

盡管LLM在各種推理任務中表現出令人印象深刻的性能,但它們的預測在多大程度上是基于真正的推理還是簡單的啟發式,并不總是很清楚。這是因為大多數現有評估側重于它們對下游任務的準確性,而不是直接評估它們的推理步驟。雖然對LLMs生成的原理進行了一些誤差分析(Wei et al., 2022b; Kojima et al., 2022, inter alia),這種分析的深度往往有限。已經有一些努力來開發指標和基準,以便對LLM中的推理進行更正式的分析。Golovneva等人(2022)設計了ROSCOE,一套可解釋的、詳細的分步評估指標,涵蓋了語義對齊、邏輯推理、語義相似度和語言一致性等多個角度。Saparov和他(2022)創建了一個名為PrOntoQA的合成數據集,該數據集是根據真實或虛構的本體生成的。數據集中的每個示例都有一個唯一的證明,可以轉換為簡單的句子,然后再轉換回來,允許對每個推理步驟進行形式化分析。Han等人(2022)引入了一個名為FOLIO的數據集來測試LLM的一階邏輯推理能力。FOLIO包含一階邏輯推理問題,需要模型在給定一組前提的情況下確定結論的正確性。總之,大多數現有研究主要報告了模型在下游推理任務中的表現,沒有詳細檢查產生的基礎的質量。這留下了一個問題,即模型是否真的能夠以類似于人類推理的方式進行推理,或者它們是否能夠通過其他方法在任務上取得良好的性能。還需要進一步的研究來更正式地分析LLM的推理能力。

付費5元查看完整內容

北京交通大學最新《深度因果模型》綜述論文,31頁pdf涵蓋216頁pdf詳述41個深度因果模型,值得關注!

因果關系概念在人類認知中起著重要作用。在過去的幾十年里,因果推理在計算機科學、醫學、經濟學和教育等許多領域都得到了很好的發展。隨著深度學習技術的發展,它越來越多地用于反事實數據的因果推理。通常,深度因果模型將協變量的特征映射到一個表示空間,然后根據不同的優化方法設計各種目標優化函數,無偏估計反事實數據。本文對深度因果模型進行了綜述,其核心貢獻如下: 1)提供了多劑量和連續劑量治療下的相關指標; 2)我們從時間發展和方法分類的角度整合了深度因果模型的全面概述; 3)我們協助對相關數據集和源代碼進行詳細和全面的分類和分析。

一般來說,因果關系指的是結果與產生結果的原因之間的聯系。這種現象的原因和影響很難定義,我們往往只能憑直覺意識到它們。因果推斷是一個根據因果關系發生的環境對因果關系作出結論的過程,在現實世界中有各種各樣的應用。例如,估計廣告中觀察數據的因果效應[3,4,5,6,7,8,9],開發與因果治療效果估計高度相關的推薦系統[10,11,12,13,14,15,16],學習醫學中患者的最佳治療規則[17,18,19],估計強化學習中的ITE[20,21,22,23,24,25,26,27,28],自然語言處理中的因果推理任務[29,30,31,32,33,34],新興的計算機視覺和語言交互任務[35,36,37,38,39],教育[40],政策決策[41,42,43,44,45]和改進的機器學習方法[46]等。

深度學習在應用于大數據時有助于人工智能的發展[47,48,49,50]。與傳統機器學習算法相比,深度學習模型計算效率更高,精度更高,在各個領域都有很好的表現。然而,許多深度學習模型是可解釋性較差的黑盒,因為它們更關心作為輸入和輸出的相關性,而不是因果關系[51,52,53]。近年來,深度學習模型被廣泛用于挖掘數據的因果關系而不是相關性[41,43]。因此,深度因果模型已成為基于無偏估計估計治療效果的核心方法[19,44,45,54]。目前,許多因果推理領域的研究都是利用深層因果模型來選擇合理的treatment 方案[55,56,57,58]。

在大數據中,所有趨勢變量都是相關的[59],因此發現因果關系是一個具有挑戰性的問題[60,61,62]。在統計學理論中,進行隨機對照試驗(randomized controlled trials, RCT)[63]是推斷因果關系最有效的方法。換句話說,樣本被隨機分配到處理組或對照組。盡管如此,現實世界的隨機對照試驗數據是稀疏的,有幾個嚴重的缺陷。涉及rct的研究需要大量特征變化不大的樣本,難以解釋,涉及倫理挑戰。事實上,選擇試驗對象來嘗試一種藥物或疫苗是不明智的[64,65]。因此,因果效應通常直接用觀察數據來衡量。獲取反事實結果的一個核心問題是如何處理觀測數據[66]。在分析觀察數據時,處理并不是隨機分配的,處理后的樣本的性能與普通樣本的性能有顯著差異[41,43]。不幸的是,我們無法在理論上觀察到其他結果,因為我們無法觀察到反事實結果[67]。主流研究的一個長期特征是使用潛在結果框架作為解決觀察數據因果推斷問題的手段[68]。潛在結果框架也被稱為Rubin因果模型[69]。因果推理與深度學習密切相關,因為它是使用Rubin因果模型概念化的。為了提高估計的準確性和無偏性,一些研究人員嘗試將深度網絡和因果模型結合起來。舉例來說,考慮分配平衡方法[41,43,44]的表示,協變量混雜學習方法[54,70,71]的效果,基于生成對抗網絡的方法[45,72,73]等[58,34,74]。由于深度學習方法促進了因果推理,因果推理也有助于深度學習方法的發展。除了提高因果效應估計的準確性,深度網絡的研究為開發深度學習算法提供了一個合理的基礎[75,76]。

近年來,人們對因果推理的各種觀點進行了討論[77,1,78,79,80,81,82,83,2]。表1列出了相關綜述的標題和要點。文獻[77]深入分析了因果推理的起源和變量發展,以及因果學習對因果推理發展的影響。此外,調查[1]對傳統和前沿的因果學習方法進行了概述,并對機器學習和因果學習進行了比較。許多學者討論了如何解釋機器學習。隨后,為了創建可解釋的人工智能算法,survey[79]結合了因果推理和機器學習。作為一種新穎的視角,因果表征學習正在蓬勃發展,綜述[80]利用它從低級觀察中發現高水平的因果變量,加強了機器學習和因果推理之間的聯系。由于近年來因果機器學習的流行,綜述[78]對圖因果推理與機器學習的相關性進行了詳細的討論。此外,在調查[81]中,作者考察了機器學習的最新進展如何應用于因果推理,并對因果機器學習如何有助于醫學科學的進步提供了全面的解釋。正如綜述[82]所認為的,基于深度學習可以改進和整理因果發現方法,可以探索可變范式來幫助思考和探索因果發現方法。推薦系統中的因果推理是調查的重點[83],它解釋了如何使用因果推理來提取因果關系,以增強推薦系統。長期以來,統計的潛在結果框架一直是連接因果推理和深度學習的橋梁,作為起點,綜述[2]檢查并比較了滿足這些假設的不同類別的傳統統計算法和機器學習算法。由于深度學習算法的快速發展,現有文獻在考察泛化時沒有考慮深度因果模型。因此,我們從深度網絡的角度,從時間和分類兩方面總結了深度因果模型。本綜述對近年來的深度因果模型進行了全面的回顧和分析。它有三個核心貢獻: 1)我們在多次treatments 和連續劑量treatments 的情況下納入了相關指標。2)我們從方法分類和時間發展的角度對深層因果模型進行了全面的概述。3)我們在相關數據集和源代碼的分析和分類方面提供詳細和全面的支持

以下是論文其余部分的大綱。如第2節所述,本文將介紹深度因果模型以及定義和假設。在第3節中,介紹了適當的例子和度量,包括二元treatment、多重treatment和連續劑量treatment。第4節展示了一個深度因果模型,包括概述和分析。第5節討論了深度因果模型的方法,包括分布平衡方法、協變量混雜學習方法、基于生成對抗網絡的方法、基于文本輸入時間序列的方法以及基于多treatment和連續劑量treatment模型的方法。相關實驗指南的列表如下第6節。論文的摘要在第7節中給出。

深度因果模型

通過對背景和基本定義的深入理解,本節將進入深度因果模型的核心。本文概述了深度因果模型及其在過去六年間的發展,包括基于時間軸的41個深度因果模型的分析。

近年來,深入因果模型的研究越來越受歡迎。隨著深度學習的發展,各種深度因果模型在估計因果效應方面變得更加準確和有效。根據圖1,我們列出了2016年6月至2022年2月期間約40個經典的深度因果模型,包括它們的詳細名稱和提出時間。深度因果模型從2016年開始開發。Johansson等首次發表了反事實推理的學習表示[41],提出了算法框架BNN和BLR[41],將深度學習與因果效果估計問題相結合,將因果推理問題轉化為領域適應問題。從那時起,許多模型被提出,包括DCN-PD[110], TARNet和CFRNet[43]。在這方面,需要注意的是,Louizos等人在2017年12月提出的基于深度網絡經典結構參數自編碼器VAE的CEVAE[54]模型,主要關注混雜因素及其對因果效應估計的影響。

圖1: 深度因果模型的發展

在2018年以及2019年,人們對因果表征學習的興趣越來越濃厚。首先,我們聯合提出了Deep-Treat[19]和RCFR[111]模型。在GANITE[45]模型推出后,使用生成對抗模型[112]體系結構進行反事實估計成為因果推理領域的主流。根據前面的工作,對CFR-ISW[113]、CEGAN[72]、SITE[44]進行了優化。R-MSN[74]模型于2018年12月實現,利用循環神經網絡[114]解決多治療時間序列的連續劑量問題,開辟了深層因果模型。為了解決這一問題,2019年5月提出了PM[42]和TECE[104],用于與多個離散處理相關的因果效應估計。作為后續,CTAM[34]開始專注于估算文本數據的因果影響;Dragonnet[71]首次將正則化和傾向評分網絡引入因果模型;ACE[55]試圖從表示空間中提取細粒度的相似度信息。對于RSB的[115]2019年12月版,使用深度表示學習網絡和PCC[116]正則化來分解協變量,使用工具變量來控制選擇偏差,使用混雜和調節因素來預測。

深度因果模型在2020年蓬勃發展。首先,DKLITE[56]模型結合了深核模型和后驗方差正則化。然后,DR-CFR[117]應用三個表示網絡、兩個回歸網絡和一個預測網絡對協變量的選擇偏倚進行解耦;GAD[118]則關注持續劑量治療的因果效應;DRGAN[119]定義了一種用于擬合樣品劑量效應曲線的創新生成對抗網絡;CRN[120]通過結合反事實循環神經網絡來估計隨時間變化的治療效果。TSD[121]在估計了多原因混雜下的時間序列因果效應后,轉向估計時間序列因果效應。在潛在表征空間中,ABCEI[122]使用GAN平衡了治療組和對照組的協變量分布。在前人研究的基礎上,BWCFR[123]、LaCIM[124]對結構思想進行了優化。此外,SCIGAN[73]、DRNet[57]在2020年將連續劑量擴展到任意數量的treatment 問題,VSR[125]以重新加權的方式聚合深度神經網絡潛在變量。

從2021年到2022年,因果模型變得更加創新、開放和靈活。VCNet[58]模型實現了連續平均劑量-響應曲線的估計。截至2021年5月,NCoRE[126]使用跨treatment 交互作用建模來理解產生多種治療組合的潛在因果過程。之后,CETransformer[127]利用Transformer[128]對協變量進行表征,注意力機制集中在協變量之間的相關性上。在此基礎上,DONUT[129]和DeR-CFR[70]基于之前的工作進行優化。SCI[75]將子空間理論用于因果表征學習,拓寬了研究者的思路。FlexTENet[130]提出了一種多任務自適應學習架構。此外,SCP[131]采用兩步程序評估多因素治療效果。為了構建這種合成雙胞胎匹配表示,SyncTwin[132]利用了結果中的時間結構。最后,TransTEE[76]將表征分布平衡方法擴展到連續的、結構化的和劑量依賴的treatment,使其作為因果效應估計問題更加開放。下一節將分析同一類別的所有模型,并基于深度學習結構的使用和模型所使用的共同思想進行比較。

付費5元查看完整內容

強化學習(RL)[17]和因果推理[10]都是機器學習不可缺少的組成部分,在人工智能中都發揮著至關重要的作用。最初促使我整合這兩者的是機器學習在醫療保健和醫學領域的最新發展。回顧過去,人類自出生以來就不可避免地伴隨著疾病,并為追求健康而不懈地與疾病作斗爭。近幾十年來,機器學習的蓬勃發展促進了醫療保健領域的革命性發展:一些人工智能系統在癌癥分類[1]、癌癥檢測[8]、糖尿病視網膜病變檢測[3]、致盲性視網膜疾病診斷[7]等方面已經接近甚至超過了人類專家。得益于計算能力和能力的持續激增,人工智能(AI)無疑將幫助重塑醫學的未來。想象一下這樣的場景:在未來,每個人都有一個個性化的人工智能醫生在自己的桌子上,記錄著他們從出生開始的所有病歷數據。根據個人的醫療數據,可以提前預測和預防個人的死亡,或至少及時治愈,這在很大程度上可以延長人的預期壽命。

然而,目前成功應用于上述醫療問題的方法僅僅是基于關聯而不是因果關系。在統計學中,人們普遍認為關聯在邏輯上并不意味著因果關系[10,12]。關聯與因果之間的關系由萊辛巴赫·[14]將其形式化為著名的共同原因原理:如果兩個隨機變量{X}和{Y}在統計學上是相互依存的,那么下面的一個因果解釋必須成立:a) {X}導致{Y};b) {Y}導致{X};c)存在一個隨機變量{Z},它是引起{X}和{Y}的共同原因。因此,與關聯相比,因果關系更進一步,探索變量之間更本質的關系。因果推理的中心任務是揭示不同變量之間的因果關系。理解一個系統的因果結構將使我們具備以下能力:(1)預測如果某些變量被干預會發生什么;(2)評估影響干預及其結果[9]的混雜因素的影響;(3)使我們能夠預測以前從未觀察到的情況的結果。如果我們將醫學中的治療視為干預,將治療效果視為結果(例如,理解藥物對患者健康的影響,評估未觀察到的混雜因素對治療和患者總體福祉的影響,評估患者疾病的不同治療的存活率,等等),這些能力正是醫療保健所需要的,但大多數現有的方法尚未具備。這就是為什么因果關系在開發真正智能的醫療保健算法中扮演著關鍵角色。

在因果推理中實施干預概念的一個自然想法是利用RL中的動作概念[17,2]。更具體地說,agent可以根據其當前狀態,通過采取不同的行動(干預)來觀察環境狀態的變化,并獲得即時的回報(結果)。然而,agent的目標是最大化預期累積報酬,這表明RL本身不具備進行因果推理的能力。因此,因果推理通過推斷狀態之間或狀態與動作之間的因果關系,如減少狀態或動作空間,處理混淆,進而幫助RL更高效、更有效地學習價值函數或策略。可見因果關系與強化學習是互補的,可以從因果關系的角度加以整合,從而促進兩者的發展。

為此,我們建議將因果推理整合到RL中,使RL能夠在復雜的現實醫學問題中推斷數據之間的因果效應。利用這兩方面的優勢,我們可以根據未觀察到的對患者健康的混雜因素的存在來評估治療的真正實際效果,并在與患者互動的過程中進一步找到最佳的治療策略。以敗血癥為例,敗血癥是一種危及生命的疾病,當身體對感染的反應導致自身組織和器官受損時就會出現,它是重癥監護病房死亡的主要原因,每年給醫院造成數十億[13]的損失。在解決敗血癥治療策略方面,RL通常將所測量的生理參數,包括人口統計、實驗室值、生命體征和攝入/輸出事件[6,13]視為指導患者進一步治療和劑量的狀態。然而,在這一過程中可能不可避免地會有一些未被觀察到的混雜因素對治療策略產生重大影響,這在目前的RL框架內很難處理。幸運的是,我們可以利用因果推理來解決這個問題,評估潛在的隱性混雜因素對治療和患者健康的影響,從而相應地調整治療策略。

事實上,回顧科學史,人類總是以一種類似因果強化學習(causal reinforcement learning,因果RL)的方式前進。更具體地說,人類從與大自然的互動中總結出規則或經驗,然后利用這些經驗來提高自己在下一次探索中的適應能力。因果關系RL所做的就是模擬人類行為,從與環境溝通的agent那里學習因果關系,然后根據所學到的因果關系優化其策略。

我強調這個類比的原因是為了強調因果性RL的重要性,毫無疑問,它將成為人工通用智能(AGI)不可缺少的一部分,不僅在醫療保健和醫藥領域,而且在所有其他的RL場景中都有巨大的潛在應用。與RL相比,因果RL繼承了因果推理的兩個明顯優勢:數據效率和最小的變化。眾所周知,RL算法非常需要數據。相反,因果性RL不是由數據驅動的,因為因果圖是最穩定的結構,它由“必須擁有”關系組成,而不是由聯想圖中的“nice-to-have”關系組成。換句話說,只要存在因果關系,他們就不會受到數據的影響,不管影響有多大。從因果推理的角度來看,一旦我們知道了因果結構,我們就可以不需要或只需要很少的實驗就可以回答大量的干涉性和反事實性問題,這將大大減少我們對數據的依賴。例如,如果事先提供了一些關于行為的因果知識,或者可以從最初的實驗中學到一些知識,那么行為空間就會按指數方式縮小。另一個吸引人的特性是最小變化,我指的是當環境或領域發生變化時,只有最小的(條件)分布集會發生變化。從因果的觀點來看,假設條件的不變性是有意義的,如果條件代表因果機制[4,15,10]。直觀上,因果機制可以被看作是物理世界的屬性,就像牛頓的運動定律,它不取決于我們給它喂食什么。如果輸入發生了變化,其因果機制仍保持不變[5,11]。然而,反因果方向的條件將受到輸入[6]的影響。因此,當環境發生變化時,因果關系的RL將發生最小的變化。事實上,最小更改的一個直接好處是數據效率,因為代理可以將它們從一個環境學到的不變的因果知識轉移到另一個環境,而不需要從頭學習。

參考鏈接:

//causallu.com/2018/12/31/introduction-to-causalrl/

付費5元查看完整內容

摘要:這項工作考慮了這樣一個問題: 獲取大量數據的便利程度如何影響我們學習因果效應和關系的能力。在大數據時代,學習因果關系與傳統因果關系有哪些不同或相同之處?為了回答這個問題,這項綜述提供了一個在因果關系和機器學習之間聯系的全面和結構化的回顧。

//www.zhuanzhi.ai/paper/6ad7902913e98bd48540a5596b978edc

因果性是結果與引起結果的原因之間的一種一般性關系。它很難定義,而且我們通常只憑直覺知道原因和結果。因為下雨,街道是濕的。因為這個學生不學習,所以他考試考得很差。因為烤箱是熱的,奶酪在披薩上融化了。當用數據學習因果關系時,我們需要意識到統計關聯和因果之間的區別。例如,當天氣炎熱時,一家冰淇淋店的老板可能會注意到高昂的電費和較高的銷售額。因此,她會觀察到電費和銷售數字之間有很強的聯系,但電費并不是導致高銷售額的原因——讓商店的燈徹夜開著不會對銷售產生影響。在這種情況下,外部溫度是高電費和高銷售額的共同原因,我們說它是一個混亂的因果關系。

學習因果關系的能力被認為是人類水平智能的重要組成部分,可以作為AI的基礎(Pearl, 2018)。從歷史上看,學習因果關系已經在包括教育在內的許多高影響領域被研究過(LaLonde, 1986;Dehejia和Wahba, 1999年;Heckerman et al ., 2006;希爾,2011),醫學科學(馬尼和庫珀,2000;經濟學(Imbens, 2004)、流行病學(Hernan et al., 2000;Robins等人,2000年;、氣象學(Ebert-Uphoff和Deng, 2012)和環境衛生(Li et al., 2014)。受限于數據量,堅實的先驗因果知識是學習因果關系所必需的。研究人員對通過精心設計的實驗收集的數據進行研究,堅實的先驗因果知識至關重要(Heckerman et al., 2006)。以隨機對照試驗的原型為例(Cook et al., 2002),為了研究一種藥物的療效,患者將被隨機分配服用或不服用該藥物,這將保證平均而言,治療組和未治療組(對照組)在所有相關方面是等同的,排除任何其他因素的影響。然后,藥物對某些健康結果的影響——比如,偏頭痛的持續時間——可以通過比較兩組的平均結果來衡量。

這個綜述的目的是考慮在現在的大數據時代學習因果關系的新可能性和挑戰,這里指的是海量數據集的可用性。舉個例子,考慮到無法測量的混雜因素的可能性——可能會被減輕,因為可以測量更多的特征。因此,一方面,研究人員有可能在大數據的幫助下回答有趣的因果問題。例如,Yelp的正面評論是促使顧客去餐館,還是僅僅反映了受歡迎程度而沒有影響?這個因果問題可以通過Yelp維護的龐大數據庫中的數據來解決。另一方面,用大數據來回答因果問題,會帶來一些獨特的新問題。例如,盡管公共數據庫或通過web爬行收集的數據或應用程序編程接口(api)是空前巨大的,我們有很少的直覺對什么類型的偏差數據集可以遭受——數據更豐富,也更神秘,因此,負責任地更難模型。與此同時,大數據給其他學習任務(如預測)帶來的基本統計困難,使得因果調查更具挑戰性。也許這方面最顯著的例子是現代數據的高維性(Li et al., 2017a),比如文本數據(Imai et al., 2013)。

付費5元查看完整內容
北京阿比特科技有限公司