我們考慮了在存在潛在混淆變量和選擇偏差的情況下,從觀測數據中學習系統的因果MAG(Maximal Ancestral Graph)的問題。基于約束的方法是解決這一問題的主要方法之一,但現有方法在處理大型圖時要么計算代價太高,要么缺乏完整性保證。我們提出了一種新的計算有效的遞歸約束方法,是健全和完整的。我們方法的關鍵思想是,在每次迭代中標識和刪除特定類型的變量。這使我們能夠高效地遞歸地學習結構,因為這種技術既減少了所需的條件獨立(CI)測試的數量,又減少了條件集的大小。前者大大降低了計算復雜度,而后者產生了更可靠的CI測試。我們提供了最壞情況下所需CI測試數量的上限。據我們所知,這是文獻中最緊的上界。我們進一步提供了任何基于約束的方法所需的CI測試數量的下界。在最壞的情況下,我們所提出的方法的上界和下界最多相差一個等于變量數的因子。我們也通過模擬與真實實驗對提出的方法與當前最優算法進行了比較。
學習用于分布外預測的因果語義表示
Learning Causal Semantic Representation for Out-of-Distribution Prediction 論文摘要:標準的有監督學習方法特別是深度學習方法對分布外樣例的預測表現欠佳,主要由于其學到的表示難免會混淆語義因素和多樣因素,因為兩者在特定環境下具有特定的相關性,但只有語義因素是輸出變量的因。為此,我們通過對變量間因果關系的分析,將這兩個因素分開建模,進而提出了一個因果語義生成模型,并建立了相應的分布外預測方法用于解決常見且有挑戰性的單訓練域的情況。此方法源自因果不變性原理,并基于變分貝葉斯框架實現,其中引入了一個新穎的設計既實現了高效訓練又便于預測。理論上,我們證明了一定條件下,此模型可通過擬合訓練數據來識別語義因素,且這種識別保證了分布外泛化誤差的有界性和成功的領域自適應。實驗結果表明所提方法比主流基線方法具有更好的分布外預測表現。
我們考慮發現K個相關高斯有向無環圖(DAG)的問題,其中涉及的圖結構共享一個一致的因果順序和稀疏的支持聯合。在多任務學習環境下,我們提出一種l1/l2-正則化極大似然估計(MLE)來學習K個線性結構方程模型。我們從理論上證明,通過在相關任務中利用數據,聯合估計器可以獲得比單獨估計更好的恢復因果順序(或拓撲順序)的樣本復雜度。此外,聯合估計器還可以將不可識別的DAG與一些可識別的DAG一起估計,從而恢復不可識別的DAG。最后,我們的分析也顯示了結構的聯合支持恢復的一致性。為了實現,我們設計了一個連續優化問題,它的優化器與聯合估計器相同,可以用迭代算法有效地逼近。通過實驗驗證了理論分析和聯合估計的有效性。
本博士論文包含了對統計因果模型領域的幾個貢獻。統計因果模型是嵌入因果假設的統計模型,允許對受外部操縱(干預)影響的隨機系統的行為進行推斷和推理。本文在因果效應估計、因果結構學習和分布魯棒(非分布廣義)預測方法等方面進行了深入的研究。我們提出了新的和一致的線性和非線性因果效應估計工具變量設置,采用數據依賴的均方預測誤差正則化。我們提出的估計量顯示,在某些情況下,均方誤差比標準和最先進的估計量都有所改善。我們表明,最近對分布穩健預測方法的研究與計量經濟學中經過充分研究的估計量有關。由此證明了一般k類估計具有分布魯棒性。此外,我們提出了一個關于干預誘發分布的分布穩健性的一般框架。在這個框架中,我們推導了分布魯棒預測方法可識別的充分條件,并給出了一些不可能的結果,證明了這些條件的必要性。提出了一種新的結構學習方法,適用于以有向樹為因果圖的加性噪聲模型。我們證明了消失可辨識性設置中的一致性,并提供了一種方法來檢驗具有漸近家族誤差控制的子結構假設,該方法在選擇后仍然有效。最后,我們提出了學習非線性時間序列模型總結圖的啟發式思想。
該論文題為Towards Gradient-based Bilevel Optimization with Non-convex Followers and Beyond,從新的視角來構造逼近框架,設計了Initialization Auxiliary and Pessimistic Trajectory Truncated Gradient Method (IAPTT-GM),解決下層非凸問題。具體來說,針對下層非凸結構特點,設計梯度下降迭代模塊,利用迭代初始點作為額外的控制元(Initialization Auxiliary),構造對下層最優解的逼近;另一方面,從理論分析與降低計算負擔兩個角度,在外層迭代中引入(Pessimistic Trajectory Truncation)機制,構造對上層目標的有效逼近。在基于元學習的小樣本分類任務與超參數優化數據超清洗任務上,論文驗證了當下層問題有非凸結構時,IAPTT-GM與現有流行算法相比,具有明顯的優勢。
最近提出了一些查詢和評分來解釋ML模型上的個人預測。考慮到ML模型需要靈活、可靠和易于應用的可解釋性方法,我們預計需要開發聲明性語言來自然地指定不同的可解釋性查詢。我們以一種有原則的方式來實現這一點,將這種語言根植于一個名為FOIL的邏輯中,該邏輯允許表達許多簡單但重要的可解釋性查詢,并可能作為更具表現力的可解釋性語言的核心。我們研究了FOIL查詢在兩類ML模型上的計算復雜性,這兩類模型通常被認為是容易解釋的: 策樹和OBDDs。由于ML模型的可能輸入的數量在其維數上是指數級的,因此FOIL評估問題的可處理性是微妙的,但可以通過限制模型的結構或被評估的FOIL片段來實現。我們還提出了一個用高級聲明性語言包裝的FOIL的原型實現,并進行了實驗,表明這種語言可以在實踐中使用。
我們根據預測中包含的信息而不是訓練算法的輸出來推導有監督學習算法的信息理論泛化邊界。這些邊界改進了現有的信息理論界限,適用于更廣泛的算法,并解決了兩個關鍵的挑戰: (a)它們為確定性算法提供了有意義的結果;(b)它們明顯更容易估計。我們通過實驗證明,在深度學習的實際場景中,所提出的邊界與泛化差距密切相關。
基于圖表示的多元關系鏈接預測
Link Prediction on N-ary Relational Facts: A Graph-based Approach
論文鏈接: //www.zhuanzhi.ai/paper/419d53c9425c9b3061acb446861be7c7
知識圖譜上的鏈接預測是典型的知識推理任務,近年來受到了學術界和工業界的廣泛關注。現有的鏈接預測算法大多針對知識圖譜中的二元關系而設計,無法處理其中普遍存在的多元關系。為此,本文創新性地提出了一種基于異構圖表示的多元關系學習算法(GRAN),能夠針對知識圖譜中的多元關系進行有效的鏈接預測。GRAN首先將多元關系陳述表示為異構圖,同時利用拓撲結構感知的自注意力機制對異構圖進行建模,實現多元關系的學習與推理。實驗表明,GRAN能夠保留多元關系陳述的完整語義,同時有效建模其元素間的豐富交互以增強模型的推理能力,在眾多多元關系鏈接預測標準數據集上全面大幅超越現有方法。
在各種科學和工業情景中,發現一組變量之間的因果結構是一項至關重要的任務。基于聯合分布的有限i.i.d.樣本,因果發現本質上是一個具有挑戰性的組合問題。功能性因果模型的最新發展,特別是NOTEARS為因果發現提供了一個可微分的優化框架。他們將結構學習問題定義為在非周期性和稀疏性等特定結構約束下,對觀測數據(即變量重構)進行最大似然估計的任務。盡管在可擴展性方面取得了成功,但我們發現,優化這些可微分方法的目標并不總是與學習到的因果圖的正確性一致,特別是當變量在野外環境的真實數據中攜帶異構噪聲(即不同噪聲類型和噪聲方差)時。在本文中,我們證明了它們容易產生錯誤結構的原因主要是過度重構問題,即變量的噪聲被吸收到變量重構過程中,導致變量重構殘差之間的依賴性,進而根據FCM理論提出結構可識別性問題。為了彌補這一點,我們提出了一種新的可微方法DARING,通過采用對抗性的方式施加顯式剩余獨立性約束。在仿真和真實數據上的大量實驗結果表明,我們提出的方法對外部噪聲的異質性不敏感,從而可以顯著提高因果發現性能。
本文研究了任務自適應預訓練模型的選擇問題,這是一個有待探討的問題,即如何評估預訓練模型,以便在不進行微調的情況下從模型族中選擇適合任務的模型。一項試點工作(Nguyen等人,2020年)解決了將有監督的預訓練模型轉移到分類任務中的問題,但它不能處理新興的無監督的預訓練模型或回歸任務。
為了尋求一種實用的評估方法,我們提出了估計標簽的最大證據(邊緣似然),在給定預先訓練模型提取的特征。與似然值相比,最大證據值不容易出現過擬合,而且通過我們精心設計的算法可以大大減少昂貴的計算量。最大證據對數(LogME)可以用來評估遷移學習的預訓練模型:LogME高的預訓練模型可能具有良好的遷移性能。LogME具有快速、準確、通用的特點,是第一個實用的遷移學習評估方法。相對于蠻力微調,LogME在時間上帶來了超過3000倍的加速。它在設置上比以前的方法有很大的優勢,并且適用于以前的方法不能處理的新設置。它對于不同的預訓練模型(有監督的預訓練和無監督的預訓練)、下游任務(分類和回歸)和模式(視覺和語言)來說是足夠普遍的。
題目:Graph Structure Estimation Neural Networks
作者:Ruijia Wang, Shuai Mou, Xiao Wang, Wanpeng Xiao, Qi Ju, Chuan Shi and Xing Xie
簡介:盡管現有的GNN已成功應用于各種場景,但存在一個基本的假設:所觀察到的圖結構是正確的且符合GNN的性質。實際上,由于圖通常抽取自復雜的交互系統,該假設總是被違反。原因之一是這些交互系統通常包含不確定性或錯誤。例如,在蛋白質相互作用圖中,傳統的實驗誤差是錯誤的主要來源。另一個原因是數據缺失是不可避免的。例如,Internet構建的圖通過檢查路由表或跟蹤路由路徑集合確定,而這兩個表僅給出了邊的子集。已經有研究表明不可靠的圖結構可能會嚴重限制GNN的表示能力,其中一個典型的例子是GNN的性能會在同配性(即同一社區內的節點傾向于相互連接)差的圖上大大降低。簡而言之,在實際的圖中普遍存在缺失、無意義甚至錯誤的邊,這導致其與GNN的性質不匹配,并對結果的準確性或正確性產生影響。因此,迫切需要探索適宜于GNN的圖結構。
然而,有效學習適合于GNN的圖結構在技術上具有挑戰性。我們認為,需要解決兩個障礙。(1)應考慮圖生成機制。網絡科學的很多文獻中已經證明圖的生成可能受某些基本原則的約束,如隨機塊模型模型。考慮這些原則,可以從根本上驅使學得的圖保持規則的全局結構,并對實際觀測中的噪聲更魯棒。不幸的是,大多數當前方法對每條邊進行參數化,沒有考慮全局結構和圖的基礎生成機制,因此學得的圖對噪聲和稀疏性的容忍度較低。(2)應該利用多方面信息以減少偏差。從一個信息源學習圖結構不可避免地會導致偏差和不確定性。合理的假設是如果一條邊在多次測量中存在,則邊存在的置信度會更大。因此,一個可靠的圖結構應該考慮全面的信息,盡管要獲得多視圖的信息并描述它們與GNN的關系是很復雜的。現有的方法主要利用特征相似性,從而使學得的圖易受單一視圖偏差的影響。
為了解決上述問題,在本文中我們提出了圖結構估計神經網絡(GEN),通過估計適宜于GNN的圖結構來提高節點分類性能。我們首先分析GNN的性質以匹配適當的圖生成機制。GNN作為低通濾波器,平滑鄰域以使相鄰節點表示相似,適用于具有社區結構的圖。因此,我們提出結構模型約束圖生成過程,假設圖是從隨機塊模型(SBM)中產生的。此外,除觀察到的圖結構和節點特征外,我們還創造性地利用多階鄰域信息來規避偏差,并提出觀測模型將上述多視圖信息作為最佳圖結構的觀測共同建模。為了估計最佳圖結構,我們在GNN訓練期間構造觀測集合,并基于結構和觀測模型應用貝葉斯推斷來計算圖結構的后驗分布。最后,估計的圖結構和GNN的參數通過精心設計的迭代優化實現彼此增強。