本文探討了探討了額度對用戶風險的因果效應方法,通過前沿的雙重機器學習,克服了現有數據中的“幸存者偏差”問題,構造出能夠反映“策略——風險”因果關系的無偏估計量,促進風險管理與機器學習理論更深地結合,幫助信貸機構制定更科學的授信策略。
本文主要研究當貸款人的信貸決策發生變化時,借款人還款的預期差異。經典估計忽略了混雜效應,因此估計誤差很大。因此,我們提出了另一種構造估計量的方法,使誤差大大減少。通過理論分析和數值檢驗,證明了所提出的估計量是無偏的、一致的和魯棒的。此外,我們比較了經典估計量與提出估計量之間因果量的估計能力。通過各種模型(包括線性回歸模型、基于樹的模型和基于神經網絡的模型),在不同的模擬數據集下進行比較,這些模擬數據集表現出不同的因果關系水平、不同的非線性程度和不同的分布特性。最重要的是,我們將我們的方法應用于一個大型觀察數據集,該數據集由一家從事電子商務和貸款業務的全球技術公司提供。我們發現,如果正確地解釋因果效應,估計誤差的相對減少是顯著的。
近年來,機器學習取得了顯著進展,提供了一些新功能,比如創建復雜的、可計算的文本和圖像表示。這些功能催生了新產品,如基于圖像內容的圖像搜索、多種語言之間的自動翻譯,甚至是真實圖像和聲音的合成。同時,機器學習已經在企業中被廣泛采用,用于經典的用例(例如,預測客戶流失、貸款違約和制造設備故障)。
在機器學習取得成功的地方,它是非常成功的。
在許多情況下,這種成功可以歸因于對大量訓練數據的監督學習(結合大量計算)。總的來說,有監督的學習系統擅長于一項任務:預測。當目標是預測一個結果,并且我們有很多這個結果的例子,以及與它相關的特征時,我們可能會轉向監督學習。
隨著機器學習的普及,它在業務流程中的影響范圍已經從狹窄的預測擴展到決策制定。機器學習系統的結果經常被用來設定信用限額,預測制造設備故障,以及管理我們的各種新聞推送。當個人和企業試圖從這些復雜和非線性系統提供的信息中學習時,更多(和更好)的可解釋性方法已經被開發出來,這是非常重要的。
然而,僅僅基于預測的推理有一些基本的限制。例如,如果銀行提高客戶的信用額度會發生什么?這些問題不能用建立在先前觀察到的數據上的相關模型來回答,因為它們涉及到客戶選擇的可能變化,作為對信用限額變化的反應。在很多情況下,我們的決策過程的結果是一種干預——一種改變世界的行動。正如我們將在本報告中展示的,純粹相關的預測系統不具備在這種干預下進行推理的能力,因此容易產生偏差。對于干預下的數據決策,我們需要因果關系。
即使對于純粹的預測系統(這是監督學習的強項),應用一些因果思維也會帶來好處。根據因果關系的定義,它們是不變的,這意味著它們在不同的情況和環境中都是正確的。對于機器學習系統來說,這是一個非常理想的特性,在機器學習系統中,我們經常根據我們在訓練中沒有看到的數據進行預測;我們需要這些系統具有適應性和健壯性。
因果推理和機器學習的交集是一個迅速擴展的研究領域。它已經產生了可供主流采用的功能——這些功能可以幫助我們構建更健壯、可靠和公平的機器學習系統。
本書介紹了因果推理,因為它涉及很多數據科學和機器學習工作。我們引入因果圖,著重于消除理解的概念障礙。然后我們利用這個理解來探索關于不變預測的最新想法,它給高維問題帶來了因果圖的一些好處。通過附帶的原型,我們展示了即使是經典的機器學習問題,如圖像分類,也可以從因果推理工具中受益。
流行的張量列(TT)和張量環(TR)分解在科學和工程上取得了很有前途的結果。然而,TT和TR分解只是建立相鄰兩個因子之間的聯系,并且對張量模的排列高度敏感,導致了不充分和不靈活的表示。本文提出了一種廣義張量分解,它將一個N階張量分解為一組n階因子,并建立了任意兩個因子之間的多線性運算/聯系。由于它可以圖形化地解釋為所有因素的全連接網絡,我們將其命名為全連接張量網絡(FCTN)分解。FCTN分解的優點在于充分刻畫任意兩個張量模間的內在相關性和換位的本質不變性。此外,我們將FCTN分解應用于一個有代表性的任務,即張量補全,并提出一個有效的基于近端交替最小化的算法。在理論上,我們證明了該算法的收斂性,即得到的算法序列全局收斂于一個臨界點。實驗結果表明,該方法與現有的基于張量分解的方法相比具有良好的性能。
//qibinzhao.github.io/publications/AAAI2021_Yu_Bang_Zheng/AAAI2021_FCTN_Decomposition_ybz.pdf
對于線上和線下的零售行業,銷量預測都是一項至關重要的任務,它可以幫助企業更好的預備庫存以及在各個倉庫之間分配商品。特別是在大型購物節期間,強勁的促銷活動將極大地促進消費。然而,可供參考的歷史數據卻非常稀缺。如何同時對城市的不同區域和不同時間段的銷量進行預測,是一個非常具有挑戰的問題。
在2020年12月收錄的AAAI 2021(CCF-A類)上,京東城市被收錄了一篇名為《Robust Spatio-Temporal Purchase Prediction via Deep Meta Learning》的論文。該論文研究了如何通過深度元學習,結合城市中的各項信息以及歷史的銷量數據,對未來,特別是大型購物節期間,城市中各個區域不同時間段的銷量進行預測。
多元序列學習的本質是如何提取數據中的相關性。這些數據集,如重癥監護病房的每小時醫療記錄和多頻語音時間序列,通常不僅在個別成分中表現出強烈的序列依賴性(“邊緣”記憶),而且在橫剖面依賴性中也表現出不可忽略的記憶(“聯合”記憶)。由于聯合分布演化的多元復雜性是數據生成過程的基礎,我們采用數據驅動的方法,構建了一種新的循環網絡結構,稱為記憶門控循環網絡(mGRN),門顯式地調節兩種不同類型的記憶:邊緣記憶和聯合記憶。通過對一系列公共數據集的綜合模擬研究和經驗實驗的結合,我們表明我們提出的mGRN架構始終優于針對多元時間序列的最先進架構。
//www.zhuanzhi.ai/paper/4236df35ff33a6911c4913ac13bb78e0
利用弱監督或有噪聲的監督來構建有效的機器學習模型一直是一個重要的研究問題。由于訓練深度學習模型對大規模數據集的需求越來越大,其重要性最近進一步增加。弱或嘈雜的監督可能來自多種來源,包括非專業的注釋者或基于啟發式或用戶交互信號的自動標記。有大量的前期工作集中在利用嘈雜的標簽。最值得注意的是,最近的研究顯示,使用元學習實例重加權方法取得了令人印象深刻的成果,在這種方法中,元學習框架用于為嘈雜標簽分配實例權重。在本文中,我們將此方法擴展為元學習框架內的標簽校正問題。我們將標簽校正過程視為一個元過程,并提出了一個新的基于元學習的框架,稱為MLC(元標簽校正),用于有噪聲標簽的學習。具體來說,采用標簽校正網絡作為元模型,對有噪聲的標簽進行校正,同時對主模型進行訓練,以充分利用校正后的標簽。兩個模型通過求解一個雙層優化問題來聯合訓練。在圖像識別和文本分類任務中,我們使用不同的標簽噪聲水平和類型進行了廣泛的實驗。我們比較重加權和修正的方法表明,修正框架解決了一些限制重加權。我們還表明,提出的MLC方法在圖像和語言任務上都優于以前的方法。
//www.microsoft.com/en-us/research/uploads/prod/2020/12/aaai2021_mlc_zheng.pdf
圖神經網絡(GNNs)已被證明是有效的模型,用于對圖結構數據的不同預測任務。最近關于它們表達能力的工作集中在同構任務和可數特征空間。我們對這個理論框架進行了擴展,使其包含連續的特性——在真實世界的輸入域和gnn的隱藏層中定期出現——并演示了在此上下文中對多個聚合函數的需求。為此,我們提出了一種新的聚合器結構——主鄰域聚合(PNA),它將多個聚合器與度標器相結合,從而推廣了總和聚合器。最后,我們通過一個新的基準來比較不同模型捕獲和利用圖結構的能力,該基準包含了來自經典圖理論的多個任務,以及來自現實領域的現有基準,所有這些都證明了我們模型的強大。通過這項工作,我們希望引導一些GNN研究轉向新的聚合方法,我們認為這對于尋找強大和健壯的模型至關重要。
//www.zhuanzhi.ai/paper/bee47b0e291d163fae01c
在一個常見的機器學習問題中,使用對訓練數據集估計的模型,根據觀察到的特征預測未來的結果值。當測試數據和訓練數據來自相同的分布時,許多學習算法被提出并證明是成功的。然而,對于給定的訓練數據分布,性能最好的模型通常會利用特征之間微妙的統計關系,這使得它們在應用于分布與訓練數據不同的測試數據時,可能更容易出現預測錯誤。對于學術研究和實際應用來說,如何開發能夠穩定和穩健地轉換數據的學習模型是至關重要的。
因果推理是指根據效果發生的條件得出因果關系的結論的過程,是一種強大的統計建模工具,用于解釋和穩定學習。本教程側重于因果推理和穩定學習,旨在從觀察數據中探索因果知識,提高機器學習算法的可解釋性和穩定性。首先,我們將介紹因果推論,并介紹一些最近的數據驅動方法,以估計因果效應從觀測數據,特別是在高維設置。為了彌補因果推理和機器學習之間的差距,我們首先給出了穩定性和魯棒性學習算法的定義,然后將介紹一些最近的穩定學習算法來提高預測的穩定性和可解釋性。最后,我們將討論穩定學習的應用和未來的發展方向,并提供穩定學習的基準。
有噪聲矩陣補全的目的是估計一個低秩矩陣只給出部分和損壞的項。盡管在設計有效的估計算法方面取得了實質性的進展,但如何評估所獲得估計的不確定性以及如何對未知矩陣執行統計推斷(例如,為一個未見的條目構造一個有效的和短的置信區間)仍在很大程度上不清楚。這篇報告向有噪聲矩陣補全的推理和不確定性量化邁出了一步。我們開發了一個簡單的方法來補償廣泛使用的凸估計量和非凸估計量的偏差。所得到的去偏估計量承認了近乎精確的非漸近分布特征,這進而使得諸如缺失項和低秩因子的置信區間/區域的最優構造成為可能。我們的推理過程不依賴于樣本分裂,從而避免了數據效率的不必要損失。作為一個副產品,我們得到了對我們的去偏估計的估計精度的一個清晰的表征,據我們所知,這是第一個可證明實現完全統計效率(包括前置常數)的可控算法。本文的分析建立在凸和非凸優化之間的密切聯系上。