亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

因果模型與深度學習的融合引入了越來越復雜的數據集,例如圖像內或文本組件間的因果關聯,這已經成為一個重點研究領域。然而,將原始的因果概念和理論擴展到如此復雜的非統計數據上已經遭遇了嚴重的挑戰。為此,我們的研究從因果結構和表示的角度提出將因果數據重新定義為三個不同的類別:確定數據、半確定數據和不確定數據。確定數據主要涉及在傳統因果場景中使用的統計數據,而半確定數據指的是與深度學習相關的一系列數據格式,包括時間序列、圖像、文本等。不確定數據是一個新興的研究領域,由我們從數據形式的進展中推斷出來。為了全面展示這三種數據范式,我們詳細闡述了它們的正式定義、數據集中表現出的差異、解決途徑以及研究的發展。我們總結了關于確定數據和半確定數據的眾多研究工作中的關鍵任務和成就,為不確定數據提供了一條研究路線圖,從其當前的研究難題開始。最后,我們分類并調研了在這三種范式中目前使用的關鍵數據集。

1 引言

因果模型位于機械模型和統計模型之間[204]。與統計模型一樣,它們使用數據驅動的方法分析系統組件之間的關系[79, 124, 150]^1。然而,它們具有在分布轉移中保持穩健性的能力[242],這意味著因果模型可以在非??.??.??.環境中保持準確性[176, 179, 203, 221]。例如,考慮在兩種不同的實驗條件下同一系統的聯合分布??(??, ??)。在統計模型中,這兩個聯合分布可能不相等。但是,通過因果地將它們分解為??(??)??(??|??)這種因子化,我們可能會得到一個穩健的分布??(??|??),它可能代表在此系統中??是??的原因。當我們學習了所有組件之間的關系時,我們實際上獲得了機械模型中找到的????/????等價物。 另一個由??.??.??. 數據驅動的領域是機器學習,它與因果模型有著密切的關系。機器學習在廣泛的??.??.??. 數據集[53, 137, 163, 205]上取得了顯著的成功,例如最近鄰分類器[217]、支持向量機[93]和神經網絡[242]。然而,在機器學習中準確識別的對象,在因果模型中經常無法達到相同的正確性和無偏性水平[58, 82]。當面對違反??.??.??. 假設的任務時,機器學習顯得很脆弱[128, 148, 200]。隨著機器學習,特別是深度學習,在更廣泛的場景中的應用,這一問題變得更加明顯。因此,兩個領域之間產生了交叉污染:深度學習方法和因果發現。憑借對大量??.??.??. 數據的高效利用和開發,深度學習促進了在眾多場景中的因果發現任務的出現,而因果模型,通過干預和解耦,逐漸彌補了深度學習的泛化能力和可解釋性。因此,因果模型逐漸被應用于與深度學習相關的數據類型,如計算機視覺[7, 85, 87, 171]、自然語言處理[99, 224, 267]和語音識別[70, 170, 280]。 存在幾篇調查論文,討論如何從多種場景或深度學習方法中發現因果模型。在表1中,我們列出了一些代表性的調查及其重點評述。有些評述關注于因果推斷方法,例如基于匹配的方法[226]、基于樹的方法和基于集成的方法[12],以及動態治療制度方法[30]。其他評論關注于因果模型的構建框架,如Granger因果模型[9, 78, 166, 213]、潛在結果框架[72, 127, 268],和結構因果模型[54, 84, 111, 204]。有些評論考察了因果分析在各種領域的應用范圍,如時間序列數據[9, 166]、醫療數據[199],以及機器學習的多模態數據[54, 111, 204]。

另外,我們從兩個新的角度對這些研究進行分類:基于因果模型的結構是否固定,我們將其分類為單一結構[12, 54, 72, 77, 111, 127, 175, 199, 202, 204, 226, 244, 268]和多結構研究[9, 30, 78, 84, 166, 213];基于因果變量是否需要轉化為深度表示,我們將其分類為單值[9, 30, 77, 78, 84, 127, 166, 175, 199, 213, 226, 244, 268]和多值[12, 54, 72, 111, 202, 204]變量研究。結構和變量是深度學習的兩個關鍵特征。如果因果發現任務涉及多結構數據類型,相應的深度神經網絡應考慮不同結構樣本的區分度[35, 119, 253, 269],甚至構建參數共享模塊,這可以促進學習不同結構之間的動態性和不變性[252, 272, 292]。相反,當處理包括多值變量的數據類型時,因果變量轉化為深度表示,其中幾種統計優點需要重新審查,包括因果表示的不精確映射[228, 243, 264]、缺乏獨立性和可采樣性[49, 59, 281],以及因果強度的估計[118, 220, 238, 248]。然而,尚未有一個綜合性的評論總結了從這兩個角度的研究,導致研究人員在將深度學習應用于因果發現時,面對各種數據類型,對于使用哪種因果推斷框架和處理存在混淆。

因此,我們提出了三種數據范式,每種范式都是由結構數量和變量復雜性的組合產生的。以單一結構因果模型和單值變量為特點的數據范式被稱為確定數據范式。以多結構因果模型和多值變量為特點的數據范式被稱為不確定數據范式半確定數據范式位于確定和不確定范式之間,捕獲了單一結構因果模型和多值變量,或多結構因果模型和單值變量的組合。令人驚訝的是,在確定和半確定領域已有大量的研究,而在不確定數據范式中則缺乏重大進展。

為了詳細討論確定性和半確定性數據范式中的現有工作,以及不確定性數據范式中的研究空白,我們的調研做出了以下貢獻

? 在第2節中,我們介紹了與因果數據相關的擴展概念和術語。 * 此外,在第3節中,我們為三個數據范式提出了定義,并分析了它們在因果發現的計算過程中的差異。 ? 在第4節和第5節中,我們分別總結了確定性和半確定性數據范式中的現有工作。 ? 在第6節中,我們介紹了不確定數據所面臨的挑戰,并提出了相應的理論路線圖。我們討論了如何解決因果可區分性、混雜因子的解耦和因果一致性等理論問題。 ? 在第7節中,我們匯編了三種數據范式的常用數據集。我們提供了關于數據集大小和與之相關的典型任務的信息。

確定性數據范式的任務和現有工作

在此部分,我們展示了基于單結構和單值數據類型的研究進展,通過介紹與數據范式相關的不同任務及其對應的現有工作。

基于觀測變量的因果發現:

該任務旨在通過各種方法恢復觀測變量的完整且無混雜的因果模型或部分因果模型。 * 我們概述了傳統的因果發現方法(例如,基于約束的方法、基于評分的方法和基于SCM的方法),以及結合深度學習的近期工作。

帶有混雜因子的因果發現:

該任務旨在在各種混雜因子存在的假設下估計和恢復因果模型(例如,假設混雜因子對所有觀測變量都有普遍影響,或者假設只有一個混雜因子作為觀測變量的父節點存在)。 * 這些研究包括基于圖形因果模型和SCM的方法。

因果效應估計: * 該任務旨在估計當治療目標的值發生變化時,觀測目標的值實現理想值的過程。這個任務需要恢復因果模型作為前提,或者將因果模型的見解與效果估計結合起來。 * 這些研究主要依賴于潛在結果框架,特別是Rubin因果模型(RCM)。它們可以根據Review [268]中提供的分類進行分類,包括重新加權方法、分層方法、匹配方法、基于樹的方法、基于表示的方法、多任務方法和元學習方法。

半確定數據范式中的任務和現有工作

在此部分,我們提供了與半確定數據范式相關的任務和現有工作的概述,展示了在兩種數據類型上取得的研究進展:單結構 & 多值 和多結構 & 單值數據。 多結構 & 單值數據類型:

這類數據的主要關注點是時間序列數據。這類任務的目標是確定多個時間成分之間的因果關系(其中因果結構可能在不同的樣本中有所不同)。 * 按照Review [78]的分類方法,這些任務進一步分為多變量時間序列和事件序列,具體取決于校準數據的存在。 單結構 & 多值數據類型:

它包括與多值數據模態相關的各種任務,例如與圖像、文本、語音和表示相關的任務。 * 這些任務有著不同的高級領域,涉及識別、分類、生成、提取和區分。然而,共同的領域是在較低層次的多值數據中恢復一個固定的(可能只包含基本部分)因果模型。

不定數據范例的挑戰與路線圖

盡管多種結構和多值變量組合帶來的挑戰,我們旨在分別探討兩者的觀點。換句話說,當討論由多結構引起的問題時,我們假設多值數據導致了?? : S → X. ?? : X → X?的存在;同樣地,多值數據假設變量??不能通過統計強度來解決。

結論

在本文中,我們從因果結構和因果表示兩個角度重新定義現有的因果數據,使其能夠適當地嵌入到深度學習的理論和方法中,形成一個完整且全面的領域。

首先,我們重新定義了基本概念,如因果模型、因果變量和因果表示,并介紹了現有數據在結構和表示方面的差異。具體來說,我們使用“多結構數據”來表示因果結構不唯一的情況,“單一結構數據”表示具有固定因果結構的情況。我們使用“多值變量”來指代需要深度表示進行因果變量計算的數據,而“單值變量”則涵蓋了以數值形式存在的統計數據,無需深度表示。基于結構和表示的差異,我們定義了三種不同的數據范式:確定數據(單結構和單值)、半確定數據(單結構和多值,或多結構和單值)和不確定數據(多結構和多值)。我們通過它們的形式來 exemplify 它們的差異,分析它們在分辨率路徑方面面臨的不同問題,并總結它們在研究發展中的各自發展方向。

確定數據和半確定數據作為成熟的研究領域,已經與各種任務相關,以突出它們當前的應用場景。確定數據主要涉及因果發現、帶有潛在混淆因子的因果發現和因果效應估計。半確定數據主要關注與時間序列、圖像、文本、其他模態和深度表示相關的因果數據。然而,不確定數據仍處于起步階段。我們考慮結構和表示來為基于現有研究問題處理同時的多結構和多值數據設想路線圖。

最后,我們整理了三種數據范式中常用的數據集,簡要介紹了它們的屬性,并總結了它們的應用領域。 我們提出的三種數據范式幾乎涵蓋了所有因果模型,尤其是包括圖像和文本等非結構化輸入在內。我們希望這三種數據范式能為讀者提供更廣泛的因果洞察。當面對特定的因果數據時,他們可以按照本次審查中的分類來捕獲數據類型的關鍵特征和挑戰,從而確定深度模型和因果理論的基線。

付費5元查看完整內容

相關內容

 機器學習的一個分支,它基于試圖使用包含復雜結構或由多重非線性變換構成的多個處理層對數據進行高層抽象的一系列算法。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

**時態數據是一種典型的數據結構,用于描述復雜系統的時間序列,在工業、醫學、金融等領域有著廣泛的應用。**分析這種類型的數據對各種應用都非常有價值。因此,在過去的幾十年里,不同的時態數據分析任務,如分類、聚類和預測,被提出。其中,因果發現,即從時序數據中學習因果關系,是一項有趣而關鍵的任務,受到了廣泛的研究關注。根據時序數據是否經過校準,現有的因果關系發現工作可以分為兩類,即多元時間序列因果關系發現和事件序列因果關系發現。然而,以往的研究大多只關注時間序列的偶然發現,而忽略了第二類偶然發現。本文詳細說明了這兩類之間的相關性,并對現有的解決方案進行了系統的概述。提供了時態數據因果發現的公開數據集、評估指標和新視角

1. 引言

社會網絡、生物信息學、神經科學、金融等領域廣泛收集記錄復雜系統狀態變化的時態數據。時態數據是最常用的數據結構之一,由按時間排序的屬性序列組成。近年來,隨著傳感器和計算設備的快速發展,時態數據分析的研究工作不斷涌現。人們針對不同的任務提出了不同的方法,如分類[1,2],聚類[3,4],預測[5],因果發現[6,7]等。其中,因果發現識別眾多時態成分之間的因果關系已成為時態數據分析中一項具有挑戰性但至關重要的任務。學習到的因果結構有助于解釋數據的生成過程,指導數據分析方法的設計。根據數據是否經過校準,用于因果發現的時間數據可以分為兩類,即多元時間序列(MTS)和事件序列。因此,現有的因果發現方法也可以分別分為兩類。本綜述旨在提供一個深思熟慮的概述,并總結時序數據因果發現的前沿。 MTS數據描述了多個變量隨時間變化的標定狀態,在許多領域是一種通用的時態數據。發現MTS的因果關系有助于提高數據分析模型的可解釋性和魯棒性。然而,因果關系的定義并不唯一,導致了不同的解決方案。現有的研究工作可以分為四類,即基于約束的方法、基于評分的方法、基于功能因果模型(functional causal model, FCM)的方法和Granger因果方法。此外,也存在一些新的視角,如Takens的因果關系和微分方程。本文將詳細說明每個類別的主要思想和最新進展。事件序列中的因果關系發現是事件序列中的另一項任務,它在非規則和異步觀察到的時間序列中推斷因果關系。具體來說,它將不同事件的序列作為輸入,并輸出表示不同事件之間因果相互作用的因果圖。這項任務非常重要,因為現實世界中的大多數事件不能在固定的時間間隔內出現。根據MTS任務,將相應的方法分為三大類:基于約束的方法、基于得分的方法和基于Granger因果關系的方法。在這三類方法中,基于Granger因果關系的方法,特別是基于Granger因果的霍克斯過程模型,由于Granger因果關系和霍克斯過程之間存在天然的匹配,得到了較好的發展。我們將在本綜述中進一步詳細描述這些方法。

最近,許多研究[8,9,10,11,12,13,14,15,16,17]被發表來總結偶然發現的進展。我們比較了表1中具有代表性的評論及其亮點。如圖所示,這些調研分為兩行。第一行[8,10,9,11]的研究工作從不同的角度討論了一般的因果發現問題。例如,[8]給出了計算因果關系發現方法的簡要綜述。[10]專注于持續優化方法的快速發展。為了處理大數據,在[9]中引入了基于機器學習的因果推理和因果發現方法。此外,回顧了不同變量范式下的深度學習因果發現方法,從更廣闊的視角討論了數據中的因果關系。這些論文將時態數據作為一種特殊的應用,并沒有包括許多數據指定的方法。第二行中的調查側重于時態數據的偶然發現。如表1所示,[6,7]綜述了二元時間序列的因果發現方法。最近,[12,13]對時間序列中的因果推理方法進行了綜述。最近的工作[14]對已有的時間序列因果發現方法進行了討論和比較評估。然而,這些綜述忽略了事件序列的因果關系發現方法。文中不僅對這兩種時態數據的因果關系發現方法進行了全面的綜述,而且分析了它們之間的聯系和區別。

其次,在第2節中,我們首先介紹了偶然發現問題的背景和初步研究。第3節和第4節分別介紹了MTS和事件序列因果關系發現的最新進展。然后,在第5節中概述了時態數據因果發現的應用,在第6節中總結了可用的資源。最后,在第7節中討論了現有時態數據因果關系發現方法的局限性和新發展方向。

2. 多元時間序列的因果發現

在本節中,我們回顧了多變量時間序列數據的因果發現方法,包括基于約束的方法、基于評分的方法、基于功能因果模型的方法、Granger因果關系等。結合這些特點,具有代表性的算法總結在表3中。

3.1 基于約束的方法

作為一類因果關系發現算法,基于約束的方法依賴于條件獨立性的統計檢驗,易于理解且應用廣泛。首先給出了基于約束的方法的主要思想,包括一般步驟和因果假設。詳細的方法將分為有因果充分性假設和無因果充分性假設兩類,并分別介紹。一般步驟是:首先,基于條件獨立性建立變量間的骨架;其次,根據規則中的方向準則對骨架進行方向估計;目標是構建表示真實因果圖的MEC的完全部分有向無環圖(CPDAGs)。這些從觀察中得出MEC的方法的核心是因果假設。這些方法通常是在因果馬爾可夫性質和忠實度的假設下進行的,有些還假設因果充分性(沒有未觀察到的混雜因素)。在本節中,我們首先回顧了因果充分性假設下的主要算法及其對時序數據的擴展,然后介紹了當因果充分性假設不確定時的處理方法。

3.2 基于分數的方法

另一類因果發現方法是基于得分函數的。首先介紹基于評分的方法的主要思想,包括(動態)貝葉斯網絡、基于評分的方法與基于約束的方法相比的特點、模型評分和模型搜索。然后,分別回顧MTS的組合搜索方法和連續優化方法; 3.3 FCM-Based方法

上述兩類方法要么面臨MEC的不可分離性,要么需要大樣本來確認因果忠實度。因果發現也可以基于功能因果模型(Functional Causal Models, FCM)進行[89],也稱為2.1中的SCM,通過一組方程來描述因果系統。近年來,基于FCM的時間和非時間數據處理方法大量涌現。在本小節中,我們首先介紹基于FCM方法的主要思想,包括功能因果模型和噪聲在因果關系定位中的使用。然后分別介紹兩類基于FCM的方法,即基于獨立分量分析的方法和基于加性噪聲模型的方法。在FCM中,每個變量都用一個方程來解釋其直接原因和一些額外的噪聲。例如,函數xj = fj (xi, uj)解釋了xi→xj與一些額外的噪聲uj的因果關系。基于FCM的因果發現方法的一個基本思想是,統計噪聲可以是一個有價值的見解來源,這迎合了最近的發現[90],挑戰了噪聲應該被視為討厭的正統觀點。其中,因果關系可以借助噪聲進行識別和估計。

3.4 基于Granger因果關系的方法

Granger因果關系是分析時間序列數據的常用工具。有許多因果發現方法都是在Granger因果關系的基礎上發展起來的。在這一小節中,我們首先介紹Granger因果關系的定義。在深入研究具體方法之前,將給出兩類MTS Granger因果關系模型(無模型和基于模型)并進行比較。由于基于模型的方法在更一般的情況下具有優越性,本文的其余部分將重點介紹基于模型的方法的兩個最新進展:(1)基于核的方法(3.4.3),以及(2)基于神經網絡的方法(3.4.4)。

3.5 其他

上述四類方法已經成為因果發現研究的主題。為了保證方法的完備性,本節將介紹5種不同于上述方法的方法,包括基于信息論統計的因果關系方法、基于微分方程的因果模型方法、非線性狀態空間方法、基于邏輯的方法和混合方法。 4 事件序列的因果關系發現

多元時間序列的一個重要假設是時間戳是離散的,時間間隔是固定的。然而,在現實世界中,絕大多數事件不會以固定的時間間隔發生。因此,我們需要想出一些方法來處理這些不規則和異步的數據。我們可以將事件序列構建為{(t1, e1),(t2, e2),…},其中第一個維度表示對應事件發生的時間,第二個維度表示對應的事件類型。在本節中,我們將專注于推斷事件序列中的因果關系。首先,介紹了多元點過程,為事件序列的因果發現做了初步的介紹;然后,我們回顧了基于格蘭杰因果模型的方法,這些方法是很好的發展。最后,給出了基于約束的方法和基于分數的方法。 5. 應用

時序因果發現已被廣泛應用于許多領域,如科學努力(地球科學[197],神經科學[198,199,200],生物信息學[201]),工業實現(異常檢測[202],根本原因分析[203,204],在線系統中的商業智能[205],視頻分析[206])。表5總結了該方法的應用領域和相關研究。對于科學研究而言,學習到的因果關系通常不應被視為最終結果,而應被視為進一步研究的起點和假設[207]。作為一種推動者,因果發現可以在工業環境中的多階段方法中發揮支持作用[203]。在本節的其余部分中,我們將回顧三個領域,包括地球科學、異常檢測和根本原因,以解釋將時間因果發現分別納入科學努力和工業實施的主要工作流程。

付費5元查看完整內容

知識在人工智能中起著至關重要的作用。最近,預訓練語言模型(PLM)的廣泛成功引起了人們對語言模型如何獲取、維護、更新和使用知識的極大關注。盡管相關研究數量巨大,但對于知識在語言模型中如何在整個學習、調優和應用過程中循環,仍然缺乏統一的觀點,這可能會阻止我們進一步理解當前進展或實現現有限制之間的聯系。**本文通過將PLM中的知識生命周期劃分為五個關鍵時期,并調研知識在構建、維護和使用時是如何循環的,來重新審視PLM作為基于知識的系統。**文中系統地回顧了知識生命周期各個階段的現有研究,總結了目前面臨的主要挑戰和局限性,并討論了未來的發展方向。

//www.zhuanzhi.ai/paper/3eda52f060c0913316b9ae9c375835f5

從根本上說,人工智能是知識的科學——如何表示知識以及如何獲取和使用知識。

 知識是高智能的關鍵。模型如何獲取、存儲、理解和應用知識一直是機器智能領域的一個重要研究課題。近年來,預訓練語言模型(PLM)快速發展。通過在大規模無標記語料庫上進行自監督預訓練,PLM在不同任務/數據集/設置之間表現出強大的泛化和遷移能力,因此在自然語言處理方面取得了顯著的成功(Devlin等人,2019;Liu等人,2019c;Raffel等人,2020;Radford等人,2019b;Brown等人,2020;Lewis et al., 2020a)。

預訓練語言模型的成功引起了人們對其隱含知識性質的極大關注。已經有許多研究關注預先訓練的語言模型如何獲取、維護和使用知識。沿著這些思路,人們探索了許多新的研究方向。例如,知識注入致力于將明確的結構化知識注入到PLMs中(Sun等人,2019;Zhang等人,2019;Sachan等人,2021)。知識探測旨在評估PLMs參數中存儲的知識類型和數量(Petroni et al., 2019; Lin et al., 2019; Hewitt and Manning, 2019)。而知識編輯則致力于修改PLMs獲得的不正確或不可取的知識(Zhu et al., 2020; De Cao et al., 2021; Mitchell et al., 2021)。盡管有大量的相關研究,但目前的研究主要集中在PLMs中知識過程的一個特定階段,因此對知識如何在整個模型學習、調優和應用階段中循環缺乏統一的觀點。這種綜合性研究的缺乏,使得我們難以更好地理解不同基于知識的任務之間的聯系,難以發現PLMs中知識生命周期中不同時期之間的相關性,難以利用缺失的環節和任務來研究PLMs中的知識,也難以探索現有研究的不足和局限性。例如,雖然許多研究試圖評估語言模型中的知識,這些語言模型已經進行了預訓練,但很少有研究致力于調研為什么PLMs可以在沒有任何知識監督的情況下從純文本中學習,以及PLMs如何表示或存儲這些知識。與此同時,許多研究者試圖將各種結構性知識明確地注入到PLMs中,但很少有研究提出通過挖掘背后的知識獲取機制來幫助PLMs更好地從純文本中獲取特定類型的知識。因此,相關研究可能會過度關注于幾個方向,而不能全面理解、維護和控制PLMs中的知識,從而限制了改進和進一步應用。本文從知識工程的角度,系統地回顧了預訓練語言模型中與知識相關的研究。受認知科學研究的啟發(Zimbardo和Ruch, 1975;和知識工程(Studer et al., 1998;Schreiber等人,2000),我們將預訓練語言模型視為基于知識的系統,并研究了知識在預訓練模型中獲得、維護和使用時如何循環的生命周期(Studer等人,1998;Schreiber et al., 2000)。具體地,我們將預訓練語言模型中的知識生命周期劃分為以下五個關鍵時期,如圖1所示:

知識獲取是指語言模型從文本或其他知識源中學習各種知識的過程。 知識表示研究不同類型的知識如何在plm參數中轉換、編碼和分布的內在機制。 知識探測,旨在評估當前PLM包含不同類型知識的情況。 知識編輯,試圖編輯或刪除語言模型中包含的知識。 知識應用,試圖從預訓練語言模型中提取或利用知識進行實際應用。

對于每一個時期,我們將梳理現有的研究,總結主要的挑戰和局限性,并討論未來的發展方向。基于統一的視角,我們能夠理解和利用不同時期之間的緊密聯系,而不是將它們視為獨立的任務。例如,理解PLMs的知識表示機制有助于研究人員設計更好的知識獲取目標和知識編輯策略。提出可靠的知識探測方法,可以幫助我們找到適合PLM的應用,并深入了解其局限性,從而促進改進。通過綜述,全面總結當前研究的進展、挑戰和局限性,幫助研究人員從一個新的視角更好地理解整個領域,并從統一的角度闡述未來如何更好地規范、表示和應用語言模型中的知識的方向。

我們的貢獻總結如下:

建議將預訓練語言模型作為基于知識的系統重新審視,并將PLM中的知識生命周期劃分為五個關鍵時期。 對于每個時期,回顧了現有的研究,總結了每個方向的主要挑戰和缺點。 基于這篇綜述,討論了當前研究的局限性,并揭示了潛在的未來方向。

概述在本節中,我們將介紹本綜述的總體結構,詳細描述圖2所示的分類法,并討論每個關鍵時期的主題。

**知識獲取是語言模型的知識學習過程。目前,知識獲取主要有兩種來源:純文本數據和結構化數據。**為了從文本數據中獲取知識,語言模型通常在大規模文本語料庫上進行自監督學習(Devlin等人,2019;Liu等人,2019c;Brown等人,2020;Raffel等人,2020)。本綜述將重點關注預訓練語言模型如何從純文本中獲取知識的方法和機制(Chiang等人,2020;Pérez-Mayos等,2021;劉等,2021c)。為了從結構化數據中獲取知識,目前的研究主要集中在從不同類型的結構化數據中注入知識。結構化數據的主要類別包含實體知識(Sun等人,2019;熊等,2020;Peters等人,2019),事實知識(Zhang等人,2019;王志強,楊志強,楊志強;Liu等人,2020),常識知識(Bosselut等人,2019;Ye等人,2019;Guan等人,2020;Ma等人,2021)和語言知識(Ke等人,2020;Lauscher等人,2020;Zhou等人,2019;Bai等人,2021)。我們將在第3節中討論它們。**知識表示旨在研究語言模型如何在其密集參數中編碼、存儲和表示知識。**對知識表示機制的研究將有助于更好地理解和控制PLMs中的知識,也可能啟發研究者更好地理解人類大腦中的知識表示。目前,PLMs中知識表示分析的策略包括基于梯度的(Geva等人,2021;Dai等人,2022a)、因果啟發(孟等人,2022)、基于注意力的(Clark等人,2019;Htut等人,2019;Lin等人,2019)和分層(Lin等人,2019;Liu等人,2019a;Juneja和Agarwal, 2022)方法。我們將在第4節中討論它們。**知識探測的目的是評估當前的PLMs對特定類型的知識的影響。**目前,對PLMs中的知識進行探測主要采用兩種策略:1)基于提示的探測,通常構建知識指示的提示,然后使用這些自然語言表達式查詢PLMs (Petroni et al., 2019;Jiang等,2020a;Sung等人,2021;《福布斯》等人,2019;Zhou等,2020a)。例如,用“The capital of France is .”查詢PLMs,以評估PLMs是否存儲了相應的知識。同時,為了提高plm的性能,一系列研究致力于優化兩個離散的提示(Jiang等人,2020b;Davison等人,2019;Haviv等人,2021;Shin等人,2020)和持續空間(Zhong等人,2021;李和梁,2021a;Liu等,2021b)。盡管基于提示的探索得到了廣泛應用,但許多研究也指出,仍然存在一些懸而未決的問題,如不一致(Elazar等人,2021;Kassner和Schütze, 2020;Jang等人,2022;Cao等人,2022),不準確(perner等人,2020;鐘等,2021;Cao et al., 2021)和不可靠(Cao et al., 2021;Li et al., 2022a),并對基于提示探測的數量結果提出質疑。2)基于特征的探測,通常凍結原始plm的參數,并根據其內部表示或注意力權重評估PLM在探測任務上的表現。我們將現有的基于特征的探測研究分類為基于分類器的探測(Lin等人,2019;Tenney等人,2019;Clark等人,2019;Liu等人,2019a)和無分類器探測(Wu等人,2020;Zhou和Srikumar, 2021a)根據是否引入了額外的分類器。由于大多數方法引入了額外的參數或訓練數據,基于特征的探測的主要缺點是結果應歸因于PLM中的知識還是通過額外的探測學習到的探測任務。我們將在第5節中討論它們。

**知識編輯旨在修改產品生命周期中不正確的知識或刪除不良信息。**由于PLMs學習到的不可避免的錯誤和知識的更新,可靠有效的知識編輯方法對PLMs的可持續應用至關重要。目前的方法包括約束微調(Zhu等人,2020),基于記憶的(Mitchell等人,2022;Madaan等人,2022;Dong等人,2022),元學習啟發(De Cao等人,2021;Hase等人,2021年;Mitchell等人,2021)和基于位置的方法(Dai等人,2022a;孟等,2022)。我們將在第6節討論它們。

**知識應用旨在從PLMs中提取或利用特定的知識,以使進一步的應用受益。**目前,PLMs中的知識主要有兩種應用范式:1)語言模型作為知識庫(LMs-as-KBs),將語言模型視為密集的知識庫,可以用自然語言直接查詢以獲得特定類型的知識(Petroni等人,2019;Heinzerling和Inui, 2021年;蔣等人,2020b;王等人,2020;Cao等,2021;Razniewski等人,2021年;AlKhamissi等人,2022)。從構建、覆蓋率、交互性和可靠性4個方面對結構化知識庫與LMs-as-KBs (Razniewski et al., 2021)進行了全面比較;2)下游任務的語言模型,通過微調直接在下游NLP任務中使用包含特定類型知識的plm (Manning等人,2020;Wei等,2021b;Yang等人,2021;Yin等人,2022),快速學習(Radford等人,2019a;Brown等人,2020;Liu等人,2021a)和上下文學習(Brown等人,2020;Zhao等人,2021;陸等人,2022)。我們將在第7節討論它們。

付費5元查看完整內容

雖然強化學習(RL)在許多領域的連續決策問題上取得了巨大的成功,但它仍然面臨著數據效率低下和缺乏可解釋性的關鍵挑戰。有趣的是,近年來,許多研究人員利用因果關系文獻的見解,提出了大量統一因果關系優點的著作,并很好地解決了RL帶來的挑戰。因此,整理這些因果強化學習(CRL)著作,回顧CRL方法,研究因果強化學習的潛在功能是非常必要和有意義的。**特別是,我們根據現有CRL方法是否預先給出基于因果關系的信息,將其分為兩類。我們從不同模型的形式化方面進一步分析了每個類別,包括馬爾可夫決策過程(MDP)、部分觀察馬爾可夫決策過程(POMDP)、多臂賭博機(MAB)和動態處理制度(DTR)。**此外,我們總結了評估矩陣和開源,同時我們討論了新興的應用程序。

//www.zhuanzhi.ai/paper/2831beac5d3d0e0e8a42fa338f171c62

強化學習(RL)是智能體在[1]-[3]環境中學習最大化期望獎勵的策略(從狀態到動作的映射函數)的通用框架。當智能體與環境交互時,它試圖通過試錯方案來解決序列決策問題。由于其在性能上的顯著成功,已在各種真實世界應用中得到快速開發和部署,包括游戲[4]-[6]、機器人控制[7]、[8],以及推薦系統[9]、[10]等,受到不同學科研究人員的越來越多的關注。

然而,強化學習仍有一些關鍵挑戰需要解決。例如,**(一)數據效率低下。以前的方法大多需要交互數據,而在現實世界中,例如在醫療或醫療健康[11]中,只有少量記錄數據可用,這主要是由于昂貴、不道德或困難的收集過程。(二)缺乏可解釋性。**現有的方法往往通過深度神經網絡將強化學習問題形式化,將序列數據作為輸入,策略作為輸出,屬于黑盒理論。它們很難揭示數據背后的狀態、動作或獎勵之間的內部關系,也很難提供關于策略特征的直覺。這種挑戰將阻礙其在工業工程中的實際應用。有趣的是,因果關系可能在處理上述強化學習[12],[13]的挑戰中發揮著不可或缺的作用。因果關系考慮兩個基本問題[14]:(1)因果關系的合法推斷需要什么經驗證據?利用證據發現因果關系的過程簡稱為因果發現。(2)給定一個現象的公認的因果信息,我們可以從這些信息中得出什么推論,如何推斷?這種推斷因果效果或其他利益的過程稱為因果推斷。因果關系可以授權智能體進行干預或通過因果階梯進行反事實推理,放松了對大量訓練數據的要求;它還能夠描述世界模型,可能為智能體如何與環境交互提供可解釋性。

**在過去的幾十年里,因果學習和強化學習各自取得了巨大的理論和技術發展,而它們本可以相互融合。**Bareinboim[15]通過將它們放在相同的概念和理論框架下,開發了一個名為因果強化學習的統一框架,并提供了一個在線介紹教程;Lu[16]受當前醫療健康和醫學發展的啟發,將因果強化學習與強化學習相結合,引入因果強化學習并強調其潛在的適用性。近年來,一系列與因果強化學習相關的研究相繼提出,需要對其發展和應用進行全面的綜述。本文致力于為讀者提供關于因果強化學習的概念、類別和實際問題的良好知識。 盡管已有相關綜述,如Grimbly等人對[17]因果多智能體強化學習進行了綜述;Bannon等人,[18]關于批量強化學習中的因果效應估計和策略外評估,本文考慮了但不限于多智能體或策略外評估的情況。最近,Kaddour等人,[19]在arXiv上上傳了一篇關于因果機器學習的綜述,其中包括一章關于因果強化學習的內容。他們根據因果關系可以帶來的不同強化學習問題總結了一些方法,例如因果匪類、基于模型的強化學習、off-policy策略評估等。這種分類方法可能不完整或不完整,從而遺漏了其他一些強化學習問題,例如多智能體強化學習[18]。本文只是但完整地為這些因果強化學習方法構建了一個分類框架。我們對這份調研綜述的貢獻如下:

**本文正式定義了因果強化學習,并首次從因果性的角度將現有方法分為兩類。**第一類是基于先驗因果信息,通常這樣的方法假設關于環境或任務的因果結構是由專家給出的先驗信息,而第二類是基于未知的因果信息,其中相對的因果信息必須為策略學習。對每個類別上的當前方法進行了全面的回顧,并有系統的描述(和草圖)。針對第一類,CRL方法充分利用了策略學習中的先驗因果信息,以提高樣本效率、因果解釋能力或泛化能力。對于因果信息未知的CRL,這些方法通常包含因果信息學習和策略學習兩個階段,迭代或依次進行。進一步分析和討論了CRL的應用、評估指標、開源以及未來方向。

因果強化學習

定義18(因果強化學習,CRL): CRL是一套算法,旨在將因果知識嵌入到RL中,以實現更高效的模型學習、策略評估或策略優化。它被形式化為元組(M, G),其中M代表RL模型設置,如MDP、POMDP、MAB等,G代表關于環境或任務的基于因果的信息,如因果結構、因果表示或特征、潛在混雜因素等。

根據因果信息是否由經驗提供,因果強化學習方法大致分為兩類:(i)基于已知或假設的因果信息的方法;(2)基于技術學習的未知因果信息的方法。因果信息主要包括因果結構、因果表示或因果特征、潛在混淆因素等。

CRL框架的示意圖如上圖所示,概述了規劃和因果啟發學習程序之間可能的算法聯系。因果關系啟發的學習可以發生在三個地方:在學習因果表示或抽象(箭頭a),學習動態因果模型(箭頭b),以及學習策略或值函數(箭頭e和f)。大多數CRL算法只實現與因果關系的可能聯系的子集,在數據效率、可解釋性、魯棒性或模型或策略的泛化方面享受潛在好處。例如,t時刻的所有狀態會影響(t + 1)時刻的所有狀態。對于離線策略的學習和評估,因果信息未知的CRL會評估不同行為的影響,而因果信息已知的CRL通常通過敏感性分析來研究混淆對策略的影響。傳統的強化學習不會對混淆效應進行建模。對于數據增強問題,經典RL有時基于基于模型的RL,而CRL基于結構因果模型。CRL在學習到這樣的模型后,可以進行反事實推理來實現數據增強。在泛化方面,經典RL試圖探索不變性,而CRL試圖利用因果信息來產生因果不變性,例如結構不變性、模型不變性等。在理論分析方面,經典強化學習通常關注收斂性問題,包括學習策略的樣本復雜度、后悔界或模型誤差;CRL關注的是收斂性,但關注的是因果信息,側重于因果結構的可識別性分析。

付費5元查看完整內容

生成模型作為統計建模的一個重要家族,其目標是通過生成新實例來學習觀察到的數據分布。隨著神經網絡的興起,深度生成模型,如變分自編碼器(vais)和生成對抗網絡(GANs),在二維圖像合成方面取得了巨大的進展。近年來,由于三維數據與我們的物理世界更接近,在實踐中具有巨大的潛力,研究者們將研究的重點從二維空間轉向了三維空間。然而,與2D圖像不同的是,2D圖像本質上擁有高效的表示(即像素網格),表示3D數據可能面臨更多的挑戰。具體地說,我們希望理想的3D表示能夠足夠詳細地建模形狀和外觀,并且能夠高效地建模高分辨率數據,速度快,內存成本低。然而,現有的三維表示方法,如點云、網格和最近的神經場,通常不能同時滿足上述要求。在本文中,我們從算法和更重要的表示兩方面對3D生成的發展進行了全面的回顧,包括3D形狀生成和3D感知圖像合成。我們希望我們的討論可以幫助社區跟蹤這一領域的發展,并進一步激發一些創新的想法來推進這一具有挑戰性的任務。

//www.zhuanzhi.ai/paper/494ecc28feabb3aeaade6da6523b430f

概述

深度學習[1]的快速發展顯著推進了計算機視覺領域的許多任務,如視覺物體識別[2]、[3]、物體檢測[4]、[5]、[6]、圖像渲染[7]、[8]、[9]等,并在許多方面促進了我們的日常生活,如自動駕駛[10]、[11]、生物研究[12]、智能創造[13]、[14]。在所有類型的技術中,生成建模[15],[16],[17]在數據分析和機器學習中扮演著重要的角色。與直接對輸入進行預測的判別模型不同,生成模型旨在通過創建新實例來再現數據分布。為此,需要對數據進行全面的描述。例如,一個檢測模型可以忽略與任務無關的信息(例如,顏色)而不犧牲性能,但是生成模型被期望管理圖像的每一個細節(例如,對象排列以及每個對象的紋理),以獲得令人滿意的生成。從這個角度來看,學習生成模型通常更具挑戰性,但促進了一系列應用[14],[18],[19],[20]。

在過去的幾年里,深度生成模型[15],[16],[17]在2D圖像合成中取得了不可思議的成功[14],[21],[22]。盡管公式不同,變分自編碼器(vais)[16]、自回歸模型(ARs)[23]、歸一化流(NFs)[24]、生成對抗網絡(GANs)[15]和最新的擴散概率模型(DPMs)[17]都能夠將潛在變量轉換為高質量圖像。然而,如今二維空間中的學習生成模型已經不能滿足一些現實應用的需求,因為我們的物理世界實際上位于3D空間之下。以電影行業為例,我們希望設計3D數字資產,而不是簡單地生產2D圖像,帶來沉浸式的體驗。現有的內容創建管道通常需要大量的專業知識和人力,這可能是耗時和昂貴的。在研究如何自動生成3D數據a1方面,已經進行了許多開拓性的嘗試[25],[26],[27],[28],[29],[30],但這類研究仍處于早期階段。

2D生成和3D生成之間的一個關鍵區別是數據格式。具體來說,二維圖像可以自然地表示為像素值的數組,神經網絡[2]、[3]可以方便地處理這些像素值。相反,有許多3D表示來描述一個3D實例,如點云[31],[32],網格[33],[34],體素網格[35],[36],多平面圖像[37],隱式神經表示[9]等。每種表示都有其優點和局限性。例如,網格緊湊地表示3D形狀,但由于數據結構不規則,神經網絡很難分析和生成。相比之下,體素網格有規律地位于三維空間中,與標準卷積神經網絡工作良好,但體素網格消耗內存,難以表示高分辨率3D場景。因此,選擇合適的表示形式對于3D內容生成至關重要。

鑒于3D生成模型的快速發展,文中對該領域進行了全面的綜述,以幫助社區跟蹤其發展。我們想提到的是,在文獻中已經有一些調查研究生成模型[38],[39],3D視覺[40],[41],[42],[43],以及3D結構[44]和面孔[45]的生成,但仍然缺少對3D生成的全面回顧。如前所述,要完成這樣一項具有挑戰性的任務,有許多候選算法(如vais和GANs)和表示(如點云和隱式神經表示)可供選擇。這個調查有助于理清不同類型的生成模型如何適用于不同的表示。我們將本文的其余部分組織如下。第二節闡明了這項綜述的范圍。第三節介紹了3D生成任務的基本原理,包括各種生成模型的公式和流行的3D表示。第4和第5節分別總結了現有的3D形狀生成方法和3D感知圖像合成方法。第6節討論了3D生成模型的下游應用。第7節提供了3D生成領域的未來工作。

本綜述范圍

在本研究中,我們重點研究訓練網絡對目標三維樣本的數據分布進行建模的方法,并支持三維表示合成的采樣。我們還包括基于某些輸入(如圖像、部分點云或文本句子)預測條件概率分布的方法。請注意,這些條件生成方法旨在合成尊重輸入的3D表示,同時保持生成多樣性。這與經典的三維重建方法形成對比,后者建立從輸入到目標三維表示的一對一映射。我們建議讀者參考[40]、[46]對這些方法的綜述。雖然我們的綜述包括生成3D表示的方法,但我們沒有完全覆蓋神經渲染方法,[40]和[47]中已經詳細討論過。該綜述是對現有的生成模型[38],[39],[44]的調查的補充。

基礎模型

生成式模型旨在以一種無監督的方式了解實際的數據分布,通過嘗試從給定的信息中生成盡可能真實的數據,從而捕獲更多的細節并顯示出更多的創造力。具體來說,首先需要生成模型來總結輸入數據的分布,然后利用生成模型在給定的數據分布中創建或合成樣本。一般來說,生成模型可以分為兩大類。一種是基于似然的模型,包括變分自編碼器(ves)[16],歸一化流(N-Flows)[24],擴散模型(DDPMs)[17]和基于能量的模型(EBMs)[48],這些模型是通過最大化給定數據的似然來學習的。另一種是無似然模型,包括生成對抗網絡(GANs)[15],它建立在兩名玩家的最小最大博弈之上,以尋找納什均衡。下面,我們將簡要回顧不同類型的生成模型。圖1顯示了每個生成模型的一般概念。

計算機視覺和計算機圖形社區已經開發了各種3D場景表示,包括體素網格、點云、網格和神經場。這些表示在三維形狀生成和三維感知圖像合成任務中表現出各自的優點和缺點。例如,與結構良好的2D圖像相比,大多數3D表示都不是常規格式,不能用標準cnn直接處理。3D體素網格通常是規則的,這使得它能夠很好地與3D卷積網絡一起工作。然而,體素網格往往消耗內存,因此難以表示高分辨率的形狀。神經場理論上支持高分辨率形狀建模,但訓練過程中對隱式表示的有效監督是一個有待解決的問題。

三維形狀生成

目前,大多數三維形狀生成方法都是訓練深度神經網絡來獲取三維形狀的分布。與2D圖像相比,3D形狀有許多類型的表示,如體素網格、點云、網格和神經場。這些表示方法在三維形狀生成任務中各有優缺點。評估3D表示是否能與深度生成模型很好地工作,可以考慮很多方面,包括網絡處理表示的容易程度,允許高效生成高質量和復雜的3D形狀,以及生成模型獲取監督信號的成本。表1總結了三維形狀生成的代表性方法。

三維感知圖像生成

三維感知圖像生成的目標是在合成圖像時顯式地控制相機的視點。基于二維gan的模型[217],[218],[219],[220],[221]通過發現與視點軌跡相對應的潛在空間方向來實現這一目標。盡管它們提供了令人印象深刻的結果,但在潛在空間中找到一個合理的方向并不容易,通常不能支持渲染視點的完全控制。本研究的重點是為三維圖像合成明確生成三維表示的工作。與直接用形狀訓練的3D形狀生成方法相比,大多數3D感知的圖像生成方法都是通過可微神經渲染的圖像來監督的,因為通常沒有高質量和大規模的可渲染的3D表示數據集來訓練生成模型。由于缺乏可渲染的3D表示,自動編碼器架構在此任務中很少使用。大多數方法采用生成對抗模型,從潛在空間中提取潛在向量并將其解碼為目標表示。

6 應用

3D生成模型的興起使許多有前途的應用成為可能,如圖12所示。在本節中,我們將討論3D生成模型在編輯、重建和表示學習方面的應用。

7 未來的工作

3D生成模型的發展非常迅速,但在將其用于下游應用程序(如游戲、模擬和增強/虛擬現實)之前,仍有許多挑戰需要克服。在這里,我們討論了3D生成模型的未來發展方向。

通用性:大多數現有的3D生成模型都是在簡單的對象級數據集上進行訓練的,例如,用于3D形狀生成的ShapeNet和用于3D感知圖像合成的FFHQ。我們認為,將3D生成模型擴展到更大程度的通用性是未來研究的一個富有成效的方向。它的通用性包括生成通用對象(如ImageNet或Microsoft CoCo)、動態對象或場景以及大規模場景。與其專注于單一類別,不如學習一種通用的3D生成模型,用于各種類別,如DALL-E2和Imagen[257],[258]和無限3D場景[259],這是非常有趣的。

可控性:3D生成模型的可控性落后于2D生成模型。理想情況下,用戶應該能夠通過用戶友好的輸入控制3D生成過程,包括但不限于語言、草圖和程序。此外,我們認為物理特性的可控性應該進一步研究,包括照明,材料,甚至動力學。

效率:許多3D生成模型需要在多個高端gpu上進行3-10天的訓練,并且在推理過程中速度較慢。我們認為,提高三維生成模型的訓練效率是必要的,而提高推理效率對于下游應用至關重要。

訓練穩定性:3D生成模型的訓練,特別是3D感知的圖像合成模型,通常更容易發生模式崩潰。一種可能的解釋是,物理上有意義的因素的分布,例如相機姿勢和渲染參數,可能與真實圖像不匹配。因此,研究生成模型的訓練穩定性就顯得尤為重要。

付費5元查看完整內容

超限多標簽學習(XML)成為一項重要的任務,并提出了許多有效的方法。為了充分理解XML,東南大學最新學者《超限多標簽學習XML》進行了調研綜述。

近幾十年來,多標簽學習受到了學術界和產業界的廣泛關注。雖然現有的多標簽學習算法在各種任務中都取得了良好的性能,但它們隱含地假設目標標簽空間的大小并不大,這對現實場景有一定的限制。此外,由于計算和內存開銷,直接將它們調整到超大的標簽空間是不可行的。因此,超限多標簽學習(XML)成為一項重要的任務,并提出了許多有效的方法。為了充分理解XML,我們在本文中進行了調研綜述。我們首先從監督學習的角度闡明XML的正式定義。然后,根據不同的模型體系結構和問題所面臨的挑戰,我們對每種方法的優缺點進行了深入的討論。為了進行實證研究,我們收集了大量關于XML的資源,包括代碼實現和有用的工具。最后,我們提出了XML可能的研究方向,例如新的評估指標、尾部標簽問題和弱監督XML。

//arxiv.org/abs/2210.03968

引言

多標簽學習[1],[2],[3],[4]是最重要的機器學習范例之一,其中每個現實世界的對象用一個實例(特征向量)表示,并與多個標簽相關聯。在過去的幾十年里,許多多標簽學習算法被提出。例如,二進制相關性[5]分別學習每個標簽的二進制分類器,它忽略了標簽關系。ECC[6]以順序的方式學習每個標簽的單獨分類器,這意味著隨后學習的分類器可以利用之前的標簽信息。RAKEL[7]通過將標簽的隨機子集映射為自然數,即2 |Y|→N,將多標簽學習任務轉化為多類分類任務,從而能夠對標簽之間的高階相關性進行建模。隨著訓練數據的快速增長,深度學習被廣泛用于充分利用標簽相關性[8],[9],[10]。 超限多標簽學習(Extreme Multi-label Learning, XML)旨在從大量的候選標簽中標注出具有相關標簽的對象。近年來,XML在推薦系統、搜索引擎等領域得到了廣泛的應用。特別是,圖1展示了Wikipedia和Amazon的兩個真實的XML數據集,它們具有大量的標簽,其頻率通常遵循長尾分布。由于標簽空間的高維數,傳統的多標簽學習方法如ML-KNN[16]、RAKEL[7]、ECC[6]、Lead[17]、Binary Relevance[5]都變得不可用,需要新的算法。此外,在處理長尾數據時,這個問題變得更加嚴重。在不考慮長尾標簽分布的情況下,模型在尾標簽上的性能很不理想。此外,諸如內存開銷和缺少標簽等其他挑戰也阻礙了XML的應用。幸運的是,在過去的十年中,XML逐漸引起了機器學習、數據挖掘和相關團體的廣泛關注,并被廣泛應用于各種問題[10]、[15]、[18]、[19]、[20]、[21]、[22]、[23]、[24]、[25]、[26]、[27]、[28]、[29]、[30]、[31]、[32]、[33]、[34]、[35]。具體來說,近8年(2014-2022年),在大型機器學習和數據挖掘會議(包括ICML/ECMLPKDD/IJCAI/AAAI/KDD/ICLR/NeurIPS)上,出現了50多篇論文中以“超限多標簽”(或“大規模多標簽”)為關鍵詞的論文。因此,了解現有的工作對于研究者和實踐者都是很重要的,并分析該領域的未來方向。

1.1 實際的例子

1.1.1 推薦系統

在亞馬遜的產品搜索[38]和阿里巴巴的零售[39]中,每個產品都被視為一個標簽,用戶可能想從大量的候選集合中為用戶推薦他們可能喜歡的產品列表。在這種設置下,收集用戶信息作為輸入特征,并利用其購物歷史構建觀察標簽。很容易看出,這個問題可以表述為一個多標簽學習任務。由于平臺上的產品和用戶數量巨大,對訓練和推理速度的要求非常高。此外,推薦要個性化,學習到的模型不偏向熱門產品,很少推薦稀有產品。這對推薦系統中的XML提出了挑戰。

1.1.2 搜索引擎

在搜索引擎中,例如Bing[37],推薦相關查詢的問題可以重新表述為一個超限的多標簽學習任務。在用戶提交查詢之后,搜索引擎需要從大量候選集合中推薦可能滿足用戶需求的最相關的查詢。由于標簽集的大小可以達到數百萬,現有的排名算法遭受不可接受的計算成本。因此,為搜索引擎設計合適的排名算法是一項極具挑戰性的任務。

1.2 動機與貢獻

**據我們所知,這是第一次與XML相關的先驅綜述。本次調研的貢獻可以概括為:**1)綜合綜述。我們將全面回顧XML,包括核心挑戰及其相應的解決方案。2)新分類法。我們提出了一種XML分類法,它從三個不同的角度對現有的XML方法進行了分類:1)模型體系結構; 2) 尾標簽學習; 3) 弱監督XML。3) 資源豐富。我們收集了大量關于XML的資源,包括XML方法的開源實現、數據集、工具和紙列表。4)未來的發展方向。我們討論并分析了現有XML方法的局限性。并提出了未來可能的研究方向。

1.3 調研組織

調研的其余部分組織如下。第2節概述XML,包括背景概念、XML與其他相關設置之間的比較以及XML的核心挑戰。第3節從三個角度介紹現有的XML算法。第4節列出了常用的數據集、評估指標和資源。第5節討論了當前的挑戰,并提出了未來幾個有前途的方向。最后,第6節結束了調研。

圖2:XML的分類和代表性示例。

算法開發一直是機器學習研究的核心問題,XML也不例外。在過去的十年中,人們提出了大量的算法來從超限多標記數據中學習。根據每種算法的特性和XML的關鍵挑戰,我們提出了一種新的XML分類法,即:1)模型體系結構;2)尾標簽學習;3)弱監督。考慮到在有限的篇幅內瀏覽所有現有的算法是不可能的,在這篇綜述中,我們選擇仔細調研每個研究方向的代表XML算法。根據解決XML問題的角度,大多數方法可以分為三個分支:二進制關聯法、基于嵌入的方法和基于樹的方法。我們在圖2中提供了一個說明。

付費5元查看完整內容

聚類分析在機器學習和數據挖掘中起著不可或缺的作用。學習一個好的數據表示方法對于聚類算法是至關重要的。近年來,利用深度神經網絡學習聚類友好表示的深度聚類已經廣泛應用于各種聚類任務中。現有的深度聚類研究主要集中在單一視圖領域和網絡架構上,忽略了聚類的復雜應用場景。為了解決這個問題,在本文中,我們從數據源的角度對深度聚類進行了全面的考察。在不同的數據源和初始條件下,我們從方法論、先驗知識和體系結構方面系統地區分了聚類方法。具體地,將深度聚類方法分為傳統的單視圖深度聚類、半監督深度聚類、深度多視圖聚類和深度轉移聚類四大類。最后,討論了深度聚類在不同領域的開放挑戰和潛在的未來機遇。

引言

隨著網絡媒體的發展,可以很容易地收集到大量的、復雜度高的數據。通過對這些數據的精確分析,我們可以挖掘出這些結論的價值,并將這些結論應用于許多領域,如人臉識別[1],[2],情感分析[3],[4],智能制造[5],[6]等。可用于對具有不同標簽的數據進行分類的模型是許多應用程序的基礎。對于有標簽的數據,理所當然地使用標簽作為最重要的信息作為指導。對于未標記的數據,尋找一個可量化的目標作為模型構建過程的指導是聚類的關鍵問題。在過去的幾十年里,人們提出了大量的淺層模型聚類方法,包括基于質心的聚類[7]、[8],基于密度的聚類[9]、[10]、[11]、[12]、[13],基于分布的聚類[14],分層聚類[15],集成聚類[16]、[17],多視圖聚類[18]、[19]、[20]、[21]、[22]、[23]等。這些淺層模型只有在特征具有代表性的情況下才有效,而在復雜數據上,由于特征學習能力較差,其性能往往受到限制。**為了將原始復雜數據映射到易于聚類的特征空間,許多聚類方法都側重于特征提取或特征變換,如PCA[24]、核方法[25]、譜方法[26]、深度神經網絡[27]等。**在這些方法中,深度神經網絡由于其出色的非線性映射能力和在不同場景下的靈活性,是一種很有前途的方法。一種設計良好的基于深度學習的聚類方法(簡稱深度聚類)旨在有效地從數據中提取更多對聚類友好的特征,并同時對學習到的特征進行聚類。在深度聚類領域已經做了大量的研究,也有一些關于深度聚類方法[28],[29],[30],[31]的綜述。具體而言,現有的深度聚類系統綜述主要集中在單視圖聚類任務和神經網絡的體系結構上。例如,Aljalbout等人[28]只關注基于深度自編碼器(AE或DAE)的深度單視圖聚類方法。Min等人[29]從不同深度網絡的角度對深度聚類方法進行了分類。Nutakki等[30]根據訓練策略將深度單視圖聚類方法分為三大類:多步順序深度聚類、聯合深度聚類和閉環多步深度聚類。Zhou等人[31]通過特征學習與聚類模塊的交互方式對深度單視圖聚類方法進行分類。但在現實世界中,用于聚類的數據集總是相關聯的,例如,閱讀的品味與電影的品味相關聯,同一個人的側臉和正面應該被標記為相同的。針對這些數據,基于半監督學習、多視圖學習和遷移學習的深度聚類方法也取得了顯著進展。不幸的是,現有的綜述并沒有過多地討論它們。因此,從數據源和初始條件的角度對深度聚類進行分類非常重要。本文從數據初始設置的角度結合深度學習方法對深度聚類進行了總結。我們從網絡和數據結構的角度介紹了深度聚類的最新進展,如圖1所示。具體來說,我們將深度聚類方法組織為以下四類:

深度單視圖聚類

在傳統的聚類任務中,通常假設數據具有相同的形式和結構,稱為singleview或單模態數據。用深度神經網絡(DNNs)提取這些數據的表示形式是深度聚類的一個重要特征。然而,更值得注意的是不同的應用深度學習技術,這些技術與dnn的結構高度相關。為了比較具體DNN的技術路線,我們將這些算法分為五類:** 基于深度自編碼器(DAE)的深度聚類、基于深度神經網絡(DNN)的深度聚類、基于變分自編碼器(VAE)的深度聚類、基于生成對抗網絡(GAN)的深度聚類和基于圖神經網絡(GNN)的深度聚類**。

** 基于半監督學習的深度聚類**

當待處理數據包含少量先驗約束時,傳統的聚類方法無法有效利用這些先驗信息,而半監督聚類是解決這一問題的有效方法。目前,深度半監督聚類的研究還沒有得到很好的探索。然而,半監督聚類是不可避免的,因為通過向模型中添加額外的約束損失信息,使聚類方法成為半監督聚類方法是可行的。

基于多視圖學習的深度聚類

在現實世界中,數據往往來自不同的特征收集器或具有不同的結構。我們稱這些數據為“多視圖數據”或“多模態數據”,其中每個樣本都有多個表示。基于多視圖學習的深度聚類的目的是利用多視圖數據中所包含的一致性和互補性信息來提高聚類性能。此外,多視圖學習的思想可能對深度單視圖聚類具有指導意義。本文將深度多視圖聚類歸納為三大類:基于深度嵌入聚類、基于子空間聚類和基于圖神經網絡聚類。

基于遷移學習的深度聚類

對于實例數量有限且維度較高的任務,有時我們可以找一個助手來提供額外的信息。例如,如果任務A與另一個任務B相似,而任務B比任務A具有更多的信息用于聚類(B是有標記的或B比A更容易聚類),那么將信息從B轉移到A是有用的。無監督域適應(unsupervised domain adaption, UDA)轉移學習包括兩個域:有標記的源域和無標記的目標域。遷移學習的目標是將從源任務中學到的知識或模式應用到不同但相關的目標任務。基于遷移學習的深度聚類方法旨在利用相關任務的信息提高當前聚類任務的性能。 在研究相應的聚類方法之前,有必要注意聚類數據的不同特征和條件。本文從數據來源和初始條件兩個方面對現有的深度聚類方法進行了系統的分類。分析了不同聚類方法的優缺點和適用條件。最后,我們提出了深度聚類領域的一些有趣的研究方向

付費5元查看完整內容

關于深度學習因果發現綜述論文,值得關注!

理解因果關系有助于構建干預措施,以實現特定目標,并實現干預措施下的預測。隨著因果關系學習的重要性日益突出,因果發現任務已經從使用傳統方法從觀察數據中推斷潛在的因果結構轉向深度學習所涉及的模式識別領域。海量數據的快速積累促進了具有良好可擴展性的因果搜索方法的出現。現有的因果發現方法綜述主要集中在基于約束、評分和FCMs的傳統方法上,缺乏對基于深度學習的方法的完善梳理,也缺乏對可變范式視角下的因果發現方法的思考和探索。因此,我們根據變量范式將可能的因果發現任務劃分為三種類型,并分別給出了三種任務的定義,定義并實例化了每一任務的相關數據集和最終構建的因果模型,然后回顧了現有的針對不同任務的主要因果發現方法。最后,針對目前因果發現領域的研究空白,從不同角度提出了一些路線圖,并指出了未來的研究方向。

導論

因果關系是一種結果和導致結果的treatment 之間的關系。它在我們的生活中無處不在,涉及到幾個領域,如統計學[2]-[5],經濟學[6],[7],計算機科學[8]-[11],流行病學[12]-[14],心理學[15],[16]。舉一個生活中常見的現象,例如,很多人因為下雨而打傘,或者一個學生因為沒有學習而考試考得不好。這種因果關系是因果關系的最簡單表達。然而,我們需要意識到統計相關性和因果關系[17],[18]之間的差異。例如,尼龍襪和肺癌在上個世紀同時大量出現,我們只能得出兩者之間有相關性而不是因果關系,因為吸煙也在這個時候增加了。近年來,因果關系的研究已成為人工智能領域的重要組成部分,從而克服了基于統計的機器學習[19]-[21]的一些局限性。基于有向無環圖(DAG)[22]、[23]結構和貝葉斯模型[24],基于有向無環圖(DAG)[22],[23]結構和貝葉斯模型[24],[25],旨在了解兩個觀測變量在另一個變量影響下的統計關系。此外,因果關系一般可以分為兩個主要方面,因果發現和因果結果推斷[26],[27]。因果發現[28],[29]側重于從觀測數據中獲取因果關系,構建結構因果模型[30],[31],使因果效應推理[32]-[34]可以通過結構因果模型估計變量的變化。因果發現作為因果推理的必要途徑和前提條件,近年來備受關注。

因果發現是確定因果關系的過程,從建立因果骨架開始,進一步以嚴格的DAG(相關算法[21]通常稱為SCMs)結束。因果骨架[27],[35]是一個完全無向圖,所有成對變量都由其中的無向邊連接。然后,根據條件約束和獨立成分分析等統計方法對因果骨架上的因果算法[36],對無向邊進行定向,得到每個有向邊代表一個變量對另一個變量的影響的SCMs。早在機器學習[37],[38]的早期,它就提出了基于條件約束的方法,如IC [39], [40], SGS[41]和PC[38],[42],[43],后來又提出了基于分數的方法GES[44],這些傳統方法提出了正確的因果假設并結合圖模型來發現因果關系。然后,提出了基于LiNGAM[45]、[46]和ANM[47]、[48]功能因果模型(FCMs)的方法,進一步提高了模型的計算效率和適用性;這些都是主流的因果發現方法,因此有許多混合方法[49]-[51]和改進方法結合它們的優點。

以上都適合于探索具有一定數量和值的多個內生變量之間的因果關系,也是研究因果發現的初始領域。由于已有豐富的研究基礎,因果關系的發現已逐漸擴展到模式識別[52]、[53]等領域,如圖像模式識別、文本模式識別等。研究人員發現,在這些內源性二元變量樣本中,不同區域和部分之間也存在因果關系,例如在人臉識別[54]、[55]、細粒度識別[56]、文本情感識別[57]和其他任務[58]、[59]中。這種因果發現方法需要根據研究者的先驗知識或建模需求,將傳統模式識別中的樣本與標簽之間的相關性解釋為可識別樣本中每個區域或部分的因果結構。隨著這一領域因果發現方法的逐漸多樣化,我們考慮是否存在另一種類型的更復雜的變量。一方面,從任務的角度來看,識別、分類、分割等靜態任務的總體成就促使研究者探索由一系列靜態任務組成的動態序列;另一方面,從模型的角度來看,主流網絡模型的深化意味著簡單的任務不再能反映模型之間的差距,因此越來越需要更細粒度的標簽和更多可解釋性的研究。這些原因促使因果發現的研究領域向深度學習領域的序列任務深入。

此外,因果發現的路線圖是USCM的構建。根據現有方法的思想,我們提出了三種路線圖:基于優先級、基于抽樣和基于確定性的方法。因果關系本質上是一種理論,考慮潛在的原因[60]超過兩個變量。就因果理論創立的初衷而言,如果僅僅局限于一個確定或半確定的因果骨架,是不夠接近現實因果關系的。隨著深度學習的不斷發展,USCM是因果理論接近現實世界因果關系的最終目標。這也將驅使我們處理更多與因果相關的任務,例如構建情感和知識產品的過程。此外,基于干預和反事實的研究可以走得更遠,試圖達到人工智能領域的下一個階段。

總的來說,我們的貢獻如下。首先,我們定義了三種類型的任務并說明了它們的過程;其次,定義了三類變量數據集,并比較了它們的不同特征; 第三,界定了三種類型的變量因果范式,并分析了它們的構建過程; 最后,針對USCM面臨的新挑戰,提出了一些解決抽樣不足導致因果發現方法不足問題的路線圖。本文的其余部分組織如下。第二部分定義了明確任務、MVD和DSCM,總結了該范式下常見的MVD和因果發現方法。第三部分界定了半確定任務、BVD和SSCM,梳理了不同領域的BVD及其因果發現方法。同樣,我們定義了不確定任務、IVD和USCM,總結了現有的常用數據集和相關任務,并在第四節比較了這三種數據集與SCM的異同。據此,我們在第五節分析了當前的挑戰并提出了路線圖。最后一節得出了本文的總體結論。

確定任務

在本節中,我們將初始的因果發現任務定義為確定任務,將數據集MVD用于該任務,并將最終的模型DSCM用于顯示已知多個變量中的因果關系。如前所述,我們可以使用不同類型的因果方法來構建DSCM。基于約束和基于評分的方法相對容易理解,但它們受到一些假設的限制,這些假設導致了一些問題,如MEC不可分離性,需要大量樣本來證明可信度,以及無法處理潛在的混雜因素。因此,基于模糊c均值聚類(FCMs)的方法將因果關系以矩陣的形式表示,并首次引入了外生變量(噪聲項)的概念,具有普適性。這些方法都有一個假設,如數據之間的獨立性和外生變量的非高斯性質。既解決了上述局限性,又避免了在條件相關或評分函數中可能遇到的其他問題。混合方法的好處是它結合了不同方法的優點,但它也可能意味著增加復雜性。總之,研究人員很容易通過任何一種方法獲得SCM。因此,他們可以根據建模的需要、數據集的特征和個人喜好來選擇不同的方法。

半確定任務

在本節中,我們定義了另一種常見的因果發現任務,并根據其特點定義了相應的數據集和SCM,總結了現有的研究方法。如前所述,我們對不同的方法進行了比較研究,例如圖像數據比文本數據更容易劃分特征塊和提取先驗共識。在圖像數據中,因果表示直觀且易于表示,但需要用詞向量來表示數據,然后根據先驗從關鍵詞中提取特征塊。這一過程可能會受到不同寫作風格的影響,其中的特征不如圖像數據那么直觀,因此也會有不同,以避免我們忽略的混淆因素和其他偏見。另一方面,文本數據可以直觀地向研究人員傳達一些信息,容易推斷因果關系,如文本主題與情感分析、語法分析等。這些優點可以幫助解決圖像識別中的一些困難和矛盾。此外,我們提出了一些指標來描述與SSCM性能間接相關的視覺結果。雖然不能直接判斷SSCM的好壞,但可以為后續實驗帶來更多的可解釋性內容。綜上所述,因果發現中SSCM的存在是非常重要和不可避免的,它有助于我們通過深度學習的方法更好地學習樣本表示及其上下文特征。 不確定任務

在本節中,我們定義了一種新的因果發現任務——不確定任務,并根據其特點定義了相應的數據集IVD和USCM,總結了現有的不同類型的IVD。此外,IVD還有一些特性。序列數據本身包含許多因果關系。例如,在對話序列中,不同人之間的對話是相互依賴的;在音樂序列中,不同的節奏部分相互作用;在視頻序列中,視頻的每一幀都是一張圖片,圖片中的不同物體有各自的因果關系。從另一個角度來看,視頻序列的因果關系比對話序列的因果關系更連續,對話的性質導致了離散的因果關系。通過對MVD、BVD和IVD的整理和比較,我們發現它們的相似之處在于它們都涉及相同的因果問題和結論。例如,這些數據集中存在先驗;所有這些數據集都可能存在混雜因素,其中混雜因素均以叉形結構存在,且都需要排除混雜因素的影響;同樣,我們都可以對這些數據集進行一些因果操作,如干預和反事實。另一方面,兩者之間也有一些區別。在MVD中,多個變量在數量、意義和抽樣上都有明確的反映,因此,當我們可以根據MVD的先驗直接獲得唯一的因果骨架,進而構建唯一的DSCM時;在BVD中,只有兩個確定的原始變量,多維時空序列數據被標記為多種類型,只能根據研究者的先驗知識從數據中劃分出其他外生變量來構建因果骨架。雖然有一定數量的因果變量,但由于BVD的弱先驗,我們最終得到的SSCM并不是唯一的。此外,IVD也有兩個變量,但是它的數據和標簽是以序列的形式存在的,所以我們很難獲得除了樣本量之外的其他確定的信息。我們需要將不同的序列片段作為因果變量來構建因果骨架,因此得到的USCM并不是由于其不可抽樣性而造成的唯一原因,USCM的數量接近于IVD的樣本量。

付費5元查看完整內容

近年來,深度學習的發展引出了能夠學習數據內在表示和性質的表達方法。這種功能提供了新的機會,可以找出數據的結構模式和功能屬性之間的相互關系,并利用這種關系來生成給定所需屬性的結構性數據。本文對可控深度數據生成這一前景廣闊的研究領域進行了系統的綜述。

在目標屬性下設計和生成新數據已經吸引了各種關鍵應用,如分子設計、圖像編輯和語音合成。傳統的手工制作方法嚴重依賴專業經驗和密集的人力努力,但仍然受到科學知識的不足和低吞吐量的影響,以支持有效和高效的數據生成。近年來,深度學習的發展引出了能夠學習數據內在表示和性質的表達方法。這種功能提供了新的機會,可以找出數據的結構模式和功能屬性之間的相互關系,并利用這種關系來生成給定所需屬性的結構性數據。本文對可控深度數據生成這一前景廣闊的研究領域進行了系統的綜述。首先,提出了潛在的挑戰,并提供了初步建議。然后正式定義了可控深度數據生成技術,提出了可控深度數據生成技術的分類方法,總結了可控深度數據生成技術的評價指標。在此基礎上,介紹了可控深度數據生成技術的重要應用,并對已有的研究成果進行了實驗分析和比較。最后,指出了可控深度數據生成的未來發展方向,并指出了5個潛在挑戰。

//www.zhuanzhi.ai/paper/9ce23982a0872977f5df286c1f4f388f

數據生成是一個重要的領域,旨在捕捉數據的固有分布,以生成類似的新數據。由于其在分子設計[1-3]、圖像編輯[4-6]、文本生成[7,8]和語音合成[9-11]等關鍵領域的廣泛應用,它是一個持久、快速發展的重要領域。數據生成需要探索和操作復雜的數據結構,這在歷史上導致了高成本,密集的人力,豐富的領域知識在大(通常是離散的)搜索空間。部分由于這個原因,傳統的數據生成方法都是針對特定領域定制的,領域啟發式規則與工程更容易得到應用[12-15]。例如,藥物設計的過程,即產生新的分子結構,通常需要化學家手工制作候選結構,然后測試它們是否能帶來期望的性質,如溶解度和毒性。還可以利用泛型算法等計算方法,根據領域知識[16]設計分子突變和交叉規則,對分子結構進行組合搜索。然而,分子結構空間是巨大的: 例如,現實的類藥物分子的數量估計在10^33[17]左右,這給搜索和識別感興趣的結構帶來了相當大的困難。此外,在許多領域,如神經科學,電路設計,蛋白質結構,我們的領域知識仍然非常有限和不完整。對數據生成過程的缺乏理解限制了我們重新生成甚至創建具有所需屬性的新數據的能力。另一個例子是邏輯電路設計,其目的是輸出所需的集成電路原理圖。傳統的電路設計是一個相當復雜的過程,需要根據電荷的特性對電路元件的行為進行大量的數學建模[13,18],并根據不同電路器件的性質選擇合適的材料[13,19]。值得注意的是,對傳統數據生成技術的詳細綜述可以在特定的領域單獨找到[13,15,20,21]。

近年來,深度學習的發展為我們解決上述數據生成方面的挑戰提供了新的機遇。深度學習技術在學習圖像、文本、序列和圖等各種數據類型的表示方面取得了巨大的成功[22-26]。這進一步使我們能夠適應從數據結構到其相應(潛在)特征的映射,其中前者通常可以是離散的和非結構化的,而后者是連續的向量或矩陣。因此,我們不需要使用昂貴的組合算法來直接探索復雜數據結構的高維空間,而是可以使用高效的算法(如基于梯度的算法)來探索數據在連續向量空間中的潛在特征。例如,蛋白質結構是由氨基酸序列形成的,因此序列數據的分布可以被序列深度學習模型(如遞歸神經網絡(RNNs)和變壓器[27])捕獲和編碼。然后從學習到的蛋白質結構潛在空間[28]中自回歸生成新的氨基酸序列。研究表明,與Rosetta[29]等傳統框架相比,基于深度學習的蛋白質設計方法獲得了更大的序列多樣性。此外,由于深度學習以端到端方式提取潛在特征,可以大大減少對領域知識的依賴。例如,在圖像合成領域,基于深度學習的技術可以學習特定藝術家畫作的潛在語義表示,并很容易地擬合其在潛在空間中的分布,因此合成同一藝術家的新畫作簡單地就是一個采樣+解碼過程[30]。另外,由于領域知識的獨立性更強,基于深度學習的數據生成技術在不同數據類型或應用程序中更容易一般化或交叉使用方面具有更好的潛力。

盡管黑盒深度學習技術有望解決數據生成中的傳統障礙,但如何填補學習到的潛在特征和感興趣的真實屬性之間的空白對于確保生成的數據結構和期望屬性之間的對齊至關重要。在典型的現實世界應用中,生成具有所需特性的數據是事實上的先決條件,從醫學設計[31,32],到電路混淆[33],到藝術設計[34,35],再到音頻合成[36,37]。例如,化學家不僅可以生成新型季銨鹽化合物(QACs),還希望生成的QACs在水中具有強溶解性,最低抑菌濃度(MIC)小于4mg/L,以確保抗菌性[38]。圖像描述社區可能期望從長度小于10個單詞的圖像中以幽默的風格生成更多類似人類的文本[39,40]。因此,為了解決深度學習技術產生的數據屬性控制這一核心問題,近年來可控深度數據生成的需求和研究主體快速增長[1,6,41 - 43]。

迄今為止,已有相當多的研究致力于可控深度數據生成,以應對上述挑戰。為了推進最先進的技術和預見潛在的研究機會,全面了解現有工作的優勢和弱點是很重要的。此外,在控制不同領域的數據生成方面也有廣泛的興趣。雖然大多數提出的方法都是針對單個應用領域設計的,但將它們的技術推廣到其他應用領域是有益的,也是可能的。因此,交叉引用這些服務于不同應用領域的方法是困難的,需要加以解決。此外,可控的深度數據生成結果的質量要求在各個應用領域專門設計評價策略。因此,我們需要對不同領域的不同評價策略進行系統的標準化和總結。此外,人工智能(AI)科學家正在尋找新的可用數據集來測試他們的可控深度數據生成模型,而特定領域的社區正在尋找更強大的控制技術來生成具有期望屬性的復雜結構化數據,鑒于這兩方面的需求不斷增長,對現有可控深度數據生成技術的系統綜述限制了雙方數據生成的進展。為了填補這一空白,本研究旨在通過對可控深度數據生成技術的系統綜述,幫助跨學科研究人員了解可控深度數據生成的基本原理,選擇合適的技術解決相關領域的問題,并以標準化的評估場景推進研究前沿。這項綜述的主要貢獻總結如下:

  • 對現有技術進行系統的總結、分類和比較。根據可控深度數據生成過程的觸發方式,對現有可控深度數據生成技術進行了全面的分類,形成了新的分類框架。討論并比較了該分類法不同子類別的技術細節、技術優缺點。這種分類法的提出是為了使來自不同應用領域的研究人員能夠定位最適合他們需要的技術。

  • 標準化的評估指標和流程。從歷史上看,數據生成方法和它們的評估通常是針對單個領域定制的,盡管它們有共同的抽象問題和目標,但并沒有很好地統一。針對這一問題,本文總結了可控深度數據生成的常用評價指標和流程,并從生成數據質量和屬性可控性兩個角度對其進行標準化。

  • 對主要應用進行全面的分類和總結。對分子合成與優化、蛋白質設計、圖像編輯、情感語音生成等主要應用進行了全面的介紹和總結。本文比較并充分討論了應用于這些應用領域的各種技術。對這些主要應用的全面分類和總結,將有助于人工智能研究人員探索廣泛的應用領域,并指導這些領域的研究人員使用適當的技術生成數據。

  • 對現有基準數據集進行系統綜述,并對現有技術進行實證比較。根據不同的數據模式,系統地總結了各應用領域借鑒的基準數據集。此外。實驗結果由我們和同行評議的文章進行,以比較在這些基準數據集上生成可控深度數據的代表性模型。對現有基準數據集的系統綜述和代表性技術的實證比較將使模型開發人員能夠使用額外的數據集來評估他們的模型,并將他們提出的模型的性能與基準結果進行比較。

  • 對當前的研究現狀和潛在的未來方向進行了深刻的討論。本文通過對可控深度數據生成技術、標準化評價指標、廣泛的應用范圍、基準數據集的系統回顧和現有技術的實證比較,對該領域存在的幾個問題提出了深刻的見解,并展望了該領域未來的發展方向。

在第一部分中,我們首先介紹了可控深度數據生成的背景、挑戰、我們的貢獻、我們的綜述與現有綜述的關系。然后在第2節中,我們將介紹用于深度數據生成的通用框架作為初步介紹。接下來,我們正式闡述了可控深度數據生成問題(章節3.1),并在章節3中根據各種屬性控制技術(章節3.2)提出了分類方法,然后在同一章節中總結了評價指標。在第4節中,我們介紹了可控深度數據生成的技術,并根據我們的分類,詳細解釋了從無開始可控生成(第4.1節)和從源數據可控轉化(第4.2節)的概念和代表工作。在第5節中,我們將展示在4.1節和4.2節中回顧的模型在各種領域特定任務中的應用,然后介紹這些領域中使用的流行數據集。此外,在第6節中,我們對常用的分子、圖像、文本和音頻數據集進行了實驗比較和分析,用于可控的深度數據生成。在后面的第7節中,我們將介紹該領域的潛在挑戰、機會和現有方法的局限性。我們將在第8部分結束我們的綜述。

付費5元查看完整內容

深度學習通常被描述為一個實驗驅動的領域,并不斷受到缺乏理論基礎的批評。這個問題已經部分地被大量的文獻解決了,這些文獻至今沒有被很好地組織起來。本文對深度學習理論的最新進展進行了綜述和整理。文獻可分為六類: (1)基于模型復雜度和容量的深度學習泛化; (2)用于建模隨機梯度下降及其變量的隨機微分方程及其動力學系統,其特征是深度學習的優化和泛化,部分受到貝葉斯推理啟發; (3)驅動動力系統軌跡的損失的幾何結構; (4)深度神經網絡的過參數化從積極和消極兩個方面的作用; (5)網絡架構中幾種特殊結構的理論基礎; (6)對倫理和安全及其與普遍性的關系的日益關注。

//arxiv.org/pdf/2012.10931.pdf

概述

深度學習可以廣義定義為使用人工神經網絡從經驗中發現知識以進行預測或決策的一系列算法[138]。經驗的規范形式可以是人類注解的電子記錄作為數據集,也可以是學習者或電子環境之間的交互作用,取決于場景[169]。在深度學習中,一般的人工神經網絡通常是把一個由非線性激活函數組成的序列的權值矩陣連接成一個網絡,這種網絡具有相當大的參數大小。

深度學習的術語是由Dechter[62]引入機器學習,然后由Aizenberg等人[5]引入腦啟發算法,其中幾個主要概念可以追溯到20世紀40年代早期。深度學習的研究在20世紀40 - 60年代[162,111,199]和80 - 90年代[201]經歷了兩次上升后下降。第三次和當前的浪潮開始于2006年[24,114,196],一直持續到現在。最近的浪潮已經從本質上重塑了許多真實世界的應用領域,包括計算機視覺[110]、自然語言處理[63,184]、語音處理[64]、3D點云處理[98]、數據挖掘[232]、推薦系統[247]、自動駕駛汽車[152,215]、醫療診斷[135,209]和藥物發現[43]。

然而,到目前為止,深度學習的發展嚴重依賴實驗,缺乏堅實的理論基礎。深度學習機制的許多方面仍然是未知的。我們不斷地驚訝地發現啟發式方法可以在廣泛的領域實現出色的性能,盡管有時也相當不穩定。與此同時,直覺方法往往未被證實,甚至未被驗證。這種做法是可以容忍的,并且在深度學習研究中已經變得普遍。這種黑盒特性給深度學習應用帶來了未知的風險。這種不了解在很大程度上削弱了我們識別、管理和預防算法導致的災難的能力,并進一步嚴重損害了我們將最近的進展應用于許多工業部門的信心,特別是在安全關鍵領域,如自動駕駛汽車、醫療診斷和藥物發現。這也對深度學習算法設計的未來發展產生了沖擊。

理論基礎的一個主要部分是泛化,泛化是指通過深度學習算法對未見數據進行預測,在訓練數據上訓練好的模型的能力[224,169]。由于訓練數據不能覆蓋未來的所有情況,良好的泛化性保證了所學的模型能夠處理未知事件。在長尾事件經常出現并有可能造成致命災難的地方,這一點尤其重要。

統計學習理論建立了基于假設復雜度的泛化理論[224,169]。這些工具能解決深度學習理論中的問題嗎?答案是否定的。傳統工具通常根據假設復雜度構建泛化邊界,如vc維[28,223]、Rademacher復雜度[130,129,21]和覆蓋數[73,104]。在經典的結果中,這些復雜性很大程度上依賴于模型的大小。這就引入了奧卡姆剃刀原理:

如無必要,勿增實體

即,只要模型能夠擬合訓練樣本,就需要找到一個足夠小的模型來防止過擬合。然而,深度學習模型通常具有非常大的模型規模,這有時會使泛化界甚至大于損失函數的潛在最大值。此外,根據Occam 's razor原理,可泛化性與模型大小之間存在正相關關系,而這在深度學習中已經不存在了。相比之下,更深更廣的網絡往往具有優越的性能[38]。深度學習卓越的泛化能力與其極端的過參數化之間的矛盾,就像傳統復雜學習理論的一朵“云”。

早期的工作試圖建立深度學習的理論基礎[172,90,22,20,23,158,11],但很大程度上由于深度學習研究的廣泛發展而停滯不前。

最近的研究始于Zhang等人在2017年的工作[244]。作者進行了系統的實驗來探索深度神經網絡的泛化能力。他們表明,即使訓練標簽是隨機的,神經網絡也能幾乎完美地擬合訓練數據。如何從理論上解釋深度神經網絡的成功,是學習理論界關注的一個重要話題。Kawaguchi等人[122]討論了許多關于深度神經網絡在容量大、復雜性、算法可能不穩定、非魯棒性和極小值尖銳的情況下仍具有出色泛化能力的開放問題。作者也提出了一些解決問題的見解。從那時起,深度學習理論的重要性得到了廣泛的認識。大量文獻的出現建立了深度學習的理論基礎。在本文中,我們回顧了相關文獻,并將其歸納為以下六類:

  • **基于復雜度和容量的方法分析深度學習泛化性。**傳統的統計學習理論根據假設空間的復雜度,建立了一系列泛化誤差(泛化界)的上界,如vc維[28,223],Rademacher復雜度[130,129,21],覆蓋數[73,104]。通常,這些泛化范圍明確地依賴于模型的大小。他們認為,控制模型的大小可以幫助模型更好地泛化。然而,深度學習模型龐大的模型規模也使得泛化范圍顯得空洞。因此,如果我們能夠開發出大小無關的假設復雜度度量和泛化邊界是非常值得期待的。一種有前景的方法是刻畫深度學習中可以學習的“有效”假設空間的復雜性。有效假設空間可以明顯小于整個假設空間。因此,我們可以期望得到一個小得多的泛化保證。

  • **隨機梯度下降(SGD)及其變體模型的隨機偏微分方程(SDE)在深度學習優化算法中占主導地位。**這些SDEs的動態系統決定了訓練神經網絡中權值的軌跡,其穩定分布代表了學習網絡。通過SDEs及其動力學,許多工作為深度學習的優化和泛化提供了保障。“有效”假設空間正是“SGD能找到的”假設空間。因此,通過SGD研究深度學習的普遍性將是直接的。此外,這一系列的方法部分受到貝葉斯推斷的啟發。這與前面的變異推斷相似,后者以優化的方式解決了貝葉斯推斷,以解決縮放問題。這種隨機梯度方法和貝葉斯推斷之間的相互作用將有助于這兩個領域的發展。

  • **高度復雜的經驗風險曲面的幾何結構驅動動態系統的軌跡。**損失曲面觀的幾何形狀在驅動SDEs的軌跡方面起著重要作用:(1)損失的導數是SDEs的組成部分;(2)損失作為SDEs的邊界條件。因此,理解損失面是建立深度學習理論基礎的關鍵一步。通常,“正則化”問題的可學習性和優化能力是有保證的。1“正則化”可以用許多術語來描述,包括凸性、李普希茨連續性和可微性。然而,在深度學習中,這些因素不再得到保障,至少不是很明顯。神經網絡通常由大量的非線性激活組成。激活過程中的非線性使得損失曲面極其不光滑和非凸。所建立的凸優化保證失效。損失曲面令人望而卻步的復雜性,使社區長時間難以接觸到損失曲面的幾何形狀,甚至深度學習理論。然而,損失面復雜的幾何形狀恰恰表征了深度學習的行為。通過損失曲面是理解深度學習的“捷徑”。

  • 深度神經網絡的過參數化作用。 過度參數化通常被認為是通過基于復雜性的方法為深度學習開發有意義的泛化邊界的主要障礙。然而,最近的研究表明,過度參數化將對塑造深度學習的損失曲面做出主要貢獻——使損失曲面更加光滑,甚至“類似”凸。此外,許多研究也證明了神經網絡在極端過參數化情況下與一些更簡單的模型(如高斯核)等效。

  • **網絡架構中幾種特殊結構的理論基礎。**在前面的綜述中,我們主要關注的結果一般代表所有的神經網絡。同時,深度神經網絡的設計涉及到許多特殊的技術。這些結構也對深度學習的卓越性能做出了重要貢獻。我們回顧了卷積神經網絡、遞歸神經網絡和置換不變/等變函數網絡的理論成果。

  • **深入關注倫理和安全以及它們與深度學習理論的關系。**深度學習已經被部署在越來越廣泛的應用領域。其中一些涉及高度隱私的個人數據,如手機上的圖像和視頻、健康數據和最終記錄。其他一些場景可能需要深度學習來提供高度敏感的決策,比如抵押貸款審批、大學入學和信用評估。此外,研究表明,深度學習模型容易受到對抗性例子的攻擊。如何保護深度學習系統免受隱私保護、公平保護和對抗攻擊等方面的破壞是非常重要的。

本文結構

本文綜述了深度學習理論基礎研究的最新進展。我們承認有一些論文回顧了深度學習理論。Alom等人[9]對深度學習中使用的技術進行了調查。Sun[214]綜述了深度學習中的優化理論。E等人[81]總結了深度學習中最優化的近似和ademacher復雜性、損失面以及收斂和隱式正則化相關的結果和挑戰。我們的調查是最全面的。我們以獨特的視角組織文獻,并為未來的作品提供新的見解。

深度學習的極好的泛化性就像傳統復雜學習理論的“云”:深度學習的過度參數化使得幾乎所有現有的工具都變得空洞。現有的工作試圖通過三個主要途徑來解決這一問題: (1)開發大小無關的復雜性測度,它可以表征可學習的“有效”假設空間的復雜性,而不是整個假設空間。第二節討論了相關工作; (2) 基于隨機微分函數和相關損失函數的幾何性質,利用深度學習中占主導地位的優化器隨機梯度方法對所學假設進行建模。有關的工作在第3及4節檢討; (3) 過度參數化出人意料地為損失函數帶來了許多良好的性質,進一步保證了優化和泛化性能。相關工作在第5節中給出。與此同時,第6節回顧了網絡體系結構特殊結構的理論基礎。

機器學習的另一個重要方面是對道德和安全問題的日益關注,包括隱私保護、對抗魯棒性和公平保護。具體地說,隱私保護和對抗魯棒性與可泛化性密切相關:泛化性好通常意味著隱私保護能力強;更穩健的算法可能會有。本文還討論了在深度學習場景中,如何理解這些問題之間的相互作用。相關工作將在第7節討論。

付費5元查看完整內容

可解釋人工智能(xAI)是近年來出現的一個有趣的問題。許多研究人員正試圖從不同的角度和有趣的結果來處理這個問題。然而,我們在理解這些類型的模型方面仍處于起步階段。在未來的幾年里,深度學習模型的開放性將被討論。在經典的人工智能方法中,我們經常遇到深度學習方法。這些深度學習方法可以根據數據集大小、數據集質量、用于特征提取的方法、用于深度學習模型的超參數集、激活函數和優化算法得出高效的結果。然而,目前的深度學習模型還存在一些重要的不足。這些基于人工神經網絡的模型是黑盒模型,它概括傳輸給它的數據并從數據中學習。因此,輸入和輸出之間的關系是不可觀察的。這是人工神經網絡和深度學習模型的一個重要開放點。由于這些原因,有必要認真研究黑盒模型的可解釋性和可解釋性。

付費5元查看完整內容
北京阿比特科技有限公司