將離散概率分布和組合優化問題集成到神經網絡中有許多應用,但也帶來了一些挑戰。本文提出隱式最大似然估計(I-MLE),一種結合離散指數族分布和可微神經組件的模型端到端學習框架。I-MLE應用廣泛:它只要求能夠計算最可能的狀態;并且不依賴平穩的放松。該框架包括幾種方法,如基于擾動的隱微分和最近通過黑盒組合求解器進行微分的方法。本文引入一類新的噪聲分布,用于通過擾動和映射逼近邊界。當在一些最近研究的涉及組合求解器的學習環境中使用時,I-MLE簡化為最大似然估計。在幾個數據集上的實驗表明,I-MLE與現有的依賴于特定問題松弛的方法相比是有競爭力的,并且往往優于現有的方法。
**與經典的監督學習不同,強化學習(Reinforcement Learning, RL)從根本上講是交互式的:一個自主智能體必須學會如何在未知、不確定甚至可能是對抗的環境中表現,通過與環境的主動交互來收集有用的反饋以提高其序列決策能力。**RL智能體還將干預環境:智能體做出的決策反過來影響環境的進一步演化。由于它的通用性——大多數機器學習問題都可以視為特例——RL是困難的。由于沒有直接監督,強化學習的一個核心挑戰是如何探索未知環境并有效收集有用的反饋。在最近的強化學習成功故事中(例如,在電子游戲上的超人表現[Mnih等人,2015]),我們注意到它們大多數依賴于隨機探索策略,如e-greedy。類似地,策略梯度方法,如REINFORCE [Williams, 1992],通過將隨機性注入行動空間來進行探索,并希望這種隨機性可以產生一個獲得高總回報的良好行動序列。理論強化學習文獻已經開發了更復雜的算法來進行有效探索(例如,[Azar等人,2017]),然而,這些接近最優算法的樣本復雜度必須相對于底層系統的關鍵參數(如狀態和動作空間的維度)呈指數級增長。這種指數依賴性阻礙了這些理論上優雅的RL算法直接應用于大規模應用。總之,如果沒有任何進一步的假設,RL在實踐和理論上都是困難的。
**本文試圖通過引入額外的假設和信息源來獲得對強化學習問題的支持。本文的第一個貢獻來自于通過模仿學習提高強化學習的樣本復雜度。**通過利用專家的演示,模仿學習大大簡化了探索的任務。本文考慮兩個設置:交互式模仿學習設置,其中專家在訓練期間可以進行查詢;以及僅從觀察中進行模仿學習的設置,其中只有一組演示,由對專家狀態的觀察組成(沒有記錄專家的行動)。本文從理論和實踐兩方面研究了與純強化學習方法相比,如何模仿專家來降低樣本復雜度。第二個貢獻來自無模型強化學習。具體而言,我們通過構建一個從策略評估到無悔在線學習的總體約簡來研究策略評估,無悔在線學習是一個活躍的、具有良好理論基礎的研究領域。這種約簡創建了一個新的算法族,用于在對生成過程的非常弱的假設下可證明正確的策略評估。然后對兩種無模型探索策略:行動空間探索和參數空間探索進行了深入的理論研究和實證研究。本文工作的第三個貢獻來自基于模型的強化學習。本文在基于模型的強化學習和一般無模型強化學習方法之間首次實現了樣本復雜度的指數級分離。本文提供了基于PAC模型的強化學習算法,可以同時對許多感興趣的mdp實現樣本效率,如表格mdp、可分解mdp、Lipschitz連續mdp、低秩mdp和線性二次控制。本文還提供了一個更實用的基于模型的強化學習框架,稱為雙策略迭代(DPI),通過將最優控制、模型學習和模仿學習集成在一起。此外,本文給出了廣義收斂性分析,將現有的近似策略迭代理論擴展到DPI。DPI推廣并為最近成功的實際強化學習算法(如ExIt和AlphaGo Zero)提供了第一個理論基礎[Anthony等人,2017,Silver等人,2017],并提供了一種理論可靠和實際有效的方法來統一基于模型和無模型的強化學習方法。
本文提出了一種具有全局最優保證和復雜度分析的策略梯度法,用于模型失配情況下的魯棒強化學習。魯棒強化學習是學習一種魯棒的策略來模擬模擬環境和真實環境之間的不匹配。我們首先建立了魯棒策略梯度,它適用于任何可微參數策略類。我們證明了所提出的穩健策略梯度方法在直接策略參數化下漸近收斂于全局最優。我們進一步開發了一種平滑魯棒的策略梯度方法,并表明要實現-全局最優,復雜度為O(e?3)。然后我們將我們的方法擴展到一般的無模型環境,并設計了具有可微參數策略類和價值函數的魯棒行為-評論方法。我們進一步刻畫了它在表格設置下的漸近收斂性和樣本復雜性。最后,我們提供了仿真結果,以證明我們的方法的魯棒性。
本文提出了一種基于無監督學習的視頻目標分割方法。與之前的工作不同,我們的公式允許在完全卷積的情況下直接學習密集特征表示。我們依靠統一的網格采樣來提取一組錨點,并訓練我們的模型來在視頻間和視頻內消除它們之間的歧義。然而,訓練這樣一個模型的樸素方案會得到一個退化解。我們提出了一種簡單的正則化方案來防止這種情況,該方案適應了分割任務對相似變換的等方差特性。我們的訓練目標實現高效,并表現出快速的訓練趨同。在已建立的VOS基準上,我們的方法超過了以前工作的分割精度,盡管使用的訓練數據和計算能力明顯更少。
在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而,它建立在數據分布是平穩的假設之上,即。在訓練和測試時,數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外,它不適合于真實世界的用例,在這些用例中,數據分布預計會在模型的生命周期中發生變化。
本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式,并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后,我們繼續采取步驟,以減輕分布轉移對NLP模型的影響。為此,我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講,我們證明了這些方法產生了更魯棒的模型,正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分,我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感,獲得了一個新的梯度更新規則,緩解了適應過程中災難性的遺忘問題。
我們從評估開始,因為分布轉移特別難以描述和測量,特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說,如何有效地衡量兩個句子之間的語義相似度還不清楚,因此沒有直接的方法來衡量兩個樣本之間的差異,更不用說兩種分布了。因此,作為解決分布偏移的第一步,我們提出了一個新的基準(第3章)和評估指標(第4章),分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手,我們開始構建魯棒的模型,這些模型經過訓練,即使在沒有關于轉移本質的明確信息的情況下,對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的,以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說,我們制定了一個分布魯棒優化框架的參數化版本,該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后,在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好,我們必須能夠使它們適應我們遇到的任何新情況。因此,我們研究了一種機制,通過這種機制,我們能夠根據新的證據微調訓練模型,而不會忘記之前獲得的知識(第7章)。
【導讀】前不久發表在 Nature Review Physics 雜志上的一篇綜述論文「Physics-informed machine learning」提出了「教機器學習物理知識以解決物理問題」的觀點。并引出“基于物理信息的機器學習”概念。近日,來自德國Fraunhofer機器學習中心發布了首篇引入先驗知識機器學習的綜述論文《知信機器學習》,非常值得關注!
摘要
盡管機器學習取得了巨大的成功,但在處理不足的訓練數據時也有其局限性。一個潛在的解決方案是將先驗知識額外集成到訓練過程中,這導致了知信機器學習(Informed Machine Learning )的概念。在本文中,我們提出了一個結構化的概述,各種方法在這一領域。我們為知信機器學習提供了一個定義并提出了一個概念,說明了其構建模塊,并將其與傳統機器學習區分開來。我們引入了一種分類法,作為知信機器學習方法的分類框架。它考慮了知識的來源,它的表示,以及它與機器學習管道的集成。基于這種分類法,我們綜述了相關的研究,并描述了不同的知識表示(如代數方程、邏輯規則或模擬結果)如何在學習系統中使用。在我們的分類基礎上對眾多論文進行評估,揭示了知信機器學習領域的關鍵方法。
//www.zhuanzhi.ai/paper/bcb3bf457735e5f7fe89e40e4a914cf6
引言
從計算機視覺[1]到語音識別[2],從文本理解[3]到游戲AI[4],機器學習在構建模式識別模型方面取得了巨大成功。除了這些經典領域,機器學習,特別是深度學習,在工程和科學領域越來越重要,越來越成功。這些成功的例子是建立在從大量樣本中學習的數據驅動方法。
然而,在許多情況下,純數據驅動的方法可能達到其極限或導致不令人滿意的結果。最明顯的情況是沒有足夠的數據來訓練性能良好和足夠一般化的模型。另一個重要的方面是,純數據驅動的模型可能不滿足自然法則或監管或安全準則等約束,而這些約束對于值得信賴的AI[8]很重要。隨著機器學習模型變得越來越復雜,對模型的可解釋性和可解釋性的需求也越來越大。
這些問題導致了更多關于如何通過在學習過程中加入先驗知識來改進機器學習模型的研究。雖然將知識集成到機器學習中很常見,例如通過標簽或特征工程,但我們注意到,人們對更多知識的集成越來越感興趣,特別是對進一步的正式知識表示。例如,邏輯規則[10]、[11]或代數方程[12]、[13]被添加為損失函數的約束。知識圖譜可以利用實例[14]之間的關系信息增強神經網絡,這在圖像分類[15],[16]中很有意義。此外,物理模擬已經被用來豐富訓練數據[17],[18],[19]。這種方法上的異質性導致了一些命名上的冗余; 例如,我們發現了一些術語,如基于物理信息的深度學習[20],物理引導的神經網絡[12],或基于語義的正則化[21]。最近研究活動的增長表明,數據和知識驅動方法的結合在越來越多的領域變得相關。然而,越來越多的研究論文在這一領域激發了一個系統的綜述。
最近的一項綜述將此作為理論指導的數據科學的新范式,并指出了在機器學習[22]中加強科學一致性的重要性。甚至對于支持向量機,也有一個關于將知識整合到這種形式的[23]中的綜述。符號化人工智能和連接主義人工智能的融合似乎越來越容易實現。在這方面,我們參考了最近一項關于圖神經網絡的綜述和一個研究方向,即關系歸納偏差[24]。通過提供集成到機器學習中的知識表示的系統分類,我們的工作補充了上述綜述。我們提供了一個結構化的概述,基于如何將額外的先驗知識集成到機器學習管道的大量研究論文的綜述。作為這類方法的總稱,我們今后將使用知信機器學習。
我們的貢獻有三個方面: 我們提出了一個關于知信機器學習的抽象概念,闡明了其構建模塊以及與傳統機器學習的關系。它指出,知信學習使用由數據和先驗知識組成的混合信息源,該信息源來自一個獨立的信息源,并由形式化表示給出。我們的主要貢獻是引入了一種分類知信機器學習方法的分類法,這是一種新穎的,也是同類中第一個。它包含了知識來源的維度,它的表示,以及它與機器學習管道的集成。我們特別強調對各種知識表示進行分類,因為這可能使從業者能夠將他們的領域知識整合到機器學習過程中。此外,我們給出了可用方法的描述,并解釋了不同的知識表示,例如代數方程、邏輯規則或模擬結果,如何可以用于知信機器學習。
圖2: 知信機器學習的分類結構。該分類法根據上述知識來源、知識表示和知識集成三個分析問題,作為知信機器學習的分類框架和結構方法。
近年來,互信息(MI)在限制深度神經網絡(DNNs)泛化誤差方面引起了人們的廣泛關注。然而,由于很難準確估計神經網絡中的信息熵,因此以往的研究大多都需要放寬信息熵的界限,從而削弱了對泛化的信息理論解釋。針對這一局限性,本文引入了一種用于精確估計MI的DNNs的概率表示方法。利用本文提出的MI估計器,我們驗證了對泛化的信息理論解釋,并得出了一個比最先進的松解更緊的概化邊界。
正則化旨在通過對學習算法進行修改來減少模型的泛化誤差。? 正則化正是解決深度學習中的過擬合和欠擬合問題的一個途徑。? 正則化往往會增加模型的訓練誤差。
Dropout的大體思想就是,在標準神經網絡進行前向傳播時,讓某些神經元的激活值以一定的概率 停止工作。由于這樣做會減少模型對局部特征的依賴,使得模型泛化能力提升,從而緩解過擬合問 題。
自適應學習率 指的是在訓練過程中學習率可變,那么模型收斂速度會明顯提升。三種常 用的自適應學習率算法:? Adagrad ? RMSprop ? Adam
批標準化是一種簡化計算并又能保證數據原始的表達能力的解決內協變量移位問題的方法
原型驅動的文本生成使用非參數模型,該模型首先從句子庫中選擇“原型”,然后修改原型生成輸出文本。這些方法雖然有效,但測試時效率低下,因為需要對整個訓練語料庫進行存儲和索引。此外,現有的方法通常需要啟發式來確定在訓練時引用哪個原型。在本文中,我們提出了一種新的生成模型,它可以自動學習稀疏原型支持集,同時也可以獲得較強的語言建模性能。通過(1)在原型選擇分布上施加稀疏誘導先驗,(2)利用平攤變分推理學習原型檢索函數來實現。在實驗中,我們的模型優于以前的原型驅動的語言模型,同時實現了高達1000倍的內存減少,以及測試時1000倍的加速。更有趣的是,當我們改變原型選擇的稀疏性時,我們展示了學習的原型能夠在不同的粒度捕獲語義和語法,并且可以通過指定生成的原型來控制某些句子屬性。