證據回歸網絡(ENet)估計一個連續目標及其預測的不確定性,無需昂貴的貝葉斯模型平均。然而,由于ENet原始損失函數的梯度收縮問題,即負對數邊際似然損失,有可能導致目標預測不準確。本文的目標是通過解決梯度收縮問題來提高ENet的預測精度,同時保持其有效的不確定性估計。一個多任務學習(MTL)框架,被稱為MT-ENet,被提出來實現這一目標。在MTL中,我們將Lipschitz修正均方誤差(MSE)損失函數定義為另一種損失,并將其添加到現有的NLL損失中。設計了Lipschitz修正均方誤差損失,通過動態調整其Lipschitz常數來緩解梯度與NLL損失之間的沖突。這樣,李普希茨均方誤差損失不影響NLL損失的不確定性估計。MT-ENet提高了ENet的預測精度,同時在合成數據集和現實基準上,包括藥物-目標親和(DTA)回歸,不喪失不確定性估計能力。此外,MT-ENet在DTA基準上具有顯著的校準和非分布檢測能力。
與傳統的監督學習不同,在許多情況下,只有部分反饋是可用的。我們可能只觀察所選擇的行動的結果,而不是與其他選擇相關的反事實的結果。這些設置包括各種各樣的應用,包括定價、在線營銷和精準醫療。一個關鍵的挑戰是,觀測數據受到系統中部署的歷史策略的影響,從而產生偏倚的數據分布。我們將這一任務視為一個領域適應性問題,并提出了一種自訓練算法,該算法通過偽標記將觀察數據中有限的看不見的行動的分類值的結果來模擬隨機試驗,我們稱之為反事實自訓練(CST)。CST迭代地輸入偽標簽并重新訓練模型。此外,我們還發現輸入一致性損失可以進一步提高CST性能,這在最近的偽標記理論分析中得到了證明。我們證明了所提出的算法在合成和真實數據集的有效性。
我們考慮發現K個相關高斯有向無環圖(DAG)的問題,其中涉及的圖結構共享一個一致的因果順序和稀疏的支持聯合。在多任務學習環境下,我們提出一種l1/l2-正則化極大似然估計(MLE)來學習K個線性結構方程模型。我們從理論上證明,通過在相關任務中利用數據,聯合估計器可以獲得比單獨估計更好的恢復因果順序(或拓撲順序)的樣本復雜度。此外,聯合估計器還可以將不可識別的DAG與一些可識別的DAG一起估計,從而恢復不可識別的DAG。最后,我們的分析也顯示了結構的聯合支持恢復的一致性。為了實現,我們設計了一個連續優化問題,它的優化器與聯合估計器相同,可以用迭代算法有效地逼近。通過實驗驗證了理論分析和聯合估計的有效性。
域泛化(DG)的目的是訓練一個模型,從多個觀測源域,以更好地執行不可見的目標域。為了獲得泛化能力,以往的DG方法都側重于跨源提取領域不變信息來泛化目標領域,而通常忽略與單個領域標簽密切相關的有用領域特定信息和對目標領域的泛化。在本文中,我們提出了元領域特定的領域不變式(mDSDI)——一個新的理論上合理的框架,它擴展了不變性視圖,進一步捕獲領域特定信息的有用性。我們的關鍵觀點是在一個統一的框架中共同學習領域不變和領域特定特征的同時,解開潛在空間中的特征。通過元學習框架優化了特定領域的表示,以適應源領域,針對未見領域的魯棒泛化。我們的經驗表明,mDSDI在DG提供了具有競爭力的結果與最先進的技術。使用我們生成的數據集(Background-Colored-MNIST)進行的進一步消融研究,證實了領域特異性至關重要的假設,與僅使用領域不變量相比,可以獲得更好的結果。
預測視頻的未來幀是一項具有挑戰性的任務,部分原因在于潛在的隨機現實現象。解決這個任務的先驗方法通常估計一個潛在的先驗特征,但是不能解釋(深度學習)模型的預測不確定性。這種方法往往從生成的幀與真實值之間的均方誤差(MSE)獲得訓練信號,這可能導致次優訓練,尤其是在預測不確定性高的情況下。為此,我們引入神經不確定性量詞(NUQ)——對模型的預測不確定性進行隨機量化,并用它來衡量MSE損失。我們提出了一個分層的、變分的框架,以一種有原則的方式,使用一個深度的貝葉斯圖模型來派生NUQ。我們在四個基準隨機視頻預測數據集上的實驗表明,我們提出的框架比最先進的模型訓練更有效(特別是當訓練集很小的時候),同時顯示出更好的視頻生成質量和多樣性。
從合成生物學到計算機架構,計算設計問題出現在許多環境中。在本文中,我們的目標是解決基于數據驅動模型的優化(MBO)問題,其中的目標是找到一個設計輸入,使一個未知的目標函數最大化,只提供訪問先前實驗的靜態數據集。這種數據驅動的優化過程是許多現實領域中唯一實用的方法,在這些領域中,主動數據收集是昂貴的(如優化蛋白質)或危險的(如優化飛機設計)。針對已知模型優化設計的典型MBO方法遭遇了分布轉移:很容易找到一種設計,它“愚弄”了模型,使其預測出高價值。為了克服這一點,我們提出了保守目標模型(COMs),一種學習目標函數模型的方法,該模型下界的真實目標的實際值在非分布輸入外,并使用它進行優化。在結構上,COMs類似于用來克服對抗性例子的對抗性訓練方法。COM易于實現,并且在許多MBO問題上優于現有的一些方法,包括優化蛋白質序列、機器人形態、神經網絡權值和超導材料。
正則化旨在通過對學習算法進行修改來減少模型的泛化誤差。? 正則化正是解決深度學習中的過擬合和欠擬合問題的一個途徑。? 正則化往往會增加模型的訓練誤差。
Dropout的大體思想就是,在標準神經網絡進行前向傳播時,讓某些神經元的激活值以一定的概率 停止工作。由于這樣做會減少模型對局部特征的依賴,使得模型泛化能力提升,從而緩解過擬合問 題。
自適應學習率 指的是在訓練過程中學習率可變,那么模型收斂速度會明顯提升。三種常 用的自適應學習率算法:? Adagrad ? RMSprop ? Adam
批標準化是一種簡化計算并又能保證數據原始的表達能力的解決內協變量移位問題的方法
在為許多現實世界的問題指定獎勵方面的困難導致人們越來越關注從人的反饋中學習獎勵,比如演示。然而,通常有許多不同的獎勵功能來解釋人類的反饋,這讓智能體不確定什么是真正的獎勵功能。雖然大多數策略優化方法通過優化預期性能來處理這種不確定性,但許多應用需要規避風險行為。我們推導了一種新的策略梯度式魯棒優化方法PG-BROIL,它優化了平衡預期性能和風險的軟魯棒目標。據我們所知,PG-BROIL是第一個對獎勵假設分布魯棒的策略優化算法,該假設可以擴展到連續的MDPs。結果表明,PG-BROIL可以產生一系列從風險中性到風險厭惡的行為,并通過對沖不確定性從模糊的演示中學習,而不是尋求唯一識別演示者的獎勵功能時,表現優于最先進的模仿學習算法。
基于深度學習的半監督學習(SSL)算法在醫學圖像分割方面取得了很有前途的結果,并可以通過利用未標記的數據減輕醫生昂貴的標注。然而,現有文獻中的大多數SSL算法都傾向于通過干擾網絡和/或數據來規約模型訓練。考慮到多/雙任務學習涉及到具有固有的預測擾動的各個級別的信息,我們在這項工作中提出了一個問題:我們能夠顯式地構建任務級別的正則化,而不是隱式地構建用于SSL的網絡和/或數據級別的擾動和轉換嗎?為了回答這個問題,我們首次提出了一個新的雙任務一致性半監督框架。具體地說,我們使用一個雙任務深度網絡來聯合預測一個像素級分割圖和一個幾何感知的目標集表示。通過可微任務轉換層將水平集表示轉換為近似分割映射。同時,我們在水平集導出的分割圖和直接預測的分割圖之間引入了一種雙任務一致性正則化,用于標記和未標記數據。在兩個公共數據集上的大量實驗表明,我們的方法可以通過合并未標記數據極大地提高性能。同時,我們的框架優于最先進的半監督醫學圖像分割方法。代碼可以在//github.com/Luoxd1996/DTC找到。
多元序列學習的本質是如何提取數據中的相關性。這些數據集,如重癥監護病房的每小時醫療記錄和多頻語音時間序列,通常不僅在個別成分中表現出強烈的序列依賴性(“邊緣”記憶),而且在橫剖面依賴性中也表現出不可忽略的記憶(“聯合”記憶)。由于聯合分布演化的多元復雜性是數據生成過程的基礎,我們采用數據驅動的方法,構建了一種新的循環網絡結構,稱為記憶門控循環網絡(mGRN),門顯式地調節兩種不同類型的記憶:邊緣記憶和聯合記憶。通過對一系列公共數據集的綜合模擬研究和經驗實驗的結合,我們表明我們提出的mGRN架構始終優于針對多元時間序列的最先進架構。
//www.zhuanzhi.ai/paper/4236df35ff33a6911c4913ac13bb78e0
Improved Analysis of Clipping Algorithms for Non-convex Optimization
梯度裁剪在深度神經網絡訓練中應用廣泛,部分原因是其在解決梯度爆炸問題上的實用性。最近,Zhang等人[2020a]通過引入一個新的假設(L0, L1)-平滑性,證明剪切(隨機)梯度下降(GD)比普通的GD/SGD收斂得更快,該假設表征了深度神經網絡中通常遇到的梯度劇烈波動。然而,它們在問題相關參數上的迭代復雜性是相當悲觀的,并且裁剪與其他關鍵技術(如動量加速)相結合的理論證明仍然缺乏。在本文中,我們提出了一個研究剪切算法的一般框架來彌補這一差距,該框架也考慮了動量法。我們提供了框架在確定性和隨機設置的收斂性分析,并通過比較它們與現有的下界來證明我們的結果的緊密性。我們的結果表明,剪裁方法的效率不會退化,即使在景觀的高度非光滑的區域。實驗證明了基于裁剪的方法在深度學習任務中的優越性。