題目: Learning with Differentiable Perturbed Optimizers
摘 要:
機器學習管道通常依賴于優化過程來做出離散的決策(例如排序、挑選最近的鄰居、尋找最短路徑或最佳匹配)。雖然這些離散的決策很容易以正向的方式進行計算,但它們不能用于使用一階優化技術修改模型參數,因為它們破壞了計算圖的反向傳播。為了擴展端到端的學習問題的范圍,提出了一種將輸出最優離散決策的塊轉換為可微操作的系統方法。我們的方法依賴于這些參數的隨機擾動,并且可以很容易地在現有的求解器中使用,而不需要特別的正則化或平滑。這些擾動的優化器得到的解是可微的,且不滿足局部常數。平滑度的大小可以通過選擇的噪聲幅值進行調整,我們分析了噪聲幅值的影響。這些擾動解的導數可以得到有效的評價。我們還展示了該框架如何與結構化預測中產生的一系列損失相聯系,并描述了如何在有理論保證的情況下,在無監督和監督學習中使用這些損失。我們在模擬和真實數據的實驗中證明了我們的方法在幾個機器學習任務中的性能。
題目:
Con?dence-Aware Learning for Deep Neural Networks
簡介:
盡管深度神經網絡可以執行多種任務,但過分一致的預測問題限制了它們在許多安全關鍵型應用中的實際應用。已經提出了許多新的工作來減輕這個問題,但是大多數工作需要在訓練和/或推理階段增加計算成本,或者需要定制的體系結構來分別輸出置信估計。在本文中,我們提出了一種使用新的損失函數訓練深度神經網絡的方法,稱為正確排名損失,該方法將類別概率顯式規范化,以便根據依據的有序等級更好地進行置信估計。所提出的方法易于實現,并且無需進行任何修改即可應用于現有體系結構。而且,它的訓練計算成本幾乎與傳統的深度分類器相同,并且通過一次推斷就可以輸出可靠的預測。在分類基準數據集上的大量實驗結果表明,所提出的方法有助于網絡產生排列良好的置信度估計。我們還證明,它對于與置信估計,分布外檢測和主動學習密切相關的任務十分有效。
主題: Locally Differentially Private (Contextual) Bandits Learning
摘要:
首先,我們提出了一種簡單的黑盒歸約框架,該框架可以解決帶有LDP保證的大量無背景的bandits學習問題。根據我們的框架,我們可以通過單點反饋(例如 private bandits凸優化等)改善private bandits學習的最佳結果,并在LDP下獲得具有多點反饋的BCO的第一結果。 LDP保證和黑盒特性使我們的框架在實際應用中比以前專門設計的和相對較弱的差分專用(DP)上下文無關強盜算法更具吸引力。此外,我們還將算法擴展到在(ε,δ)-LDP下具有遺憾約束ō(T~3/4 /ε)的廣義線性bandits,這被認為是最優的。注意,給定DP上下文線性bandits的現有Ω(T)下界,我們的結果表明LDP和DP上下文bandits之間的根本區別。
深度學習系統在許多任務中都取得了顯著的性能,但要確保生成的模型服從硬約束(在許多控制應用程序中可能經常需要這樣做),常常是出了名的困難。在這次演講中,我將介紹一些最近的關于在深度學習系統中加強不同類型的約束的工作。具體來說,我將重點介紹最近的一些工作,包括將一般的凸優化問題集成為深網絡中的層次,研究保證表示凸函數的學習網絡,以及研究增強非線性動力學的全局穩定性的深層動力系統。在所有情況下,我們都強調我們可以設計網絡結構來編碼這些隱性偏見的方式,這種方式可以讓我們輕松地執行這些硬約束。
交叉熵是圖像分類模型監督訓練中應用最廣泛的損失函數。在這篇論文中,我們提出了一種新的訓練方法,在不同架構和數據擴充的監督學習任務中,它的表現始終優于交叉熵。我們修改了批量對比損失,這是最近被證明在自監督學習強大表示是非常有效的。我們能夠比交叉熵更有效地利用標簽信息。在嵌入空間中,將同一類的點聚在一起,同時將不同類的樣本聚在一起。除此之外,我們還利用了關鍵的成分,如大批量和標準化嵌入,這些已經被證明有利于自監督學習。在ResNet-50和ResNet-200上,我們的交叉熵性能都超過了1%,在使用自動增廣數據增強的方法中,我們設置了78.8%的最新水平。這一損失也清楚地表明,在校準和準確性方面,對標準基準的自然損壞具有魯棒性。與交叉熵相比,我們的監督對比損失更穩定的超參數設置,如優化或數據擴充。
題目: A Game Theoretic Framework for Model Based Reinforcement Learning
摘要: 基于模型的強化學習(MBRL)最近獲得了極大的興趣,因為它具有潛在的樣本效率和合并非策略數據的能力。然而,使用富函數逼近器設計穩定、高效的MBRL算法仍然具有挑戰性。為了從抽象的角度揭示MBRL的實際挑戰并簡化算法設計,我們開發了一個新的框架,將MBRL描述為:(1)一個策略參與者,它試圖在學習模型下最大化回報;(2)一個模型player,它試圖與策略player收集的真實數據相匹配。在算法開發方面,我們構造了一個雙方參與的Stackelberg博弈,并證明了它可以用近似的雙層優化來解決。這就產生了兩種自然的MBRL算法,基于這兩種算法,玩家被選擇為Stackelberg游戲的領導者。它們一起封裝、統一和泛化了許多以前的MBRL算法。此外,我們的框架是一致的,并提供了一個明確的基礎啟發式已知是重要的實踐,從以往的工作。最后,通過實驗驗證了所提出的算法具有較高的樣本效率,匹配無模型策略梯度的漸近性能,并能擴展到靈巧手操作等高維任務。
我們研究了時間差分(TD)學習中泛化與干涉之間的關系。干涉被定義為兩個不同梯度的內積,表示它們的對齊。這個量從對神經網絡、參數共享和動態學習的各種觀察中產生。我們發現,TD很容易導致低干擾、欠泛化參數,而在監督學習中,這種效應似乎是相反的。我們假設,原因可以追溯到相互作用之間的動態干擾和bootstrapping。這是由幾個觀察:支持經驗之間的負面關系泛化間隙和干涉TD,引導對干擾的負面影響和當地的一致性目標,和信息的傳播速度之間的對比在TD(0)和TD(λ)和回歸蒙特卡羅政策評估等任務。我們希望這些新的發現能夠指導未來更好的引導方法的發現。
題目: Bayesian Neural Networks With Maximum Mean Discrepancy Regularization
摘要: 貝葉斯神經網絡(BNNs)訓練來優化整個分布的權重,而不是一個單一的集合,在可解釋性、多任務學習和校準等方面具有顯著的優勢。由于所得到的優化問題的難解性,大多數BNNs要么通過蒙特卡羅方法采樣,要么通過在變分近似上最小化一個合適的樣本下界(ELBO)來訓練。在這篇論文中,我們提出了后者的一個變體,其中我們用最大平均偏差(MMD)估計器代替了ELBO項中的Kullback-Leibler散度,這是受到了最近的變分推理工作的啟發。在根據MMD術語的性質提出我們的建議之后,我們接著展示了公式相對于最先進的公式的一些經驗優勢。特別地,我們的BNNs在多個基準上實現了更高的準確性,包括多個圖像分類任務。此外,它們對權重上的先驗選擇更有魯棒性,而且它們的校準效果更好。作為第二項貢獻,我們提供了一個新的公式來估計給定預測的不確定性,表明與更經典的標準(如微分熵)相比,它在對抗攻擊和輸入噪聲的情況下表現得更穩定。
Dropout是一種廣泛使用的正則化技術,通常需要為許多體系結構獲得最先進的技術。這項工作表明,dropout引入了兩種截然不同但相互糾纏的正則化效應:由于dropout修改了預期的訓練目標而產生的顯式效應(在之前的工作中也研究過),以及可能令人驚訝的是,dropout訓練更新中的隨機性帶來的另一種隱式效應。這種隱式正則化效應類似于小批量隨機梯度下降中的隨機度效應。我們通過控制實驗把這兩種效應分開。然后,我們推導出分析的簡化,用模型的導數和損失來描述每個影響,對于深度神經網絡。我們證明了這些簡化的、解析的正則化器準確地捕獲了輟學的重要方面,表明它們在實踐中忠實地替代了dropout。
強化學習(RL)研究的是當環境(即動力和回報)最初未知,但可以通過直接交互學習時的順序決策問題。RL算法最近在許多問題上取得了令人印象深刻的成果,包括游戲和機器人。 然而,大多數最新的RL算法需要大量的數據來學習一個令人滿意的策略,并且不能用于樣本昂貴和/或無法進行長時間模擬的領域(例如,人機交互)。朝著更具樣本效率的算法邁進的一個基本步驟是,設計適當平衡環境探索、收集有用信息的方法,以及利用所學策略收集盡可能多的回報的方法。
本教程的目的是讓您認識到探索性開發困境對于提高現代RL算法的樣本效率的重要性。本教程將向觀眾提供主要算法原理(特別是,面對不確定性和后驗抽樣時的樂觀主義)、精確情況下的理論保證(即表格RL)及其在更復雜環境中的應用,包括參數化MDP、線性二次控制,以及它們與深度學習架構的集成。本教程應提供足夠的理論和算法背景,以使AI和RL的研究人員在現有的RL算法中集成探索原理,并設計新穎的樣本高效的RL方法,能夠處理復雜的應用,例如人機交互(例如,會話代理),醫學應用(例如,藥物優化)和廣告(例如,營銷中的終身價值優化)。在整個教程中,我們將討論開放的問題和未來可能的研究方向。
論文題目
Automatic Differentiable Monte Carlo: Theory and Application
論文摘要
可微程序設計已經成為一種關鍵的程序設計范式,它使深度學習得以快速發展,而它在蒙特卡羅等重要計算方法中的應用還沒有得到很大的探索。在這里,我們提出了在非正規概率分布下,對蒙特卡羅計算的期望值進行無窮階自動微分的一般理論,我們稱之為“自動可微蒙特卡羅”。通過在計算圖上實現dmc算法,人們還可以將最先進的機器學習框架和技術用于統計和物理中的傳統Monte Carlo應用。通過展示ADMC的一些應用來說明其多功能性:快速搜索相位傳遞和準確地找到二維多體模型相互作用的基態。ADMCP是一種很有前途的方法,它可以在各個方面對蒙特卡羅進行創新,以獲得更高的精度和效率,例如通過ADMCA來緩解或解決量子多體模型的符號問題。
論文作者
張希欣,周泉灣,洪耀,來自于清華大學,美國斯坦福大學。