苹果电影在线观看免费高清-亚洲精品无码黄色网站在线观看

在構建機器學習管道時，一些常見的假設是：(1）訓練數據足夠 "干凈"，表現良好，因此很少或沒有離群值，或者數據的分布沒有長尾，（2）測試數據遵循與訓練數據相同的分布，以及（3）數據產生于或接近于一個已知的模型類，如線性模型或神經網絡。

然而，隨著計算機、互聯網和各種基于傳感器的技術更容易獲得，科學和工程的各個分支中出現的現代數據集不再是精心策劃的，往往是以分散的、分布式的方式收集。因此，它們受到異質性、對抗性操作和異常值等復雜因素的困擾。隨著我們進入這個臟的數據時代，上述的機器學習管道的假設越來越站不住腳。

對于機器學習的廣泛采用，我們認為任何模型都必須具備以下三個基本要素：

穩健性。該模型即使在有噪音和損壞的數據下也能被訓練。
可信賴。在訓練結束后，當在現實世界中部署時，該模型在分布的良性變化下不應該崩潰。
有彈性。建模程序應該在模型錯誤指定的情況下工作，也就是說，即使建模假設崩潰，模型也應該找到可能的最佳解決方案。

在這篇論文中，我們的目標是修改最先進的ML技術并設計新的算法，使其即使在沒有上述假設的情況下也能工作，并且是穩健、可信和有彈性的。我們的貢獻如下。

在第二章中，我們提供了一類新的統計最優估計器，這些估計器對各種環境是穩健的，如任意污染和重尾數據等。

在第三章中，我們用一類新的計算效率高的穩健風險最小化估計器來補充我們的統計最優估計器。這些結果為一般的統計模型，如線性回歸、邏輯回歸等，提供了一些最早的可計算的、可證明的穩健估計器。

在第四章中，我們研究了在基礎分布中的一些樣本可能被任意破壞的情況下學習Ising模型的問題。

最后，在第五章，我們討論了我們的結果對現代機器學習的影響。

付費5元查看完整內容

知識薈萃

精品入門和進階教程、論文和代碼整理等

查看相關VIP內容、論文、資訊等

博士論文 · 元強化學習 · 記憶機制 · 卡內基梅隆大學 (Carnegie Mellon University) ·

2022 年 6 月 23 日

[付費5元查看完整內容]【CMU博士論文】通過記憶的元強化學習，118頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

現代深度強化學習(RL)算法，盡管處于人工智能能力的最前沿，但通常需要大量的訓練樣本才能達到與人類相當的性能水平。這種嚴重的數據效率低下是深度RL實際應用的主要障礙:在沒有模擬器的情況下，深度RL幾乎不可能應用于任何領域。為了解決這種關鍵數據效率低下的問題，在本論文中，我們致力于設計能夠快速適應新環境的元學習智能體。與標準的強化學習相比，元學習在特定的環境分布上進行學習，從這些環境中采樣特定的任務，并直接優化元學習器，以提高策略改進的速度。通過利用與感興趣任務具有共同子結構的任務分布，元學習器可以調整自己的歸納偏見，使其能夠在測試時快速適應。

本論文的重點是設計元學習算法，利用記憶作為驅動快速適應新環境的主要機制。具有情景間記憶的元學習是一類元學習方法，利用基于特定環境的整個交互歷史的記憶架構來產生策略。因此，在特定任務中驅動策略改進的學習動態被包含在序列模型的計算過程中，本質上把學習算法的設計交給了體系結構。雖然概念簡單，但使用情景間記憶的元學習非常有效，仍然是最先進的方法。我們提出并討論了幾種通過記憶進行元學習的技術。

論文的第一部分集中在“具身”類環境，其中一個主體在一個類似自然世界的環境中有物理表現。我們利用這種高度結構化的環境集來設計具有快速記憶、規劃和狀態推斷能力的整體嵌入式代理體系結構。在論文的第二部分，我們將重點放在沒有強公共子結構的一般環境中應用的方法。首先，我們重新檢查元學習代理與環境的交互模式:提出用一個并行執行框架來取代典型的順序處理交互歷史，其中多個智能體并行地在環境中行動。接下來，我們討論了一個通用的和強大的序列模型的使用片段間存儲器，門控transformer，展示了性能和數據效率的巨大改進。最后，我們開發了一種方法，可以顯著降低(元)強化學習設置中transformer模型的訓練成本和作用延遲，目的是(1)使它們在研究社區中更廣泛地使用，(2)解鎖它們在實時和延遲受限的應用中使用，如機器人。

//www.ml.cmu.edu/research/phd-dissertation-pdfs/eparisot_phd_mld_2021.pdf

付費5元查看完整內容

回歸 · 書籍 ·

2022 年 2 月 2 日

[付費5元查看完整內容]【2022新書】用回歸來解決比較、估計、預測和因果推斷的實際問題，546頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

大多數有關回歸的教科書側重于理論和最簡單的例子。然而，真正的統計問題是復雜而微妙的。這不是一本關于回歸理論的書。它是關于使用回歸來解決比較、估計、預測和因果推理等實際問題。與其他書籍不同，它側重于實際問題，如樣本量、缺失數據以及廣泛的目標和技術。它直接進入你可以立即使用的方法和計算機代碼。作者親身經歷的真實例子和故事，展示了回歸的作用及其局限性，并為理解實驗和觀察研究的假設和實施方法提供了實用建議。他們順利過渡到邏輯回歸和GLM。重點是R和Stan的計算，而不是推導，代碼可以在線獲得。圖形和演示有助于理解模型和模型擬合。

目錄內容：介紹數據和測量數學和概率論中的一些基本方法生成模型和統計推斷模擬回歸建模背景單預測器線性回歸擬合回歸模型預測和貝葉斯推理多預測因子線性回歸假設、診斷和模型評估轉換邏輯回歸使用邏輯回歸其他廣義線性模型設計和樣本大小的決定后分層和缺失數據歸因因果推理基礎和隨機實驗使用對治療變量的回歸進行因果推斷因果推理中更高級的主題高級回歸和多級模型

現有的關于回歸的教科書通常混合了一些數學推導。我們寫這本書是因為我們看到了一種新的前進方式，專注于理解回歸模型，將它們應用于實際問題，并使用假數據模擬來理解模型是如何匹配的。讀完這本書并完成練習之后，您應該能夠在計算機上模擬回歸模型，并建立、批判性地評估它們，并將它們用于應用問題。我們的書的另一個特點，除了廣泛的例子和計算機模擬的重點，是它的廣泛的覆蓋，包括統計和測量的基礎知識，線性回歸，多元回歸，貝葉斯推理，邏輯回歸和廣義線性模型，從樣本到人口的外推，和因果推論。線性回歸是一個起點，但止步于此是沒有意義的:一旦你有了統計預測的基本概念，最好的理解方法是將它應用到許多不同的方式和不同的環境中。

在完成本書的第1部分后，您應該能夠使用數學、統計和計算工具，這些工具將允許您使用回歸模型。這些前幾章可以作為你在入門統計學課程中所學到的方法和思想的橋梁。

第1部分的目標包括顯示和探索數據，計算和繪制線性關系，理解基本的概率分布和統計推斷，以及模擬隨機過程來表示推斷和預測不確定性。

在完成第2部分之后，您應該能夠構建、適應、理解、使用和評估線性回歸模型的適應。本書這部分的章節在幾個應用和模擬數據示例的背景下開發相關的統計和計算工具。

完成第3部分后，您應該能夠類似地使用邏輯回歸和其他廣義線性模型。

第4部分涵蓋了從樣本到總體的數據收集和外推，第5部分我們涵蓋了因果推理，從使用受控實驗回歸的基本方法開始，然后考慮更復雜的方法來調整觀測數據的不平衡或利用自然實驗。

第6部分介紹了更高級的回歸模型，附錄包括一些快速提示和軟件的概述

付費5元查看完整內容

深度學習 · 深度學習理論 · 深度學習泛化性 · 泛化性 · 博士論文 ·

2021 年 10 月 22 日

[付費5元查看完整內容]深度學習為何泛化好？CMU博士論文《解釋深度學習中的泛化性》探究深度學習泛化性的理論基礎進展

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本文研究了深度學習理論中一個基本的開放挑戰: 為什么深度網絡在過度參數化、非正則化和擬合訓練數據為零誤差的情況下仍能很好地泛化? 在論文的第一部分，我們將實證研究如何通過隨機梯度下降訓練深度網絡隱式控制網絡容量。隨后，為了說明這如何導致更好的泛化，我們將推導基于數據的一致收斂的泛化邊界，并改進參數計數的依賴性。由于其簡單性和通用性，一致收斂實際上已經成為深度學習文獻中使用最廣泛的工具。鑒于它的流行，在這篇論文中，我們也將后退一步，確定一致收斂的基本極限，作為解釋泛化的工具。特別地，我們將證明在一些過度參數化的設置的例子中，任何一致收斂界將只提供一個空洞的泛化界。考慮到這一點，在論文的最后一部分，我們將改變航向，并引入一種經驗技術來估計使用未標記數據的泛化。我們的技術不依賴于任何基于一致收斂的復雜性概念，而且非常精確。我們將從理論上說明為什么我們的技術如此精確。最后，我們將討論未來的工作如何探索在泛化邊界中納入分布假設的新方法(例如以未標記數據的形式)，并探索其他工具來推導邊界，可能是通過修改統一收斂或開發完全新的工具。

付費5元查看完整內容

因果性 · 泛化性 · 博士論文 ·

2021 年 10 月 18 日

[付費5元查看完整內容]【哥本哈根博士論文】因果性與泛化:可識別性與學習方法

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

本博士論文包含了對統計因果模型領域的幾個貢獻。統計因果模型是嵌入因果假設的統計模型，允許對受外部操縱(干預)影響的隨機系統的行為進行推斷和推理。本文在因果效應估計、因果結構學習和分布魯棒(非分布廣義)預測方法等方面進行了深入的研究。我們提出了新的和一致的線性和非線性因果效應估計工具變量設置，采用數據依賴的均方預測誤差正則化。我們提出的估計量顯示，在某些情況下，均方誤差比標準和最先進的估計量都有所改善。我們表明，最近對分布穩健預測方法的研究與計量經濟學中經過充分研究的估計量有關。由此證明了一般k類估計具有分布魯棒性。此外，我們提出了一個關于干預誘發分布的分布穩健性的一般框架。在這個框架中，我們推導了分布魯棒預測方法可識別的充分條件，并給出了一些不可能的結果，證明了這些條件的必要性。提出了一種新的結構學習方法，適用于以有向樹為因果圖的加性噪聲模型。我們證明了消失可辨識性設置中的一致性，并提供了一種方法來檢驗具有漸近家族誤差控制的子結構假設，該方法在選擇后仍然有效。最后，我們提出了學習非線性時間序列模型總結圖的啟發式思想。

付費5元查看完整內容

貝葉斯推理 · 機器學習 ·

2021 年 10 月 8 日

[付費5元查看完整內容]【干貨書】貝葉斯推理和機器學習，610頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在過去的十年里，人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說，這些領域旨在“學習一些有用的東西”，了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段，類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述，但許多都有，它是圖模型的框架(圖和概率論的結合)，使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上，現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然，沒有人說這種方法是正確的，也沒有人說這是唯一有用的方法。事實上，有人可能會反駁說，這是沒有必要的，因為“生物有機體不使用概率論”。無論情況是否如此，不可否認的是，圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚，貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。

//www0.cs.ucl.ac.uk/staff/d.barber/brml/

本書結構

本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練，這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時，我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是，計算機科學的學生熟悉的概念，算法為核心。然而，在機器學習中更常見的做法是將模型視為核心，而如何實現則是次要的。從這個角度來看，理解如何將一個數學模型轉換成一段計算機代碼是核心。

第二部分介紹了理解連續分布所需的統計背景，以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然，當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時，他們會感到驚訝。統計學和機器學習之間的一個不同觀點是，我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器)，而不是某些技術。因此，我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式，這有助于強調模型是什么，而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術，包括隨機(蒙特卡羅)和確定性(變分)技術。

付費5元查看完整內容

自然語言處理 · 神經模型 · 分布偏移 · 博士論文 ·

2021 年 9 月 7 日

[付費5元查看完整內容]【CMU博士論文】面向分布偏移的自然語言處理學習神經模型，148頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在一個特定的數據集上訓練一個強大的神經預測器執行一項任務的主流NLP范式取得了在各種應用上的成功(如:情感分類、基于廣度預測的問答或機器翻譯)。然而，它建立在數據分布是平穩的假設之上，即。在訓練和測試時，數據都是從一個固定的分布中取樣的。這種訓練方式與我們人類在不斷變化的信息流中學習和操作的方式不一致。此外，它不適合于真實世界的用例，在這些用例中，數據分布預計會在模型的生命周期中發生變化。

本文的第一個目標是描述這種偏移在自然語言處理環境中可能采取的不同形式，并提出基準和評價指標來衡量它對當前深度學習體系結構的影響。然后，我們繼續采取步驟，以減輕分布轉移對NLP模型的影響。為此，我們開發了基于分布魯棒優化框架的參數化重構方法。從經驗上講，我們證明了這些方法產生了更魯棒的模型，正如在選擇的現實問題上所證明的那樣。在本文的第三部分和最后一部分，我們探索了有效地適應現有模型的新領域或任務的方法。我們對這個主題的貢獻來自于信息幾何學的靈感，獲得了一個新的梯度更新規則，緩解了適應過程中災難性的遺忘問題。

我們從評估開始，因為分布轉移特別難以描述和測量，特別是在自然語言方面。這部分是由于數據缺乏規范的度量結構。換句話說，如何有效地衡量兩個句子之間的語義相似度還不清楚，因此沒有直接的方法來衡量兩個樣本之間的差異，更不用說兩種分布了。因此，作為解決分布偏移的第一步，我們提出了一個新的基準(第3章)和評估指標(第4章)，分別評估域偏移和對抗擾動的魯棒性。有了這些工具在手，我們開始構建魯棒的模型，這些模型經過訓練，即使在沒有關于轉移本質的明確信息的情況下，對分布轉移也不那么敏感。這是通過利用訓練分布中的數據多樣性來實現的，以確保在訓練數據(子群體)中存在的各種領域上的統一性能。具體來說，我們制定了一個分布魯棒優化框架的參數化版本，該框架允許訓練模型對子群體轉移更為穩健(第5章和第6章)。最后，在靜態環境中學習從根本上是次優的:我們不能期望我們的模型在每一個可能的未來環境中都表現良好，我們必須能夠使它們適應我們遇到的任何新情況。因此，我們研究了一種機制，通過這種機制，我們能夠根據新的證據微調訓練模型，而不會忘記之前獲得的知識(第7章)。

//www.zhuanzhi.ai/paper/c5e7a9742d6a6313d63c5976499166dc

付費5元查看完整內容

公平機器學習 · 黑盒模型 · 卡內基梅隆大學 (Carnegie Mellon University) ·

2021 年 9 月 5 日

[付費5元查看完整內容]【CMU博士論文】公平機器學習的黑盒方法，101頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

隨著機器學習模型越來越多地用于做出涉及人類的重大決策，重要的是，這些模型不能因為種族和性別等受保護的屬性而歧視。然而，模型持有人并不是受到歧視性模型傷害的首當其沖的人，因此模型持有人修復歧視性模型的自然動機很少。因此，如果其他實體也能發現或減輕這些模型中的不公平行為，將對社會有益。只需要對模型進行查詢訪問的黑盒方法非常適合這個目的，因為它們可以在不知道模型的全部細節的情況下執行。

在這篇論文中，我考慮了三種不同形式的不公平，并提出了解決它們的黑盒方法。第一個是代理使用，模型的某些組件是受保護屬性的代理。其次是個體公平性的缺乏，這使模型不應該做出任意決定的直覺觀念形式化。最后，模型的訓練集可能不具有代表性，這可能導致模型對不同的保護組表現出不同程度的準確性。對于這些行為中的每一個，我提出使用一個或多個方法來幫助檢測模型中的此類行為或確保缺乏此類行為。這些方法只需要對模型的黑箱訪問，即使模型持有者不合作，它們也能有效地使用。我對這些方法的理論和實驗分析證明了它們在這種情況下的有效性，表明它們是有用的技術工具，可以支持對歧視的有效回應。

付費5元查看完整內容

開放世界 · 目標檢測 · 目標跟蹤 ·

2021 年 6 月 14 日

[付費5元查看完整內容]【CMU博士論文】開放世界目標檢測與跟蹤，168頁pdf

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

今天的計算機視覺擅長于識別現實世界的限定部分:我們的模型似乎能在基準數據集中準確地檢測出像貓、汽車或椅子這樣的物體。然而，部署模型要求它們在開放世界中工作，開放世界包括各種設置中的任意對象。目前的方法在兩個方面都有困難:他們只認識到少數的類別，并且在不同的訓練分布的環境中切換。解決這些挑戰的模型可以作為下游應用的基本構建模塊，包括識別操作、操作對象和繞過障礙進行導航。本論文提出了我們在建立魯棒檢測和跟蹤目標模型的工作，特別是有很少或甚至沒有訓練的樣例。首先，我們將探索傳統模型如何泛化到現實世界，傳統模型只識別一小部分對象類。我們表明，目前的方法是極其敏感的:即使是輸入圖像或測試分布的細微變化，都可能導致精度下降。我們的系統評估顯示，模型——即使是那些訓練很好的對對抗或合成損壞具有魯棒性的模型——經常正確地分類視頻的一幀，但在相鄰的感知相似的幀上卻失敗了。類似的現象甚至適用于由數據集之間的自然變化引起的微小分布變化。最后，我們提出了一種解決對象外觀泛化的極端形式的方法:檢測完全遮擋的對象。接下來，我們探索歸納到大的或無限的詞匯，其中包含罕見的和從未見過的類。由于當前的數據集很大程度上局限于一個小的、封閉的對象集合，我們首先提出了一個大型詞匯基準來衡量檢測和跟蹤的進展。我們展示了當前的評估不足以滿足大型詞匯量基準測試，并提供了適當評估此設置中的進度的替代指標。最后，我們提出了利用封閉世界識別的進展來為任何對象建立精確、通用的檢測器和跟蹤器的方法。

//www.ri.cmu.edu/publications/open-world-object-detection-and-tracking/

付費5元查看完整內容

無數據模型 · CVPR 2020 ·

2020 年 4 月 12 日

[付費5元查看完整內容]【CVPR2020-CMU】無數據模型選擇，一種深度框架潛力

專知會員服務

專知，提供專業可信的知識分發服務，讓認知協作更快更好！

在需要平衡性能和參數效率的應用中，選擇深度神經網絡結構是一個基本問題。標準方法依賴于特定數據集上的特別工程或計算上昂貴的驗證。相反，我們試圖通過網絡的內在能力來量化網絡的獨特性和健壯性，從而在不需要任何數據的情況下進行有效的架構比較。基于深度學習和稀疏逼近之間的理論聯系，我們提出了深度框架潛力:一種與表征穩定性近似相關的相干性度量，但具有僅依賴于網絡結構的最小值。這為聯合量化架構超參數(如深度、寬度和跳過連接)的貢獻提供了一個框架。我們驗證了它作為模型選擇標準的作用，并證明了它與各種通用殘差和密集連接的網絡架構上的泛化誤差之間的相關性。