預測是許多機器學習應用的關鍵目標。準確、可靠和穩健的預測對于人工智能系統的下游組件做出最優和公平的決定至關重要,尤其是在高風險的應用領域,如個性化健康、自動駕駛汽車、金融、新藥開發、選舉結果預測和流行病。許多現代機器學習算法輸出過度自信的預測,導致錯誤的決策和技術接受問題。經典的校準方法依賴于人工假設,經常導致過擬合,而現代校準方法試圖通過修改黑盒深度學習系統的組件來解決校準問題。雖然這提供了部分解決方案,但這種修改不能提供預測有效性的數學保證,而且具有侵入性、復雜性和實現成本。
本文介紹了一種用于機器學習分類和回歸問題的良好校準概率預測的新方法。提出了一種新的多類分類方法,并與傳統的標定方法進行了比較。在回歸模型中,本文提出了一種新的概率回歸方法,以推導出在非參數IID假設下有效的、與經典共形預測方法相比包含更多信息的預測分布函數,并保證覆蓋率,同時提高了計算效率。對本文介紹的方法進行的實驗研究表明,在最先進的技術方面具有優勢。分離共形預測系統的主要優勢是其保證有效性,而交叉共形預測系統在沒有過多隨機化的情況下享有更高的預測效率和經驗有效性。
深度學習徹底改變了機器學習和人工智能,在幾個標準基準上取得了超人的表現。眾所周知,深度學習模型訓練效率低;它們通過多次處理數以百萬計的訓練數據來學習,并且需要強大的計算資源來同時并行處理大量數據,而不是順序處理。深度學習模型也存在非預期失效模式;他們可能會被愚弄,做出錯誤的預測。
在本文中,我們研究了提高深度學習模型訓練效率和魯棒性的方法。在學習視覺語義嵌入的背景下,我們發現優先學習更多的信息訓練數據可以提高收斂速度和提高測試數據的泛化性能。我們形式化了一個簡單的技巧,稱為硬負挖掘,作為學習目標函數的修改,沒有計算開銷。接下來,我們在深度學習的通用優化方法中尋求優化速度的改進。我們展示了對訓練數據采樣的冗余感知修改提高了訓練速度,并開發了一種檢測訓練信號多樣性的有效方法,即梯度聚類。最后,我們研究了深度學習中的對抗魯棒性,以及在不使用額外數據訓練的情況下實現最大對抗魯棒性的方法。對于線性模型,我們證明保證最大的魯棒性實現只有通過適當的選擇優化器,正則化,或架構。
//arxiv.org/pdf/2112.01423.pdf
科學用實驗來驗證關于世界的假設。統計學提供了量化這一過程的工具,并提供了將數據(實驗)與概率模型(假設)聯系起來的方法。因為世界是復雜的,我們需要復雜的模型和復雜的數據,因此需要多元統計和機器學習。具體來說,多元統計(與單變量統計相反)涉及隨機向量和隨機矩陣的方法和模型,而不僅僅是隨機單變量(標量)變量。因此,在多元統計中,我們經常使用矩陣表示法。與多元統計(傳統統計學的一個分支)密切相關的是機器學習(ML),它傳統上是計算機科學的一個分支。過去機器學習主要集中在算法上,而不是概率建模,但現在大多數機器學習方法都完全基于統計多元方法,因此這兩個領域正在收斂。多變量模型提供了一種方法來學習隨機變量組成部分之間的依賴關系和相互作用,這反過來使我們能夠得出有關興趣的潛在機制的結論(如生物或醫學)。
兩個主要任務: 無監督學習(尋找結構,聚類) 監督學習(從標記數據進行訓練,然后進行預測)
挑戰: 模型的復雜性需要適合問題和可用數據, 高維使估計和推斷困難 計算問題。
本書從根本上重新思考了概率論和統計學第一課的微積分。我們提供廣度優先的方法,其中概率論和統計的要點可以在一個學期教授。通過模擬、數據爭論、可視化和統計程序,統計編程語言R在全文中扮演著核心角色。在示例和練習中使用了來自各種來源的數據集,包括許多來自最近的開放源代碼科學文章的數據集。通過模擬給出了重要事實的證明,也有一些正式的數學證明。
這本書是學習數據科學,統計,工程,計算機科學,數學,科學,商業的學生的一個優秀的選擇,或任何學生想要在模擬實踐課程的基礎上。
這本書假設有一個學期的微積分的數學背景,并且在第三章中有一些無窮級數。在第3章和第4章中,積分和無窮級數被用于表示法和說明,但在其他章節中微積分的使用很少。由于強調通過模擬來理解結果(以及對偏離假設的穩健性),本書的大部分內容(如果不是全部的話)無需微積分也能理解。提供了許多結果的證明,并通過模擬為更多的理由,但本文不打算支持一個基于證明的課程。我們鼓勵讀者遵循證明,但通常只有在首先理解結果和為什么它是重要的之后,才想要理解一個證明。
當今世界上部署的大多數機器學習系統都是從人類反饋中學習的。然而,大多數機器學習課程幾乎只關注算法,而不是系統的人機交互部分。這可能會給在現實世界機器學習領域工作的數據科學家留下一個巨大的知識鴻溝,在現實世界機器學習領域,數據科學家花在數據管理上的時間多于構建算法的時間。Human-in-the-Loop Machine Learning是優化整個機器學習過程的實用指南,包括注釋、主動學習、遷移學習技術,以及使用機器學習來優化過程的每一步。
//www.manning.com/books/human-in-the-loop-machine-learning
作者:
Robert (Munro) Monarch是一名數據科學家和工程師,曾為蘋果、亞馬遜、谷歌和IBM等公司開發過機器學習數據。他擁有斯坦福大學的博士學位。
本書組織
本書共分為四個部分:緒論;對主動學習的深入研究;對注釋的深入研究;最后一部分,將所有內容與人機界面的設計策略以及三個實現示例結合在一起。
本書的第一部分介紹了創建培訓和評估數據的構建模塊:注釋、主動學習和人機交互概念,幫助人類和機器最有效地結合他們的智能。在第2章結束時,您將構建一個用于標記新聞標題的人在循環機器學習應用程序,完成從注釋新數據到重新訓練模型,然后使用新模型來幫助決定下一個應該注釋哪些數據的循環。
第2部分介紹了主動學習——一組用于對最重要的數據進行抽樣以供人類審查的技術。第3章涵蓋了理解模型不確定性的最廣泛使用的技術,第4章處理了一個復雜的問題,即識別您的模型在哪些地方可能是可靠的,但由于采樣不足或非代表性數據而出錯。第5章介紹了將不同的策略組合成一個全面的主動學習系統的方法,第6章介紹了主動學習技術如何應用于不同類型的機器學習任務。
第3部分介紹注釋—為訓練和評估數據獲取準確和有代表性的標簽時經常被低估的問題。第7章介紹了如何找到和管理正確的人員來注釋數據。第八章介紹了標注質量控制的基礎知識,介紹了最常用的計算精度和一致性的方法。第9章介紹了注釋質量控制的高級策略,包括對主觀任務的注釋,以及使用基于規則的系統、基于搜索的系統、遷移學習、半監督學習、自監督學習和合成數據創建的各種半自動注釋方法。第10章介紹了如何針對不同類型的機器學習任務管理注釋。
第4部分完成了“循環”,在第11章中深入探討了有效注釋的接口,在第12章中介紹了三個人在循環中的機器學習應用程序示例。在整本書中,我們不斷地回到不同類型的機器學習任務的例子:圖像和文檔級標記、連續數據、目標檢測、語義分割、序列標記、語言生成和信息檢索。內頁包含了快速參考資料,告訴你在哪里可以找到這些任務。
代碼地址:
在過去的十年里,人們對人工智能和機器學習的興趣有了相當大的增長。從最廣泛的意義上說,這些領域旨在“學習一些有用的東西”,了解生物體所處的環境。如何處理收集到的信息導致了算法的發展——如何處理高維數據和處理不確定性。在機器學習和相關領域的早期研究階段,類似的技術在相對孤立的研究社區中被發現。雖然不是所有的技術都有概率論的自然描述,但許多都有,它是圖模型的框架(圖和概率論的結合),使從統計物理、統計、機器學習和信息理論的想法的理解和轉移。在這種程度上,現在有理由期待機器學習研究人員熟悉統計建模技術的基礎知識。這本書集中在信息處理和機器學習的概率方面。當然,沒有人說這種方法是正確的,也沒有人說這是唯一有用的方法。事實上,有人可能會反駁說,這是沒有必要的,因為“生物有機體不使用概率論”。無論情況是否如此,不可否認的是,圖模型和概率框架幫助機器學習領域出現了新算法和模型的爆炸式增長。我們還應該清楚,貝葉斯觀點并不是描述機器學習和信息處理的唯一方法。貝葉斯和概率技術在需要考慮不確定性的領域中發揮了自己的作用。
//www0.cs.ucl.ac.uk/staff/d.barber/brml/
本書結構
本書第一部分的目的之一是鼓勵計算機科學專業的學生進入這一領域。許多現代學生面臨的一個特別困難是有限的正規微積分和線性代數訓練,這意味著連續和高維分布的細節可能會讓他們離開。在以概率作為推理系統的一種形式開始時,我們希望向讀者展示他們可能更熟悉的邏輯推理和動態規劃的想法如何在概率環境中有自然的相似之處。特別是,計算機科學的學生熟悉的概念,算法為核心。然而,在機器學習中更常見的做法是將模型視為核心,而如何實現則是次要的。從這個角度來看,理解如何將一個數學模型轉換成一段計算機代碼是核心。
第二部分介紹了理解連續分布所需的統計背景,以及如何從概率框架來看待學習。第三部分討論機器學習的主題。當然,當一些讀者看到他們最喜歡的統計話題被列在機器學習下面時,他們會感到驚訝。統計學和機器學習之間的一個不同觀點是,我們最終希望構建什么樣的系統(能夠完成“人類/生物信息處理任務的機器),而不是某些技術。因此,我認為這本書的這一部分對機器學習者來說是有用的。第四部分討論了明確考慮時間的動態模型。特別是卡爾曼濾波器被視為圖模型的一種形式,這有助于強調模型是什么,而不是像工程文獻中更傳統的那樣把它作為一個“過濾器”。第五部分簡要介紹了近似推理技術,包括隨機(蒙特卡羅)和確定性(變分)技術。
機器學習中復雜的統計數據讓許多開發人員感到擔憂。了解統計學可以幫助你建立強大的機器學習模型,針對給定的問題陳述進行優化。這本書將教你所有需要執行復雜的統計計算所需的機器學習。您將獲得有關監督學習、非監督學習、強化學習等統計信息。了解真實世界的例子,討論機器學習的統計方面,并熟悉它。您還將設計用于執行諸如模型、參數擬合、回歸、分類、密度收集等任務的程序。
到本書結束時,你將掌握機器學習所需的統計數據,并能夠將你的新技能應用于任何類型的行業問題。
向量嵌入模型是現代機器學習知識表示和推理方法的基石。這些方法旨在通過在低維向量空間中學習概念和其他領域對象的表示,將語義問題轉化為幾何問題。本著這種精神,這項工作提倡基于密度和區域的表示學習。將領域元素作為幾何對象嵌入到單點之外,使我們能夠自然地表示廣度和一詞多義,進行不對稱比較,回答復雜的查詢,并在標記數據稀缺時提供強烈的歸納偏見。我們提出了一個使用高斯密度的詞表示模型,實現了概念之間的不對稱隱含判斷,以及一個基于軸對齊超矩形表示(盒)格的加權傳遞關系和多元離散數據的概率模型。我們將探討這些嵌入方法在不同的稀疏性、邊緣權值、相關性和獨立結構的適用性,以及表示的擴展和不同的優化策略。我們從理論上研究了盒格的表示能力,并提出了擴展模型來解決在建模困難的分布和圖方面的不足。
我們為什么在這里?我們大多數人來到這里的原因很簡單:我們想解決人工智能問題。那么,人工智能和這本書的書名有什么關系呢?人工智能的現代定義之一是對理性代理的研究和設計[RN09]。從這個意義上說,我們將一個系統描述為智能的,當它最大化某些預期的性能概念時。機器學習的子領域處理的是問題和算法的子集,其中代理可以獲得經驗(通常以某種形式的數據),可以利用這些經驗來改進性能的概念[MRT12]。大多數情況下,性能是由代理人在新的和看不見的情況下如何行動來衡量的,這些情況不構成其訓練經驗的一部分。例如,可以訓練一名代理人將英文翻譯成法文,其訓練經驗包括大量翻譯的聯合國文件。然而,在評估時,它可能會在與它所見過的文件不同的聯合國新文件上進行測試。很自然地,代理在它所看到的訓練經驗和它所評估的新情況下的表現之間存在著差距。代理泛化的能力是通過性能上的差距有多小來衡量的。
希望前面的段落已經解釋了在機器學習的背景下,以及在更大的AI背景下,什么是泛化。那么,標題中還保留著哪些“分布外”詞呢?如前所述,泛化是指減少一個agent在已知訓練情境下的表現與同一agent在未知測試情境下的表現之間的差距。然而,有許多不同類型的未知。統計學習通常處理的一類泛化是分布的:當從訓練示例生成的數據與測試示例生成的數據無法區分時。根據定義,非分布內的泛化問題稱為分布外泛化問題,這是本書的主題。
這項工作的目標很簡單。我們想要回顧,分布外泛化的知識。因此,這項工作的很大一部分將致力于理解(有時是微妙的)不同方法和假設之間的差異和相似性,通常以一種孤立的方式呈現。重點將放在與人工智能或現代大規模機器學習應用等想法上。此外,我們將特別注意研究不同方法的缺點,以及下一步可能是重要的。
在第二章中,我們首先討論如何量化分布外泛化。通過幾個例子,我們研究了分布外泛化與處理不同分布外任務的幾種常用方法之間的關系。本文將特別強調這些方法背后的假設,并說明這些方法何時有效,何時無效。
在第三章中,我們將關注一個特定的分布外任務類。在這些預測任務中,就像在許多實際問題中一樣,在分布之外泛化的困難在于找出數據中的哪些相關性是假的和不可靠的,以及哪些相關性代表感興趣的現象。
在第四章中,我們討論了不同應用領域在實踐中出現的分布外任務的類型,以及這些領域在過去是如何處理這些問題的。
在第五章中,我們為分布外泛化和人工智能背景下的新研究領域奠定了基礎。在本章中,我們將關注在探索或強化學習環境中與世界交互的agent,以及它們如何從分布外泛化中獲益。
在過去的20年里,基因組學、神經科學、經濟學和互聯網服務等許多領域產生了越來越多的大數據集,這些數據集有高維、大樣本,或者兩者兼之。這為我們從數據中檢索和推斷有價值的信息提供了前所未有的機會。同時,也對統計方法和計算算法提出了新的挑戰。一方面,我們希望建立一個合理的模型來捕獲所需的結構,并提高統計估計和推斷的質量。另一方面,面對越來越大的數據集,計算可能成為一個巨大的障礙,以得出有意義的結論。這篇論文站在兩個主題的交叉點,提出了統計方法來捕獲所需的數據結構,并尋求可擴展的方法來優化計算非常大的數據集。我們提出了一種可擴展的靈活框架,用于利用lasso/elastic-net解決大規模稀疏回歸問題; 提出了一種可伸縮的框架,用于在存在多個相關響應和其他細微差別(如缺失值)的情況下解決稀疏縮減秩回歸問題。分別在snpnet和multiSnpnet R包中以PLINK 2.0格式為基因組數據開發了優化的實現。這兩種方法在超大和超高維的英國生物樣本庫研究中得到了驗證,與傳統的預測建模方法相比有了顯著的改進。此外,我們考慮了一類不同的高維問題,異質因果效應的估計。與監督學習的設置不同,這類問題的主要挑戰在于,在歷史數據中,我們從未觀察到硬幣的另一面,因此我們無法獲得處理之間真正差異的基本真相。我們提出適應非參數統計學習方法,特別是梯度增強和多元自適應回歸樣條,以估計處理效果的預測器可用。實現被打包在一個R包causalLearning中。