主題: Machine learning for protein engineering
摘要: 機器學習指導的蛋白質工程是一種新的范例,可以優化復雜的蛋白質功能。 機器學習方法使用數據來預測蛋白質功能,而無需詳細的基礎物理或生物學途徑模型。
本文介紹了一階優化方法及其在機器學習中的應用。這不是一門關于機器學習的課程(特別是它不涉及建模和統計方面的考慮),它側重于使用和分析可以擴展到具有大量參數的大型數據集和模型的廉價方法。這些方法都是圍繞“梯度下降”的概念而變化的,因此梯度的計算起著主要的作用。本課程包括最優化問題的基本理論性質(特別是凸分析和一階微分學)、梯度下降法、隨機梯度法、自動微分、淺層和深層網絡。
本文介紹了一階優化方法及其在機器學習中的應用。這不是一門關于機器學習的課程(特別是它不涉及建模和統計方面的考慮),它側重于使用和分析可以擴展到具有大量參數的大型數據集和模型的廉價方法。這些方法都是圍繞“梯度下降”的概念而變化的,因此梯度的計算起著主要的作用。本課程包括最優化問題的基本理論性質(特別是凸分析和一階微分學)、梯度下降法、隨機梯度法、自動微分、淺層和深層網絡。
機器學習(ML)是一組用于發現數據關系的編程技術。使用ML算法,您可以對數據進行聚類和分類,以執行建議或欺詐檢測之類的任務,并對銷售趨勢、風險分析和其他預測進行預測。機器學習曾經是學術數據科學家的領域,現在已經成為主流的業務流程,而像易于學習的R編程語言這樣的工具將高質量的數據分析交到任何程序員的手中。《使用R、tidyverse和mlr的機器學習》將教會您廣泛使用的ML技術,以及如何使用R編程語言及其強大的工具生態系統將它們應用于您自己的數據集。這本書會讓你開始!
對這項技術
機器學習技術準確而有效地識別數據中的模式和關系,并使用這些模型對新數據進行預測。ML技術甚至可以在相對較小的數據集上工作,使這些技能成為幾乎所有數據分析任務的強大盟友。R語言的設計考慮了數學和統計的應用。小型數據集是它的最佳選擇,它的現代數據科學工具(包括流行的tidyverse包)使R成為ML的自然選擇。
關于這本書
《使用R、tidyverse和mlr的機器學習》將教會您如何使用強大的R編程語言從數據中獲得有價值的見解。作者兼R專家Hefin Ioan Rhys以其引人入勝的、非正式的風格為ML基礎知識打下了堅實的基礎,并向您介紹了tidyverse,這是一套專門為實用數據科學設計的強大的R工具。有了這些基礎知識,您將更深入地研究常用的機器學習技術,包括分類、預測、約簡和聚類算法,并將每種技術應用于實際數據,從而對有趣的問題進行預測。
使用tidyverse包,您將轉換、清理和繪制您的數據,并在工作中使用數據科學最佳實踐。為了簡化您的學習過程,您還將使用R的mlr包,這是一個非常靈活的接口,用于各種核心算法,允許您以最少的編碼執行復雜的ML任務。您將探索一些基本概念,如過擬合、欠擬合、驗證模型性能,以及如何為您的任務選擇最佳模型。富有啟發性的圖片提供了清晰的解釋,鞏固了你的新知識。
無論您是在處理業務問題、處理研究數據,還是僅僅是一個有數據頭腦的開發人員,您都可以通過本實用教程立即構建自己的ML管道!
里面有什么
機器學習應用在高風險領域(如刑事判決、醫學測試、在線廣告等)的流行,至關重要的是要確保這些決策支持系統不會傳播歷史數據中可能存在的現有偏見或歧視。一般來說,在算法公平文獻中有兩個關于公平的中心概念。第一個是個體公平,它要求公平的算法以相似的方式對待相似的個體。然而,在實踐中,通常很難找到或設計一個社會可接受的距離度量來捕獲個體之間關于特定任務的相似性。相反,在這篇博客文章中,我們關注的是公平的第二個概念,群體公平,更具體地說是統計上的平等,這本質上要求預測器的結果在不同的子群體中是平等的。
題目
《A Concise Introduction to Machine Learning》by A.C. Faul (CRC 2019)
關鍵字
機器學習簡介
簡介
本書對當下機器學習的發展以及技術進行了簡介,循序漸進,深入淺出,適合新手入門。
目錄
題目: Compositionality In Machine Learning
摘要:
現實世界是固有的結構,如句子是由詞語組成的,圖像是由物體組成的,物體本身是由部分組成的。人們如何度量這些,過程是合成的,而不是輸出的。本次教程主要講述了機器學習中的組合性,解釋了機器學習中組合模型的歷史以及原理,還講述了為什么我們要期望普通的模型是組成型學習者?
作者:
Angeliki Lazaridou是DeepMind的高級研究科學家,在此之前是Marco Baroni的研究生,在意大利特倫托大學(map)心智/腦科學中心CLIC實驗室從事基礎語言學習。在薩爾大學(University of Saarland)獲得了計算語言學理學碩士學位,研究情感分析,并獲得了伊拉斯謨?蒙德斯(Erasmus Mundus)語言與通信技術碩士獎學金(EM-LCT)的支持。研究興趣是緊急通信,計算語言學,自然語言處理,人工智能。
主題: Artificial Intelligence Working Group Update
簡介: 在數據生成和數據分析的推動下,我們處于生物醫學新世界的門檻。 在生命科學中,DNA測序,高分辨率成像,縱向電子健康記錄以及可穿戴式和非接觸式傳感器等技術正在提供比以往更多的有關更多個體生物學和健康的數據。 在計算科學中,機器學習(ML)和其他形式的人工智能的進步正在改變消費技術,交通運輸,能源和農業。 這些革命的融合為MLBioMed的新世界打開了大門,它為ML設計了生物醫學實驗,為生物醫學實驗設計了ML。 在本報告中,我們就NIH如何最好地確保以機器學習的方式負責任地促進生物醫學研究和全球健康提出了一系列建議。
近幾年來,隨著機器學習的普及,機器學習系統的公平性問題引起了實際的道德、社會等問題。圖書《公平性與機器學習—局限與機遇》以公平性為核心問題來看待機器學習,提供了對當前機器學習實踐以及為實現公平而提出的技術修復方案的批判性思考。
社會、道德和機器學習自身等角度,介紹了目前機器學習中的公平性問題,如由于數據導致的偏置(bias)等問題。
圖書《Fairness and Machine Learning - Limitations and Opportunities》(《公平性與機器學習—局限與機遇》)以公平性為核心問題來看待機器學習,強調機器學習在道德方面的挑戰。作者希望該書盡可能地被廣泛閱讀,但在寫作時依然堅持著技術的嚴謹性。該書并沒有提供包羅萬象的對公平性完整的正式定義,也沒有提出一個快速解決社會對自動決策擔憂的修復方案。
解決機器學習公平性問題需要認真理解機器學習工具的局限性。該書提供了對當前機器學習實踐以及為實現公平而提出的技術修復方案的批判性思考。雖然這些問題都沒有簡單的答案,作者希望這本書能夠幫助讀者更深層次地理解如何構建負責任的機器學習系統。
題目: Active Learning: From Theory to Practice
簡介:
近年來,機器學習領域取得了相當大的進步,但主要是在定義明確的領域中使用了大量帶有人類標記的訓練數據。機器可以識別圖像中的物體并翻譯文本,但它們必須接受比人一生所能看到的更多的圖像和文本的訓練。生成必要的訓練數據集需要大量的人力工作。Active ML旨在解決這個問題,它設計了一種學習算法,能夠自動、自適應地選擇最具信息性的數據進行標記,這樣就不會浪費人類的時間來標記不相關、冗余或瑣碎的例子。本教程將概述應用程序,并介紹主動機器學習的基本理論和算法。它將特別關注可證明的健全的主動學習算法,并量化學習所需的標記訓練數據的減少。
邀請嘉賓:
Robert Nowak是威斯康星大學麥迪遜分校的諾斯布施工程教授,他的研究重點是信號處理、機器學習、優化和統計。
Steve Hanneke是芝加哥豐田技術研究所的研究助理教授。他的研究探索了機器學習理論:設計新的學習算法,能夠從更少的樣本中學習,理解交互式機器學習的好處和能力,開發遷移學習和終身學習的新視角,并在學習理論的基礎上重新審視基本的概率假設。Steve于2005年在UIUC獲得了計算機科學學士學位,2009年在卡內基梅隆大學獲得了機器學習博士學位,并完成了一篇關于主動學習理論基礎的論文。