工程蛋白在制藥、農業、特種化學品和燃料等行業和應用中發揮著越來越重要的作用。機器學習可以使蛋白質工程在治療和工業應用方面達到前所未有的控制水平。對數百萬個蛋白質序列進行預訓練的大型自監督模型最近在生成蛋白質序列嵌入以預測蛋白質特性方面得到了廣泛的應用。然而,蛋白質數據集除了包含序列之外,還包含可以提高模型性能的信息。本次演講將涵蓋使用序列和結構數據的預訓練模型,它們在預測蛋白質的哪些部分可以被移除而保留功能方面的應用,以及一套新的蛋白質適應度基準來衡量預訓練蛋白質模型的進展。
Kevin Yang是劍橋微軟研究院的高級研究員,主要研究機器學習和生物學交叉領域的問題。他在加州理工學院與弗朗西斯·阿諾德(Frances Arnold)一起攻讀博士學位,研究方向是將機器學習應用于蛋白質工程。在加入MSR之前,他是Generate Biomedicines的機器學習科學家,在那里他使用機器學習優化蛋白質。
低能耗自主工具將支持廣泛的下一代應用,包括有助于搜索和救援的昆蟲大小的撲翼機器人、可以探索附近恒星的芯片大小的衛星,以及可以停留在空中的飛艇持久在偏遠地區提供通信服務。這些工具的自主能力將通過從頭開始構建計算機,通過共同設計自主和導航的算法和硬件來解決。本次演講將介紹各種方法、算法和計算硬件,這些方法可以顯著改善能耗和處理速度,例如視覺慣性導航、深度估計、運動規劃、基于互信息的探索和用于機器人感知的深度神經網絡。
作者簡介:
Vivienne Sze (//sze.mit.edu/) 是麻省理工學院電氣工程和計算機科學系的副教授,負責電子學節能多媒體系統研究小組的研究實驗室。她的團隊致力于計算系統,這些系統能夠為包括自主導航、數字健康和物聯網在內的廣泛應用提供節能機器學習、計算機視覺和視頻壓縮/處理。作為視頻編碼聯合協作團隊的成員,她因開發高效視頻編碼視頻壓縮標準而獲得黃金時段工程艾美獎。她是《深度神經網絡的高效處理》一書的合著者。
最近,伯克利大學Roshan Rao 157頁博士論文介紹了在通用基準上訓練和評估蛋白質語言模型的方法。隨后,研究了模型縮放、數據預處理和訓練超參數對transformer在無監督的情況下學習蛋白質接觸能力的影響,然后提出了一種在MSA上操作而不是在單個序列上操作的新方法,并證明了該方法在多個下游任務上實現了最優的性能。最后,討論了所有這些方法在蛋白質設計中的應用。
作者介紹:
Meta AI的一名研究科學家,研究蛋白質序列的神經進化模型。之前,我在加州大學伯克利分校攻讀博士學位,在那里我得到了John Canny和Pieter Abbeel的指導! //rmrao.github.io/作者發表的文章
訓練,評估和理解蛋白質序列的進化模型Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences
新的蛋白質序列通過突變產生。這些突變可能是有害的,有益的,或中性的;突變對生物體進化適應性的影響反映在生物體存活的時間是否足夠長,使其蛋白質能夠被采樣并儲存在序列數據庫中。長期以來,生物信息學一直尋求利用這種進化信號,通常以多重序列比對(MSAs)的形式,來推斷新蛋白質的結構和功能。隨著神經網絡和自監督預訓練的出現,一種不同的方法出現了,使用語言建模目標對大規模神經網絡進行預訓練,從輸入的蛋白質序列自動生成信息特征。
本文介紹了在一個通用基準上訓練和評估蛋白質語言模型的方法。隨后,研究了增加模型擴展、數據集預處理和超參數訓練對transformers 在沒有監督的情況下學習蛋白質接觸能力的影響。一種新的方法操作在MSAs而不是單一序列,然后提出,并顯示在幾個下游任務達到最先進的性能。最后,討論了這些方法在蛋白質設計中的應用。
本論文試圖回答關于蛋白質序列語言建模的三個關鍵問題:
幾何深度學習藥物發現
藥物發現是一個非常漫長和昂貴的過程,平均需要10年以上,花費25億美元來開發一種新藥。人工智能有可能通過從大量生物醫學數據中提取證據,顯著加快藥物發現的進程,從而徹底改變整個制藥行業。特別是,圖表示學習和幾何深度學習——機器學習和數據挖掘社區中一個快速增長的主題,專注于圖結構和3D數據的深度學習——已經看到了藥物發現的巨大機遇,因為該領域的許多數據都表示為圖形或3D結構(如分子,蛋白質,生物醫學知識圖譜)。在這次演講中,我將介紹我們在藥物發現幾何深度學習方面的最新進展,以及一個新發布的用于藥物發現的開源機器學習平臺——TorchDrug。
本文介紹由瑞士蘇黎世聯邦理工學院化學與應用生物科學系的Francesca Grisoni和Gisbert Schneider共同通訊發表在 Nature Machine Intelligence的研究成果:本文作者重點介紹了幾何深度學習在藥物發現、化學合成預測和量子化學等領域的應用,其包含幾何深度學習的原理和相關的分子表征,例如分子圖、網格、表面和字符串。作者討論了分子科學中幾何深度學習面臨的挑戰,并展望其未來應用。
論文鏈接:
//www.nature.com/articles/s42256-021-00418-8
幾何深度學習(Geometric deep learning, GDL)是人工智能的一個新興概念,在分子科學領域(如藥物發現、量子化學和結構生物學)得到了廣泛應用。
GDL涵蓋了將神經網絡推廣到歐幾里得和非歐幾里得域的新興技術,諸如圖、流形、網格和字符串表征。一般來說,GDL包括結合幾何先驗的方法,即關于輸入信號的空間結構和對稱屬性的信息,比如分子結構的表示。幾何先驗信息用于提高模型性能,如預測精度。雖然GDL已被越來越多地應用于分子模型,但其潛力仍未充分挖掘。
本綜述的目的是:
(1)對GDL在分子科學中的主要應用提供結構化和統一的綜述;
(2)描述該領域的主要研究方向;
(3)對GDL的未來應用進行展望。
藥物發現是一個非常漫長和昂貴的過程,開發一種新藥平均需要10年以上,花費25億美元。人工智能有潛力通過從大量生物醫學數據中提取證據來顯著加快藥物發現過程,從而徹底改變整個制藥行業。圖表示學習技術是機器學習和數據挖掘領域中一個快速發展的主題,專注于圖形結構數據的深度學習。由于該領域中的許多數據都是分子和生物醫學知識圖等圖形結構的數據,它為藥物發現帶來了巨大的機遇。在本次演講中,我將介紹我們在藥物發現的圖表示學習方面的最新進展,包括: (1)分子性質預測; (2)從頭分子設計與優化; (3)反合成預測。
強化學習(RL)使智能體能夠通過動態環境中的交互學習最佳決策。深度學習和強化學習的最新進展使得智能體在各個領域都取得了前所未有的成功,并在許多任務中取得了超人的表現。RL和深度學習影響了當今學術界和工業的幾乎所有領域,將它們應用于信息檢索(IR)的興趣越來越大。像谷歌和阿里巴巴這樣的公司已經開始使用基于強化學習的搜索和推薦引擎來個性化他們的服務,并在他們的生態系統中增強用戶體驗。
目前學習RL的在線資源要么專注于理論,犧牲了實踐,要么局限于實踐,缺乏足夠的直覺和理論背景。這個全天的教程是為信息檢索研究人員和實踐者精心定制的,以獲得最流行的RL方法的理論知識和實踐經驗,使用PyTorch和Python Jupyter 筆記本谷歌Colab。我們的目的是讓參加者具備RL的應用知識,幫助他們更好地了解有關RL的最新IR出版物,并使他們能夠使用RL解決自己的IR問題。
我們的教程不需要任何關于該主題的知識,并從基本概念和算法開始,如馬爾科夫決策過程,探索與利用,Q-學習,決策梯度和Actor-Critic算法。我們特別關注強化學習和深度學習的結合,使用深度Q-Network (DQN)等算法。最后,我們描述了如何利用這些技術來解決代表性的IR問題,如“學習排序”,并討論了最近的發展以及對未來研究的展望。
目錄內容: RL Basics and Tabular Q-Learning Deep Q-Network (DQN) 1/2 (presentation) Deep Q-Network (DQN) 2/2 (hands-on) IR Applications using DQN Policy Gradient (REINFORCE) IR Applications using REINFORCE Actor Critic Outlook
元學習可以讓機器學習新的算法。這是一個新興且快速發展的機器學習研究領域,對所有人工智能研究都有影響。最近的成功案例包括自動模型發現、少槍學習、多任務學習、元強化學習,以及教機器閱讀、學習和推理。正如人類不會從頭開始學習新任務,而是利用之前所學的知識一樣,元學習是高效和穩健學習的關鍵。本教程將介紹該領域及其應用的重要數學基礎,包括這個領域中當前技術水平的關鍵方法,該領域對眾多AAAI參與者來說越來越重要。
//sites.google.com/mit.edu/aaai2021metalearningtutorial
內容目錄:
主題: Machine learning for protein engineering
摘要: 機器學習指導的蛋白質工程是一種新的范例,可以優化復雜的蛋白質功能。 機器學習方法使用數據來預測蛋白質功能,而無需詳細的基礎物理或生物學途徑模型。
報告主題: Neural Architecture Search and Beyond
報告簡介:
神經網絡結構搜索(NAS)是一種自動化設計人工神經網絡的技術。由于NAS能設計出與手工設計神經網絡結構相當甚至優于手工設計結構的網絡,而成為近兩年深度學習社區的研究熱點。來自Google的科學家Barret Zoph,ICCV2019上做了《Neural Architecture Search and Beyond》的報告,講述了Google在NAS方面的最新研究進展。
嘉賓介紹:
Barret Zoph目前是谷歌大腦團隊的高級研究科學家。之前,在信息科學研究所與Kevin Knight教授和Daniel Marcu教授一起研究與神經網絡機器翻譯相關的課題。