亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

最近,伯克利大學Roshan Rao 157頁博士論文介紹了在通用基準上訓練和評估蛋白質語言模型的方法。隨后,研究了模型縮放、數據預處理和訓練超參數對transformer在無監督的情況下學習蛋白質接觸能力的影響,然后提出了一種在MSA上操作而不是在單個序列上操作的新方法,并證明了該方法在多個下游任務上實現了最優的性能。最后,討論了所有這些方法在蛋白質設計中的應用。

作者介紹:

Meta AI的一名研究科學家,研究蛋白質序列的神經進化模型。之前,我在加州大學伯克利分校攻讀博士學位,在那里我得到了John Canny和Pieter Abbeel的指導! //rmrao.github.io/作者發表的文章

訓練,評估和理解蛋白質序列的進化模型Training, Evaluating, and Understanding Evolutionary Models for Protein Sequences

新的蛋白質序列通過突變產生。這些突變可能是有害的,有益的,或中性的;突變對生物體進化適應性的影響反映在生物體存活的時間是否足夠長,使其蛋白質能夠被采樣并儲存在序列數據庫中。長期以來,生物信息學一直尋求利用這種進化信號,通常以多重序列比對(MSAs)的形式,來推斷新蛋白質的結構和功能。隨著神經網絡和自監督預訓練的出現,一種不同的方法出現了,使用語言建模目標對大規模神經網絡進行預訓練,從輸入的蛋白質序列自動生成信息特征

本文介紹了在一個通用基準上訓練和評估蛋白質語言模型的方法。隨后,研究了增加模型擴展、數據集預處理和超參數訓練對transformers 在沒有監督的情況下學習蛋白質接觸能力的影響。一種新的方法操作在MSAs而不是單一序列,然后提出,并顯示在幾個下游任務達到最先進的性能。最后,討論了這些方法在蛋白質設計中的應用。

本論文試圖回答關于蛋白質序列語言建模的三個關鍵問題:

  1. NLP中非監督學習的標準方法是否能學習生物學相關的特征?
  2. 我們如何定制用于訓練蛋白質的無監督模型的數據、模型和任務?
  3. 蛋白質序列的大規模無監督模型能用于蛋白質設計嗎?

付費5元查看完整內容

相關內容

谷歌的下一代架構 Pathways 已經用來訓練大模型了。

隨著規模的增加,模型在處理多個任務時的性能逐漸提高,而且還在不斷解鎖新的能力。

在探討現有 AI 模型的局限時,谷歌人工智能主管 Jeff Dean 曾經說過,今天的人工智能系統總是從頭開始學習新問題。最終,我們為數千個單獨的任務開發了數千個模型。以這種方式學習每項新任務不僅需要更長的時間,而且還需要更多的數據,效率非常低。

在 Jeff Dean 看來,理想的發展模式應該是訓練一個模型來做成千上萬件事情。為了實現這一愿景,他所在的團隊去年提出了一種名叫「Pathways」的通用 AI 架構。Jeff Dean 介紹說,Pathways 旨在用一個架構同時處理多項任務,并且擁有快速學習新任務、更好地理解世界的能力。前段時間,該團隊終于公布了 Pathways 的論文。

論文寫道,PATHWAYS 使用了一種新的異步分布式數據流設計。這種設計允許 PATHWAYS 采用單控制器模型,從而更容易表達復雜的新并行模式。實驗結果表明,當在 2048 個 TPU 上運行 SPMD(single program multiple data)計算時,PATHWAYS 的性能(加速器利用率接近 100%)可以媲美 SOTA 系統。

谷歌 Pathways 系統架構概覽。

有了強大的系統,接下來就是訓練模型了。

在剛剛公布的論文——「PaLM: Scaling Language Modeling with Pathways」中,谷歌宣布,他們用 Pathways 系統訓練了一個 5400 億參數的大型語言模型——PaLM(Pathways Language Model)。

圖片

論文鏈接://storage.googleapis.com/pathways-language-model/PaLM-paper.pdf

這是一個只有解碼器的密集 Transformer 模型。為了訓練這個模型,谷歌動用了 6144 塊 TPU,讓 Pathways 在兩個 Cloud TPU v4 Pods 上訓練 PaLM。

強大的系統和算力投入帶來了驚艷的結果。研究者在數百個語言理解和生成任務上評估了 PaLM,發現它在大多數任務上實現了 SOTA 少樣本學習性能,可以出色地完成笑話解讀、bug 修復、從表情符號中猜電影等語言、代碼任務。

付費5元查看完整內容

新的蛋白質序列通過突變產生。這些突變可能是有害的,有益的,或中性的;突變對生物體進化適應性的影響反映在生物體存活的時間是否足夠長,使其蛋白質能夠被采樣并儲存在序列數據庫中。長期以來,生物信息學一直尋求利用這種進化信號,通常以多重序列比對(MSAs)的形式,來推斷新蛋白質的結構和功能。隨著神經網絡和自監督預訓練的出現,一種不同的方法出現了,使用語言建模目標對大規模神經網絡進行預訓練,從輸入的蛋白質序列自動生成信息特征。

本文介紹了在一個通用基準上訓練和評估蛋白質語言模型的方法。隨后,研究了增加模型縮放、數據集預處理和超參數訓練對transformers 在沒有監督的情況下學習蛋白質接觸能力的影響。一種新的方法操作在MSAs而不是單一序列,然后提出,并顯示在幾個下游任務達到最先進的性能。最后,討論了這些方法在蛋白質設計中的應用。

付費5元查看完整內容

經過數百萬種不同序列訓練的無監督蛋白質語言模型可以學習蛋白質的結構和功能。迄今為止,研究的蛋白質語言模型都是經過訓練的,可以從單個序列進行推斷。長期以來,計算生物學的方法一直是通過獨立地將一個模型擬合到每個家族中,從一個進化相關的序列家族中做出推論。在這項工作中,我們結合了兩種范式。我們引入了一種蛋白質語言模型,它以多序列比對的形式將一組序列作為輸入。該模型在輸入序列中穿插行和列注意力,并使用跨許多蛋白質家族的掩碼語言建模目標的變體進行訓練。該模型的性能大大超過了目前最先進的無監督結構學習方法,參數效率遠高于之前的最先進的蛋白質語言模型。

//proceedings.mlr.press/v139/rao21a.html

付費5元查看完整內容

本教程將介紹自注意力機制在計算機視覺中的應用。Self-Attention在NLP中被廣泛采用,完全注意的Transformer模型已經在很大程度上取代了RNN,現在被用于最先進的語言理解模型,如GPT、BERT、XLNet、T5、Electra和Meena。因此,人們對研究自注意力是否能在計算機視覺中產生同樣巨大而深遠的影響產生了極大的興趣。然而,由于視覺任務與語言任務具有不同的性質,因此許多研究都致力于探索自注意力在視覺模型中的最佳應用方式。本教程將涵蓋視覺中自注意力的許多不同應用,以便讓用戶對這個子領域有一個廣泛而精確的理解。

//icml.cc/Conferences/2021/Schedule

付費5元查看完整內容

自然語言數據的一個重要子集包括跨越數千個token的文檔。處理這樣長的序列的能力對于許多NLP任務是至關重要的,包括文檔分類、摘要、多跳和開放域問答,以及文檔級或多文檔關系提取和引用解析。然而,將最先進的模型擴展到較長的序列是一個挑戰,因為許多模型都是為較短的序列設計的。一個值得注意的例子是Transformer模型,它在序列長度上有二次計算代價,這使得它們對于長序列任務的代價非常昂貴。這反映在許多廣泛使用的模型中,如RoBERTa和BERT,其中序列長度被限制為只有512個tokens。在本教程中,我們將向感興趣的NLP研究人員介紹最新和正在進行的文檔級表示學習技術。此外,我們將討論新的研究機會,以解決該領域現有的挑戰。我們將首先概述已建立的長序列自然語言處理技術,包括層次、基于圖和基于檢索的方法。然后,我們將重點介紹最近的長序列轉換器方法,它們如何相互比較,以及它們如何應用于NLP任務(參見Tay等人(2020)最近的綜述)。我們還將討論處理長序列的關鍵的各種存儲器節省方法。在本教程中,我們將使用分類、問答和信息提取作為激勵任務。我們還將有一個專注于總結的實際編碼練習。

付費5元查看完整內容

由于硬件資源有限,訓練深度學習模型的目標通常是在訓練和推理的時間和記憶約束下使準確性最大化。在這種情況下,我們研究了模型大小的影響,重點研究了受計算限制的NLP任務的Transformer模型:自我監督的預訓練和高資源機器翻譯。我們首先表明,盡管較小的Transformer模型在每次迭代中執行得更快,但是更廣泛和更深入的模型在更少的步驟中收斂。此外,這種收斂速度通常超過使用大型模型的額外計算開銷。因此,最具計算效率的訓練策略是反直覺地訓練非常大的模型,但是在少量的迭代之后停止。

這導致大型Transformer 模型的訓練效率與小型Transformer 模型的推理效率之間存在明顯的權衡。然而,我們證明大型模型比小型模型對量化和剪枝等壓縮技術有更強的魯棒性。因此,我們可以同時利用兩個方面的優勢:高度壓縮的大型模型比輕度壓縮的小型模型獲得更高的精度。

付費5元查看完整內容
北京阿比特科技有限公司