利用人工智能促進生物醫學研究,是當前AI4Science熱點。最新來自南京大學與清華大學的學者在“Briefings in Bioinformatics”的綜述論文《深度學習蛋白質設計》綜述,詳細回顧了當前基于深度學習的蛋白質設計過程的主要進展,非常值得關注。
具有理想功能和特性的蛋白質在納米技術和生物醫學等領域非常重要。從頭開始的蛋白質設計使以前從未見過的蛋白質從頭開始生產成為可能,這被認為是處理現實社會挑戰的關鍵。最近,深度學習被引入設計方法,展示了變革性的影響,并有望代表一個充滿希望和令人興奮的未來方向。在這篇綜述中,我們回顧了當前基于深度學習的設計過程的主要進展,并通過明顯的案例說明了它們與傳統的基于知識的方法相比的新穎性。我們不僅描述了深度學習在基于結構的蛋白質設計和直接序列設計中的發展,而且強調了深度強化學習在蛋白質設計中的最新應用。對未來的設計目標、挑戰和機遇進行了全面的探討。
在我們復雜而奇妙的世界中,參與大多數生物化學反應的蛋白質,幾十年來一直是基礎科學研究以及醫療和工業應用的焦點。根據弗朗西斯·克里克在1958年闡明的基本生物學原理“中心法則”,蛋白質是生物體中低級系統信息的執行端,每個系統執行一種或幾種特定的編碼功能,這些功能依次共同定義相應的生物體。各種各樣的天然蛋白質,如核蛋白、膜蛋白、血紅蛋白、脂蛋白、熱休克蛋白、收縮蛋白等,與人工機器相比表現出驚人的優良性能,包括極高的效率、操作的經濟和精度、合成后的自組裝等。蛋白質材料以其巨大的數量、卓越的質量和隨之而來的多能性,為許多嚴重的社會挑戰提供了可能的解決方案,引起了廣泛的關注。
然而,由于工作環境的嚴格限制和相對較短的使用壽命,天然蛋白質無法滿足人類激增的需求。此外,由于天然蛋白質是在大自然的選擇壓力下經過數百萬年的進化而逐漸優化的,因此在原則上,它們不太可能在數百年內應對人類社會帶來的挑戰。因此,人造蛋白質修飾,甚至更進一步,從零開始設計全新的蛋白質應運而生。幸運的是,隨著過去對蛋白質[1]的生物化學和生物物理研究的長期積累,蛋白質設計在技術上成為可能。在過去的十年中,通過蛋白質設計已經取得了許多令人印象深刻的成就,這強烈地影響和促進了學術界和工業界的合成生物學。在免疫信號傳導[2,3]、靶向治療[4,5]、感覺反應系統[6]、蛋白開關[7,8]、自組裝材料[9,10]等未在此提及的領域的進展顯示了利用蛋白質作為功能性和可再生材料的令人興奮的潛力。此外,這些蛋白質設計上的突破也拓展了我們對蛋白質序列、結構和功能空間的探索和理解。以序列空間為例,由于所有的天然蛋白序列都起源于古代的一些偶然事件,并在偶然突變和定向選擇壓力下逐漸演化,因此它們不是均勻分散,而是以被稱為蛋白質家族的噴灑簇的形式存在于序列空間中。在有限的時間尺度內,自然進化無法對位于廣闊剩余空間的蛋白質序列的性質和功能進行采樣,這就賦予了蛋白質設計的重要意義。
早期的蛋白質設計方法如定向進化[11,12]和隨后的理性工程[13,14]主要著眼于模仿和/或加速自然進化過程。這些方法通過多輪的突變文庫構建和高通量篩選,偶然獲得了性能提高甚至功能新的蛋白[15-18]。然而,這些方法總是面臨測定保真度和通量之間的權衡,更重要的是,它們的探索仍然局限于相應的初始天然蛋白。隨著計算設備和算法的發展,計算機輔助蛋白質工程逐漸克服了上述不足,它避免了相對隨機的突變策略,并根據蛋白質的生物物理和生化原理提供了一些明確的設計藍圖。在眾多的計算機輔助蛋白質工程方法中,以生成自然界中不存在的新蛋白質為目標的蛋白質從頭設計(de novo protein design)最受關注。憑借豐富的寶貴成果,de novo蛋白設計被《科學》雜志提名為2016年[19]年度十大突破之一。
基本上,蛋白質從頭設計的任務是找到具有預期功能的新序列。然而,在實踐中,在構建蛋白質序列和功能空間之間的直接映射方面存在一些障礙。例如,一個蛋白質序列編碼的信息很難單獨從目標序列中提取出來,因為它只是20種氨基酸殘基的排列或組合。此外,不同的蛋白質功能幾乎無法定量表達。由于蛋白質需要形成特定的三級結構來完成其特定的功能,而且結構通常包含更豐富的信息,例如存儲在PDB文件中的原子的笛卡爾坐標,蛋白質結構是序列和功能雙向映射的完美媒介。此外,以往研究積累的大量蛋白質結構數據,如蛋白質折疊分類、由此產生的聚類以及結合界面、催化中心和變構調控等描述的反應機制信息也將非常有幫助。因此,蛋白質從頭設計主要以結構為基礎的方式進行。
基于結構的從頭蛋白設計通常有三個區域或階段,即主干生成、序列適應度和候選評分,如Top 7[20],第一個沒有天然同源物設計的球形蛋白,以及其他著名的相關作品。一般來說,在第一步設計具有預定義的次級結構元素和/或幾何約束(如殘差間的距離和方向)的特定折疊拓撲。然后,利用序列無關的能量函數進行評價,篩選出兼容的肽片段,并進行多次序列結構優化。在迭代過程中,采用Metropolis-Hastings算法根據能量函數隨機替換轉子。之后,對候選人進行評分、評分和選擇,生成最終的設計輸出[21]。
盡管取得了顯著的成就[22-24],但這些傳統的方法主要是基于知識的,依賴于物理原理和統計規則[25]。隨著蛋白質序列、結構、功能及其相互關系的大量數據積累[26-28],近年來蛋白質設計的研究興趣逐漸轉向數據驅動的方法[29]。其中,深度學習技術對自然語言處理、計算機視覺[30]等諸多領域產生了革命性的影響。深度學習提供最簡單、也最一般的近似和高階統計參數化方法和勢擴大接受域與大數據的支持,因此可以被集成到所有領域的基于結構的蛋白質設計進行進一步的改進和突破。此外,深度學習還揭示了在不依賴結構介質的情況下,直接設計具有特定功能或特性的蛋白質序列。在這篇綜述中,我們將討論基于深度學習技術的先進蛋白質設計方法,它們所提供的好處和可預測的趨勢。值得注意的是,許多其他的進步極大地促進了蛋白質設計,例如DNA合成,蛋白質結構預測和蛋白質制造,這里將不詳述。
簡而言之,深度學習訓練人工神經網絡或相關網絡的組合來在高維抽象空間中近似復雜的未知函數。具有非線性激活的人工神經元或節點通過特定的仿射變換連接起來,參數化權值和偏差,在每個訓練步驟中通過反向傳播從損失計算出的梯度進行修正,即當前網絡輸出與相應地面真實值之間的差異。
基于結構的蛋白質設計可以看作是蛋白質結構預測的逆過程。對于后者,需要為給定的序列建模一些潛在的結構,而對于前者,需要為設計好的拓撲結構的主干優化一些可行的序列(圖2)。蛋白質同源性在蛋白質結構預測中起著重要的作用,為精確推斷提供了大量的進化信息。近年來,深度學習在很多方面對蛋白質結構預測產生了革命性的影響,從早期的蛋白質殘基間接觸預測和接觸輔助結構建模[31,53 - 57],到后來對殘基間幾何性質和基于幾何約束的蛋白質折疊的精確預測[32,58 - 62]。此外,谷歌DeepMind開發的具有最先進的端到端訓練程序的注意力網絡在第十四屆CASP (Critical Assessment of protein Structure Prediction)實驗中為單結構域蛋白質的結構預測提供了極好的解決方案,震驚了公眾[63-65]。用于蛋白質結構預測的深度學習技術,如卷積神經網絡,可以有效地從多序列比對中蘊含的協同進化信息中捕獲折疊級結構特征[66]。這些成果加深了我們對蛋白質序列-結構關系的理解,這也是基于結構的設計的基礎,并提供了一系列可以直接用于設計問題的實用工具。除了通過結構預測的進步對蛋白質設計的環境改進外,定制化深度學習方法也直接對蛋白質設計做出了相當大的貢獻。針對不同設計階段不同設計目標的新型網絡架構、訓練程序和數據操作不斷涌現,有力地推動了蛋白質的探索。我們將詳細說明這些新特性,說明這些方法與傳統的基于知識的方法之間的區別,并在以下部分闡明相應的意義。
如上所述,蛋白質設計的主要任務是找到能夠穩定地展示所需特性和執行預期功能的序列。此外,信息通路越長,中轉點越多,通常會引入不必要的數據轉換和傳輸,可能會造成較大的信號偏差。因此,原則上,直接映射蛋白質序列和功能的空間似乎比需要預先確定的結構拓撲作為中間媒介的設計程序更有優勢。更重要的是,由于測序技術的進步,蛋白質序列數據的積累速度比結構數據快得多,尤其是宏基因組學的引入[114]。大量的未標記序列結合深度學習對特征提取、模式識別和目標生成的強大能力,使直接探索序列空間和改進蛋白質設計范式成為可能和有價值的。與蛋白質適應性景觀搜索給定的主干不同,直接序列設計在潛在空間學習序列表示的有意義的分布,并根據學習到的分布派生出的推測表示在真實空間生成序列(圖4)。因此,生成模型在這一領域的應用比判別模型更為廣泛(如表2所示)。在這一節中,我們將通過具體的案例來關注直接蛋白質序列設計的兩個主要方面,以回顧過去的成就并預測未來的趨勢。
基于深度強化學習的蛋白質設計方法就像自然蛋白質合成過程的計算機模擬(圖5),隨著更先進技術的應用,這些方法可以幫助我們挖掘更多蛋白質的內在原理,得到更多高質量的功能蛋白質材料。例如,DyNA PPO[132]就是基于proximalpolicy優化[133]的深度強化學習模型,用于序列設計。該模型從左到右依次生成氨基酸序列,整個過程被視為一個馬爾可夫決策過程。在序列生成完成之前,對agent的獎勵保持為0。在每一輪結束時,一組試圖近似替代適應度函數的機器學習模型給出的序列適應度測量作為最終獎勵。DyNA PPO通過使用一堆模型來學習序列適應度環境的不同方面,但只使用最合適的、具有足夠精度的模型來更新其策略,從而平衡了獎勵估計中的權衡。雖然DyNA PPO的優越性已經在多個方法的大規模基準測試中得到了證明,但該報告并沒有通過濕實驗室實驗進行任何驗證。因此,其實用性還需要在未來的研究中得到驗證。此外,強化學習可以用來微調一些預先訓練的生成模型的蛋白質設計。例如,RNN通過基于策略的強化學習方法進行調整,以生成理想的化合物[134]。這項研究最重要的啟示是降低災難性遺忘風險的嘗試和成功[135],這是蛋白質生成模型的一個常見問題。
在過去的十年中,蛋白質設計取得了巨大的成功,幫助人類在多個方面應對社會挑戰。這樣的例子在我們的日常生活中隨處可見,包括設計用于體內生物傳感器的小分子結合蛋白[136,137],設計用于預防病毒感染的生物醫學抑制劑[138],設計具有誘人催化效率的酶[139-141],設計高度對稱的自組裝材料,使疫苗應用具有抗原的多價呈現[10,142]等。最近,深度學習技術對蛋白質設計領域產生了初步但令人印象深刻的影響。通過在現有的蛋白質數據中提取和集成統計模式的驚人能力,人工深度神經網絡學習基本的蛋白質特征,將它們存儲在數十億個參數中,并將它們推廣到不同的子領域進行推斷。然而,在我們常規使用深度學習方法設計任意蛋白質的道路上仍然存在障礙。例如,蛋白質折疊機制是生物信息學中最重要、最本質的問題之一,也是各種蛋白質設計方法的首要理論原則,我們對蛋白質折疊機制的認識還遠遠不夠充分。在這一領域,深度學習、物理建模和仿真相結合已經做了許多努力。或許深度強化學習(deep reinforcement learning)嘗試建立策略,并找到從延伸的蛋白質鏈到折疊良好的結構的可能軌跡也會有所幫助。
正如ImageNet數據庫[143]對計算機視覺發展的影響一樣,各個領域采用深度學習都需要豐富多樣的、有良好注釋的數據。然而,對于具有特定目標的蛋白質設計來說,蛋白質功能和性質的相關數據往往非常缺乏,而且缺乏統一的、標準的實驗條件。訓練數據的缺乏會阻礙準確的設計,從而導致額外的實驗優化的需求。雖然已經建立了以ProtaBank[144]為例的一些數據庫來緩解這一現象,但仍有很多工作要做。克服這一缺陷的另一個重要方向可能是少樣本學習[145,146],據我們所知,相關的探索還沒有嘗試過。蛋白質設計中能量函數的評分精度和計算速度也需要進一步提高,因為能量函數指導優化方向,每一步都要重復使用。與傳統的勢能項相比,深度神經網絡學習的能量函數對設計的評估更精確,但速度較慢。采用更先進、更輕量級的網絡架構以及知識提煉[147]和網絡修剪[148]可能會部分解決這一困境。蛋白質設計及其逆向過程——蛋白質結構預測——的另一個困境是,目前的優化方法通常擅長于只有一個最小值的景觀,而許多蛋白質通過不同構象之間的結構轉換來實現其功能和性質。這就需要深度學習方法來設計具有多個不同能量最小值的蛋白質。未來的研究人員應該關注這種復雜性。
最近,深度學習的引入已經對蛋白質設計領域產生了初步但具有變革性的影響。
深度學習可以提供快速、高通量和精確的硅蛋白設計方法。
我們回顧了基于深度學習的蛋白質設計方法在過去兩年中取得的進展,并通過重要的里程碑說明了它們與傳統的基于知識的方法相比的新穎性、優勢和意義。我們還全面討論了未來的挑戰和機遇。
本文的綜述有助于人們進一步了解該領域,促進相關研究的開展。
摘要
人在環路是通過整合人類的知識和經驗,以最小的代價訓練出準確的預測模型。借助基于機器的方法,人類可以為機器學習應用提供訓練數據,直接完成一些流水線中計算機難以完成的任務。在本文中,我們從數據的角度對現有的關于人在環路的研究進行了綜述,并將其分為三大類: (1) 通過數據處理提高模型性能的工作,(2) 通過干預模型訓練提高模型性能的工作,(3) 系統獨立的人在環路的設計。通過以上分類,我們總結了該領域的主要方法,以及它們的技術優勢/弱點,并在自然語言處理、計算機視覺等方面進行了簡單的分類和討論。此外,我們提供了一些開放的挑戰和機會。本綜述旨在為人在環路提供一個高層次的總結,并激發感興趣的讀者考慮設計有效的人在環路解決方案的方法。
引言
深度學習是人工智能的前沿,旨在更接近其主要目標——人工智能。深度學習已經在廣泛的應用中取得了巨大的成功,如自然語言處理、語音識別、醫療應用、計算機視覺和智能交通系統[1,2,3,4]。深度學習的巨大成功歸功于更大的模型[5]。這些模型的規模包含了數億個參數。這些數以億計的參數允許模型有更多的自由度,足以令人驚嘆的描述能力。
但是,大量的參數需要大量的標簽[6]的訓練數據。通過數據標注提高模型性能有兩個關鍵的挑戰。一方面,數據增長速度遠遠落后于模型參數的增長速度,數據增長主要阻礙了模型的進一步發展。另一方面,新任務的出現遠遠超過了數據更新的速度,對所有樣本進行注釋非常費力。為了應對這一挑戰,許多研究人員通過生成樣本來構建新的數據集,從而加快了模型迭代,降低了數據標注的成本[7,8,9,10,11]。此外,許多研究人員使用預訓練方法和遷移學習來解決這一挑戰[12,13,14,15,16],如transformer[17,18]、BERT[19]和GPT[20]。這些工作取得了令人難以置信的成果。
然而,生成的數據僅用作初始化模型的基礎數據。為了獲得高精度的可用模型,往往需要對具體數據進行標注和更新。因此,一些基于弱監督的工作被提出[21,22,23,24]。一些研究人員提出使用少樣本來促使模型從更少的樣本中學習[25,26,27]。在學習框架中集成先驗知識是處理稀疏數據的有效手段,因為學習者不需要從數據本身[28]中歸納知識。越來越多的研究人員開始嘗試將訓練前的知識納入他們的學習框架[29,30,31,32]。作為代理,人類有著豐富的先驗知識。如果機器可以學習人類的智慧和知識,它將有助于處理稀疏數據。特別是在臨床診斷和訓練數據缺乏等醫學領域[33,34,35,36]。
一些研究人員提出了一種名為“人在環路”(human-in- loop, HITL)的方法來解決這一挑戰,該方法主要通過將人類知識納入建模過程[37]來解決這些問題。如圖1所示,human-in-the-loop(即“human-in-the-loop”和“machine learning”)是機器學習領域一個活躍的研究課題,近十年來發表了大量的論文。
如圖2所示,傳統的機器學習算法一般由[38]三部分組成。第一個是數據預處理,第二個是數據建模,最后一個是開發人員修改現有流程以提高性能。我們都知道,機器學習模型的性能和結果是不可預測的,這就導致了很大程度的不確定性,在人機交互的哪個部分能帶來最好的學習效果。不同的研究者關注的是人工干預的不同部分。本文根據機器學習的處理方法對這些方法進行分類,分為數據預處理階段和模型修改和訓練階段。此外,更多的研究集中在獨立系統的設計上,以幫助完成模型的改進。因此,在本文中,我們首先從數據處理的角度討論了提高模型性能的工作。接下來,我們討論了通過干預模式訓練提高模型性能的工作。最后,討論了獨立于系統的“人在環路”的設計。
生成對抗網絡(GAN)已經在計算機視覺、自然語言處理等領域推廣了各種應用,因為它的生成模型能夠從現有的樣本分布中合理地生成真實的例子。GAN不僅在基于數據生成的任務上提供了令人印象深刻的性能,而且由于其博弈優化策略,也為面向隱私和安全的研究提供了有利條件。遺憾的是,目前并沒有對GAN在隱私和安全方面進行全面的綜述,這也促使了本文對這些最新的研究成果進行系統的總結。現有的作品根據隱私和安全功能進行適當的分類,并對其優缺點進行綜合分析。鑒于GAN在隱私和安全方面仍處于非常初級的階段,并提出了有待解決的獨特挑戰,本文還闡述了GAN在隱私和安全方面的一些潛在應用,并闡述了未來的一些研究方向。
生成對抗網絡(Generative Adversarial Networks, GAN)帶來的技術突破迅速對機器學習及其相關領域產生了革命性的影響,這種影響已經蔓延到各個研究領域和應用領域。作為一種強大的生成框架,GAN顯著促進了許多復雜任務的應用,如圖像生成、超分辨率、文本數據操作等。最近,利用GAN為嚴重的隱私和安全問題制定優雅的解決方案,由于其博弈優化策略,在學術界和業界都變得越來越流行。本綜述的目的是提供一個關于GAN的全面的回顧和深入總結的最新技術,并討論了一些GAN在隱私和安全領域有前途的未來研究方向。我們以對GAN的簡要介紹開始我們的綜述。
GAN逆轉化的目的是將給定的圖像逆映射到預先訓練好的GAN模型的潛在空間,以便由生成器從反代碼忠實地重建圖像。GAN逆映射作為一種新興的連接真實和虛假圖像領域的技術,在使預先訓練好的GAN模型如StyleGAN和BigGAN用于真實圖像編輯應用中起著至關重要的作用。同時,GAN逆轉化也為GAN的潛在空間的解讀以及如何生成逼真的圖像提供了思路。在本文中,我們對GAN逆轉化進行了概述,并重點介紹了它最近的算法和應用。我們涵蓋了GAN逆轉化的重要技術及其在圖像恢復和圖像處理中的應用。我們進一步闡述了未來方向的一些趨勢和挑戰。
//www.zhuanzhi.ai/paper/8a6100aa9aacbe624aae09afc4308355
生成對抗網絡(GAN)框架是一種深度學習架構,可以估計數據點是如何在概率框架[1]、[2]中生成的。它由兩個相互作用的神經網絡組成:一個生成器G和一個鑒別器D,它們通過對抗過程共同訓練。G的目標是合成與真實數據相似的假數據,D的目標是區分真實數據和假數據。通過對抗性的訓練過程,生成器G可以生成與真實數據分布相匹配的假數據。近年來,GANs被應用于圖像翻譯[3]、[4]、[5]、圖像處理[6]、[7]、[11]0到圖像恢復[9]、[10]、[11]、[12]、[13]等眾多任務。
許多GAN模型,如PGGAN [14], BigGAN[15]和StyleGAN[16],[17],已經被開發用于從隨機噪聲輸入合成高質量和多樣性的圖像。近年來的研究表明,GANs在圖像生成過程中有效編碼了中間特征[18]和潛在空間[19]、[20]、[21]中豐富的語義信息。這些方法可以通過改變潛在代碼來合成具有不同屬性的圖像,如老化、表情、光方向等。然而,由于GANs缺乏推理功能和編碼器,這種對潛在空間的操作只適用于GANs生成的圖像,并不適用于任何給定的真實圖像。
相比之下,GAN反轉的目標是將給定的圖像反演回預先訓練好的GAN模型的潛在空間。然后,圖像發生器就可以從反碼中忠實地重建出來。由于GAN逆轉化是連接真實和虛假圖像域的關鍵,因此在[17]、[20]、[21]、[23]、[24]、[25]、[26]、[27]、[28]等領域取得了重大進展。GAN反演使得在現有訓練過的GAN的潛在空間中發現的可控方向適用于真實的圖像編輯,而不需要特別的監督或昂貴的優化。如圖1所示,在將真實圖像倒置到潛在空間后,我們可以沿著一個特定的方向改變其代碼來編輯圖像的相應屬性。GAN反演作為一個將生成對抗網絡與可解釋機器學習技術相結合的快速發展的領域,不僅提供了一種靈活的替代圖像編輯框架,而且有助于揭示深層生成模型的內在機制。
在這篇文章中,我們提出了一個全面的GAN逆向轉化方法,重點是算法和應用。據我們所知,這項工作是對快速增長的GAN反轉的第一次調查,并有以下貢獻。首先,我們提供了一個全面和系統的回顧,以及深刻的分析,在GAN倒置的所有方面的層次和結構。其次,我們對GAN反轉方法的性質和性能進行了比較總結。第三,我們討論了挑戰和有待解決的問題,并確定了未來研究的趨勢。
視頻中的異常檢測是一個研究了十多年的問題。這一領域因其廣泛的適用性而引起了研究者的興趣。正因為如此,多年來出現了一系列廣泛的方法,這些方法從基于統計的方法到基于機器學習的方法。在這一領域已經進行了大量的綜述,但本文著重介紹了使用深度學習進行異常檢測領域的最新進展。深度學習已成功應用于人工智能的許多領域,如計算機視覺、自然語言處理等。然而,這項調查關注的是深度學習是如何改進的,并為視頻異常檢測領域提供了更多的見解。本文針對不同的深度學習方法提供了一個分類。此外,還討論了常用的數據集以及常用的評價指標。然后,對最近的研究方法進行了綜合討論,以提供未來研究的方向和可能的領域。
自然語言處理(NLP)幫助智能機器更好地理解人類語言,實現基于語言的人機交流。計算能力的最新發展和大量語言數據的出現,增加了使用數據驅動方法自動進行語義分析的需求。由于深度學習方法在計算機視覺、自動語音識別,特別是NLP等領域的應用取得了顯著的進步,數據驅動策略的應用已經非常普遍。本調查對得益于深度學習的NLP的不同方面和應用進行了分類和討論。它涵蓋了核心的NLP任務和應用,并描述了深度學習方法和模型如何推進這些領域。我們進一步分析和比較不同的方法和最先進的模型。