編譯 | 王建民
人工智能(AI)方法已經并正在越來越多地被整合到生物信息學及其糖科學分支(即糖信息學)中實施的預測軟件中。人工智能技術在過去幾十年中不斷發展,它們在糖科學中的應用還不廣泛。這種有限的應用部分是由于糖類數據的特殊性造成的,眾所周知,這些數據是難以產生和分析的。盡管如此,隨著時間的推移,糖學、糖蛋白組學和糖結合數據的積累已經達到了一定程度,即使是最新的深度學習方法也能提供性能良好的預測器。
糖信息學,有時也稱為糖生物信息學,可以直接定義為生物信息學在糖科學中的應用。隨著系統生物學的興起和組學技術的擴展,生物信息學已成為生命科學研究不可或缺的一部分。
實驗組學數據集的龐大規模使生物信息學成為數據科學的基礎。近年來,重點已放在生成可查找、可訪問、可互操作和可重復使用的生物數據上。可查找是必不可少的,因為數據搜索是一項頻繁的任務,顯然應該讓最大的生命科學家社區變得容易。然而,盡管這項任務看起來很簡單,但它仍然主要要求數據和相關元數據與唯一且持久的標識符相關聯,其次是人和計算機的可讀性。可訪問性非常實用,因為它涉及使用這些標識符和標準化協議進行檢索。互操作性是嘗試合并或集成來自不同來源的數據的關鍵約束。為了變得可互操作,需要使用反映知識表示的標準語言來描述數據,通常稱為本體,否則也可以稱為受控詞匯表。可重用性最終可以通過描述良好的元數據來實現,包括數據來源和社區標準。最近的 SARS-CoV-2 大流行中,數據生成、共享和使用的激增是應用公平原則以造福所有人的一個很好的例子。
大量一致的數據是開發預測生物學結果的模型和方法的理想輸入。預測分子形狀/結構、位置、表達以及相互作用的無數解決方案填充了生物信息學工具箱。其中很大一部分依賴于人工智能(AI),主要是學習方法。盡管如此,為了實現穩健性和準確性,這些工具不僅需要高質量的數據,還需要隨著時間的推移進行微調。
作為生物信息學的一個子集,糖信息學面臨著類似的挑戰。糖數據與廣泛的生物學數據非常相似,分布在生物學和化學領域,但碳水化合物分子的復雜性和多樣性,以及它們的非模板驅動的生物合成,在這兩個領域之間造成了更大的差距。
幾十年來,碳水化合物化學研究通過國際純粹與應用化學聯盟 (IUPAC) 進行了國際協調,并于 1970 年成為其關聯組織[ //ico.chemistry.unimelb.edu.au/ ]。這種國際交流的古老基礎促使需要收集最終以 CarbBank 形式發生的數據,在生物信息學處于起步階段的時候設定了糖信息學的前提。與此同時,糖生物學家將他們的精力集中在多種形式的功能研究上,以揭示糖基化是位點特異性的,組織依賴性,并受環境影響。糖組學和糖蛋白組學已經成熟,可以提供越來越全面的數據集,剛剛開始填充數據庫。此外,從功能糖組學聯盟 (CFG) 倡議開始,陣列技術的發展將篩選數據引導到單個位置。
糖科學實驗數據的特性
任何預測或建模工具都需要進行數據處理,對可能的解決空間的定義越精確,工具的性能就越好。
稀疏性 “聚糖空間”維度的估計是有爭議的,讓人想起在測序之前對人類基因組含量的有爭議的估計。關于基因數量的推測范圍在 30 000 到 500 000 之間,而實際數據迫使每個人或多或少地大幅縮減規模。目前對聚糖生物合成的了解使其難以設定界限。從理論上講,考慮到所有已知物種,可能有數十億個結構,但實際上,GlyTouCan 目前包含接近 51 000 個結構(版本 3.1.0),由于分辨率不同,其中許多是多余的。一次考慮一個物種,智人可能是研究最多的,而且數字不再精確。事實上,使用非常規策略的新聚糖類型的范式轉換發現經常發生,這往往表明“標準”工作流程可能會錯過意想不到的結構。由于在聚糖空間中的分布不均勻,數據可以被認為是稀疏的。具體而言,稀疏性至少源于兩個主要來源:(i)在任何給定物種中尚不知道的聚糖部分和(ii)在糖組學實驗中未測量(或無法注釋)的聚糖部分,因為來樣加工,低豐度、電離困難、異構體和許多其他潛在問題。
異質性 聚糖的結構和功能的完整鑒定通常需要一組跨越化學、生物化學、親和力和篩選技術的實驗,這些實驗的結果是多種多樣的,其結果難以證實。
字段特定編碼 確定完整糖組所涉及的并發癥有兩個直接后果。一般來說,所需的時間和專業知識會阻止糖科學家冒險進入任何其他相關的組學領域。反過來,沒有接受過糖科學培訓的生命科學家通常不愿承擔大量額外工作來研究糖基化。最后,與生物學的部分脫節傾向于表征糖數據的產生。
從生物信息學的角度來看,這種鴻溝也存在。在過去的十年中,從基因組中繪制代謝途徑的圖譜使化學信息學更接近生物信息學。這需要共享數據格式以促進數據交換,以便準確描述反應,具有明確的底物和產物以及最初從基因組序列翻譯的確定的酶。
化學信息學與糖信息學的融合尚不清楚。GlyTouCan 的所有聚糖都在 IUPAC 中編碼。該數據庫中的每個結構都以聚糖的符號命名法 (SNFG) 表示,該命名法已被用作糖科學的標準。盡管如此,近年來,GlyTouCan、PubChem 和 ChEBI 之間更緊密的交互導致后兩個數據庫的聚糖條目中包含 WURCS 編碼和 SNFG 符號。
糖數據表示
從生物信息學中吸取的教訓 異質信息的精確記錄和描述是一項明確的糖信息學挑戰。圖 3突出顯示了引用每個實體的可能性:聚糖、其生物合成途徑或它包含的表位,在適當的數據庫中,具有唯一且穩定的標識符。這種觀點在生物信息學中廣泛傳播,在糖信息學中并不完全現實。
從蛋白質組學中吸取的教訓 質譜(MS)在蛋白質組學中的主導地位為糖組學開創了先河。特別是,肽 MS 數據處理的發展為處理聚糖和糖肽 MS 數據提供了線索。在蛋白質組學的早期,MS 數據處理的主要目標是改進蛋白質鑒定并通過自動化提高鑒定率,產生與組織或細胞系相關的已鑒定蛋白質列表。很快,理解這些列表的需要刺激了工具的實施,從而實現了比較方法。最后,相互作用組學的伴隨發展導致繪制蛋白質相互作用網絡圖,以支持對樣品中共同識別的蛋白質的解釋。由于糖組學落后于蛋白質組學,進展是相似的,但沒有那么先進。
AI對糖科學和發展前景的逐步影響
糖科學方法開發階段,糖信息學為統一由聚糖介導的分子相互作用提供了一個真正的機會。從測量到生物學背景和聚糖特性以及功能,糖信息學正在推進糖科學的各個方面,并有可能在未來繼續這樣做。
糖信息學中人工智能的預期演變
數據的演變 糖組學落后于其他組學的一個簡單解釋是缺乏聚糖的高通量測序。因此,數據的積累速度比基因組學或轉錄組學要慢得多。對于 N- 和 O- 連接聚糖之外的聚糖類別尤其如此。由于生物信息學現在適合處理 PB 的核苷酸序列并運行智能搜索以揭示隱藏的信息,這種對比更加引人注目。從這個意義上說,糖組學的未來取決于新技術的發展,這些技術可以實現多糖高通量測序,并改進其他類型多糖的分析。其他領域的努力,例如蛋白質測序的最新進展,表明測序原則上也可以應用于非核酸生物聚合物。
改進的預測 與許多科學領域一樣,人工智能方法越來越多地用于改進分類和預測。應用于糖科學各個方面的機器學習仍然主要依賴于人類設計的計算特征作為模型輸入。目前在這些任務上仍然優于深度學習方法的原因。深度學習最重要的優勢之一是它允許訪問超出樣本合理選擇特征的信息。因此,可以預期,使用適當格式的原始序列的深度學習方法將在未來產生更好的性能。
此外,雖然現有模型在很大程度上包括研究較少的聚糖類,例如植物和真菌多糖,但就其模型架構而言,可能有一些方法可以在涉及這些聚合物的任務上表現更好,例如考慮它們的重復結構體。然而,本手稿中描述的大多數預測任務的現有數據在很大程度上僅限于 N- 和 O- 連接的聚糖以及糖脂,并且以有限的方式包括糖胺聚糖。因此,可能需要改進可用數據和現有模型,以充分利用聚合聚糖中的信息。
另一方面,預測聚糖結合的目的是設計特定的配體,例如抑制病原體的聚糖結合蛋白,但需要更多的上下文敏感信息來確定特異性。特別是,現實的結合預測可能取決于其他特征,例如凝集素的表達和生理條件。最終,模型需要考慮所有這些方面,以及糖綴合物和聚糖結合蛋白的結構特征。如果在考慮聚糖的同時更系統地構建 3D 模型,這些將有所幫助,正如 AlphaFold2 預測所實現的那樣。
改進的表示 給定一個新的未知數據點,ML 模型學習到的數值表示也可用于找到最相似的已知數據點。在蛋白質組學中串聯質譜的背景下,這已被用于快速將未識別的光譜分配給肽。糖組學或糖蛋白質組學中的類似程序也可以推動這些領域的發展。除了相似性之外,無監督模型獲得的學習表示也可以看作是蛋白質序列的學習特征,可以被另一個下游模型使用。
橋接糖信息學和生物信息學 單細胞技術在大多數組學應用中像野火一樣蔓延開來,為每個學科提供了關于分子活性和相互作用的更具體和更精細的信息。Glycomics 還沒有從這樣的進步中受益。與直接分析聚糖結構相比,從調節糖基化的基因和生物合成途徑中是否更容易獲得信息仍然存在爭議。目前,糖工程在處理基因時往往更先進,但這并不排除一種尚未出現的嚴格單細胞糖組學方法。朝著這個方向邁出的第一步已經將部分/片段聚糖信息添加到單細胞分析和/或與其轉錄組的組合中。通過從不同的和互補的組學中收集相同級別的信息,將促進數據集成。
多尺度視圖 了解聚糖結構和功能細節所需的信息來源的多樣性和差異性仍然是糖生物學快速發展的障礙。最終,糖信息學的目標是從由技術限制人為創建的片段中恢復更全面的圖像。只要這個謎題即使不完整,至少也足夠先進,可以做出可靠的預測,它就會把精力集中在糖科學上。然而,聚糖對生物過程的關鍵貢獻,尤其是在細胞間通訊中,是不容忽視的,如上所述,糖組學應該與其他組學相結合。事實上,理解生物體的理想觀點是動態的,從原子到細胞、組織和器官水平。 參考資料 Bojar, D. and Lisacek, F., 2022. Glycoinformatics in the Artificial Intelligence Era. Chemical Reviews.
編譯 | 王建民 AlphaFold 闖入了我們的生活。一種強大的算法,強調了生物序列數據和人工智能(AI))的力量。AlphaFold有附加的項目和研究方向。一直在創建的數據庫承諾了無數的應用程序,這些應用程序具有巨大的潛在影響,但仍然難以推測。人工智能方法可以徹底改變個性化治療并帶來更明智的臨床試驗。他們承諾在重塑和改進藥物發現策略、選擇和優先考慮藥物靶點組合方面取得巨大飛躍。研究人員簡要概述了結構生物學中的人工智能,包括分子動力學模擬和預測微生物群與人類蛋白質之間的相互作用。研究人員強調了由深度學習驅動的AlphaFold在蛋白質結構預測方面所取得的進步及其對生命科學的強大影響。同時,AlphaFold 并沒有解決長達數十年的蛋白質折疊挑戰,也沒有識別折疊途徑。AlphaFold提供的模型沒有捕捉到像折疊和變構這樣的構象機制,而這些機制植根于系綜中,并由其動態分布控制。變構和信號是群體的特性。AlphaFold 也不會生成本質上無序的蛋白質和區域的系綜,而是通過它們的低結構概率來描述它們。由于 AlphaFold生成單級結構,而不是構象系綜,它無法闡明變構激活驅動熱點突變或變構耐藥的機制。然而,通過捕獲關鍵特征,深度學習技術可以使用單一預測構象作為生成多樣化系綜的基礎。
背景
AlphaFold克服了長達數年的瓶頸,有力地展示了人工智(AI)在生物研究中的力量。AlphaFold結合了許多深度學習的創新,以實驗規模的分辨率或接近實驗規模的分辨率預測蛋白質的三維結構,激發了社會各界對功能、進化和疾病研究的重新思考。快速生成的精確結構的龐大數量表明,新的、雄心勃勃的、推動前沿的研究將會出現。它也指出了應該重新考慮的研究項目。數據庫中正在匯編的豐富的高質量數據已經加強了需要蛋白質結構的研究,如繪制信號通路中的結合點和相互作用,以及識別熱點,包括潛在的和罕見的癌癥驅動突變。最深遠的影響可能是加速和改善新藥的研發,以及產生可用于這一重要目標的數據。人工智能的發展和應用可能會進一步幫助預測向下游傳播的信號是否足夠強大,以達到其基因組目標來激活(抑制)基因表達,并預測路徑。總的來說,這些強大的方法和它們所創建的數據庫改造和改變了涉及使用結構的傳統和正在進行的研究。它們也使研究人員更有勇氣退后一步,重新思考和創新我們的項目。
AlphaFold的成就得益于蛋白質數據庫(PDB),目前其規模已接近20萬個實驗確定的結構。它對PDB中的蛋白質序列進行了訓練,并使用輸入序列查詢蛋白質序列的數據庫來構建多序列比對。然而,它驚人的成功并沒有使研究人員對蛋白質序列究竟是如何折疊的有更深入的機理理解,因此沒有從序列上協助蛋白質的折疊。
研究人員注意到AlphaFold預測蛋白質序列的單級結構的 AlphaFold 無法直接解決基于整體構象狀態種群的變構機制。變構即信號隨著種群的變化而動態傳播,是調節和細胞壽命的基礎。由于靶向非保守變構位點具有更高的特異性和更低的毒性,變構也越來越多地出現在變構藥物中。 那么能否預見 AlphaFold 有助于揭示變構熱點突變和變構藥物發現的機制?AlphaFold 預測的剛性結構可以提交給生成此類系綜的MD模擬。同時,正如研究人員在此討論的那樣,其他基于 AI 的策略可以直接協助此類工作,最有效的是通過加速和增強 MD 模擬。也可能會繼續努力利用人工智能預測變構結合位點。盡管如此,有必要回想一下,變構位點的有效性取決于該位點的穩定相互作用和有效變構信號的啟動,這將更具挑戰性。當前預測變構結合位點的方法僅針對前者。從這個意義上說,它們類似于正構位點的表征,只是它們的評分是基于變構位點的統計數據。
正構藥物阻斷活性部位;變構藥物通過與遠處的位點結合來改變蛋白質的活性狀態,包括活性位點。AlphaFold 無法處理蛋白狀態的整體變化。人工智能策略可以,但需要超越對穩定交互的預測。
預測內在無序蛋白質(IDP))和區域(IDR)的結構是 AlphFold 不足的另一個問題。無序蛋白質(區域)的特征是廣泛且異質的整體,其中相對構象穩定性的差異很小,甚至很小,并且障礙很低。構象相互轉換,導致 AlphaFold 可靠地捕獲那些最受青睞的或構象分布的概率較低。然而,對構象的利用、學習和挖掘可以利用AI。
以人工智能為動力的算法,被輸入龐大的數據,并由新興的大規模計算能力促成,正在推動計算生物學的革命(。與量子計算不同,在人工智能和數據驅動的計算方面,必要規模的技術創新已經在手。
蛋白折疊與蛋白結構預測
蛋白質折疊 蛋白質折疊包含兩個問題:第一,蛋白質的氨基酸序列如何決定其 3D 原子結構的概念性問題;第二,如何從單一的氨基酸序列出發,成功地預測三維結構,而不使用與其他可用的(同源、同族)序列或任何相關序列結構有關的信息。這種計算預測方法的指導思想是:這就是蛋白質在自然界的折疊方式。溶液中基于單一序列的預測考慮了與氫鍵、離子對、范德華作用力以及主要由水介導的疏水相互作用有關的力,而疏水效應是蛋白質折疊的驅動力。這個正式的折疊問題出現在六十年前,同時出現的還有第一個原子分辨率的蛋白質結構。該結構導致了熱力學問題,即決定蛋白質結構的原子間力的平衡,蛋白質如何能夠快速折疊,也就是路徑動力學,以及蛋白質結構預測的計算問題。Christian Anfinsen和他的同事提出的具有里程碑意義的熱力學假說指出,蛋白質的原生結構是其熱力學上最穩定的結構,它只由其氨基酸序列和所處的條件決定,動力學不起作用。沒有其他的考慮因素,也就是說,它是在實驗室里合成的,還是在核糖體上合成的,還是經歷了伴侶的輔助折疊。折疊范式規定,未折疊的分子將總是自發地折疊成相同的形狀;也就是說,線性氨基酸序列指定了一個蛋白質的折疊原生狀態。Christian Anfinsen的熱力學假說強調能量景觀的形狀,其中原生狀態是自由能最低的狀態。在計算上,這種描述提出了預測蛋白質結構的問題,形成了主導該領域數十載的方法的基礎。如果只有序列是重要的,再加上物理化學力,那么 "好的 "算法就應該有可能折疊它。假設晶體結構代表最小能量狀態,那么預測結構的 "好壞 "就可以通過與它的比較來評估。Anfinsen的描述結合了備選構象的采樣、按能量排序和識別最低能量狀態。隨后的努力集中在二級結構的預測上,盡管疏水相互作用的主導作用表明二級結構是三維結構及其原因的結果。與變性狀態相比,原生結構的穩定性差異很小(5–10 kcal/mol),這使預測方法所面臨的挑戰更加復雜。
很早以前,Cyrus Levinthal就將蛋白質和預測算法面臨的關鍵問題概念化:在生物條件下,蛋白質搜索折疊空間并達到其最穩定的原生狀態的巨大時間尺度。對于預測算法的采樣骨干狀態,搜索空間大小隨著鏈的長度呈指數級增長,成為一種不可能。Levinthal認為,沒有必要搜索這個巨大的空間,因為能量景觀是漏斗狀的,而不是平坦的,因此可以引導采樣走向生物構象盆地。封裝的疏水核心優化了它們的vdW相互作用,限制了扭轉角,并取消了內部 "洞",氫鍵和鹽橋平衡了與水的相互作用的損失。Harold Scheraga采用物理化學的方法,率先研究破解氨基酸序列如何影響蛋白質的三維折疊途徑、熱力學和生物活性。無論是AlphaFold還是其他廣泛的蛋白質結構預測算法都沒有考慮折疊途徑。物理化學是隱含的;在AlphaFold的情況下,是通過人工智能來計算的。
蛋白結構預測 蛋白質結構的預測可以是基于模板的,也可以是無模板的,后者不使用與實驗結構的整體相似性。無模板建模利用了基于物理學的能量函數。兩者都可以利用機器學習和人工智能來使用PDB中的數據。基于模板的建模選擇一個結構模板并使用序列比對。無模板建模使用構象采樣和排序。它可以從相關序列的多序列比對開始,以預測局部結構特征,這將指導三維建模,然后再進行細化和排序。
綜合性的建模方法,從單個組件組裝結構,可能遭受高假陽性率。計算綜合方法可以結合實驗方法、生物信息學、物理學和統計學的數據,快速準確地確定蛋白質復合體的結構。該算法可以整合實驗數據以及已知結構的統計分析。
AlphaFold的顯著成功不僅對所有的PDB結構進行訓練,也對其預測的結構進行訓練,它使用結構和相關數據來預測有接觸的氨基酸對以及所有氨基酸對的距離。它還確保了氨基酸之間的距離滿足三角形不等式,節省了中間步驟的時間。到目前為止,AlphaFold照亮了一半的黑暗人類蛋白質。然而,問題仍然存在,例如一個特定的蛋白質存在哪些結構狀態,以及每個狀態的數量是多少。解決這些問題對于將蛋白質結構與功能聯系起來至關重要。這正是AlphaFold的不足之處。然而,它所產生的模型可以作為生成系綜的輸入,例如通過MD模擬,如果在足夠長的時間范圍內并行進行,它應該能夠產生這種系綜體。
結構-功能范式忽略了系綜和動態能量景觀
序列-結構-功能教條是一代人的試金石。它主導了分子生物學幾十年。它是由物理化學家提出的,他們解釋說,生物大分子在折疊的時候會發揮作用。因此,要了解分子的功能,就需要考慮它們的三維結構,這種變革性的范式成為現代生物學的一個原則。今天,人們普遍認識到,僵硬的分子不能發揮功能,從而使人們認識到,為了維持生命,分子的靈活性是一種必要。然而,這還沒有完全轉化為對能量景觀這一強大概念的理解。也就是說,生物大分子是動態物體,總是在各種具有不同能量的結構之間相互轉換,這就是變構機制的起源。這種作為構象間相互轉換的柔性概念對于理解生物過程及其調控至關重要,如蛋白質的激活是系綜體從非活性狀態向活性狀態的轉變,變構藥物如何發揮作用,細胞信號傳遞,以及通過構象選擇而非誘導契合的結合機制。從經典的結構-功能范式到生物分子功能和變構機制的動態能量景觀的概念演變,對AlphaFold的強大預測能力提出了挑戰。為了理解生物調控,應通過蛋白質組合的種群和相對能量將結構與功能聯系起來,這也是變構的基礎。盡管AlphaFold的預測具有變革性的力量和巨大的廣泛影響,但它無法直接解決這個問題。
圍繞它們的原生狀態,蛋白質景觀由快速轉換的構象組成。這些組合是 "模糊的"。與它們的環境和功能相關的事件,如pH值的變化,與離子、水和脂質的相互作用,以及小分子或大分子的結合,促進了構象的變化。這些變化被其局部受限的分子環境所阻撓。適應性強的結構變化會使系綜體發生變化。轉移后的、現在被填充的狀態受到其當前鄰近殘基構象的阻撓。結合和催化包括在相互作用部位建立和破壞共價和非共價相互作用。這些相互作用通過折疊傳播,影響了系綜體的構象狀態。系綜中的轉變改變了相對穩定性,即狀態的種群,從而影響了變構轉換。
生物大分子必須被統計描述,而不是靜態地描述。靜態描述是幾十年來的規范。然而,靜態描述不能捕捉功能。它不能描述蛋白質在某些激活事件中從非活性狀態激活到活性狀態。它也無法描述與激活劑的高親和力結合是如何將蛋白分子轉移到其活性狀態的。當試圖變構 "拯救突變 "是如何工作的,變構藥物是如何阻斷活性位點的,以及如何克服對抗它們的突變時,它將進一步失敗。如果蛋白質以單一結構存在,或者只在活性和非活性兩種狀態之間翻轉,那么在細胞中發生的所有這些過程都是不可能的。雖然有一個單一的構象是活性酶應該采取的生產性催化,但有多種方法可以使其失活,因此有許多非活性狀態。單一結構的概念孕育了 "鎖鑰式 "結合機制的概念。這種觀點被 "誘導配合 "機制所取代,后者認為只存在兩種狀態,即活性和非活性狀態。在誘導契合的情況下,配體與單一的 "開放 "蛋白質結構結合,蛋白質與剛性結合伙伴之間的相互作用誘導了蛋白質的構象變化。相反,構象選擇機制的理論是,能量表面承載了非常多的構象,而最適合的構象被選擇出來,隨后的小規模誘導擬合優化,主要是通過側鏈。
AlphaFold利用人工智能從序列中對蛋白質結構進行無模板預測,為生物學家提供具有良好分辨率的結構。它所產生的預測,就像那些通過同源模型獲得的預測一樣,是剛性的。柔性隱含地體現在某些區域沒有預測結構或預測結構的置信度很低,如內在無序蛋白質的情況。因此,曾經被置于生物學邊緣的計算方法,現在正處于最前沿,推動著 "第二次分子生物學革命"。AlphaFold可以推動生命科學的基本問題的突破,包括精準醫療,有望改變研究和加速藥物發現。它是由深度學習的創新所驅動的,這些創新似乎已經準備好改變醫學模擬。
人工智能和機器語言的應用
模擬中的人工智能和機器語言 用于分子模擬的機器學習──工具、策略和原理──最近已被回顧。機器學習已經對復雜原子系統的近似方法的發展產生了重大影響。在發展和整合MD模擬與深度學習方面的創新可以重現、解釋、預測和產生與生物大分子行為有關的數據。深度學習方法可以幫助MD模擬在效率和規模上更勝一籌,人工智能在深度學習技術和模擬之間架起橋梁。實現廣泛使用的挑戰包括人工智能和MD的順利連接以及工作流程的自動化。這些可以在MD模擬中普及新的深度學習工具,以有效地利用這兩種強大的方法。這一領域的出版物數量激增,強調了人們對人工智能和機器學習在模擬中潛力的認識。深度學習也已經在結構建模和設計、分析以及將這些與功能聯系起來方面得到了利用。
人工智能和機器語言在預測病原體-人類宿主PPI中的應用 人工智能和深度學習也正在被開發并應用于大分子結構的實驗測定和預測,以及PPI。
人工智能方法在人類-微生物組蛋白質-蛋白質相互作用中的應用。這些相互作用在人類健康和疾病中發揮著重要作用。關于微生物、細菌和病毒影響人類健康的數據正在迅速增加。它們可以通過與人類蛋白質的相互作用來調節人類的信號和免疫反應。為了破譯這種調控,重要的是確定具體的相互作用、參與的人類宿主蛋白以及復合物的結構。對相互作用的識別及其結構細節的原子分辨率允許理解參與病原體生存的機制并協助針對這些相互作用的藥物發現。這些相互作用幫助病原體躲避和繞過免疫防御,病原體劫持了宿主的信號傳遞。從機制上講,病原體蛋白質可以有類似于宿主的表面,使它們能夠模仿并與宿主蛋白質的相互作用競爭。它們與宿主蛋白結合,并重新調整其生理信號傳導。包括結構細節在內的數據非常少,大規模的實驗檢測具有挑戰性。因此,高效和強大的計算策略來預測相互作用是至關重要的。大規模的應用中,AlphaFold現在可以被用來實現這一目標。機器學習既允許大規模的高效和通用的應用,又能解決機器學習算法所能破譯的這種關系的復雜動態。
機器學習在PPI預測方面的挑戰與數據和方法都有關。由于微生物的數據有限,而不是人類的數據,微生物的樣本量很小。在基于序列的算法中,維度問題會很明顯,隨著特征大小的增加,難度會呈指數級增長。主成分分析(PCA)、統一流形近似和投影(UMAP)或自動編碼器可用于將樣本嵌入到低維空間,預處理和后處理管線可用于其他數據。在基于結構的方法中,問題可能與表征的數量和多樣性有關。與具有三維結構的宿主-微生物PPI有關的數據是稀少的,因此在訓練和評估計算方法方面面臨著問題。其他問題包括缺乏黃金標準測試數據集。評估指標也不明確,PPI網絡是稀疏等等。DeepMind的AlphaFold2在基于序列的蛋白質結構預測方面的成功,以及RoseTTAFold的開源對應物,以及公開的所有人類蛋白質的AlphaFold2預測,都是有利于科學界的重大舉措。 結論
人工智能和機器學習是附加的項目。它們被應用于不同的應用,包括生物網絡。它們影響著疾病生物學、藥物發現、微生物組研究和合成生物學。他們還發展了一個機器學習管線,用于蛋白質相互作用網絡中的分子復合體檢測,以及癌癥生存中主要信號通路的相關性。
這里,研究人員通過一些例子簡要介紹了AlphaFold的巨大影響,以及人工智能在結構生物學中的巨大影響。作者強調了AlphaFold能夠和不能完成的任務以及原因。變構機制屬于后一種類型。然而,通過對AlphaFold產生的模型進行MD模擬,這一目標也可以實現。即使模擬可以解決這個動力學問題,但在這樣的規模下,成本還是過高。需要一種轉變模式的機器學習方法來建立蛋白質動力學模型。
AlphaFold及其背后的深度學習創新為蛋白質科學開辟了下一個前沿領域,包括精準醫療。蛋白質結構與細胞生物學、化學、生物物理學和醫學相關。迄今為止,PDB數據庫中已有超過18萬個蛋白質結構,向全世界所有研究人員開放。然而,病原體的結構并不在其中,許多其他的結構也不在其中,而這些結構對人類健康至關重要。現在資源已經在那里了,隨著計算能力的不斷提高,這些資源最終也會在那里。盡管如此,這些結構的可用性是不夠的。對于這些生物物理學家來說,關鍵是要問什么重要的問題。研究重點應該是什么,這樣就不會重復已經完成的工作,而是利用新的能力來提出真正重要的問題。 參考資料 Nussinov, R., Zhang, M., Liu, Y. and Jang, H., 2022. AlphaFold, Artificial Intelligence (AI), and Allostery. The Journal of Physical Chemistry B.
來源:中國信息通信研究院 日前,在“2022可信AI峰會”上,中國信息通信研究院云計算與大數據研究所所長何寶宏正式發布并解讀了“2022 人工智能十大關鍵詞”。
關鍵詞一:大模型
大模型技術創新和工程落地齊頭并進,掀起行業大模型落地熱潮。大模型的更新迭代速度不斷加快,開始從“可用”的基礎大模型轉向為“好用”的行業大模型。 在技術創新方面,大模型的網絡構建、模型訓練、算法調優等技術趨于成熟,持續提升其通用性和泛化性,已初步具備通用智能雛形。例如,近期開源的NLLB可支持200種語言的相互翻譯。 在工程落地方面,已初步形成大模型As a Service的應用模式,加速向互聯網、ICT、金融、政務等垂直行業滲透。為支撐應用方更便捷地開發和部署大模型,多家頭部企業發布了行業大模型及開發工具。 關鍵詞二:生成式AI
生成式AI開辟AI創作能力,加速AI與數據要素深度融合。近幾年生成式AI的技術能力越來越成熟,可生成逼真且富有創意的多模態數據,形成自動寫作、代碼生成、數字人等典型的應用形態,已連續兩年入選《人工智能技術成熟度曲線報告》。 在技術方面,生成式AI借助生成對抗學習等技術,能夠生成更加真實、更有創意、更有趣味的內容。例如,2017至2022年,在圖片生成權威榜單上,真實度和趣味度綜合評分提升了近5倍。 在應用方面,生成式AI既是生產要素,也是生產工具。除了圖像生成以外,在寫作和編程等方面也取得進展。 關鍵詞三:AI4S(AI for Science)
AI for Science在多個傳統科學領域取得重大突破。隨著人工智能技術的快速發展和大規模應用,AI在逐漸成為科學研究新的生產工具,AI4S將進一步釋放科學研究的生產力,促進人工智能的工程落地。 一方面,AI與傳統科學領域的深度融合,極大拓展該領域解決問題的能力,目前AI在生物、數學、材料、物理、基因、化學等基礎科學領域都取得了諸多成果和突破,并對科學研究范式產生了深刻的影響,例如,目前人工智能已經能夠預測幾乎所有的生物蛋白質的可能結構,被譽為人類在21世紀取得的最重要的科學突破之一,可能開啟“數字生物學”的新時代。 另一方面,傳統科學領域的進步和對AI技術的需求加速了AI本身的發展。當前產學研共同發力人工智能與科學的融合,產業界聚焦工具創新,開源工具和基于開源工具產生的創新成果呈爆發趨勢,AI4S的研究范圍也擴展到了更多基礎問題領域。高校和研究院聚焦算法和應用,用AI算法更好地將科學計算和物理模型相連接,進而指導科學與產業創新。 關鍵詞四:知識驅動AI
知識驅動助力人工智能認知能力的提升,滿足人工智能深入各個行業不同應用場景的需求。隨著深度學習與知識圖譜等多重技術的深度融合,綜合利用大量知識數據中的因果和邏輯關系,可以助力人工智能認知能力的提升,來解決人工智能深入各個行業時場景復雜、可解釋性較低等問題。 在技術方面,知識和數據雙輪驅動的人工智能技術路線展現了強勁的發展潛力,知識的融合應用有效地提升了智能問答、智能推薦、大規模預訓練模型等人工智能技術中的效果。文心大模型、孟子大模型等均嘗試利用知識增強技術路線提升效果。 在應用方面,知識與人工智能的融合拓展了人工智能的應用范圍,促進形成知識凝練、知識流轉、知識賦能閉環,推動數字化發展下行業與企業各類知識的沉淀、流轉,顯著提升實際場景的智能應用水平。 關鍵詞五:超級自動化
超級自動化已經成為企業即開即用、敏捷配置的數字化轉型工具箱。經過一年多的發展,超級自動化有了很多新的價值。在概念深化方面,中國信息通信研究院在今年發布的《超級自動化技術與應用研究報告(2022)》中首次對其主要概念進行了深入剖析和理解,認為“超級自動化是多種技術能力與軟件工具組合,覆蓋了自動化從需求發現到應用實踐的全流程”;在技術發展方面,機器人流程自動化、智能流程管理、低代碼應用平臺、流程挖掘等工具和平臺,銜接起了企業級各類復雜業務場景,其綜合應用、交互使能是超級自動化發揮效能的重要手段。 人工智能、大數據、云計算等技術作為底座,為超級自動化發展注入了源源不斷的強大動力;在應用拓展方面,政府和企業使用超級自動化技術開始呈現出全面爆發的狀態。例如,日本全面引入RPA實現政務的數字化轉型,據統計各級政府的引入率已經超過90%。同時,產業創新層面,領先的RPA企業都不再局限于RPA或流程挖掘等單點能力的輸出,而是圍繞信通院提出的超級自動化技術與工具體系,開始由點及面的建立起立體服務架構。 關鍵詞六:人工智能中臺
人工智能中臺重塑企業智能化轉型的能力底座。隨著企業從重視人工智能的“研發”,到“研發-運營”并重,AI開發平臺也逐漸向AI中臺演進。 理念層面,AI中臺更加重視管理和運營,技術層面,AI中臺高度集約了AI能力,具有規模化、標準化、可擴展等特點。其中,規模化是指整合了豐富的人工智能開發、部署、測試、運維等能力,標準化是指將異構的軟硬件環境封裝為標準化的界面,可擴展是指可以不斷適配新的技術和工具,保證AI技術的動態演進。 通過與數據中臺、云平臺、業務中臺、運營平臺的打通,AI中臺正在加速融入企業的技術平臺體系中。當前階段,大型的行業企業正在積極構建AI中臺體系,通過高效的組織管理實踐,推動全場景全領域的AI賦能。 關鍵詞七:MLOps
MLOps落地開花,AI資產沉淀和治理成為實踐新風向。隨著業界對人工智能研發效率、團隊協作、安全保障等需求進一步提升,整個MLOps產業實踐呈現出“內涵很明確、落地很困難”的現狀。 從技術內涵來看, MLOps的核心和要求已明確,即圍繞“一個基礎、兩個關鍵、三個提升”,逐步建設從需求、開發、交付到模型運營的全生命周期運營管理機制。一個基礎是指持續交付,通過搭建工廠流水線式的模型生產方式,提高規模化生產效率。許多頭部企業都已開始實踐模式的持續交付,部分企業模型研發效率提升超過40%。兩個關鍵是指持續訓練和持續監控,通過持續訓練和持續監控搭建高效閉環的運營管理體系,提高機器學習可觀察性,保證模型質量,增加賦能效果。 三個提升是指數據管理、特征管理、模型管理能力的提升。對數據、特征和模型等AI資產加以沉淀、安全管控和風險治理,提升企業級AI治理能力,已成為MLOps新風向。 從落地現狀來看,持續交付、持續訓練、持續監控和模型治理難度依次提升,產業界當前尚處在提升持續交付和持續監控能力過程中,模型治理等僅有少量探索,未來仍然是AI工程化的重點方向。 此外,MLOps的工具市場持續火熱,端到端的MLOps一體化工具和細分場景的專項工具都非常火熱,端到端工具追求大而全的功能集,專項工具在局部或某些場景下功能和性能較好,例如流水線編排、模型監控、特征存儲、可觀測等工具,未來MLOps相關工具可能會成為AI軟件市場的重要賽道。 關鍵詞八:人工智能新基建
AI軟件設施加速新基建的賦能效應。自2018年新基建的概念提出以來,政產學研用多方主體發力建設人工智能基礎設施,AI新基建的內涵也在這個過程中逐步明晰。 AI新基建主要包括數據基礎設施、算力基礎設施和AI軟件設施。數據和算力基礎設施非常重要,但是如果沒有軟件設施作為連接樞紐,則難以充分發揮人工智能的賦能效應,支撐起豐富的AI應用和服務。 因此,AI軟件設施在近兩年成為產業焦點,AI開源框架生態、預訓練大模型體系、AI軟件平臺生態等內容都得到了長足的發展。 AI新基建的愿景是讓AI像水、電一樣成為觸手可得的普惠資源:政策層面,國家以及各行業的“十四五”規劃相繼對人工智能新基建提出指導意見,不斷推動新基建的落地應用;產業層面,頭部科技企業聯合地方政府,積極建設運營區域性基礎設施,不斷加速AI生態的培育。
關鍵詞九:企業智能
企業智能化建設手段與方法實現全新變革,逐漸向全場景、全流程、全層級深度融合應用轉變。隨著智能化技術的不斷發展和應用深入,企業智能建設從部分場景、外部維護、單點優化逐漸向系統化、全面化轉變,通過智能基礎設施和智能應用雙驅重塑企業智能化發展勢能。 一方面,企業建設完善人工智能中臺、知識中臺、大模型等智能基礎設施,筑牢了企業智能的底座、打造了企業的知識大腦、拓寬了企業的全新賽道,整體上夯實了企業智能化發展的根基。例如國有六大銀行、電力、石油等大型央企都已經建設了各類智能基礎設施,并依托該設施為企業的智能轉型提供支持。 另一方面,智能文檔處理、智能會議、知識管理、智能客服等各類企業智能應用不斷發展,全面賦能企業辦公、管理、決策、風控、營銷、服務等各個環節,促進業務的數據化與知識化、工作流程的信息化與智能化。智能基礎設施和智能應用相輔相成,智能基礎設施促進智能應用的敏捷高效,智能應用助推智能基礎設施底座的升級優化,共同推動企業智能化的加速發展。 關鍵詞十:可信落地
可信AI由理論研究邁向工程化落地。隨著人工智能技術的快速發展,社會各界對可信AI研究已經從理論探索逐步走向工程化落地實踐。政府與研究機構相關政策和規范從宏觀指導,開始向可操作、可落地的規范演進。在法律監管層面,各政府部門的法規政策愈發重視實施和操作。例如新加坡于5月出臺世界首個AI治理測試框架及工具包;英國6月宣布首個人工智能倫理和監管的重大研究計劃。 在行業可信實踐層面,各國研究機構紛紛開展可信AI技術研究及標準制定工作,為業界提供評估準則并聚焦準入落地。如英國BSI與艾倫圖靈實驗室合作開發技術標準改善人工智能治理,美國NIST發布《人工智能偏差識別和管理標準》和《AI風險管理框架(草案)》,為企業和機構的AI風險管理提供了大量可參考的要求和指導。 在企業可信實踐層面,產業界從企業戰略管理和技術工具研發創新雙線并進,加速了可信AI在企業的落地實踐。如頭部科技企業先后發布了AI治理戰略和治理體系,成立了相關委員會和工作組,聚焦企業層面的AI治理和風險管理體系。同時可信AI技術和保障工具也在蓬勃發展,各大企業積極研發可信產品應用,也開源了一批聚焦隱私性、魯棒性、安全性、可解釋性、公平性等可信能力的測試工具。
人工智能技術是釋放數字化疊加倍增效應、加快戰略新興產業發展、構筑綜合競爭優勢的必然選擇。縱觀全球,國內外人工智能相關不斷強化,持續推動釋放人工智能紅利;以深度學習為代表的人工智能技術飛速發展,新技術開始探索落地應用;工程化能力不斷增強,在醫療、制造、自動駕駛等領域的應用持續深入;可信人工智能技術引起社會廣泛關注。人工智能治理受到全球高度關注,各國規制進程不斷加速,基于可信人工智能的產業實踐不斷深入。
近日,中國信息通信研究院正式發布《人工智能白皮書(2022年)》,全面回顧了2021年以來全球人工智能在政策、技術、應用和治理等方面的最新動向,重點分析了人工智能所面臨的新發展形勢及其所處的新發展階段,致力于全面梳理當前人工智能發展態勢,為各界提供參考,共同推動人工智能持續健康發展。
**政策層面,**國內外不斷強化人工智能的戰略地位,推動釋放人工智能紅利。**技術及應用層面,以深度學習為代表的人工智能技術飛速發展,新技術開始探索落地應用;工程化能力不斷增強,在醫療、制造、自動駕駛等領域的應用持續深入;可信人工智能技術引起社會廣泛關注。與此同時,治理層面工作也受到全球高度關注,各國規制進程不斷加速,基于可信人工智能的產業實踐不斷深入。 **人工智能開始邁入全新階段
白皮書認為,未來人工智能除了重視技術創新以外,還更加關注工程實踐和可信安全,這也構成了新的“三維”發展坐標,牽引人工智能技術產業邁向新的階段。
通過一系列聯邦舉措和命令,美國政府一直在努力確保美國在人工智能領域的領導地位。這些廣泛的戰略文件對美國空軍等組織產生了影響。DAF-MIT AI加速器是DAF和MIT之間的一項倡議,旨在彌合AI研究人員與DAF任務需求之間的差距。由DAF-MIT AI加速器支持的幾個項目正在開發公共挑戰問題,解決眾多聯邦AI研究優先事項。這些挑戰通過使大型的、可用于人工智能的數據集公開,激勵開源解決方案,并創造雙重用途技術的需求信號,從而刺激進一步的研究。在這篇文章中,我們描述了這些正在發展的公共挑戰,以及它們的應用如何有助于科學進步。
2019年,美國聯邦政府通過第13859號行政命令概述了一項廣泛的戰略,以確保在人工智能領域的領導地位。[1]概述了這一戰略的核心,即實現美國人工智能領導地位所需的大量研究投資。這些研究推力的例子顯示在圖1的左邊(來自[1])。聯邦政府組織,如國防部和空軍部門,開發了自己的AI戰略,以實現13859號行政命令的廣泛目標。空軍部門的一項倡議是在麻省理工學院主辦的人工智能加速器(DAF-MIT AI加速器)的開發。加速器由來自麻省理工學院和空軍部門的多學科團隊組成,以開發能夠在空軍和太空部隊以及整個社會推進AI的基礎技術。為了推動相對較新的領域的創新,并充分參與更廣泛的AI社區,加速器正在開發一系列“挑戰”問題。這些“挑戰”包括開放數據集、基準、問題定義、指標、基線實現,并解決諸如天氣預測、數據中心優化和人機界面等科學問題。并行開發多個挑戰也支持了協同活動。例如,我們能夠開發可復制的管道來發布開源數據集,提供統一的計算平臺,并利用為一個挑戰創建的數據來應對其他挑戰。
在本文中,我們描述了通過DAF-MIT AI Accelerator開發的一些挑戰,重點是當前發布的數據集和代碼庫。此外,開發超過10個挑戰問題帶來了我們所描述的一些重要教訓。除了本文中描述的挑戰之外,該團隊還在開發其他即將發布的挑戰。例如,Autonomous Flight Arcade[2]是一套人類和人工智能都可以玩的環境,旨在訓練人工智能完成受真實航空場景啟發的復雜任務。
1. 風暴事件圖像(SEVIR)數據集
充分監測和預測地球天氣對環境智能和人類安全至關重要,特別是在這個前所未有的氣候變化時期。最近,人工智能通過利用用于[4]預測的大量地球系統數據集,顯示出了提高預測性能的潛力。像GOES這樣的平臺提供的地球同步衛星數據,或者NEXRAD提供的快速更新的雷達信息,對于了解當前的天氣狀況和播種預報至關重要。然而,這些數據集的規模和復雜性往往會成為AI研究的障礙,與計算機視覺和自然語言處理等其他AI子領域不同,社區沒有很多通用基準數據集來驗證和基準化新功能。
創建風暴事件圖像(SEVIR)數據集以解決此問題[5]。SEVIR將多種不同的天氣傳感模式(包括地球同步衛星圖像、閃電探測和雷達)組合成一個人工智能就緒數據集,用于研究氣象學中的幾個問題。SEVIR包含超過10萬個事件,每個事件由384公里x 384公里的圖像序列組成,時間跨度為4小時。SEVIR中的許多事件都是根據國家環境信息中心風暴事件數據庫選擇的。
2. 數據中心面臨的挑戰
隨著AI/ML工作負載在高性能計算(HPC)中心和商業云系統的計算工作負載中所占的份額越來越大,有必要更好地理解集群/數據中心的操作。數據中心挑戰[9]旨在促進人工智能方法的創新,分析大規模數據中心監控日志,以減少能源消耗,改進調度策略,優化資源使用,并識別策略違規。
3. MagNav 挑戰
利用地球磁場進行導航已經顯示出了替代其他導航系統的可行性。商業和政府機構通過收集和存儲磁場數據作為磁異常圖,對地球進行了不同程度的精確測量。這些異常地圖的變化使導航與傳統的慣性導航系統相結合。這種技術不依賴于任何外部通信,在任何時間和任何天氣都是全球可用的[12],而且也很難被干擾。
4. MultiEarth挑戰
地球與環境多模態學習挑戰賽(MultiEarth 2022)是首個旨在監測和分析亞馬遜雨林在任何時間和任何天氣條件下毀林情況的比賽。該挑戰的目標是為多模態信息處理提供一個共同的基準,并將地球和環境科學界以及多模態表示學習界聚集在一起,在定義明確且嚴格可比的條件下,比較各種多模態學習方法與森林砍伐估計的相對優點。MultiEarth 2022有三個子挑戰:1)矩陣完成,2)森林砍伐估計,3)圖像對圖像的轉換。我們的挑戰網站是//sites.google.com/view/rainforest-challenge。
5. 口語ObjectNet挑戰
近年來,多模態信息處理在圖像字幕和視頻檢索等問題上引起了極大的興趣和研究活動。存在各種各樣的數據集來支持這些領域的研究,這些數據集通常包括一個圖像或視頻剪輯庫,并搭配文本或語音字幕。不幸的是,許多這些數據集包含內在的偏見,這些模型在這些數據集上訓練然后學習,這反過來降低了它們在現實數據上的性能。例如,圖像字幕模型傾向于描述海灘上的人是快樂的,而圖像分類模型無法識別雪地背景外的狼。為了解決這些問題,我們創建了一個名為ObjectNet的大規模人群來源、偏差控制的對象分類數據集,它由全新圖像的語料庫組成,而不是依賴于那些已經以某種形式[19]上傳到互聯網上的圖像。接著,口語ObjectNet (SON)語料庫通過收集ObjectNet圖像的口語描述來擴展ObjectNet語料庫,并為語料庫創建一系列挑戰任務,如下所述。
6. 機動ID的挑戰
空軍繼續面臨飛行員短缺的問題,部分原因是缺乏加快本科飛行員培訓(UPT)過程所需的基礎設施和方法。“飛行員培訓下一步”(Pilot Training Next, PTN)是一個負責飛行員培訓教育的實驗項目,通過引入虛擬現實(VR)飛行模擬器[20],進入了開展這一課題的新階段。這些模擬器的優化需要在許多方面增加訓練和測試能力,包括機動識別和評分。AI挑戰賽可以用來收集AI社區的解決方案,并將它們整合到PTN課程中。機動識別挑戰是為了從彈道數據中識別機動,以提高飛行安全和飛行員訓練。
7. CogPilot挑戰
與現有的主觀、粗糙的評估方法相比,采用量化的績效測量和生理監測對飛行員的訓練提供了更為個性化和客觀的評估。CogPilot團隊試圖開發AI算法,利用多模態生理信號預測個體的認知狀態和操作性能,從而支持飛行員訓練的個性化優化。
8. 經驗教訓
開發一項挑戰不僅僅是收集和發布數據。例如,圖7描述了AI挑戰所需的其他組件。根據我們的經驗,開發一個引人注目的問題,執行昂貴的數據管理步驟[21,22],并提供基線實現和明確的成功指標,是吸引公眾參與的非常重要的步驟。
DAF-MIT AI加速器利用挑戰問題來公布數據,讓公眾參與,并推進機器學習科學。根據國家AI研究與發展戰略計劃,DAF-MIT AI加速器的使命是建立和建立一個持續的長期研究生態系統,以推動發現和洞察[1]。雖然重點是基礎研究,但公共挑戰加速了基礎和高級研究向可導致商業化和操作能力的應用研究方向的過渡。DAF-MIT人工智能加速器專注于兩用問題——對公眾很重要、與國防有關的問題——不太可能由投資支持的技術公司提供資金。在新的機器學習能力成熟并被證明有效之前,缺乏商業前景將導致行業[23]無法滿足關鍵需求。將魯棒性和數據增強等研究算法應用于實際問題,填補了這一關鍵空白,并加速了AI向商業化和運營集成的過渡。根據某些衡量標準,“目前使用的82%的算法源自聯邦資助的非營利組織和大學”[23]——這一衡量標準強調了開發公共挑戰問題的必要性。
我們從開發這些AI挑戰中學到了許多寶貴的經驗教訓:
開發平臺: 開發AI挑戰需要大量的計算資源(尤其是數據管理和基線算法開發)。作為一個例子,本文中列出的每一個挑戰都利用MIT SuperCloud[24]進行前期開發。開發平臺通常與部署不同,大多數項目都將其挑戰部署在公共或私有云平臺上。
數據/代碼發布: 大多數組織對開源代碼和/或數據集都有一個耗時的審閱過程。根據我們的經驗,從一開始就包括法律和合同代表對于簡化數據和代碼的初始和更新的持續發布過程至關重要。例如,概述的每個挑戰都與空軍法官倡導()密切互動,以確定任何可能延遲數據/代碼發布的法律問題。在由于數據敏感性而無法公開發布的情況下,例如在機動id挑戰中,我們開發了數據所有者可以為他們的項目定制的模板數據使用協議。
可復制流程: 根據我們的經驗,在開發挑戰過程中需要做出許多小決策。例如,對庫的依賴、支持的容器技術、具有較大上游影響的數據格式。為了提高再現性,精心挑選和選擇文檔是很重要的。
參與用戶社區: 本文中概述的每一個挑戰都有不同的科學社區。重要的是,通過研討會和技術交流,讓這個社區盡早參與到挑戰問題的發展中來。這確保了有趣的問題、相關的度量標準和準確反映領域最先進技術的基線實現。
編譯 | 王建民 導讀
現代有機化學的大多數實驗都需要事先用文獻中的程序來制備反應物。將最常見的此類程序自動化可以為研究界節省大量的時間,同時也有利于眾包的優化。Rohrbach等人將100多個流行的協議翻譯成可在合成機器上執行的格式,然后他們對其中的一半進行了實驗驗證。作者還建立了一個開放的數據庫,新的可執行協議可以被添加到其中。 ——JSY
盡管潛力巨大,但合成化學的自動化在過去幾十年中才取得了漸進式的進步。研究人員提供了一個包含 100 個分子的自動可執行化學反應數據庫,這些分子代表了當代有機合成中發現的反應范圍。這些反應包括過渡金屬催化的偶聯反應、雜環形成、官能團相互轉化和多組分反應。反應的化學反應代碼或 χDLs 已存儲在數據庫中,用于版本控制、驗證、協作和數據挖掘。這些合成中,已下載數據庫中的 50 多個條目,并在七個模塊化 ChemPU 中自動運行,其產率和純度與專業化學家所達到的相當。
要復現一個已知的化學反應,必須從文獻或數據庫中獲得協議,這樣才能在實驗室中手動運行它。然而,并不是所有的文獻或數據庫條目都能被輕易復現。這不僅是合成新分子的障礙,也是為機器學習積累高質量數據的障礙,而且由于沒有公開的程序編碼標準,也沒有廣泛報告和糾正失敗實驗的方法,這就更加嚴重了。一個能夠明確捕捉和編碼化學合成協議的方法,供一個自動化系統使用,并具有類似于軟件的版本控制能力和記錄失敗的實驗,將改變這個領域。目前,有機合成需要密集的、高度熟練的勞動力,一個典型的合成可能需要多個復雜的單元操作,這些操作很難明確編碼。這是因為所需的隱性知識往往取決于上下文,導致發表的文獻中存在模糊不清的地方,限制了可重復性、自動化或數據挖掘。這些限制在一些特定領域已經被克服,如寡肽、寡糖和寡核苷酸化學,近年來在更廣泛的化學反應自動化方面也取得了很大進展。然而,大多數自動化合成化學平臺仍然是針對特定任務的,或者是代表手工工作流程中的自動化島嶼,但即使這些平臺也有定制的指令集,它們之間或與文獻之間沒有簡單的語義聯系。為了充分挖掘化學合成中自動化的潛力,確保程序的可重復性,需要在兩個方面取得進展。首先,需要一個真正通用的自動化平臺,可以執行所有的單元操作;其次,一個標準化的、精確的語法來描述這些化學過程,對于可靠地捕捉特定化學過程的所有關鍵細節至關重要。這樣的代碼也必須獨立于自動化所采用的硬件類型,從而被編譯成可以在任何兼容的硬件系統上完美地工作。
研究人員開發了一個工作流程的設計、構建和驗證,該流程允許將化學合成文獻從手工操作捕捉到完全描述的通用化學描述語言(χDL),并在化學處理單元或ChemPU中自動運行。在ChemPU上運行χDL的過程稱之為chemputation(類似于計算),是將代碼和試劑可靠地轉換為產品。研究人員不僅展示了χDL可以被編譯到許多不同的ChemPU配置上運行,而且還展示了χDL語言編碼各種合成程序的能力,這些合成程序是有機化學工具箱的代表。總的來說,103個不同的化學反應已經從文獻中轉化為可靠的χDL代碼,其中53個程序已經在硬件上得到驗證,其產率和純度與文獻中的相當。這種合成產量的提高在早期版本的ChemPU中是不可能的,因為它不能使用χDL。這也標志著與χDL的原始論文相比,經過驗證的χDL程序的數量有了很大的提高,也證明了本文所采用的硬件的可靠性提高了。研究人員為目前的103個條目設計并建立了一個名為Chemify的χDL數據庫,預計這個數據庫將迅速擴大;任何人都可以在合適的硬件上運行和驗證該數據庫。這些χDL詞條不僅可以在其他自動合成平臺上實現,而且可以根據需要生成材料,還可以收集統計數據,并在需要時提出新版本。除了直接重復驗證過的程序外,每個χDL的底物范圍可以通過改變底物和調整反應的關鍵參數--如溫度或時間--而保持工藝的其他部分不變來逐步擴大。由于我們是根據流行程度來選擇反應的,因此所產生的一套經過驗證的χDL涵蓋了大量的常見反應,構成了整個有機合成工具箱自動化的一個入口。此外,通過執行53個高度多樣化的化學程序,ChemPU的硬件和軟件被推向了極限,并展示了通向完全通用性的道路。為此,在硬件庫中加入了一個支持χDL的閃蒸柱色譜系統,取得了關鍵的進展。這意味著ChemPU不僅可以進行反應、加工和濃縮,還可以對產物進行色譜分離,直接按要求提供純化的化合物。為了實現這一目標,研究人員表明該平臺可以以動態的方式做出反應,對產品的檢測做出反應,收集適當的餾分。
圖1說明了從文獻程序到研究人員的Chemify數據庫中的驗證條目的工作流程。與早期的χDL工作相比,研究人員的重點不是將原始程序文本準確地翻譯成χDL,而是實現一個提供目標分子的化學過程。遵循這種方法,不僅可以重現文獻,而且還可以在一些情況下改進過程。化學反應可以在χDL中得到體現,它將合成步驟表現為物理過程的序列,如添加、溶解、蒸發等。χDL框架內目前有44個步驟,每個步驟都有一套完全可定制的參數。所有有機合成中常用的任務都有一個模板式的χDL步驟來表示,如EvacuateAndRefill用來建立惰性氣氛,Separate用來進行液-液分離和提取。χDL步驟有助于對過程進行精確的描述,并消除任何含糊不清的地方,如排空和惰性氣體再填充的周期數或過程關鍵的添加速度。為了實現這一目標,研究人員使用了基于網絡的化學開發環境(ChemIDE),通過提供文本到χDL的翻譯工具,幫助快速生成χDL程序。它通過使用一個包含所有可用χDL步驟的模板庫和一個編輯器來工作,其中各個χDL步驟被表示為圖形元素,可以根據需要進行編輯和安排。ChemIDE被用于生成本工作中詳述的所有χDL程序。
用χDL表達一個化學過程并不能立即解決原始文獻說明中存在的信息缺失或含糊不清的問題,但它確實提供了一個明確的途徑來關閉它。要做到這一點,可能仍然需要一些工藝開發和迭代,以使產量和純度最大化。在對來自ChemPU執行χDL代碼的目標化合物進行適當的分析[NMR、LC-MS或GS-MS后,對產品的質量和純度做出評估。如有必要,對χDL進行改進,以提高產率和純度,然后再次執行。χDL的主要優點是,一旦一個成功的工藝被編碼,所有后來的用戶在兼容的硬件上執行該代碼,都可以得到相同的結果,而不需要再進行工藝開發。在合格的硬件上執行流程所需的所有關鍵知識,包括有形的和無形的,現在都在χDL中了。在這個階段,該協議可以作為一個經過驗證的工藝添加到數據庫中,并由目標產品的全部特征和工藝開發歷史作支持。包含工藝發展歷史是Chemify數據庫的一個突出特點;通過顯示不太成功的實驗結果,并與最終的成功運行進行對比,工藝的關鍵方面被突出,并可以被量化。
Chemify數據庫持久地保存了χDL程序、實驗結果和相關分析的信息。它是一個本地托管的PostgreSQL數據庫服務器,包含上述所有經過驗證的χDL腳本,可以通過ChemIDE(基于網絡的χDL開發環境)或使用基于Python 3的API進行自動數據庫查詢來訪問。此外,為了滿足終端用戶的體驗,ChemIDE配備了顯示每個實驗的特征參數,如產品規模、產率、狀態(翻譯、驗證、失敗)和過程持續時間。用戶可以提交、搜索、下載和復制可信的合成。該數據庫包含最終驗證的合成腳本以及以前的開發版本,這些腳本可能在不同程度上起作用,提供的所需產品產量較低,純度不足,或者由于對自動化的必要工藝參數描述不足或不正確而導致工藝失敗。將失敗的或產量較低的實驗與某一特定反應或反應類別的成功嘗試進行比較,可以揭示出工藝的關鍵方面。此外,數據庫還包含已經翻譯過但尚未在合適的自動化平臺上執行的χDL條目。對未驗證的χDL文件感興趣的用戶可以訪問這些文件,并可以選擇驗證它們。這里報告的χDL程序已經在ChemPU上進行了驗證,ChemPU是一個化學自動化平臺,模擬臺式化學家的手工操作。雖然操作上簡單直觀,但嚴格的實施意味著該平臺作為一個有限狀態機運行(圖2)。它可以處于有限數量的狀態之一,并根據明確定義的操作從一個狀態過渡到另一個狀態。這些操作由程序--χDL合成協議--以及傳感器反饋[如溫度、電導率、壓力或紫外線(UV)吸收率]定義。χDL合成指令與狀態轉換或 "單元操作 "的直接映射,突出了χDL合成過程的嚴格抽象性。此外,χDL程序中對狀態轉換的明確定義對于確保χDL合成的可重復性至關重要,包括在ChemPU的不同布局和可能完全不同的合格硬件設置上。
ChemPU狀態機由三個邏輯部分組成:物理輸入或輸出(I/O)、數字I/O和處理單元。處理單元可以根據ChemPU的初始條件或物理和數字I/O的組合,即由傳感器定義的當前條件、過程變量和正在執行的χDL步驟,在幾種狀態中轉換。根據調度器,χDL步驟的執行會產生一個新的狀態,在以后的步驟中采取行動,并導致物理I/O的物理變化,例如,試劑位置的變化、溫度的變化、液-液分離中的相界,或色譜過程中的洗脫峰。調度器求助于硬件的圖形表示來解釋χDL腳本并協調硬件的協同任務。抽象層定義了作為節點的硬件設備的位置和連接,并包含每個節點的具體信息,如有關設備的IP地址和溫度限制。圖文件連同χDL文件可以編譯成一個執行文件,該文件是針對平臺的。將化學過程的描述嚴格分離到χDL文件中,將硬件平臺的描述嚴格分離到圖形文件中,可以確保χDL文件保持與平臺無關。這也使得平臺的設計方式和具體的物理布局具有靈活性。這意味著每個χDL都可以被版本化和編譯以在任何合適的平臺上運行,而且ChemPU系統具有高度的模塊化、靈活性和可擴展性(圖3)。
通過反映批量合成化學的單元操作,ChemPU代表了一個通用的、可編程的硬件平臺,用于執行之前展示的合成化學。由于該平臺的模塊化性質,它可以隨時擴展,各個模塊通過液體處理主干網連接,類似于傳統計算機的總線。與液體處理主干網(由泵和閥門組成)的連接是通過單片柔性管進行的,這使得模塊可以很容易地被拆卸下來進行維護或重新安排以優化操作。液體處理主干由一系列注射器泵和閥門組成。一個典型的主干系統由六臺組成;然而,主干系統可以隨時收縮或擴展,以適應所需化學過程的要求。閥門有六個位置,每個有七個端口。液體處理主干網中的每個閥門都與一個泵、其最近的相鄰閥門和一個廢物容器相連,并且可以與三到四個不同的試劑、溶劑或硬件模塊相連。各個模塊與主干網的連接以抽象的方式用上述圖形來表示。主干網的清潔是通過自動清潔程序進行的,該程序可由用戶定義,以說明不同程序后存在的不同類型的污染。除了液體處理主干,用于執行此處報告的合成的ChemPU系統還包括一個反應模塊,由一個通過以太網-串行轉換器控制的標準熱板、一個用于液-液萃取的分離器,配備了一個用于攪拌的頂置攪拌器,以及一個用于相界檢測的電導率傳感器;它還包括一個用于產品沉淀和重結晶的夾套過濾器、一些試劑瓶、一個旋轉蒸發器,以及一個可選的色譜系統。 ChemPU的文獻程序進行驗證
通過chemputation的抽象,χDL語言和ChemPU平臺,研究人員著手翻譯有機化學工具箱中的典型反應并使之自動化。有機化學包含了種類繁多的轉化過程。盡管種類繁多,但大多數反應都可以用少于10個類別進行簡明的分類。一些研究已經分析了不同領域的反應頻率,如藥物化學、工藝化學和全合成。在合成中使用的反應類別的分布有一些明顯的差異,這取決于主要目標;例如,藥物化學研究人員可能更喜歡過渡金屬催化的C-C鍵形成反應,這可以方便地產生大量的相關化合物用于生物檢測,而現代全合成更依賴于精心設計的成環反應,以盡可能少的步驟組裝復雜的分子骨架。
此外,盡管保護基化學是某些合成領域的基石,如多肽合成或碳水化合物化學,但從事全合成的研究人員往往喜歡更優雅的無保護基方法。盡管有微小的差異,這些類別體現了現代有機化學的各種工具箱。為了用所有類型的反應的例子來表示這些類別,研究人員選擇了翻譯這些程序的χDLs,并用ChemPU進行驗證(圖4)。碳-碳鍵形成反應類別被進一步分為過渡金屬催化反應和無過渡金屬反應。此外,還引入了一個單獨的多組分反應類別,因為這些反應通常在一次合成操作中完成多種化學轉化。最初的反應是從《有機合成》雜志中被引用最多的論文中選出的。這本雜志在有機化學領域很有名,因為它發表了一些實用的方法,用于合成著名的化合物或執行重要的合成方法,而且提交的程序至少被獨立于提交原始合成方法的化學專家重復過一次。盡管該雜志的程序一般都有很高的詳細程度,但仍需要進行一些程序開發,這突出說明了用非結構化的散文格式捕捉所有必要信息的難度,而不是χDL。從《有機合成》中選擇這些高引用率的論文涵蓋了最主要的反應類別,但分布不均。因此,研究人員從著名的文獻來源中手動選擇了更多的例子,以使數據集對有機化學工具箱有更均衡的表述。
ChemPU上各種反應的自動化
該系統對濕氣敏感或高活性的試劑具有耐受性,如銅介導的氨基甲酸酯的炔化反應中使用的雙酰胺鉀(KHMDS),甾體雌酮的Friedel-Crafts烷基化反應中使用的三氟化硼,或Fischer吲哚合成6中使用的Eaton試劑。此外,需要惰性氣氛的反應也在該平臺上成功執行,包括在鈀催化下進行對映選擇性卡羅爾重排。ChemPU平臺上有效地執行了高達90毫摩爾規模的程序。方便的是,一旦產生了χDL腳本,一個特定的反應可以在可用的容器尺寸和化學過程的限制下放大或縮小。該平臺上還成功執行了生成多組分和級聯反應產生的更復雜產品的χDL程序。
擴大基底范圍
通過使用ChemPU生成化合物庫,可以擴大驗證過的χDL程序的底物范圍。一個特別有吸引力的前景是利用經過驗證的χDL程序來構建用于生物篩選的大型化合物庫。這樣的化合物庫可以很方便地通過改變起始材料來獲得,而不需要對合成腳本進行重大修改;也就是說,一旦建立了一個程序,它就可以作為一個一般程序應用于許多不同的底物,只需要改變關鍵參數,如底物、反應溶劑和反應時間。為了做到這一點,研究人員在ChemPU上同時執行多個或 "多線程 "反應,使用來自兩個不同的異氰酸酯和兩個醛的反應物組合,得到四個結構相關的α-氨基酰胺產品。進一步擴大所使用的反應物集將迅速擴大生成的產品數量,并允許迅速生成更大的庫。
ChemPU合成的可重復性
為了檢查執行策劃的χDL程序的一致性和可靠性,研究人員著手在ChemPU平臺上多次重復相同的反應方案。丙二酸酯的烷基化被選為可重復性研究的合適反應,因為準確的溫度控制和添加速率是該過程成功的關鍵。在最初的工藝開發后,獲得了經過驗證的χDL程序腳本,并在12次嘗試運行中成功復制了10次反應協議。兩次失敗是由于在液-液分離過程中相界測定不正確造成的;產品本可以通過手動重啟系統來恢復,但這里沒有這樣做。最重要的是,經過策劃的χDL程序可靠地提供了產品,其產率和純度都很一致。加上生成化合物庫的能力,ChemPU可用于自動生成同一材料的多個批次或在初始協議建立后用不同底物重復同一反應的高度重復性工作。
ChemPU上進行全自動純化
對反應中的產物化合物進行色譜分離是中小型有機合成的首選純化方法。許多市售的色譜系統可以幫助實驗室的化學家進行色譜分離。然而,這些系統仍然需要大量的用戶互動。例如,粗制材料必須手工裝入色譜柱,產品餾分必須手工識別,從餾分瓶中洗出,然后合并。此外,這些商業系統需要用戶在幾個不同的階段進行互動,從而將化學家與實驗室捆綁在一起,即使只是把樣品裝到柱子上這樣的瑣碎任務。為了將Buchi Pure C-815色譜系統與ChemPU整合在一起,研究人員建造了兩個輔助硬件單元:一個允許在系統上預裝不同色譜柱的色譜柱轉盤和一個餾分托盤的擴展。后者允許ChemPU回收產品餾分。第一個具有挑戰性的自動化操作是將樣品加載到柱子上。基于實驗室的化學家通常會在干式裝載和液體注入樣品之間做出選擇。研究人員的目標是實施液體注射法,這與ChemPU的液體處理主干很好地結合在一起;此外,液體注射的樣品裝載方法需要很少的過程開發,只需要確定一個合適的溶劑混合物和體積來溶解粗制材料。正相色譜全自動化的第二個挑戰是如何可靠地選擇產品峰。通常情況下,化學家需要在色譜分離后通過薄層色譜、質譜或核磁共振分析各個餾分。對于ChemPU集成的模塊,我們考慮了幾個備選方案。我們發現,考慮洗脫餾分的紫外/可見光反應或彈性光散射檢測器的信號,并在指定的信號軌跡下選擇具有最大曲線下面積的峰,是可靠性和靈活性的最佳權衡;對于一個給定的性能良好的反應,可以正確識別產物峰,而不考慮確切的保留時間。此外,這種方法不依賴于更復雜的產物鑒定,如質譜或核磁共振。
然后ChemPU控制器進行峰值檢測并觸發色譜機的餾分收集機制。控制器還跟蹤餾分瓶的填充水平和各種運行參數,如背壓積聚、溶劑蒸汽水平、梯度溶劑和溶劑廢液桶的溶劑水平。如果這些參數中的任何一個超過了規定的閾值,就會啟動一個適當的錯誤處理程序,以可控的方式暫停色譜分離。當分離運行完成后,產品峰被識別并轉移到下一個模塊。粗制材料通常從旋轉蒸發儀轉移到色譜模塊,然后將純化的產品從色譜模塊轉移回旋轉蒸發儀,因此旋轉蒸發儀燒瓶需要在兩者之間進行清洗。因此,已經實現了對純化產品的目標容器的可選清洗程序,并且可以在色譜分離過程中進行。綜合色譜分離法被用于三個反應。這些色譜分離的過程已經被χDL記錄下來,以簡明易懂的方式說明了每一個細微的關鍵細節。因此,在另一個ChemPU或同等的系統上,甚至用市面上的色譜機手動復制色譜分離是很容易的。
Outlook
研究人員已經展示了如何將化學合成文獻輕松轉換為通用的化學代碼,可以在任何能夠進行化學合成的機器人上運行;這方面的唯一要求是一個批量反應器、一個分離器、蒸發器和純化系統。這意味著,潛在的許多不同的機器人方法將能夠使用相同的χDL代碼,產生相同的結果。χDL Chemify數據庫的使用不僅有助于復制已發表的程序,而且還為社區提供了豐富的驗證數據,可用于最先進的機器學習,以實現反應優化、合成路線規劃、提高安全性和減少合成的環境影響,同時大大減少化學家重復著名程序的勞動。 參考資料 Authors:Simon Rohrbach; Mindaugas Siauciulis; Greig Chisholm; Petrisor-Alin Pirvan; Michael Saleeb; S. Hessam M. Mehr; Ekaterina Trushina; Artem I. Leonov; Graham Keenan; Aamir Khan; Alexander Hammer; Leroy Cronin DOI:10.1126/science.abo0058
人工智能是有望改變未來幾年戰爭面貌的眾多熱門技術之一。描述其可能性并警告那些在人工智能競賽中落后的人的文章比比皆是。美國防部已經創建了聯合人工智能中心,希望能在人工智能的戰斗中獲勝。人工智能的愿景是使自主系統能夠執行任務、實現傳感器融合、自動化任務以及做出比人類更好、更快的決策。人工智能正在迅速改進,在未來的某一天,這些目標可能會被實現。在此期間,人工智能的影響將體現在我們軍隊在無爭議的環境中執行的更平凡、枯燥和單調的任務上。
人工智能是一種快速發展的能力。學術界和工業界的廣泛研究正在縮短系統訓練時間并獲得越來越好的結果。人工智能在某些任務上很有效,例如圖像識別、推薦系統和語言翻譯。許多為這些任務設計的系統今天已經投入使用,并產生了非常好的結果。在其他領域,人工智能非常缺乏人類水平的成就。其中一些領域包括處理人工智能以前從未見過的場景;理解文本的上下文(理解諷刺,例如)和對象;和多任務處理(即能夠解決多種類型的問題)。今天的大多數人工智能系統都被訓練來完成一項任務,并且只在非常特定的情況下這樣做。與人類不同,它們不能很好地適應新環境和新任務。
人工智能模型每天都在改進,并在許多應用中顯示出它們的價值。這些系統的性能可以使它們在信息戰中展示出非凡的能力,諸如在衛星圖像中識別 T-90 主戰坦克、使用面部識別識別人群中的高價值目標、為開源情報翻譯文本以及文本生成等任務。人工智能最成功的應用領域是那些有大量標記數據的領域,如 Imagenet、谷歌翻譯和文本生成。 AI 在推薦系統、異常檢測、預測系統和競技游戲等領域也非常有能力。這些領域的人工智能系統可以幫助軍方在其承包服務中進行欺詐檢測,預測武器系統何時因維護問題而失效,或在沖突模擬中制定制勝策略。所有這些應用程序以及更多應用程序都可以成為日常操作和下一次沖突中的力量倍增器。
當軍方希望將人工智能在這些任務中的成功經驗納入其系統時,必須承認一些挑戰。首先是開發人員需要獲得數據。許多人工智能系統是使用由一些專家系統(例如,對包括防空炮臺的場景進行標注),通常是人類標注的數據進行訓練。大型數據集通常由采用人工方法的公司進行標注。獲得這種數據并分享它是一個挑戰,特別是對于一個喜歡對數據進行分類并限制其訪問的組織來說。一個軍事數據集的例子可能是由熱成像系統產生的圖像,并由專家進行標注,以描述圖像中發現的武器系統(如果有的話)。如果不與預處理器和開發人員共享,就無法創建有效使用該數據集的人工智能。人工智能系統也很容易變得非常大(因此很慢),并因此容易受到 "維度問題 "的影響。例如,訓練一個系統來識別現有的每一個可能的武器系統的圖像將涉及成千上萬的類別。這樣的系統將需要大量的計算能力和在這些資源上的大量專用時間。而且由于我們正在訓練一個模型,最好的模型需要無限量的這些圖像才能完全準確。這是我們無法實現的。此外,當我們訓練這些人工智能系統時,我們經常試圖強迫它們遵循 "人類 "的規則,如語法規則。然而,人類經常忽視這些規則,這使得開發成功的人工智能系統在情感分析和語音識別等方面具有挑戰性。最后,人工智能系統在沒有爭議的、受控的領域可以很好地工作。然而,研究表明,在對抗性條件下,人工智能系統很容易被愚弄,導致錯誤。當然,許多國防部的人工智能應用將在有爭議的空間運作,如網絡領域,因此,我們應該對其結果保持警惕。
忽略敵人在人工智能系統方面的努力,其靠此擊敗我們,因為這些看似超人類的模型也有局限性。人工智能的圖像處理能力在給定不同于其訓練集的圖像時并不十分強大--例如,照明條件差、角度不對或部分被遮擋的圖像。除非這些類型的圖像在訓練集中,否則模型可能難以(或無法)準確識別內容。幫助我們信息戰任務的聊天機器人僅限于數百個字,因此不能完全取代一次可以寫幾頁的人類。預測系統,如IBM的Watson天氣預測工具,由于它們試圖模擬的系統復雜性,在維度問題和輸入數據的可用性方面很困難。研究可能會解決其中的一些問題,但很少有問題會像預測或期望的那樣迅速得到解決。
人工智能系統的另一個弱點是他們沒有能力進行多任務處理。人類有能力識別敵方車輛,決定對其采用何種武器系統,預測其路徑,然后與目標交戰。這套相當簡單的任務目前對人工智能系統來說是不可能完成的。充其量,可以構建一個人工智能的組合,將個別任務交給不同的模型。這種類型的解決方案,即使是可行的,也會帶來巨大的傳感和計算能力的成本,更不用說系統的訓練和測試了。許多人工智能系統甚至沒有能力在同一領域內轉移他們的學習。例如,一個被訓練來識別T-90坦克的系統很可能無法識別中國的99式坦克,盡管它們都是坦克,而且都是圖像識別任務。許多研究人員正在努力使系統能夠轉移他們的學習,但這樣的系統離實際應用還有長久的時間。
人工智能系統在理解輸入和輸入中的背景方面也非常差。人工智能識別系統并不理解圖像是什么,它們只是學習圖像像素的紋理和梯度。給予具有這些相同梯度的場景,人工智能很容易錯誤地識別圖片的一部分。這種缺乏理解的情況可能會導致作出錯誤分類,例如將湖面上的一艘船識別為BMP,但人類缺不會。
這導致了這些系統的另一個弱點--無法解釋它們是如何做出決定的。人工智能系統內部發生的大部分事情都是一個黑盒,人類幾乎無法理解系統是如何做出決定的。這對于高風險的系統來說是一個關鍵問題,比如那些做出參與決定的系統,或者其輸出可能被用于關鍵決策過程的系統。對一個系統進行審計并了解其犯錯原因的能力在法律上和道德上都很重要。此外,在涉及人工智能的情況下,我們如何評估責任的問題是一個公開研究點。最近,新聞中出現了許多例子,人工智能系統在貸款審批和假釋決定等領域基于隱藏的偏見做出了糟糕的決定。不幸的是,關于可解釋的人工智能的工作多年來一直沒有取得成果。
人工智能系統也很難區分相關性和因果關系。經常用來說明兩者區別的臭名昭著的例子是溺水死亡和冰激凌銷售之間的相關性。一個人工智能系統得到了關于這兩個項目的統計數據,卻不知道這兩個模式之所以相關,只是因為兩者都是天氣變暖的結果,并可能得出結論,為了防止溺水死亡,我們應該限制冰淇淋的銷售。這類問題可能表現在一個軍事欺詐預防系統中,該系統被告知按月采購的數據。這樣一個系統可能會錯誤地得出結論,認為9月份的欺詐行為會隨著支出的增加而增加,而實際上這只是年終消費習慣的一個結果。
即使沒有這些人工智能的弱點,軍方目前應該關注的主要領域是對抗性攻擊。我們必須假設,潛在的對手將試圖愚弄或破解我們使用的任何可獲得的人工智能系統。將試圖愚弄圖像識別引擎和傳感器;網絡攻擊將試圖躲避入侵檢測系統;后勤系統將被輸入篡改的數據,用虛假的需求堵塞供應線。
對抗性攻擊可分為四類:規避、推理、中毒和提取。事實證明,這些類型的攻擊很容易完成,通常不需要計算技能。逃避攻擊試圖愚弄人工智能引擎,往往是希望避免被發現--例如,隱藏網絡攻擊,或說服傳感器相信一輛坦克是一輛校車。未來的主要生存技能可能是躲避人工智能傳感器的能力。因此,軍方可能需要開發一種新型的人工智能偽裝,以擊敗人工智能系統,因為事實證明,簡單的混淆技術,如戰略性的膠帶放置,可以愚弄人工智能。逃避攻擊通常是通過推理攻擊進行的,推理攻擊可以獲得關于人工智能系統的信息,這些信息可以用來實現逃避攻擊。中毒攻擊的目標是訓練期間的人工智能系統,以實現其惡意的意圖。這里的威脅將是敵人獲得用于訓練我們工具的數據集。可能會插入誤標的車輛圖像以愚弄目標系統,或篡改維護數據,旨在將即將發生的系統故障歸類為正常操作。考慮到我們的供應鏈的脆弱性,這將不是不可想象的,而且很難發現。提取攻擊利用對人工智能界面的訪問來了解人工智能的運行情況,從而創建一個系統的平行模型。如果我們的人工智能不被未經授權的用戶所保護,那么這些用戶可以預測我們的系統所做的決定,并利用這些預測為自己服務。人們可以設想對手預測人工智能控制的無人系統將如何應對某些視覺和電磁刺激,從而影響其路線和行為。
人工智能在未來的軍事應用中肯定會有作用。它有許多應用領域,它將提高工作效率,減少用戶的工作量,并比人類更迅速地運作。正在進行的研究將繼續提高其能力、可解釋性和復原力。軍隊不能忽視這項技術。即使我們不擁有它,但我們的對手肯定會發展AI,我們必須有能力攻擊和擊敗他們的AI。然而,我們必須抵制這種重新崛起的技術誘惑。將脆弱的人工智能系統放置在有爭議的領域,并讓它們負責關鍵的決策,這將為災難性的結果打開了機會。在這個時候,人類必須繼續負責關鍵決策。
鑒于我們暴露的人工智能系統被攻擊的概率很高,以及目前人工智能技術缺乏彈性,投資軍事人工智能的最佳領域是那些在沒有爭議的領域運作的人工智能。由人類專家密切監督或具有安全輸入和輸出的人工智能工具可以為軍隊提供價值,同時減輕對漏洞的擔憂。這類系統的例子有醫學成像診斷工具、維修故障預測應用和欺詐檢測程序。所有這些都可以為軍隊提供價值,同時限制來自對抗性攻擊、有偏見的數據、背景誤解等等的風險。這些并不是由世界上的人工智能推銷員贊助的超級工具,但卻是最有可能在短期內獲得成功的工具。
保羅-麥克斯韋中校(退役)是美國軍事學院陸軍網絡研究所的計算機工程網絡研究員。他在服役的24年中曾是網絡和裝甲部隊的軍官。他擁有科羅拉多州立大學的電子工程博士學位。
所表達的觀點僅代表作者本人,不反映美國軍事學院、陸軍部或國防部的官方立場。
在NLP中,“域內數據”的概念常常過于簡單和模糊,因為文本數據在許多細微的語言方面存在差異,比如主題、風格或正式程度。此外,域標簽很多時候是不可用的,這使得構建特定于域的系統變得很困難。我們證明了大量的預先訓練的語言模型隱式地學習句子表示,這些句子表示在沒有監督的情況下由域進行聚類——這表明文本數據中域的簡單數據驅動定義。我們利用這一特性,提出了基于這些模型的域數據選擇方法,這些方法只需要少量的域內單語數據。我們評估了我們的神經機器翻譯的數據選擇方法在五個不同的領域,在這些領域中,它們的表現優于現有的方法,包括BLEU和句子選擇的精確度以及對oracle的召回率。
【導讀】最近在人工智能和機器學習方面的研究開始越來越多的強調通用學習以及越來越大的訓練集和越來越多的計算。相比之下,作者提出了一種混合的、知識驅動的、基于推理的方法,該方法以認知模型為核心。與目前的方法相比,作者提出的模型可以為人工智能提供更豐富、更健壯的基礎。
1.朝著‘強‘’人工智能前進
雖然沒有人確切地知道在未來的幾十年里,深度學習或人工智能將會發展成什么樣子,但如果我們要達到一個新的水平,有必要考慮一下我們從過去十年中學到了什么,以及接下來應該研究什么。
讓我們暫且稱呼這種新級別的人工智能為‘強’人工智能:智能,盡管不一定是具有超人一樣的能力或者能夠自我提高的能力,但是我們可以指望這種級別的智能能夠以一種系統和可靠的方式把它所知道的應用到廣泛的問題上,綜合各種來源的知識,能夠靈活和動態地對世界進行推理。把它在一種環境中所學習到的東西遷移到另一種環境中,就像我們期望一個普通成年人能夠舉一反三一樣。
2.一種混合的,知識驅動的,基于認知模型的方法
許多認知科學家,包括我自己,都把認知視為一種循環:生物從外界獲取感知信息,他們會基于他們所獲取到的信息構建一個模型,然后根據這些認知模型作出決定。這其中可能會包括在外部世界中包含哪些種類的實體信息,他們的屬性是什么,這些實體之間是如何關聯到一起的。盡管認知科學家普遍將這些認知模型視為不完善或者不精確的模型,但是依舊把它們看作是生物體看待世界的核心。即使是不完美的,認知模型也可以作為一個強大的指南來認知世界。在很大程度上,一個有機體在世界上的繁榮程度取決于這些內部認知模型的好壞。
2.1混合架構
我們對變量符號的操作提供了一個潛在的答案——這一解決方案每天都要被使用數萬億次,幾乎是全世界所有軟件的基礎。特別是,幾乎每個計算機程序都有四個基本概念作為基礎:變量、實例、將變量綁定到實例以及變量上的操作。而混合本身并不是什么新鮮事:Pinker和我三十年前就提出孩子們學習英語過去式的最好方法就是混合模式:規則(在動詞干上加-ed),用于形成規則動詞的過去式,以及類似神經網絡的系統,用于獲取和檢索不規則動詞。事實上,將符號知識和感性知識結合的需求由來已久(如人們希望通過把對馬的外貌的感性認識與把斑馬比作條紋馬的口頭定義結合起來識別斑馬)。而計算機科學家在90年代就開始提倡混合模型,并且已經證明了將有限的邏輯子集轉化為神經網絡是可能的。
2.2大規模的數據當中有些是抽象的,具有因果關系的
我們可以操作符號對抽象知識進行表示,但如何積累和表示抽象知識到目前為止依舊是一項艱苦的工作,所取得的成績遠遠不能令人滿意。另外目前的大型數據庫如谷歌知識圖譜、Freebase和YAGO主要關注事實而不是常識,這導致我們不能很好的理解和使用這些抽象的知識數據。
2.3推理
推理提供了另外一種選擇;你不需要記住所有的東西,也不需要在你之前可能遇到過的近鄰之間進行插值,你只需要進行推理。而不是強行記住一些東西。你需要學習一個普遍的真理:所有人類都是終有一死的,并根據需要將這一普遍真理應用于這一范疇內的所有具體實例。正如我們所看到的那樣,諸如Transformers這樣的神經網絡也不能作出值得信賴的推理。它們有時可能奏效,但效果不佳;但是好在只要有足夠的知識,他們至少提供了朝著正確方向前進的希望。
2.4 認知模型
特殊類型的知識是隨著時間的推移積累起來的關于事物特定狀態的知識,諸如在一次交談之中我們會對朋友有所了解,閱讀新聞時會對國家的某些事物有所了解。在認知心理學中,我們把這種累積表征稱為認知模型。總的來說,認知模型大體上有一些實體知識(故事中的人物和他們擁有的物品),一些屬性和一些時間,事件信息(人物x在時間t會見了人物y,在時間t,人物x了解到了什么信息)組成。
3.討論
3.1 把持久的知識作為基礎的智能
沒有我們,或者像我們這樣的其他生物,世界將繼續存在,但它不會被描述、提煉或理解。鳥兒可能會拍打翅膀,鳥兒可能會飛翔。事物之間也許會有關聯,但沒有因果描述。人類的生活將充滿抽象和因果。我們的孩子會花大量時間問為什么;科學家提出這些問題是為了得出理論。我們力量的一個重要部分來自于我們以科學、文化和技術的形式去努力理解和描述這個世界。這些努力大多以知識的形式表現出來,有些是具體的,有些是籠統的,有些是口頭的,有些是寫于紙面的。經典人工智能的主要目標是將這些知識提煉成機器可解釋的形式。
3.2 逐步窺探事物全貌
深度學習向我們展示了從大量數據中可以學到多少有用的東西。同現統計和類似的統計可能只是可靠知識的影子,但肯定有很多類似影子,也許我們可以利用這些影子。只要我們敏銳地意識到它們的長處和局限性就可以掌握更加復雜的技術。
3.3 結論,展望和啟示
我提出了一個四步走方案:首先完善神經-符號混合架構,然后是建立豐富的、具有認知能力的框架和大規模的知識數據庫,隨后進一步開發能夠用在此類框架上進行抽象推理的工具,最后,發展更復雜的認知模型和歸納機制。綜上所述,這四個先決條件的進展可以為更豐富、更智能的系統提供基礎。我認為這將重新定義我們學習的意義,產生一種(也許是新的)學習方式,通過抽象的、類似語言的歸納,從數據到知識和認知模型,將推理真正作為學習過程的一部分。