經過數百萬種不同序列訓練的無監督蛋白質語言模型可以學習蛋白質的結構和功能。迄今為止,研究的蛋白質語言模型都是經過訓練的,可以從單個序列進行推斷。長期以來,計算生物學的方法一直是通過獨立地將一個模型擬合到每個家族中,從一個進化相關的序列家族中做出推論。在這項工作中,我們結合了兩種范式。我們引入了一種蛋白質語言模型,它以多序列比對的形式將一組序列作為輸入。該模型在輸入序列中穿插行和列注意力,并使用跨許多蛋白質家族的掩碼語言建模目標的變體進行訓練。該模型的性能大大超過了目前最先進的無監督結構學習方法,參數效率遠高于之前的最先進的蛋白質語言模型。
持續學習是一種學習模式,在這種模式下,學習系統按照一系列任務進行訓練。這里的目標是在當前任務上執行得很好,而不會受到前面任務的性能下降的影響。在神經網絡持續學習的最新進展中,有兩個值得注意的方向: (1) 基于變分貝葉斯的正則化,通過學習先前任務的先驗信息,以及(2)學習深度網絡的結構以適應新的任務。到目前為止,這兩種方法在很大程度上是相互正交的。我們提出了一個新的貝葉斯框架,基于不斷學習深度神經網絡的結構,以統一這些不同但互補的方法。該框架通過學習任務所使用的權值來學習任務的深層結構,并通過不同任務學習的權值的不同稀疏子集的重疊來支持任務間的遷移。我們提出的持續學習框架的一個吸引人的方面是,它既適用于甄別(有監督的)設置,也適用于生成(無監督的)設置。在有監督和無監督基準上的實驗結果表明,我們的方法在持續學習方面的表現與最近的進展相當或更好。
近期工作(White et al., 2020a;Yan et al., 2020)證明了架構編碼在神經架構搜索(NAS)中的重要性。這些編碼對神經結構的結構或計算信息進行編碼。與結構感知編碼相比,計算感知編碼以相似的精度映射到同一區域的架構,提高了下游架構搜索性能(Zhang et al., 2019; White et al., 2020a)。在本文中,我們介紹了一種基于計算感知Transformer的編碼方法,稱為CATE。與現有基于固定變換的計算感知編碼(如路徑編碼)不同,CATE采用了成對的預訓練方案,使用交叉注意的transformer來學習計算感知編碼。這種學習編碼包含神經結構的密集和上下文化計算信息。在小搜索空間和大搜索空間中,我們比較了在三個主要的編碼依賴NAS子程序下,CATE和11種編碼方式。我們的實驗表明,CATE有利于下游搜索,特別是在大的搜索空間中。此外,外部搜索空間實驗證明了它在訓練所處的搜索空間之外具有優越的泛化能力。
我們將考慮流行的神經序列處理模型(如RNN和Transformer)與形式化模型(如自動機及其變體)之間的關系。特別地,我們將討論幾種RNN的提取方法,以及通過自動機變體來理解的各種RNN體系結構之間的差異。然后我們將考慮更現代的Transformer。特別是,我們將展示它如何(不!)與現有的正式類相關,并以編程語言的形式提出另一種抽象。
Transformers已經成功地完成了許多自然語言處理任務。然而,由于計算復雜度高和缺乏自然標記化,將Transformers應用于視頻領域的任務,如長期視頻生成和場景理解仍然是難以實現的。在本文中,我們提出了以對象為中心的視頻轉換器(OCVT),它利用以對象為中心的方法將場景分解成適合于生成視頻轉換器使用的令牌。通過將視頻分解為對象,我們的完全無監督模型能夠學習場景中多個交互對象的復雜時空動態,并生成視頻的未來幀。與基于像素的模型相比,我們的模型的內存效率更高,因此能夠使用單個48GB GPU訓練70幀長度的視頻。我們將我們的模型與以前基于RNN的方法以及其他可能的視頻Transformer基線進行了比較。我們證明OCVT在生成未來幀時比基線表現得更好。OCVT還為視頻推理開發了有用的表示,在CATER任務上實現了最先進的性能。
最近最優傳輸(OT)理論在機器學習中的幾個應用都依賴于正則化,尤其是熵和Sinkhorn算法。由于矩陣向量乘積在Sinkhorn算法中是普遍存在的,一些工作已經提出使用低秩因子來近似其迭代中出現的核矩陣。另一種方法是在OT問題中考慮的可行耦合集上施加低非負秩約束,不需要對代價或核矩陣進行逼近。這條路線首先由forrow2018探索,他提出了一種為平方歐氏地面成本量身定制的算法,使用了一個代理目標,可以通過正則化的Wasserstein重心機制來解決。在此基礎上,我們引入了一種通用方法,旨在完全通用性地解決具有任意代價的低非負秩約束下的OT問題。我們的算法依賴于低秩耦合的顯式分解,將其作為由公共邊際連接的子耦合因子的乘積; 與NMF方法類似,我們交替更新這些因素。證明了該算法的非漸近平穩收斂性,并通過基準實驗證明了該算法的有效性。
我們提出了圖神經擴散(GRAND),它將圖的深度學習視為一個連續的擴散過程,并將圖神經網絡(GNN)視為一個潛在的PDE的離散化。在我們的模型中,層結構和拓撲對應于時間和空間算子的離散化選擇。我們的方法允許有原則地開發一大類新的GNN,這些GNN能夠解決圖學習模型的常見困境,如深度、過平滑和瓶頸。我們的模型成功的關鍵是相對于數據攝動的穩定性,這在隱式和顯式離散化方案中都得到了解決。我們開發了線性和非線性版本的GRAND,在許多標準圖基準上實現了有競爭性的結果。
//proceedings.mlr.press/v139/chamberlain21a/chamberlain21a.pdf
在不依賴下游任務的情況下評估學習表征的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出幾何成分分析(GeomCA)算法,評估表示空間的幾何和拓撲性質。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表征來證明其適用性,如對比學習模型、生成模型和監督學習模型。
由于線性空間和時間的復雜性,Transformer模型的最新進展允許前所未有的序列長度。同時,相對位置編碼(relative position encoding, RPE)被認為是一種利用滯后而不是絕對位置進行推理的方法。盡管如此,RPE還不能用于Transformer最近的線性變體,因為它需要顯式計算注意力矩陣,而這正是這些方法所避免的。在本文中,我們填補了這一缺口,并提出了隨機位置編碼作為生成PE的一種方法,該方法可以用來替代經典的加性(正弦)PE,并且可以證明其行為類似于RPE。其主要理論貢獻是將位置編碼與相關高斯過程的交叉協方差結構聯系起來。我們在Long-Range Arena基準測試和音樂生成上證明了我們的方法的性能。
//www.zhuanzhi.ai/paper/e42297b68bb088dc94c114e44992cea1
圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。
少樣本分類的目的是在只有少量樣本的情況下識別不可見的類。我們考慮了多域少樣本圖像分類的問題,其中不可見的類和例子來自不同的數據源。人們對這個問題越來越感興趣,并激發了元數據集等基準的開發。在這種多領域設置的一個關鍵挑戰是有效地整合來自不同訓練領域集的特征表示。在這里,我們提出了一個通用表示Transformer(URT)層,該元學會通過動態地重新加權和組合最合適的特定于領域的表示來利用通用特性進行少樣本分類。在實驗中,我們表明,URT在元數據集上設置了一個新的最先進的結果。具體來說,與競爭方法相比,它在數據源數量最多的情況下實現了最佳性能。我們分析了URT的各種變體,并給出了一個可視化的注意力分數熱圖,以闡明該模型是如何執行跨領域泛化的。
//www.zhuanzhi.ai/paper/40930a0aff223a2d2baab3d1d92d7674