亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

近期工作(White et al., 2020a;Yan et al., 2020)證明了架構編碼在神經架構搜索(NAS)中的重要性。這些編碼對神經結構的結構或計算信息進行編碼。與結構感知編碼相比,計算感知編碼以相似的精度映射到同一區域的架構,提高了下游架構搜索性能(Zhang et al., 2019; White et al., 2020a)。在本文中,我們介紹了一種基于計算感知Transformer的編碼方法,稱為CATE。與現有基于固定變換的計算感知編碼(如路徑編碼)不同,CATE采用了成對的預訓練方案,使用交叉注意的transformer來學習計算感知編碼。這種學習編碼包含神經結構的密集和上下文化計算信息。在小搜索空間和大搜索空間中,我們比較了在三個主要的編碼依賴NAS子程序下,CATE和11種編碼方式。我們的實驗表明,CATE有利于下游搜索,特別是在大的搜索空間中。此外,外部搜索空間實驗證明了它在訓練所處的搜索空間之外具有優越的泛化能力。

//arxiv.org/abs/2102.07108

付費5元查看完整內容

相關內容

Transformer是谷歌發表的論文《Attention Is All You Need》提出一種完全基于Attention的翻譯架構

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

在多維分類中,輸出空間中存在多個類變量,每個類變量對應一個異構類空間。由于類空間的異質性,在從MDC示例中學習時,考慮類變量之間的依賴關系非常具有挑戰性。本文提出了一種新的多目標預測方法,即SLEM方法,它在編碼的標簽空間中學習預測模型,而不是在異構的標簽空間中學習預測模型。具體來說,SLEM在編碼-訓練-解碼框架中工作。在編碼階段,通過成對分組、一次熱轉換和稀疏線性編碼三種級聯操作,將每個類向量映射為實值向量。在訓練階段,在編碼標簽空間內學習多輸出回歸模型。在解碼階段,通過對學習的多輸出回歸模型的輸出進行正交匹配追蹤,得到預測的類向量。實驗結果清楚地驗證了SLEM相對于最先進的MDC方法的優越性。

付費5元查看完整內容

現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。

付費5元查看完整內容

經過數百萬種不同序列訓練的無監督蛋白質語言模型可以學習蛋白質的結構和功能。迄今為止,研究的蛋白質語言模型都是經過訓練的,可以從單個序列進行推斷。長期以來,計算生物學的方法一直是通過獨立地將一個模型擬合到每個家族中,從一個進化相關的序列家族中做出推論。在這項工作中,我們結合了兩種范式。我們引入了一種蛋白質語言模型,它以多序列比對的形式將一組序列作為輸入。該模型在輸入序列中穿插行和列注意力,并使用跨許多蛋白質家族的掩碼語言建模目標的變體進行訓練。該模型的性能大大超過了目前最先進的無監督結構學習方法,參數效率遠高于之前的最先進的蛋白質語言模型。

//proceedings.mlr.press/v139/rao21a.html

付費5元查看完整內容

雖然預訓練語言模型(例如BERT)在不同的自然語言處理任務上取得了令人印象深刻的結果,但它們有大量的參數,并承受著巨大的計算和內存成本,這使得它們難以在現實世界中部署。因此,為了降低預訓練模型的計算和存儲成本,需要對模型進行壓縮。在這項工作中,我們的目標是壓縮BERT,并解決以下兩個具有挑戰性的實際問題: (1)壓縮算法應該能夠輸出多個不同大小和延遲的壓縮模型,以支持不同內存和延遲限制的設備;(2)算法應與下游任務無關,這樣壓縮模型一般適用于不同的下游任務。我們利用神經結構搜索(NAS)中的技術,提出了一種有效的BERT壓縮方法NAS-BERT。NAS-BERT在精心設計的搜索空間上訓練一個大型超級網絡,該搜索空間包含各種架構,并輸出具有自適應大小和延遲的多個壓縮模型。此外,NAS-BERT的訓練是在標準的自監督的訓練前任務(如掩體語言模型)上進行的,不依賴于特定的下游任務。因此,壓縮的模型可以跨任務使用。NAS-BERT的技術挑戰在于,在訓練前的任務上訓練一個大型超級網絡是極其昂貴的。我們采用了塊搜索、搜索空間剪枝和性能逼近等技術來提高搜索效率和準確性。對GLUE和SQuAD基準數據集的大量實驗表明,NAS-BERT可以找到比以前的方法更精確的輕量級模型,并可以直接應用于不同的下游任務,這些任務具有適應的模型規模,以滿足不同的內存或延遲需求。

//www.zhuanzhi.ai/paper/6f115ce6f43323f92838b15e0030f2a4

付費5元查看完整內容

由于線性空間和時間的復雜性,Transformer模型的最新進展允許前所未有的序列長度。同時,相對位置編碼(relative position encoding, RPE)被認為是一種利用滯后而不是絕對位置進行推理的方法。盡管如此,RPE還不能用于Transformer最近的線性變體,因為它需要顯式計算注意力矩陣,而這正是這些方法所避免的。在本文中,我們填補了這一缺口,并提出了隨機位置編碼作為生成PE的一種方法,該方法可以用來替代經典的加性(正弦)PE,并且可以證明其行為類似于RPE。其主要理論貢獻是將位置編碼與相關高斯過程的交叉協方差結構聯系起來。我們在Long-Range Arena基準測試和音樂生成上證明了我們的方法的性能。

//www.zhuanzhi.ai/paper/e42297b68bb088dc94c114e44992cea1

付費5元查看完整內容

圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。

//www.zhuanzhi.ai/paper/f415f74f0c50433285945af702223eaf

付費5元查看完整內容

通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。

付費5元查看完整內容

一次性神經架構搜索(NAS)通過權重共享顯著提高了計算效率。然而,這種方法也在超網絡訓練(架構搜索階段)中引入了多模型遺忘,在超網絡訓練中,當使用部分共享的權重順序訓練新架構時,之前架構的性能會下降。為了克服這種災難性遺忘,最先進的方法假設共享權值在聯合優化后驗概率時是最優的。然而,這種嚴格的假設在實踐中并不一定適用于一次性NAS。在本文中,我們將一次性NAS中的超網絡訓練描述為一個持續學習的約束優化問題,即當前架構的學習不應該降低以前架構的性能。提出了一種基于新搜索的結構選擇損失函數,并證明了在最大化所選約束的多樣性時,不需要嚴格的假設就可以計算后驗概率。設計了一種貪心查新方法,尋找最具代表性的子集,對超網絡訓練進行正則化。我們將我們提出的方法應用于兩個一次性的NAS基線,隨機抽樣NAS (RandomNAS)和基于梯度的抽樣NAS (GDAS)。大量的實驗證明,我們的方法提高了超級網絡在一次NAS中的預測能力,并在CIFAR-10、CIFAR-100和PTB上取得了顯著的效率。

付費5元查看完整內容
北京阿比特科技有限公司