Conformer已被證明在許多語音處理任務中是有效的。它結合了使用卷積提取局部依賴項和使用自注意力提取全局依賴項的優點。受此啟發,我們提出了一種更靈活、可解釋和可定制的編碼器備選方案——Branchformer,它具有并行分支,用于建模端到端語音處理中的各種范圍依賴性。在每個編碼器層中,一個分支使用自注意力或其變體來捕獲遠程依賴,而另一個分支使用帶有卷積門控(cgMLP)的MLP模塊來提取局部關系。我們對幾個語音識別和口語理解基準進行了實驗。結果表明,該模型的性能優于Transformer和cgMLP。它還匹配或優于Conformer取得的最先進的結果。此外,我們展示了多種策略來減少計算,這得益于雙分支架構,包括在單個訓練模型中具有可變推理復雜性的能力。為合并分支學習的權重表明如何在不同層中利用局部和全局依賴關系,這有利于模型設計。
自注意力機制利用所有輸入標記之間的成對注意力對長上下文進行建模。在此過程中,他們假設單個標記(例如,文本字符或圖像像素)定義了固定的注意力粒度,這對于在更高級別上建模復雜依賴關系可能不是最優的。在本文中,我們提出了ContextPool,通過調整每個標記的注意粒度來解決這個問題。受ConvNets成功結合池化來捕獲遠程依賴的啟發,我們學會了在給定的注意力層中計算注意力之前,為每個令牌池化鄰近的特性。池權和支持大小是自適應確定的,允許池特性以不同的規模編碼有意義的上下文。我們表明,ContextPool使注意力模型更具表現力,通常用更少的層實現強大的性能,從而顯著降低成本。實驗驗證,當我們的ContextPool模塊插入transformer 模型時,在幾種語言和圖像基準上使用較少的計算,匹配或超過了最先進的性能,在學習上下文大小或稀疏注意力模式方面優于最近的工作,也適用于ConvNets的高效特征學習。
Lipschitz Normalization for Self-Attention Layers with Application to Graph Neural Networks
基于注意力的神經網絡在許多應用中都達到最優的效果。然而當層數增加時,它們的性能趨于下降。在這項研究工作中,我們發現通過標準化注意力得分來加強Lipschitz連續性,可以顯著改善深度注意力模型的性能。首先,我們的發現深度圖注意力網絡(GAT)在訓練過程中會出現梯度爆炸問題,從而導致基于梯度的訓練算法的性能表現較差。為解決該問題,我們分析了注意力模塊的Lipschitz連續性,據此引入了LipschitzNorm算子。自在注意力機制中,LipschitzNorm是一種的簡單高效的非參數歸一化方法,可以確保模型的Lipschitz連續性。我們將LipschitzNorm應用于GAT和GraphTransformers,發現深度圖模型(10到30層)的性能得到了顯著提高。我們的實驗顯示,當節點間存在遠程交互時,使用LipschitzNorm的深層GAT模型在節點標簽預測任務中達到了當前最高水平。此外,在基準節點分類任務中,我們的方案也顯示了與未歸類的同類算法一致的提升效果。
在多標簽文本分類(MLTC)中,一個樣本可以屬于多個類。可以看出,在大多數MLTC任務中,標簽之間存在依賴關系或相互關系。現有的方法往往忽略了標簽之間的關系。本文提出了一種基于圖的注意力網絡模型來捕獲標簽間的注意依賴結構。圖注意力網絡使用一個特征矩陣和一個相關矩陣來捕獲和探索標簽之間的關鍵依賴關系,并為任務生成分類器。將生成的分類器應用于文本特征提取網絡(BiLSTM)獲得的句子特征向量,實現端到端訓練。注意力允許系統為每個標簽分配不同的權值給相鄰節點,從而允許系統隱式地學習標簽之間的依賴關系。在5個實際的MLTC數據集上驗證了模型的結果。與以往的先進模型相比,該模型具有相似或更好的性能。
題目:Capsules with Inverted Dot-Product Attention Routing
摘要:我們設計了一種新的膠囊網絡路由算法,其中低層膠囊僅根據高層的狀態和低層的投票之間的協議路由到高層。新機制1)設計反向路由點積注意力;2) 強制層規范化作為規范化;和 3)將順序迭代路由替換為并發迭代路由。與之前提出的路由算法相比,我們的方法提高了基準數據集(如 CIFAR-10 和 CIFAR-100)的性能,并且其性能與功能強大的 CNN (ResNet-18) 相同,參數減少了 4 倍。在從疊加數字圖像中識別數字的任務中,提出的的膠囊模型在給定每層相同數量的層和神經元的情況下,對比 CNN 具有優異的性能。我們認為,我們的工作提高了將膠囊網絡應用于復雜的實際任務的可能性。 地址://arxiv.org/pdf/2002.04764.pdf
代碼: