亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

SparseBERT: Rethinking the Importance Analysis in Self-attention

作為Transformer中重要的結構,self-attention一直是研究的熱點。之前的工作往往是通過可視化預訓練好的Transformer模型來分析注意力矩陣中共同的模式,并基于此提出了一系列稀疏的注意掩碼。本文在預訓練時動態地研究了注意力矩陣地變化并重新思考了self-attention中位置的重要性。其中一個有趣的結論是注意力矩陣的對角線元素和其他位置相比是最不重要的。為了解釋這個現象,我們從通用近似定理的角度上證明了這些位置是可以被舍棄的。為了進一步降低self-attention的計算復雜度,我們提出可微分注意掩碼(DAM)算法,可以用于指導 SparseBERT的設計。

//www.zhuanzhi.ai/paper/2764524507c1fa4028fcaa8f4aea61a3

付費5元查看完整內容

相關內容

Transformer-based models are popularly used in natural language processing (NLP). Its core component, self-attention, has aroused widespread interest. To understand the self-attention mechanism, a direct method is to visualize the attention map of a pre-trained model. Based on the patterns observed, a series of efficient Transformers with different sparse attention masks have been proposed. From a theoretical perspective, universal approximability of Transformer-based models is also recently proved. However, the above understanding and analysis of self-attention is based on a pre-trained model. To rethink the importance analysis in self-attention, we study the significance of different positions in attention matrix during pre-training. A surprising result is that diagonal elements in the attention map are the least important compared with other attention positions. We provide a proof showing that these diagonal elements can indeed be removed without deteriorating model performance. Furthermore, we propose a Differentiable Attention Mask (DAM) algorithm, which further guides the design of the SparseBERT. Extensive experiments verify our interesting findings and illustrate the effect of the proposed algorithm.

回歸作為分類的對應,是一個具有廣泛應用的主要范式。域自適應回歸將回歸器從有標記的源域推廣到無標記的目標域。現有的區域適應回歸方法僅在淺層區取得了積極的結果。一個問題出現了:為什么在深層機制中學習不變表征不那么明顯?本文的一個重要發現是,分類對特征尺度具有魯棒性,而回歸則不具有魯棒性,對齊深度表示的分布會改變特征尺度,阻礙領域自適應回歸。基于這一發現,我們提出了通過表示空間的正交基來關閉域間隙,這是自由的特征縮放。受格拉斯曼流形的黎曼幾何啟發,我們定義了表示子空間上的幾何距離,并通過最小化它來學習深度可遷移表示。為了避免破壞深度表示的幾何性質,我們進一步引入了基不匹配懲罰來匹配正交基的排序跨表示子空間。我們的方法在三個領域自適應回歸基準上進行了評價,本文構建了其中兩個基準。我們的方法明顯優于最先進的方法。

//ise.thss.tsinghua.edu.cn/~mlong/doc/Representation-Subspace-Distance-for-Domain-Adaptation-Regression-icml21.pdf

付費5元查看完整內容

基于注意力的神經網絡已經在許多任務上取得了最先進的成果。這類模型大多采用確定性注意力,而隨機注意力由于優化困難或模型設計復雜,研究較少。本文介紹了貝葉斯注意力信念網絡,該網絡通過將非歸一化的注意力權值建立在伽馬分布的層次上來構造解碼器網絡,通過將具有確定性-向上-隨機-向下結構的Weibull分布疊加來近似后變分布來構造編碼器網絡。所得到的自編碼網絡可以以一種變分下界的可微方式進行優化。任何具有確定性注意力的模型,包括預訓練過的模型,都可以簡單地轉換為所提出的貝葉斯注意力信念網絡。在各種語言理解任務中,我們證明了我們的方法在準確性、不確定性估計、跨域泛化和對抗攻擊的魯棒性方面優于確定性注意和最新的隨機注意力。我們進一步證明了該方法在神經機器翻譯和視覺問答方面的普遍適用性,顯示了將該方法整合到各種注意力相關任務中的巨大潛力。

//www.zhuanzhi.ai/paper/0488b7f68e55c8ab23e726bc5b66d5f5

付費5元查看完整內容

現有的GNN解釋方法側重于解釋圖的節點或邊的重要性,但忽略了圖子結構。事實上子結構更直觀且容易被人理解。論文提出了一種通過識別重要的子圖來解釋GNNs 的方法,即 Subgraph X。給定一個經過訓練的GNN模型和一個輸入圖,Subgraph X 通過蒙特卡洛樹搜索有效地探索不同的子圖來解釋其預測。為了使樹搜索更加有效,論文提出使用 Shapley 值作為子圖重要性的衡量標準,這也可以捕捉到不同子圖之間的相互作用。為了加快計算速度,論文提出了高效的近似方案來計算圖數據的 Shapley 值。該論文是通過識別子圖來解釋 GNN 的第一次嘗試,實驗結果表明,Subgraph X 明顯改善了解釋結果,同時將計算量也相對合理。

先說說為啥要關注圖神經網絡的可解釋性?

現有的 GNN 模型大多被視為黑盒子,其預測結果缺乏可解釋性。如果不理解和推理預測背后的關系,這些模型就不能被人們理解信任,阻礙了它們在關鍵領域的應用,因此研究深度圖模型的可解釋性十分必要。

本文的提出的解釋方法的獨特性在于?

很多文獻在研究圖像和文本上的深度模型的解釋技術方面做了工作,這些方法可以通過不同的策略解釋網絡行為和特定輸入的預測結果。然而,GNN 的可解釋性仍未得到充分的探索。與圖像和文本不同,圖數據不是網格狀的數據,它包含重要的結構信息。因此,圖像和文本領域的方法不能直接應用。目前存在的GNN 解釋方法,如 GNNExplainer、PGExplainer 和 PGM-Explainer,但它都是關注節點、邊或節點特征層面的可解釋性,沒有進行子圖層面的可解釋性研究。本文認為子圖層面的解釋更加直觀和有用,因為子圖是復雜圖的簡單構件,與圖的功能高度相關。

付費5元查看完整內容

圖神經網絡(GNN)中缺乏各向異性核極大地限制了其表達能力,導致了一些眾所周知的問題,如過度平滑。為了克服這個限制,我們提出了第一個全局一致的各向異性核GNN,允許根據拓撲導出的方向流定義圖卷積。首先,通過在圖中定義矢量場,我們提出了一種方法應用方向導數和平滑投影節點特定的信息到場。然后,我們提出用拉普拉斯特征向量作為這種向量場。在Weisfeiler-Lehman 1-WL檢驗方面,我們證明了該方法可以在n維網格上泛化CNN,并證明比標準的GNN更有分辨力。我們在不同的標準基準上評估了我們的方法,發現在CIFAR10圖數據集上相對誤差減少了8%,在分子鋅數據集上相對誤差減少了11%到32%,在MolPCBA數據集上相對精度提高了1.6%。這項工作的重要成果是,它使圖網能夠以一種無監督的方式嵌入方向,從而能夠更好地表示不同物理或生物問題中的各向異性特征。

//www.zhuanzhi.ai/paper/f415f74f0c50433285945af702223eaf

付費5元查看完整內容

本文是對我們CVPR 2021被接收的文章 Involution: Inverting the Inherence of Convolution for Visual Recognition的介紹,同時也分享一些我們對網絡結構設計(CNN和Transformer)的理解。

概要 我們的貢獻點簡單來講:

(1)提出了一種新的神經網絡算子(operator或op)稱為involution,它比convolution更輕量更高效,形式上比self-attention更加簡潔,可以用在各種視覺任務的模型上取得精度和效率的雙重提升。

(2)通過involution的結構設計,我們能夠以統一的視角來理解經典的卷積操作和近來流行的自注意力操作。

付費5元查看完整內容

從理解到改進:序列到序列建模中的編碼器特征融合

Understanding and Improving Encoder Layer Fusion in Sequence-to-Sequence Learning

本文由騰訊AI Lab主導,與澳門大學、悉尼大學合作完成。編碼器特征融合(EncoderFusion)是提升序列到序列建模中的經典技術之一。盡管其有效性已在各種自然語言處理(NLP)任務上得到的驗證,但其原理及規律并沒有被深入探究。

本文首先提出了細粒度層注意力模型來量化編碼器每一層特征的貢獻度,并在多個NLP任務(機器翻譯、語法糾錯、文本摘要)上進行分析,從而進一步理解EncoderFusion的本質。前人工作認為EncoderFusion主要利用嵌在編碼器底層的詞法和語法信息,而我們發現編碼器詞嵌入層比其他中間層更重要,并且始終受到解碼器最上層的關注。基于該發現,我們提出了一種簡單直接的融合方法,即只融合編碼器詞嵌入層到解碼器輸出層。

實驗結果表明,該方法在多種序列建模任務上都優于已有融合方法,并使翻譯任務在WMT16羅英和WMT14英法數據集上取得SOTA性能。分析進一步表明,SurfaceFusion能幫助模型學到更具表現力的雙語詞嵌入。該工作對編碼器特征融合的改進和使用有較強啟發和指導意義。

付費5元查看完整內容
北京阿比特科技有限公司