亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

Vision Transformer (ViT) 顯示了在各種視覺任務上的巨大潛力,因為它能夠模擬長距離的依賴關系。但是,ViT 需要大量的計算資源來計算全局自注意力。在這項工作中,我們提出了一個帶有多個分支的梯形自注意力塊和一個逐步位移機制,以開發一個需要較少計算資源的輕量級變換器骨架,名為 Progressive Shift Ladder Transformer (PSLT)。首先,梯形自注意力塊通過在每個分支中模擬局部自注意力來減少計算成本。與此同時,提出了逐步位移機制,通過為每個分支模擬各種局部自注意力并在這些分支之間互動,來擴大梯形自注意力塊中的接受場。其次,梯形自注意力塊的輸入特征為每個分支沿通道維度均分,這大大降低了梯形自注意力塊中的計算成本(參數和FLOPs的數量幾乎是原來的1/3),然后這些分支的輸出通過像素自適應融合進行合作。因此,帶有相對較少參數和FLOPs的梯形自注意力塊能夠模擬長距離交互。基于梯形自注意力塊,PSLT在幾個視覺任務上表現良好,包括圖像分類、目標檢測和人員重新識別。在ImageNet-1k數據集上,PSLT的top-1精度為79.9%,參數為9.2M,FLOPs為1.9G,這與多個現有的參數超過20M和4G FLOPs的模型相當。代碼可在 //isee-ai.cn/wugaojie/PSLT.html 上獲得。

付費5元查看完整內容

相關內容

作為視覺transformer的核心構建模塊,注意力是捕捉長程依賴關系的強大工具。然而,這種能力是有代價的:它會帶來巨大的計算負擔和內存占用,因為要計算所有空間位置上的成對token交互。一系列工作試圖通過將手工制作的和內容無關的稀疏性引入注意力來緩解這個問題,例如將注意力操作限制在局部窗口、軸向條紋或膨脹窗口內。與這些方法相比,本文提出了一種新的通過雙層路由的動態稀疏注意力,以實現具有內容感知的更靈活的計算分配。具體來說,對于一個查詢,首先在粗粒度的區域級別上過濾掉不相關的鍵值對,然后在剩余的候選區域(即路由區域)中應用細粒度的token-to-token attention。本文提供了所提出的雙層路由注意力的一個簡單而有效的實現,利用稀疏性來節省計算和內存,同時只涉及GPU友好的密集矩陣乘法。用所提出的雙層路由注意力建立了一個新的通用視覺transformer,稱為BiFormer。由于BiFormer以查詢自適應的方式關注一小部分相關標記,而不會分散其他不相關標記的注意力,因此它具有良好的性能和較高的計算效率,特別是在密集預測任務中。在圖像分類、目標檢測和語義分割等計算機視覺任務中的經驗結果驗證了所設計的有效性。代碼可以在//github.com/rayleizhu/BiFormer上找到。

付費5元查看完整內容

人們可以利用以前的經驗,并從少量的演示中學習新的任務。與旨在通過更好的算法設計實現快速適應的離線元強化學習相比,我們研究了架構誘導偏差對少樣本學習能力的影響。我們提出了一種基于提示的決策Transformer (Prompt- DT),它利用了Transformer體系結構和提示框架的順序建模能力,實現離線RL中的少樣本適應。我們設計了軌跡提示,其中包含了幾個樣本的演示片段,并編碼了特定任務的信息來指導策略的生成。我們在5個MuJoCo控制基準測試中的實驗表明,Prompt-DT是一個強大的少樣本學習器,無需對看不見的目標任務進行任何額外的微調。Prompt-D比它的變體和強元離線RL基線有很大的優勢,它的軌跡提示只包含幾個時間步。Prompt-D對于提示長度的更改也很穩健,并且可以泛化到分布外(OOD)環境。項目頁面://mxu34.github.io/PromptDT/。

付費5元查看完整內容

在不依賴下游任務的情況下評估已學習表示的質量仍然是表示學習的挑戰之一。在這項工作中,我們提出了幾何成分分析(GeomCA)算法,基于其幾何和拓撲性質評估表示空間。GeomCA可以應用于任何維度的表示,獨立于生成它們的模型。我們通過分析從各種場景中獲得的表示,如對比學習模型、生成模型和監督學習模型,證明了它的適用性。

//www.zhuanzhi.ai/paper/efa6de0f034d485bbb30b2a45947ea18

付費5元查看完整內容

多標簽圖像識別是一項具有挑戰性的實用計算機視覺任務。然而,該領域的進展往往具有方法復雜、計算量大、缺乏直觀解釋的特點。為了有效地捕捉來自不同類別的對象所占據的不同空間區域,我們提出了一個非常簡單的模塊,稱為類特定的殘差注意力(CSRA)。CSRA 通過提出一個簡單的空間注意力分數為每個類別生成特定于類的特征,然后將其與與類別無關的平均池化特征相結合。CSRA 在多標簽識別上取得了 state-of-the-art 的結果,同時比它們簡單得多。此外,僅用 4 行代碼,CSRA 還可以在許多不同的預訓練模型和數據集上實現一致的改進,而無需任何額外的訓練。CSRA 既易于實現又易于計算,還具有直觀的解釋和可視化。

//www.zhuanzhi.ai/paper/8f84476df0173f68ac402363bc8ffff9

付費5元查看完整內容

我們提出了圖神經擴散(GRAND),它將圖的深度學習視為一個連續的擴散過程,并將圖神經網絡(GNN)視為一個潛在的PDE的離散化。在我們的模型中,層結構和拓撲對應于時間和空間算子的離散化選擇。我們的方法允許有原則地開發一大類新的GNN,這些GNN能夠解決圖學習模型的常見困境,如深度、過平滑和瓶頸。我們的模型成功的關鍵是相對于數據攝動的穩定性,這在隱式和顯式離散化方案中都得到了解決。我們開發了線性和非線性版本的GRAND,在許多標準圖基準上實現了有競爭性的結果。

//proceedings.mlr.press/v139/chamberlain21a/chamberlain21a.pdf

付費5元查看完整內容

我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。

付費5元查看完整內容

圖的深度學習方法在許多節點級和圖級預測任務中都取得了顯著的效果。然而,盡管這些方法大量涌現并取得了成功,但主流的圖神經網絡(GNNs)忽略了子圖,使得子圖預測任務在許多有影響的應用中難以處理。此外,子圖預測任務提出了幾個獨特的挑戰,因為子圖可以有非平凡的內部拓撲,但也攜帶了相對于其存在的底層圖的位置和外部連接信息的概念。在這里,我們介紹了子GNN,一種學習解糾纏子圖表示的子圖神經網絡。特別是,我們提出了一種新的子圖路由機制,它在子圖的組件和隨機抽樣的基礎圖錨塊之間傳播神經信息,從而產生高度精確的子圖表示。SUB-GNN指定了三個通道,每個通道都設計用于捕獲子圖結構的不同方面,我們提供了經驗證據證明這些通道編碼了它們預期的屬性。我們設計了一系列新的合成的和真實的子圖數據集。對8個數據集進行子圖分類的實證結果表明,子GNN實現了可觀的性能提升,比最強的baseline方法(包括節點級和圖級gnn)的性能高出12.4%。當子圖具有復雜的拓撲結構,甚至包含多個斷開連接的組件時,子GNN在具有挑戰性的生物醫學數據集上表現得非常好。

//www.zhuanzhi.ai/paper/9c11ef35cfb6b6a3ac7f8d547b9b59e6

付費5元查看完整內容

圖神經網絡通過聚合和結合鄰居信息來學習節點特征,在許多圖的任務中取得了良好的性能。然而,GNN大多被視為黑盒,缺乏人類可理解的解釋。因此,如果不能解釋GNN模型,就不能完全信任它們并在某些應用程序域中使用它們。在這項工作中,我們提出了一種新的方法,稱為XGNN,在模型級別上解釋GNN。我們的方法可以為GNNs的工作方式提供高層次的見解和一般性的理解。特別地,我們提出通過訓練一個圖生成器來解釋GNN,使生成的圖模式最大化模型的某種預測。我們將圖形生成表述為一個強化學習任務,其中對于每一步,圖形生成器預測如何向當前圖形中添加一條邊。基于訓練后的GNN信息,采用策略梯度方法對圖生成器進行訓練。此外,我們還加入了一些圖規則,以促使生成的圖是有效的。在合成和真實數據集上的實驗結果表明,我們提出的方法有助于理解和驗證訓練過的GNN。此外,我們的實驗結果表明,所生成的圖可以為如何改進訓練的神經網絡提供指導。

概述

圖神經網絡(GNNs)在不同的圖任務(如節點分類[11,37]、圖分類[39,47]和鏈接預測[46])上顯示了其有效性并取得了最新的性能。此外,對不同的圖運算進行了大量的研究,如圖卷積[13,16,19]、圖池化[20,44]、圖注意力[10,36,37]。由于圖數據廣泛存在于不同的真實世界應用程序中,如社交網絡、化學和生物學,GNN變得越來越重要和有用。盡管它們的性能很好,GNNs也有和其他深度學習模型一樣的缺點;也就是說,它們通常被視為黑盒子,缺乏人類理解的解釋。如果不理解和驗證內部工作機制,就不能完全信任GNNs,這就阻礙了它們在涉及公平、隱私和安全的關鍵應用程序中的使用[7,40]。例如,我們可以訓練一個GNN模型來預測藥物的效果,我們將每種藥物視為一個分子圖。如果不探索其工作機理,我們就不知道分子圖中是什么化學基團導致了這些預測。那么我們就無法驗證GNN模型的規則是否與真實世界的化學規則一致,因此我們不能完全信任GNN模型。這就增加了開發GNN解釋技術的需要。

最近,人們提出了幾種解釋技術來解釋圖像和文本數據的深度學習模型。根據所提供的解釋的類型,現有的技術可以歸類為實例級[5,9,29,31,32,43,45,48]或模型級[8,24,25]方法。實例級解釋通過模型確定輸入中的重要特征或該輸入的決策過程來解釋對給定輸入示例的預測。這類常用技術包括基于梯度的方法[31,32,43]、中間特征圖可視化[29,48]和基于遮擋的方法[5,9,45]。與提供依賴于輸入的解釋不同,模型級別的解釋旨在通過研究哪些輸入模式可以導致某種預測來解釋模型的一般行為,而不考慮任何特定的輸入示例。輸入優化[8,24 - 26]是最常用的模型級解釋方法。這兩類解釋方法旨在從不同的角度解釋深層模型。由于解釋的最終目的是驗證和理解深度模型,我們需要手動檢查解釋結果,并得出深度模型是否按我們預期的方式工作的結論。對于示例級方法,我們可能需要探究大量示例的解釋,然后才能相信模型。然而,這需要時間和專家的廣泛努力。對于模型級方法,其解釋更加普遍和高級,因此需要較少的人力監督。然而,與實例級的解釋相比,模型級方法的解釋不那么精確。總的來說,模型級和實例級方法對于解釋和理解深度模型都很重要。

在圖數據上解釋深度學習模型變得越來越重要,但仍缺乏探索。就我們所知,目前還沒有在模型級解釋GNN的研究。現有研究[4,40]僅對圖模型提供了實例層次的解釋。作為對現有工作的徹底背離,我們提出了一種新的解釋技術,稱為XGNN,用于在模型級別上解釋深層圖模型。我們提出研究什么樣的圖模式可以最大化某個預測。具體地說,我們提出訓練一個圖生成器,以便生成的圖模式可以用來解釋深度圖模型。我們把它表示為一個強化學習問題,在每一步,圖生成器預測如何添加一條邊到給定的圖和形成一個新的圖。然后根據已訓練圖模型的反饋,使用策略梯度[35]對生成器進行訓練。我們還加入了一些圖規則,以鼓勵生成的圖是有效的。注意,XGNN框架中的圖生成部分可以推廣到任何合適的圖生成方法,這些方法由手邊的數據集和要解釋的GNN決定。最后,我們在真實數據集和合成數據集上訓練了GNN模型,取得了良好的性能。然后我們使用我們提出的XGNN來解釋這些訓練過的模型。實驗結果表明,我們提出的XGNN可以找到所需的圖模式,并解釋了這些模型。通過生成的圖形模式,我們可以驗證、理解甚至改進經過訓練的GNN模型。

付費5元查看完整內容

Transformers 在自然語言處理(NLP)任務中是普遍存在的,但由于計算量大,很難部署到硬件上。為了在資源受限的硬件平臺上實現低延遲推理,我們提出使用神經架構搜索設計硬件感知轉換器(HAT)。我們首先構造了一個具有任意編碼-解碼器關注和異構層的大設計空間。然后我們訓練一個超級Transformers,它能覆蓋設計空間中的所有候選Transformers ,并有效地產生許多具有重量共享的次級Transformers。最后,我們執行帶有硬件延遲約束的進化搜索,以找到專用于在目標硬件上快速運行的專用子轉換器。對四種機器翻譯任務的大量實驗表明,HAT可以發現不同硬件(CPU、GPU、IoT設備)的有效模型。在Raspberry Pi-4上運行WMT’14翻譯任務時,HAT可以實現3×加速,3.7×比基準Transformer小;2.7×加速,比進化后的Transformer小3.6倍,搜索成本低12,041倍,沒有性能損失。

付費5元查看完整內容

小樣本學習是計算機視覺中的一項基本任務,它帶來了減輕對詳盡標記數據需求的希望。到目前為止,大多數小樣本學習方法都集中在日益復雜的神經特征提取器和分類器適應策略,以及任務定義本身的細化。在這篇論文中,我們探討了一個假設,即一個簡單的基于類協方差的距離度量,即馬氏距離,被采用到一個最先進的小樣本學習方法(CNAPS)中,它本身可以導致顯著的性能改進。我們還發現,學習自適應特征提取器是可能的,它允許從非常少的樣本中對該度量所需的高維特征協方差進行有用的估計。我們的工作結果是一個新的“簡單的CNAPS”架構,它比CNAPS少了9.2%的可訓練參數,并且在標準的小樣本圖像分類基準數據集上比現有的技術水平高了6.1%。

付費5元查看完整內容
北京阿比特科技有限公司