亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文提出6個用于Siamese目標跟蹤的新匹配算子,基于Ocean進行改進,表現SOTA!性能優于KYS、SiamBAN等網絡,速度高達50 FPS!代碼即將開源!

跟蹤近年來取得了突破性的性能,其本質是高效匹配算子互相關及其變體。除了顯著的成功之外,重要的是要注意啟發式匹配網絡設計在很大程度上依賴于專家經驗。此外,我們通過實驗發現,在所有具有挑戰性的環境中,一個唯一的匹配算子很難保證穩定跟蹤。因此,在這項工作中,我們從特征融合的角度而不是顯式相似性學習的角度引入了六種新穎的匹配算子,即串聯、逐點加法、成對關系、FiLM、簡單Transformer和轉導引導,以探索更多的可行性匹配運算符選擇。分析揭示了這些算子對不同環境退化類型的選擇性適應性,這激勵我們將它們結合起來探索互補的特征。為此,我們提出二進制通道操作(BCM)來搜索這些算子的最佳組合。BCM 通過學習其對其他跟蹤步驟的貢獻來決定重新訓練或丟棄一個算子。通過將學習到的匹配網絡插入到強大的基線跟蹤器 Ocean 中,我們的模型在 OTB100、LaSOT 和 TrackingNet 上分別獲得了 67.2→71.4、52.6→58.3、70.3→76.0 的有利增益。值得注意的是,我們的跟蹤器稱為 AutoMatch,使用的訓練數據/時間比基線跟蹤器少一半,并且使用 PyTorch 以 50 FPS 運行。

//www.zhuanzhi.ai/paper/d9f8991dc443b0e2626a5478daf291c8

付費5元查看完整內容

相關內容

標跟蹤是指:給出目標在跟蹤視頻第一幀中的初始狀態(如位置,尺寸),自動估計目標物體在后續幀中的狀態。 目標跟蹤分為單目標跟蹤和多目標跟蹤。 人眼可以比較輕松的在一段時間內跟住某個特定目標。但是對機器而言,這一任務并不簡單,尤其是跟蹤過程中會出現目標發生劇烈形變、被其他目標遮擋或出現相似物體干擾等等各種復雜的情況。過去幾十年以來,目標跟蹤的研究取得了長足的發展,尤其是各種機器學習算法被引入以來,目標跟蹤算法呈現百花齊放的態勢。2013年以來,深度學習方法開始在目標跟蹤領域展露頭腳,并逐漸在性能上超越傳統方法,取得巨大的突破。

知識薈萃

精品入門和進階教程、論文和代碼整理等

更多

查看相關VIP內容、論文、資訊等

群體行為識別 (GAR) 是人物行為識別的一個子問題,群體行為由人物的個人行為和人物之間的交互組成,該任務旨在推斷場景中人物群體的整體行為標簽。GAR有著豐富的應用場景,包括監控視頻分析、體育視頻解析、社交場景理解等。GAR的關鍵問題是在給定視頻片段的情況下,結合時空交互因素來獲得精細的行為特征表示。

最近提出的推理模塊主要結合時空交互因素來獲得精細的活動表示,最常用的方法主要結合循環神經網絡、注意力機制和圖神經網絡 (GNN)。GNN是GAR中經常采用的方法,GNN在構建的語義圖上執行消息傳遞,并在公開數據集的測試中取得了有競爭力的結果。然而,以前使用GNN的方法只在預定義的圖形上對個人之間的交互進行建模,但是存在以下缺點:

  1. 對于給定人的交互模式是預先定義的而不是基于目標人的視覺時空上下文,預定義的圖推理不適用于所有人的特征更新;

  2. 預定義全連接或者交叉連接的圖模型很容易導致過度平滑,使特征無法區分并降低性能。

此外,如果擴展到長視頻片段或擴展到有很多人的場景,計算開銷會顯著上漲。

為了解決以上問題,受[1,2]啟發,我們提出了動態推理網絡 (DIN),其中包含動態關系 (DR) 和動態游走 (DW) 兩個模塊。這兩個模塊組合可以用于預測人物各異的交互圖,以便更好地建模交互,如上圖所示。對于時空圖上的給定人物特征,本文首先定義其時空鄰居為時空交互域,該交互域在DR和DW之間共享。

該交互域的大小不會受到空間或時間擴展的影響,從而減少計算。在這個初始化的交互域中,我們使用 DR 來預測一個中心特征的關系矩陣,表示人與人之間的交互關系。然后,為了對長時期的時間和空間依賴性建模,我們使用 DW 來預測域內每個特征的動態游走偏移,動態游走允許局部初始化的交互域可以在全局的時空圖上更新特征。DR和DW實現簡單,很容易部署到任何廣泛使用的主干網絡上,我們把這整個時空推理框架稱為DIN。

此外,以前的方法很少進行計算復雜度分析,但這是對設計模塊的重要評估,因此本文進行了計算復雜性分析,并表明提出的模塊在效果更好的同時,計算開銷更低。

付費5元查看完整內容

貝葉斯范式有潛力解決深度神經網絡的核心問題,如校準差和數據效率低。唉,將貝葉斯推理擴展到大權重空間通常需要限制性的近似。在這項工作中,我們證明,為了獲得準確的預測后驗,對模型權重的一個小子集進行推理是足夠的。其他權重保留為點估計值。這個子網絡推理框架使我們能夠在這些子集上使用表達性的,否則難以處理的后驗近似。特別地,我們將子網絡線性化拉普拉斯作為一種簡單的、可擴展的貝葉斯深度學習方法來實現:我們首先獲得所有權重的MAP估計,然后使用線性化拉普拉斯近似來推斷子網絡上的全協方差高斯后程。我們提出了一種子網絡選擇策略,旨在最大限度地保持模型的預測不確定性。

付費5元查看完整內容

本文將歸納式和直推式學習整合到一個統一的框架中,以利用它們之間的互補性來進行準確和穩健的視頻目標分割,并引入Transformer,性能優于CFBI、LWL等網絡,代碼即將開源!

半監督視頻目標分割是在第一幀中僅給定mask注釋的視頻序列中分割目標對象的任務。有限的可用信息使其成為一項極具挑戰性的任務。大多數以前表現最好的方法都采用基于匹配的轉導推理或在線歸納學習。然而,它們要么對類似實例的區分度較低,要么在時空信息的利用上不足。在這項工作中,我們提出將歸納式和直推式學習整合到一個統一的框架中,以利用它們之間的互補性來進行準確和穩健的視頻目標分割。所提出的方法由兩個功能分支組成。transduction 分支采用輕量級的 Transformer 架構來聚合豐富的時空線索,而 Induction 分支執行在線歸納學習以獲得有判別力的目標信息。為了橋接這兩個不同的分支,引入了一個雙頭標簽編碼器來為每個分支學習合適的目標先驗。生成的mask編碼被進一步強制解開以更好地保持它們的互補性。對幾個流行基準的大量實驗表明,在不需要合成訓練數據的情況下,所提出的方法創造了一系列新的最先進記錄。

//www.zhuanzhi.ai/paper/cbb0d1901d6cfb8732e85702ec95a399

付費5元查看完整內容

論文標題:Rank & Sort Loss for Object Detection and Instance Segmentation

論文鏈接://arxiv.org/abs/2107.11669

代碼鏈接:

漲點神器!RS Loss:新損失函數!可助力現有目標檢測和實例分割網絡漲點,如應用于Cascade R-CNN、SOLOv2等,優于QFL、AP和Focal Loss等損失,代碼剛剛開源!

本文提出 Rank & Sort (RS) Loss,作為基于ranking的損失函數來訓練深度目標檢測和實例分割方法(即視覺檢測器)。RS Loss 監督分類器,這些方法的一個子網絡,將每個positive 排名高于所有負面,并根據(wrt.)它們的連續定位質量(例如 Intersection-over-Union - IoU)對它們之間的positive 進行排序.為了解決排序和排序的不可區分性,我們重新制定了錯誤驅動更新與反向傳播的結合作為身份更新,這使我們能夠對正樣本中的新排序錯誤進行建模。使用 RS 損失,我們顯著簡化了訓練:(i)由于我們的排序目標,分類器優先考慮正數,而無需額外的輔助頭(例如,對于中心度、IoU、mask-IoU),(ii)由于其排名 -基于性質,RS 損失對類不平衡具有魯棒性,因此,不需要采樣啟發式,并且(iii)我們使用無調整任務平衡系數來解決視覺檢測器的多任務性質。使用 RS 損失,我們僅通過調整學習率來訓練七個不同的視覺檢測器,并表明它始終優于基線:例如我們的 RS 損失在 COCO 數據集上將 (i) Faster R-CNN 提高了約 3 個框 AP 和 aLRP 損失(基于排名的基線)提高了約 2 個框 AP,(ii)具有重復因子采樣(RFS)的 Mask R-CNN 提高了 3.5 LVIS 數據集上的掩碼 AP(稀有類約為 7 個 AP);并且也優于所有同行。

付費5元查看完整內容

基于Template的判別式跟蹤器由于其魯棒性和準確性而成為當前的主要跟蹤方法,而基于Siamese網絡的方法(依賴于從模板和搜索圖像中提取的特征之間的互相關操作)顯示了最新技術的跟蹤效果。但是,一般的互相關運算只能獲得兩個特征圖中的local patches之間的關系。在本文中,我們提出了一種基于強大的注意力機制的新穎跟蹤器網絡,該機制稱為Transformer編碼器-解碼器體系結構,以獲得全局和豐富的上下文相互依賴關系。在這種新架構中,模板圖像的特征由編碼器部分中的自注意力模塊處理,以學習強大的上下文信息,然后將其發送到解碼器部分,以計算與另一自我處理的搜索圖像特征之間的交叉注意力模塊。另外,我們使用Transformer的輸出來設計分類和回歸頭,以基于不可知形狀的錨來定位目標。我們在VOT2018,VOT2019,OTB-100,UAV,NfS,TrackingNet和LaSOT基準測試上對跟蹤器TrTr進行了廣泛的評估,并且我們的方法相對于最新算法表現良好。

付費5元查看完整內容

本文提出一種Transformer輔助跟蹤框架,可與判別式跟蹤器結合(如組成:TrDiMP),表現SOTA!性能優于SiamRPN++等,代碼剛剛開源!

在視頻目標跟蹤中,連續幀之間存在豐富的時間上下文,在現有的跟蹤器中已大大忽略了這些上下文。在這項工作中,我們橋接單個視頻幀,并通過一個用于穩固對象跟蹤的Transformer架構探索跨它們的時間上下文。與在自然語言處理任務中使用轉換器的經典用法不同,我們將其編碼器和解碼器分為兩個并行分支,并在類似于Siamese的跟蹤pipeline中精心設計它們。Transformer編碼器通過基于注意力的特征增強來促進目標模板,這有利于高質量跟蹤模型的生成。Transformer解碼器將跟蹤提示從先前的模板傳播到當前幀,從而簡化了對象搜索過程。我們的Transformer輔助跟蹤框架整潔并以端到端的方式進行了訓練。使用提出的Transformer,一種簡單的連體匹配方法就可以勝過當前表現最佳的跟蹤器。通過將我們的Transformer與最新的判別式跟蹤pipeline相結合,我們的方法在流行的跟蹤基準上創下了一些新的最新記錄。

//www.zhuanzhi.ai/paper/c862787c6e21054a17ed51c178372f5e

付費5元查看完整內容

//www.zhuanzhi.ai/paper/19590a2a40a84addde18b8a37112c3fc

關于概念及其屬性的常識知識(CSK)對于人工智能應用程序(如健壯的聊天機器人)是有用的。以前的作品,如ConceptNet、TupleKB和其他一些人編譯了大量的CSK集合,但它們在表達上受到限制,只包含了S的簡單概念和P和o的單一字符串的主語-謂語-賓語(SPO)三元組。此外,這些項目要么優先考慮精度,要么優先考慮回憶,但很難協調這些互補的目標。本文提出了一種自動構建大規模CSK斷言知識庫的方法——Ascent,該方法具有更高的表達能力,同時具有比以往的研究更好的查全率和查全率。Ascent通過捕獲帶有子組和方面的復合概念,以及使用語義方面精煉斷言,從而超越了三元組。后者對于表示斷言和進一步限定符的時間和空間有效性很重要。Ascent使用語言模型將開放信息提取相結合。內部評估顯示了提升Ascent KB知識庫的卓越大小和質量。

付費5元查看完整內容

無監督域自適應(UDA)是在給定源域上有標記數據的情況下,對目標域上的無標記數據進行預測。主流的UDA方法學習這兩個域之間的對齊特征,這樣一個訓練在源特征上的分類器可以很容易地應用到目標特征上。但是,這種轉移策略有可能破壞目標數據的內在辨別能力。為了緩解這種風險,我們基于結構域相似度的假設,提出通過對目標數據進行判別聚類,直接發現目標的內在歧視。我們利用基于結構域相似性的結構源正則化約束聚類解。在技術上,我們使用了一個靈活的基于判別聚類的深度網絡框架,使網絡的預測標簽分布與引入的輔助標簽分布之間的KL分歧最小化;用源數據的基真標簽形成的輔助分布代替輔助分布,通過簡單的聯合網絡訓練策略實現了結構源的正則化。我們將提出的方法稱為結構正則化深度聚類(SRDC),其中我們還使用中間網絡特征的聚類來增強目標識別,并使用較少發散的源實例的軟選擇來增強結構正則化。仔細的消融研究顯示了我們提出的SRDC的療效。值得注意的是,在沒有顯式域對齊的情況下,SRDC在三個UDA基準上的性能優于所有現有方法。

付費5元查看完整內容
北京阿比特科技有限公司