亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

本文介紹了一種綜合任務——少樣本分類與分割(FS-CS),該任務的目的是在給出目標類的情況下,對查詢圖像中的目標對象進行分類和分割。該任務結合了兩個傳統的少樣本學習問題:少樣本分類和分割。FS-CS將它們推廣到具有任意圖像對的更真實的事件中,其中每個目標類可能出現在查詢中,也可能不出現。為了解決這一問題,我們提出了FS-CS的整合少樣本學習(iFSL)框架,該框架訓練學習者構建類方向的前景圖,用于多標簽分類和像素方向的分割。我們還開發了一種有效的iFSL模型——注意力擠壓網絡(ASNet),該模型利用深度語義相關性和全局自注意力來生成可靠的前景圖。在實驗中,該方法在FS-CS任務中表現出了良好的性能,并在標準的少樣本分割基準上達到了目前的水平。

付費5元查看完整內容

相關內容

在對新類進行訓練時,少樣本學習(FSL)方法通常假設具有準確標記樣本的干凈支持集。這種假設通常是不現實的: 支持集,無論多小,仍然可能包括錯誤標記的樣本。因此,對標簽噪聲的魯棒性對于FSL方法的實用性是至關重要的,但令人驚訝的是,這個問題在很大程度上仍然沒有被探索。為了解決FSL設置中標簽錯誤的樣品,我們做了一些技術貢獻。(1)我們提供簡單而有效的特征聚合方法,改進了ProtoNet(一種流行的FSL技術)所使用的原型。(2)我們描述了一種新的Transformer 模型用于有噪聲的少樣本學習(TraNFS)。TraNFS利用Transformer的注意力機制來權衡標簽錯誤和正確的樣本。(3)最后,我們在噪聲版本的MiniImageNet和TieredImageNet上對這些方法進行了廣泛的測試。我們的結果表明,在干凈的支持集上,TraNFS與領先的FSL方法相當,但到目前為止,在存在標簽噪聲的情況下,TraNFS的性能優于FSL方法。

//www.zhuanzhi.ai/paper/3344a6f7145677357d0fa217987a4502

付費5元查看完整內容

無監督域自適應是一種將深度神經網絡泛化到新目標域的有效范式。然而,要達到完全監督的性能,仍有巨大的潛力有待挖掘。在本文中,我們提出了一種新的主動學習策略來輔助目標領域中的知識遷移,稱為主動領域自適應。我們從一個觀察開始,當訓練(源)和測試(目標)數據來自不同的分布時,基于能量的模型表現出自由能量偏差。受這一內在機制的啟發,我們從經驗上揭示了一個簡單而有效的基于能量的采樣策略,它比現有的需要特定架構或計算距離的方法更能幫助我們選擇最有價值的目標樣本。我們的算法,基于能量的主動域自適應(EADA),在每一輪的選擇中查詢集域特征和實例不確定性的目標數據組。同時,通過正則化項將目標數據壓縮的自由能對準源域,可以隱式地減小域間隙。通過大量的實驗,我們證明了EADA在眾所周知的具有挑戰性的基準測試中取得了重大改進,超越了最先進的方法,使其成為開放世界中一個有用的選項。代碼可以在//github.com/BIT-DA/EADA上找到。

付費5元查看完整內容

現有的視覺和語言學習方法通常需要為每個任務設計特定于任務的架構和目標。例如,用于視覺問答的多標簽答案分類器、用于參考表達式理解的區域評分器和用于圖像字幕的語言解碼器等。為了減輕這些麻煩,在這項工作中,我們提出了一個統一的框架,在同一個語言建模目標的單一體系結構中學習不同的任務,即多模態條件文本生成,我們的模型學習在基于視覺和文本輸入的文本中生成標簽。在7個流行的視覺和語言基準測試中,包括視覺問答,參考表達理解,視覺常識推理,其中大多數之前被建模為判別性任務,我們的生成方法(具有單一統一的體系結構)達到了與最近特定任務的最先進的視覺和語言模型相當的性能。此外,我們的生成方法顯示出更好的泛化能力的問題,有稀有的答案。此外,我們還表明,我們的框架允許在單一體系結構中使用單一參數集進行多任務學習,實現了與單獨優化的單任務模型相似的性能。我們的代碼在//github.com/j-min/VL-T5上公開。

付費5元查看完整內容

本文是第一個將Transformers應用于視頻分割領域的方法。視頻實例分割指的是同時對視頻中感興趣的物體進行分類,分割和跟蹤的任務。現有的方法通常設計復雜的流程來解決此問題。本文提出了一種基于Transformers的視頻實例分割新框架VisTR,該框架將視頻實例分割任務視為直接端到端的并行序列解碼和預測的問題。給定一個含有多幀圖像的視頻作為輸入,VisTR直接按順序輸出視頻中每個實例的掩碼序列。該方法的核心是一種新的實例序列匹配和分割的策略,該策略在整個序列級別上對實例進行監督和分割。VisTR將實例分割和跟蹤統一到了相似度學習的框架下,從而大大簡化了流程。在沒有任何trick的情況下,VisTR在所有使用單一模型的方法中獲得了最佳效果,并且在YouTube-VIS數據集上實現了最快的速度。

//www.zhuanzhi.ai/paper/0dfba6abdc5e6a189d86770822c17859

付費5元查看完整內容

我們提出了自監督幾何感知(SGP),這是第一個學習特征描述符進行對應匹配的通用框架,不需要任何真實的幾何模型標簽(例如,相機姿態,剛性轉換)。我們的第一個貢獻是將幾何感知形式化為一個優化問題,在給定大量視覺測量數據(如圖像、點云)的基礎上,聯合優化特征描述符和幾何模型。在這個優化公式下,我們展示了視覺領域的兩個重要的研究流,即魯棒模型擬合和深度特征學習,對應著優化未知變量的一個塊,同時固定另一個塊。這種分析自然引出了我們的第二個貢獻——SGP算法,它執行交替最小化來解決聯合優化。SGP迭代地執行兩個元算法:一個教師對已知的學習特征進行魯棒模型擬合以生成幾何偽標簽,一個學生在偽標簽的嘈雜監督下進行深度特征學習。作為第三個貢獻,我們將SGP應用于大規模真實數據集上的兩個感知問題,即MegaDepth上的相對相機姿態估計和3DMatch上的點云配準。我們證明,SGP達到了最先進的性能,與使用真實標簽訓練的受監督的模型相當。

付費5元查看完整內容

通過一個transformer編碼器-解碼器架構的目標檢測transformers (DETR)取得了與Faster R-CNN相匹配的性能。受預訓練transformer在自然語言處理中取得的巨大成功的啟發,我們提出了一種基于隨機查詢補丁檢測的無監督預訓練目標檢測任務。具體地說,我們從給定的圖像中隨機裁剪小塊,然后將它們作為查詢輸入解碼器。該模型經過預訓練,從原始圖像中檢測出這些查詢補丁。在預訓練,我們解決了兩個關鍵問題:多任務學習和多查詢定位。(1)為了權衡在前置任務中分類和定位的多任務學習,我們凍結CNN骨干,提出一個與patch檢測聯合優化的patch特征重構分支。(2)為實現多查詢定位,我們引入了單查詢補丁的UP-DETR ,并將其擴展為具有對象查詢洗牌和注意掩碼的多查詢補丁。在我們的實驗中,UP-DETR算法在PASCAL VOC和COCO數據集上具有更快的收斂速度和更高的精度,顯著提高了DETR算法的性能。代碼很快就會發布。

付費5元查看完整內容

目前的深度神經網絡需要為每個新任務收集大量帶標簽的訓練數據,在一定程度上限制了其實用性。給定來自一組源任務的數據,可以使用兩種遷移學習方法來克服此限制:小樣本學習(FSL)和自監督學習(SSL)。前者旨在通過使用源任務設計學習場景來學習“如何學習”,以模擬用很少的帶標簽樣本來解決目標新任務的挑戰。相反,后者利用所有源任務中的無注釋預定義任務來學習可泛化的特征表示。本文提出了一個創新的實例級和場景級的預定義任務(IEPT)框架,該框架無縫地將SSL集成到FSL中。具體來說,給定FSL場景,我們首先將幾何變換應用于每個實例以生成擴展場景。在實例級別,按照標準的SSL執行轉換識別。重要的是,在場景級別中我們設計了兩個SSL-FSL混合學習目標:(1)場景級別的預定義任務,會最大限度地提高來自不同擴展場景的FSL分類預測結果之間的一致性;(2)將從每個實例中跨不同場景提取的特征進行集成,以構建用于元學習的單個FSL分類器。大量實驗表明,我們提出的模型(即帶有IEPT的FSL)達到了最新的技術水平。

付費5元查看完整內容

在本文中,我們提出了一種用于語義分割的無監督域自適應算法,該算法的目標是利用有標記的合成數據來分割無標記的真實數據。UDA語義分割的主要問題在于縮小真實圖像與合成圖像之間的域差距。為了解決這個問題,我們將重點放在將圖像中的信息分離為內容和樣式。在這里,只有內容具有進行語義分割的線索,而風格造成了領域差距。因此,即使在使用合成數據進行學習時,也可以將圖像中的內容和風格進行精確的分離,起到監督真實數據的作用。為了充分利用這種效果,我們提出采用零損失模式。盡管我們在實域上很好地提取了用于語義分割的內容,但在語義分類器中仍然存在類別不平衡的問題。我們通過將尾部類的內容從合成域轉移到實域來解決這個問題。實驗結果表明,該方法在兩種主要的神經網絡環境下都取得了最先進的語義分割性能。

付費5元查看完整內容

在場景圖分類的一個主要挑戰是,物體的外觀和關系可以明顯不同于另一幅圖像。以前的工作通過對圖像中所有物體的關系推理,或將先驗知識納入分類來解決這個問題。與之前的工作不同,我們不考慮感知和先驗知識的分離模型。相反,我們采用多任務學習方法,其中分類被實現為一個注意力層。這允許先驗知識在感知模型中出現和傳播。通過使模型也代表先驗,我們實現了歸納偏差。我們表明,我們的模型可以準確地生成常識性知識,并且將這些知識迭代注入到場景表示中可以顯著提高分類性能。此外,我們的模型可以根據作為三元組的外部知識進行微調。當與自監督學習相結合時,這將獲得僅對1%的帶注釋的圖像進行準確的預測。

付費5元查看完整內容
北京阿比特科技有限公司