亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在本文中,我們關注的是語義圖像合成任務,目的是將語義標記映射遷移到逼真的圖像。現有的方法在保留語義信息方面缺乏有效的語義約束,忽略了空間維度和通道維度上的結構相關性,導致結果模糊且容易產生假象。為了解決這些限制,我們提出了一種新的對偶注意力GAN (DAGAN),它可以合成具有輸入布局細節的真實照片和語義一致的圖像,而不增加額外的訓練開銷或修改現有方法的網絡結構。我們還提出了兩個新的模塊,即位置-方向的空間注意力模塊和尺度-方向的通道注意模塊,分別用于捕獲空間和通道維度上的語義結構注意力。具體來說,SAM通過空間注意力圖選擇性地將每個位置的像素關聯起來,從而使得具有相同語義標簽的像素無論在空間上的距離如何都相互關聯起來。同時,CAM通過通道注意力圖選擇性地強調每個通道上的標度特征,從而在所有的通道圖中集成相關的特征,而不管它們的標度如何。最后對SAM和CAM的結果進行求和,進一步改進特征表示。在四個具有挑戰性的數據集上進行的廣泛實驗表明,DAGAN取得了比最先進的方法顯著更好的結果,同時使用更少的模型參數。源代碼和經過訓練的模型可以在這個https URL中獲得。

//arxiv.org/abs/2008.13024

付費5元查看完整內容

相關內容

從語義描述中識別視覺類別是一種很有前途的方法,它可以擴展視覺分類器的能力,使其超越訓練數據中所表示的概念(即看到的類別)。這個問題是由(廣義的)零樣本學習方法(GZSL)解決的,它利用語義描述將它們連接到所看到的類別(例如,標簽嵌入,屬性)。傳統的GZSL主要是為了目標識別而設計的。在本文中,我們關注于零樣本場景識別,這是一個更具挑戰性的設置,有數百個類別,它們的差異可能是微妙的,通常在特定的物體或區域。傳統的GZSL表示不夠豐富,無法捕獲這些局部差別。針對這些限制,我們提出了一個具有兩個新組件的特征生成框架:1)多源語義信息(即屬性、單詞嵌入和描述),2)可以增強場景識別的區域描述。為了生成綜合的視覺特征,我們提出了兩步生成方法,其中局部描述采樣和使用作為條件來生成視覺特征。生成的特征被聚合并與真實的特征一起用來訓練一個聯合分類器。為了對該方法進行評價,我們引入了一種新的具有多語義標注的零樣本場景識別數據集。在該數據集和SUN屬性數據集上的實驗結果表明了該方法的有效性。

//vipl.ict.ac.cn/homepage/jsq/publication/2020-Song-ACMMM.html

付費5元查看完整內容

現有的語義分割模型嚴重依賴于密集的像素級標注。為了減少標注的壓力,我們專注于一項具有挑戰性的任務,即零標注語義分割,它的目標是用零標注分割不可見的對象。這一任務可以通過語義詞嵌入在類別間傳遞知識來完成。在本文中,我們提出了一種新的基于上下文的零樣本分割特征生成方法——CaGNet。特別是在觀察到像素級特征高度依賴上下文信息的情況下,我們在分割網絡中插入上下文模塊來捕獲像素級特征的上下文信息,從而指導語義詞嵌入生成更加多樣化和上下文感知的特征的過程。我們的方法在三個基準數據集上實現了最先進的零樣本分割結果。代碼可在:this https URL獲得。

付費5元查看完整內容

在觀看視頻時,視覺事件的發生往往伴隨著聲音事件,如唇動的聲音,樂器演奏的音樂。視聽事件之間存在著一種潛在的相關性,通過解決視聽同步的代理任務,可以將其作為自監督信息來訓練神經網絡。在本文中,我們提出了一種新的帶有共同注意力機制的自監督框架來學習無標記視頻中的通用跨模態表示,并進一步使下游任務受益。具體而言,我們探討了三個不同的共注意模塊,以關注與聲音相關的區分視覺區域,并介紹它們之間的相互作用。實驗表明,與現有方法相比,我們的模型在參數較少的情況下,取得了較好的效果。為了進一步評估我們方法的可推廣性和可遷移性,我們將預訓練的模型應用于兩個下游任務,即聲源定位和動作識別。大量的實驗表明,我們的模型可以提供與其他自監督方法競爭的結果,也表明我們的方法可以處理具有挑戰性的場景包含多個聲源。

//arxiv.org/abs/2008.05789

付費5元查看完整內容

雖然生成對抗網絡在圖像合成任務中取得了巨大的成功,但眾所周知,它們很難適應不同的數據集,部分原因是訓練過程中的不穩定性和對超參數的敏感性。這種不穩定性的一個普遍接受的原因是,當真實和虛假分布的支持沒有足夠的重疊時,從鑒別器到發生器的梯度變得不具信息性。本文提出了多尺度梯度生成對抗網絡(MSG-GAN),這是一種簡單而有效的技術,通過允許梯度流從鑒別器到發生器在多個尺度上流動來解決這個問題。該技術為高分辨率圖像合成提供了一種穩定的方法,并作為常用的漸進生長技術的替代。結果表明,MSG-GAN在不同大小、分辨率和域的多種圖像數據集上,以及不同類型的丟失函數和結構上都穩定收斂,且具有相同的固定超參數集。與最先進的GAN相比,在我們嘗試的大多數情況下,我們的方法都能與之媲美或超越其性能。

付費5元查看完整內容
北京阿比特科技有限公司