亚洲男人的天堂2018av,欧美草比,久久久久久免费视频精选,国色天香在线看免费,久久久久亚洲av成人片仓井空

在觀看視頻時,視覺事件的發生往往伴隨著聲音事件,如唇動的聲音,樂器演奏的音樂。視聽事件之間存在著一種潛在的相關性,通過解決視聽同步的代理任務,可以將其作為自監督信息來訓練神經網絡。在本文中,我們提出了一種新的帶有共同注意力機制的自監督框架來學習無標記視頻中的通用跨模態表示,并進一步使下游任務受益。具體而言,我們探討了三個不同的共注意模塊,以關注與聲音相關的區分視覺區域,并介紹它們之間的相互作用。實驗表明,與現有方法相比,我們的模型在參數較少的情況下,取得了較好的效果。為了進一步評估我們方法的可推廣性和可遷移性,我們將預訓練的模型應用于兩個下游任務,即聲源定位和動作識別。大量的實驗表明,我們的模型可以提供與其他自監督方法競爭的結果,也表明我們的方法可以處理具有挑戰性的場景包含多個聲源。

//arxiv.org/abs/2008.05789

付費5元查看完整內容

相關內容

自監督學習(self-supervised learning)可以被看作是機器學習的一種“理想狀態”,模型直接從無標簽數據中自行學習,無需標注數據。

近年來,許多在線平臺(如亞馬遜和淘寶網)都取得了巨大成功。在線平臺上的用戶行為是動態變化的,且會隨著時間而發展。序列推薦的主要目標就是從用戶歷史行為中捕捉關鍵的信息,并基于此準確表征用戶興趣進而提供高質量的推薦[1,2,3]。已有研究人員基于深度學習提出很多序列推薦的模型,此外還有研究人員結合豐富的上下文信息(如商品屬性)一起進行用戶興趣建模,實驗表明,上下文信息對于提高推薦效果很重要。

盡管現有方法在一定程度上已被證明有效,但它們有兩個可能會影響推薦效果的缺陷。首先,他們主要依靠“下一個物品推薦”(Next Item Prediction)損失函數來學習整個模型。在使用上下文信息時,也仍然只使用這一個優化目標。已有研究表明,這種優化方法很容易受到數據稀疏性等問題的影響。此外,它們過分強調最終的推薦性能,而上下文數據和序列數據之間的關聯或融合卻沒有在數據表示中被很好地捕獲。多個領域的實驗結果表明[4,5,6],更有效的數據表示方法(例如,預先訓練的上下文信息嵌入)已成為改善現有模型或體系結構性能的關鍵因素。因此,有必要重新考慮學習范式并開發更有效的序列推薦系統。

為了解決上述問題,我們借鑒了自監督學習的思想來改進序列推薦的方法。自監督學習是一個新興的學習范式,旨在讓模型從原始數據的內在結構中學習。自監督學習的一般框架是首先從原始數據中構建新的監督信號,然后通過這些額外設計的優化目標來對模型進行預訓練。如之前討論的,有限的監督信號和低效的數據表示是現有的神經序列推薦方法的兩個主要問題。幸運的是,自監督學習似乎為解決這兩個問題提供了解決方案:它通過內在數據相關性來設計輔助訓練目標以提供豐富的自監督信號,并通過預訓練的方法增強數據表示。對于序列推薦,上下文信息以不同的形式存在,包括物品,屬性,子序列和序列。開發統一表征這種數據相關性的方法并不容易。對于這個問題,我們借鑒最近提出的互信息最大化(Mutual Information Maximization, MIM)方法,其已被證明可以有效捕獲原始輸入的不同視圖(或部分)之間的相關性。

基于以上,我們提出了一種基于自監督學習方法的序列推薦模型(Self-Supervised Learning Sequential Recommendation, S3-Rec)。基于自注意力機制的體系結構[3],我們首先使用設計的自監督訓練目標對模型進行預訓練,然后根據推薦任務對模型進行微調。此工作的主要新穎之處在預訓練階段,我們基于MIM的統一形式精心設計了四個自監督的優化目標,分別用于捕獲物品-屬性間,序列-物品間,序列-屬性間和序列-子序列間的相關性。因此,S3-Rec能夠以統一的方式來表征不同粒度級別或不同形式數據之間的相關性,并且也可以靈活地適應新的數據類型或關聯模式。通過這樣的預訓練方法,我們可以有效地融合各種上下文數據,并學習屬性感知的上下文化的數據表示。最后,將學習到的表示輸入推薦模型,并根據推薦任務對其進行優化。

為了驗證S3-Rec的有效性,我們在6個不同領域的真實數據集上進行了充分的實驗。實驗結果表明,S3-Rec超過了目前的SOTA,并且在訓練數據非常有限的情況表現得尤為明顯。另外S3-Rec還可以有效得適應其他類別的神經體系結構,例如GRU[1]和CNN[2]。我們的主要貢獻概括如下:(1)據我們所知,這是首次采用MIM進行自監督學習來改善序列推薦任務的工作;(2)我們提出了4個自監督優化目標來最大化不同形式或粒度的上下文信息的互信息;(3)在6個數據集上的充分實驗證明了我們方法的有效性。

付費5元查看完整內容

情感自動識別是一個活躍的研究課題,具有廣泛的應用前景。由于人工標注成本高和標簽不可避免的模糊性,情感識別數據集的發展在規模和質量上都受到了限制。因此,如何在有限的數據資源下建立有效的模型是關鍵挑戰之一。之前的研究已經探索了不同的方法來應對這一挑戰,包括數據增強、遷移學習和半監督學習等。然而,這些現有方法的缺點包括:訓練不穩定、遷移過程中的性能損失大、或改進幅度小。

在本研究中,我們提出了一種基于跨模態分布匹配的半監督多模態情感識別模型,該模型在假設跨模態內部情緒狀態在話語層面一致的前提下,利用大量的未標記數據來增強模型訓練。

我們在兩個基準數據集IEMOCAP和MELD上進行了廣泛的實驗來評估所提出的模型。實驗結果表明,該半監督學習模型能夠有效地利用未標記數據,并結合多種模態來提高情緒識別性能,在相同條件下優于其他先進的方法。與現有方法相比,該模型還利用了說話者和交互上下文等附加的輔助信息,從而達到了競爭能力。

付費5元查看完整內容

食品與人類的行為、健康和文化等密切相關。來自社交網絡、移動網絡和物聯網等泛在網絡產生的食品大數據及人工智能尤其是深度學習技術的快速發展催生了新的交叉研究領域食品計算[Min2019-ACM CSUR]。作為食品計算的核心任務之一,食品圖像識別同時是計算機視覺領域中細粒度視覺識別的重要分支,因而具有重要的理論研究意義,并在智慧健康、食品智能裝備、智慧餐飲、智能零售及智能家居等方面有著廣泛的應用前景。本文在項目組前期食品識別(Food Recognition:[Jiang2020-IEEE TIP][Min2019-ACMMM])的研究基礎上,提出了一個新的食品數據集ISIA Food-500。該數據集包含500個類別,大約40萬張圖像,在類別量和圖片數據量方面都超過了現有的基準數據集。在此基礎上我們提出了一個新的網絡SGLANet聯合學習食品圖像的全局和局部視覺特征以進行食品識別,在ISIA Food-500和現有的基準數據集上進行了實驗分析與驗證。

付費5元查看完整內容

在本文中,我們關注的是語義圖像合成任務,目的是將語義標記映射遷移到逼真的圖像。現有的方法在保留語義信息方面缺乏有效的語義約束,忽略了空間維度和通道維度上的結構相關性,導致結果模糊且容易產生假象。為了解決這些限制,我們提出了一種新的對偶注意力GAN (DAGAN),它可以合成具有輸入布局細節的真實照片和語義一致的圖像,而不增加額外的訓練開銷或修改現有方法的網絡結構。我們還提出了兩個新的模塊,即位置-方向的空間注意力模塊和尺度-方向的通道注意模塊,分別用于捕獲空間和通道維度上的語義結構注意力。具體來說,SAM通過空間注意力圖選擇性地將每個位置的像素關聯起來,從而使得具有相同語義標簽的像素無論在空間上的距離如何都相互關聯起來。同時,CAM通過通道注意力圖選擇性地強調每個通道上的標度特征,從而在所有的通道圖中集成相關的特征,而不管它們的標度如何。最后對SAM和CAM的結果進行求和,進一步改進特征表示。在四個具有挑戰性的數據集上進行的廣泛實驗表明,DAGAN取得了比最先進的方法顯著更好的結果,同時使用更少的模型參數。源代碼和經過訓練的模型可以在這個https URL中獲得。

//arxiv.org/abs/2008.13024

付費5元查看完整內容

視頻通常有多種形式的數據,如音頻、視頻、文本(字幕)。理解和建模不同模態之間的交互是視頻分析任務的關鍵,如分類,目標檢測,活動識別等。然而,數據模態并不總是相關的——因此,了解模態何時相關并使用它來引導一種模態對另一種模態的影響是至關重要的。視頻的另一個顯著特征是連續幀之間的連貫性,這是由于視頻和音頻的連續性,我們稱之為時間連貫性。我們展示了如何使用非線性引導的跨模態信號和時間相干性來提高多模態機器學習(ML)模型在視頻分析任務(如分類)中的性能。我們在大規模YouTube-8M數據集上的實驗表明,我們的方法在視頻分類方面顯著優于最先進的多模式ML模型。在YouTube-8M數據集上訓練的模型,在不需要再訓練和微調的情況下,在一個來自實際電視頻道的視頻片段的內部數據集上也表現出了良好的性能,顯示了我們的模型較強的泛化能力。

付費5元查看完整內容

視覺對話是一項具有挑戰性的任務,它需要從視覺(圖像)和文本(對話歷史)上下文中提取隱含信息。經典的方法更多地關注當前問題、視覺知識和文本知識的整合,忽略了跨模態信息之間的異構語義鴻溝。同時,連接操作已成為跨模式信息融合的事實標準,其信息檢索能力有限。本文提出了一種新的知識橋接圖網絡模型,利用圖在細粒度上橋接視覺知識和文本知識之間的跨模式語義關系,并通過自適應的信息選擇模式檢索所需的知識。此外,視覺對話的推理線索可以清晰地從模態內實體和模態間橋梁中提取出來。VisDial v1.0和VisDial- q數據集上的實驗結果表明,我們的模型優于現有的模型,取得了最新的結果。

//www.zhuanzhi.ai/paper/6a3e359d8827752a98f2e5daa7079d2a

付費5元查看完整內容

我們的目標是利用自監督學習將視頻轉換成一組離散的視聽對象。為此,我們介紹了一個模型,它使用注意力來定位和分組聲源,以及光流來隨時間聚合信息。我們通過使用我們的模型學習的視聽對象嵌入四個下游的面向語音的任務(a)多說話人的聲源分離,(b)定位和跟蹤說話人,(c)糾正不正確的視聽數據,和(d)主動說話人檢測的有效性。利用我們的表示法,這些任務完全可以通過訓練未標記的視頻來解決,而不需要物體檢測器的幫助。我們還通過將我們的方法應用于非人類演講者,包括卡通和木偶,來展示我們方法的普遍性。我們的模型顯著優于其他自監督方法,并獲得與使用監督人臉檢測方法競爭的性能。

Self-Supervised Learning of Audio-Visual Objects from Video

//arxiv.org/abs/2008.04237

付費5元查看完整內容

圖像分類和自然語言處理的最新發展,加上社交媒體使用的快速增長,使得實時檢測世界各地突發事件的技術取得了根本性的進步。應急響應就是這樣一個可以從這些進展中獲益的領域。通過每分鐘處理數十億的文本和圖像,可以自動檢測事件,從而使應急響應人員能夠更好地評估快速發展的情況并相應地部署資源。到目前為止,該領域的大多數事件檢測技術都集中在圖像或文本方法上,這限制了檢測性能并影響了向危機響應團隊傳遞信息的質量。在本文中,我們提出了一種新的多模態融合方法,利用圖像和文本作為輸入。特別地,我們介紹了一個交叉注意力模塊,它可以在一個樣本的基礎上從弱模態中過濾沒有信息和誤導的成分。此外,我們采用了一種基于多模態圖的方法,在訓練過程中隨機轉換不同多模態對的嵌入,以更好地規范學習過程,并通過從不同的樣本構造新的匹配對來處理有限的訓練數據。結果表明,我們的方法在三個與危機相關的任務上比單模態方法和強多模態基線有較大的優勢。

付費5元查看完整內容

大多數的對象識別方法主要側重于學習有判別性的視覺模式,而忽略了整體的物體結構。盡管很重要,但結構建模通常需要大量的手工注釋,因此是勞動密集型的。在這篇論文中,我們提出通過將自我監督納入傳統的框架中來“觀察對象”(明確而內在地對對象結構建模)。我們證明了在不增加額外注釋和推理速度的情況下,識別主干可以被顯著增強,從而實現更健壯的表示學習。具體來說,我們首先提出了一個對象范圍學習模塊,用于根據同一類別中實例間共享的視覺模式對對象進行本地化。然后,我們設計了一個空間上下文學習模塊,通過預測范圍內的相對位置,對對象的內部結構進行建模。這兩個模塊可以很容易地插入到任何骨干網絡訓練和分離的推理時間。大量的實驗表明,我們的內視對象方法(LIO)在許多基準上獲得了巨大的性能提升,包括通用對象識別(ImageNet)和細粒度對象識別任務(CUB、Cars、Aircraft)。我們還表明,這種學習范式可以高度泛化到其他任務,如對象檢測和分割(MS COCO)。

付費5元查看完整內容
北京阿比特科技有限公司