人類通過同時處理和融合來自視覺和音頻等多種模態的高維輸入來感知世界。與之形成鮮明對比的是,機器感知模型通常是特定于模態的,并針對單模態基準進行了優化,因此,從每個模態最終表示或預測的后期融合(“后期融合”)仍然是多模態視頻分類的主導范式。相反,我們引入了一種新的基于transformer的架構,它使用“融合瓶頸”在多個層進行模態融合。與傳統的成對自注意力相比,我們的模型迫使不同模態之間的信息通過少量的瓶頸潛伏,要求模型整理和濃縮每個模態中最相關的信息,只分享必要的信息。我們發現這種策略在提高融合性能的同時,降低了計算成本。我們進行了徹底的消融研究,并在多個視聽分類基準上取得了最先進的結果,包括Audioset、Epic-Kitchens和VGGSound。所有代碼和模型將被發布。
目標檢測在過去的十年中取得了長足的進步。然而,利用少樣本檢測新類仍然具有挑戰性,因為在低數據環境下的深度學習通常會導致特征空間的退化。現有的研究都采用了整體的微調范式來解決這個問題,即首先對模型進行大量樣本的所有基類的預訓練,然后用它來學習新的類特征空間。盡管如此,這種范式仍然是不完美的。在微調過程中,一個新類可能會隱式地利用多個基類的知識來構造其特征空間,導致特征空間分散,違反類間的可分離性。為了克服這些障礙,我們提出了一種兩步微調的框架,即關聯與識別的少樣本目標檢測(FADI),該框架采用兩步整合的方法為每個新類建立判別特征空間。1) 在關聯步驟中,與隱式利用多個基類不同,我們通過顯式模擬一個特定的基類特征空間來構造一個緊湊的新類特征空間。具體來說,我們根據每個新類的語義相似度將它們與基類關聯起來。之后,新類的特征空間可以很容易地模仿相關基類的經過良好訓練的特征空間。2)在判別步驟中,為了保證新類和相關基類之間的可分離性,我們對基類和新類的分類分支進行解糾纏。為了進一步擴大各類別間的可分性,引入了一個集合化的保證金損失。在Pascal VOC和MS-COCO數據集上的大量實驗表明,FADI實現了新的SOTA性能,在任何鏡頭/分割中顯著提高了18.7的基線。值得注意的是,這種優勢是在極少的場景中體現出來的。
我們提出了第一種用于視頻少樣本動作識別的無監督元學習算法MetaUVFS。MetaUVFS利用超過550K的未標記視頻,通過對比學習,分別捕捉特定于外觀的空間和特定于動作的時空視頻特征,訓練雙流2D和3D CNN架構。MetaUVFS包括一個新穎的動作-外觀對齊的元適應(A3M)模塊,該模塊通過明確的少樣本情景元學習而非無監督的硬挖掘情節,學習關注與外觀特征相關的動作導向視頻功能。我們的動作外觀對齊和明確的少樣本學習者條件下的無監督訓練模擬下游的少樣本任務,使MetaUVFS在少樣本基準測試中顯著優于所有無監督方法。此外,不像以前的監督的少樣本動作識別方法,MetaUVFS既不需要基類標簽,也不需要監督的預訓練骨干。因此,我們只需要對MetaUVFS進行一次訓練,以便在流行的HMDB51、UCF101和Kinetics100少樣本數據集上具有競爭力,有時甚至超過最先進的監督方法。
使用智能手機收集的呼吸音,經過深度學習模型訓練,用于檢測和分類COVID-19,最近變得流行起來。它消除了對現場檢測程序的需要,特別是對相關醫療用品、有經驗的工人和設備有限的農村地區。然而,現有的基于聲音的診斷方法是在完全監督的方式下進行訓練的,這需要大量標記良好的數據。重要的是發現新的方法來利用無標記的呼吸數據,這可以更容易地獲得。在本文中,我們提出了一種新的自監督學習框架,用于COVID-19咳嗽分類。引入對比預訓練階段,以訓練無標記數據的基于Transformer的特征編碼器。具體來說,我們設計了一個隨機掩蔽機制來學習呼吸音的魯棒表示。然后在下游階段對預訓練的特征編碼器進行微調,以執行咳嗽分類。此外,在下游階段還研究了不同隨機掩蔽率下的集成。通過廣泛的評估,我們證明了所提出的對比訓練前、隨機掩蔽機制和集成架構有助于提高咳嗽分類性能。
圖神經網絡(GNNs)在各種網絡相關任務已被證明是非常有效的。大多數現有的GNN通常利用節點特征的低頻信號,這就產生了一個基本的問題: 低頻信息是我們在現實應用中所需要的全部嗎?在本文中,我們首先提出了一個實驗研究來評估低頻和高頻信號的作用,結果清楚地表明,探索低頻信號與在不同場景下學習有效的節點表示是遙遠的。在GNN中,我們如何自適應地學習低頻信息以外的更多信息?一個可行的方案可以幫助GNNs增強適應性。針對這一問題,我們提出了一種具有自適應機制的頻率自適應圖卷積網絡(FAGCN),該網絡能夠在消息傳遞過程中自適應地整合不同的信號。為了加深理解,我們從理論上分析了低頻信號和高頻信號在學習節點表示上的作用,進一步解釋了為什么FAGCN能在不同類型的網絡上表現良好。在六個真實網絡上的廣泛實驗證實,FAGCN不僅緩解了過度平滑的問題,而且比最先進的技術有優勢。
多元序列學習的本質是如何提取數據中的相關性。這些數據集,如重癥監護病房的每小時醫療記錄和多頻語音時間序列,通常不僅在個別成分中表現出強烈的序列依賴性(“邊緣”記憶),而且在橫剖面依賴性中也表現出不可忽略的記憶(“聯合”記憶)。由于聯合分布演化的多元復雜性是數據生成過程的基礎,我們采用數據驅動的方法,構建了一種新的循環網絡結構,稱為記憶門控循環網絡(mGRN),門顯式地調節兩種不同類型的記憶:邊緣記憶和聯合記憶。通過對一系列公共數據集的綜合模擬研究和經驗實驗的結合,我們表明我們提出的mGRN架構始終優于針對多元時間序列的最先進架構。
//www.zhuanzhi.ai/paper/4236df35ff33a6911c4913ac13bb78e0
從異步視頻面試(AVI)中的自動語音識別(ASR)轉錄中,我們解決了基于文本特征自動為候選人的能力評分的任務。問題的關鍵在于如何構建問題與答案之間的依賴關系,并對每個問答(QA)對進行語義級交互。然而,目前AVI的研究大多集中在如何更好地表示問題和答案上,而忽視了它們之間的依賴信息和相互作用,而這是QA評估的關鍵。在這項工作中,我們提出了一種層次推理圖神經網絡(HRGNN)用于問答對的自動評估。具體來說,我們構建了一個句子級關系圖神經網絡來捕獲問題和答案之間的句子依賴信息。基于這些圖,我們采用語義級推理圖注意網絡對當前QA會話的交互狀態進行建模。最后,我們提出了一種門控遞歸單元編碼器來表示用于最終預測的時間問答對。在CHNAT(一個真實數據集)上進行的實證結果驗證了我們提出的模型顯著優于基于文本匹配的基準模型。消融研究和10個隨機種子的實驗結果也表明了我們模型的有效性和穩定性。
//www.zhuanzhi.ai/paper/5c766d478e8b7fae79e95f2a09e5bdd1
弱監督目標檢測(WSOD)已經成為一種僅使用圖像級別的類別標簽訓練目標檢測器的有效工具。然而,由于沒有目標級標簽,WSOD檢測器容易檢測出顯著物體、聚雜物體和判別性物體部分上的標注框。此外,圖像級別的類別標簽不會強制對同一圖像的不同變換進行一致的目標檢測。針對上述問題,我們提出了一種針對WSOD的綜合注意力自蒸餾(CASD)訓練方法。為了平衡各目標實例之間的特征學習,CASD計算同一圖像的多個變換和特征層聚合的綜合注意力。為了加強對目標的一致空間監督,CASD對WSOD網絡進行自蒸餾,通過對同一幅圖像的多個變換和特征層同時逼近全面注意力。CASD在標準數據集上如PASCAL VOC 2007/2012和MS-COCO產生了最好的結果。
在本文中,我們提出了一種端到端的圖學習框架,即迭代深度圖學習(IDGL),用于共同迭代地學習圖結構和圖嵌入。IDGL的關鍵原理是學習基于更好的節點嵌入的更好的圖結構,反之亦然(即基于更好的圖結構的更好的節點嵌入)。我們的迭代方法動態停止時,學習圖接近足夠優化的圖預測任務。此外,我們將圖學習問題轉換為一個相似度量學習問題,并利用自適應圖正則化來控制學習圖的質量。最后,結合基于錨點的近似技術,我們進一步提出了一個可擴展的IDGL版本,即IDGL- anch,在不影響性能的前提下,顯著降低了IDGL的時間和空間復雜度。我們在9個基準上進行的廣泛實驗表明,我們提出的IDGL模型始終能夠優于或匹配最先進的基線。此外,IDGL還能更魯棒地處理對抗圖,并能同時處理傳導學習和歸納學習。
圖神經網絡(GNNs)已被證明是有效的模型,用于對圖結構數據的不同預測任務。最近關于它們表達能力的工作集中在同構任務和可數特征空間。我們對這個理論框架進行了擴展,使其包含連續的特性——在真實世界的輸入域和gnn的隱藏層中定期出現——并演示了在此上下文中對多個聚合函數的需求。為此,我們提出了一種新的聚合器結構——主鄰域聚合(PNA),它將多個聚合器與度標器相結合,從而推廣了總和聚合器。最后,我們通過一個新的基準來比較不同模型捕獲和利用圖結構的能力,該基準包含了來自經典圖理論的多個任務,以及來自現實領域的現有基準,所有這些都證明了我們模型的強大。通過這項工作,我們希望引導一些GNN研究轉向新的聚合方法,我們認為這對于尋找強大和健壯的模型至關重要。
//www.zhuanzhi.ai/paper/bee47b0e291d163fae01c
圖神經網絡(GNN)已經在許多具有挑戰性的應用中展示了優越的性能,包括小樣本學習任務。盡管GNN具有強大的從少量樣本中學習和歸納的能力,但隨著模型的深入,GNN通常會出現嚴重的過擬合和過平滑問題,這限制了模型的可擴展性。在這項工作中,我們提出了一個新的注意力GNN來解決這些挑戰,通過合并三重注意機制,即節點自我注意,鄰居注意和層記憶注意力。我們通過理論分析和實例說明了所提出的注意模塊可以改善小樣本學習的GNN的原因。廣泛的實驗表明,在mini-ImageNet 和Tiered-ImageNet數據集上,通過誘導和直推設置,提出的注意力GNN在小樣本學習方面優于基于最先進的GNN方法。