食品與人類的行為、健康和文化等密切相關。來自社交網絡、移動網絡和物聯網等泛在網絡產生的食品大數據及人工智能尤其是深度學習技術的快速發展催生了新的交叉研究領域食品計算[Min2019-ACM CSUR]。作為食品計算的核心任務之一,食品圖像識別同時是計算機視覺領域中細粒度視覺識別的重要分支,因而具有重要的理論研究意義,并在智慧健康、食品智能裝備、智慧餐飲、智能零售及智能家居等方面有著廣泛的應用前景。本文在項目組前期食品識別(Food Recognition:[Jiang2020-IEEE TIP][Min2019-ACMMM])的研究基礎上,提出了一個新的食品數據集ISIA Food-500。該數據集包含500個類別,大約40萬張圖像,在類別量和圖片數據量方面都超過了現有的基準數據集。在此基礎上我們提出了一個新的網絡SGLANet聯合學習食品圖像的全局和局部視覺特征以進行食品識別,在ISIA Food-500和現有的基準數據集上進行了實驗分析與驗證。
情感自動識別是一個活躍的研究課題,具有廣泛的應用前景。由于人工標注成本高和標簽不可避免的模糊性,情感識別數據集的發展在規模和質量上都受到了限制。因此,如何在有限的數據資源下建立有效的模型是關鍵挑戰之一。之前的研究已經探索了不同的方法來應對這一挑戰,包括數據增強、遷移學習和半監督學習等。然而,這些現有方法的缺點包括:訓練不穩定、遷移過程中的性能損失大、或改進幅度小。
在本研究中,我們提出了一種基于跨模態分布匹配的半監督多模態情感識別模型,該模型在假設跨模態內部情緒狀態在話語層面一致的前提下,利用大量的未標記數據來增強模型訓練。
我們在兩個基準數據集IEMOCAP和MELD上進行了廣泛的實驗來評估所提出的模型。實驗結果表明,該半監督學習模型能夠有效地利用未標記數據,并結合多種模態來提高情緒識別性能,在相同條件下優于其他先進的方法。與現有方法相比,該模型還利用了說話者和交互上下文等附加的輔助信息,從而達到了競爭能力。
視頻通常有多種形式的數據,如音頻、視頻、文本(字幕)。理解和建模不同模態之間的交互是視頻分析任務的關鍵,如分類,目標檢測,活動識別等。然而,數據模態并不總是相關的——因此,了解模態何時相關并使用它來引導一種模態對另一種模態的影響是至關重要的。視頻的另一個顯著特征是連續幀之間的連貫性,這是由于視頻和音頻的連續性,我們稱之為時間連貫性。我們展示了如何使用非線性引導的跨模態信號和時間相干性來提高多模態機器學習(ML)模型在視頻分析任務(如分類)中的性能。我們在大規模YouTube-8M數據集上的實驗表明,我們的方法在視頻分類方面顯著優于最先進的多模式ML模型。在YouTube-8M數據集上訓練的模型,在不需要再訓練和微調的情況下,在一個來自實際電視頻道的視頻片段的內部數據集上也表現出了良好的性能,顯示了我們的模型較強的泛化能力。
現有的語義分割模型嚴重依賴于密集的像素級標注。為了減少標注的壓力,我們專注于一項具有挑戰性的任務,即零標注語義分割,它的目標是用零標注分割不可見的對象。這一任務可以通過語義詞嵌入在類別間傳遞知識來完成。在本文中,我們提出了一種新的基于上下文的零樣本分割特征生成方法——CaGNet。特別是在觀察到像素級特征高度依賴上下文信息的情況下,我們在分割網絡中插入上下文模塊來捕獲像素級特征的上下文信息,從而指導語義詞嵌入生成更加多樣化和上下文感知的特征的過程。我們的方法在三個基準數據集上實現了最先進的零樣本分割結果。代碼可在:this https URL獲得。
在觀看視頻時,視覺事件的發生往往伴隨著聲音事件,如唇動的聲音,樂器演奏的音樂。視聽事件之間存在著一種潛在的相關性,通過解決視聽同步的代理任務,可以將其作為自監督信息來訓練神經網絡。在本文中,我們提出了一種新的帶有共同注意力機制的自監督框架來學習無標記視頻中的通用跨模態表示,并進一步使下游任務受益。具體而言,我們探討了三個不同的共注意模塊,以關注與聲音相關的區分視覺區域,并介紹它們之間的相互作用。實驗表明,與現有方法相比,我們的模型在參數較少的情況下,取得了較好的效果。為了進一步評估我們方法的可推廣性和可遷移性,我們將預訓練的模型應用于兩個下游任務,即聲源定位和動作識別。大量的實驗表明,我們的模型可以提供與其他自監督方法競爭的結果,也表明我們的方法可以處理具有挑戰性的場景包含多個聲源。
論文題目: Multi-modal Graph Convolution Network for Personalized Recommendation of Micro-video
論文摘要: 個性化推薦在許多在線內容共享平臺中起著核心作用。為了提供優質的微視頻推薦服務,重要的是考慮用戶與項目(即短視頻)之間的交互以及來自各種模態(例如視覺,聽覺和文本)的項目內容。現有的多媒體推薦作品在很大程度上利用多模態內容來豐富項目表示,而為利用用戶和項目之間的信息交換來增強用戶表示并進一步捕獲用戶對不同模式的細粒度偏好所做的工作卻較少。在本文中,我們建議利用用戶-項目交互來指導每種模式中的表示學習,并進一步個性化微視頻推薦。我們基于圖神經網絡的消息傳遞思想設計了一個多模態圖卷積網絡(MMGCN)框架,該框架可以生成用戶和微視頻的特定模態表示,以更好地捕獲用戶的偏好。具體來說,我們在每個模態中構造一個user-item二部圖,并用其鄰居的拓撲結構和特征豐富每個節點的表示。通過在三個公開可用的數據集Tiktok,Kwai和MovieLens上進行的大量實驗,我們證明了我們提出的模型能夠明顯優于目前最新的多模態推薦方法。
作者簡介:
Tat-Seng Chua,新加坡國立大學計算機學院的KITHCT講座教授。1998年至2000年期間,他是該校的代理和創始院長。蔡博士的主要研究興趣是多媒體信息檢索和社交媒體分析。特別是,他的研究重點是從網絡和社交網絡中提取、檢索和回答文本、視頻和實時媒體的問題。他是新加坡國立大學(NUS)和清華大學(tshuanguaniversity)在中國建立的一個耗資數百萬美元的聯合中心的負責人,該中心旨在開發現場媒體搜索技術。該項目將在北京和新加坡的城市內收集、挖掘、搜索和組織用戶生成的內容。他的小組在2000年初定期參加TREC-QA和TRECVID評估。
Xiangnan He,中國科技大學信息科學技術學院教授,研究興趣包括信息檢索、數據挖掘和多媒體分析;擔任過多個頂級會議(包括SIGIR、WWW、KDD、MM等)的(高級)PC成員,以及TKDE、TOIS、TMM等期刊的定期審稿人。