本次阿里文娛摩酷實驗室和東南大學PALM實驗室合作的工作《Feature-InducedManifold Disambiguation for Multi-view Partial Multi-label Learning》被KDD 2020 Research Track錄用。在視頻的分發過程中,標簽的準確性和完整性起著至關重要的作用,但由于個人用戶的非專業性,上傳的短視頻標簽通常存在著較大的偏差與遺漏。考慮到視頻天然帶有豐富的多模態信息,本文抽象出一種MVPML表征框架,并提出了FIMAN方法可充分利用異質特征導出的流形結構進行消歧,能夠有效地對用戶上傳的視頻標簽進行修正與補足,從而提升整體的分發效率。該項工作目前已廣泛應用于阿里文娛的各項場景中。
現有的基于注意力機制的推薦模型存在一些改進的余地。很多模型只在生成用戶的表示時應用了粗粒度的注意力機制,少數改進的模型盡管在注意力模塊中加入了物品的屬性(特征)信息,即融入了物品的相關知識,但仍然僅在用戶表示這一端應用了注意力機制。針對這些問題,本文提出了一種在用戶表示端與物品表示端協同應用(物品)屬性級注意力機制的深度推薦模型,簡稱ACAM(Attribute-level Co-Attention Model),其主要特性為: (1)物品與用戶的初始表示基于知識圖譜中物品屬性的表示(向量),而非單一的隨機初始化向量。 (2)內建協同注意力機制模塊,通過捕獲不同屬性之間的關聯來增強用戶和物品的表示,這是考慮到不同的物品屬性(特征)之間可能存在相關性。例如,電影的屬性中,演員史泰龍與動作題材高度相關,演員鞏俐與導演張藝謀也很相關。因此,基于屬性相關性來增強用戶/物品表示能夠更加精確地揭示目標用戶和候選物品之間的潛在關系,從而提升推薦性能。 (3)采用多任務學習的框架來訓練損失函數,融入知識(嵌入)表示學習的目標,以習得更優的物品和物品屬性的表示。
ACAM模型輸入為目標用戶和候選物品,輸出為兩者匹配的概率 ,其值越大表明越可能喜歡。模型的架構如下圖所示,可分為三個部分:嵌入層、協同注意力機制層與預測層,下面將分別介紹每層的設計細節。
本文由騰訊優圖實驗室和中科院軟件所聯合提出。細粒度視覺分類(Fine-Grained Visual Categorization,FGVC)因樣本類間差異更加細微,往往只能借助微小的局部差異才能區分出不同的類別,使其成為一項重要但具有挑戰性的任務。本文提出了一種基于注意力機制的卷積二叉神經樹結構。具體來說,我們將傳統的決策樹與神經網絡結合,在樹的內部節點中使用路由來確定樹內從根到葉的計算路徑,并且在樹的邊上添加了卷積操作增強表示學習,最終決策融合了所有葉節點的預測。該模型以一種由粗到細的層次方式學習具有判別力的特征。此外,我們采用了非對稱的策略來增加多尺度特征提取,增強樣本的區分性特征表示。我們采用SGD優化方法以端到端的方式訓練整個網絡。我們的方法在CUB-200-2011,Stanford Cars 和 Aircraft數據集上進行了評估,顯著優于當前其他的弱監督細粒度方法。
自動解剖標記在冠狀動脈疾病診斷中起著至關重要的作用。這個問題的主要挑戰是在人體解剖學中遺傳的巨大的個體變異。現有的方法通常依賴于冠狀動脈樹的位置信息和拓撲結構的先驗知識,當主要分支混淆時,可能會導致性能不佳。基于圖神經網絡在結構化數據中的廣泛應用,本文提出了一種同時考慮位置和CT圖像的條件部分剩余圖卷積網絡(CPR-GCN)。兩個主要部分,部分剩余的GCN和條件提取器,包括在CPR-GCN。條件提取器是一個包含3D CNN和LSTM的混合模型,可以提取沿樹枝的三維空間圖像特征。在技術方面,部分殘差GCN以分支的位置特征為條件,以三維空間圖像特征為條件,預測各分支的標簽。而在數學方面,我們的方法扭轉偏微分方程(PDE)到圖形建模。我們從診所收集了511名受試者的數據,并由兩名專家使用兩階段注釋過程進行注釋。根據五倍交叉驗證,我們的CPR-GCN的平均召回率為95.8%,平均準確率為95.4%,平均f1為0.955,優于最先進的方法。