題目: Knowledge Transfer in Vision Recognition: A Survey
摘要: 在這篇綜述中,我們建議探討視覺識別任務中知識轉移工作背后的一般規律。為了實現這一目標,我們首先討論了視覺識別任務中存在的不同類型的可重用知識,然后根據知識的來源和去向對不同的知識轉移方法進行了分類。與以往基于問題導向或技術導向的知識轉移研究相比,我們的觀點更接近于知識轉移的本質,揭示了不同轉移學習設置和應用背后的共同規律。除了不同的知識轉移類別外,我們也展示了一些研究不同視覺識別任務之間可轉移性的研究工作。并對所介紹的研究工作進行了討論,指出了該領域的一些潛在研究方向。
題目: A Survey on Transfer Learning in Natural Language Processing
摘要:
深度學習模型通常需要大量數據。 但是,這些大型數據集并非總是可以實現的。這在許多具有挑戰性的NLP任務中很常見。例如,考慮使用神經機器翻譯,在這種情況下,特別對于低資源語言而言,可能無法整理如此大的數據集。深度學習模型的另一個局限性是對巨大計算資源的需求。這些障礙促使研究人員質疑使用大型訓練模型進行知識遷移的可能性。隨著許多大型模型的出現,對遷移學習的需求正在增加。在此調查中,我們介紹了NLP領域中最新的遷移學習進展。我們還提供了分類法,用于分類文獻中的不同遷移學習方法。
題目: Knowledge Graph Embeddings and Explainable AI
摘要: 知識圖譜嵌入是一種廣泛采用的知識表示方法,它將實體和關系嵌入到向量空間中。在這一章中,我們通過解釋知識圖譜嵌入是什么,如何生成它們以及如何對它們進行評估,向讀者介紹知識圖譜嵌入的概念。我們總結了這一領域的最新研究成果,對向量空間中表示知識的方法進行了介紹。在知識表示方面,我們考慮了可解釋性問題,并討論了通過知識圖譜嵌入來解釋預測的模型和方法。
題目: A Comprehensive Survey of Multilingual Neural Machine Translation
摘要: 本文綜述了近年來備受關注的多語言神經機器翻譯(MNMT)。由于翻譯知識的轉移(遷移學習),MNMT在提高翻譯質量方面發揮了重要作用。MNMT比統計機器翻譯更有前途,也更有趣,因為端到端建模和分布式表示為機器翻譯的研究開辟了新途徑。為了利用多語言并行語料庫來提高翻譯質量,人們提出了許多方法。但是,由于缺乏全面的綜述,很難確定哪些方法是有希望的,因此值得進一步探討。在這篇論文中,我們對現有的關于MNMT的文獻進行了深入的綜述。我們首先根據中心用例對各種方法進行分類,然后根據資源場景、基礎建模原則、核心問題和挑戰對它們進行進一步分類。只要有可能,我們就通過相互比較來解決幾種技術的優缺點。我們還討論了未來的方向,跨國公司的研究可能采取。本文的目標讀者既有初學者,也有專家。我們希望這篇論文能夠作為一個起點,同時也為那些對MNMT感興趣的研究人員和工程師提供新的思路。
現有的知識蒸餾方法主要集中在卷積神經網絡(convolutional neural networks~, CNNs)上,其中圖像等輸入樣本位于一個網格域內,而處理非網格數據的graph convolutional networks~(GCN)則在很大程度上被忽略。在這篇論文中,我們提出從一個預先訓練好的GCN模型中蒸餾知識的第一個專門方法。為了實現知識從教師到學生的遷移,我們提出了一個局部結構保留模塊,該模塊明確地考慮了教師的拓撲語義。在這個模塊中,來自教師和學生的局部結構信息被提取為分布,因此最小化這些分布之間的距離,使得來自教師的拓撲感知的知識轉移成為可能,從而產生一個緊湊但高性能的學生模型。此外,所提出的方法很容易擴展到動態圖模型,其中教師和學生的輸入圖可能不同。我們使用不同架構的GCN模型,在兩個不同的數據集上對所提出的方法進行了評估,并證明我們的方法達到了GCN模型最先進的知識蒸餾性能。
論文題目
Model Cards for Model Reporting
論文摘要
在給定一些具有足夠訓練樣本的基本類別上,少鏡頭學習的目的是從很少的樣本中學習新的類別。這項任務的主要挑戰是新的類別容易受到顏色、紋理、物體形狀或背景背景(即特異性)的支配,這對于給定的少數訓練樣本是不同的,但對于相應的類別則不常見。幸運的是,我們發現基于范疇可以幫助學習新概念,從而避免新概念被特定性所支配。此外,結合不同類別之間的語義關聯,可以有效地規范這種信息傳遞。在這項工作中,我們以結構化知識圖的形式來表示語義關聯,并將此圖集成到深度神經網絡中,利用一種新的知識圖轉移網絡(KGTN)來促進少量鏡頭的學習。具體地說,通過使用對應類別的分類器權重初始化每個節點,學習傳播機制以自適應地通過圖來探索節點間的相互作用,并將基本類別的分類器信息傳遞給新類別的分類器信息。在ImageNet數據集上進行的大量實驗表明,與當前領先的競爭對手相比,性能有了顯著提高。此外,我們還構建了一個涵蓋更大尺度類別(即6000個類別)的ImageNet-6K數據集,在該數據集上的實驗進一步證明了我們提出的模型的有效性。
論文作者 陳日泉,陳天水,許曉璐,吳鶴峰,李冠斌,梁林,中山大學達克馬特人工智能研究所。
論文題目: Spatio-temporal Action Recognition: A Survey
論文摘要: 動作識別或動作檢測的任務包括分析視頻并確定正在執行的動作或動作。這些視頻的主要主題是人類表演一些動作。然而,這一要求可以放寬,以推廣到其他學科,如動物或機器人。應用范圍從人機交互到自動視頻編輯方案。當我們考慮時空動作識別時,我們處理的是動作定位。此任務不僅涉及確定正在執行的操作,而且還涉及在所述視頻中執行操作的時間和位置。本文旨在綜述解決這一問題的各種方法和算法,對它們進行全面的比較,探索可用于解決這一問題的各種數據集,并確定最有希望的方法。
零樣本動作識別是近年來備受關注的研究領域,針對圖像和視頻中物體、事件和動作的識別提出了多種方法。由于收集、注釋和標記視頻是一項困難而費力的任務,因此需要一些方法來將實例從模型訓練中不存在的類中分類,特別是在復雜的自動視頻理解任務中。我們發現在文獻中有許多可用的方法,然而,很難對哪些技術可以被認為是最先進的技術進行分類。盡管有一些關于靜止圖像零樣本動作識別的調研和實驗,但是沒有針對視頻的研究。因此,在這篇文章中,我們提出了一個調查的方法,包括技術進行視覺特征提取和語義特征提取,以及學習這些特征之間的映射,特別是零鏡頭動作識別的視頻。我們還提供了一個完整的數據集,實驗和協議的描述,提出了開放的問題和未來的工作方向,這對計算機視覺研究領域的發展至關重要。
We consider the problem of zero-shot recognition: learning a visual classifier for a category with zero training examples, just using the word embedding of the category and its relationship to other categories, which visual data are provided. The key to dealing with the unfamiliar or novel category is to transfer knowledge obtained from familiar classes to describe the unfamiliar class. In this paper, we build upon the recently introduced Graph Convolutional Network (GCN) and propose an approach that uses both semantic embeddings and the categorical relationships to predict the classifiers. Given a learned knowledge graph (KG), our approach takes as input semantic embeddings for each node (representing visual category). After a series of graph convolutions, we predict the visual classifier for each category. During training, the visual classifiers for a few categories are given to learn the GCN parameters. At test time, these filters are used to predict the visual classifiers of unseen categories. We show that our approach is robust to noise in the KG. More importantly, our approach provides significant improvement in performance compared to the current state-of-the-art results (from 2 ~ 3% on some metrics to whopping 20% on a few).