題目:
Transfer Learning in Visual and Relational Reasoning
簡介:
遷移學習已成為計算機視覺和自然語言處理中的事實上的標準,尤其是在缺少標簽數據的地方。通過使用預先訓練的模型和微調,可以顯著提高準確性。在視覺推理任務(例如圖像問答)中,傳遞學習更加復雜。除了遷移識別視覺特征的功能外,我們還希望遷移系統的推理能力。而且,對于視頻數據,時間推理增加了另一個維度。在這項工作中,我們將遷移學習的這些獨特方面形式化,并提出了一種視覺推理的理論框架,以完善的CLEVR和COGdatasets為例。此外,我們引入了一種新的,端到端的微分遞歸模型(SAMNet),該模型在兩個數據集上的傳輸學習中均顯示了最新的準確性和更好的性能。改進的SAMNet性能源于其將抽象的多步推理與序列的長度解耦的能力及其選擇性的關注能力,使其僅能存儲與問題相關的信息外部存儲器中的對象。
目錄:
在為視覺訓練深度神經網絡時,預訓練表示的遷移提高了樣本效率并簡化了超參數調整。我們回顧了在大型監督數據集上進行預訓練和在目標任務上對模型進行微調的范例。我們擴大了預訓練的規模,并提出了一個簡單的方法,我們稱之為大遷移(BiT)。通過組合一些精心選擇的組件,并使用一個簡單的啟發式傳輸,我們在20多個數據集上實現了強大的性能。BiT在非常廣泛的數據范圍內執行得非常好——從每個類1個示例到總共100萬個示例。BiT在ILSVRC-2012上達到87.5%的top-1準確率,在CIFAR-10上達到99.4%,在19個任務的視覺任務適應基準(VTAB)上達到76.3%。在小型數據集上,在ILSVRC-2012上BiT達到了76.8%,每個類有10個例子,在CIFAR-10上達到了97.0%,每個類有10個例子。我們對導致高遷移性能的主要部件進行了詳細的分析。
題目: Causal Relational Learning
摘要:
因果推理是自然科學和社會科學實證研究的核心,對科學發現和知情決策至關重要。因果推理的黃金標準是進行隨機對照試驗;不幸的是,由于倫理、法律或成本的限制,這些方法并不總是可行的。作為一種替代方法,從觀察數據中進行因果推斷的方法已經在統計研究和社會科學中得到發展。然而,現有的方法嚴重依賴于限制性的假設,例如由同質元素組成的研究總體,這些同質元素可以在一個單平表中表示,其中每一行都被稱為一個單元。相反,在許多實際環境中,研究領域自然地由具有復雜關系結構的異構元素組成,其中數據自然地表示為多個相關表。在本文中,從關系數據中提出了一個正式的因果推理框架。我們提出了一種稱為CaRL的聲明性語言,用于捕獲因果背景知識和假設,并使用簡單的Datalog類規則指定因果查詢。CaRL為在關系領域中推斷復雜干預的影響的因果關系和推理提供了基礎。我們對真實的關系數據進行了廣泛的實驗評估,以說明CaRL理論在社會科學和醫療保健領域的適用性。
題目: Learning Attention-based Embeddings for Relation Prediction in Knowledge Graphs
摘要: 近年來隨著知識圖譜(KGs)的大量涌現,加上實體間缺失關系(鏈接)的不完全或部分信息,催生了大量關于知識庫補全(也稱為關系預測)的研究。最近的一些研究表明,基于卷積神經網絡(CNN)的模型能夠生成更豐富、更有表現力的特征嵌入,因此在關系預測方面也有很好的表現。然而,我們觀察到這些KG嵌入獨立地處理三元組,因此不能捕獲到三元組周圍的復雜和隱藏的信息。為此,本文提出了一種新的基于注意的特征嵌入方法,該方法能同時捕獲任意給定實體鄰域內的實體特征和關系特征。此外,我們還在模型中封裝了關系集群和多跳關系。我們的實驗研究為我們基于注意力的模型的有效性提供了深入的見解,并且與所有數據集上的最先進的方法相比,有顯著的性能提升。
Path-based relational reasoning over knowledge graphs has become increasingly popular due to a variety of downstream applications such as question answering in dialogue systems, fact prediction, and recommender systems. In recent years, reinforcement learning (RL) has provided solutions that are more interpretable and explainable than other deep learning models. However, these solutions still face several challenges, including large action space for the RL agent and accurate representation of entity neighborhood structure. We address these problems by introducing a type-enhanced RL agent that uses the local neighborhood information for efficient path-based reasoning over knowledge graphs. Our solution uses graph neural network (GNN) for encoding the neighborhood information and utilizes entity types to prune the action space. Experiments on real-world dataset show that our method outperforms state-of-the-art RL methods and discovers more novel paths during the training procedure.
題目: Self-supervised Visual Feature Learning with Deep Neural Networks: A Survey
摘要: 為了在計算機視覺應用中從圖像或視頻中獲得更好的視覺特征學習性能,通常需要大規模的標記數據來訓練深度神經網絡。為了避免大規模數據集收集和標注的大量開銷,作為無監督學習方法的一個子集,提出了一種自監督學習方法,在不使用任何人類標注的標簽的情況下,從大規模無標記數據中學習圖像和視頻的一般特征。本文對基于深度學習的自監督一般視覺特征學習方法進行了廣泛的綜述。首先,描述了該領域的動機、通用管道和術語。在此基礎上,總結了常用的用于自監督學習的深度神經網絡體系結構。接下來,回顧了自監督學習方法的模式和評價指標,然后介紹了常用的圖像和視頻數據集以及現有的自監督視覺特征學習方法。最后,總結和討論了基于基準數據集的定量性能比較方法在圖像和視頻特征學習中的應用。最后,對本文的研究進行了總結,并提出了一套具有發展前景的自監督視覺特征學習方法。
題目: Bayesian Reasoning with Deep-Learned Knowledge
摘要: 我們通過對訓練的深層神經網絡的內在理解,在復雜的任務上進行貝葉斯推理。獨立訓練的網絡被安排在其原始范圍之外的swer問題的聯合中,而swer問題是用貝葉斯推理問題來表示的。我們用近似推理來解決這個問題,這為結果提供了不確定性。我們展示了如何在高分辨率的人臉圖像背景下,將獨立訓練的網絡與傳統的噪聲測量相結合,從傳統的生成器中提取樣本,同時解決多個約束條件下的謎題。
題目
知識圖譜的生成式對抗零樣本關系學習:Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs
簡介
大規模知識圖譜(KGs)在當前的信息系統中顯得越來越重要。為了擴大知識圖的覆蓋范圍,以往的知識圖完成研究需要為新增加的關系收集足夠的訓練實例。本文考慮一種新的形式,即零樣本學習,以擺脫這種繁瑣的處理,對于新增加的關系,我們試圖從文本描述中學習它們的語義特征,從而在不見實例的情況下識別出看不見的關系。為此,我們利用生成性對抗網絡(GANs)來建立文本與知識邊緣圖域之間的聯系:生成器學習僅用有噪聲的文本描述生成合理的關系嵌入。在這種背景下,零樣本學習自然轉化為傳統的監督分類任務。從經驗上講,我們的方法是模型不可知的,可以應用于任何版本的KG嵌入,并在NELL和Wikidataset上產生性能改進。
作者 Pengda Qin,Xin Wang,Wenhu Chen,Chunyun Zhang,Weiran Xu1William Yang Wang
論文題目:
Latent Relation Language Models
論文摘要: 在本文中,我們提出了潛在關系語言模型(LRLM),它是一類語言模型,它通過知識圖的關系參數化文檔中單詞和其中出現的實體的聯合分布。 該模型具有許多吸引人的屬性:它不僅提高了語言建模性能,而且還能夠注釋實體跨度對于關聯文本的后驗概率。 實驗表明,在基于單詞的基準語言模型和結合了知識圖譜信息的先前方法上,經驗性改進。 定性分析進一步證明了該模型在上下文中學習最佳預測適當關系的能力。
論文摘要: Multi-paragraph推理對于open-domain問答(OpenQA)是必不可少的,盡管在當前的OpenQA系統中受到的關注較少。在這項工作中,我們提出一個知識增強圖神經網絡(KGNN),使用實體對多個段落進行推理。為了顯式地捕捉到實體的關系,KGNN利用關系事實知識圖譜構建實體圖譜。實驗結果表明,與HotpotQA數據集上的基線方法相比,KGNN在分散注意力和完整的wiki設置方面都有更好的表現。我們進一步的分析表明,KGNN在檢索更多的段落方面是有效和具有魯棒性的。
Recently, Visual Question Answering (VQA) has emerged as one of the most significant tasks in multimodal learning as it requires understanding both visual and textual modalities. Existing methods mainly rely on extracting image and question features to learn their joint feature embedding via multimodal fusion or attention mechanism. Some recent studies utilize external VQA-independent models to detect candidate entities or attributes in images, which serve as semantic knowledge complementary to the VQA task. However, these candidate entities or attributes might be unrelated to the VQA task and have limited semantic capacities. To better utilize semantic knowledge in images, we propose a novel framework to learn visual relation facts for VQA. Specifically, we build up a Relation-VQA (R-VQA) dataset based on the Visual Genome dataset via a semantic similarity module, in which each data consists of an image, a corresponding question, a correct answer and a supporting relation fact. A well-defined relation detector is then adopted to predict visual question-related relation facts. We further propose a multi-step attention model composed of visual attention and semantic attention sequentially to extract related visual knowledge and semantic knowledge. We conduct comprehensive experiments on the two benchmark datasets, demonstrating that our model achieves state-of-the-art performance and verifying the benefit of considering visual relation facts.