簡介: 計算機視覺研究大多都集中在不重疊的目標對象上,然而,目標對象卻不足以描述豐富的視覺知識,于是,研究者就通過語言特征來獲取更多的信息。通過圖片與文字敘述相結合的多模態信息融合來獲取一個場景圖譜。
場景要旨的吸引人的想法的困難在于,關于“要旨”的內容尚無共識。 場景中某些對象應至少是要點的一部分。必須將對象之間的某些關系編碼為要點。 即使將所有物體都相同,所要表達的含義卻不同。
圖表示學習無處不在:
對具有獨立對象和關系的特征進行學習,將獲得一個場景圖譜:
使用生成模型的無監督學習具有發現3D場景豐富表示的潛力。這種神經場景表示可能隨后支持各種下游任務,從機器人技術到計算機圖形再到醫學成像。然而,現有的方法忽略了場景最基本的屬性之一:三維結構。在這項工作中,我們使神經場景表征與一個感應偏差的三維結構的情況。我們證明了這種歸納偏差如何使無監督的發現幾何和外觀,只給定的二維圖像。通過學習一組這樣的三維結構感知神經表征的分布,我們可以執行聯合重建的三維形狀和外觀只給出一個單一的二維觀察。我們表明,在這個過程中學習到的特征使整個類對象的三維語義分割成為可能,只訓練了30個帶標記的例子,證明了三維形狀、外觀和語義分割之間的緊密聯系。最后,我們討論了場景表示學習在計算機視覺本身中的本質和潛在作用,并討論了未來工作的前景。
回答大規模知識圖譜上的復雜邏輯查詢是一項基本而又具有挑戰性的任務。在本文中,我將概述如何使用向量空間嵌入在知識圖譜中執行邏輯推理。首先,我將討論預測一對實體之間關系的知識圖譜補全方法:通過捕獲與實體相鄰的關系類型來考慮每個實體的關系上下文,并通過一種新的基于邊的消息傳遞方案進行建模;考慮關系路徑捕獲兩個實體之間的所有路徑;通過一種可學習的注意力機制,自適應地整合關系上下文和關系路徑。其次,我們還將討論QUERY2BOX,這是一個基于嵌入的框架,用于推理使用and、or和存在操作符進行的大量且不完整的KGs中的任意查詢。
【導讀】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美國紐約舉辦。遷移學習近年來受到了非常大的關注,今年AAAI也有很多相關論文,這場Tutorial全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,還討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示,是一個非常全面的遷移表示學習總結,講者最后也介紹了其未來發展趨勢,值得研究者關注和收藏。
遷移表示學習最新進展
Recent Advances in Transferable Representation Learning
Tutorial 目標
本教程針對有興趣將深度學習技術應用于跨域決策任務的AI研究人員和從業人員。這些任務包括涉及多語言和跨語言自然語言處理,特定領域知識以及不同數據模式的任務。本教程將為聽眾提供以下方面的整體觀點:(i)針對未標記的文本,多關系和多媒體數據的多種表示學習方法;(ii)在有限的監督下跨多種表示對齊和遷移知識的技術;以及(iii)在自然語言理解,知識庫和計算生物學中使用這些技術的大量AI應用程序。我們將通過概述該領域未來的研究方向來結束本教程。觀眾不需要有特定的背景知識。
概述
許多人工智能任務需要跨域決策。例如,許多NLP任務涉及跨多種語言的預測,其中可以將不同的語言視為不同的域;在人工智能輔助的生物醫學研究中,藥物副作用的預測常常與蛋白質和有機體相互作用的建模并行進行。為了支持機器學習模型來解決這種跨域任務,必須提取不同域中數據組件的特征和關系,并在統一的表示方案中捕獲它們之間的關聯。為了滿足這一需求,表示學習的最新進展往往涉及到將不同域的未標記數據映射到共享嵌入空間。這樣,跨域的知識遷移可以通過向量搭配或變換來實現。這種可遷移的表現形式在涉及跨域決策的一系列人工智能應用中取得了成功。然而,這一領域的前沿研究面臨兩大挑戰。一是在學習資源很少的情況下如何有效地從特定領域中提取特性。另一個是在最少的監督下精確地對齊和傳遞知識,因為連接不同域的對齊信息常常是不充分和有噪聲的。
在本教程中,我們將全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,我們還將討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示。我們還將比較域內嵌入算法和跨域對齊算法的改進和聯合學習過程。此外,我們將討論如何利用獲得的可遷移表征來解決低資源和無標簽的學習任務。參會者將了解本主題的最新趨勢和挑戰,了解代表性工具和學習資源以獲取即用型模型,以及相關的模型和技術如何有益于現實世界AI應用程序。
講者介紹
Muhao Chen目前是美國賓夕法尼亞大學研究生院博士后。他于2019年在加州大學洛杉磯分校獲得了計算機科學博士學位。Muhao從事過機器學習和NLP方面的各種課題。他最近的研究也將相關技術應用于計算生物學。更多信息請訪問//muhaochen.github.io。
Kai-Wei Chang是加州大學洛杉磯分校計算機科學系的助理教授。他的研究興趣包括為大型復雜數據設計魯棒的機器學習方法,以及為社會公益應用程序構建語言處理模型。其他信息請訪問
Dan Roth是賓夕法尼亞大學CIS的Eduardo D. Glandt Distinguished Professor,也是AAAS、ACM、AAAI和ACL的Fellow。Roth因在自然語言理解建模、機器學習和推理方面的重大概念和理論進展而被認可。更多信息可以參考: /.
Compositional visual intelligence
Johnson Justin
Li, Fei Fei, 1976- degree supervisor.
Goodman, Noah, degree committee member.
Ré, Christopher, degree committee member.
Stanford University. Computer Science Departmen
//searchworks.stanford.edu/view/12746402
計算機視覺領域在過去幾年取得了巨大的進步,這主要歸功于卷積神經網絡。盡管在傳統的計算機視覺任務上取得了成功,但我們的機器系統離人類的一般視覺智能還有很長的路要走。視覺智能的一個重要方面是組合——對整體的理解源于對部分的理解。為了實現組成視覺智能的目標,我們必須探索新的計算機視覺任務,創建新的數據集,開發利用組成性的新模型。在這篇論文中,我將討論我的工作在三個不同的計算機視覺任務涉及語言,其中包含的合規性幫助我們建立具有更豐富的視覺智能的系統。我將首先討論圖像標題描述:傳統系統生成描述圖像的簡短句子,但是通過將圖像分解為區域和描述分解為短語,我們可以生成兩種更豐富的描述:密集的標題和段落。其次,我將討論視覺問答:現有的數據集主要由簡短的問題組成;為了研究更復雜的需要復合位置推理的問題,我們引入了一個新的benchark數據集。在此基礎上,提出了一種可視化問題交互的顯式組成模型,該模型將問題轉換為功能程序,并通過組合神經模塊來執行這些程序。第三,我將討論文本到圖像生成:現有的系統可以根據文本描述檢索或生成單個對象的簡單圖像,但難以處理更復雜的描述。用對象和關系的構成場景圖代替自由形式的自然語言,可以檢索和生成包含多個對象的復雜圖像。