多模態信息抽取,Multi-modal Information Extraction from Text, Semi-structured, and Tabular Data on the Web
Organizers: Xin Luna Dong, Hannaneh Hajishirzi, Colin Lockard and Prashant Shiralkar
萬維網以多種形式包含大量的文本信息:非結構化文本、基于模板的半結構化網頁(以鍵-值對和列表的形式呈現數據)和表格。從這些資源中提取信息并將其轉換為結構化形式的方法一直是自然語言處理(NLP)、數據挖掘和數據庫社區研究的目標。雖然這些研究人員已經很大程度上根據數據的模態將web數據的提取分離到不同的問題中,但他們也面臨著類似的問題,比如使用有限的標記數據進行學習,定義(或避免定義)本體,利用先驗知識,以及針對web規模的縮放解決方案。在本教程中,我們將從整體的角度來看待信息抽取,探索挑戰中的共性,以及為解決這些不同形式的文本而開發的解決方案。
地址:
在當今的信息和計算社會中,復雜系統常常被建模為與異質結構關系、非結構化屬性/內容、時間上下文或它們的組合相關聯的多模態網絡。多模態網絡中豐富的信息要求在進行特征工程時既要有一個領域的理解,又要有一個大的探索性搜索空間,以建立針對不同目的的定制化智能解決方案。因此,在多模態網絡中,通過表示學習自動發現特征已成為許多應用的必要。在本教程中,我們系統地回顧了多模態網絡表示學習的領域,包括一系列最近的方法和應用。這些方法將分別從無監督、半監督和監督學習的角度進行分類和介紹,并分別給出相應的實際應用。最后,我們總結了本教程并進行了公開討論。本教程的作者是這一領域活躍且富有成效的研究人員。
//chuxuzhang.github.io/KDD20_Tutorial.html
理想情況下,我們希望將兩個幾何對象插入到一個函數中,然后通過函數來說明它們之間的相似性。這將允許我們回答關于下游應用程序中幾何數據的不同層次上的各種問題。然而,對于高級任務,如計算樣式相似度或三維形狀之間的頂點到頂點映射,直接在原始幾何數據上進行這些操作是困難的,因為更抽象的任務需要更結構化的聚合信息。實現這種相似性函數的一種方法是首先計算這些數據到嵌入空間的映射,從而對不同幾何元素之間的有意義的關系進行編碼,例如在風格上,更相似的形狀嵌入得更緊密。通過利用這個嵌入空間,我們可以計算并輸出相似度度量。然而,手工構建保存這些屬性的映射是很困難的,因為為越來越抽象的任務制定顯式規則或模型變得越來越具有挑戰性。因此,我們使用了由人類提供的與任務相關的元信息的幾何數據集合。這允許我們通過使用神經網絡靈活地制定地圖計算,而不用對映射圖本身的形式做太多假設。為了從廣泛可用的機器學習技術中獲益,我們必須首先考慮如何選擇合適的幾何數據表示作為各種學習模型的輸入。具體來說,根據數據源的可用性和任務的特定需求,我們從圖像、點云和三角形網格計算嵌入。一旦我們找到了對輸入進行編碼的合適方法,我們就會探索不同的方法來塑造學習到的中間域(嵌入),這超越了直接的基于分類分布的交叉熵最小化方法。
//sites.google.com/view/geometry-learning-foundation/schedule#h.p_am99P6ELk_gL
【導讀】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美國紐約舉辦。遷移學習近年來受到了非常大的關注,今年AAAI也有很多相關論文,這場Tutorial全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,還討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示,是一個非常全面的遷移表示學習總結,講者最后也介紹了其未來發展趨勢,值得研究者關注和收藏。
遷移表示學習最新進展
Recent Advances in Transferable Representation Learning
Tutorial 目標
本教程針對有興趣將深度學習技術應用于跨域決策任務的AI研究人員和從業人員。這些任務包括涉及多語言和跨語言自然語言處理,特定領域知識以及不同數據模式的任務。本教程將為聽眾提供以下方面的整體觀點:(i)針對未標記的文本,多關系和多媒體數據的多種表示學習方法;(ii)在有限的監督下跨多種表示對齊和遷移知識的技術;以及(iii)在自然語言理解,知識庫和計算生物學中使用這些技術的大量AI應用程序。我們將通過概述該領域未來的研究方向來結束本教程。觀眾不需要有特定的背景知識。
概述
許多人工智能任務需要跨域決策。例如,許多NLP任務涉及跨多種語言的預測,其中可以將不同的語言視為不同的域;在人工智能輔助的生物醫學研究中,藥物副作用的預測常常與蛋白質和有機體相互作用的建模并行進行。為了支持機器學習模型來解決這種跨域任務,必須提取不同域中數據組件的特征和關系,并在統一的表示方案中捕獲它們之間的關聯。為了滿足這一需求,表示學習的最新進展往往涉及到將不同域的未標記數據映射到共享嵌入空間。這樣,跨域的知識遷移可以通過向量搭配或變換來實現。這種可遷移的表現形式在涉及跨域決策的一系列人工智能應用中取得了成功。然而,這一領域的前沿研究面臨兩大挑戰。一是在學習資源很少的情況下如何有效地從特定領域中提取特性。另一個是在最少的監督下精確地對齊和傳遞知識,因為連接不同域的對齊信息常常是不充分和有噪聲的。
在本教程中,我們將全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,我們還將討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示。我們還將比較域內嵌入算法和跨域對齊算法的改進和聯合學習過程。此外,我們將討論如何利用獲得的可遷移表征來解決低資源和無標簽的學習任務。參會者將了解本主題的最新趨勢和挑戰,了解代表性工具和學習資源以獲取即用型模型,以及相關的模型和技術如何有益于現實世界AI應用程序。
講者介紹
Muhao Chen目前是美國賓夕法尼亞大學研究生院博士后。他于2019年在加州大學洛杉磯分校獲得了計算機科學博士學位。Muhao從事過機器學習和NLP方面的各種課題。他最近的研究也將相關技術應用于計算生物學。更多信息請訪問//muhaochen.github.io。
Kai-Wei Chang是加州大學洛杉磯分校計算機科學系的助理教授。他的研究興趣包括為大型復雜數據設計魯棒的機器學習方法,以及為社會公益應用程序構建語言處理模型。其他信息請訪問
Dan Roth是賓夕法尼亞大學CIS的Eduardo D. Glandt Distinguished Professor,也是AAAS、ACM、AAAI和ACL的Fellow。Roth因在自然語言理解建模、機器學習和推理方面的重大概念和理論進展而被認可。更多信息可以參考: /.