教程題目:Unsupervised Cross-Lingual Representation Learning
教程簡介:
在本教程中,將會對弱監督、無監督跨語言詞表征領域的最新最前沿成果進行一次完整的綜述。在簡要介紹了監督跨語言詞表示的歷史之后,重點介紹以下內容:
組織者:
Sebastian Ruder是倫敦DeepMind的一名研究科學家。在Insight數據分析研究中心完成了自然語言處理和深度學習的博士學位,同時在柏林的文本分析初創公司AYLIEN擔任研究科學家。
Anders S?gaard是哥本哈根大學計算機科學自然語言處理與機器學習教授,同時是柏林谷歌的訪問科學家。
Ivan Vuli?目前擔任劍橋大學詞匯項目(2015-2020年跨語言詞匯習得)的高級研究員。在庫魯汶大學獲得了計算機科學博士學位,研究興趣是自然語言處理、人類語言理解、機器學習理論和應用,信息檢索,主要在多語言/跨語言和多模式設置,包括(但不限于)雙語詞典提取和跨語言語義建模、跨語言和多語言信息檢索,分布語義,跨語言文本挖掘和知識轉移,語言基礎和認知建模的語言,詞匯獲取、文本表示學習、潛在主題模型、文本數據的概率建模、術語挖掘和對齊、機器翻譯、資源稀缺語言的無監督技術、多習慣用法和多模態信息搜索和檢索、多模態和視覺/感知增強語義等。
題目: Online Deep Clustering for Unsupervised Representation Learning
摘要:
聯合聚類和特征學習方法在無監督表示學習中表現出了顯著的效果。但是,特征聚類和網絡參數更新訓練計劃的交替導致視覺表征學習的不穩定。為了克服這個挑戰,我們提出在線深度集群(ODC),它可以同時執行集群和網絡更新,而不是交替進行。關鍵見解是,聚類中心應該穩步發展,以保持分類器的穩定更新。具體來說,設計和維護了兩個動態內存模塊,即樣本記憶用于存儲樣本標簽和特征,中心記憶用于中心進化。我們將全局聚類分解為穩定的內存更新和成批的標簽重新分配。該過程被集成到網絡更新迭代中。通過這種方式,標簽和網絡齊頭并進,而不是交替發展。大量的實驗表明,ODC能夠穩定訓練過程,有效地提高訓練性能。
題目
跨語言表示學習,Unsupervised Cross-lingual Representation Learning at Scale
關鍵詞
自然語言處理,表示學習,跨語言,人工智能
簡介
本文表明,針對多種跨語言轉換任務,大規模地對多語言語言模型進行預訓練可以顯著提高性能。 我們使用超過2 TB的經過過濾的CommonCrawl數據在一百種語言上訓練了基于Transformer的屏蔽語言模型。 我們的模型稱為XLM-R,在各種跨語言基準測試中,其性能明顯優于多語言BERT(mBERT),包括XNLI的平均精度為+ 13.8%,MLQA的平均F1得分為+ 12.3%,NER的平均F1得分為+ 2.1%。 XLM-R在低資源語言上表現特別出色,與以前的XLM模型相比,斯瓦希里語的XNLI準確性提高了11.8%,烏爾都語的準確性提高了9.2%。 我們還對獲得這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極轉移和能力稀釋以及(2)大規模資源資源的高低性能之間的權衡。 最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性。 XLM-R在GLUE和XNLI基準測試中具有強大的單語言模型,因此非常具有競爭力。 我們將公開提供XLM-R代碼,數據和模型。
作者
Alexis Conneau, Kartikay Khandelwal等。
主題: Semi-Supervised StyleGAN for Disentanglement Learning
摘要: 解纏學習是獲得解纏表示和可控生成的關鍵。目前的解纏方法面臨著一些固有的局限性:難以獲得高分辨率圖像,主要是學習解纏表示,以及由于無監督設置而無法識別。為了緩解這些限制,我們設計了基于StyleGAN(Karras等人,2019)的新架構和損失函數,用于半監督高分辨率解糾纏學習。我們創建了兩個復雜的高分辨率合成數據集用于系統測試。我們研究了有限監督的影響,發現僅使用0.25%~2.5%的標記數據就足以對合成數據集和真實數據集進行良好的分離。我們提出了新的量化發電機可控性的指標,并觀察到分離表示學習和可控發電之間可能存在一個關鍵的權衡。我們還考慮了語義細粒度的圖像編輯,以實現對看不見的圖像更好的泛化。
我們提出了一個多語言神經機器翻譯的概率框架,它包括監督和非監督設置,重點是無監督翻譯。除了研究只有單語數據可用的基本情況外,我們還提出了一種新的設置,即(源、目標)對中的一種語言不與任何并行數據相關聯,但可能存在包含另一種語言的輔助并行數據。通過一個新的交叉翻譯損失項,這些輔助數據可以很自然地用在我們的概率框架中。經驗表明,我們的方法在大多數方向的WMT'14英-法、WMT'16英-德、WMT'16英-羅數據集上,比最先進的無監督模型獲得更高的BLEU分數。特別是,我們獲得了+1.65 BLEU的優勢,在羅馬尼亞-英國方向的最佳表現的無監督模式。
【導讀】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美國紐約舉辦。遷移學習近年來受到了非常大的關注,今年AAAI也有很多相關論文,這場Tutorial全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,還討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示,是一個非常全面的遷移表示學習總結,講者最后也介紹了其未來發展趨勢,值得研究者關注和收藏。
遷移表示學習最新進展
Recent Advances in Transferable Representation Learning
Tutorial 目標
本教程針對有興趣將深度學習技術應用于跨域決策任務的AI研究人員和從業人員。這些任務包括涉及多語言和跨語言自然語言處理,特定領域知識以及不同數據模式的任務。本教程將為聽眾提供以下方面的整體觀點:(i)針對未標記的文本,多關系和多媒體數據的多種表示學習方法;(ii)在有限的監督下跨多種表示對齊和遷移知識的技術;以及(iii)在自然語言理解,知識庫和計算生物學中使用這些技術的大量AI應用程序。我們將通過概述該領域未來的研究方向來結束本教程。觀眾不需要有特定的背景知識。
概述
許多人工智能任務需要跨域決策。例如,許多NLP任務涉及跨多種語言的預測,其中可以將不同的語言視為不同的域;在人工智能輔助的生物醫學研究中,藥物副作用的預測常常與蛋白質和有機體相互作用的建模并行進行。為了支持機器學習模型來解決這種跨域任務,必須提取不同域中數據組件的特征和關系,并在統一的表示方案中捕獲它們之間的關聯。為了滿足這一需求,表示學習的最新進展往往涉及到將不同域的未標記數據映射到共享嵌入空間。這樣,跨域的知識遷移可以通過向量搭配或變換來實現。這種可遷移的表現形式在涉及跨域決策的一系列人工智能應用中取得了成功。然而,這一領域的前沿研究面臨兩大挑戰。一是在學習資源很少的情況下如何有效地從特定領域中提取特性。另一個是在最少的監督下精確地對齊和傳遞知識,因為連接不同域的對齊信息常常是不充分和有噪聲的。
在本教程中,我們將全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,我們還將討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示。我們還將比較域內嵌入算法和跨域對齊算法的改進和聯合學習過程。此外,我們將討論如何利用獲得的可遷移表征來解決低資源和無標簽的學習任務。參會者將了解本主題的最新趨勢和挑戰,了解代表性工具和學習資源以獲取即用型模型,以及相關的模型和技術如何有益于現實世界AI應用程序。
講者介紹
Muhao Chen目前是美國賓夕法尼亞大學研究生院博士后。他于2019年在加州大學洛杉磯分校獲得了計算機科學博士學位。Muhao從事過機器學習和NLP方面的各種課題。他最近的研究也將相關技術應用于計算生物學。更多信息請訪問//muhaochen.github.io。
Kai-Wei Chang是加州大學洛杉磯分校計算機科學系的助理教授。他的研究興趣包括為大型復雜數據設計魯棒的機器學習方法,以及為社會公益應用程序構建語言處理模型。其他信息請訪問
Dan Roth是賓夕法尼亞大學CIS的Eduardo D. Glandt Distinguished Professor,也是AAAS、ACM、AAAI和ACL的Fellow。Roth因在自然語言理解建模、機器學習和推理方面的重大概念和理論進展而被認可。更多信息可以參考: /.
簡介: 許多人工智能任務需要跨域決策。例如,許多NLP任務涉及跨多種語言的預測,其中不同語言可以被視為不同的領域;在人工智能輔助的生物醫學研究中,藥物副作用的預測通常與蛋白質和生物體相互作用的建模并行。為了支持機器學習模型來解決這類跨域任務,需要提取不同域中數據組件的特征和關系,并在統一的表示方案中捕獲它們之間的關聯。針對這一需求,表示學習的最新進展往往涉及到將不同域的未標記數據映射到共享嵌入空間。這樣,就可以通過向量配置或變換來實現跨領域的知識轉移。這種可轉移的表示在涉及跨域決策的一系列人工智能應用中取得了成功。然而,這一領域的前沿研究面臨著兩大挑戰。一是在學習資源很少的情況下,有效地從特定領域提取特征。另一種方法是在最少的監督下精確地對齊和傳輸知識,因為連接在不同域之間的對齊信息常常是不足的和有噪聲的。在本教程中,我們將全面回顧可轉移表示學習方法的最新發展,重點是針對文本、多關系和多媒體數據的方法。除了介紹域內嵌入學習方法外,我們還將討論各種半監督、弱監督、多視圖和自監督學習技術,以連接多個特定域的嵌入表示。我們還將比較域內嵌入學習和跨域對齊學習的改進和聯合學習過程。此外,我們將討論如何利用獲得的可轉移表示來解決低資源和無標簽的學習任務。參與者將了解本主題的最新趨勢和新挑戰,獲得現成模型的代表性工具和學習資源,以及相關模型和技術如何有利于現實世界的人工智能應用。
主講人簡介: Muhao Chen,博士后。他于2019年獲得加州大學洛杉磯分校計算機科學博士學位。他的研究重點是結構化和非結構化數據的數據驅動機器學習方法,并將其應用擴展到自然語言理解、知識庫構建、計算生物學和醫學信息學。特別是,他感興趣的是開發具有概括性且需要最少監督的知識感知學習系統。他的工作在主要會議和期刊上發表了30多篇文章。他的論文研究獲得了加州大學洛杉磯分校的論文獎學金。個人主頁://muhaochen.github.io/等
主題: Advances in Argument Mining
摘要: 本課程旨在向學生介紹一個令人興奮和充滿活力的領域,這個領域在過去36個月里取得了顯著的發展。論點挖掘建立在觀點挖掘、情緒分析和相關任務的基礎上,不僅自動提取人們的想法,還自動提取他們持有自己觀點的原因。僅僅五年前,它還遠遠超出了最先進的技術水平,現在已經有數百篇關于這一主題的論文和數百萬美元的商業和研究投資。本教程綜合介紹了過去三年該領域的主要進展。
下載鏈接: 鏈接://pan.baidu.com/s/1gHFkF-vWdZn-WYL566BR_Q 提取碼:rt85
This paper shows that pretraining multilingual language models at scale leads to significant performance gains for a wide range of cross-lingual transfer tasks. We train a Transformer-based masked language model on one hundred languages, using more than two terabytes of filtered CommonCrawl data. Our model, dubbed XLM-R, significantly outperforms multilingual BERT (mBERT) on a variety of cross-lingual benchmarks, including +13.8% average accuracy on XNLI, +12.3% average F1 score on MLQA, and +2.1% average F1 score on NER. XLM-R performs particularly well on low-resource languages, improving 11.8% in XNLI accuracy for Swahili and 9.2% for Urdu over the previous XLM model. We also present a detailed empirical evaluation of the key factors that are required to achieve these gains, including the trade-offs between (1) positive transfer and capacity dilution and (2) the performance of high and low resource languages at scale. Finally, we show, for the first time, the possibility of multilingual modeling without sacrificing per-language performance; XLM-Ris very competitive with strong monolingual models on the GLUE and XNLI benchmarks. We will make XLM-R code, data, and models publicly available.