近年來,在大量原始文本上預先訓練的大型語言模型徹底改變了自然語言處理。現有的方法,基于因果或隱藏的語言模型的變化,現在為每一個NLP任務提供了事實上的方法。在這個演講中,我將討論最近在語言模型預訓練方面的工作,從ELMo、GPT和BERT到更近期的模型。我的目標是對總體趨勢進行廣泛的報道,但提供更多關于我們最近在Facebook AI和華盛頓大學開發的模型的細節。其中特別包括序列到序列模型的預訓練方法,如BART、mBART和MARGE,它們提供了一些迄今為止最普遍適用的方法。
本教程的目標讀者是對幫助機器理解自然語言文本(特別是文本中描述的真實事件)的人工智能技術感興趣的研究人員和實踐者。這些方法包括提取一個事件關于其主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將向讀者系統地介紹(i)事件的知識表示,(ii)自動提取、概念化和預測事件及其關系的各種方法,(iii)事件過程和屬性的歸納,以及(iv)大量受益于上述技術的NLU和常識理解任務。我們將概述這一領域中出現的研究問題,以此結束本教程。
//cogcomp.seas.upenn.edu/page/tutorial.202102/
人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘事預測可以通過學習事件的因果關系來預測故事接下來會發生什么;機器理解文件可能包括理解影響股票市場的事件,描述自然現象或識別疾病表型。事實上,事件理解在諸如開放域問題回答、意圖預測、時間軸構建和文本摘要等任務中也廣泛地發現了它的重要用例。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件之間的關系,這些關系描述了事件的成員關系、共同參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及其參與者、粒度、位置和時間。
在本教程中,我們將全面回顧文獻中以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了介紹事件提取的部分標簽和無監督學習方法外,我們還將討論最近的約束學習和結構化推理方法,用于從文本中提取多方面的事件-事件關系。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠程監督的方法如何幫助解決對事件的時間和因果常識的理解,以及如何應用它們來構建大規模的可能性知識庫。與會者將了解該主題的最新趨勢和新出現的挑戰,獲得現成模型的代表性工具和學習資源,以及相關模型和技術如何有利于最終使用的NLU應用。
元學習可以讓機器學習新的算法。這是一個新興且快速發展的機器學習研究領域,對所有人工智能研究都有影響。最近的成功案例包括自動模型發現、少槍學習、多任務學習、元強化學習,以及教機器閱讀、學習和推理。正如人類不會從頭開始學習新任務,而是利用之前所學的知識一樣,元學習是高效和穩健學習的關鍵。本教程將介紹該領域及其應用的重要數學基礎,包括這個領域中當前技術水平的關鍵方法,該領域對眾多AAAI參與者來說越來越重要。
//sites.google.com/mit.edu/aaai2021metalearningtutorial
內容目錄:
社交網絡和分子圖等結構化的圖形數據在現實世界中隨處可見。設計先進的圖結構數據表示學習算法,促進下游任務的完成,具有重要的研究意義。圖神經網絡(GNNs)將深度神經網絡模型推廣到圖結構數據,為從節點級或圖級有效學習圖結構數據表示開辟了一條新途徑。由于其強大的表示學習能力,GNN在從推薦、自然語言處理到醫療保健等各種應用中獲得了實際意義。近年來,它已成為一個熱門的研究課題,越來越受到機器學習和數據挖掘界的關注。本教程涵蓋了相關和有趣的主題,包括使用GNNs在圖結構數據上的表示學習、GNNs的魯棒性、GNNs的可擴展性和基于GNNs的應用程序。
目錄內容: 引言 Introduction 基礎 Foundations 模型 Models 應用 Applications
圖神經網絡(GNN)已經成為圖表示學習的事實標準,它通過遞歸地聚集圖鄰域的信息來獲得有效的節點表示。盡管 GNN 可以從頭開始訓練,但近來一些研究表明:對 GNN 進行預訓練以學習可用于下游任務的可遷移知識能夠提升 SOTA 性能。但是,傳統的 GNN 預訓練方法遵循以下兩個步驟:
在大量未標注數據上進行預訓練; 在下游標注數據上進行模型微調。 由于這兩個步驟的優化目標不同,因此二者存在很大的差距。
在本文中,我們分析了預訓練和微調之間的差異,并為了緩解這種分歧,我們提出了一種用于GNNs的自監督預訓練策略L2P-GNN。方法的關鍵是L2P-GNN試圖以可轉移的先驗知識的形式學習如何在預訓練過程中進行微調。為了將局部信息和全局信息都編碼到先驗信息中,我們在節點級和圖級設計了一種雙重自適應機制。最后,我們對不同GNN模型的預訓練進行了系統的實證研究,使用了一個蛋白質數據集和一個文獻引用數據集進行了預訓練。實驗結果表明,L2P-GNN能夠學習有效且可轉移的先驗知識,為后續任務提供好的表示信息。我們在//github.com/rootlu/L2P-GNN公開了模型代碼,同時開源了一個大規模圖數據集,可用于GNN預訓練或圖分類等。
總體來說,本文的貢獻如下:
從異步視頻面試(AVI)中的自動語音識別(ASR)轉錄中,我們解決了基于文本特征自動為候選人的能力評分的任務。問題的關鍵在于如何構建問題與答案之間的依賴關系,并對每個問答(QA)對進行語義級交互。然而,目前AVI的研究大多集中在如何更好地表示問題和答案上,而忽視了它們之間的依賴信息和相互作用,而這是QA評估的關鍵。在這項工作中,我們提出了一種層次推理圖神經網絡(HRGNN)用于問答對的自動評估。具體來說,我們構建了一個句子級關系圖神經網絡來捕獲問題和答案之間的句子依賴信息。基于這些圖,我們采用語義級推理圖注意網絡對當前QA會話的交互狀態進行建模。最后,我們提出了一種門控遞歸單元編碼器來表示用于最終預測的時間問答對。在CHNAT(一個真實數據集)上進行的實證結果驗證了我們提出的模型顯著優于基于文本匹配的基準模型。消融研究和10個隨機種子的實驗結果也表明了我們模型的有效性和穩定性。
//www.zhuanzhi.ai/paper/5c766d478e8b7fae79e95f2a09e5bdd1
不確定性的概念在機器學習中是非常重要的,并且構成了現代機器學習方法論的一個關鍵元素。近年來,由于機器學習與實際應用的相關性越來越大,它的重要性也越來越大,其中許多應用都伴隨著安全要求。在這方面,機器學習學者們發現了新的問題和挑戰,需要新的方法發展。事實上,長期以來,不確定性幾乎被視為標準概率和概率預測的同義詞,而最近的研究已經超越了傳統的方法,也利用了更一般的形式主義和不確定性計算。例如,不確定性的不同來源和類型之間的區別,例如任意不確定性和認知不確定性,在許多機器學習應用中被證明是有用的。講習班將特別注意這方面的最新發展。
綜述論文:
不確定性的概念在機器學習中是非常重要的,并且構成了機器學習方法的一個關鍵元素。按照統計傳統,不確定性長期以來幾乎被視為標準概率和概率預測的同義詞。然而,由于機器學習與實際應用和安全要求等相關問題的相關性穩步上升,機器學習學者最近發現了新的問題和挑戰,而這些問題可能需要新的方法發展。特別地,這包括區分(至少)兩種不同類型的不確定性的重要性,通常被稱為任意的和認知的。在這篇論文中,我們提供了機器學習中的不確定性主題的介紹,以及到目前為止在處理一般不確定性方面的嘗試的概述,并特別將這種區別形式化。
【導讀】BERT的出現革新了眾多自然語言處理任務中的模型架構范式,由此以BERT、為代表預訓練語言模型(PLM)在多項任務中刷新了榜單,引起了學術界和工業界的大量關注。斯坦福大學經典自然語言處理課程CS224N邀請了BERT一作、Google 研究員Jacob Devlin做了關于上下文詞表示BERT以及預訓練語言模型的課程講座,親授大廠實戰經驗,值得關注!
預訓練好的詞嵌入是NLP深度學習成功的關鍵,因為它們允許模型利用web上幾乎無限數量的未注釋文本。在過去的幾年里,條件語言模型被用來生成預訓練上下文表示,這比簡單的嵌入更加豐富和強大。本文介紹BERT(來自Transformers的雙向編碼器表示),它可以生成深度雙向的預訓練語言表示。BERT在Stanford Question Answering Dataset, MultiNLI, Stanford Sentiment Treebank和許多其他任務上獲得了最先進的結果。
Jacob Devlin是谷歌的研究員。在谷歌,他的主要研究興趣是開發用于信息檢索、問題回答和其他語言理解任務的快速、強大和可擴展的深度學習模型。2014年至2017年,他在微軟研究院擔任首席研究員,領導微軟翻譯從基于短語的翻譯過渡到神經機器翻譯(NMT)。Devlin先生是ACL 2014年最佳長論文獎和NAACL 2012年最佳短論文獎的獲得者。2009年,他在馬里蘭大學(University of Maryland)獲得了計算機科學碩士學位,導師是邦尼·多爾(Bonnie Dorr)博士。
//web.stanford.edu/class/cs224n/index.html#schedule
【導讀】2020 年 2 月 7 日-2 月 12 日,AAAI 2020 于美國紐約舉辦。遷移學習近年來受到了非常大的關注,今年AAAI也有很多相關論文,這場Tutorial全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,還討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示,是一個非常全面的遷移表示學習總結,講者最后也介紹了其未來發展趨勢,值得研究者關注和收藏。
遷移表示學習最新進展
Recent Advances in Transferable Representation Learning
Tutorial 目標
本教程針對有興趣將深度學習技術應用于跨域決策任務的AI研究人員和從業人員。這些任務包括涉及多語言和跨語言自然語言處理,特定領域知識以及不同數據模式的任務。本教程將為聽眾提供以下方面的整體觀點:(i)針對未標記的文本,多關系和多媒體數據的多種表示學習方法;(ii)在有限的監督下跨多種表示對齊和遷移知識的技術;以及(iii)在自然語言理解,知識庫和計算生物學中使用這些技術的大量AI應用程序。我們將通過概述該領域未來的研究方向來結束本教程。觀眾不需要有特定的背景知識。
概述
許多人工智能任務需要跨域決策。例如,許多NLP任務涉及跨多種語言的預測,其中可以將不同的語言視為不同的域;在人工智能輔助的生物醫學研究中,藥物副作用的預測常常與蛋白質和有機體相互作用的建模并行進行。為了支持機器學習模型來解決這種跨域任務,必須提取不同域中數據組件的特征和關系,并在統一的表示方案中捕獲它們之間的關聯。為了滿足這一需求,表示學習的最新進展往往涉及到將不同域的未標記數據映射到共享嵌入空間。這樣,跨域的知識遷移可以通過向量搭配或變換來實現。這種可遷移的表現形式在涉及跨域決策的一系列人工智能應用中取得了成功。然而,這一領域的前沿研究面臨兩大挑戰。一是在學習資源很少的情況下如何有效地從特定領域中提取特性。另一個是在最少的監督下精確地對齊和傳遞知識,因為連接不同域的對齊信息常常是不充分和有噪聲的。
在本教程中,我們將全面回顧可遷移表示學習方法的最新發展,重點介紹文本、多關系和多媒體數據的可遷移表示學習方法。除了介紹域內嵌入學習方法外,我們還將討論各種半監督、弱監督、多視圖和自監督學習技術來連接多個域特定的嵌入表示。我們還將比較域內嵌入算法和跨域對齊算法的改進和聯合學習過程。此外,我們將討論如何利用獲得的可遷移表征來解決低資源和無標簽的學習任務。參會者將了解本主題的最新趨勢和挑戰,了解代表性工具和學習資源以獲取即用型模型,以及相關的模型和技術如何有益于現實世界AI應用程序。
講者介紹
Muhao Chen目前是美國賓夕法尼亞大學研究生院博士后。他于2019年在加州大學洛杉磯分校獲得了計算機科學博士學位。Muhao從事過機器學習和NLP方面的各種課題。他最近的研究也將相關技術應用于計算生物學。更多信息請訪問//muhaochen.github.io。
Kai-Wei Chang是加州大學洛杉磯分校計算機科學系的助理教授。他的研究興趣包括為大型復雜數據設計魯棒的機器學習方法,以及為社會公益應用程序構建語言處理模型。其他信息請訪問
Dan Roth是賓夕法尼亞大學CIS的Eduardo D. Glandt Distinguished Professor,也是AAAS、ACM、AAAI和ACL的Fellow。Roth因在自然語言理解建模、機器學習和推理方面的重大概念和理論進展而被認可。更多信息可以參考: /.
預先訓練詞嵌入是NLP深度學習成功的關鍵,因為它們允許模型利用web上幾乎無限數量的未注釋文本。在過去的幾年里,條件語言模型被用來生成預先訓練好的上下文表示,這比簡單的嵌入更加豐富和強大。本文介紹了一種新的預訓練技術——BERT(來自Transformer的雙向編碼器表示),它可以生成深度雙向的預訓練語言表示。BERT在斯坦福問答數據集、多項、斯坦福情感樹庫和許多其他任務上獲得了最先進的結果。
Jacob Devlin是谷歌的研究員。在谷歌,他的主要研究興趣是開發用于信息檢索、問題回答和其他語言理解任務的快速、強大和可擴展的深度學習模型。2014年至2017年,他在微軟研究院擔任首席研究員,領導微軟翻譯從基于短語的翻譯過渡到神經機器翻譯(NMT)。他獲得了ACL 2014最佳長論文獎和NAACL 2012最佳短論文獎。2009年,他在馬里蘭大學(University of Maryland)獲得了計算機科學碩士學位,導師是邦尼·多爾(Bonnie Dorr)博士。