第37屆國際人工智能大會(AAAI2023)于2023年2月7日-2月14日在美國華盛頓召開。AAAI是CCF推薦的A類國際學術會議,在人工智能領域享有很高的學術聲譽。這次會議共收到來自8777篇投稿,錄用1721篇,錄用率約19.6%。來自UIUC、哥倫比亞大學等學者帶來了《知識驅動視覺語言預訓練》教程,非常值得關注!
**近年來,視覺-語言(V+L)預訓練模型通過學習視覺和文本之間的對齊在多媒體應用中取得了巨大成功。**對實體知識(即物體和物體類型)的理解是各種V+L任務的基本能力,如圖像描述和視覺問答。它們還需要理解相關知識(即場景圖)的能力,這些知識可以進一步支持組合式視覺問答、場景圖解析等。除此之外,具有事件論元結構的事件知識(即事件類型、動作、活動)對于支持視覺常識推理、情景識別、動作識別和人與物體交互等認知級視覺理解至關重要。為了跟蹤事件和實體的狀態變化,將過程性知識引入視頻問答、動作識別、動作分割、動作定位、動作預測和過程規劃等領域。語言模型中的知識也可以有利于視覺-語言預訓練,而不是顯式地獲取結構化知識。因此,將知識添加到視覺-語言預訓練中提出了兩個關鍵挑戰,即在多個層次上獲取知識,以及對知識的結構和語義進行編碼。
圖1:在本教程中,我們將介紹高級視覺-語言方法,這些方法結合了來自各種來源的知識。 **在本教程中,我們將全面回顧現有的多媒體知識發現和編碼范式,并重點關注它們對視覺-語言預訓練的貢獻。**我們將知識分為內部自我知識和外部自我知識。從文本和視覺模態中提取內部知識,如結構化實體、關系、事件和事件程序。我們將重點關注知識的結構方面,并解決關于跨多模態知識獲取和結構編碼的兩個關鍵挑戰。外部知識可以從知識庫或語言模型中獲得,本文將舉例說明它們在幫助視覺模態的常識理解方面的用途,重點是時間和認知方面。本教程的目標是向參與者介紹知識驅動的視覺-語言研究的最新趨勢和新挑戰,以及供參與者獲得現成模型的學習資源和工具,推動關于結構化知識對文本和視覺學習的影響的深入討論。
講者:
目錄內容:
隨著大規模預訓練模型的出現,自然語言處理中的知識化趨勢日益明顯。注意知識的自然語言處理模型可以訪問無限數量的外部信息; Ii) 將參數空間的知識存儲任務委托給知識源; Iii)獲取最新信息; Iv) 通過選擇知識,使預測結果更具可解釋性。在本教程中,我們將介紹將知識集成到自然語言處理中的關鍵步驟,包括從文本中建立知識基礎、知識表示和融合。我們還將介紹最新的最先進的應用,融合知識到語言理解,語言生成和常識推理。
//github.com/zcgzcgzcg1/ACL2022_KnowledgeNLP_Tutorial/
ACL 是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL 在 NLP 領域的學術影響力都位列第一,它也是 CCF-A 類推薦會議。今年的 ACL 大會已是第 60 屆,將于 5 月 22-5 月 27 在愛爾蘭都柏林舉辦。
ACL 2022論文獎項公布,伯克利摘得最佳論文,陳丹琦、楊笛一等華人團隊獲杰出論文
來自DeepMind等學者Aishwarya Agrawal, Damien Teney, Aida Nematzadeh做了關于《視覺語言預訓練:當前趨勢與未來》教程,值得關注!
本教程的目標是概述多模態預訓練問題的處理所需的要素,特別是視覺和語言。我們還將討論這一領域的一些開放性問題和有希望的未來方向。
在過去的幾年里,人們對建立多模態(視覺語言)模型越來越感興趣,這些模型是在較大但噪聲較大的數據集上進行預訓練的,其中兩種模態(如圖像和文本)松散地相互對應(如ViLBERT和CLIP)。給定一個任務(比如可視的問題回答),這些模型通常會針對特定于任務的監督數據集進行微調。除了更大的預訓練數據集,Transformer體系結構,特別是應用于兩種模態的自注意力,最近的預訓練模型在下游任務上的令人印象深刻的性能。
這種方法之所以有吸引力,有幾個原因: 首先,預訓練數據集通常是自動從Web上整理出來的,以微不足道的收集成本提供了巨大的數據集。第二,我們可以訓練大型模型一次,并在各種任務中重用它們。最后,這些預訓練方法的表現更好或與以前的特定任務模型持平。一個有趣的問題是,除了良好的任務表現,這些預訓練的模型是否學習了更好地捕捉兩種模態之間的一致性的表征。在本教程中,我們關注最近的視覺語言預訓練范例。我們的目標是首先提供圖像-語言數據集、基準和建模創新。接下來,我們討論用于視覺語言預訓練的不同模型家族,強調它們的優點和缺點。最后,我們討論了通過統計學習進行視覺語言預訓練的局限性,以及因果建模等替代方法的必要性。
目錄內容:
**1. 引言 Introduction: the goal of the tutorial (5 minutes) **
2. 視覺語言概覽 Vision-language landscape before the pretraining era (55 minutes)
**Motivation for vision-language research from both application and research point of views. **
**Popular vision-language tasks, datasets and benchmarks (e.g., image-retrieval, referring expressions, image captioning, visual question answering). **
Task specific modelling approaches and fundamental innovations before the pretraining era (e.g., CNN + LSTM based approaches, language guided image attention, multimodal pooling, compositional networks).
**3. 視覺語言預訓練 Vision-language pretraining (VLP) (60 minutes) **
**– Inspiration from pretraining successes in NLP (transformers, BERT, GPT). **
**– Different families of VLP models (all are transformer based models): * Models using task-specific heads for each downstream task (e.g., ViLBERT, LXMERT, UNITER, OSCAR, VinVL). **
*** Models treating all downstream tasks as language generation tasks, i.e. no task-specific head (e.g., VL-T5, VLBART, SimVLM). **
*** Models using VLP data for improving performance on vision tasks (e.g., CLIP, ALIGN). **
*** Models using VLP data for improving performance on language tasks, including multilingual data (e.g., Vokenization, M3P, VL-T5, SimVLM). **
– Different VLP datasets and how they affect the downstream task performance w.r.t their size, degree of noise, and similarity with downstream datasets.
4. Beyond statistical learning in vision-language
講者:
Aishwarya Agrawal (DeepMind, University of Montreal, Mila), Damien Teney (Idiap Research Institute), and Aida Nematzadeh (DeepMind)
【導讀】國際人工智能會議AAAI 2022論文將在全程線上舉辦,時間在 2 月 22 日-3 月 1 日,本屆大會也將是第 36 屆 AAAI 大會。大會涵蓋了眾多最近研究Tutorial報告,來自Shirin Sohrabi等學者共同做了關于AI規劃理論與實踐的進展報告,非常值得關注!
人工智能規劃是人工智能的一個長期存在的子領域,處理順序決策,是強化學習的姊妹領域。規劃技術在對話系統、網絡安全、交通物流、IT等各個領域都有成熟的工業應用。雖然基于模型的規劃工具可以解決實際規模的問題,但在實踐中應用人工智能規劃研究面臨著幾個挑戰,阻礙了它的廣泛應用。然而,使用無模型方法的替代方法往往被證明對實際尺寸的問題是不可行的。本教程的目的是為觀眾提供必要的理論背景知識,以及實踐經驗,以允許使用規劃工具解決日常挑戰。在本教程中,我們將概述規劃領域,包括該領域的最新進展。然后,我們將深入研究三個挑戰:(1)建模——如何表示、提取和學習知識;(2)理論和工具——計算問題的形式化定義以及如何解決這些問題;(3)實踐-在端到端應用程序中使用人工智能規劃。我們將有一個實踐環節來舉例說明如何使用規劃工具來解決示例應用。我們的目標是為AAAI的與會者提供在他們的應用中使用人工智能規劃工具的必要手段
【導讀】國際人工智能會議AAAI 2022論文將在全程線上舉辦,時間在 2 月 22 日-3 月 1 日,本屆大會也將是第 36 屆 AAAI 大會。大會涵蓋了眾多最近研究Tutorial報告,來自Yu Meng,韓家煒等等學者共同做了關于預訓練語言表示的進展報告,非常值得關注!
本教程旨在介紹預訓練文本嵌入和語言模型(例如BERT和GPT)的最新進展,以及它們在廣泛的文本挖掘任務中的應用。本教程將系統地介紹(1) 預訓練的文本表示學習的發展,(2) 預訓練的模型如何有效地增強基本文本挖掘應用,以及(3)新的技術和方法來用于預訓練的文本表示,用于文本挖掘任務,而無需人工注釋。目標受眾包括任何對人工智能(AI)和機器學習(ML)技術感興趣的研究人員和從業人員,這些技術用于使用最先進的預訓練語言模型的自然語言和數據挖掘應用程序。觀眾將不僅了解文本表示學習和文本挖掘的背景和歷史,還將了解最新的模型和方法及其應用。我們的教程特別關注文本挖掘中的弱監督方法,這種方法需要最少的人力來學習模型。我們還將用真實的數據集演示預訓練的文本表示如何幫助減輕人類注釋的負擔,并促進自動、準確和高效的文本分析。 目標受眾包括典型的人工智能實踐者,他們可能對偏好學習有一個高層次的概念,但通常沒有意識到問題的各種挑戰性方面。該教程的新穎之處在于將不同社區的不同范式翻譯成AI語言,從而使ML/AI社區受益。本教程將是自包含的,不需要任何先決條件。具有基本AI/ML知識的觀眾將能夠理解大部分材料。
目錄內容: 引言 Introduction 第一部分:預訓練語言模型 Part I: Pre-Trained Language Models [Slides] 第二部分 重溫文本挖掘基礎 Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models 第三部分 嵌入驅動主題挖掘 Part III: Embedding-Driven Topic Discovery 第三部分 弱監督文本挖掘 Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort 第四部分 高級文本挖掘應用 Part V: Advanced Text Mining Applications Empowered by Pre-Trained Language Models [Slides]
來自華為的研究人員在UIUC2021上將給出關于預訓練模型與文本挖掘的教程,非常值得關注!
近年來,文本表示學習在廣泛的文本挖掘任務中取得了巨大的成功。早期的單詞嵌入學習方法將單詞表示為固定的低維向量,以捕獲它們的語義。然后,將學習到的詞嵌入作為特定任務模型的輸入特征。近年來,預訓練語言模型(pre-training language model, PLMs)在自然語言處理(natural language processing, NLP)領域發生了革命性的變化,自然語言處理(natural language processing, NLP)通過大規模文本語料庫上預訓練的基于transformer的神經模型來學習通用語言表示。這種預訓練過的表示對通用語言特征進行編碼,這些特征幾乎可以遷移到任何與文本相關的應用中。在許多應用中,PLM優于先前的任務特定模型,因為它們只需要對目標語料庫進行微調,而無需從頭開始訓練。
//yumeng5.github.io/kdd21-tutorial/
在本教程中,我們將介紹預訓練文本嵌入和語言模型的最新進展,以及它們在廣泛的文本挖掘任務中的應用。具體來說,我們首先概述了一組最近開發的自監督和弱監督文本嵌入方法和預訓練的語言模型,它們是下游任務的基礎。然后,我們提出了幾種基于預先訓練的文本嵌入和語言模型的新方法,用于各種文本挖掘應用,如主題發現和文本分類。我們關注的方法是弱監督、領域獨立、語言不可知、有效和可擴展的,用于從大規模文本語料庫中挖掘和發現結構化知識。我們將在真實的數據集上演示預先訓練的文本表示如何幫助減輕人工標注的負擔,并促進自動、準確和高效的文本分析。
目錄: Introduction [Slides] Part I: Text Embedding and Language Models [Slides] Part II: Revisiting Text Mining Fundamentals with Pre-Trained Language Models [Slides] Part III: Embedding-Driven Topic Discovery [Slides] Part IV: Weakly-Supervised Text Classification: Embeddings with Less Human Effort [Slides] Part V: Advanced Text Mining Applications Empowered by Embeddings [Slides]
大數據和大計算的興起給數字生活的許多領域帶來了現代神經網絡,這要歸功于構建與現實世界相適應的大型模型相對容易。Transformers的成功和對海量數據的自監督預訓練讓一些人相信,只要我們有數據和計算資源,深度神經網絡幾乎可以做任何事情。然而,情況可能并非如此。雖然神經網絡可以快速地利用表面統計,但它們在推廣到新的組合上卻失敗得很糟糕。目前的神經網絡并不執行刻意推理——即從上下文數據中有意地推導出新知識的能力。本教程回顧了最近的發展,將神經網絡的能力擴展到從數據“學習推理”,其中的任務是確定數據是否包含一個結論。這種能力開辟了新的途徑,通過使用自然語言進行任意查詢,從數據中生成見解,而不需要預先定義一組狹義的任務。
本教程由三個主要部分組成。A部分涵蓋了學習-推理框架,解釋了神經網絡如何通過綁定、注意力和動態計算圖等自然操作作為推理的強大支柱。我們還將展示神經網絡如何學習執行組合算法。第二部分將更詳細地介紹神經網絡如何在非結構化和結構化數據上進行推理,以及跨多種模態。將解釋集合、關系、圖和時間的推理。C部分回顧了更高級的主題,包括帶有外部記憶的神經網絡,學習用有限的標簽進行推理,以及用心智理論進行遞歸推理。我們將特別關注神經記憶作為支持實體、關系甚至神經程序推理的基本機制。如有可能,將提供文本理解和視覺問答方面的個案研究。
NAACL 2021(2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics)將于2021年6月6日至11日以在線會議的形式在墨西哥城舉辦。來自羅切斯特大學和騰訊的研究人員《視頻輔助無監督語法歸納》獲得最佳長論文,此外還包括2篇杰出長論文和1篇最佳短論文和2篇杰出短論文。
NAACL為自然語言處理領域的頂級會議之一,旨在為北美以及中美洲和南美洲的計算語言學協會(ACL)的成員總結研究領域重點,組織年度會議,促進區域性的合作交流,從而鼓勵和促進美洲人民和機構加入ACL,并為ACL執行委員會提供有關區域活動的信息來源。
最佳論文評選過程:
這些論文是從NAACL 2021年提交的1797篇論文中選出來的。候選人由高級AC提名,并由最佳論文委員會審查。每個委員會成員對一部分論文進行了排序,PC聯合主席考慮了所有的建議以做出最終決定。特別感謝我們杰出的最佳論文評委會:Isabelle Augenstein, Marco Baroni, Barbara Di Eugenio, Jacob Eisenstein, Hanna Hajishirzi, Omer Levy, Jessy Li, Yang Liu, Chris Quirk和Bonnie Webber。
詳情可登陸以下會議官網查詢:
//2021.naacl.org/blog/best-paper-awards/
「最佳長論文獎」(Best Long Paper)
視頻輔助無監督語法歸納 Video-aided Unsupervised Grammar Induction
Songyang Zhang, Linfeng Song, Lifeng Jin, Kun Xu, Dong Yu and Jiebo Luo
摘要:我們研究了視頻輔助語法歸納法,它從無標記文本和相應的視頻學習一個constituency解析器。現有的多模態語法歸納方法側重于從文本-圖像對中學習句法語法,結果表明靜態圖像信息可以用于語法歸納。然而,視頻提供了更豐富的信息,不僅包括靜態對象,還包括動作和狀態變化,這對引導動詞短語很有用。在本文中,我們從視頻中探索了豐富的特征(例如動作、物體、場景、音頻、人臉、OCR和語音),并以最近的Compound PCFG模型(Kim et al., 2019)為基線。我們進一步提出了一個多模態化合物PCFG模型(MMC-PCFG)來有效地從不同的模態中聚合這些豐富的特征。我們提出的MMC-PCFG進行了端到端的訓練,并在三個基準上(即DiDeMo、YouCook2和MSRVTT)超過了每個單獨的模態和以前最先進的系統,證實了利用視頻信息進行無監督語法歸納的有效性。
地址:
「杰出長論文獎」(Outstanding Long Papers Award)
Unifying Cross-Lingual Semantic Role Labeling with Heterogeneous Linguistic Resources
Simone Conia, Andrea Bacciu and Roberto Navigli
雖然跨語言技術在各種自然語言處理任務中取得了越來越多的成功,但由于每種語言都采用自己的語言形式,例如probank用于英語,AnCora用于西班牙語,pdd - vallex用于捷克語,因此它們在語義角色標記(Semantic Role Labeling, SRL)中的應用受到了很大的限制。在這項工作中,我們解決了這個問題,并提出了一個統一的模型來在不同的語言資源上執行跨語言SRL。我們的模型隱式地學習了跨不同語言的不同形式的高質量映射,而無需訴諸于單詞對齊和/或翻譯技術。我們發現,我們的跨語言系統不僅與當前的技術水平相匹配,而且對于低數據場景也很魯棒。有趣的是,我們的統一模型能夠在一個單一的正向傳遞中注釋一個句子,它所訓練的所有庫存,提供了一個工具來分析和比較不同語言的語言理論。
It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
Timo Schick and Hinrich Schütze
當擴展到數千億參數時,預訓練的語言模型,如GPT-3 (Brown et al., 2020),實現了顯著的少樣本學習性能。然而,訓練和運用這樣的大型模型需要大量的計算,這導致了巨大的碳耗費,使得研究人員和從業人員很難使用它們。我們展示了與GPT-3類似的性能可以通過更“綠色”的語言模型獲得,因為它們的參數計數要小幾個數量級。這是通過將文本輸入轉換為包含任務描述的完形填空問題,并結合基于梯度的優化來實現的;利用未標記的數據提供了進一步的改進。我們確定了用小語言模型成功理解自然語言所需的關鍵因素。
「最佳短論文」(Best Short Paper)
Learning How to Ask: Querying LMs with Mixtures of Soft Prompts Guanghui Qin and Jason Eisner
學習如何提問:使用混合軟提示查詢語言模型