隨著大規模預訓練模型的出現,自然語言處理中的知識化趨勢日益明顯。注意知識的自然語言處理模型可以訪問無限數量的外部信息; Ii) 將參數空間的知識存儲任務委托給知識源; Iii)獲取最新信息; Iv) 通過選擇知識,使預測結果更具可解釋性。在本教程中,我們將介紹將知識集成到自然語言處理中的關鍵步驟,包括從文本中建立知識基礎、知識表示和融合。我們還將介紹最新的最先進的應用,融合知識到語言理解,語言生成和常識推理。
//github.com/zcgzcgzcg1/ACL2022_KnowledgeNLP_Tutorial/
人類通過多種渠道感知世界,如眼睛看到的圖像或耳朵聽到的聲音。盡管任何一個單獨的通道可能是不完整的或有噪聲的,但人類可以自然地將從多個通道收集的信息進行排列和融合,以便掌握更好地理解世界所需的關鍵概念。人工智能的核心愿望之一是開發算法,使計算機具有從多模態(或多通道)數據中有效學習的能力。這些數據類似于通過視覺和語言獲得的視覺和聲音,幫助人類理解周圍的世界。例如,計算機可以通過搜索最相似的圖像來進行文本查詢(反之亦然),并通過使用自然語言描述圖像的內容來模擬這種能力。
視覺與語言(VL),一個位于計算機視覺和自然語言處理(NLP)之間的熱門研究領域,旨在實現這一目標。視覺與語言預訓練(vision and language pre-training, VLP)受到語言模型預訓練在NLP中的巨大成功的啟發,近年來迅速引起了兩方面的關注。在本教程中,我們將涵蓋VLP前沿的最新方法和原則,包括(1) 基于區域特征和端到端圖像文本訓練前;(2) 統一的視覺語言建模;(3) 延伸到視頻語言預訓練; (4) 從語言監督中學習視覺模型;(5) 視覺合成。
//dvsml2022-tutorial.github.io/index.html/
非自回歸序列生成(Non-autoregressive sequence generation, NAR)嘗試并行生成全部或部分輸出序列,以加速生成過程,避免自回歸生成中潛在的問題(如標簽偏差、暴露偏差)。雖然它受到了大量的研究關注,并已被應用于自然語言和語音中的許多序列生成任務,但由于缺乏建模能力,原始NAR模型在縮小與最先進的自回歸模型之間的性能差距方面仍面臨許多挑戰。在本教程中,我們將全面介紹和回顧非自回歸序列生成,分為四個部分:1)背景,包括NAR生成的動機,問題定義,評估協議,以及與標準自回歸生成方法的比較。2)方法,包括不同的方面:模型架構、目標函數、訓練數據、學習范式和額外的推理技巧。3)應用,涵蓋了文本和語音生成中的不同任務,以及應用中的一些高級主題。4)結論,我們描述了幾個研究挑戰,并討論了潛在的未來研究方向。我們希望本教程可以服務于從事非自回歸序列生成的學術研究人員和行業從業人員。
有效地從很少到沒有數據中學習的能力對于將NLP應用于數據收集成本高或其他困難的任務至關重要。這在學術和實踐上都是一個具有挑戰性的設置——特別是因為訓練中模型通常需要大量標記數據。最近,對未標記數據進行預訓練的進展,帶來了更好的零樣本或少樣本學習的潛力(Devlin et al., 2019; Brown et al., 2020)。特別是在過去的一年里,人們進行了大量的研究,利用大規模語言模型更好地從有限的數據中學習。在本教程中,我們的目標是讓感興趣的NLP研究人員了解最新的和正在進行的使用預訓練的語言模型進行零樣本和少樣本學習的技術。此外,我們的目標是向觀眾揭示新的研究機會,這將有望使我們更接近解決該領域現有的挑戰。
ACL 是計算語言學和自然語言處理領域的頂級國際會議,由國際計算語言學協會組織,每年舉辦一次。一直以來,ACL 在 NLP 領域的學術影響力都位列第一,它也是 CCF-A 類推薦會議。今年的 ACL 大會已是第 60 屆,將于 5 月 22-5 月 27 在愛爾蘭都柏林舉辦。
ACL 2022論文獎項公布,伯克利摘得最佳論文,陳丹琦、楊笛一等華人團隊獲杰出論文
來自DeepMind等學者Aishwarya Agrawal, Damien Teney, Aida Nematzadeh做了關于《視覺語言預訓練:當前趨勢與未來》教程,值得關注!
本教程的目標是概述多模態預訓練問題的處理所需的要素,特別是視覺和語言。我們還將討論這一領域的一些開放性問題和有希望的未來方向。
在過去的幾年里,人們對建立多模態(視覺語言)模型越來越感興趣,這些模型是在較大但噪聲較大的數據集上進行預訓練的,其中兩種模態(如圖像和文本)松散地相互對應(如ViLBERT和CLIP)。給定一個任務(比如可視的問題回答),這些模型通常會針對特定于任務的監督數據集進行微調。除了更大的預訓練數據集,Transformer體系結構,特別是應用于兩種模態的自注意力,最近的預訓練模型在下游任務上的令人印象深刻的性能。
這種方法之所以有吸引力,有幾個原因: 首先,預訓練數據集通常是自動從Web上整理出來的,以微不足道的收集成本提供了巨大的數據集。第二,我們可以訓練大型模型一次,并在各種任務中重用它們。最后,這些預訓練方法的表現更好或與以前的特定任務模型持平。一個有趣的問題是,除了良好的任務表現,這些預訓練的模型是否學習了更好地捕捉兩種模態之間的一致性的表征。在本教程中,我們關注最近的視覺語言預訓練范例。我們的目標是首先提供圖像-語言數據集、基準和建模創新。接下來,我們討論用于視覺語言預訓練的不同模型家族,強調它們的優點和缺點。最后,我們討論了通過統計學習進行視覺語言預訓練的局限性,以及因果建模等替代方法的必要性。
目錄內容:
**1. 引言 Introduction: the goal of the tutorial (5 minutes) **
2. 視覺語言概覽 Vision-language landscape before the pretraining era (55 minutes)
**Motivation for vision-language research from both application and research point of views. **
**Popular vision-language tasks, datasets and benchmarks (e.g., image-retrieval, referring expressions, image captioning, visual question answering). **
Task specific modelling approaches and fundamental innovations before the pretraining era (e.g., CNN + LSTM based approaches, language guided image attention, multimodal pooling, compositional networks).
**3. 視覺語言預訓練 Vision-language pretraining (VLP) (60 minutes) **
**– Inspiration from pretraining successes in NLP (transformers, BERT, GPT). **
**– Different families of VLP models (all are transformer based models): * Models using task-specific heads for each downstream task (e.g., ViLBERT, LXMERT, UNITER, OSCAR, VinVL). **
*** Models treating all downstream tasks as language generation tasks, i.e. no task-specific head (e.g., VL-T5, VLBART, SimVLM). **
*** Models using VLP data for improving performance on vision tasks (e.g., CLIP, ALIGN). **
*** Models using VLP data for improving performance on language tasks, including multilingual data (e.g., Vokenization, M3P, VL-T5, SimVLM). **
– Different VLP datasets and how they affect the downstream task performance w.r.t their size, degree of noise, and similarity with downstream datasets.
4. Beyond statistical learning in vision-language
講者:
Aishwarya Agrawal (DeepMind, University of Montreal, Mila), Damien Teney (Idiap Research Institute), and Aida Nematzadeh (DeepMind)
本教程針對的是對幫助機器理解自然語言文本的人工智能技術感興趣的研究人員和從業者,特別是文本中描述的真實世界事件。這些方法包括提取關于一個事件的主角、參與者和屬性的內部結構,以及關于多個事件的成員關系、時間和因果關系的外部結構。本教程將為讀者提供一個系統的介紹 (i) 事件的知識表示,(ii) 自動提取、概念化和預測事件及其關系的各種方法,(iii) 事件過程和屬性的歸納,和(iv) 廣泛的NLU和常識性理解任務。我們將通過概述這一領域中出現的研究問題來結束本教程。
//cogcomp.seas.upenn.edu/page/tutorial.202108/
人類語言總是涉及對現實世界事件的描述。因此,對事件的理解在自然語言理解中起著至關重要的作用。例如,敘述預測得益于學習事件的因果關系,從而預測故事接下來會發生什么;機器理解文檔可能包括理解影響股市的事件、描述自然現象或識別疾病表型。事實上,事件理解在諸如開放領域問答、意圖預測、時間軸構建和文本摘要等任務中也有廣泛的重要應用。由于事件不只是簡單的、獨立的謂詞,對事件理解的前沿研究通常面臨兩個關鍵挑戰。一個挑戰是精確地歸納事件的關系,它描述了事件的隸屬關系、共參照、時間順序和因果關系。另一種是理解事件的內在結構和屬性,涉及到它的參與者、粒度、位置和時間。
在本教程中,我們將全面回顧文獻中關于以事件為中心的知識表示的現有范式,并關注它們對NLU任務的貢獻。除了引入用于事件抽取的部分標簽和無監督學習方法外,我們還將討論最近用于從文本中抽取多面事件-事件關系的約束學習和結構化推理方法。我們還將回顧最近用于事件預測任務的數據驅動方法,包括事件過程歸納和概念化,以及以事件為中心的語言模型如何有利于敘事預測。此外,我們將說明遠距離監督方法如何幫助解決時間和因果常識對事件的理解,以及如何運用它們來構建大規模的事件知識庫。參與者將了解這個主題的最新趨勢和新出現的挑戰,代表性工具和學習資源,以獲得即用模型,以及相關模型和技術如何使最終使用NLU應用程序受益。
目錄內容:
本教程將由四個主要部分組成,每個部分由一名講者負責,然后是一個討論環節。我們將從介紹常識的公理化理論開始。接下來,我們將討論跨異構常識源協調節點和關系的工作,以及這種整合對下游推理任務的影響。第三,我們將討論如何從文本中自動提取常識知識,以及定量和定性語境化。然后,我們將討論大型模型(如BERT、GPT-2和T5)如何學習隱式地表示通過閱讀web獲得的大量常識知識。另外,如何通過精心設計的語言提示或對知識圖譜元組進行微調來提取這些知識。我們將以對未來方法的討論來結束本教程,并提出在下一代常識推理技術中結合語言模型、知識圖譜和公理化。參與者的先驗知識將是最少的。一些機器學習和語言建模的知識會有幫助,但不是強制性的: 我們將介紹相關的機器學習概念,以便每個人都有機會跟隨。
目錄:
常識推理被認為是構建更先進的“通用”人工智能系統的關鍵,這些系統具有類似人類的能力和推理能力,即使在面對不確定、隱含(或潛在矛盾)信息時也是如此。認識到它的重要性,幾個社區的研究人員越來越多地從事研究和評估常識推理任務有關的問題回答和溯因推理。與其他“純”或邏輯推理任務不同,知識庫和推理公理可以分離(至少在原則上),知識是常識推理的一個重要方面。例如BERT (Devlin et al., 2018)和GPT (Radford et al., 2019)等基于轉換的模型,或者通過使用自然語言處理和眾包技術構建的概念、關系和事件的“知識圖譜”來獲取知識。一旦獲得,知識也必須被恰當地表示,以支持類似人類的推理和問題回答。語言模型傾向于連續的類向量表示,而知識圖譜則更加離散。在本教程中,我們將基于經典研究以及自然語言處理和語義Web社區的現代進展,全面概述常識知識獲取和表示技術。
參與者的先驗知識將是最少的。一些機器學習的知識,包括基本的概念,如訓練,測試和驗證,特征工程等將是有幫助的,但不是絕對的先決條件,因為我們不會進入高級機器學習數學或優化。此外,在可能的情況下,我們將介紹基本的機器學習概念,以便每個人都有機會跟隨。參加者不需要有任何回答自然語言常識問題的知識,也不需要有最先進的知識來源或公理化理論。
參考文獻:
Bosselut, A.; Rashkin, H.; Sap, M.; Malaviya, C.; Celikyilmaz, A.; and Choi, Y. 2019. COMET: Commonsense transformers for automatic knowledge graph construction. arXiv preprint arXiv:1906.05317.
Chalier, Y.; Razniewski, S.; and Weikum, G. 2020. Joint Reasoning for Multi-Faceted Commonsense Knowledge. AKBC.
Devlin, J.; Chang, M. W.; Lee, K.; and Toutanova, K. 2018. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805.
Ilievski, F.; Szekely, P.; Zhang, B. 2020. CSKG: The CommonSense Knowledge Graph. arXiv preprint arXiv:2012.11490.
Radford, A.; Wu, J.; Child, R.; Luan, D.; Amodei, D.; and Sutskever, I. 2019. Language models are unsupervised multitask learners. OpenAI Blog1(8): 9.
Romero, J.; Razniewski, S.; Pal, K.; Z. Pan, J.; Sakhadeo, A.; and Weikum, G. 2019. Commonsense properties from query logs and question answering forums. In Proceedingsof the 28th ACM International Conference on Information and Knowledge Management, 1411–1420.
Tandon, N.; De Melo, G.; and Weikum, G. 2017. Webchild2.0: Fine-grained commonsense knowledge distillation. In Proceedings of ACL 2017, System Demonstrations, 115–120.