麻省理工學院的研究人員開發了一種機器學習技術,該技術學習以一種捕獲在視覺和音頻模式之間共享的概念方式來表征數據。他們的模型可以識別視頻中某些動作發生的位置并對其進行標記。
人類通過不同方式的組合來觀察世界,例如視覺、聽覺和我們對語言的理解。另一方面,機器通過算法可以處理數據來解釋世界。
因此,當機器“看到”一張照片時,它必須將該照片編碼為可用于執行圖像分類等任務的數據。當輸入有多種格式(如視頻、音頻剪輯和圖像)時,此過程會變得更加復雜。
“這里的主要挑戰是,機器如何調整這些不同的模式?作為人類,這對我們來說很容易。我們看到一輛汽車,然后聽到汽車駛過的聲音,我們知道這些是一回事。但對于機器學習來說,這并不是那么簡單,”麻省理工學院計算機科學與人工智能實驗室 (CSAIL) 的研究生、解決這個問題的論文的第一作者 Alexander Liu 說。
Liu 和他的合作者開發了一種人工智能技術,該技術學習以捕捉視覺和音頻模式之間共享的概念方式來表征數據。例如,他們的方法可以了解到視頻中嬰兒哭泣的動作與音頻剪輯中的口語“哭泣”有關。
利用這些知識,他們的機器學習模型可以識別視頻中某個動作發生的位置并對其進行標記。
在跨模態檢索任務中,它比其他機器學習方法表現更好,這些任務涉及查找一段數據,如視頻,與以另一種形式(如口語)給出的用戶查詢相匹配。他們的模型還使用戶更容易了解為什么機器認為它檢索到的視頻與他們的查詢匹配。
有朝一日,這種技術可以用來幫助機器人通過感知來了解世界上的概念,就像人類一樣。
與Liu一起參與論文的是 CSAIL 博士后 SouYoung Jin;研究生 Cheng-I Jeff Lai 和 Andrew Rouditchenko;Aude Oliva,CSAIL 高級研究科學家,MIT-IBM Watson AI 實驗室主任;和資深作者James Glass,高級研究科學家和 CSAIL 口語系統小組的負責人。
該研究將在計算語言學協會年會(ACL)上發表。
研究人員將他們的工作重點放在表征學習上,這是一種機器學習形式,旨在轉換輸入數據以使其更容易執行分類或預測等任務。
表征學習模型獲取原始數據,例如視頻及其相應的文本字幕,并通過提取特征或對視頻中對象和動作的觀察來對它們進行編碼。然后它將這些數據點映射到一個網格中,稱為嵌入空間。該模型將相似的數據聚集在一起作為網格中的單個點。這些數據點或向量中的每一個都由一個單獨的單詞表示。
例如,一個人雜耍的視頻剪輯可能會映射到一個標有“雜耍”的向量。
研究人員對模型進行了限制,使其只能使用 1000 個單詞來標記向量。該模型可以決定要將哪些動作或概念編碼到單個向量中,但它只能使用 1,000 個向量。模型選擇它認為最能代表數據的詞。
他們的方法不是將來自不同模態的數據編碼到單獨的網格上,而是采用共享的嵌入空間,其中兩個模態可以一起編碼。這使模型能夠從兩種模式中學習表征之間的關系,例如顯示一個人雜耍的視頻和一個人說“雜耍”的錄音。
為了幫助系統處理來自多種模式的數據,他們設計了一種算法,引導機器將相似的概念編碼到同一個向量中。
“如果有一個關于豬的視頻,模型可能會將‘豬’這個詞分配給 1000 個向量中的一個。然后,如果模型聽到有人在音頻剪輯中說出“豬”這個詞,它仍應使用相同的向量對其進行編碼,”Liu解釋道。
他們使用三個數據集在跨模態檢索任務中測試了該模型:一個包含視頻剪輯和文本字幕的視頻-文本數據集,一個包含視頻剪輯和語音音頻字幕的視頻-音頻數據集,以及一個包含圖像和語音音頻的圖像-音頻數據集字幕。
例如,在視頻-音頻數據集中,模型選擇了 1000 個單詞來表示視頻中的動作。然后,當研究人員向其提供音頻查詢時,該模型試圖找到與這些口語最匹配的剪輯。
“就像谷歌搜索一樣,你輸入一些文本,機器會嘗試告訴你正在搜索的最相關的內容。只有我們在向量空間中這樣做,”Liu說。
與他們模型相比,他們的技術不僅更有可能找到更好的匹配,而且更容易理解。
因為該模型只能使用總共 1,000 個單詞來標記向量,所以用戶可以更容易地看到機器用來推斷視頻和口語相似的單詞。Liu說,這可以使模型更容易應用于現實世界的情況,在這種情況下,用戶了解它如何做出決策至關重要。
該模型仍有一些限制,他們希望在未來的工作中解決。一方面,他們的研究一次集中在兩種模式的數據上,但在現實世界中,人類會同時遇到許多數據模式,Liu說。
“我們知道 1,000 個單詞在這種數據集上有效,但我們不知道它是否可以推廣到現實世界的問題,”他補充道。
此外,他們數據集中的圖像和視頻包含簡單的對象或直接的動作;現實世界的數據要混亂得多。他們還想確定當輸入的多樣性更廣泛時,他們的方法擴大規模的效果如何。
這項研究得到了 MIT-IBM Watson AI 實驗室及其成員公司 Nexplore 和 Woodside 以及 MIT Lincoln 實驗室的部分支持。
表征學習的最新進展已經證明了在單個高級嵌入向量中表征來自不同模態(例如視頻、文本和音頻)信息的能力。在這項工作中,我們提出了一個自我監督的學習框架,該框架能夠學習一種表征,該表征在不同的模態中捕獲更精細的粒度級別,例如由視覺對象或口語表示的概念或事件。我們的框架依賴于通過向量量化創建的離散化嵌入空間,該空間在不同的模態中共享。除了共享嵌入空間,我們提出了一個跨模態代碼匹配目標,它強制來自不同視圖(模態)的表示在離散的嵌入空間上具有相似的分布,從而可以在沒有直接監督的情況下執行跨模態對象/動作定位。在我們的實驗中,我們表明所提出的離散化多模態細粒度表征(例如,像素/單詞/幀)可以補充高級摘要表示(例如,視頻/句子/波形),以提高跨模態檢索任務的性能。我們還觀察到離散化表征使用單個集群來表征跨模態的相同語義概念。
近年來,人工智能研究取得了令人難以置信的發展和進步。這些進展主要是在三個方面取得的:計算機視覺、自然語言處理和機器人技術。例如,圖像識別被廣泛認為是計算機視覺的圣杯,而語言建模和翻譯則是自然語言處理的基本任務。然而,許多實際的應用程序和任務需要解決的不僅僅是這些特定于領域的問題,而是需要解決同時涉及所有三個領域的問題。一個自主系統不僅需要能夠識別圖像中的物體,還需要能夠解釋自然語言描述或命令,并理解它們如何與其感知到的視覺觀察相關聯。此外,機器人需要利用這些信息來做決策,并決定采取哪些物理行動來完成任務。在本文的第一部分中,我提出了一種學習如何將自然語言和3D形狀聯系起來的方法,這樣系統就可以將文本描述中描述的單詞(如“round”)與3D對象中圓形的幾何屬性聯系起來。為了將這兩種模式聯系起來,我們依賴一個跨模態嵌入空間來進行多模態推理,并在沒有細粒度的屬性級分類注釋的情況下學習這個空間。通過學習如何將這兩種模態聯系起來,我們可以執行文本到形狀的檢索和形狀操作等任務,也可以執行新的任務,如文本到形狀的生成。在本論文的第二部分中,我們允許代理被嵌入并探索一個依賴于所有三個領域(計算機視覺、自然語言和機器人)的任務:通過遵循自然語言指令進行機器人導航。與依賴固定的圖像或3D對象數據集不同,代理現在位于一個物理環境中,并使用機載攝像機捕捉自己對空間的視覺觀察。為了把視覺、語言和機器人的物理狀態聯系起來,我們提出了一個使用拓形圖進行規劃和控制的系統。這種基本的抽象允許主體將語言指令的部分與環境的相關空間區域聯系起來,并將一系列的視覺觀察與物理運動和動作聯系起來
目前的機器學習由深度神經網絡驅動,擅長從大量數據和訓練信號中提取預測模式。在過去的七年中,在將這種能力擴展到推理領域方面有了穩步的發展——從現有的知識庫中有意地推導出新的知識的能力。本教程提供了一個有組織的知識體系,涵蓋了圍繞機器學習推理的最新發展,重點是可微分神經網絡架構。我們想要回答的主要問題是,我們是否能學會從數據中進行推理,就像我們學會使用神經網絡進行預測一樣?在本教程中,我們將展示如何通過使用動態神經網絡實現這一點,動態神經網絡的計算圖是由給定的數據和查詢動態組成的。這里的查詢是任意的,例如,在語言形式中。數據和域具有跨越空間和時間的結構,也就是說,數據元素通過關系或隱式或顯式地相互鏈接。涵蓋的主題分為兩部分:理論和應用。理論部分包括推理的雙系統解釋、神經記憶、非結構集和超結構圖的推理以及神經符號整合。應用部分包括機器閱讀理解中的神經推理、視覺問答和組合推理。
第一部分:理論(180分鐘)
本部分進一步分為六個子主題:概念、雙過程理論、神經記憶、對集合的推理、對圖的推理和神經符號的整合。
第1講:神經機器推理的概念(30分鐘)
在這一部分中,我們將回顧學習和推理的關鍵概念,以及這兩種智能是如何相互作用的。特別地,我們將從學習推理的正式框架開始,其中的任務是確定數據是否包含結論[23]。然后,我們展示了如何在這個框架下重新構建問題回答和大多數有監督的機器學習任務。然后,我們將解釋現代神經網絡如何在這個框架中作為學習和推理的基礎機制。其中一個關鍵因素是注意力,這在最近的工作中有所體現。我們還討論了推理如何也可以被視為條件計算的實例,其中計算圖是由查詢與可用數據動態共同決定的。這種方法的一種極端形式是程序合成,即從數據上下文中的查詢自動生成一個謂詞鏈接的程序,程序的執行將提供答案。
**第2講:雙推理系統(30分鐘) **
我們將簡要回顧一個已建立的人類推理框架,即雙過程理論[11],或者通俗地稱為快與慢思維[22]。近年來,這個話題在人工智能領域非常重要,例如,在諾貝爾獎得主卡尼曼和圖靈獎得主約書亞·本吉奧出席的AAAI 2019小組討論中所討論的。特別是,快速思考過程,也被稱為系統1,通常是并行的、反應的和特定領域的,它相當于目前大多數深度學習模型。另一方面,緩慢的思考過程,也被稱為系統2,是順序的、審慎的和領域不可知的。我們將解釋系統2如何在核心推理形式中發揮作用,包括構成推理、關系推理、時間推理和因果推理。最后,我們將討論系統1和系統2是如何相互作用的。
**第三講:神經記憶(30分鐘) **
在這一部分中,我們將討論推理過程中最重要的一個方面:記憶[12]——一種允許我們記憶、檢索、操縱信息和模擬看不見的場景的心理能力。我們將涵蓋三個不同的概念,這對高階推理至關重要:實體的內存,關系的內存和程序的內存。實體的神經記憶已經被廣泛研究,這屬于記憶增強神經網絡(memory - augmented Neural Networks)的范疇[18,47,49]。很少有人研究,但對高階推理極其重要的是關系記憶,它允許我們顯式地存儲、檢索和操縱在長謂詞鏈接過程[24]中已知的和新形成的關系。我們將描述如何使用張量[28,42,45]或圖[37]來實現關系記憶。在這些模型中,注意力是利用關系建模的常見操作。最后,我們將解釋最近一個被稱為程序存儲器的強大概念是如何對條件計算和自動神經程序合成(推理背后的潛在計算過程)至關重要的。本部分介紹了兩種程序存儲器的方法:模塊化神經網絡[2]和存儲程序存儲器[27]。
第4講: 非結構化集的推理(30分鐘)
最近許多涉及神經推理的工作都可以表述為在非結構集上進行推理。在這些設置中,我們有一組查詢詞,以及知識庫中的一組項目(可以是文本中的單詞,也可以是圖像中提取的視覺特征)。推理的任務是構建一個序列的過程,在這兩個集合中的項目被迭代處理并以組合的方式相互作用。這可能是一個迭代條件作用過程[39],也可能是構成和注意力的循環模式[17,21]。
第五講: 圖推理(30分鐘)
關系結構已經被證明對推理至關重要[15,50],這些結構可以方便地用圖[5]表示。這導致了圖推理,當推理由圖上的操作構成或支持時,就會發生圖推理。在這一部分,我們將解釋圖神經網絡如何作為關系推理的基礎主干,無論是在空間還是在時間[6]。我們將涵蓋基本概念,包括節點嵌入、關系網絡[43]和消息傳遞;以及諸如查詢條件圖構造[29]和圖動力學[38]等高級主題。
第6講:混合神經符號推理(30分鐘)
不與符號方法[14]的聯系,神經推理理論是不完整的。這是因為符號方法很容易用于高級邏輯推理,這在許多NLP和數學推理問題中非常重要。此外,符號方法似乎更自然地處理重要問題,如系統泛化,純神經網絡還不是很有效[3,13]。在這個混合神經-符號推理的子主題中,我們將涵蓋最近的工作,包括神經模塊網絡[19,53]和邏輯模型和神經網絡的集成[14]。
參考文獻: [1]Ralph Abboud, Ismail Ilkan Ceylan, and Thomas Lukasiewicz. Learning to reason: Leveraging neural networks for approximate dnf counting. AAAI, 2020. [2]Jacob Andreas, Marcus Rohrbach, Trevor Darrell, and Dan Klein. Neural module networks. In CVPR, pages 39–48, 2016. [3]Dzmitry Bahdanau, Shikhar Murty, Michael Noukhovitch, Thien Huu Nguyen, Harm de Vries, and Aaron Courville. Systematic generalization: what is required and can it be learned? ICLR, 2019. [4]Yunsheng Bai, Derek Xu, Alex Wang, Ken Gu, Xueqing Wu, Agustin Marinovic, Christopher Ro, Yizhou Sun, and Wei Wang. Fast detection of maximum common subgraph via deep q-learning. arXiv preprint arXiv:2002.03129, 2020.
NAACL 2021(2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics)將于2021年6月6日至11日以在線會議的形式在墨西哥城舉辦。來自羅切斯特大學和騰訊的研究人員《視頻輔助無監督語法歸納》獲得最佳長論文,此外還包括2篇杰出長論文和1篇最佳短論文和2篇杰出短論文。
NAACL為自然語言處理領域的頂級會議之一,旨在為北美以及中美洲和南美洲的計算語言學協會(ACL)的成員總結研究領域重點,組織年度會議,促進區域性的合作交流,從而鼓勵和促進美洲人民和機構加入ACL,并為ACL執行委員會提供有關區域活動的信息來源。
最佳論文評選過程:
這些論文是從NAACL 2021年提交的1797篇論文中選出來的。候選人由高級AC提名,并由最佳論文委員會審查。每個委員會成員對一部分論文進行了排序,PC聯合主席考慮了所有的建議以做出最終決定。特別感謝我們杰出的最佳論文評委會:Isabelle Augenstein, Marco Baroni, Barbara Di Eugenio, Jacob Eisenstein, Hanna Hajishirzi, Omer Levy, Jessy Li, Yang Liu, Chris Quirk和Bonnie Webber。
詳情可登陸以下會議官網查詢:
//2021.naacl.org/blog/best-paper-awards/
「最佳長論文獎」(Best Long Paper)
視頻輔助無監督語法歸納 Video-aided Unsupervised Grammar Induction
Songyang Zhang, Linfeng Song, Lifeng Jin, Kun Xu, Dong Yu and Jiebo Luo
摘要:我們研究了視頻輔助語法歸納法,它從無標記文本和相應的視頻學習一個constituency解析器。現有的多模態語法歸納方法側重于從文本-圖像對中學習句法語法,結果表明靜態圖像信息可以用于語法歸納。然而,視頻提供了更豐富的信息,不僅包括靜態對象,還包括動作和狀態變化,這對引導動詞短語很有用。在本文中,我們從視頻中探索了豐富的特征(例如動作、物體、場景、音頻、人臉、OCR和語音),并以最近的Compound PCFG模型(Kim et al., 2019)為基線。我們進一步提出了一個多模態化合物PCFG模型(MMC-PCFG)來有效地從不同的模態中聚合這些豐富的特征。我們提出的MMC-PCFG進行了端到端的訓練,并在三個基準上(即DiDeMo、YouCook2和MSRVTT)超過了每個單獨的模態和以前最先進的系統,證實了利用視頻信息進行無監督語法歸納的有效性。
地址:
「杰出長論文獎」(Outstanding Long Papers Award)
Unifying Cross-Lingual Semantic Role Labeling with Heterogeneous Linguistic Resources
Simone Conia, Andrea Bacciu and Roberto Navigli
雖然跨語言技術在各種自然語言處理任務中取得了越來越多的成功,但由于每種語言都采用自己的語言形式,例如probank用于英語,AnCora用于西班牙語,pdd - vallex用于捷克語,因此它們在語義角色標記(Semantic Role Labeling, SRL)中的應用受到了很大的限制。在這項工作中,我們解決了這個問題,并提出了一個統一的模型來在不同的語言資源上執行跨語言SRL。我們的模型隱式地學習了跨不同語言的不同形式的高質量映射,而無需訴諸于單詞對齊和/或翻譯技術。我們發現,我們的跨語言系統不僅與當前的技術水平相匹配,而且對于低數據場景也很魯棒。有趣的是,我們的統一模型能夠在一個單一的正向傳遞中注釋一個句子,它所訓練的所有庫存,提供了一個工具來分析和比較不同語言的語言理論。
It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
Timo Schick and Hinrich Schütze
當擴展到數千億參數時,預訓練的語言模型,如GPT-3 (Brown et al., 2020),實現了顯著的少樣本學習性能。然而,訓練和運用這樣的大型模型需要大量的計算,這導致了巨大的碳耗費,使得研究人員和從業人員很難使用它們。我們展示了與GPT-3類似的性能可以通過更“綠色”的語言模型獲得,因為它們的參數計數要小幾個數量級。這是通過將文本輸入轉換為包含任務描述的完形填空問題,并結合基于梯度的優化來實現的;利用未標記的數據提供了進一步的改進。我們確定了用小語言模型成功理解自然語言所需的關鍵因素。
「最佳短論文」(Best Short Paper)
Learning How to Ask: Querying LMs with Mixtures of Soft Prompts Guanghui Qin and Jason Eisner
學習如何提問:使用混合軟提示查詢語言模型
介紹使用spaCy使用Python進行自然語言處理,spaCy是一個領先的Python自然語言處理庫。
使用Python和spaCy進行自然語言處理將向您展示如何快速輕松地創建聊天機器人、文本壓縮腳本和訂單處理工具等NLP應用程序。您將了解如何利用spaCy庫智能地從文本中提取含義;如何確定句子中詞語之間的關系(句法依賴分析);識別名詞、動詞和其他詞類(詞性標注);并將專有名詞分類,如人員、組織和地點(識別命名實體)。你甚至會學到如何將陳述轉換成問題來保持對話的進行。您還將學習如何:
每一章的“嘗試這個”部分鼓勵您通過擴展該書的示例腳本來處理更廣泛的輸入、添加錯誤處理和構建專業質量的應用程序,從而實踐您所學到的知識。在本書的最后,您將使用Python和spaCy創建自己的NLP應用程序。
Yuli Vasiliev是一名程序員、自由撰稿人和顧問,專門從事開源開發、Oracle數據庫技術和自然語言處理。
Introduction
Chapter 1: How Natural Language Processing Works Chapter 2: The Text-Processing Pipeline Chapter 3: Working with Container Objects and Customizing spaCy Chapter 4: Extracting and Using Linguistic Features Chapter 5: Working with Word Vectors Chapter 6: Finding Patterns and Walking Dependency Trees Chapter 7: Visualizations Chapter 8: Intent Recognition Chapter 9: Storing User Input in a Database Chapter 10: Training Models Chapter 11: Deploying Your Own Chatbot Chapter 12: Implementing Web Data and Processing Images Linguistic Primer