人工智能研究的長期目標是構建能夠看到我們周圍豐富視覺環境的智能體,用自然語言將這種理解傳達給人類和其他智能體,并在物理或具身環境中行動。為此,計算機視覺和自然語言處理的最新進展取得了巨大的進展——從生成圖像/視頻的自然語言描述,到回答有關圖像/視頻的問題,再到就視覺內容進行自由形式的對話。
最近,在計算機視覺、自然語言處理和機器人領域,具身人工智能(即訓練具身代理在自我中心感知中執行各種任務)吸引了大量的興趣。視覺語言導航(VLN)是由Anderson和Wu等人提出的嵌入式人工智能的一個基本主題。
在本教程中,我們將不僅涵蓋視覺和語言研究前沿的最新方法和原則,還將對VLN領域進行全面概述。
【導讀】ACL-IJCNLP 2021是CCF A類會議,是人工智能領域自然語言處理( Natural Language Processing,NLP)方向最權威的國際會議。ACL2021計劃于今年8月1日-8月6日以線上會議形式召開. 最近字節跳動AI實驗室總監李磊重返學術界,進入加州大學圣巴巴拉分校擔任助理教授。他和王明軒給了關于預訓練時代機器翻譯的教程,非常值得關注!
預訓練是自然語言處理(NLP)[28,8,20]、計算機視覺(CV)[12,34]和自動語音識別(ASR)[3,6,24]的主導范式。通常,首先對模型進行大量未標記數據的預訓練,以捕獲豐富的輸入表示,然后通過提供上下文感知的輸入表示,或初始化下游模型的參數進行微調,將模型應用于下游任務。最近,自監督的預訓練和任務特定的微調范式終于完全達到了神經機器翻譯(NMT)[37,35,5]。
盡管取得了成功,但在NMT中引入一個通用的預訓練模型并非易事,而且不一定會產生有希望的結果,特別是對于資源豐富的環境。在幾個方面仍然存在獨特的挑戰。首先,大多數預訓練方法的目標不同于下游的NMT任務。例如,BERT[8]是一種流行的預訓練模型,其設計目的是僅使用一個轉換器編碼器進行語言理解,而NMT模型通常由一個編碼器和一個解碼器組成,以執行跨語言生成。這一差距使得運用NMT[30]的預訓練不夠可行。此外,機器翻譯本身就是一個多語言問題,但一般的NLP預訓練方法主要集中在英語語料庫上,如BERT和GPT。鑒于遷移學習在多語言機器翻譯中的成功,對NMT[7]進行多語言預訓練是非常有吸引力的。最后,語音翻譯近年來受到了廣泛的關注,而大多數的預訓練方法都側重于文本表示。如何利用預訓練的方法來提高口語翻譯水平成為一個新的挑戰。
本教程提供了一個充分利用神經機器翻譯的預訓練的全面指導。首先,我們將簡要介紹NMT的背景、預訓練的方法,并指出將預訓練應用于NMT的主要挑戰。在此基礎上,我們將著重分析預訓練在提高非語言教學績效中的作用,如何設計更好的預訓練模式來執行特定的非語言教學任務,以及如何更好地將預訓練模式整合到非語言教學系統中。在每一部分中,我們將提供例子,討論訓練技巧,并分析在應用預訓練時轉移了什么。
第一個主題是NMT的單語預訓練,這是研究最深入的領域之一。ELMo、GPT、MASS和BERT等單語文本表征具有優勢,顯著提高了各種自然語言處理任務的性能[25,8,28,30]。然而,NMT有幾個明顯的特點,如大的訓練數據(1000萬或更多)的可用性和基線NMT模型的高容量,這需要仔細設計預訓練。在這一部分,我們將介紹不同的預訓練方法,并分析它們在不同的機器翻譯場景(如無監督的NMT、低資源的NMT和富資源的NMT)中應用的最佳實踐[37,35]。我們將介紹使用各種策略對預訓練的模型進行微調的技術,如知識蒸餾和適配器[4,16]。
下一個話題是NMT的多語言預訓練。在此背景下,我們旨在緩解英語為中心的偏見,并建議可以建立不同語言的普遍表示,以改善大量多語言的NMT。在這部分中,我們將討論不同語言的一般表示,并分析知識如何跨語言遷移。這將有助于更好地設計多語言預訓練,特別是零樣本遷移到非英語語言對[15,27,7,26,13,17,19,23,18]。
本教程的最后一個技術部分是關于NMT的預訓練。特別地,我們關注于利用弱監督或無監督訓練數據來改進語音翻譯。在這一部分中,我們將討論在言語和文本中建立一個一般表示的可能性。并展示了文本或音頻預處理訓練如何引導NMT的文本生成[33,21,32,14,22,10,9,11,36]。
在本教程的最后,我們指出了在應用NMT預訓練時的最佳實踐。這些主題涵蓋了針對不同的NMT情景的各種預訓練方法。在本教程之后,觀眾將理解為什么NMT預訓練不同于其他任務,以及如何充分利用NMT預訓練。重要的是,我們將深入分析預訓練如何以及為什么在NMT中起作用,這將為未來設計特定的NMT預訓練范式提供啟發。
//sites.cs.ucsb.edu/~lilei/TALKS/2021-ACL/
報告嘉賓:
李磊,加州大學圣巴巴拉分校擔任助理教授,曾任字節跳動人工智能實驗室總監。本科博士分別畢業于上海交通大學和卡耐基梅隆大學計算機系。曾任加州大學伯克利分校作博士后研究員和百度美國深度學習實驗室少帥科學家。曾獲2012年美國計算機學會SIGKDD最佳博士論文第二名、2017年吳文俊人工智能技術發明二等獎、2017年CCF杰出演講者、2019年CCF青竹獎。在機器學習、數據挖掘和自然語言處理領域于國際頂級學術會議發表論文100余篇,擁有二十余項技術發明專利。擔任CCF自然語言處理專委委員和EMNLP, NeurIPS, AAAI, IJCAI, KDD等多個會議組委成員和領域主席。
王明軒,字節跳動人工智能實驗室資深研究員,博士畢業于中國科學院計算技術研究所,主要研究方向為機器翻譯。主導研發了火山翻譯系統,服務全球過億用戶,并多次帶領團隊在 WMT 機器翻譯評測中拿到過冠軍。在 ACL、EMNLP、NAACL 等相關領域發表論文 30 多篇。擔任CCF自然語言處理專委委員和國內外多個會議組委成員。
本文研究了卷積神經網絡(CNN)和視覺語言預訓練Transformer(VLPT)的聯合學習,旨在從數百萬個圖像-文本對中學習跨模態對齊。當前大多數文章都是先抽取出圖像中的顯著性區域,再將其與文字一一對齊。由于基于區域的視覺特征通常代表圖像的一部分,因此現有的視覺語言模型要充分理解配對自然語言的語義是一項挑戰。由于基于區域的視覺特征通常代表圖像的一部分,現有的視覺語言模型很難完全理解成對自然語言的語義。本文提出SOHO“開箱即看”的概念,將完整的圖像為輸入,以一種端到端的方式學習視覺語言表達。SOHO不需要邊界框標注,這使得推理速度比基于區域的方法快10倍。特別地,SOHO學會了通過視覺詞典(VD)來提取全面而緊湊的圖像特征,這有助于跨模態理解。大量的實驗結果也驗證了本文SOHO的有效性。
//www.zhuanzhi.ai/paper/a8c52c4b641c0a5bc840a955b6258b39
論文題目:Counterfactual VQA: A Cause-Effect Look at Language Bias
作者:牛玉磊,湯凱華,張含望,盧志武,華先勝,文繼榮
論文概述:近期研究發現,視覺問答模型在訓練過程中會傾向于探索數據中的語言偏差,并依賴語言偏差進行推理和作答。這一傾向使得視覺問答模型未能充分地從視覺和語言兩個模態中學習多模態知識,進而做出錯誤的回答。本文研究如何將視覺問答任務中的語言偏差進行捕獲并去除。本文從因果推理的視角出發,提出了一種全新的基于反事實推斷的視覺問答框架。反事實推斷框架將語言偏差建模為問題對答案的直接因果效應,并通過從總體因果效應中減去語言的直接效應的方式去除語言偏差。實驗證明反事實推斷框架能夠有效地克服語言偏差的影響,并具有良好的泛化性和魯棒性。此外,本文從因果推理的角度為部分相關工作提供了理論解釋。
近年來,在大量原始文本上預先訓練的大型語言模型徹底改變了自然語言處理。現有的方法,基于因果或隱藏的語言模型的變化,現在為每一個NLP任務提供了事實上的方法。在這個演講中,我將討論最近在語言模型預訓練方面的工作,從ELMo、GPT和BERT到更近期的模型。我的目標是對總體趨勢進行廣泛的報道,但提供更多關于我們最近在Facebook AI和華盛頓大學開發的模型的細節。其中特別包括序列到序列模型的預訓練方法,如BART、mBART和MARGE,它們提供了一些迄今為止最普遍適用的方法。
雖然在許多領域產生并提供了大量的未標記數據,但獲取數據標簽的成本仍然很高。另一方面,用深度神經網絡解決問題已經變得非常流行,但目前的方法通常依賴大量的標記訓練數據來實現高性能。為了克服注釋的負擔,文獻中提出了利用來自同一領域的可用未標記數據的解決方案,稱為半監督學習;利用相似但又不同領域的已有標記的數據或訓練過的模型,稱為領域自適應。本教程的重點將是后者。領域自適應在社會上也越來越重要,因為視覺系統部署在任務關鍵應用中,其預測具有現實影響,但現實世界的測試數據統計可以顯著不同于實驗室收集的訓練數據。我們的目標是概述視覺領域適應方法,這一領域在計算機視覺領域的受歡迎程度在過去幾年中顯著增加,這可以從過去幾年在頂級計算機視覺和機器學習會議上發表的大量的相關論文中得到證明。
//europe.naverlabs.com/eccv-2020-domain-adaptation-tutorial/
雖然在許多領域產生并提供了大量的未標記數據,但獲取數據標簽的成本仍然很高。另一方面,用深度神經網絡解決問題已經變得非常流行,但目前的方法通常依賴大量的標記訓練數據來實現高性能。為了克服注釋的負擔,文獻中提出了利用來自同一領域的可用未標記數據的解決方案,稱為半監督學習;利用相似但又不同領域的已有標記的數據或訓練過的模型,稱為領域自適應。本教程的重點將是后者。領域自適應在社會上也越來越重要,因為視覺系統部署在任務關鍵應用中,其預測具有現實影響,但現實世界的測試數據統計可以顯著不同于實驗室收集的訓練數據。我們的目標是概述視覺領域適應方法,這一領域在計算機視覺領域的受歡迎程度在過去幾年中顯著增加,這可以從過去幾年在頂級計算機視覺和機器學習會議上發表的大量的相關論文中得到證明。
//europe.naverlabs.com/eccv-2020-domain-adaptation-tutorial/
在ICAACI2020虛擬會議上,Freddy Lecue發表了題為“用知識增強語言視覺——視覺問題回答(VQA)”的主題演講,他探索了知識圖譜如何增強機器學習以產生最佳的VQA結果。
我們提出UniViLM:一個用于多模態理解和生成的統一視頻和語言預訓練模型。最近,基于BERT的NLP和圖像語言任務預訓練技術取得了成功,受此啟發,VideoBERT和CBT被提出將BERT模型用于視頻和語言預訓練,并使用敘事性教學視頻。不同于他們的工作只訓練理解任務,我們提出了一個統一的視頻語言理解和生成任務的預訓練模型。我們的模型由4個組件組成,包括兩個單模態編碼器、一個交叉編碼器和一個帶Transformer主干的譯碼器。我們首先對我們的模型進行預訓練,以學習視頻和語言在大型教學視頻數據集上的通用表示。然后,我們在兩個多模態任務上對模型進行微調,包括理解任務(基于文本的視頻檢索)和生成任務(多模態視頻字幕)。我們的大量實驗表明,我們的方法可以提高理解和生成任務的性能,并取得了最先進的結果。