機器學習模型在自然語言處理中的應用最近的進展是由評估各種任務模型的基準驅動的。然而,這些覆蓋范圍廣泛的基準測試主要局限于英語,盡管人們對多語言模型的興趣越來越大,但是仍然缺少一個基準測試來全面評估這些方法對各種語言和任務的影響。為此,我們引入了多語言編碼器XTREME基準的跨語言轉換評估,這是一個多任務基準,用于評估40種語言和9個任務的多語言表示的跨語言泛化能力。我們證明,雖然英語測試的模型在許多任務上達到了人類的表現,但在跨語言遷移模型的表現上仍然有相當大的差距,特別是在句法和句子檢索任務上。在不同的語言之間也有廣泛的結果。我們發布基準測試是為了鼓勵對跨語言學習方法的研究,這種方法可以將語言知識傳遞到不同的、有代表性的語言和任務中。
近日,國際計算語言學協會年會(ACL,The Association for Computational Linguistics)在官網公布了ACL 2020的最佳論文名單,共有1篇最佳論文,2篇最佳論文提名,1篇最佳主題論文,1篇最佳主題論文提名,1篇最佳demo論文,2篇最佳demo論文提名。
//acl2020.org/blog/ACL-2020-bes-tpapers/
ACL 2020是第58屆ACL年會,原定于7月5日至10日在美國華盛頓西雅圖舉行。受疫情影響,今年的自然語言處理領域頂級會議ACL改為線上舉行,于當地時間7月5日上正式線上開幕。涵蓋了 Paper Q&A Session、Tutorials、Workshops等一系列活動。
最佳論文獎
ACL 2020 最佳論文獎項由來自微軟研究院、華盛頓大學、加州大學歐文分校的研究人員摘得,該研究提出了一種與任務無關的 NLP 模型測試方法。
簡介:這篇論文受軟件工程行為測試原理的啟發,主要引入了CheckList,這是一種與任務無關的方法,用于測試NLP模型。CheckList包括一般語言功能和測試類型的矩陣,有助于全面測試構思,以及一個軟件工具,用于快速生成大量和多樣化的測試用例。作者通過測試三個任務來說明CheckList的效用,識別商業和最先進的模型中的關鍵故障。在用戶研究中,負責商業情緒分析模型的團隊在廣泛測試的模型中發現了新的和可操作的Bug。在另一個用戶研究中,使用CheckList的NLP從業者創建了兩倍的測試,并且發現的錯誤數幾乎是沒使用它的用戶的三倍。
最佳主題論文獎
此次會議的最佳主題論文獎由來自美國華盛頓大學和德國薩爾大學的研究者摘得。
簡介:大型神經語言模型在許多 NLP 任務上獲得成功。這篇論文肯定了大型神經語言模型在許多NLP任務上的成功。同時也指出,這些成功有時會被夸大,認為這些模型可以被描述為一種「理解」或「意義」。在這篇文章中,作者認為,一個只接受形式訓練的系統本身是無法學習意義的。作者指出,對形式和意義之間的區別有明確理解,將有助于引導該領域朝著更好的自然語言理解科學方向發展。
最佳 Demo 論文
簡介:這項研究提出了首個綜合開源的多媒體知識提取系統,該系統可基于不同的內容源和語言提取大量非結構化異構多媒體數據,并遵循豐富細粒度本體,創建出連貫且結構化的知識庫、索引實體、關系和事件。
該研究提出的系統 GAIA 可實現復雜圖 query 的無縫搜索,并檢索出文本、圖像和視頻等多媒體證據。GAIA 在近期的 NIST TAC SM-KBP2019 評估中實現了頂級性能。
時間檢驗獎
ACL 2020 的時間檢驗獎(Test of Time Awards)頒給了 4 篇論文,其中 2 篇發表于 1995 年,經受住了 25 年的時間檢驗,另外兩篇發表于 2010 年。
論文 1:Centering: A Framework for Modeling the Local Coherence of Discourse
這篇論文于 1995 年發表在 CL 上,被引用次數高達 2700 多次。
該論文是計算對話(computational discourse)領域最重要的論文之一,融合了理論語言學、心理語言學和形式語義學,展示了「語言學」在「計算語言學」中的力量。
論文 2:Unsupervised Word Sense Disambiguation Rivaling Supervised Methods
這篇論文于 1995 年發表在 ACL 上,被引用次數也在 2700 次以上。
該論文開創性地將語言學假設和無監督學習融合起來,展示了統計數據驅動的技術在 NLP 領域中的強大作用。這篇論文探討的問題——監督學習和無監督學習的性能差距、標注數據的成本,放到現在依舊不過時。
論文 3:Distributional Memory: A General Framework for Corpus-Based Semantics
本文于 2010 年發表在 CL 上,被引用次數近 700 次。
該論文開創性地提倡詞匯語義學的通用學得表征,提出自監督預訓練方法(類似于 word2vec、BERT 中所使用的),促進了計算語義學、認知建模和語言學理論之間的聯系。
論文 4:Word representations: A simple and general method for semi-supervised learning
這篇論文于 2010 年發表在 ACL 上,被引用次數超過 2200 次。
該論文是將向量表示用于 NLP 任務的里程碑式著作。它在提出詞嵌入方面早了大約五年,并首次在多項 NLP 任務上對比了 distributional 和 distributed(分布式)詞表示,論文倡導的思想至今在 NLP 領域占據中心地位。
參考資料:
機器之心
本文表明,在大規模的多語言預訓練模型,可以顯著地提高跨語言遷移任務的性能。我們使用超過2TB的過濾CommonCrawl數據,在100種語言上訓練一個基于Transformer的掩碼語言模型。我們的模型被稱為XLM-R,在多種跨語言基準測試中顯著優于多語言BERT (mBERT),包括XNLI的平均正確率+13.8%,MLQA的平均F1分數+12.3%,NER的平均F1分數+2.1%。XLM- r在低資源語言上表現特別好,與以前的XLM模型相比,XNLI在斯瓦希里語上的準確率提高了11.8%,在烏爾都語上的準確率提高了9.2%。我們還對實現這些收益所需的關鍵因素進行了詳細的實證評估,包括(1)積極遷移和能力稀釋之間的權衡,以及(2)大規模高資源語言和低資源語言的性能。最后,我們首次展示了在不犧牲每種語言性能的情況下進行多語言建模的可能性;XLM-Ris在GLUE和XNLI基準上有很強的單語言模型,非常有競爭力。我們將使XLM-R代碼、數據和模型公開可用。
論文題目: Meta-World: A Benchmark and Evaluation for Multi-Task and Meta Reinforcement Learning
摘要: 元強化學習算法可以利用以前的經驗來學習如何學習,從而使機器人更快地獲得新技能。然而,目前關于元強化學習的研究大多集中在任務分布非常狹窄的情況下。例如,一個常用的元強化學習基準對一個模擬機器人使用不同的運行速度作為不同的任務。當策略在如此狹窄的任務分布上進行元訓練時,它們不可能泛化到更快速地獲取全新的任務。因此,如果這些方法的目的是更快地獲取全新的行為,那么我們必須在任務分布上對它們進行評估,這些任務分布足夠廣泛,從而能夠對新行為進行泛化。在本文中,我們提出了一種元強化學習和多任務學習的開源模擬基準,由50個不同的機器人操作任務組成。我們的目標是使開發算法成為可能,從而加速獲取全新的、未完成的任務。我們評估了6種最先進的元強化學習和多任務學習算法。令人驚訝的是,雖然每個任務及其變體(例如,具有不同的對象位置)都可以成功地學習,但這些算法很難同時學習多個任務,即使只有10個不同的訓練任務。我們的分析和開源環境為未來多任務學習和元學習的研究鋪平了道路,這些研究可以使有意義的概括成為可能,從而釋放這些方法的全部潛力。
論文作者: Tianhe Yu, Deirdre Quillen, Zhanpeng He, Ryan Julian, Karol Hausman, Chelsea Finn, Sergey Levine
Sergey Levine于2009年獲得斯坦福大學計算機科學學士學位和碩士學位,并獲得博士學位。 2014年獲得斯坦福大學計算機科學博士學位。他于2016年秋天加入加州大學伯克利分校電氣工程與計算機科學系。他的工作重點是決策和控制的機器學習,重點是深度學習和強化學習。他的工作應用包括自動駕駛機器人和車輛,以及計算機視覺和圖形。 他的研究包括開發將感知和控制相結合的深度神經網絡策略的端到端訓練算法,用于逆向強化學習的可擴展算法,深度強化學習算法等。 在許多受歡迎的媒體中,包括紐約時報,BBC,麻省理工學院技術評論和彭博社,他的作品都得到了報道。