NAACL 2021(2021 Annual Conference of the North American Chapter of the Association for Computational Linguistics)將于2021年6月6日至11日以在線會議的形式在墨西哥城舉辦。來自羅切斯特大學和騰訊的研究人員《視頻輔助無監督語法歸納》獲得最佳長論文,此外還包括2篇杰出長論文和1篇最佳短論文和2篇杰出短論文。
NAACL為自然語言處理領域的頂級會議之一,旨在為北美以及中美洲和南美洲的計算語言學協會(ACL)的成員總結研究領域重點,組織年度會議,促進區域性的合作交流,從而鼓勵和促進美洲人民和機構加入ACL,并為ACL執行委員會提供有關區域活動的信息來源。
最佳論文評選過程:
這些論文是從NAACL 2021年提交的1797篇論文中選出來的。候選人由高級AC提名,并由最佳論文委員會審查。每個委員會成員對一部分論文進行了排序,PC聯合主席考慮了所有的建議以做出最終決定。特別感謝我們杰出的最佳論文評委會:Isabelle Augenstein, Marco Baroni, Barbara Di Eugenio, Jacob Eisenstein, Hanna Hajishirzi, Omer Levy, Jessy Li, Yang Liu, Chris Quirk和Bonnie Webber。
詳情可登陸以下會議官網查詢:
//2021.naacl.org/blog/best-paper-awards/
「最佳長論文獎」(Best Long Paper)
視頻輔助無監督語法歸納 Video-aided Unsupervised Grammar Induction
Songyang Zhang, Linfeng Song, Lifeng Jin, Kun Xu, Dong Yu and Jiebo Luo
摘要:我們研究了視頻輔助語法歸納法,它從無標記文本和相應的視頻學習一個constituency解析器。現有的多模態語法歸納方法側重于從文本-圖像對中學習句法語法,結果表明靜態圖像信息可以用于語法歸納。然而,視頻提供了更豐富的信息,不僅包括靜態對象,還包括動作和狀態變化,這對引導動詞短語很有用。在本文中,我們從視頻中探索了豐富的特征(例如動作、物體、場景、音頻、人臉、OCR和語音),并以最近的Compound PCFG模型(Kim et al., 2019)為基線。我們進一步提出了一個多模態化合物PCFG模型(MMC-PCFG)來有效地從不同的模態中聚合這些豐富的特征。我們提出的MMC-PCFG進行了端到端的訓練,并在三個基準上(即DiDeMo、YouCook2和MSRVTT)超過了每個單獨的模態和以前最先進的系統,證實了利用視頻信息進行無監督語法歸納的有效性。
地址:
「杰出長論文獎」(Outstanding Long Papers Award)
Unifying Cross-Lingual Semantic Role Labeling with Heterogeneous Linguistic Resources
Simone Conia, Andrea Bacciu and Roberto Navigli
雖然跨語言技術在各種自然語言處理任務中取得了越來越多的成功,但由于每種語言都采用自己的語言形式,例如probank用于英語,AnCora用于西班牙語,pdd - vallex用于捷克語,因此它們在語義角色標記(Semantic Role Labeling, SRL)中的應用受到了很大的限制。在這項工作中,我們解決了這個問題,并提出了一個統一的模型來在不同的語言資源上執行跨語言SRL。我們的模型隱式地學習了跨不同語言的不同形式的高質量映射,而無需訴諸于單詞對齊和/或翻譯技術。我們發現,我們的跨語言系統不僅與當前的技術水平相匹配,而且對于低數據場景也很魯棒。有趣的是,我們的統一模型能夠在一個單一的正向傳遞中注釋一個句子,它所訓練的所有庫存,提供了一個工具來分析和比較不同語言的語言理論。
It's Not Just Size That Matters: Small Language Models Are Also Few-Shot Learners
Timo Schick and Hinrich Schütze
當擴展到數千億參數時,預訓練的語言模型,如GPT-3 (Brown et al., 2020),實現了顯著的少樣本學習性能。然而,訓練和運用這樣的大型模型需要大量的計算,這導致了巨大的碳耗費,使得研究人員和從業人員很難使用它們。我們展示了與GPT-3類似的性能可以通過更“綠色”的語言模型獲得,因為它們的參數計數要小幾個數量級。這是通過將文本輸入轉換為包含任務描述的完形填空問題,并結合基于梯度的優化來實現的;利用未標記的數據提供了進一步的改進。我們確定了用小語言模型成功理解自然語言所需的關鍵因素。
「最佳短論文」(Best Short Paper)
Learning How to Ask: Querying LMs with Mixtures of Soft Prompts Guanghui Qin and Jason Eisner
學習如何提問:使用混合軟提示查詢語言模型
計算語言學國際會議 COLING 2020(The 28th International Conference on Computational Linguistics)是計算語言學和自然語言處理領域的重要國際會議,由ICCL(International Committee on Computational Linguistics)主辦,每兩年舉辦一次,是CCF-B類推薦會議。本屆COLING 2020將于2020年12月8日至13日以在線會議的形式舉辦。COLING 2020共計收到2180篇論文投稿,其中包括2021篇主會投稿、48篇Demo投稿、111篇工業論文投稿,最終有1900余篇論文進入審稿流程。官方Twitter公布了最佳論文。
NeurIPS2020官方今日發布接收論文列表,9454篇論文提交有1900篇論文接受,接受率20.1%,其中涵蓋280篇Spotlight和105篇Oral.
【導讀】CCF A類會議,國際萬維網大會WWW 2020(International World Wide Web Conference)于2020年4月20日至24日在中國臺灣舉行。碰到疫情,WWW采用在線舉行。剛剛最佳論文一系列獎項出爐了!來自俄亥俄州立大學的開放意圖抽取《 Open Intent Extraction from Natural Language Interactions》獲得最佳論文,北京郵電大學的移動App占位《Mobile App Squatting 》獲得最佳學生論文!
「最佳論文獎」(Best Paper Award)
自然語言交互的開放意圖提取 Open Intent Extraction from Natural Language Interactions
作者: Nikhita Vedula , Nedim Lipka , Pranav Maneriker , Srinivasan Parthasarathy Authors Info & Affiliations
摘要:準確地從用戶的書面或口頭語言中發現他們的意圖在自然語言理解和自動對話響應中扮演著重要的角色。大多數現有的研究將其建模為每個話語都有一個意圖標簽的分類任務,將用戶的話語從一組已知的類別中分組為一個單一的意圖類型。在此基礎上,我們定義并研究了公開意圖發現的新問題。它涉及到從文本話語中發現一個或多個通用的意圖類型,這些類型可能在訓練中沒有遇到。我們提出了一種新領域無關的方法OPINE,它將問題表述為開放世界環境下的一個序列標記任務。它在雙向LSTM上使用CRF來以一致的格式提取意圖,受意圖標簽標簽之間的約束。我們用了一個多頭自注意力機制來有效地學習遠處單詞之間的依賴關系。我們進一步使用對抗性訓練來提高性能,并在不同的領域強有力地適應我們的模型。最后,我們策劃并計劃發布一個開放的意圖注釋數據集,包含25K個跨越不同領域的真實話語。大量的實驗表明,我們的方法優于最先進的基線5-15%的F1得分點。我們還演示了OPINE在識別多個不同的域意圖方面的有效性,每個域的訓練示例有限(也可以為零)。
//dl.acm.org/doi/10.1145/3366423.3380268
「最佳學生論文獎」(Best Student Paper Award)
移動App占位 Mobile App Squatting
Authors: Yangyu Hu , Haoyu Wang , Ren He , Li Li , Gareth Tyson , Ignacio Castro , Yao Guo , Lei Wu , Guoai Xu
域名占用是攻擊者模仿流行域名注冊的一種對抗策略,已經被觀察了幾十年。然而,越來越多的證據表明,這種攻擊方式已經蔓延到其他領域。在這篇文章中,我們探討了占用攻擊在移動應用生態系統中的存在。在“App Squatting”中,攻擊者發布的帶有標識符(如App名稱或包名)的應用,與流行應用或知名互聯網品牌的應用混淆不清。本文首次對app占用進行了深入的測量研究,揭示了app占位的流行及其意義。我們首先確定了app squatters常用的11種變形方式,并提出了一種名為“AppCrazy”的app標識符自動生成工具。我們將AppCrazy應用到谷歌Play中最受歡迎的500個應用中,生成了224,322個變形關鍵字,然后我們將這些變形關鍵字用于測試流行市場上的app非法占位者。通過這個,我們確認了問題的規模,確定了10553個占用應用程序(平均每個合法應用程序超過20個占位程序)。我們的調查顯示,超過51%的非法占用應用程序是惡意的,其中一些非常受歡迎(高達1000萬次下載)。同時,我們也發現移動應用市場在識別和消除非法占用應用方面并不成功。我們的發現表明了識別和防止濫用app的緊迫性。為此,我們已經公開發布了所有識別出的占位應用程序,以及我們的工具AppCrazy。