題目: CodeBERT: A Pre-Trained Model for Programming and Natural Languages
摘 要:
本文提出了一種用于編程語言(PL)和自然語言(NL)的預訓練模型CodeBERT。CodeBERT學習了支持下游NL-PL應用程序(如自然語言代碼研究、代碼文檔生成等)的通用表示形式。我們使用基于變壓器的神經結構來開發CodeBERT,并使用混合目標函數來訓練它,該混合目標函數合并了替換令牌檢測的訓練前任務,即檢測從生成器中采樣的可信替代。這使我們能夠利用NL-PL對的雙峰數據和單峰數據,前者為模型訓練提供輸入標記,而后者有助于更好地學習生成器。我們通過微調模型參數來評估CodeBERT在兩個NL-PL應用程序上的性能。結果表明,CodeBERT在自然語言代碼搜索和代碼文檔生成任務方面都實現了最先進的性能。此外,為了研究在CodeBERT中學習的知識的類型,我們構造了一個用于NL-PL探測的數據集,并在一個預先訓練的模型的參數固定的零距離設置中進行評估。結果表明,CodeBERT在NL-PL探測方面的性能優于之前的預訓練模型。
題目: KG-BERT: BERT for Knowledge Graph Completion
摘要: 知識圖譜是許多人工智能任務的重要資源,但往往是不完整的。在這項工作中,我們使用預訓練的語言模型來對知識圖譜進行補全。我們將知識圖譜中的三元組視為文本序列,并提出了一種新的框架結構——知識圖譜雙向編碼方向轉換器(KG-BERT)來對這些三元組進行建模。該方法以一個三元組的實體描述和關系描述作為輸入,利用KG-BERT語言模型計算三元組的評分函數。在多個基準知識圖譜上的實驗結果表明,我們的方法在三元組分類、鏈接預測和關系預測任務上都能達到最新的性能。
題目: Attention in Natural Language Processing
摘要:
注意力是一種越來越受歡迎的機制,在廣泛的神經結構中使用。該機制本身以各種格式實現。然而,由于這一領域的快速發展,仍然缺乏對注意力的系統概述。在本文中,我們為自然語言處理中的注意力架構定義了一個統一的模型,重點是那些設計用來處理文本數據的向量表示的模型。根據四個維度提出了注意力模型的分類:輸入的表示、兼容性函數、分布函數和輸入和輸出的多樣性。然后展示了如何在注意力模型中利用先驗信息的例子,并討論了該領域正在進行的研究工作和面臨的挑戰。
題目: Behind the Scene: Revealing the Secrets of Pre-trained Vision-and-Language Models
摘要: 最近基于Transformer的大規模預訓練模型已經徹底改變了視覺和語言(V+L)研究。ViLBERT、LXMERT和UNITER等模型通過聯合圖像-文本預訓練在大量的V+L基準上顯著提高了技術水平。然而,人們對這些令人印象深刻的成功背后的內在機制知之甚少。為了揭示這些強大的模型的場景背后的秘密,我們提出的Value(視覺和語言理解評估),是一個精心設計的探索任務(如視覺算法,視覺檢測的關系,語言探索任務)可概括的標準預訓練V+L模型,旨在解讀多通道的內部運作訓練的(例如,個人的隱性知識獲得關注,通過上下文化的多模態嵌入學習的固有的跨模態對齊)。通過這些探測任務對每個原型模型體系結構進行大量的分析,我們的主要觀察結果如下:(i)預訓練的模型顯示出在推理過程中專注于文本而非圖像的傾向。(ii)存在一種注意力頭子集,專門用于捕捉跨模態交互。(iii)在預訓練的模型中學習注意力矩陣,顯示與圖像區域和文本單詞之間的隱對齊一致的模式。(iv)繪制的注意力模式揭示了圖像區域之間的視覺解釋關系。純粹的語言知識也有效地編碼在注意力頭中。這些都是有價值的見解,有助于指導未來的工作,以設計更好的模型架構和目標的多模態預訓練。
題目: DeeBERT: Dynamic Early Exiting for Accelerating BERT Inference
摘要:
大規模的預訓練語言模型(如BERT)給NLP應用帶來了顯著的改進。然而,它們也因推理速度慢而臭名昭著,這使得它們很難部署到實時應用程序中。我們提出了一個簡單而有效的方法DeeBERT,來加速BERT推理。我們的方法允許樣本在不經過整個模型的情況下提前退出。實驗表明,在模型質量下降最小的情況下,DeeBERT可以節省高達40%的推理時間。進一步的分析顯示了伯特變壓器層的不同行為,并揭示了它們的冗余性。我們的工作為有效地將深度轉換模型應用于下游任務提供了新的思路。
題目: oLMpics - On what Language Model Pre-training Captures
摘要:
最近,預訓練語言模型(LMs)的成功引起了人們對其語言能力的廣泛興趣。然而,了解LM表示對于符號推理任務是否有用的努力是有限和分散的。在這項工作中,我們提出了八個推理任務,這些任務在概念上需要進行比較、連接和組合等操作。一個基本的挑戰是理解LM在任務上的性能應該歸因于預先訓練的表示還是任務數據的微調過程。為了解決這個問題,我們提出了一個評估協議,其中包括了零次評估(沒有微調),以及將微調LM的學習曲線與多個控件的學習曲線進行比較,從而描繪出LM功能的豐富畫面。我們的主要發現是:(a)不同的LMs表現出不同的定性推理能力,例如,RoBERTa成功地完成了BERT完全失敗的推理任務;(b) LMs不以抽象的方式推理,而是依賴于上下文,例如,羅伯塔可以比較年齡,但它只能在年齡處于人類年齡的典型范圍內時才能這樣做;(c)在一半的推理任務中,所有的模型都完全失敗了。我們的發現和基礎設施可以幫助未來的工作設計新的數據集,模型和目標函數的培訓。
作者:
Alon Talmor是特拉維夫大學自然語言處理的博士生,由Jonathan Berant博士指導,主要研究方向是自然語言處理和問答系統。個人官網:
Jonathan Berant是特拉維夫大學布拉瓦特尼克計算機科學學院助理教授,研究領域是自然語言處理,研究自然語言理解問題,如語義分析、問題回答、釋義、閱讀理解和文本蘊涵。最感興趣的是能從需要多步驟推理或處理語言構成的弱監督中學習。個人官網:
摘要: 我們提出了EMU,一個從語義上增強多語言句子嵌入系統。我們的框架使用兩個主要組件(語義分類器和語言鑒別器)對預先訓練好的多語言句子嵌入進行了微調。語義分類器提高了相關句子的語義相似度,而語言鑒別器通過多語言對抗訓練增強了嵌入語的多語言性。我們的實驗結果基于幾個語言對表明,我們的專門嵌入優于最先進的多語言句子嵌入模型的任務,跨語言意圖分類僅使用單語標記的數據。