題目: Pre-training Tasks for Embedding-based Large-scale Retrieval
摘要:
我們考慮大型查詢文檔檢索問題:給定一個查詢(例如,一個問題),從大型文檔語料庫返回相關文檔集(例如,包含答案的段落)。這個問題通常分兩步解決。檢索階段首先減少解決方案空間,返回候選文檔的子集。然后評分階段重新排列文檔。關鍵是,該檢索算法不僅要求較高的查全率,而且要求具有較高的效率,能夠及時返回與文檔數量成次線性關系的候選對象。不像評分階段,由于交叉注意力模型上的伯特式訓練任務,最近取得了重大進展,檢索階段仍然沒有得到很好的研究。以前的大部分工作依賴于經典的信息檢索(IR)方法,如BM-25(令牌匹配+ TF-IDF權值)。這些模型只接受稀疏的手工特性,不能針對感興趣的不同下游任務進行優化。本文對基于嵌入式的檢索模型進行了全面的研究。我們證明了學習強嵌入式變壓器模型的關鍵是訓練前的任務集。通過充分設計分段級的預訓練任務,變壓器模型比廣泛使用的BM-25模型以及沒有變壓器的嵌入模型有顯著的改進。我們研究的分段式預訓練任務包括Inverse Close Task(ICT)、Body First Selection(BFS)、Wiki Link Prediction(WLP)以及三者的結合。
PEGASUS: Pre-training with Extracted Gap-sentences for Abstractive Summarization
近些年 Transformers 在海量語料上進行自監督預訓練再到下游各種NLP任務(當然也包括文本摘要)上微調的方案已取得巨大成功。但是,尚未有針抽象文本摘要(abstractive text summarization)定制預訓練目標。此外,目前抽象文本摘要任務也缺乏跨領域的系統評價。為此,本文提出了一種新的自監督預訓練目標:GSG(Gap Sentences Generation),以適配 Transformer-based 的 encoder-decoder 模型在海量文本語料上預訓練。在 PEGASUS 中, 將輸入文檔中的“重要句子”刪除或者遮蔽,再利用剩余的句子在輸出中生成這些被刪除或遮蔽的句子。從輸入和輸出看,該目標與文本摘要類似。本文以 12 個文本摘要數據集(包括新聞、科學、故事、使用說明、電子郵件、專利和立法議案)對最好的 PEGASUS 模型進行全面測試。實驗結果是:PEGASUS 刷新 12 個數據集的 ROUGE 得分記錄。另外,PEGASUS 模型在處理低資源摘要數據集也顯示出驚人的性能,在 6 個數據集上僅以 1000 個樣本就超過了之前的最先進結果。最后,本文還對 PEGASUS 模型生成的摘要結果進行人工評測,結果表明本文的模型在多個數據集上達到與人工摘要相媲美的性能。
題目: A Transformer-based Embedding Model for Personalized Product Search
摘要: 產品搜索是人們在電子商務平臺上瀏覽和購買商品的重要方式。雖然客戶傾向于根據他們的個人品味和偏好做出選擇,但對商業產品搜索日志的分析表明,個性化并不總是能提高產品搜索質量。然而,大多數現有的產品搜索技術在搜索會話之間執行無差異的個性化設置。他們要么用一個固定的系數來控制個性化的影響,要么用一個注意力機制讓個性化一直發揮作用。唯一值得注意的例外是最近提出的零注意模型(zero-attention model, ZAM),該模型允許查詢關注一個零向量,從而自適應地調整個性化的效果。盡管如此,在ZAM中,個性化最多可以發揮與查詢同等重要的作用,并且不管用戶的歷史購買中同時出現的item是什么,item的表示在整個集合中都是靜態的。考慮到這些局限性,我們提出了一種基于Transformer的個性化產品搜索嵌入模型(TEM),該模型通過使用Transformer架構對查詢序列和用戶購買歷史進行編碼,從而動態地控制個性化的影響。個性化可以在必要時發揮主導作用,在計算注意力權重時可以考慮item之間的交互。實驗結果表明,TEM的性能明顯優于目前最先進的個性化產品檢索模型。
題目: Adversarial Training for Large Neural Language Models
簡介: 泛化性和魯棒性都是設計機器學習方法的關鍵要求。對抗性訓練可以增強魯棒性,但是過去的工作常常發現它不利于推廣。在自然語言處理(NLP)中,預訓練大型神經語言模型(例如BERT)在針對各種任務的通用化方面顯示出令人印象深刻的收益,而從對抗性微調中得到了進一步的改進。但是,這些模型仍然容易受到對抗性攻擊。在本文中,我們表明對抗性預訓練可以同時提高泛化性和魯棒性。我們提出了一種通用算法ALUM(大型神經語言模型的專家訓練),該算法通過在嵌入空間中應用擾動來最大化訓練目標,從而使對抗性損失最大化。我們將對所有階段的對抗訓練進行全面的研究,包括從頭開始進行預訓練,在訓練有素的模型上進行連續的預訓練以及針對特定任務的微調。在常規和對抗性方案中,在各種NLP任務上,ALUM都比BERT獲得了可觀的收益。即使對于已經在超大型文本語料庫上進行過良好訓練的模型(例如RoBERTa),ALUM仍可以通過連續的預訓練獲得可觀的收益,而傳統的非對抗方法則不能。可以將ALUM與特定于任務的微調進一步結合以獲取更多收益。
最近的研究表明,預訓練文本表示能夠顯著提高許多自然語言處理任務的性能。訓練的中心目標是學習對后續任務有用的文本表示形式。然而,現有的方法是通過最小化代理目標(如語言建模的負日志可能性)來優化的。在這項工作中,我們介紹了一個學習算法,它直接優化模型學習文本表示的能力,以有效地學習下游任務。我們證明了多任務預訓練和模型不可知的元學習之間有著內在的聯系。BERT中采用的標準多任務學習目標是元訓練深度為零的學習算法的一個特例。我們在兩種情況下研究了這個問題:無監督的預訓練和有監督的預訓練,不同的預訓練對象驗證了我們的方法的通用性。實驗結果表明,我們的算法對各種下游任務進行了改進,獲得了更好的初始化。
主題: A New Meta-Baseline for Few-Shot Learning
摘要: 近年來,元學習已經成為小樣本學習的流行框架,其目標是從少拍分類任務的集合中學習模型。雖然提出了越來越多的新穎元學習模型,但我們的研究發現了被忽視的簡單基準。我們通過在所有基類上預先訓練分類器,并在基于最近質心的少數鏡頭分類算法上進行元學習,提出了一種Meta-Baseline方法,該方法以較大的優勢勝過了最新的方法。為什么這個簡單的方法這么好?在元學習階段,我們觀察到在基礎類的未見任務上更好地推廣的模型在新型類任務上的性能可能會下降,這表明存在潛在的客觀差異。我們發現預訓練和從預訓練的分類器繼承良好的幾次快照分類法對于元基線都很重要,這可能有助于模型更好地利用具有更強可傳遞性的預訓練表示。此外,我們研究了何時需要在此元基線中進行元學習。我們的工作為該領域建立了一個新的基準,并為進一步了解元學習框架中的幾次學習現象提供了啟示。
Recently, the emergence of pre-trained models (PTMs) has brought natural language processing (NLP) to a new era. In this survey, we provide a comprehensive review of PTMs for NLP. We first briefly introduce language representation learning and its research progress. Then we systematically categorize existing PTMs based on a taxonomy with four perspectives. Next, we describe how to adapt the knowledge of PTMs to the downstream tasks. Finally, we outline some potential directions of PTMs for future research. This survey is purposed to be a hands-on guide for understanding, using, and developing PTMs for various NLP tasks.
題目: CodeBERT: A Pre-Trained Model for Programming and Natural Languages
摘 要:
本文提出了一種用于編程語言(PL)和自然語言(NL)的預訓練模型CodeBERT。CodeBERT學習了支持下游NL-PL應用程序(如自然語言代碼研究、代碼文檔生成等)的通用表示形式。我們使用基于變壓器的神經結構來開發CodeBERT,并使用混合目標函數來訓練它,該混合目標函數合并了替換令牌檢測的訓練前任務,即檢測從生成器中采樣的可信替代。這使我們能夠利用NL-PL對的雙峰數據和單峰數據,前者為模型訓練提供輸入標記,而后者有助于更好地學習生成器。我們通過微調模型參數來評估CodeBERT在兩個NL-PL應用程序上的性能。結果表明,CodeBERT在自然語言代碼搜索和代碼文檔生成任務方面都實現了最先進的性能。此外,為了研究在CodeBERT中學習的知識的類型,我們構造了一個用于NL-PL探測的數據集,并在一個預先訓練的模型的參數固定的零距離設置中進行評估。結果表明,CodeBERT在NL-PL探測方面的性能優于之前的預訓練模型。
題目: Optimization of Retrieval Algorithms on Large Scale Knowledge Graphs
摘要: 知識圖譜在最近的知識挖掘和發現中發揮了重要的作用,例如在生命科學或生物信息學領域。雖然在查詢優化、查詢變換以及大規模知識圖譜的存儲和檢索等方面已經做了大量的研究,但算法優化仍然是使用圖數據的主要挑戰和關鍵因素。在大規模標記屬性圖上優化算法的研究很少。在這里,我們提出了兩種優化方法,并將它們與直接查詢圖數據庫的簡單方法進行了比較。我們工作的目的是確定像Neo4j這樣的圖形數據庫的限制因素,我們描述了一個解決這些挑戰的新方案。為此,我們建議使用一個分類模式來區別圖數據庫中問題的復雜性。我們在一個測試系統上評估我們的優化方法,該測試系統包含一個由文本挖掘數據豐富的生物醫學出版物數據派生的知識圖譜。這個密集的圖譜有超過71M的節點和850M的關系數據。結果是非常令人鼓舞的,根據問題的不同,我們能夠顯示44到3839之間的加速因子。
論文摘要: 我們提出了一個大型的可調神經會話響應生成模型DIALOGPT(對話生成預訓練Transformer)。經過2005年至2017年期間從Reddit評論中提取147M大小的類似的對話內容,DialoGPT擴展了Hugging Face PyTorch transformer,在單輪對話設置中實現了在自動和人類評估性方面都接近人類。我們表明,利用DialoGPT的會話系統比基線系統生成更相關、更有內容和上下文一致的響應。預訓練的模型和訓練方法已經公開發布,以促進對神經響應生成的研究和更智能的open-domain對話系統的開發。