隨著技術的傳播,世界各地的人們比以往任何時候都更加緊密地聯系在一起,無縫溝通和理解的需求變得至關重要。根據Simons 2018年的研究,世界上現存的語言有7097種。然而,語料中,大多數成對的語言最多有幾百到幾千個平行的句子,而且成對的語言數量有限。由于統計機器翻譯(SMT)和神經機器翻譯(NMT)都是需要大量數據的機器學習方法,因此缺乏數據是訓練合適機器翻譯(MT)系統的一個嚴重問題。
Tom Kocmi的博士論文《Exploring Benefits of Transfer Learning in Neural Machine Translation》(《探索遷移學習在神經機器翻譯中的益處》)提出相關的遷移學習技術,并提供了詳細地分析。論文展示了幾種利用基于大量資源語言對訓練的模型來提升少量資源情況下的模型訓練。在分析過程中,作者發現:
除了上述主要的貢獻,論文也描述其他幾個研究的想法,包括作者對Czech-English平行語料庫的貢獻(Bojar et al., 2016a)、使用預訓練詞嵌入的實驗(Kocmi and Bojar, 2017c)、使用子詞信息的詞嵌入(Kocmi and Bojar, 2016)、神經語言識別工具(Kocmi and Bojar, 2017b)。另外,作者還為一個sequence-to-sequence的研究框架Nerual Monkey(Helcl et al., 2018)的實現做了貢獻。
博士論文《Exploring Benefits of Transfer Learning in Neural Machine Translation》的內容大致如下:
題目: A Survey on Transfer Learning in Natural Language Processing
摘要:
深度學習模型通常需要大量數據。 但是,這些大型數據集并非總是可以實現的。這在許多具有挑戰性的NLP任務中很常見。例如,考慮使用神經機器翻譯,在這種情況下,特別對于低資源語言而言,可能無法整理如此大的數據集。深度學習模型的另一個局限性是對巨大計算資源的需求。這些障礙促使研究人員質疑使用大型訓練模型進行知識遷移的可能性。隨著許多大型模型的出現,對遷移學習的需求正在增加。在此調查中,我們介紹了NLP領域中最新的遷移學習進展。我們還提供了分類法,用于分類文獻中的不同遷移學習方法。
題目: Exploring Benefits of Transfer Learning in Neural Machine Translation
摘要: 眾所周知,神經機器翻譯需要大量的并行訓練語句,這通常會妨礙它在低資源語言對上的優勢。本文探討了跨語言遷移學習在神經網絡中的應用,以解決資源匱乏的問題。我們提出了幾種轉移學習方法來重用預先訓練在高資源語言對上的模型。我們特別注意技術的簡單性。我們研究了兩種情形:(a)當我們重用高資源模型而不事先修改其訓練過程時;(b)當我們可以預先準備第一階段的高資源模型用于轉移學習時。對于前一個場景,我們通過重用其他研究人員訓練的模型,提出了一種概念證明方法。在后一種情況下,我們提出了一種在翻譯性能上得到更大改進的方法。除了提出的技術外,我們還著重于對遷移學習技術進行深入的分析,并試圖對遷移學習的改進有所啟發。我們展示了我們的技術如何解決低資源語言的特定問題,甚至在高資源轉移學習中也是適用的。我們通過研究轉移學習在各種情況下的潛在缺陷和行為,例如,在人為損壞的訓練語料庫下,或者在固定的模型部分下。
作者簡介: Tom Kocmi,查爾斯特大學,數學與物理學院,形式與應用語言學研究所博士,他的主要研究方向是基于神經網絡的機器翻譯。個人主頁://ufal.mff.cuni.cz/tom-kocmi
題目: Neural Machine Translation: A Review
簡介: 機器翻譯(MT)是將書面文本從一種自然語言自動翻譯成另一種自然語言,近年來,機器翻譯領域經歷了一次重大的范式轉變。統計機器翻譯主要依賴于各種基于計數的模型,在過去幾十年中一直主導機器翻譯的研究,但現在它已在很大程度上被神經機器翻譯(NMT)所取代。在這項工作中,我們將追溯現代NMT架構的起源到詞和句子嵌入和早期的例子的編碼器-解碼器網絡家族。最后,我們將對該領域的最新趨勢進行調查。
作者Jacob Andreas是自然語言處理的研究者,研究興趣為用語言作為更有效學習的支架和理解模型行為的探針,以及結合深度表示和離散組合性優點的結構化神經方法。近期公開發布了他的博士論文。
博士論文介紹:
本文探討了語言結構在結構和參數化中用于語言處理和其他應用的機器學習模型的方法。作者將該模型應用于問答系統,指令跟蹤,圖像分類等多種任務。
作者首先介紹一類稱為神經模塊網絡(NMN)的模型,并介紹它們在自然語言問答中的應用。NMN旨在實現同時利用深層網絡的表征能力和構成問題的語言結構。我們的方法將問題分解為語言子結構,并使用這些子結構動態地從可重復使用的模塊庫構建網絡。由此產生的復合網絡是共同訓練的。作者并在含有圖像和結構化知識庫的問答數據集上的方法評估模型。隨后,作者將這種思想轉移到策略學習中,研究在面對不同但相似的問題時,怎么組合策略。