題目: Exploring Benefits of Transfer Learning in Neural Machine Translation
摘要: 眾所周知,神經機器翻譯需要大量的并行訓練語句,這通常會妨礙它在低資源語言對上的優勢。本文探討了跨語言遷移學習在神經網絡中的應用,以解決資源匱乏的問題。我們提出了幾種轉移學習方法來重用預先訓練在高資源語言對上的模型。我們特別注意技術的簡單性。我們研究了兩種情形:(a)當我們重用高資源模型而不事先修改其訓練過程時;(b)當我們可以預先準備第一階段的高資源模型用于轉移學習時。對于前一個場景,我們通過重用其他研究人員訓練的模型,提出了一種概念證明方法。在后一種情況下,我們提出了一種在翻譯性能上得到更大改進的方法。除了提出的技術外,我們還著重于對遷移學習技術進行深入的分析,并試圖對遷移學習的改進有所啟發。我們展示了我們的技術如何解決低資源語言的特定問題,甚至在高資源轉移學習中也是適用的。我們通過研究轉移學習在各種情況下的潛在缺陷和行為,例如,在人為損壞的訓練語料庫下,或者在固定的模型部分下。
作者簡介: Tom Kocmi,查爾斯特大學,數學與物理學院,形式與應用語言學研究所博士,他的主要研究方向是基于神經網絡的機器翻譯。個人主頁://ufal.mff.cuni.cz/tom-kocmi
題目: A Survey on Transfer Learning in Natural Language Processing
摘要:
深度學習模型通常需要大量數據。 但是,這些大型數據集并非總是可以實現的。這在許多具有挑戰性的NLP任務中很常見。例如,考慮使用神經機器翻譯,在這種情況下,特別對于低資源語言而言,可能無法整理如此大的數據集。深度學習模型的另一個局限性是對巨大計算資源的需求。這些障礙促使研究人員質疑使用大型訓練模型進行知識遷移的可能性。隨著許多大型模型的出現,對遷移學習的需求正在增加。在此調查中,我們介紹了NLP領域中最新的遷移學習進展。我們還提供了分類法,用于分類文獻中的不同遷移學習方法。
主題: Imitation Attacks and Defenses for Black-box Machine Translation Systems
摘要: 我們考慮一個尋求竊取黑盒機器翻譯(MT)系統的對手,以獲取經濟利益或排除模型錯誤。我們首先表明,黑盒機器翻譯系統可以通過使用單語句子和訓練模型來模擬它們的輸出來竊取。通過模擬實驗,我們證明了即使模仿模型的輸入數據或架構與受害者不同,MTmodel的竊取也是可能的。應用這些思想,我們在高資源和低資源語言對上訓練了三個生產MT系統的0.6 BLEU以內的模仿模型。然后,我們利用模仿模型的相似性將對抗性示例轉移到生產系統。我們使用基于梯度的攻擊,這些攻擊會暴露輸入,從而導致語義錯誤的翻譯,內容丟失和庸俗的模型輸出。為了減少這些漏洞,我們提出了一種防御措施,該防御措施會修改翻譯輸出,從而誤導了模仿模型優化的防御措施。這種防御降低了仿真模型BLEU的性能,并降低了BLEU的攻擊傳輸速率和推理速度。
題目: A Comprehensive Survey of Multilingual Neural Machine Translation
摘要: 本文綜述了近年來備受關注的多語言神經機器翻譯(MNMT)。由于翻譯知識的轉移(遷移學習),MNMT在提高翻譯質量方面發揮了重要作用。MNMT比統計機器翻譯更有前途,也更有趣,因為端到端建模和分布式表示為機器翻譯的研究開辟了新途徑。為了利用多語言并行語料庫來提高翻譯質量,人們提出了許多方法。但是,由于缺乏全面的綜述,很難確定哪些方法是有希望的,因此值得進一步探討。在這篇論文中,我們對現有的關于MNMT的文獻進行了深入的綜述。我們首先根據中心用例對各種方法進行分類,然后根據資源場景、基礎建模原則、核心問題和挑戰對它們進行進一步分類。只要有可能,我們就通過相互比較來解決幾種技術的優缺點。我們還討論了未來的方向,跨國公司的研究可能采取。本文的目標讀者既有初學者,也有專家。我們希望這篇論文能夠作為一個起點,同時也為那些對MNMT感興趣的研究人員和工程師提供新的思路。
我們提出了一個多語言神經機器翻譯的概率框架,它包括監督和非監督設置,重點是無監督翻譯。除了研究只有單語數據可用的基本情況外,我們還提出了一種新的設置,即(源、目標)對中的一種語言不與任何并行數據相關聯,但可能存在包含另一種語言的輔助并行數據。通過一個新的交叉翻譯損失項,這些輔助數據可以很自然地用在我們的概率框架中。經驗表明,我們的方法在大多數方向的WMT'14英-法、WMT'16英-德、WMT'16英-羅數據集上,比最先進的無監督模型獲得更高的BLEU分數。特別是,我們獲得了+1.65 BLEU的優勢,在羅馬尼亞-英國方向的最佳表現的無監督模式。
隨著技術的傳播,世界各地的人們比以往任何時候都更加緊密地聯系在一起,無縫溝通和理解的需求變得至關重要。根據Simons 2018年的研究,世界上現存的語言有7097種。然而,語料中,大多數成對的語言最多有幾百到幾千個平行的句子,而且成對的語言數量有限。由于統計機器翻譯(SMT)和神經機器翻譯(NMT)都是需要大量數據的機器學習方法,因此缺乏數據是訓練合適機器翻譯(MT)系統的一個嚴重問題。
Tom Kocmi的博士論文《Exploring Benefits of Transfer Learning in Neural Machine Translation》(《探索遷移學習在神經機器翻譯中的益處》)提出相關的遷移學習技術,并提供了詳細地分析。論文展示了幾種利用基于大量資源語言對訓練的模型來提升少量資源情況下的模型訓練。在分析過程中,作者發現:
除了上述主要的貢獻,論文也描述其他幾個研究的想法,包括作者對Czech-English平行語料庫的貢獻(Bojar et al., 2016a)、使用預訓練詞嵌入的實驗(Kocmi and Bojar, 2017c)、使用子詞信息的詞嵌入(Kocmi and Bojar, 2016)、神經語言識別工具(Kocmi and Bojar, 2017b)。另外,作者還為一個sequence-to-sequence的研究框架Nerual Monkey(Helcl et al., 2018)的實現做了貢獻。
博士論文《Exploring Benefits of Transfer Learning in Neural Machine Translation》的內容大致如下:
題目: A Comprehensive Survey of Multilingual Neural Machine Translation
摘要:
本文對近年來備受關注的多語言神經機器翻譯進行了綜述。由于翻譯知識的遷移(遷移學習),MNMT在提高翻譯質量方面發揮了重要作用。MNMT比統計機器翻譯更有前途,也更有趣,因為端到端建模和分布式表示為機器翻譯的研究開辟了新途徑。為了利用多語言并行語料庫來提高翻譯質量,人們提出了許多方法。但是,由于缺乏全面的調查,很難確定哪些方法是有希望的,因此值得進一步探討。在這篇論文中,我們對現有的關于MNMT的文獻進行了深入的綜述。我們首先根據中心用例對各種方法進行分類,然后根據資源場景、基礎建模原則、核心問題和挑戰對它們進行進一步分類。只要有可能,我們就通過相互比較來解決幾種技術的優缺點。我們還討論了未來的方向,跨國公司的研究可能采取。本文的目標讀者既有初學者,也有專家。我們希望這篇論文能夠作為一個起點,同時也為那些對MNMT感興趣的研究人員和工程師提供新的思路。
作者簡介:
Raj Dabre,目前在日本NICT做博士后研究。在京都大學完成了博士學位。現在做機器翻譯方面的研究,對機器翻譯的深度學習方法很感興趣。主要研究方向:人工智能、機器翻譯、自然語言處理、遺傳學。個人主頁:
題目: Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer
摘要: 遷移學習是自然語言處理(NLP)中的一項強大技術,它首先對一個數據豐富的任務進行預訓練,然后再對下游任務進行微調。遷移學習的有效性帶來了方法、方法和實踐的多樣性。本文通過引入一個統一的框架,將每一個語言問題轉換成文本到文本的格式,探討了NLP的遷移學習技術的發展前景。我們的系統研究比較了數十種語言理解任務的訓練前目標、體系結構、無標記數據集、遷移方法和其他因素。通過結合我們的探索和規模的見解和我們新的“巨大的干凈的爬網語料庫”,我們在總結、問答、文本分類等許多基準上取得了最新的成果。為了促進NLP遷移學習的未來工作,我們發布了我們的數據集、預先訓練的模型和代碼。