摘要: 隨著多媒體信息和通信技術的快速發展,網絡上的多語言語音數據日益增多。語音識別作為語音分析與處理的核心技術,如何快速地把中文和英文等少數多資源主要語言處理能力推廣到更多的低資源語言,是當前識別技術迫切需要突破的瓶頸。文中試圖總結聲學模型建模領域的最新進展,探討傳統語音識別技術從單語言向多語言跨越過程中可能面臨的困難。并在此基礎之上,探索了最新的端到端語音識別技術在關鍵詞檢索系統構建上的作用,以進一步改善系統的整體效果。最后總結了如下最新研究進展:1)基于模型參數共享的多語言聲學建模;2)基于語種分類信息的多語言聲學建模;3)基于幀級別對齊的端到端關鍵詞檢索技術。
摘要 預訓練技術當前在自然語言處理領域占有舉足輕重的位置。尤其近兩年提出的ELMo、GTP、BERT、XLNet、T5、GTP-3等預訓練模型的成功,進一步將預訓練技術推向了研究高潮。該文從語言模型、特征抽取器、上下文表征、詞表征四個方面對現存的主要預訓練技術進行了分析和分類,并分析了當前自然語言處理中的預訓練技術面臨的主要問題和發展趨勢。
摘要: 基于視覺和語言的跨媒體問答與推理是人工智能領域的研究熱點之一,其目的是基于給定的視覺內容和相關問題,模型能夠返回正確的答案。隨著深度學習的飛速發展及其在計算機視覺和自然語言處理領域的廣泛應用,基于視覺和語言的跨媒體問答與推理也取得了較快的發展。文中首先系統地梳理了當前基于視覺和語言的跨媒體問答與推理的相關工作,具體介紹了基于圖像的視覺問答與推理、基于視頻的視覺問答與推理以及基于視覺常識推理模型與算法的研究進展,并將基于圖像的視覺問答與推理細分為基于多模態融合、基于注意力機制和基于推理3類,將基于視覺常識推理細分為基于推理和基于預訓練2類;然后總結了目前常用的問答與推理數據集,以及代表性的問答與推理模型在這些數據集上的實驗結果;最后展望了基于視覺和語言的跨媒體問答與推理的未來發展方向。
摘要: 作為目前主流翻譯方法的神經網絡機器翻譯已經取得了很大突破, 在很多具有豐富數據資源的語言上的翻譯質量也不斷得到改善, 但對于稀缺資源語言的翻譯效果卻仍然并不理想. 稀缺資源語言機器翻譯是目前機器翻譯領域的重要研究熱點之一, 近幾年來吸引了國內外的廣泛關注. 本文對稀缺資源語言機器翻譯的研究進行比較全面的回顧, 首先簡要介紹了與稀缺資源語言翻譯相關的學術活動和數據集, 然后重點梳理了目前主要的研究方法和一些研究結論, 總結了每類方法的特點, 在此基礎上總結了不同方法之間的關系并分析了目前的研究現狀. 最后, 對稀缺資源語言機器翻譯未來可能的研究趨勢和發展方向進行了展望,并給出了相關建議.