中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于集成学习的维汉神经机器翻译研究

文献类型:学位论文

作者冯笑
答辩日期2021-05-25
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师杨雅婷
关键词维汉神经机器翻译 集成学习 回译 集成修剪 灾难性遗忘
学位名称硕士
学位专业计算机技术
英文摘要

新疆地区作为“一带一路”倡议中连接亚欧大陆的国家开放大通道,构建性能良好的维汉机器翻译系统促进地区发展、文化交流对“一带一路”倡议的繁荣发展具有重要意义。从深度学习方面来看,“数据驱动”的神经网络机器翻译在中英、英德等资源丰富的平行语料上取得了巨大的成功,但是维吾尔语作为一个小语种,维汉平行语料的匮乏导致模型的翻译性能不佳,阻碍了维汉神经机器翻译的发展。集成学习方法是一类先进的机器学习方法,这类方法会训练多个模型并将它们结合起来解决一个问题,结合后的模型的性能通常会优于单一的模型,所以可以通过集成学习的思想来缓解平行语料匮乏导致的翻译模型泛化性能较低的问题。本文工作包括两部分:面向维汉神经机器翻译的集成学习和集成修剪算法研究:在本部分工作中,首先探究了集成学习在维汉神经机器翻译中的效果,通过实验验证,使用Bagging集成学习算法集成了10个子模型之后,BLEU值相对于单一的Transformer模型提升了1.98。但是同样可以发现,集成系统的性能和子模型数量的增多非强正相关,且随着参与集成的子模型数量增多,集成系统出现解码速度慢、存储空间消耗大、更多子模型的加入集成系统性能反而下降等问题。为了缓解这些问题,本部分工作提出基于可重访问的深度优先遍历集成修剪算法,并提出应该将集成修剪具体地划分为高准确率优先和低冗余度优先两种需求,让集成修剪更具有目的性。在CWMT2015维汉平行语料上的实验证明:在高准确率优先需求上通过基于可重访问的深度优先遍历集成修剪算法得到的维汉神经机器翻译系统BLEU值相对于基线系统提升了2.14;在低准确率优先需求上,在保证修剪后的集成系统BLEU值不低于未修剪的前提下,解码速度是其2.1倍。基于回译和集成学习的维汉神经机器翻译方法:上一部分工作中验证了集成学习在维汉神经机器翻译中的有效性,研究发现集成学习方法和数据增强方法是运用两种完全不同的方式来提升低资源语言的翻译效果。从高效利用现有资源的角度出发,针对维汉平行语料的匮乏问题导致的维汉神经机器翻译效果欠佳问题,提出一个基于回译和集成学习的维汉神经机器翻译方法(Back Translation and Ensemble Learning, BTEM)。首先利用回译和大规模汉语单语语料构造出维汉伪平行语料,并利用伪平行语料进行训练得到中间模型;其次,使用自助采样法对原始平行语料做N次重采样,得到N个近似同一分布但具有差异性子数据集;基于N个子数据集分别对中间模型进行微调,得到N个具有差异性的子模型;最后将这些子模型进行集成。在CWMT2015维汉机器翻译数据集上的实验证明BTEM方法BLEU值比基线系统提升了2.37。

页码63
源URL[http://ir.xjipc.cas.cn/handle/365002/7920]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
冯笑. 基于集成学习的维汉神经机器翻译研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2021.

入库方式: OAI收割

来源:新疆理化技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。