基于汉语语言模型的维汉神经机器翻译方法研究
文献类型:学位论文
作者 | 陈玺 |
答辩日期 | 2021-05-25 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院新疆理化技术研究所 |
导师 | 杨雅婷 |
关键词 | 神经机器翻译 语言模型 BERT 低资源语言 回译方法 |
学位名称 | 硕士 |
学位专业 | 计算机技术 |
英文摘要 | 近年来,随着神经网络在各行各业的广泛应用,以其给社会生活带来的极大便利性深刻地改变着人们的生活。机器翻译是自然语言处理领域的一个研究方向,是利用计算机将一种自然语言(源语言)转换为与之语义等价的另一种自然语言(目标语言)的过程。随着神经网络在机器翻译领域的广泛应用,基于深度学习的神经网络机器翻译模型已经逐步取代了传统的统计机器翻译模型,成为目前主流的翻译模型。新疆维吾尔自治区位于我国西北部,地处亚欧大陆中心,与多个国家接壤,是我国对外口岸最多的一个省区。随着“一带一路”倡议的提出,新疆的经贸和文化交流得到快速发展,为促进民族之间的交流沟通,开发高质量高性能的汉语和维吾尔语之间的机器翻译系统迫在眉睫。维吾尔语属于黏着语的一种,属于阿尔泰语系,语序是主宾谓语序,与属于汉藏语系的汉语之间有着较大的差异。深度学习作为数据驱动的方法,模型的表现极大的依赖于训练数据。在以维吾尔语为代表的资源稀缺型语言的机器翻译任务中,由于大规模的双语平行语料资源的稀缺,构建出的神经机器翻译系统的性能并不理想。因此,在低资源条件下如何提升汉语和维吾尔语之间的机器翻译性能成为目前首要研究的问题。针对这一问题,本文旨在利用汉语语言模型来提高汉语和维吾尔语两种语言之间的机器翻译效果,具体来说一方面利用业界已经开源的汉语预训练语言模型提升汉语-维吾尔语机器翻译模型的效果,另一方面利用现有的汉语单语数据训练语言模型,再利用回译的方法扩充平行语料规模,最后利用语言模型给维吾尔语-汉语翻译模型增加先验信息和正则信息,以提高翻译效果。本文开展了两方面的研究工作,具体内容如下:(1) 面向汉维机器翻译的BERT模型嵌入方法研究。本文将汉语的预训练语言模型BERT,嵌入到汉语-维吾尔语神经机器翻译模型当中。在本文中,对比了不同的汉语预训练BERT模型对于维汉机器翻译模型性能的影响,比较了预训练BERT模型不同层次的输出特征在维汉机器翻译任务中的嵌入效果,还提出了一种两阶段微调预训练BERT模型参数的方法。通过这些实验总结出对于维汉机器翻译任务效果提升最大的嵌入策略,在第十三届全国机器翻译研讨会公开数据集上的实验结果表明,该方法能有效地提升汉维机器翻译系统的性能。(2) 基于汉语语言模型先验和回译方法的维汉神经翻译方法。研究发现基于汉语语言模型先验方法和数据增强方法是采用两种完全不同的方式提升资源稀缺型语言的翻译性能,本文提出一种汉语语言模型先验和回译相结合的方法,旨在更充分地利用目标语言端汉语单语语料,使得神经机器翻译在维汉机器翻译任务中发挥最大潜能。由于大规模的高质量双语平行语料难以获得,而大规模的单语语料较容易获得,因此本章首先利用大规模的目标语言单语语料训练出基于神经网络的语言模型,然后再利用目标端单语语料生成大量的伪平行语料。最后在机器翻译模型训练的过程中利用语言模型为神经机器翻译模型增加先验信息和正则化信息。神经网络语言模型只在训练的过程中使用,在推理解码的过程中不会使用,不会降低模型的解码速度。在本文提出的方法里,从两个不同的角度两次利用了目标语言端的汉语单语语料,以提高维汉神经机器翻译的效果。为了验证该方法的有效性,本文在维吾尔语-汉语实验数据集上进行试验,实验结果表明,对比原方法该方法能显著提高维汉机器翻译模型的翻译效果。 |
页码 | 61 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/7918] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
推荐引用方式 GB/T 7714 | 陈玺. 基于汉语语言模型的维汉神经机器翻译方法研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2021. |
入库方式: OAI收割
来源:新疆理化技术研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。