中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
维汉机器翻译的系统融合关键技术研究

文献类型:学位论文

作者王亚娟
答辩日期2021-05-25
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师李晓
关键词维吾尔语 系统融合 释义信息 双语短语语义表示 混合框架
学位名称博士
学位专业计算机应用技术
英文摘要

语言互通是人类能正常交流的前提条件,机器翻译是帮助人类实现无障碍交流沟通的重要工具,对维吾尔语-汉语的机器翻译开展研究是确保国家“一带一路”合作倡议顺利推进的基础性工作。维吾尔语源语言和汉语目标语言之间的巨大差异决定了维吾尔语-汉语的机器翻译难度要远远高于其他语种间的翻译。现有较成熟的维吾尔语-汉语的机器翻译系统主要是通过基于统计模型和基于神经网络模型的方法来实现。基于统计的机器翻译模型对机器翻译而言原理简单且强大,依旧活跃在维吾尔语-汉语机器翻译领域。但由于该模型的长距离调序能力较弱且在翻译过程中不能很好的借助语言学句法结构特征,导致翻译结果流畅性不高,可读性较差。而基于端到端的神经机器翻译可以借助神经网络学习到更多的上下文信息,能更好的捕捉到维吾尔语源句的语义和语法结构信息,使翻译结果更为流畅,更符合语法结构。但在训练过程出现的过拟合或欠拟合现象都将会影响到翻译的质量。特别是,对于维吾尔语而言,丰富的形态变体会带来大量的稀有词和未登录词,神经机器翻译受词汇表大小的限制即便采用子词方法也无法保证稀有词和未登录词翻译的准确性。统计机器翻译由于没有词汇量大小的限制,在翻译维吾尔语稀有词和未登录词时,准确性更高。综上所述,在维吾尔语-汉语的机器翻译任务中,基于两个模型开发的翻译系统都无法达到较为理想的翻译效果。且受现实条件的约束,短时间内要大规模增加维吾尔语-汉语的机器翻译的语料是不现实的,但现有翻译模型结构的差异会使翻译结果存在较大差异的同时还各有可取之处。系统融合是一种结合多个机器翻译系统优势输出新的翻译结果的方法,已成功的应用于其他语言的机器翻译任务中,并显著提升了机器翻译的质量。本文在现有机器翻译系统可用且不增加语料规模的前提下,利用系统融合技术来改善维吾尔语-汉语机器翻译的质量。具体的研究内容如下:(1)基于释义信息的维汉机器翻译系统融合研究。翻译假设词对齐是词汇级系统融合中的重要环节,其对齐质量与系统融合效果成正比。在维吾尔语-汉语机器翻译的系统融合任务中,针对缺乏汉语释义信息导致的词对齐质量不高的问题,本文提出借助汉语释义信息来优化汉语翻译假设词对齐的方法。通过提高汉语翻译假设词对齐的质量来改善维吾尔语-汉语机器翻译系统融合的效果。实验结果表明引入的释义信息在修正汉语翻译假设词对齐结果的同时,确实能提高系统融合的质量,同时通过将释义表进行过滤的方式消除释义表中的噪声,使用过滤后释义表进行系统融合时,在缩小释义表规模的前提下,系统融合效果能在上述实验的基础上再次提升。(2)基于语义信息的维汉机器翻译系统融合研究。系统融合的前提是需要有若干个机器翻译系统的参与。针对维吾尔语-汉语机器翻译的系统融合任务中,单个系统资源稀缺的问题,本文提出一种通过添加语义特征的方式从基于短语的维汉机器翻译系统中派生处若干个新的系统并将其融合的方法。新增加的语义特征是利用基于二维注意力机制的递归自动编码器而训练的维汉双语短语语义表示模型提取得到的。实验结果表明,引入新的双语短语语义特征后,在对单个统计翻译系统的翻译产生积极的影响的同时,将派生出的多个系统进行融合还进一步提升了维吾尔语-汉语机器翻译的质量。(3)基于神经网络的维汉机器翻译系统融合框架研究。针对现有的单个系统融合模型无法达到理想融合结果的问题,本文提出一个三层维汉机器翻译系统融合框架。第一层使用统计机器翻译方法和神经机器翻译方法构建若干个单个系统,为后续的融合提供更加多样化的翻译假设;第二层分别利用两个基于神经网络的系统融合模型去挖掘第一层中多个系统的优势;第三层,使用目前性能最好的投票机制进行维汉机器翻译的系统融合任务。该框架能够同时发挥单个翻译系统和单个系统融合模型的优势,通过实现多个翻译系统间和系统融合模型间的优势互补来获得一个较为理想的融合效果。实验结果表明,该融合框架可以用在维汉机器翻译的系统融合任务中且能在现有翻译假设的基础上获得质量更高的融合结果。

页码101
源URL[http://ir.xjipc.cas.cn/handle/365002/7911]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
王亚娟. 维汉机器翻译的系统融合关键技术研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2021.

入库方式: OAI收割

来源:新疆理化技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。