融合多源信息的神经机器翻译方法研究
文献类型:学位论文
作者 | 周龙![]() |
答辩日期 | 2020-05-28 |
文献子类 | 博士 |
授予单位 | 中国科学院自动化研究所 |
授予地点 | 北京市海淀区中关村东路95号 |
导师 | 宗成庆 |
关键词 | 神经机器翻译,统计机器翻译,多源编码,双向解码 |
学位名称 | 工学博士 |
学位专业 | 模式识别与智能系统 |
英文摘要 | 近年来,端到端的神经机器翻译(neural machine translation, NMT)取得了飞速的发展,其翻译性能超越了传统统计机器翻译,成为目前机器翻译应用和研究中的主流范式。神经机器翻译通常采用编码器-解码器框架完成翻译过程,编码器将源语言句子映射成一个向量表示,解码器根据该向量从左到右地依次产生目标语言单词。然而该框架无法充分利用不同来源的译文信息,比如不同翻译系统或者解码方式的翻译结果。每一种机器翻译模型或方法都有它自身的优点和缺点,如何通过有效的方法融合不同来源的译文信息,获得高质量的翻译结果,对于提高整个机器翻译系统的译文质量至关重要。因此,研究融合多源信息的神经机器翻译方法具有重要的理论意义和应用价值。 本论文围绕如何设计有效的译文信息融合方法解决神经机器翻译现有的问题,如忠实度不高、输出不平衡、解码效率低等问题。本文重点关注三种类型信息的融合方法:统计机器翻译译文结果的融合、神经机器翻译未来信息的融合、以及神经机器翻译双向译文文本的融合。论文的主要工作点和创新点归纳如下:
神经机器翻译采用神经网络以端到端的方式进行建模,虽然翻译流畅性高于统计机器翻译,但是在忠实度上通常弱于统计机器翻译。因此,如何博取众长生成既忠实原文又通顺流畅的译文成为一个具有重要意义和挑战的研究问题。针对这一问题,本文提出了一种基于多源编码策略的神经机器翻译方法以结合统计机器翻译和神经机器翻译的优点。不同于传统的神经机器翻译,所提方法在源端使用多个编码器,每个编码器分别对统计机器翻译和神经机器翻译的译文进行编码,然后通过所提层次化注意力机制模型逐词生成目标语言译文。实验表明,基于多源编码策略的神经机器翻译方法不仅能够保持端到端模型的译文流畅性,同时能够将统计机器翻译的译文更加忠实于原文的优点继承下来,显著提升了译文质量。
传统的神经机器翻译解码时通常采用从左到右的方式依次产生目标语言单词,缺乏利用目标端未来信息的能力。因此,它面临着不平衡输出问题,即译文前半部分的质量高于译文后半部分的质量,而采用从右到左反向解码方式的译文现象正好相反。为了充分结合两种不同解码方向的优势,本文提出了一种基于双向解码策略的神经机器翻译方法。不同于单向解码策略,该方法能够同时使用从左到右和从右到左两种解码方式输出目标语言译文,并在解码过程中相互交互,以同时利用历史和未来信息。最后在两个方向的译文中选择概率最高的候选作为最终输出。实验表明,相比于传统神经机器翻译,所提出的同步双向神经机器翻译方法在中英和英德翻译任务中达到了当时最好的性能,有效地缓解了不平衡输出问题,并且人工分析显示所提方法极大地减少了神经机器翻译的漏翻现象。
虽然同步双向神经机器翻译方法较大地改善了翻译质量,但它仍然面临两个挑战:一是训练代价高,需要对训练集进行全部翻译来构造训练数据;二是解码效率低,采用自回归解码方式,逐个生成目标语言单词。因此,本文分别从训练速度和解码效率两方面进一步改进了同步双向神经机器翻译方法。针对训练代价问题,本文提出了一种微调方法,首先训练一个没有信息交互的双向神经机器翻译模型,然后使用少量平行句对生成新的三元组进行模型微调,从而有效地减少了训练时间。针对解码效率问题,本文提出了一种改进的同步双向序列生成方法,能够同时且交互地执行从目标序列的两端向中间解码,到中间点时即可将两个方向的译文拼接形成最终译文。实验表明,本文提出的方法相比于当前最好的自回归神经翻译模型在译文质量和解码速度上都实现了显著的提升。 综上所述,本文旨在设计更好的译文信息融合方法增强神经机器翻译的性能。针对神经机器翻译中的编码器和解码器,分别提出了多源编码模型和双向解码模型,并从训练速度和解码效率两方面改进了同步双向解码模型。 |
语种 | 中文 |
页码 | 128 |
源URL | [http://ir.ia.ac.cn/handle/173211/39585] ![]() |
专题 | 模式识别国家重点实验室_自然语言处理 |
推荐引用方式 GB/T 7714 | 周龙. 融合多源信息的神经机器翻译方法研究[D]. 北京市海淀区中关村东路95号. 中国科学院自动化研究所. 2020. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。