中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向机器翻译的语言预处理与性能优化

文献类型:学位论文

作者汪春奇1,2
答辩日期2018
授予单位中国科学院研究生院
授予地点北京
导师徐波
关键词机器翻译 序列标注 中文分词 半监督学习 半自回归
英文摘要
近年来,随着深层神经网络的发展,基于神经网络的机器翻译模型也得到广泛 的研究,与传统的统计机器翻译相比,其翻译性能得到很大提升。然而,神经机器 翻译仍然面临很多问题,比如命名实体翻译问题、低资源翻译问题、解码延迟问题 等。在本文中,我们旨在设计模型与方法缓解机器翻译系统的构建过程中面临的问 题。本文主要围绕两个方向,一个是语言的预处理,我们期望对翻译两端的句子的 预处理(主要是分词与命名实体识别)可以帮助翻译系统更好地理解句子的含义。 另一个是针对机器翻译的性能优化,包括两个方面。一个是翻译质量的优化,我们 使用单语语料提升翻译质量,缓解对平行语料的依赖。还有一方面是翻译速度的优 化,我们设计新的模型来增加神经机器翻译解码过程的并行度,减小解码延迟。本 文主要的研究成果如下:
1. 我们提出了一个基于卷积网络的序列标注模型。序列标注任务是自然语言处 理领域最基本的任务之一,很多自然语言处理问题都可以被转化为序列标注 问题。最近随着神经网络的兴起,循环神经网络在序列标注任务上的应用得 到很多关注。然而,循环神经网络本身的结构限定了它对于句子只能逐个词 处理,妨碍了计算并行性。我们提出的卷积网络则可以克服这一障碍,除了 获得更快的并行性。在中英文命名实体识别这一任务上的实验表明,我们的 模型在获得更快的处理速度的同时在准确性上也超越了基于循环神经网络的 序列标注模型。
2. 我们设计了一个能同时结合字级别信息与词级别信息的中文分词系统。序列 标注框架能够以很高的效率解决一系列自然语言处理问题,其中就包括了中 文分词问题。然而,基于序列标注的分词系统不能自然地结合词级别的信息。 我们设计了一个新颖的方法,能够在基于序列标注的分词系统中使用完整的 词级别信息,同时我们的方法还能利用大规模无标注语料,构成半监督学习 的模式。
3. 我们提出了一个新颖的适用于神经机器翻译的半监督学习框架。常规的神经 机器翻译框架只是建模给定源语言句子的条件下目标端句子的条件语言模 型。我们拓展了这个框架,用一个统一的框架来同时建模目标端条件语言模 型、无条件的源端语言模型以及目标端语言模型。在我们的框架中,源端和 目标端的单语语料也能得到合理的应用。
4. 我们提出了一个半自回归的神经机器翻译模型。常规的神经机器翻译模型是 自回归的,因此在解码阶段一个时间步只能解码出一个词,当目标端句子较 长时,这个过程会耗费大量时间。我们提出的半自回归模型,能够打破这个限制,一次产生多个连续的词,进而更好地利用并行计算硬件,导致解码速度能显著降低,同时保持较好的翻译质量。
语种中文
源URL[http://ir.ia.ac.cn/handle/173211/21169]  
专题毕业生_硕士学位论文
作者单位1.中国科学院自动化研究所
2.中国科学院大学
推荐引用方式
GB/T 7714
汪春奇. 面向机器翻译的语言预处理与性能优化[D]. 北京. 中国科学院研究生院. 2018.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。