中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
维汉机器翻译语料自动获取及领域自适应研究

文献类型:学位论文

作者朱少林
答辩日期2018-05-25
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师李晓
关键词维汉机器翻译 资源稀缺 深度学习 领域自适应 双语语料
学位名称博士
学位专业计算机应用技术
英文摘要

文字的出现标志着人类文明的诞生,文字是信息的载体,人们通过文字进行思想的交流,文化的传播,但是不同国家的语言不同,这一问题严重制约着人类的发展,特别是在全球一体化快速发展的今天,实现各种语言之间的相互翻译已经成为一个重要的研究课题。目前流行的统计机器翻译(Statistical Machine Translation, SMT)和神经网络机器(Neural Machine Translation,NMT)翻译已经取得了突飞猛进的发展并取得了令人欣慰的研究成果,虽然英汉、英法、葡英等语言之间的翻译在特定领域已经取得了较好的翻译效果,但是对于诸多地区性语言或者非世界性语言,例如维语、哈语、土耳其语到汉语等,这些语言之间的翻译还处在研究的初期,翻译的效果还不尽如人意。不论统计机器翻译还是神经机器翻译,其核心思想都是通过训练双语语料得到翻译系统,双语语料对机器翻译有着至关重要的作用,但是目前维汉、哈汉等机器翻译存在着双语语料严重不足的问题,研究自动获取双语语料的方法可以快速的构建翻译系统并提高翻译质量。另一方面翻译系统领域的影响,不同领域的机器翻译系统有着不同的翻译效果,用与翻译系统领域差距较大的文本进行翻译,会大大降低翻译质量。本文以维汉机器翻译为突破口,以快速构建机器翻译系统和提高机器翻译质量为目的,重点研究维汉双语语料的自动获取和维汉机器翻译领域自适应。一方面,针对维汉双语低资源的现状,提出首先构建携带语义信息的维语和汉语词向量模型,然后通过深度学习方法推导双语词向量,进而推导句对齐双语语料,该方法可以极大的缓解双语资源稀缺的现状,用尽量少的双语知识自动获取双语句对齐语料,另一方面,为提高维汉机器翻译质量,本文提出了一种机器翻译领域自适应方法,分别通过翻译模型和语言模型两个方面进行领域自适应,在实际翻译中,通过构建词向量并结合主题分析模型,选取与领域相关性最高的翻译系统进行翻译。本文的主要贡献可以总结如下:1、维汉双语词典自动获取针对目前维汉双语语料资源稀缺的现状,本文提出一种从双语单语语料中推导学习双语互译词的方法。该方法与传统的从平行句对齐语料中获取双语互译词的方法不同,该方法最大的特点就是不需要使用双语句对齐语料,仅仅需要数百个双语词就能从双语单语语料中获取双语互译词对。该方法特别适用于资源稀缺型语言间的语义表示。2、面向稀缺资源的维汉机器翻译双语语料自动获取目前主要获取双语句对齐语料的方法是通过构建分类器,通过分类器识别平行语料,但是训练一个良好的分类器需要足够的双语句对齐语料,然而对于资源稀缺型语言,双语句对齐语料极其难以获取,本文提出了结合深度学习的方法进行双语句对齐语料的自动获取,该方法首先借鉴于双语互译词的推导过程,通过双语互译词的学习,得到分类器的句对齐训练语料,然后本文构建了一个深度双向循环神经网络分类器,将双语语料的获取过程视为一个分类的过程,进而自动构建机器翻译双语语料。3、面向维汉机器翻译的领域自适应为了进一步提高维汉统计机器翻译质量,本文提出了一种领域自适应的方法,该方法分为翻译模型领域自适应和语言模型领域自适应。针对翻译模型领域自适应本文使用词向量和主题分析模型将训练语料进行主题领域自动分类,然后在翻译过程中,根据翻译需求选取领域最相关的系统进行翻译。对于语言模型领域自适应,根据特定领域,使用基于权重的编辑距离方法选取特定领域的训练语料,提高语言模型质量。4、基于覆盖度的维汉机器翻译训练语料选取为了进一步研究提高维汉机器翻译的方法,本文提出了一种基于双语句对覆盖度的方法进行语料的选取,该方法结合维汉双语一对多现象严重的特点,使用一种n-gram的方法计算句子中的冗余信息,通过过滤双语句子中的冗余信息,使得在使用较少训练语料的情况下,得到一个近乎相当于较大规模训练语料翻译性能的翻译系统训练语料。

页码123
源URL[http://ir.xjipc.cas.cn/handle/365002/5456]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
朱少林. 维汉机器翻译语料自动获取及领域自适应研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2018.

入库方式: OAI收割

来源:新疆理化技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。