中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
统计机器翻译中大规模数据处理若干问题的研究

文献类型:学位论文

作者骆卫华
答辩日期2010-05-30
文献子类博士
授予单位中国科学院研究生院
授予地点北京
导师白硕
关键词统计机器翻译 大规模数据处理 语言模型 句法森林 超图
学位专业其它专业
英文摘要近年来,统计机器翻译技术取得了巨大进展。其核心思想是,把自动翻译过程形式化为一个统计模型,利用当代计算机强大的运算和存储能力,从双语语料库中自动学习翻译知识,把翻译问题转换为在大量候选译文构成的搜索空间中查找最优译文的搜索问题。然而,尽管统计机器翻译的模型从基于词,基于短语发展到基于句法的模型,在理论上更加完善,利用的语言学知识也更加深入,但却面临着越来越严重的数据处理瓶颈问题。这主要是两方面的因素导致:一是随着传统翻译文本的电子化和互联网的普及,可用双语语料的规模迅速增加;二是随着翻译模型日益复杂,搜索空间呈指数级增加。 理论和实验表明,增加双语训练语料和扩大搜索空间通常能带来翻译质量的提高,但由此导致的后果是占用系统资源的大幅增加,以及参数训练和解码速度的降低。为了把系统资源占用限制在合理范围内,很多翻译模型不得不限制训练数据规模,并对影响搜索空间的参数进行严格限制,从而大大影响了模型效果。 为了解决以上问题,本论文重点研究了统计机器翻译模型中的大规模数据处理问题,尤其是对系统性能影响最大的语言模型和句法规则表,取得了以下研究成果: (1) 快速随机存取语言模型 N元语言模型在机器翻译模型中具有极为重要的作用。一般认为,更大规模的训练语料和更高的元数能够覆盖更多的语言现象,有助于改进翻译质量。但加载高元语言模型占用大量内存,对整体模型的运行环境提出了极高要求。布隆过滤器(Bloom Filter)是一种有效的数据压缩存储方法,以布隆过滤器表示的随机语言模型能够把大规模语言模型压缩在一个固定的较小的存储空间中。本文针对原始随机语言模型查询速度较慢,以及存在误判等缺点进行了改进,以Book-keeping方法预先记录部分启发式信息,从而有效地降低了查询N元组的搜索空间。实验表明,在保留原来方法压缩率高的优点的同时,改进后的方法查询速度比原方法提升近40%。 (2) 基于按需加载的大规模语言模型存取方法 传统的语言模型实现一开始就把全部N元组及其概率信息加载到内存中,以提高查询速度。但实际上,以篇章或句子为单位翻译时,查询的N元组范围有限。本文提出了一种按需加载的语言模型表示方法,把语言模型视为动态调整的缓存结构,初始只加载K元组(K≤N),其余部分则存放在硬盘上。然后根据查询的N元组的情况,始终只维护一个完整语言模型的子集,并采取多种方法提高存取速度。本方法是一种无损数据表示方法,不会带来精度上的损失。实验表明,通过适当的参数设置,本方法的查询速度相当于全部加载的67%,而占用内存不到后者的1/3。 (3) 基于超图的翻译规则快速匹配方法 树到串(Tree-to-string)模型是基于句法的翻译模型的典型范式,但目前的句法分析精度不高,导致整体翻译效果不尽如人意。基于句法森林的翻译(Forest-based Translation)通过共享压缩森林结构有效保存了N-best句法分析结果,有效缓解了句法分析错误导致的翻译选择错误。但共享压缩森林抽取的规则规模却是树到串模型的指数级,因此无论是存储还是匹配都对系统资源提出了很高的要求。本文提出了一种基于索引超图的翻译规则匹配算法,把句法分析结果也视为超图,在查找匹配规则时,直接进行超图到超图的匹配,同时利用倒排索引存储规则左手端(用于存储句法树片段)和右手端(用于存储翻译串、概率等信息)的映射信息,极大提高了匹配速度。实验表明,本方法相对于目前已知最快方法,不仅占用空间较少,而且在匹配速度上提升了30%以上。
学科主题机器翻译
语种中文
公开日期2010-06-21
分类号TP391
源URL[http://ictir.ict.ac.cn/handle/311040/331]  
专题中国科学院计算技术研究所学位论文_2010博士
推荐引用方式
GB/T 7714
骆卫华. 统计机器翻译中大规模数据处理若干问题的研究[D]. 北京. 中国科学院研究生院. 2010.

入库方式: OAI收割

来源:计算技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。