机器翻译中混淆网络融合方法研究
文献类型:学位论文
作者 | 宿建军 |
答辩日期 | 2011-05-30 |
授予单位 | 中国科学院研究生院 |
授予地点 | 中国科学院新疆理化技术研究所 |
导师 | 李晓 |
关键词 | 统计机器翻译 系统融合 词对齐 混淆网络解码 |
学位名称 | 硕士 |
学位专业 | 计算机应用技术 |
英文摘要 | 近年来,系统融合方法逐渐在机器翻译领域受到重视。系统融合可以综合利用不同翻译系统的优点,缓解数据稀疏,选择最佳译文,从而提高机器翻译效果。维吾尔语和汉语间的机器翻译平行语料库规模较小,而且词法及句法分析方面的基础性研究不够成熟;两种语言间形态差异较大,译文中表现出了词形错误和语序混乱的现象。这很大程度上制约了维汉机器翻译的发展。本文的工作建立在词语级系统融合的基础上,主要做了以下方面的工作: 针对维汉机器翻译中一些对齐系统将实词对的很好而虚词不够好,另一些对齐系统虚词对的不错实词却差些,本文提出了多个对齐系统融合的方法提高对齐精度。具体来说,首先将GIZA++产生的对齐结果与TER对齐方法产生的对齐结果进行融合,再以融合的对齐结果构建混淆网络,最后解码输出最佳译文。 针对维汉词语级融合中单个混淆网络的系统融合过分依赖参考句子以及调序能力有限的问题,本文提出了多个混淆网络的重评分和最小贝叶斯风险的解码方法,通过多个混淆网络搜索到更好的融合结果。参考句子的词序决定混淆网络的基本词序,参考句子选择不当会导致混淆网络的融合效果不理想。多混淆网络的方法不再从多个翻译结果中选出一个参考,而将每个翻译结果都当作一次参考,其它翻译结果与参考对齐。 最后,本文对实验结果进行了分析和总结。实验证明,对齐系统融合的方法可以有效地提高词对齐的准确率;多个混淆网络的解码方法减少了参考句子的不确定性以及缓解数据稀疏问题,最终提高机器翻译的效果。 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/4414] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
推荐引用方式 GB/T 7714 | 宿建军. 机器翻译中混淆网络融合方法研究[D]. 中国科学院新疆理化技术研究所. 中国科学院研究生院. 2011. |
入库方式: OAI收割
来源:新疆理化技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。