中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于部分假设共享的多模型协同解码研究

文献类型:学位论文

作者董兴华
答辩日期2012-04
授予单位中国科学院研究生院
授予地点中国科学院新疆理化技术研究所
导师周俊林
关键词部分假设共享 多模型协同解码 维汉/汉维统计机器翻译 在线多语言机器翻译
学位名称博士
学位专业计算机应用技术
英文摘要

近年,统计机器翻译取得了很大的进展:从基于词的模型,到基于短语的模型,再到各种句法的模型。虽然句法的模型有诸多优点,如可以处理长距离调序等,但它们也并不是完美的,都存在各自的瑕疵,如层次短语模型在解码过程中可能会大量使用“粘合规则”,MEBTG(基于最大熵的括号转录语法)模型在解码时仍然采取严格的字符串匹配等。 对于一些较大语种之间统计机器翻译,如英语和汉语,英语和阿拉伯语等,一些大学,科研机构等已经对其进行了深入的研究,但对国内的一些小语种和汉语之间的统计机器翻译很少有人对其进行深入的研究,比如维吾尔语和汉语之间的翻译。受语言特点的影响,维吾尔语和汉语之间的翻译质量和很多因素相关。 本文的主要工作和取得的主要成果如下: 1.提出并实现了基于部分翻译假设共享的多模型协同解码系统,系统中的每个成员模型都可以共享其它成员模型的搜索空间,从而使得整个模型的解码空间得到极大的扩展。不同成员模型生成的部分翻译假设采取竞争的形式参与解码,使整个模型的搜索空间限制在较优的搜索空间范围内,这个较优的空间可能来自各个成员模型搜索空间的一部分。整个模型吸收了各个成员模型的优点,去除它们的缺点,例如,可以用最大熵调序模型取代层次短语模型和基于树模型中的粘合规则,而它们的联合同时使整个模型具备了泛化能力,而且使得生成的翻译假设更符合语言学知识。 2.对维汉翻译质量有影响的因素做了深入的探讨,分析,提出并验证了一些解决方案,它们包括汉维/维汉翻译中的词对齐问题,维汉翻译中的OOV问题,汉维翻译中的依存关系问题等。 3. 使用多线程,负载均衡等技术设计并实现了在线多语言机器翻译框架。

源URL[http://ir.xjipc.cas.cn/handle/365002/4398]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
董兴华. 基于部分假设共享的多模型协同解码研究[D]. 中国科学院新疆理化技术研究所. 中国科学院研究生院. 2012.

入库方式: OAI收割

来源:新疆理化技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。