中国科学院机构知识库网格系统: 基于语料自动获取的维汉译文消歧关键问题研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于语料自动获取的维汉译文消歧关键问题研究

文献类型：学位论文


作者	杨勇
答辩日期	2013-05-24
授予单位	中国科学院大学
授予地点	中国科学院新疆理化技术研究所
导师	李晓
关键词	译文消歧语料自动获取词义消歧最大熵方法语料库过滤
学位名称	博士
学位专业	计算机应用技术
英文摘要	新疆是一个多民族的聚居地，少数民族尤其是维吾尔族在新疆人口中占有很大的比例。在信息互相交融的今天，各民族之间的文化交流日益频繁，如何借助先进的信息技术完成机器翻译、跨语言知识检索等任务已成为人们迫切的需求。目前对这些研究仍然存在着许多的难题，其中一个关键问题是源语言中的多义词在翻译过程中如何正确选择目标语中词汇的问题，称之为译文消歧。维汉译文消歧研究作为一个“中间任务”直接关系到维汉机器翻译、维汉跨语言问答等语言处理应用系统的效率和成败，是计算语言学中一个关键性的基础研究课题。综合分析译文消歧和词义消歧研究过程出现的各种问题。本文认为维汉译文消歧研究的关键问题是消歧资源建设和消歧方法研究。在消歧资源建设方面，本文主要进行了维吾尔语多义词对应的汉语译文标注库的自动构建研究，针对自动获取的译文标注库精度不高的缺点，提出了多种方法用于过滤语料，提高了译文标注库的实际使用价值。在消歧方法方面，根据维吾尔语的特点，研究融合多特征的词义消歧方法，为维吾尔语译文消歧的研究打下了基础。本文具体研究内容包括以下几个方面： 1.为了解决维汉译文消歧研究中消歧资源短缺的问题，提出了一种利用维吾尔语多义词各词义对应的汉语译文自动获取译文标注语料库的方法，在此基础上基于改进的HMM模型建立了维汉译文消歧框架，实现了在自动获取的标注语料上维汉译文的消歧。 2.为了进一步扩大译文标注语料库的规模，提出了利用目标词的等价同义词自动获取标注语料的方法。为了提高自动获取标注语料的质量，分别从等价同义词和句子两个层面对语料进行过滤。在等价同义词的筛选方面，提出一种多策略结合的词语相似度算法，既使用已有的知网资源，从中获取词语之间直接的相互联系，也使用统计信息，将词语相关性的因素引入词语相似性的计算中，从目标词的同义词中筛选出相似度最高的词作为等价同义词。在句子筛选方面，对利用等价同义词获取的实例句子，通过目标词的上下文与所获实例的上下文共现频率来过滤噪音实例。通过两种方法的过滤，极大的提高了自动获取语料的质量。 3．针对维汉译文消歧的需要，进行了维吾尔语词义消歧研究，基于最大熵模型建立了融合维吾尔语特点的词义消歧模型，结合多种模型的方式来提高消歧结果的准确率，在训练语料规模不变的情况下，有效的提高了词义消歧的准确率。
公开日期	2013-05-31
源URL	[http://ir.xjipc.cas.cn/handle/365002/2496]
专题	新疆理化技术研究所_多语种信息技术研究室
推荐引用方式 GB/T 7714	杨勇. 基于语料自动获取的维汉译文消歧关键问题研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2013.

入库方式： OAI收割

来源：新疆理化技术研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。