中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于语料自动获取的维汉译文消歧关键问题研究

文献类型:学位论文

作者杨勇
答辩日期2013-05-24
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师李晓
关键词译文消歧 语料自动获取 词义消歧 最大熵方法 语料库过滤
学位名称博士
学位专业计算机应用技术
英文摘要

新疆是一个多民族的聚居地,少数民族尤其是维吾尔族在新疆人口中占有很大的比例。在信息互相交融的今天,各民族之间的文化交流日益频繁,如何借助先进的信 息技术完成机器翻译、跨语言知识检索等任务已成为人们迫切的需求。目前对这些研究仍然存在着许多的难题,其中一个关键问题是源语言中的多义词在翻译过程中 如何正确选择目标语中词汇的问题,称之为译文消歧。维汉译文消歧研究作为一个“中间任务”直接关系到维汉机器翻译、维汉跨语言问答等语言处理应用系统的效 率和成败,是计算语言学中一个关键性的基础研究课题。 综合分析译文消歧和词义消歧研究过程出现的各种问题。本文认为维汉译文消歧研究的关键问题是消歧资源建设和消歧方法研究。在消歧资源建设方面,本文主要进 行了维吾尔语多义词对应的汉语译文标注库的自动构建研究,针对自动获取的译文标注库精度不高的缺点,提出了多种方法用于过滤语料,提高了译文标注库的实际 使用价值。在消歧方法方面,根据维吾尔语的特点,研究融合多特征的词义消歧方法,为维吾尔语译文消歧的研究打下了基础。本文具体研究内容包括以下几个方 面: 1.为了解决维汉译文消歧研究中消歧资源短缺的问题,提出了一种利用维吾尔语多义词各词义对应的汉语译文自动获取译文标注语料库的方法,在此基础上基于改 进的HMM模型建立了维汉译文消歧框架,实现了在自动获取的标注语料上维汉译文的消歧。 2.为了进一步扩大译文标注语料库的规模,提出了利用目标词的等价同义词自动获取标注语料的方法。为了提高自动获取标注语料的质量,分别从等价同义词和句 子两个层面对语料进行过滤。在等价同义词的筛选方面,提出一种多策略结合的词语相似度算法,既使用已有的知网资源,从中获取词语之间直接的相互联系,也使 用统计信息,将词语相关性的因素引入词语相似性的计算中,从目标词的同义词中筛选出相似度最高的词作为等价同义词。在句子筛选方面,对利用等价同义词获取 的实例句子,通过目标词的上下文与所获实例的上下文共现频率来过滤噪音实例。通过两种方法的过滤,极大的提高了自动获取语料的质量。 3.针对维汉译文消歧的需要,进行了维吾尔语词义消歧研究,基于最大熵模型建立了融合维吾尔语特点的词义消歧模型,结合多种模型的方式来提高消歧结果的准 确率,在训练语料规模不变的情况下,有效的提高了词义消歧的准确率。

公开日期2013-05-31
源URL[http://ir.xjipc.cas.cn/handle/365002/2496]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
杨勇. 基于语料自动获取的维汉译文消歧关键问题研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2013.

入库方式: OAI收割

来源:新疆理化技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。