维吾尔语句法分析研究及其在机器翻译中的应用
文献类型:学位论文
作者 | 吐尔洪·吾司曼 |
答辩日期 | 2019-05-24 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院新疆理化技术研究所 |
导师 | 程力 |
关键词 | 维吾尔语 形态分析 句法分析 机器翻译 |
学位名称 | 博士 |
学位专业 | 计算机应用技术 |
英文摘要 | 自然语言处理研究可以分为自然语言理解和自然语言生成两个部分,其中自然语言理解要实现计算机理解人类语言的功能,而自然语言生成是让计算机具备与人进行自由交流的能力。词法分析、句法分析和语义分析是自然语言处理的基本任务,服务于自然语言理解。句法分析在自然语言处理领域中处在一个承上启下的重要地位,利用底层的词法分析结果给上层语义分析提供服务。维吾尔语自然语言处理研究起步较晚,虽然近期在语音识别、语音合成、语料库建设以及维-汉机器翻译等研究领域有了一些成就。但是更为深层的句法分析、语义理解等研究工作没能全面的开展。首先,维吾尔语属于小语种语言,缺乏相对完善、可用的、高质量的标注语料库,用于句法分析等研究任务的语料库更为稀少。其次,维吾尔语是一门黏着性语言,相比汉语、英语等语言,具有丰富的形态特性和灵活的句法结构,通常情况下人称、数、格、时态、语态等语义信息由构形词缀表示,而这些词缀连接在词干后面,连接时还会发生音变现象;再说,维吾尔语的黏着性对其句法结构也产生影响,使它的结构变得复杂。上述因素始终制约着进行维吾尔语句法分析、语义分析等更高层次的研究工作。目前,机器翻译是自然语言处理领域中受关注程度比较高的研究方向之一,而且维-汉统计机器翻译也有了较好的性能表现。但是,由于缺乏维-汉机器翻译和句法分析相结合的相关研究,因此句法信息对维-汉机器翻译产生何种影响还不得而知。针对上述问题,本文从维吾尔语的复杂形态特性出发、考虑低资源性质等实际情况,开展针对维吾尔语的形态分析、句法分析、依存语料库建设以及基于依存关系的机器翻译等方面的研究,具体的研究内容如下:1. 结合维吾尔语的复杂形态特性和低资源情况,提出形态切分、形态标注以及音变还原等功能融为一体的,基于序列标注的多任务形态分析方法,并在不同的标注模型之间进行对比。2. 分析维吾尔语的短语结构类型以及它们的组合形式,并在此基础上整理出维吾尔语上下文无关文法。3. 根据汉维平行句对中词对齐关系,实现汉语句子的依存结构映射到维吾尔语句子的实验。借此方法,构建了3万句的维吾尔语依存句法树库,并且通过维吾尔语依存句法理论进行进一步的优化工作,提升了树库的质量。4. 根据汉语和维吾尔语句子之间依存关系的映射思路,提出基于依存关系的维-汉统计机器翻译框架,并完成了基于依存关系的短语抽取、短语的翻译以及针对译文的调序等功能。实验结果显示,依据本框架实施的实验,在基线系统的对比试验中,其BLEU值提升了1.33%。 |
页码 | 107 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/6015] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
推荐引用方式 GB/T 7714 | 吐尔洪·吾司曼. 维吾尔语句法分析研究及其在机器翻译中的应用[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2019. |
入库方式: OAI收割
来源:新疆理化技术研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。