面向维汉机器翻译的维语命名实体的识别与翻译
文献类型:学位论文
作者 | 张磊 |
答辩日期 | 2014-05-21 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院新疆理化技术研究所 |
导师 | 李晓 |
关键词 | 数词类 命名实体 维汉机器翻译 基于规则 基于统计 |
学位名称 | 硕士 |
学位专业 | 计算机应用技术 |
英文摘要 | 维吾尔语命名实体识别和翻译是维汉机器翻译的基础任务,也是信息检索、信息抽取、智能问答等技术的基础,研究并实现有效的维吾尔语命名实体识别与翻译系统是本文的主要研究内容。维吾尔语命名实体包括数词类和实体类,其中数词类包括时间、日期、货币、百分比,实体类包括地名、机构名、人名。当期中英文命名实体识别与翻译已经取得可实用的效果,而维吾尔语命名实体正处于初步研究阶段。维吾尔语命名实体有着特有的语法语义特点,汉语和英语中广泛实用的理论、模型和系统不能简单移植过来,需要结合语言特性做相应处理。本文工作包括三部分:基于维汉平行语料的维吾尔语数词类命名实体的识别与翻译:通过有限自动机结合触发词识别并翻译维语基本数词,从平行语料中自动抽取出翻译模板,匹配模板并实现翻译。实验表明,维吾尔语数词类命名实体的翻译F值达到了91%。基于规则的维吾尔语地名识别和翻译:总结了维吾尔语地名内部结构特征和相邻词信息,手动建立了地名词典库、首词库、中间词库和尾词库,实现了维吾尔语地名识别算法。实验表明,维吾尔语地名的翻译F值达到了76%。基于统计的维吾尔语机构名识别:将机构名识别问题转换为序列标注的问题来解决,利用条件随机场模型充分利用上下文信息和外部特征,实现对机构名的识别。实验表明,维吾尔语机构名识别的F值达到了82%。 |
公开日期 | 2014-08-05 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/3448] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
推荐引用方式 GB/T 7714 | 张磊. 面向维汉机器翻译的维语命名实体的识别与翻译[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2014. |
入库方式: OAI收割
来源:新疆理化技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。