维吾尔语知识图谱构建关键技术研究及应用
文献类型:学位论文
作者 | 艾孜麦提·艾尼瓦尔 |
答辩日期 | 2020-08-03 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院新疆理化技术研究所 |
导师 | 李晓 |
关键词 | 维吾尔语 知识图谱 低资源语言 跨语言知识迁移 |
学位名称 | 博士 |
学位专业 | 计算机应用技术 |
英文摘要 | 随着互联网的快速发展和移动设备的广泛普及,每天都在产生大量的非结构化文本信息,这些非结构化文本中蕴含着丰富却无法直接使用的信息。知识图谱可以自动地从半结构化或无结构化的文本数据中挖掘有用的知识,以结构化的形式描述客观世界中的概念、实体及关系,将互联网信息表达成更接近人类认知世界的形式,从而为语义检索、问答系统等智能应用提供服务。维吾尔语作为我国少数民族语言,也是一种低资源语言。虽然近些年来,维吾尔语自然语言处理研究不断深入,并在机器翻译、语音识别、语音合成等诸多研究领域有了一定的成就,但知识图谱相关研究一直处于空白状态,而知识图谱为维吾尔语本文内容自动提取及智能分析至关重要。首先,维吾尔语作为资源稀缺语言,相比汉语、英语等高资源语言,缺乏大规模单语、双语和标注语料库;其次,维吾尔语命名实体识别、实体关系抽取、实体链接等相关技术仍处于初步研究阶段;再说,维吾尔语是典型的黏着语,具有丰富的词法和句法特性,给文本处理带来一定的难度。上述因素制约着维吾尔语知识图谱构建相关技术的深入研究。针对上述问题,本文从维吾尔语资源稀缺性出发,以高-低资源语言之间知识共享为依据,利用迁移学习技术开展维吾尔语知识图谱构建关键技术研究,具体的研究内容如下:(1)基于通用神经机器翻译的跨语言命名实体映射方法。命名实体作为知识图谱的关键组成部分,对知识图谱的构建至关重要。然而现有的命名实体识别方法需要大规模人工标注语料,这消耗大量的人力、物力和时间。本文利用多种汉语命名实体识别系统,对维-汉平行语料中的汉语句子进行实体识别,并采用标签融合策略对多源标签进行融合,再选用合适的特殊符号标记实体边界,并利用通用神经机器翻译系统翻译到维吾尔语,从而自动地构建维吾尔语命名实体识别标注语料库。利用该语料库训练的维吾尔语命名实体识别系统,在标准测试集上取得很好的效果,比基线系统提高了3.79个百分点。(2)基于知识迁移的维吾尔语通用知识图谱构建方法研究。维吾尔语作为一种低资源语言,目前还没有公开可用的知识图谱,从零基础构建知识图谱是一个非常艰难的任务,然而像英语、汉语等资源丰富语言有比较成熟的知识图谱可用。为了降低成本,本文采用基于双语词典的实体双向翻译技术和双语语义相似性打分模型,将ConceptNet常识知识图谱的中文部分进行迁移,初步构建了包含17种关系、67,375个三元组的维吾尔语常识知识图谱。(3)基于跨语言实体对齐的维吾尔语知识图谱构建技术研究。虽然知识迁移的方式可以快速构建知识图谱,但知识图谱往往无法体现维吾尔语特有的一些实体和关系。因此,本文以维吾尔语百科类网站为数据对象,经内容爬取、整理,实体识别、关系过滤及归一化,初步构建维吾尔语百科知识图谱,为了丰富知识图谱中实体信息,将知识图谱与汉语知识图谱进行对齐,经实体链接后得到的汉语实体相关信息利用维汉双语词典及维汉机器翻译等技术翻译为维吾尔语,获取了高质量的实体信息,有效扩展了维吾尔语知识图谱。(4)基于知识图谱的维汉机器翻译数据增强技术研究。为了有效利用已创建的维汉双语知识图谱,本文将利用关系句子模板,将每对三元组转换为维汉平行句对,利用维吾尔语词干、词缀搭配算法,有效解决句子模板中维吾尔语实体单词与词缀结合时不符合维吾尔语词法的问题,最终成功构建包含316,433对平行句对的语料库,利用该语料库进行维汉、汉维机器翻译数据增强研究。实验结果表明,构建的平行语料库可有效提高机器翻译系统的质量,在基线系统的对比实验中,最高可提升4.77个BLUE值。 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/7479] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
推荐引用方式 GB/T 7714 | 艾孜麦提·艾尼瓦尔. 维吾尔语知识图谱构建关键技术研究及应用[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2020. |
入库方式: OAI收割
来源:新疆理化技术研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。