中国科学院机构知识库网格系统: 基于子词信息的维吾尔语词项规范化

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于子词信息的维吾尔语词项规范化

文献类型：期刊论文


作者	张新路 ; 王磊 ; 杨雅婷; 米成刚
刊名	厦门大学学报(自然科学版)
出版日期	2019
卷号	58 期号:2 页码:217-224
关键词	维吾尔语自然语言处理文本规范化词嵌入
ISSN号	0438-0479
英文摘要	拉丁化的维吾尔语在使用过程中具有文本不规范的特点,这种不规范是造成歧义等现象的最主要原因,严重制约着与维吾尔语相关的自然语言处理应用.由此提出了一种无监督的基于子词信息的文本规范化方法,该方法在词向量构建过程中将词的内部信息考虑进去.这种方法可以对罕见词进行向量表示,也可以将词内部的形态信息融入词的表示,丰富词向量的表达,进而用于改进无监督学习中规范化词候选集生成质量的不足.实验表明,相比于传统词向量构建方法,该方法在文本规范化任务中可以提高规范化词的召回率.
CSCD记录号	CSCD:6461386
源URL	[http://ir.xjipc.cas.cn/handle/365002/5694]
专题	新疆理化技术研究所_多语种信息技术研究室
作者单位	1.中国科学院新疆理化技术研究所新疆民族语音语言信息处理实验室 2.中国科学院大学计算机科学与技术学院
推荐引用方式 GB/T 7714	张新路,王磊,杨雅婷,等. 基于子词信息的维吾尔语词项规范化[J]. 厦门大学学报(自然科学版),2019,58(2):217-224.
APA	张新路,王磊,杨雅婷,&米成刚.(2019).基于子词信息的维吾尔语词项规范化.厦门大学学报(自然科学版),58(2),217-224.
MLA	张新路,et al."基于子词信息的维吾尔语词项规范化".厦门大学学报(自然科学版) 58.2(2019):217-224.

入库方式： OAI收割

来源：新疆理化技术研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。