中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
网络维吾尔文判别及其文本长度下界的探讨

文献类型:期刊论文

作者倪耀群1; 曹鹏1; 许洪波1; 唐慧丰2; 程学旗1
刊名中文信息学报
出版日期2012
卷号26.0期号:006页码:109
关键词老维文 语种识别 最大公共子串
ISSN号1003-0077
英文摘要将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析。
语种英语
源URL[http://119.78.100.204/handle/2XEOYT63/25620]  
专题中国科学院计算技术研究所期刊论文_中文
作者单位1.中国科学院计算技术研究所
2.解放军外国语学院
推荐引用方式
GB/T 7714
倪耀群,曹鹏,许洪波,等. 网络维吾尔文判别及其文本长度下界的探讨[J]. 中文信息学报,2012,26.0(006):109.
APA 倪耀群,曹鹏,许洪波,唐慧丰,&程学旗.(2012).网络维吾尔文判别及其文本长度下界的探讨.中文信息学报,26.0(006),109.
MLA 倪耀群,et al."网络维吾尔文判别及其文本长度下界的探讨".中文信息学报 26.0.006(2012):109.

入库方式: OAI收割

来源:计算技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。