中国科学院机构知识库网格系统: 网络维吾尔文判别及其文本长度下界的探讨

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

网络维吾尔文判别及其文本长度下界的探讨

文献类型：期刊论文


作者	倪耀群 1; 曹鹏 1; 许洪波 1; 唐慧丰 2; 程学旗 1
刊名	中文信息学报
出版日期	2012
卷号	26.0 期号:006 页码:109
关键词	老维文语种识别最大公共子串
ISSN号	1003-0077
英文摘要	将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来，是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别，准确率超过98％。经过错误分析，发现错误判别的文本主要集中在论坛和微博客中，这些文本有效字符数太少，语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串，并对文种判别所需要的最短字符串长度进行了分析。
语种	英语
源URL	[http://119.78.100.204/handle/2XEOYT63/25620]
专题	中国科学院计算技术研究所期刊论文_中文
作者单位	1.中国科学院计算技术研究所 2.解放军外国语学院
推荐引用方式 GB/T 7714	倪耀群,曹鹏,许洪波,等. 网络维吾尔文判别及其文本长度下界的探讨[J]. 中文信息学报,2012,26.0(006):109.
APA	倪耀群,曹鹏,许洪波,唐慧丰,&程学旗.(2012).网络维吾尔文判别及其文本长度下界的探讨.中文信息学报,26.0(006),109.
MLA	倪耀群,et al."网络维吾尔文判别及其文本长度下界的探讨".中文信息学报 26.0.006(2012):109.

入库方式： OAI收割

来源：计算技术研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。