网络维吾尔文判别及其文本长度下界的探讨
文献类型:期刊论文
作者 | 倪耀群1; 曹鹏1; 许洪波1; 唐慧丰2; 程学旗1 |
刊名 | 中文信息学报
![]() |
出版日期 | 2012 |
卷号 | 26.0期号:006页码:109 |
关键词 | 老维文 语种识别 最大公共子串 |
ISSN号 | 1003-0077 |
英文摘要 | 将维吾尔文从阿拉伯文、哈萨克文、柯尔克孜文等以阿拉伯字母为基础书写的类似文字中识别出来,是维文信息处理的基础。作者对维吾尔字符的编码优化后使用N元语法模型实现了维吾尔文的快速语种判别,准确率超过98%。经过错误分析,发现错误判别的文本主要集中在论坛和微博客中,这些文本有效字符数太少,语言特征不充分。最后作者计算了四种语言真实网络文本中的所有公共子串,并对文种判别所需要的最短字符串长度进行了分析。 |
语种 | 英语 |
源URL | [http://119.78.100.204/handle/2XEOYT63/25620] ![]() |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.中国科学院计算技术研究所 2.解放军外国语学院 |
推荐引用方式 GB/T 7714 | 倪耀群,曹鹏,许洪波,等. 网络维吾尔文判别及其文本长度下界的探讨[J]. 中文信息学报,2012,26.0(006):109. |
APA | 倪耀群,曹鹏,许洪波,唐慧丰,&程学旗.(2012).网络维吾尔文判别及其文本长度下界的探讨.中文信息学报,26.0(006),109. |
MLA | 倪耀群,et al."网络维吾尔文判别及其文本长度下界的探讨".中文信息学报 26.0.006(2012):109. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。