维吾尔语网站识别方法
文献类型:期刊论文
作者 | 阿力木·木拉提; 艾孜尔古丽; 玉素甫·艾拜都拉 |
刊名 | 计算机工程与设计
![]() |
出版日期 | 2016 |
卷号 | 37期号:5页码:1417-1421 |
关键词 | 维吾尔文 网页文本节点 向量空间模型 网页识别 常用词 |
ISSN号 | 1000-7024 |
DOI | 10.16208/j.issn1000-7024.2016.05.056 |
英文摘要 | 通过调查与分析大量维吾尔文网页结构,对互联网中现有的维吾尔文网页进行网页识别研究。探讨维吾尔文不规范网页的字符编码转换方法,为此进行维吾尔文编码标准化处理。考虑维吾尔文网页独有的节点属性,提出一种基于维吾尔文网页文本节点特征的方法,但该方法显示略低的准确率及较多的误判率。结合维吾尔语常用候选词语料和向量空间模型(vector space module),提出一种基于维吾尔语常用词统计学特征的方法,利用测试网页内容和维吾尔语常用候选词语料,并将其以向量来表示,计算测试网页文本的词语在维吾尔语常用候选词中的相应权值,依据相应权值来计算测试网页为维吾尔文网页的概率,进行网页识别。对两种方法进行比较,准确率分别是69.85%和91%。实验结果表明,基于维吾尔语常用词统计学特征的方法比网页文本节点特征的方法具有更高的准确率,验证了该方法的有效性。 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/4609] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
作者单位 | 新疆师范大学计算机科学技术学院;中国科学院新疆理化技术研究所 |
推荐引用方式 GB/T 7714 | 阿力木·木拉提; 艾孜尔古丽;玉素甫·艾拜都拉. 维吾尔语网站识别方法[J]. 计算机工程与设计,2016,37(5):1417-1421. |
APA | 阿力木·木拉提; 艾孜尔古丽;玉素甫·艾拜都拉.(2016).维吾尔语网站识别方法.计算机工程与设计,37(5),1417-1421. |
MLA | 阿力木·木拉提; 艾孜尔古丽;玉素甫·艾拜都拉."维吾尔语网站识别方法".计算机工程与设计 37.5(2016):1417-1421. |
入库方式: OAI收割
来源:新疆理化技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。