中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于统计特征的垃圾博客过滤

文献类型:期刊论文

作者刘玮1; 廖祥文1; 许洪波1; 王丽宏2
刊名中文信息学报
出版日期2008
卷号22.0期号:006页码:86
关键词计算机应用 中文信息处理 内容分析 垃圾博客过滤 统计特征 词频特征 泛化能力
ISSN号1003-0077
英文摘要该文根据垃圾博客和正常博客在统计特征上的差异,对多种针对博客分类有效的统计特征进行了分析,提出基于博客页面统计特征的过滤方法。在Blog06数据集上的实验表明,该方法的过滤准确性达到97%,比基于词频特征的过滤方法提高了约7%,在不同规模训练集上的准确性保持在95%左右,具有更好的泛化能力。
语种英语
源URL[http://119.78.100.204/handle/2XEOYT63/35737]  
专题中国科学院计算技术研究所期刊论文_中文
作者单位1.中国科学院计算技术研究所
2.中国国家计算机网络与信息安全管理中心
推荐引用方式
GB/T 7714
刘玮,廖祥文,许洪波,等. 基于统计特征的垃圾博客过滤[J]. 中文信息学报,2008,22.0(006):86.
APA 刘玮,廖祥文,许洪波,&王丽宏.(2008).基于统计特征的垃圾博客过滤.中文信息学报,22.0(006),86.
MLA 刘玮,et al."基于统计特征的垃圾博客过滤".中文信息学报 22.0.006(2008):86.

入库方式: OAI收割

来源:计算技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。