基于统计特征的垃圾博客过滤
文献类型:期刊论文
作者 | 刘玮1; 廖祥文1; 许洪波1; 王丽宏2 |
刊名 | 中文信息学报
![]() |
出版日期 | 2008 |
卷号 | 22.0期号:006页码:86 |
关键词 | 计算机应用 中文信息处理 内容分析 垃圾博客过滤 统计特征 词频特征 泛化能力 |
ISSN号 | 1003-0077 |
英文摘要 | 该文根据垃圾博客和正常博客在统计特征上的差异,对多种针对博客分类有效的统计特征进行了分析,提出基于博客页面统计特征的过滤方法。在Blog06数据集上的实验表明,该方法的过滤准确性达到97%,比基于词频特征的过滤方法提高了约7%,在不同规模训练集上的准确性保持在95%左右,具有更好的泛化能力。 |
语种 | 英语 |
源URL | [http://119.78.100.204/handle/2XEOYT63/35737] ![]() |
专题 | 中国科学院计算技术研究所期刊论文_中文 |
作者单位 | 1.中国科学院计算技术研究所 2.中国国家计算机网络与信息安全管理中心 |
推荐引用方式 GB/T 7714 | 刘玮,廖祥文,许洪波,等. 基于统计特征的垃圾博客过滤[J]. 中文信息学报,2008,22.0(006):86. |
APA | 刘玮,廖祥文,许洪波,&王丽宏.(2008).基于统计特征的垃圾博客过滤.中文信息学报,22.0(006),86. |
MLA | 刘玮,et al."基于统计特征的垃圾博客过滤".中文信息学报 22.0.006(2008):86. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。