中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于文本密度模型的Web正文抽取

文献类型:期刊论文

作者朱泽德4; 李淼1; 张健1; 陈雷1; 曾新华1
刊名模式识别与人工智能
出版日期2013
卷号026
关键词Web挖掘 正文抽取 文本密度 高斯平滑 最大子序列
ISSN号1003-6059
其他题名Web Content Extraction Based on Text Density Model
英文摘要为从大量无关信息中获取有用内容,正文抽取成为Web数据应用不可或缺的组成部分.文中提出一种基于文本密度模型的新闻网页正文抽取方法.主要通过融合网页结构和语言特征的统计模型,将网页文档按文本行转化成正、负密度序列,再根据邻近行的内容连续性,利用高斯平滑技术修正文本密度序列,最后采用改进的最大子序列分割序列抽取正文内容.该方法保持正文完整性并排除噪声干扰,且无需人工干预或反复训练.实验结果表明基于文本密度抽取正文对不同数据源具有广泛的适应性,且准确率和召回率优于现有统计模型.
语种中文
CSCD记录号CSCD:4901889
源URL[http://ir.hfcas.ac.cn:8080/handle/334002/47133]  
专题中国科学院合肥物质科学研究院
作者单位1.中国科学院合肥智能机械研究所
2.中国科学院合肥智能机械研究所
3.中国科学院合肥智能机械研究所
4.中国科学技术大学自动化系
5.中国科学院合肥智能机械研究所
推荐引用方式
GB/T 7714
朱泽德,李淼,张健,等. 基于文本密度模型的Web正文抽取[J]. 模式识别与人工智能,2013,026.
APA 朱泽德,李淼,张健,陈雷,&曾新华.(2013).基于文本密度模型的Web正文抽取.模式识别与人工智能,026.
MLA 朱泽德,et al."基于文本密度模型的Web正文抽取".模式识别与人工智能 026(2013).

入库方式: OAI收割

来源:合肥物质科学研究院

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。