中国科学院机构知识库网格系统: 维吾尔文网页正文抽取系统的研究与实现

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

维吾尔文网页正文抽取系统的研究与实现

文献类型：期刊论文


作者	蔡李; 单艳; 薛化建; 苏国平
刊名	计算机工程与设计
出版日期	2012
卷号	33 期号:2 页码:551-555
关键词	维吾尔文网页正文抽取语料库文本句长特征 web文本挖掘
ISSN号	1000-7024
其他题名	research and implementation of uyghur web content extraction system
中文摘要	从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。
公开日期	2012-11-29
源URL	[http://ir.xjipc.cas.cn/handle/365002/1489]
专题	新疆理化技术研究所_多语种信息技术研究室
作者单位	中国科学院新疆理化技术研究所;中国科学院研究生院;新疆维吾尔自治区经济和信息化委员会
推荐引用方式 GB/T 7714	蔡李,单艳,薛化建,等. 维吾尔文网页正文抽取系统的研究与实现[J]. 计算机工程与设计,2012,33(2):551-555.
APA	蔡李,单艳,薛化建,&苏国平.(2012).维吾尔文网页正文抽取系统的研究与实现.计算机工程与设计,33(2),551-555.
MLA	蔡李,et al."维吾尔文网页正文抽取系统的研究与实现".计算机工程与设计 33.2(2012):551-555.

入库方式： OAI收割

来源：新疆理化技术研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。