多视角网页分类数据集构建及性能评估
文献类型:期刊论文
作者 | 孙辰星2; 刘伟2; 卢彬2; 梁诗宇2; 诸云强1; 甘小莺2 |
刊名 | 南京大学学报(自然科学)
![]() |
出版日期 | 2024-05-28 |
卷号 | 60期号:03页码:406-415 |
关键词 | 网页数据集 网页分类 文本分类 数据挖掘 深度学习 |
DOI | 10.13232/j.cnki.jnju.2024.03.005 |
产权排序 | 2 |
英文摘要 | 网页分类是互联网数据挖掘中的一项重要任务,在信息搜索、推荐系统和知识发现等领域发挥着关键作用.然而,现有的公开网页数据集缺乏多视角信息,难以适用于蕴含复杂特征的网页分类任务.针对上述问题,基于“收集-处理-标注”构建流程,提出一个涵盖文本语义、网页结构等多视角特征的网页数据集Web-Minds,该数据集包含600余个门户网站下的21828条网页.首先,在开放互联网中通过关键词检索采集得到相关网页数据;其次,使用网页解析工具对收集的数据中的文本、DOM结构树、关键词等多视角信息进行提取与清洗;最后,采用大语言模型与“人在回路”的联合标注策略,形成网页类型与网页主题两种标签.在此基础上,针对Web-Minds数据集,测试评估了机器学习、文本分类和网页分类多种算法,结果表明,综合利用多视角特征能有效提升算法的准确率,和仅应用单视角特征相比,在网页类型和主题分类任务上,准确率分别提升了5.49%和5.61%. |
源URL | [http://ir.igsnrr.ac.cn/handle/311030/205096] ![]() |
专题 | 资源与环境信息系统国家重点实验室_中文论文 |
通讯作者 | 甘小莺 |
作者单位 | 1.中国科学院地理科学与资源研究所 2.上海交通大学电子信息与电气工程学院 |
推荐引用方式 GB/T 7714 | 孙辰星,刘伟,卢彬,等. 多视角网页分类数据集构建及性能评估[J]. 南京大学学报(自然科学),2024,60(03):406-415. |
APA | 孙辰星,刘伟,卢彬,梁诗宇,诸云强,&甘小莺.(2024).多视角网页分类数据集构建及性能评估.南京大学学报(自然科学),60(03),406-415. |
MLA | 孙辰星,et al."多视角网页分类数据集构建及性能评估".南京大学学报(自然科学) 60.03(2024):406-415. |
入库方式: OAI收割
来源:地理科学与资源研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。