中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
面向开放互联网的科学数据挖掘与理解

文献类型:期刊论文

作者卢彬1; 甘小莺1; 甘雨1; 唐顾1; 马婷晏1; 吴律文3; 赵泽1; 傅洛伊3; 金梦3; 王新兵1
刊名计算机学报
出版日期2025-12-03
卷号N/A期号:0页码:1-15
关键词科学数据 网页数据挖掘 AI for Science 文本图神经网络 信息检索 自然语言处理
ISSN号0254-4164
产权排序3
英文摘要随着数据观测、采集手段的发展,科学大数据正快速增长,并推动着科研范式变革。然而,科学数据分散在互联网中各类数据仓储与个人数据库中形成了“数据孤岛”,难以有效整合与关联科学数据。为此,本文提出了一种面向开放互联网的科学数据挖掘与理解方法,通过机器阅读各类互联网数据资源,自动识别科学数据并结构化抽取关键字段,实现对科学数据的高效发现与管理。具体来说,本文融合网页多视角信息设计了网页筛选器WebFilter,通过融合网页DOM树的结构共现与语义相关实现对网页级特征理解与分类;此外,本文设计了基于节点异构关联的网页阅读器WebReader,通过异构图网络的消息传递对网页关键信息进行结构化抽取,形成科学数据画像。本文采用了多个公开数据集进行实验性能评估:在网页分类方面,本文提出的WebFilter相较于基线模型准确率提升了1.39%到3.71%、F1分数提升了1.42%到4.10%;在网页信息抽取方面,本文提出的WebReader平均提升1.40%,在少训练样本情况下性能提升显著。更进一步,基于本文技术研究成果研制了面向地球科学领域的开放科学数据系统DataExpo,汇聚百万科学数据并提供了数据多维查询、地图查询等数据服务,已应用于“深时数字地球”国际大科学计划,推动了地球科学领域数据驱动范式研究。
URL标识查看原文
源URL[http://ir.igsnrr.ac.cn/handle/311030/219317]  
专题资源与环境信息系统国家重点实验室_中文论文
通讯作者甘小莺
作者单位1.上海交通大学信息与电子工程学院|集成电路学院;
2.中国科学院地理科学与资源研究所
3.上海交通大学计算机学院;
推荐引用方式
GB/T 7714
卢彬,甘小莺,甘雨,等. 面向开放互联网的科学数据挖掘与理解[J]. 计算机学报,2025,N/A(0):1-15.
APA 卢彬.,甘小莺.,甘雨.,唐顾.,马婷晏.,...&周成虎.(2025).面向开放互联网的科学数据挖掘与理解.计算机学报,N/A(0),1-15.
MLA 卢彬,et al."面向开放互联网的科学数据挖掘与理解".计算机学报 N/A.0(2025):1-15.

入库方式: OAI收割

来源:地理科学与资源研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。