中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
中国癌症科研文献的时空挖掘与利用研究——以胃癌为例

文献类型:学位论文

作者王震
答辩日期2021-12
文献子类学术型学位
授予单位中国科学院大学
授予地点中国科学院地理科学与资源研究所
导师庄大方 ; 任红艳
关键词胃癌 科研文献 文本挖掘 时空特征 中国
学位名称博士
学位专业地图学与地理信息系统
英文摘要癌症严重威胁人类公共健康,造成了巨大的疾病负担。胃癌是全球常见的恶性肿瘤,2018年导致死亡人数达78.3万。中国是胃癌发病和死亡率最高的国家之一,新发病和死亡病例均约占世界的50%,是我国人民生命健康的重要威胁。基于监测数据或统计资料开展胃癌流行病学、危险因素及防控策略研究是胃癌防控工作的基础和重要手段。然而,中国非卫生健康研究机构获取流行病数据存在一定的局限,影响了跨交叉学科(如健康、环境等)研究的开展,限制了疾病防控工作得到更多学科理论、方法支撑的可能。 因此,本研究以中国胃癌为例,以科研文献数量、危险因素OR(Odds Ratio)值、危险因素关注度为研究对象,基于命名实体识别、正则表达式、字符匹配等自然语言处理技术,使用中国知识基础设施工程(China National Knowledge Infrastructure, CNKI)和Web of Science中英文献数据库中的胃癌科研文献数据、历史/标准地名数据等,构建了基于文献的“地理–数值–文本–情报”信息挖掘和时空分析的框架,分析了其空间格局、时空变化和地理分区差异性,以期为相关交叉研究在面对数据资料限制时提供一种可供选择的方法或工具,为后续胃癌流行病相关研究提供参考和借鉴。 主要结果和结论如下: (1)建立了覆盖中英文献库中权威、专业科研文献的地理信息准确提取框架,实现了胃癌研究数量–空间热点的系统分析,掌握了胃癌研究的时空变化规律。排除文献系统错误词、添加历史地名后地名提取准确度提升较大,精确率可达95.31%,召回率94.86%。中国胃癌研究数量空间分布不均(东>西>中),东部省、市、县级尺度研究均较多,中部仅县级研究较多,研究热点区主要位于东部沿海。胃癌省级尺度研究热点区主要分布在江苏省、上海市、山东省、河南省、浙江省等省份,市级尺度主要分布在福州市、潍坊市、南京市、大连市、广州市等城市,县级尺度主要分布在林州市、临朐县、长乐区、扬中市、庄河市等县级行政单元。胃癌高发区与胃癌研究热点区空间分布大部分重合但也存在差异,这种差异性可能存在胃癌发病/死亡率和人口、经济发展水平的影响,因此,胃癌研究热点区在一定程度上能够反映胃癌流行热点。我国中部地区胃癌发病/死亡率较高,但研究数量较少,建议提高对我国中部地区胃癌相关研究的关注。 (2)研制了省级行政单元的危险因素合并OR值数据集,实现了胃癌危险因素OR值的空间分析,把握了胃癌危险因素危险程度的空间格局和地理差异性。中国胃癌典型危险因素OR值的空间分布存在地理分区的差异性,吸烟危险因素OR值较高的地区主要分布于西部地区的甘肃省、新疆维吾尔自治区;中部地区的湖南省、吉林省;东部地区的河北省、天津市。饮酒危险因素OR值较高的地区主要分布在广西壮族自治区、云南省;中部地区的吉林省、山西省;东部地区福建省、天津市。其他典型危险因素也存在高OR值省份。东中西部均存在高于全国水平的危险因素。东部地区OR值高于全国水平的危险因素包括:煎炸烧烤(OR=3.00, 95%CI: 2.27~3.98)、幽门螺旋杆菌(OR=3.24, 95%CI: 2.26~4.66)、家族遗传(OR=3.47, 95%CI: 2.58~4.69);中部地区OR值高于全国水平的危险因素包括:吸烟(OR=3.01, 95%CI: 2.23~4.07)、饮酒(OR=2.54, 95%CI: 1.92~3.36);西部地区OR值高于全国水平的危险因素包括:吸烟(OR=3.10, 95%CI: 2.20~4.37)、饮酒(OR=2.96, 95%CI: 1.87~4.67)、高盐饮食(OR=2.81, 95%CI: 2.04~3.87)、幽门螺旋杆菌(OR=2.88, 95%CI: 1.25~6.61)、家族遗传(OR=5.45, 95%CI: 3.41~8.69)。建议东部地区加强煎炸烧烤、幽门螺旋杆菌、家族遗传危险因素;中部地区加强吸烟、饮酒危险因素;西部地区加强吸烟、饮酒、高盐饮食、幽门螺旋杆菌、家族遗传危险因素的防控。 (3)建立了胃癌危险因素文本信息提取框架,构建了胃癌危险因素关注度指数GWMI (Geo-weighted Measure Index),实现了对胃癌危险因素关注度的定量衡量,分析了胃癌危险因素关注度的时空变化特征。基于文献的胃癌危险因素文本信息提取的准确率较高,达到81.5%。中国胃癌危险因素关注度的空间分布存在区域差异性,吸烟危险因素关注度较高的地区主要分布在中部的黑龙江省,东部地区的天津市、江苏省、山东省,西部地区的广西壮族自治区、宁夏回族自治区;饮酒危险因素关注度高值区主要分布在中部的吉林省、黑龙江省,东部沿海的天津市、江苏省、福建省,西部地区的四川省;家族遗传危险因素关注度高值区主要分布在在西部地区青海省、新疆维吾尔自治区、甘肃省、宁夏回族自治区,中部地区的湖北省,东部地区的北京市;高盐饮食危险因素关注度高值区的高值区主要分布在在西部地区云南省、四川省、贵州省,东部地区浙江省、河北省,中部地区安徽省;煎炸烧烤危险因素关注度高值区主要分布在西部的贵州省、重庆市、内蒙古自治区、宁夏回族自治区,以及河北省、河南省、辽宁省等地区。东中西部均存在关注度较低,但危险程度较高的危险因素。包括:东部地区的煎炸烧烤(GWMI=2.95%,OR=3.00)、中部地区的吸烟(GWMI=6.36%,OR=3.01)、西部地区的高盐饮食(GWMI=5.82%,OR=2.81)。建议东部地区加强煎炸烧烤危险因素、中部地区加强吸烟危险因素、西部地区加强高盐饮食危险因素的关注度。
语种中文
页码160
源URL[http://ir.igsnrr.ac.cn/handle/311030/199847]  
专题地理科学与资源研究所_研究生部
推荐引用方式
GB/T 7714
王震. 中国癌症科研文献的时空挖掘与利用研究——以胃癌为例[D]. 中国科学院地理科学与资源研究所. 中国科学院大学. 2021.

入库方式: OAI收割

来源:地理科学与资源研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。