中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
多领域异构数据的融合与应用关键技术研究

文献类型:学位论文

作者丁景全
答辩日期2020-08-02
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师李晓、周喜
关键词异构数据 数据融合 知识表示 真值发现 异常检测
学位名称博士
学位专业计算机应用技术
英文摘要

大数据时代,数据的分析和处理等各种应用推陈出新,不断地改善着人类的生活和生产方式,推动着科技创新、促进着生产力提升。同时,大数据具备着多源异构、数据类型繁多、随时间变化、数据质量不一、体量庞大、结构复杂等特性,导致数据缺乏统一的表示、各种数据冲突频繁出现。如何准确并高效地利用这些海量多领域多源异构数据,从中挖掘出丰富的知识资源,并开展深度分析和处理等应用,是当前大数据背景下面临的主要问题。数据融合是集成多源数据、消除结构差异、提升数据质量与完整性、挖掘数据关联、提高数据可分析性的有效解决方案。多领域异构数据融合将数据进行统一表示,通过融合过程的追溯、检索和推理,可以推理产生新的知识,是人工智能特别是自然语言处理领域的重要研究内容,是构建知识库、知识库自主学习和扩充的重要手段,具有广泛的应用需求。多领域异构数据融合主要涉及三个方面的关键技术:1)异构数据的统一表示与融合过程追溯;2)数据冲突解决及真值发现;3)融合数据的分析和处理。本文针对知识表示、获取、评估、扩充、推理的知识融合基本过程的关键技术进行介绍,并对多领域异构数据融合和应用的理论和方法进行了全面深入的文献综述。在此基础上,围绕核心科学问题并结合实际应用场景,在异构数据融合框架、真值发现、深度异常检测等三个方面开展研究。首先,针对复杂环境下多领域的异构数据,本文提出了一种基于层次概念模型的异构数据融合框架。框架以层次概念多领域异构数据统一表示模型为基础,建立了一种五元组数据表示方式,并贯穿整个数据融合过程;以图结构开展数据存储,对数据模型和数据间的关联关系进行管理;采用数据追溯、时空追溯、演化追溯相结合的方式,基于层次概念的知识表示过程,对知识融合演化过程进行记录与追溯,提升知识容错性;通过分布式词向量技术,采用本地相似度、上下文相似度、全局相似度多相似度联合学习的方法,对待融合的候选知识进行排序和选择,完成知识链接过程;融合后的知识,通过表示学习技术,实现在低维空间计算节点和关系的语义关联,实现知识推理,产生新的知识;通过实验,验证了多领域异构数据统一表示模型,验证了多策略融合的概念匹配与关系发现。其次,针对多源数据融合过程中活动实体真值演化识别困难、难以追踪问题,本文提出一种时序多值描述场景下的真值发现算法,并研究活动实体真值演化轨迹挖掘方法。重点研究时序多值描述预处理方法、前序状态支持度动态计算、数据源与数据项描述可信度动态评估方法、演化路径节点识别和演化真值前向反馈等内容,解决活动实体数据融合场景下冲突数据的真值识别和演化轨迹问题。研究使用大规模车辆加油/气时空数据集,验证了时序多值描述场景下的真值发现算法和活动实体真值演化轨迹挖掘方法的有效性,并实证了本方法对于真值发现的准确率提升。最后,针对多领域异构数据融合后的应用研究,本文提出了一种多视图深度异常检测框架。框架结合了空间视图、时间视图和语义视图,解决了传统方法中单一时序数据的局限性,能够完成多数据类型的异常检测任务。研究使用大规模车辆油/气数据和信用卡欺诈数据作为验证数据集,实验结果表明本方法在特定领域时空数据异常检测和通用异常检测处理场景下都具有稳定的性能优势。本文从理论探索入手,面向实际应用问题,对多领域异构数据融合展开研究,针对层次概念模型、真值演化、多视图异常检测等关键技术问题提出了创新方法。在实际应用中,以真实数据集为验证基准,评估了本文所提出的研究方法和系统框架的准确性、有效性和实用性。

源URL[http://ir.xjipc.cas.cn/handle/365002/7708]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
丁景全. 多领域异构数据的融合与应用关键技术研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2020.

入库方式: OAI收割

来源:新疆理化技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。