时序大数据对象化分析方法研究
文献类型:学位论文
| 作者 | 罗远波 |
| 答辩日期 | 2024-12 |
| 文献子类 | 学术型学位 |
| 授予单位 | 中国科学院大学 |
| 授予地点 | 中国科学院地理科学与资源研究所 |
| 导师 | 周成虎 |
| 关键词 | 时间序列对象化 模糊信息粒化 模糊C-均值聚类 变换器 长时间序列预测 |
| 学位名称 | 博士 |
| 学位专业 | 地图学与地理信息系统 |
| 英文摘要 | 时间是人类认识世界和理解世界的一个基本维度,时间序列分析是一个经典的基本科学问题。在大数据时代,数据的规模和复杂性都在急剧增加,从而给传统的时间序列分析和建模方法带来了巨大的挑战。与此同时,又进一步促进时序数据挖掘技术的不断普及和发展。 传统的时间序列分析模型通常侧重于数值层面的精确性,追求预测的高度准确。然而,在某些场景下,尤其是在大数据环境下涉及人类认知、推理和决策的过程中,模型的高度精确性并非总是必需的。人类在处理复杂信息时,常常采用抽象化的方法,通过特定的概念框架,根据特征和功能的相似性或相近性,将其划分为若干简单而具有一般概念的信息块。这种信息粒化的过程,使人类能够更有效地处理和理解复杂的信息。类似的思想也适用于复杂时间序列的分析与处理。 随着深度学习技术在自然语言处理、语音识别和计算机视觉领域取得突破性进展,深度神经网络也被广泛应用于时间序列分析领域。与自然语言处理中的每个词具有显著独立语义信息不同,数值型时间序列数据缺乏类似的严格语义,顺序在其中扮演了关键角色。因此,将深度神经网络应用于数值型时间序列数据分析时,需要对数据中的长期依赖和复杂模式进行有效捕捉。此外,时间序列数据通常存在高噪声、非线性和非平稳性等特征,这对模型的鲁棒性和泛化能力构成了更高的挑战。 本文基于人类在复杂信息处理中对信息粒化的认知机制,从离散时间序列的角度创新性地提出了一种时间序列特征表示方法。这一方法通过信息粒化的方式实现了对时间序列的子过程表达,并将其应用于时间序列的聚类和预测等下游任务中。论文开展的研究主要包括: (1)基于趋势的时间序列子过程表示。考虑定性趋势分析与人类感知和判断过程的相似性,提出了一种基于偏微分方程和趋势差异检验的时间序列分段趋势特征提取方法。该方法首先通过求解正则化后的Perona-Malik方程对时间序列进行平滑处理,然后根据平滑后的序列中相邻三点的大小关系筛选趋势转折点。随后,采用滑动窗口技术和邹检验来确定趋势段间差异的显著性,从而得到备选分段点。最后,根据预设的分段数量来决定是否需要进行局部趋势点插值,以得到原始时间序列的全局分段点。基于这些分段点,原始数值时间序列转化为较短的子过程序列,其中子过程序列由一组不等长的线性模糊信息粒(LFIG)组成。实验表明,本文提出的方法能有效捕捉基本趋势信息,同时保持了对噪声的鲁棒性,并实现了高效的数据表示。在压缩率相当的条件下能够实现更高的拟合精度,可为后续数据挖掘提供更好的特征。 (2)基于信息粒化的时间序列模糊聚类。通过将原始时间序列转化为由不等长的线性模糊信息粒(LFIG)组成的子过程序列,实现时间序列模糊聚类。首先,采用Hausdorff距离来度量模糊数空间的距离,其中两个等长的LFIG之间的L1型Hausdorff距离被视为两条中心线间的面积加上偏离程度 的复合面积测量。然后,根据时间序列数据的动态特征,将动态时间规整(Dynamic Time Wrapping,DTW)距离推广至不等长子过程序列,提出了基于趋势的信息粒相似性度量。具体的,采用Sakoe-Chiba条形带约束控制在距离矩阵中搜索的单元数,使得相似性度量具有良好的几何意义。进一步,借鉴模糊C-均值聚类的方法,实现对粒化时间序列的聚类。在UCR数据集上进行实验,使用兰德指数和归一化互信息作为评估指标,验证了基于粒化时间序列模糊聚类方法的有效性。 (3)基于模糊粒化和Transformer的时间序列预测模型。考虑到Transformer架构直接应用到时间序列长期预测领域存在的计算复杂度高,难以发现长时间序列可靠的时序依赖问题,提出了一种新的时间序列长期预测模型(Fuzzy Information Granulation Transformer, FIGformer)。通过将时间序列分割成子序列,并使用线性模糊信息粒化技术将这些子序列对象化。然后,将粒化后的数据进行编码处理作为变换器模型的输入,使得模型能够效捕捉和表达不同时间层次的语义,同时还能考虑到数据的动态模式和变化。在公开时间序列数据集上的实验表明,所提出的模型性能良好。 |
| 学科主题 | 地图学与地理信息系统 |
| 语种 | 中文 |
| 页码 | 129 |
| 源URL | [http://ir.igsnrr.ac.cn/handle/311030/217323] ![]() |
| 专题 | 地理科学与资源研究所_研究生部 |
| 推荐引用方式 GB/T 7714 | 罗远波. 时序大数据对象化分析方法研究[D]. 中国科学院地理科学与资源研究所. 中国科学院大学. 2024. |
入库方式: OAI收割
来源:地理科学与资源研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
