中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
复杂场景视频表示方法及其应用研究

文献类型:学位论文

作者于廷照
答辩日期2019-05
文献子类博士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师潘春洪
关键词视频表示 时空卷积 注意力机制 低秩分解 无监督学习
学位专业模式识别与智能系统
英文摘要

视频数据广泛存在于智能家居、辅助驾驶、城市监控、军事制导等社会和军事各个层面,并具有巨大的应用潜力和市场价值。然而复杂场景视频中存在大量冗余信息和无关特征,给精准视频理解带来巨大挑战。如何提取复杂场景视频的鲁棒表示是计算机视觉的研究热点。

视频表示旨在挖掘其内容的潜在价值信息,但现有方法仍然面临诸多问题:首先,视频拍摄背景通常杂乱且遮挡现象突出,如何提高模型鲁棒性是视频表示的首要难题;其次,视频主体姿态各异且时空冗余明显,如何实现视频精准表示是又一研究难点;最后,视频数据分布不均且标注困难,如何构建有效的无监督视频表示模型也是重要挑战。本文围绕以上问题展开研究,主要贡献如下:

1. 提出一种基于张量伪低秩约束的视频表示算法。该方法核心思想是采用张量低秩约束提高表示模型鲁棒性。具体地,论文基于张量核范数约束构建了一种视频低秩表示模型,将视频数据解耦为低秩静态背景、稀疏动态前景及帧噪声。进一步以该模型输出为指导,构造了一种伪张量低秩网络,实现了端到端的学习模型参数。最后,提出一种纯数据驱动的网络初始化策略,无需进行反向传播,加快了模型收敛速度。该算法应用于超低分辨率视频动作识别,对比实验结果表明所提算法对噪声更加鲁棒且收敛速度更快。

2. 提出一种基于时空注意力机制的视频表示算法。该方法核心思想是利用注意力机制实现视频精准表示。具体地,论文基于张量低秩分解并通过通道分离变换建立了级联时空网络,实现了时域重要性选择和降低网络规模。进一步以网络中间层特征图为语义指导,构建了语义指导模块,提出了语义指导网络,实现了空域重要性选择和信息过滤。最后,以时空卷积为基础,提出视频片段级时空注意力网络,通过二阶段优化算法实现了时域、空域重要性联合获取。该算法应用于普通场景和跨领域场景视频动作识别,与三十余种主流算法对比结果表明所提算法可以有效提高视频精准表示能力。

3. 提出基于自步学习和生成式网络的无监督视频表示算法。该方法核心思想是根据样本分布构建无监督视频表示。具体地,论文提出一种截断自步约束子,实现了样本可学习程度的自适应精确刻画。在此基础上,以自步学习机制为框架,构建了无监督自步特征嵌入模型,实现了模型由简单到复杂的动态提升。最后,从保持通道一致性角度出发,构造了跨通道颜色梯度损失,并以对抗网络学习策略为指导,建立了逆向伪双流生成网络,实现了概率化视频表示。论文理论上证明了所提自步约束子的合理性及自步特征嵌入模型的收敛性。算法应用于视频描述和视频预测,与二十余种主流算法对比结果表明所提算法在多种评价指标上优于主流无监督方法。

语种中文
页码146
源URL[http://ir.ia.ac.cn/handle/173211/23779]  
专题自动化研究所_模式识别国家重点实验室_遥感图像处理团队
推荐引用方式
GB/T 7714
于廷照. 复杂场景视频表示方法及其应用研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2019.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。