中国科学院机构知识库网格系统: 基于深度学习的视频片段拷贝检测技术研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于深度学习的视频片段拷贝检测技术研究

文献类型：学位论文


作者	张驰
答辩日期	2024-05-19
文献子类	硕士
关键词	版权保护视频片段拷贝检测深度学习
英文摘要	当下，视频作为主要的传媒形式之一，能够产生可观的经济效益。显然，高质量的视频资源往往会得到更多的曝光率与点击率，从而令内容创作者获得更高的收益，因此，视频内容的侵权现象在海量的视频资源中层出不穷。现阶段，各类视频编辑技术的发展使视频版权保护与侵权视频内容创作之间的对抗关系持续升温，作为视频版权保护的重要手段之一，视频片段拷贝检测技术的研究受到了广泛的关注。随着人工神经网络及深度学习技术成为模式识别与人工智能领域中各类方法的主要实现形式，深度学习在相当一部分实际问题的应用中表现出了前所未有的优势，视频片段拷贝检测技术也是其中之一。目前，基于深度学习的视频片段拷贝检测技术的算法流程主要包括关键帧特征提取、相似度矩阵计算、相似模式检测等环节。然而，本文通过调研发现，领域内现有工作在各环节中均存在不同程度的疏漏。因此，本文从前人工作的不足之处出发进行研究，基于深度学习技术，提出了一种新颖的视频片段拷贝检测算法。课题主要贡献包括以下三项研究内容： 1）提出了一种基于端到端训练的轻量级视觉特征方法。由于图像检索领域的研究历史较为悠久，图像拷贝检测的各类方法相对视频拷贝检测也更加完善。因为图像拷贝检测的问题场景与视频拷贝检测中对拷贝帧的判别接近，所以现阶段的领域内方法大都直接挪用图像拷贝检测模型进行关键帧的特征提取，从而导致了关键帧特征提取的模型权重与算法下游环节所处的数据域不同的问题。本文采用轻量级的视觉特征提取模型，基于迁移学习的思想，先令模型以自监督对比学习方法进行预训练，而后迁移至片段拷贝检测算法流程中微调，从而实现端到端训练。利用端到端训练的方式，就能够将包括关键帧特征提取模型在内的整个算法流程统一至视频片段拷贝检测问题下，进而能够令算法整体具备更强的检测性能。 2）提出了一种关键帧特征的增强方式，以及一种相似度计算方法。帧对帧相似度矩阵的计算环节是视频片段拷贝检测算法中承上启下的中间环节，在相似度矩阵计算之前，一般还要对关键帧的特征进行增强。调研发现，前人工作中普遍采用基于自注意力神经网络的特征增强方式，并以余弦相似度作为特征相似度计算方法。然而，前者会导致算法对检测的精确率下降的问题，而余弦相似度则难以对视频中前景信息与背景信息的重要程度进行区分。鉴于此，本文提出了动量累加的关键帧特征增强方式，规避了前人方法在关键帧特征增强时所导致的特征信息泄露与混淆的情况，对算法带来总体性能增益的同时，避免了精确率下降的问题。同时，提出了关键帧特征的倒角相似度计算方法，这种新颖的特征向量相似度计算方式能够进一步突出画面中构成拷贝的前景信息带来的相似度，而抑制背景的无效相似度。实验结果及分析证明，所述关键帧特征的增强与相似度计算方法能够验证其设计动机，有效提升算法的性能。 3）提出了一种新的Transformer检测器模型，用以检测拷贝片段的相似模式。现阶段，在视频拷贝检测领域，当前主流方式采用基于卷积神经网络的相似模式检测方法，但卷积神经网络在一般视觉任务上的表现相较Transformer模型存在一定差距。本文针对相似模式检测的问题场景为Transformer模型设计了锚框策略与查询自适应模块，提出了视频拷贝检测Transformer。锚框策略为模型提供了丰富的类内位置先验信息，同时精简了训练流程，进而加速了模型收敛；查询自适应模块则根据输入信息对锚框进行动态微调，同时为解码器提供更高质量的查询向量。一般实验与补充实验的结果均证明了所述模型在拷贝片段相似模式检测问题场景中的优势与可解释性。
语种	中文
页码	84
源URL	[http://ir.ia.ac.cn/handle/173211/56622]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	张驰. 基于深度学习的视频片段拷贝检测技术研究[D]. 2024.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。