基于深度学习的视频片段拷贝检测技术研究
文献类型:学位论文
作者 | 张驰![]() |
答辩日期 | 2024-05-19 |
文献子类 | 硕士 |
关键词 | 版权保护 视频片段拷贝检测 深度学习 |
英文摘要 | 当下,视频作为主要的传媒形式之一,能够产生可观的经济效益。显然,高质量的视频资源往往会得到更多的曝光率与点击率,从而令内容创作者获得更高的收益,因此,视频内容的侵权现象在海量的视频资源中层出不穷。现阶段,各类视频编辑技术的发展使视频版权保护与侵权视频内容创作之间的对抗关系持续升温,作为视频版权保护的重要手段之一,视频片段拷贝检测技术的研究受到了广泛的关注。随着人工神经网络及深度学习技术成为模式识别与人工智能领域中各类方法的主要实现形式,深度学习在相当一部分实际问题的应用中表现出了前所未有的优势,视频片段拷贝检测技术也是其中之一。目前,基于深度学习的视频片段拷贝检测技术的算法流程主要包括关键帧特征提取、相似度矩阵计算、相似模式检测等环节。然而,本文通过调研发现,领域内现有工作在各环节中均存在不同程度的疏漏。因此,本文从前人工作的不足之处出发进行研究,基于深度学习技术,提出了一种新颖的视频片段拷贝检测算法。课题主要贡献包括以下三项研究内容: 1)提出了一种基于端到端训练的轻量级视觉特征方法。由于图像检索领域的研究历史较为悠久,图像拷贝检测的各类方法相对视频拷贝检测也更加完善。因为图像拷贝检测的问题场景与视频拷贝检测中对拷贝帧的判别接近,所以现阶段的领域内方法大都直接挪用图像拷贝检测模型进行关键帧的特征提取,从而导致了关键帧特征提取的模型权重与算法下游环节所处的数据域不同的问题。本文采用轻量级的视觉特征提取模型,基于迁移学习的思想,先令模型以自监督对比学习方法进行预训练,而后迁移至片段拷贝检测算法流程中微调,从而实现端到端训练。利用端到端训练的方式,就能够将包括关键帧特征提取模型在内的整个算法流程统一至视频片段拷贝检测问题下,进而能够令算法整体具备更强的检测性能。
3)提出了一种新的Transformer检测器模型,用以检测拷贝片段的相似模式。现阶段,在视频拷贝检测领域,当前主流方式采用基于卷积神经网络的相似模式检测方法,但卷积神经网络在一般视觉任务上的表现相较Transformer模型存在一定差距。本文针对相似模式检测的问题场景为Transformer模型设计了锚框策略与查询自适应模块,提出了视频拷贝检测Transformer。锚框策略为模型提供了丰富的类内位置先验信息,同时精简了训练流程,进而加速了模型收敛;查询自适应模块则根据输入信息对锚框进行动态微调,同时为解码器提供更高质量的查询向量。一般实验与补充实验的结果均证明了所述模型在拷贝片段相似模式检测问题场景中的优势与可解释性。 |
语种 | 中文 |
页码 | 84 |
源URL | [http://ir.ia.ac.cn/handle/173211/56622] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 张驰. 基于深度学习的视频片段拷贝检测技术研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。