基于局部关系模型的多媒体分类与检索
文献类型:学位论文
作者 | 滕可振 |
学位类别 | 工学硕士 |
答辩日期 | 2014-05-28 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 卢汉清 |
关键词 | 局部关系模型 分类与检索 场景图像 拷贝视频 视频监控 local relation model classification and retrieval scene classification copy videos surveillance videos |
其他题名 | Local Relation Model based Multimedia Classification and Retrieval |
学位专业 | 模式识别与智能系统 |
中文摘要 | 随着互联网的繁荣发展和数字便携设备的日益普及,数字图像和视频的数量呈指数级增长。如何智能、高效的对海量数字媒体内容进行分类和检索,成为学术界和工业界都普遍关心的问题。局部关系模型,作为一种描述数字媒体内容的方法,其优势在于不仅包含数字内容的整体特征,而且描述了局部数字内容之间的关系,以较小的存储代价,换取更高的处理精度。由于数字媒体内容的使用场景多种多样,不同的环境往往对应着不同的局部关系描述方法,因此,如何对局部关系模型进行调整,使其更好的适应不同的应用环境,成为相关研究面临的主要挑战。 本文的工作以不同场景下局部关系模型的表现形式为研究对象,进行了深入的研究探讨,所获得的主要研究成果如下: 1、提出了一种基于对图像的分块局部关系表示的场景图像分类方法。该方法以空间金字塔模型为基础,对图像进行由粗糙到精细的层级划分,然后,通过描述不同图像块之间的局部关系,而不是各图像块内容本身,对图像内容的空间分布进行显式表示。与空间金字塔模型相比,该方法对于图像描述的向量维度仅为前者的5%,然而却得到了更高的分类精度以及更快的分类速度。在scene15和caltech101数据集上进行的实验表明了该方法的有效性。 2、提出了一种基于层次化局部二值模型的拷贝视频快速检索方法。受到局部二值模型的启发,该方法没有直接描述视频帧内容本身,而是先将视频帧图像层级分块,然后描述各层级内图像块之间的二值关系。这种表示方法不仅极大的简化了表示视频帧图像所需的向量维度,同时对光照、噪声等有很好的鲁棒性,结合高效的索引结构和检索算法,实现了海量拷贝视频的快速检索。在trecvid数据集上进行的实验表明了该方法的有效性。 3、提出了一种基于掩膜辅助的多模态深度编码的目标检索方法。该方法通过引入辅助目标定位的掩码图像,有效避免了背景噪声对目标描述的影响。采用深度自动编码机,将目标图像非线性的映射为128比特的二值向量,极大减小了对目标的存储、检索的空间、时间复杂度。同时,通过合理的构造训练数据集,使该方法对监控视频中常见的遮挡问题有了更好的鲁棒性。实验表明了该方法在检索精度上优于常用的哈希方法。 |
英文摘要 | With the prosperity of Internet and boost of portable digital equipment,number of digital images and videos is growing exponentially. How to classify and retrieve billions of digital media content intelligently and efficiently arouses great interest of academia and industry. Local relation model (LRM), as a method to describing digital media content, can not only represent the overall features but also describe relations of local content. Thus it usually reaches satisfactory performance with short representations. Since the application of digital media content varies, different environment tends to require different local relations. How to adjust the LRM to fit different application is the key challenge for relevant researches. This paper focuses on local relation model in various applications. The main contribution of this paper can be concluded as follows: 1. An image block relation based method was proposed for scene image classification. Based on the spatial pyramid matching (SPM) model, this method segment image hierarchically from coarse to fine, then it explicitly describes distribution of image content by describing relations of different blocks, not the content of each block independently. The dimension of representation vector of proposed method is only 5% of the SPM model, but its classification precision and speed beat. Experiments on scene 15 and Caltech 101 demonstrate effectiveness of this method. 2. A hierarchical local binary model based quick copy video retrieval method is proposed. Inspired by the local binary pattern (LBP) model, rather than represent video content directly, this method hierarchically divide video frame into fine blocks and describing relation of blocks in each hierarchy. This method not only simplifies representation of video frame but also introduces robust to light changing and noise. Combined with efficient indexation and retrieval algorithm, this method retrieves copy video fast and accurate. Experiment on trecvid demonstrate effectiveness of this method. 3. A mask assistant encoding method with deep neural network is proposed for content based object retrieval. By introducing location assistant mask map, this method avoids background noise for encoding certain object. With deep auto encoder, this method greatly reduce space and time consuming for storage and retrieval respectively by high non-linearly mapping image into 128 dimension binary code. At the same time, this method includes more robustness for parti... |
语种 | 中文 |
其他标识符 | 201128014628055 |
源URL | [http://ir.ia.ac.cn/handle/173211/7723] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 滕可振. 基于局部关系模型的多媒体分类与检索[D]. 中国科学院自动化研究所. 中国科学院大学. 2014. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。