热门
基于深度学习的特征表示和图像分类方法研究
文献类型:学位论文
作者 | 刘炳源 |
学位类别 | 工学博士 |
答辩日期 | 2015-05-27 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 卢汉清 |
关键词 | 图像表示 图像分类 特征表示 深度学习 稀疏约束 空间信息 Image Representation Image Classification Feature Learning Deep Learning Sparse Constraints Spatial Information |
其他题名 | Research on Deep Learning based Feature Representation and Image Classification |
学位专业 | 模式识别与智能系统 |
中文摘要 | 图像理解是指让计算机能够像人类一样分析和理解真实世界中的图像,获取图像中包含的语义信息,完成分类、识别、检测和检索等任务。它是计算机视觉、模式识别和机器学习等领域最基本和最有挑战性的问题,吸引了越来越多研究者的兴趣。与此同时,图像理解技术在很多领域表现出了巨大的应用前景,如智慧城市、移动智能终端、图像管理和检索等。 如何构建图像特征表示和分类模型是解决图像理解问题的关键,很多研究者进行了广泛的研究并提出了一些有效的方法。传统的方法大部分是基于视觉码本模型,该模型很好的利用了人工巧妙设计的图像描述和有效的机器学习模型。但它对图像中层结构和高层语义信息的表示力有限,无法突破“语义鸿沟”。近年来,深度学习的突破性发展为解决这一问题提供了新的思路,并在许多模式识别问题中得到成功应用。本文主要探讨深度学习方法在图像特征表示与分类任务中的具体应用与改进技术。具体来说,首先对各种图像特征表示和分类方法进行综述,主要分析了传统的视觉码本模型和新兴的深度学习方法的优缺点,在此基础上借鉴生物视觉认知的一些特性进行了深入的研究和改进,提出了一些有效的图像特征表示和分类方法。本文的主要成果和贡献包含以下几个方面: 1. 提出了一种基于非负稀疏和选择性约束的深度特征学习方法。该方法受一些生物视觉认知的研究成果启发,克服了之前的深度模型缺乏判别力和选择性的问题。所构建的融合非负稀疏和选择性正则的深度反卷积网络可以有效的学习图像的层级结构特征,即从底层边缘到中层几何结构,再到高层语义信息。通过增强特征的非负稀疏性,本方法学习到了更加合理的特征,而通过增强模型选择性,整个网络的判别力得到了提升。大量的实验结果证明了所提出方法的有效性,并在多个常用图像数据库上提高了分类性能。 2. 提出了一种物体检测信息指导的深度反卷积特征学习模型,用以克服之前的深度模型缺乏丰富的高层语义指导和缺乏空间位置信息的问题。该方法首先采用非监督学习的方式对反卷积网络进行预训练,其中引入了非负性约束帮助得到更合理的特征。然后提出了一种物体检测信息指导的有监督算法对预训练后的网络进行精调,提升了所学特征的表示力和判别力。大量的实验验证了本文方法对表征图像层级结构特征的有效性,并在多个常用图像数据库上提升了图像分类的性能。 3. 提出了一种基于深度外观和空间信息编码的图像表示框架。所提出方法利用了传统的图像表示模型和深度学习模型各自的优势,克服了传统方法中存在的外观信息损失、缺乏空间信息和高层语义指导的问题。首先提出了一种耦合深层独立子空间分析和稀疏受限制玻尔兹曼机的模型,对图像块进行特征学习和编码。然后,基于结构稀疏选择提出了一种自适应空间编码方法,用于学习图像中有判别力的空间信息。最后基于上述模型构建了联合优化的深度学习模型,并通过“非监督预训练/有监督精调”的方式进行模型学习。大量的实验证明了所提出方法可以得到更有效的图像特征,进而提高了图像分类的性能。 4. 提出了一种基于深度关键部件学习的场景分类方法。该方法利用... |
英文摘要 | Image understanding aims to make computer understand the natural images like human being, which is important for the tasks of image representation, image classification, image retrieval and other vision tasks. As one of the most fundamental and challenging problems in computer vision, it gains significant research interest. Meanwhile, image understanding has increasing potentials in many industrial applications, such as smart city, mobile smart device, image organization and retrieval. How to build a suitable feature representation and a good classification model is critical for image understanding. Many researchers have focused on the problem and proposed several effective methods, in which the Bag-of-Feature (BoF) model is achieved more attention in the past ten years. The BoF model takes advantages of carefully hand-designed features and powerful machine learning models. However, it is hard to represent complex image information, e.g., mid-level image structures and high-level semantic information. Over the recent years, the rapid development of deep learning presents another promising research direction to breakthrough ‘semantic gap’. How to build deep learning models for image representation and classification becomes an urgent issue and is also the main focus of this dissertation. We will first overview the previous image representation and classification methods, including the traditional BoF-based methods and deep learning models. Based on the analysis of their advantages and disadvantages, we propose several effective image representation and classification methods, which are also motivated by some biological vision cognition evidences. The main contributions of this dissertation are presented as follows: 1. A regularized hierarchical feature learning method with non-negative sparsity and selectivity is proposed. This method is proposed to address the problems of lacking discrimination and selectivity in the previous deep models. A non-negative sparsity and selectivity regularized deep deconvolutional network is developed, and the network can learn image features from low-level edges, to mid-level structures and high-level information. The regularization on non-negative sparsity makes the learned features more explainable, and the regularization of the selectivity enhance the discrimination of the networks. Extensive experimental results demonstrate the effectiveness of the proposed method in feature learning and image classification... |
语种 | 中文 |
其他标识符 | 201218014628047 |
源URL | [http://ir.ia.ac.cn/handle/173211/6705] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 刘炳源. 基于深度学习的特征表示和图像分类方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2015. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。