网络图像检索系统中的图像语义理解技术研究
文献类型:学位论文
作者 | 俞雷 |
学位类别 | 工学博士 |
答辩日期 | 2015-05-29 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 徐常胜 |
关键词 | 图像标注 图像语义解析 标签定位 标签传播 表观模型 词库构建 空间上下文 特征提取 image annotation image parsing label localization label propagation appearance model lexicon construction spatial context feature extraction |
其他题名 | Study on Semantic Image Understanding in Web Image Retrieval System |
学位专业 | 计算机应用技术 |
中文摘要 | 随着Web 2.0和社会媒体的发展,各种社交应用和平台极大地便利了人们 之间的信息交流,用户可以随时随地上传图像并与他人分享。丰富多彩的互联 网资源吸引了大量用户,但与此同时,互联网上的图像数据也呈现出爆炸式的 增长。如何有效地索引和检索这些图像数据成为一个亟需解决的问题。 基于内容的图像检索(CBIR)利用图像的视觉特征进行图像的相似性匹 配,从而提供一种能够响应客观图像内容的检索方式。然而,一方面受制于 “语义鸿沟”的瓶颈,低层的视觉特征不能完全反映和匹配用户的检索意图。 另一方面,在图像检索时,用户一般关注的是图像内容所表达的语义信息。因 此,建立图像内容与语义之间的关联,即图像语义理解,成为图像检索领域一 个重点研究方向。现有的图像语义理解技术可以分为图像层面语义理解和区域 层面语义理解,即图像标注(image annotation)和图像解析(image parsing)。 图像标注利用已标注图像集合(带有图像级别的人工标注)训练模型,目标是 标注图像。图像解析利用精细标注图像集合(带有像素级别的人工标注)训练 模型,目标是标注区域或者像素。鉴于图像内容以及语义的多样性,人工标注 不仅耗时费力,而且在功能上越来越不能满足需求。随着社会媒体的兴起,大 量带有社会标签的图像涌现在互联网中。通过弱监督学习可以利用这些网络图 像辅助图像语义理解,从而减轻对于人工标注的依赖,并提高算法的性能和可 扩展性。 本文针对图像语义理解这个核心问题,在图像和区域两个层面的语义理解 方面进行了广泛而深入的探讨。在图像标注层面,主要对语义特征表示、图像 视觉特征表示等方面进行了研究。在图像解析层面,主要探索了表观模型、空 间上下文关联、弱监督学习等方面的关键技术。本文工作的主要内容和贡献总 结如下: 1. 讨论了标注词之间的关联对于图像标注算法的性能影响。在现有的图像 标注算法中,一般直接使用训练集给定的标注词来作为训练。但是由于 单个的标注词有时存在歧义性,所以不一定能够合适地表达图像语义。 因此,我们提出了一种通过组合单词来构建词组标注词库的方法。实验 证明由我们的方法构建的词组拥有语义和视觉一致性,从而有效地提升 标注算法的性能。 2. 提出了一种考虑空间依赖关系的特征提取方法。在传统的视觉词袋 (Bag-of-Visual-Words)方法中,单个视觉单词(visual word)往往不具 有足够的判别力,而且视觉词之间的依赖关系也被忽略了。为了克服以 上两点不足,我们提出了一种判别特征组的特征提取方法。通过挖掘局 域邻域内的视觉单词组合,判别特征组能够有效地表现出每一类图像中 特定的依赖结构,提高了特征的判别力。判别特征组可以很好地与现有 的视觉词袋方法融合,并应用于图像分类任务。 3. 作为弱监督环境下的区域标注的问题之一,标签定位的任务是将图像标 注定位到相应的图像区域。针对标签定位,我们提出了一种判别式图推 理框架。图推理通过区域之间的相似性构建图结构,由标签传播的方式 协同地推理区域类标。然而,当某些类标共生性很强时,图推理容易陷 入误区。为了克服图推理的这个不足... |
英文摘要 | With the popularity of Web 2.0 and social media, various kinds of social applications and platforms facilitate the communication between people. Users can upload and share the image with others anywhere and anytime. The colorful Internet has attracted more and more people. Meanwhile, it faces the explosive growth of image resources. How to efficiently and effectively index and retrieve these images becomes a challenging problem. The content based image retrieval (CBIR) has exploited to match images based on visual features. However, it is widely noted that there is a “semantic gap” between the low level visual features and the semantic meanings of the image. Beside, during the image retrieval procedure, users focus on the semantic meanings expressed by the image content and they are accustomed to the search mode by textual keywords. So the semantic image understanding, which aims to build the connection between visual features and semantic concepts, turns into a promising way towards image retrieval. The techniques of semantic image understanding can been divided into two levels. Image annotation is to annotate image on image level by the training dataset with image level annotations. Image parsing is to annotate image on region level. Taking advantage of the training dataset with pixel level annotations, image parsing can learn better appearance models and contextual correlations. However, the manual annotations are not only labor-intensive and time-consuming to be obtained, but also stretched in the scale of dataset. Fortunately, the social media has brought in plenty of images with user tags. The weakly supervised learning technique is designed to utilize such kind of web images, alleviating the dependence of manual annotation as well as promoting the performance of semantic image understanding. We study semantic image understanding from two levels. In image annotation, semantic representation and feature representation are discussed. In image parsing, appearance model, spatial context and weakly supervised learning technique are explored. The main contributions are summarized as follows: 1. We explore how the semantic correlation between annotation words can facilitate image annotation. In conventional image annotation techniques, most methods treat the annotation words independently and the correlations between words are neglected. As single word sometimes is ambiguous, it could not describe the image content properly. We propose to generate a ... |
语种 | 中文 |
其他标识符 | 200918014629097 |
源URL | [http://ir.ia.ac.cn/handle/173211/6732] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 俞雷. 网络图像检索系统中的图像语义理解技术研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2015. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。