基于三维模型的地标建筑分类和识别关键技术研究
文献类型:学位论文
作者 | 肖宪 |
学位类别 | 工学博士 |
答辩日期 | 2012-05-29 |
授予单位 | 中国科学院研究生院 |
授予地点 | 中国科学院自动化研究所 |
导师 | 徐常胜 |
关键词 | 三维重建 地标建筑分类 识别 检索 手机应用 3D reconstruction Landmark classification Recognition Retrieval Application on mobile |
其他题名 | 3D Model Based Landmark Classification and Recognition |
学位专业 | 模式识别与智能系统 |
中文摘要 | 摘要 随着社会化媒体分享网站(如Flickr,Facebook 和 YouTube)的发展,人们将越来越多的观光图像和视频分享到互联网上,并被很多的人浏览和使用。在这些观光图像中,地标建筑图像经常能够吸引人们的眼球。由于网络上的绝大多数地标建筑图像是没有被标注过的,因此互联网用户在搜索这些图像的时候,就要付出很多的时间和精力。对这些未标注的地标建筑图像进行分类和识别,能够有效地解决以上我们提到的问题。 近年来,随着地标建筑信息的分析与人们的生活日益相关,地标建筑相关研究逐渐成为一个热点研究问题。目前,有些传统的图像分类和识别方法被用在地标建筑图像上,然而,在实际应用中,传统的图像分类和识别方法以及分类识别结果表现方法由于地标建筑本身的唯一性和多样性(图像被拍摄时的光照,角度,镜头拉伸以及遮挡情况的不同,使同一个地标建筑在不同的图像中的形态可能会大不一样),使得传统的图像分类和识别方法很难获得正确的分类和识别结果。此外,在地标分类和识别结果的展示上,传统的方法仅能展示二维图像或者文本,很难给用户展示生动的地标建筑的形象。 为了解决以上的问题,本文提出了一种利用三维模型进行地标建筑分类和识别的方法,并最终利用三维纹理模型对识别的结果做了展示。主要的研究工作如下: 1) 我们提出一种降低三维重建过程计算复杂度的方法。当前的很多方法都是构建整个场景的三维模型。然而,大多数情况下,人们往往仅关心那些引起他们注意的区域。在用这些方法构建三维模型的过程中,大量的时间被浪费在重建那些人们不感兴趣的区域上。我们通过获得每张图像的视觉关注区域,然后仅利用视觉关注区域之中的特征信息来重建三维模型,从而节约了三维重建中的计算量。我们提出的利用视觉关注度来降低三维重建计算量的方法在视频和图像的三维重建中都能适用。 2) 我们提出了一种通过二维图像创建三维模型以及三维模型到二维图像投影的方法来提高地标建筑图像的分类结果的方法。我们首先从标注好的图像集合中,选出代表性图像来进行地标建筑的三维重建。然后,重建好的三维点云模型被投影到代表性图像中,并获得这些代表性图像中的地标建筑区域。我们利用这些地标建筑区域中的尺度不变特征(SIFT)来为每一个地标建筑创建一个K维搜索树。通过比较未标注的图像与每个K维搜索树之间的匹配数量,我们将未标注的图像分类为拥有最多匹配数的地标建筑中。最后,对于上述的分类方法,我们又提出一种改进方法,通过将每个地标建筑中的热门区域(经常被人们拍摄的局部区域)图像添加到训练数据中,进一步提高了地标建筑图像分类的准确率。 3) 我们提出一种直接利用二维图像和三维模型进行匹配的地标建筑识别的方法,并将三维模型作为识别的结果进行展示。此方法分为离线和在线两个模块。离线模块中,我们为每一个地标建筑创建一个三维模型和一个三维识别器。在在线模块中,我们为每一张被识别出来的图像,提供一个三维纹理模型和对应于这张图像中的地标区域的三维模型。我们的方法提高了地标建筑图像识别的效果,并且为用户展示了一个更加生动的三维模型。 4) 我... |
英文摘要 | Abstract More and more enormous sightseeing pictures are uploaded and spread with the proliferation of photo-sharing websites such as Facebook and Flickr. Among these sightseeing pictures, landmark pictures are one of the most attractive ones for users. Since many images are uploaded without any tags, web users need to spend a lot of time to find landmark images of their interests. Properly classifying and labeling landmark images helps users easily search for their interested landmarks. Recently, since landmark pictures are much relevant to people’s life, landmark analysis has become a popular research area. Several traditional image classification methods are utilized to analyze landmark images. However, directly using traditional image classification or recognition methods to analyze landmark images cannot obtain satisfactory results because the uniqueness and multiformity of landmarks (a landmark could be presented in different styles due to various circumstances of illumination, viewpoint, zoom in/out and occlusionwhen photographing). The traditional methods only support 2D images or text to users as search results and this information can’t give users vivid and attractive experience of landmark searching. In this thesis, aiming at the above problems, we have proposed novel 3D model based landmark classification and recognition methods and shown promising landmark recognition results by 3D texture model. Our mainly work is as follows: 1) We propose a novel approach for decreasing the computational cost in 3D model construction by visual attention analysis. Existing methods only provide 3D structure of a whole scene whereas people only pay attention to the regions which attract their interest in most of the situations. Much computation power cost is needed on reconstructing the regions of un-interest. We obtain the visual attention region of each image and only construct the 3D model by features extracted from these regions to reduce computational cost in 3D reconstruction. To the best of our knowledge, we are the first to use the visual attention analysis to decrease the computational power in 3D reconstruction. 2) We propose a novel approach to improve landmark image classification result via the process of 2D to 3D reconstruction and 3D to 2D projection of landmark images. Particularly, we first select iconic images from labeled landmark image collections to reconstruct a 3D landmark represented in point clouds. Then, 3D point clouds are projec... |
语种 | 中文 |
其他标识符 | 200918014628058 |
源URL | [http://ir.ia.ac.cn/handle/173211/6436] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 肖宪. 基于三维模型的地标建筑分类和识别关键技术研究[D]. 中国科学院自动化研究所. 中国科学院研究生院. 2012. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。