中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于全局交互的图像语义理解方法研究

文献类型:学位论文

作者熊艳彬1,2
答辩日期2020-05-26
授予单位中国科学院沈阳自动化研究所
授予地点沈阳
导师库涛
关键词卷积神经网络 循环神经网络 图像语义理解 全局交互机制 注意力机制
学位名称硕士
学位专业模式识别与智能系统
其他题名Research on Image Semantic Understanding Method Based on Global Interaction
英文摘要图像语义理解以图像识别为基础,融合了计算机科学、心理学以及语言学等多学科的交叉性学科研究,对图像与文本之间的跨模态交互研究也做出了重要贡献。图像语义理解技术想要对目标图像整体进行理性或感性理解,并生成符合人类习惯的自然语言描述,不仅需要对目标图像所包含的场景、对象及属性进行提取和识别,还要分析各对象及属性之间的相互关系,包括每个对象的动作、形态以及人物心理和情感,并根据这些信息生成图像的文本描述,因此这是一项非常复杂且具有挑战的任务。传统的图像语义理解方法主要是基于模板的方法和转移生成的方法,这些方法的局限性在于整体模型过于依赖于某种语法模板或参考图像文本数据库,忽略了语言模型对图像进行灵活解析并生成全新文本的过程,因此,模型的输出结果不尽人意。近年来,随着基于编码器-解码器的神经网络模型在图像语义理解领域的应用,这一任务取得了突飞猛进的进步和成果。本文主要围绕基于编码器-解码器的神经网络模型在图像语义理解任务上如何进行有效的改进和提高展开研究,重点关注深度卷积神经网络在图像语义理解中对图像特征提取的能力、双向门控循环单元模型用于图像的语义解析、在双向门控循环单元的基础上引入全局图像的交互机制对图像语义理解模型的改善、将图像和文本数据进行正则化处理并采用word2vec文本映射方式来表示文本信息解决数据稀疏和偏态问题、以及注意力机制在双向门控循环单元中的应用这个五个方面,主要工作如下:(1)图像语义理解技术首先需要获取目标图像的特征信息,如果提取的目标图像的特征缺乏代表性或者准确性较低,那么语义解析过程中就很难区分目标图像中各对象属性以及各对象的相互关系,从而无法生成目标图像的准确描述。本文针对此问题,结合当前基于深度卷积神经网络的图像分类、目标检测等算法的快速发展,在比较了不同卷积神经网络在图像特征提取和分类的基础上,采用基于迁移学习的深度卷积神经网络进行图像特征提取。(2)图像特征提取之后,重点关注图像数据和文本数据的交互以及自然语言模型的构建,为解决基线模型在生成目标图像语义描述时逻辑性较差,本文提出了一种全局交互的图像语义理解模型,用于图像语义生成,即在生成文本的过程中采用双向循环神经网络模型进行语义解析,从而实现模型在语义解析过程中实时关注前后语境信息,保证语义连贯性;并且在语义解析过程中,实时关注图像的全局信息来指导语义生成;将提取的图像特征数据和文本数据进行正则化处理、并采用word2vec文本映射方式来表示文本信息,从而降低数据噪声影响,解决高维数据稀疏和数据偏态问题。(3)在识别较为复杂的目标图像以及要描述图像的细节任务时,需要准确并且重点关注目标图像的突出特征信息和细节属性,避免语义解析模型“盲目”地关注目标图像的全部特征,导致语义解析模型在预测下一个单词时与图像内容不对应的现象。本文针对此问题进一步改进基于全局交互的图像语义理解模型,引入注意力机制,提出了一种基于注意力机制的全局交互的图像语义理解模型,即在生成图像文本的过程中重点关注目标图像的重要信息和属性,从而使图像语义理解更加具体和准确。
语种中文
产权排序1
页码66页
源URL[http://ir.sia.cn/handle/173321/27120]  
专题沈阳自动化研究所_数字工厂研究室
作者单位1.中国科学院大学
2.中国科学院沈阳自动化研究所;
推荐引用方式
GB/T 7714
熊艳彬. 基于全局交互的图像语义理解方法研究[D]. 沈阳. 中国科学院沈阳自动化研究所. 2020.

入库方式: OAI收割

来源:沈阳自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。