中国科学院机构知识库网格系统: 基于语境辅助转换器的图像标题生成算法

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于语境辅助转换器的图像标题生成算法

文献类型：期刊论文


作者	连政; 王瑞; 李海昌; 姚辉; 胡晓惠
刊名	自动化学报
出版日期	2023
卷号	49 期号:9 页码:1889-1903
关键词	图像标题生成注意力机制转换器视觉连贯性
ISSN号	0254-4156
DOI	10.16383/j.aas.c220767
英文摘要	在图像标题生成领域,交叉注意力机制在建模语义查询与图像区域的关系方面,已经取得了重要的进展.然而,其视觉连贯性仍有待探索.为填补这项空白,提出一种新颖的语境辅助的交叉注意力(Context-assisted cross attention,CACA)机制,利用历史语境记忆(Historical context memory, HCM),来充分考虑先前关注过的视觉线索对当前注意力语境生成的潜在影响.同时,提出一种名为“自适应权重约束(Adaptive weight constraint, AWC)”的正则化方法,来限制每个CACA模块分配给历史语境的权重总和.本文将CACA模块与AWC方法同时应用于转换器(Transformer)模型,构建一种语境辅助的转换器(Context-assisted transformer, CAT)模型,用于解决图像标题生成问题.基于MS COCO(Microsoft common objects in context)数据集的实验结果证明,与当前先进的方法相比,该方法均实现了稳定的提升.
源URL	[http://ir.ia.ac.cn/handle/173211/56068]
专题	自动化研究所_学术期刊_自动化学报
推荐引用方式 GB/T 7714	连政,王瑞,李海昌,等. 基于语境辅助转换器的图像标题生成算法[J]. 自动化学报,2023,49(9):1889-1903.
APA	连政,王瑞,李海昌,姚辉,&胡晓惠.(2023).基于语境辅助转换器的图像标题生成算法.自动化学报,49(9),1889-1903.
MLA	连政,et al."基于语境辅助转换器的图像标题生成算法".自动化学报 49.9(2023):1889-1903.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。