中国科学院机构知识库网格系统: 视觉Transformer研究的关键问题:现状及展望

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

视觉Transformer研究的关键问题:现状及展望

文献类型：期刊论文


作者	田永林; 王雨桐; 王建功; 王晓; 王飞跃
刊名	自动化学报
出版日期	2022
卷号	48 期号:4 页码:957-979
关键词	视觉Transformer 图像分类目标检测图像分割计算机视觉
ISSN号	0254-4156
DOI	10.16383/j.aas.c220027
英文摘要	Transformer所具备的长距离建模能力和并行计算能力使其在自然语言处理领域取得了巨大成功并逐步拓展至计算机视觉等领域.本文以分类任务为切入,介绍了典型视觉Transformer的基本原理和结构,并分析了Transformer与卷积神经网络在连接范围、权重动态性和位置表示能力三方面的区别与联系;同时围绕计算代价、性能提升、训练优化以及结构设计四个方面总结了视觉Transformer研究中的关键问题以及研究进展;并提出了视觉Transformer的一般性框架;然后针对检测和分割两个领域,介绍了视觉Transformer在特征学习、结果产生和真值分配等方面给上层视觉模型设计带来的启发和改变;并对视觉Transformer未来发展方向进行了展望.
源URL	[http://ir.ia.ac.cn/handle/173211/56367]
专题	自动化研究所_学术期刊_自动化学报
推荐引用方式 GB/T 7714	田永林,王雨桐,王建功,等. 视觉Transformer研究的关键问题:现状及展望[J]. 自动化学报,2022,48(4):957-979.
APA	田永林,王雨桐,王建功,王晓,&王飞跃.(2022).视觉Transformer研究的关键问题:现状及展望.自动化学报,48(4),957-979.
MLA	田永林,et al."视觉Transformer研究的关键问题:现状及展望".自动化学报 48.4(2022):957-979.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。