面向复杂场景的跨维度视觉感知方法研究
文献类型:学位论文
作者 | 潘聪![]() |
答辩日期 | 2024-05 |
文献子类 | 博士 |
关键词 | 视觉场景感知 二维目标检测 单目三维目标检测 鸟瞰图语义分割 视觉Transformer |
英文摘要 | 在人工智能技术的迅猛发展推动下,视觉场景感知在自动驾驶、智能监控和机器人导航等领域展现出了巨大的应用潜力。面向复杂场景的视觉感知方法旨在精准捕捉和处理视觉信息,从而实现对物体的识别、场景的理解和行为的指导。随着深度学习技术的快速进步,视觉场景感知领域取得了显著发展,感知性能不断提升。然而,在实际应用场景中,物体尺度的多样性和场景的复杂性为传统的二维视觉感知方法带来了新的挑战。特别是在复杂的自动驾驶场景中,高效的环境感知和目标精确识别对于确保车辆安全行驶至关重要。因此,结合二维图像和相机标定参数进行跨维度的视觉感知成为了视觉感知领域的一个重要研究方向。本文采用从二维到三维、由单目到多目的逐步深入的策略,对复杂场景下的跨维度视觉感知方法进行了研究。本文的主要贡献包括: 1. 提出了一种基于尺度学习的可部署二维目标检测方法。通用二维目标检测面临的最大挑战之一是尺度变化,在实际应用中物体种类繁多且尺度不一,同一类物体可能以不同尺度出现。现有方法在学习目标尺度、训练效率和推理速度方面仍存在局限性,且难以满足硬件部署的需求。针对该挑战,本方法旨在保证二维目标检测网络对不同尺度物体的感知能力的同时,实现硬件的可部署性。通过分析目前通用视觉场景下二维目标检测网络框架中的感受野分布,本方法设计了一种自动搜索的全局多尺度感知网络,并提出了一种尺度分解方法,将学习到的分数尺度转换为整数且固定的尺度组合。同时,设计了一个快速部署网络,该网络能够在推理过程中加速并支持硬件优化。此外,本研究还使用推理引擎对提出的模型进行优化,实现更快的推理速度。实验结果表明,本方法在目标检测任务上相较于现有方法能够取得一定的性能提升,且更适合硬件部署。 |
语种 | 中文 |
页码 | 113 |
源URL | [http://ir.ia.ac.cn/handle/173211/57595] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 潘聪. 面向复杂场景的跨维度视觉感知方法研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。