组合性感知的弱监督视觉定位研究
文献类型:学位论文
作者 | 曾宇楠![]() |
答辩日期 | 2024-05-17 |
文献子类 | 硕士 |
关键词 | 视觉定位,视觉语言预训练模型,弱监督,组合性 |
英文摘要 | 本文旨在探索组合性感知的弱监督视觉定位研究,特别关注视觉语言预训练模型在弱监督视觉定位中的应用,及其在组合性理解样本上的性能表现,同时也涉及了下游弱监督视觉定位模型与预训练模型的关联。视觉定位任务在计算机视觉和自然语言处理的交叉领域中至关重要,它要求模型不仅能够识别图像中的目标,还能根据自然语言描述准确定位这些目标。尽管深度学习的发展极大推进了这一领域的研究,但现实世界的复杂场景及语言描述的多样性和歧义性使得这一任务仍然面临挑战。本研究针对视觉语言预训练模型和下游弱监督视觉定位模型在处理复杂视觉场景和语言描述中的组合性问题,提出了新的研究方法和技术策略。本研究主要关注以下三个方面。
本研究的贡献在于系统性地分析了视觉语言预训练模型在视觉定位任务中的组合性问题,通过构建新的数据集和评测方法,为后续的研究提供了宝贵的资源和参考。面对这些问题,本文针对视觉语言预训练模型和下游视觉定位模型提出了有效改进策略,并通过实验验证了这些策略的有效性。考虑到在弱监督学习环境下,本研究的方法能够有效利用未标注或标注不精确的数据,提高模型在真实世界复杂场景下的应用性能,这对于减少人工标注成本、提高模型的泛化能力和适应性具有一定研究意义。 |
语种 | 中文 |
页码 | 88 |
源URL | [http://ir.ia.ac.cn/handle/173211/57199] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 曾宇楠. 组合性感知的弱监督视觉定位研究[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。