推理机制启发的视觉语言导航
文献类型:学位论文
作者 | 安东![]() |
答辩日期 | 2024-05 |
文献子类 | 博士 |
关键词 | 视觉语言导航 模块化推理 认知地图 子目标导航 |
英文摘要 | 视觉语言导航任务旨在赋予机器人根据自然语言指令在陌生环境中导航的能力。随着劳动力成本上升、人口老龄化加剧以及疾病种类增多,作为具身智能领域的关键基础任务,视觉语言导航任务受到了广泛关注。目前,数据驱动的隐式学习算法在视觉语言导航任务中取得了显著进展,但受限于数据稀缺性和任务复杂性,这些方法在导航策略的泛化性和可控性方面仍面临挑战。本研究旨在显式地建模视觉语言导航中的复杂跨模态推理机制,减少对数据量的依赖,实现可解释、带规划的机器人导航行为,以更好地泛化陌生环境。
对于复杂环境下的指令遵循导航任务,机器人首先需要具备推理复杂实体关系的能力,建立物体与物体、物体与环境、以及物体与机器人本体之间的多样语义关联。其次,机器人应具备空间认知推理能力,以理解和推理室内环境布局,形成对环境空间的记忆与认知,支撑路径规划等行为。最后,机器人应具备规划与控制的协同能力,建立观测与实际动作执行之间的高效映射,提升导航行为的可控性与学习效率。针对现有方法的不足,本研究借鉴认知科学中的模块化推理、层次化认知地图、子目标推理等理论,层层递进地开展了如下三项工作。
本研究在多个视觉语言导航数据集上进行了广泛的实验和分析,实验结果证明了上述方法在提升数据利用率、泛化能力和导航行为可控性方面的有效性,为推理机制启发的视觉语言导航研究提供了新的思路和方法。 |
语种 | 中文 |
页码 | 118 |
源URL | [http://ir.ia.ac.cn/handle/173211/56503] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 安东. 推理机制启发的视觉语言导航[D]. 2024. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。