中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于脉冲神经网络的多模态视听分类

文献类型:学位论文

作者郭凌月
答辩日期2024-05
文献子类硕士
关键词脉冲神经网络 多模态对齐 多模态融合 视听分类
英文摘要

在技术迅猛发展的今天,多模态数据的应用变得越来越普遍,它们集合了图像、音频、文本等多种信息形式,极大地丰富了系统和应用的信息表达能力。与单一模态相比,多模态数据通过整合视觉、听觉等多维度感知信息,能够更深入地挖掘场景的内涵和语义,数据处理的深度和精确度都有了显著提升。然而,面对这类数据,传统深度学习方法往往伴随着高能耗的问题,迫切需要更高效的处理方案。在此背景下,脉冲神经网络(SNNs)因其模拟生物神经系统的高效性而成为研究热点。
脉冲神经网络通过模仿生物神经元的脉冲行为来处理信息,区别于传统人工神经网络的连续激活模式,SNNs实现了事件驱动的计算方式。这意味着神经元只有在累积到足够的输入信号并触达阈值时才会激活,极大地减少了不必要的计算和能量消耗。此外,SNNs通过脉冲的时间间隔来编码信息,有效利用了输入信号的时间结构,降低了处理时间序列数据的能耗。SNNs的这些独特属性,包括天然的稀疏性,进一步减轻了存储和数据传输的能耗负担,使其在能源受限的环境下处理复杂任务时展现出显著的低能耗优势。
尽管SNNs在图像分类、目标检测、语音识别等单模态任务中已展现出其模仿人脑时序处理的强大能力,但在多模态视听分类等领域的应用仍面临挑战。本研究提出了一系列创新的基于脉冲神经网络的算法和模型,专注于解决多模态数据中的音视觉分类问题。通过设计高效的多模态对齐和融合策略,提升了分类任务的准确性和处理效率。本研究的主要贡献和创新之处在于:
1.提出基于脉冲神经网络的视听对齐算法
本文提出了一种基于脉冲神经网络的多模态视听对齐算法,旨在高效处理和理解复杂的信息场景。在自然环境下,视觉与听觉信息通常相辅相成,共同为我们提供了对周遭世界的全面理解。有效的多模态对齐不仅能够确保来自不同感官的信息在时间上的精确同步,增强数据的内在一致性,还能显著提升信息的丰富性和表达力。此外,它为深度信息融合提供了必要的基础,只有在不同模态数据正确对齐的前提下,才能进一步挖掘和揭示更加复杂的模式和关系。本算法通过脉冲自注意力机制增强模态内的特征表示,随后利用脉冲神经网络实现视觉与听觉信号之间的动态对齐。这种方法不仅提高了多模态数据处理的效率和准确性,而且由于脉冲神经网络的低能耗特性,还大大降低了计算成本。
2.提出基于脉冲神经网络的视听融合算法
本文提出了一种基于脉冲神经网络的视听融合算法,结合脉冲神经网络的高效信息处理能力与Transformer中的注意力机制,实现了视觉和听觉信息的深度融合,显著提升了融合信息的相关性和表达力。通过脉冲神经网络对这两种不同模态的数据进行高效编码,并利用Transformer的注意力机制深入挖掘视觉与听觉信息间的内在联系,深度融合视觉和听觉信息,能够获得比单一模态更加丰富和全面的数据表示,从而更准确地理解和响应复杂的环境或任务。
3.提出基于脉冲神经网络的多模态视听分类模型
为了解决多模态音视觉分类任务的低能耗和高准确性问题,构建了基于脉冲神经网络的视听分类模型。该模型综合应用了上述对齐和融合算法,展示了在多模态音视觉分类任务中的优越性能,特别是在保持低能耗的同时实现了高准确率的分类。并且构建了两个非数字的多模态视听数据集,CIFAR10-AV和UrbanSound8K-AV,提供了一系列真实世界的图像和音频。实验表明,本文提出的模型不仅在公共事件基础的数据集上表现优异,而且在自制真实世界数据集上也保持了较低的计算开销。

语种中文
页码84
源URL[http://ir.ia.ac.cn/handle/173211/57634]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
郭凌月. 基于脉冲神经网络的多模态视听分类[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。