中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于多模态表征学习与融合的情感识别研究

文献类型:学位论文

作者孙立才
答辩日期2024-06
文献子类博士
关键词情感识别 表征学习 自监督学习 多模态融合 注意力机制
英文摘要

情感识别旨在赋予机器感知和理解人类情感的能力,它是实现情感智能的重要一环,在人机交互、心理健康和公共安全等众多领域有着广阔的应用前景。自深度学习兴起以来,情感识别的研究虽然取得了长足的发展,但仍面临着以下两个关键性的挑战。首先,由于情感固有的复杂性(如不确定性、主观性和不平衡性等),情感识别领域长期存在着标注数据稀缺的问题,这给传统的监督学习范式带来了巨大的挑战。其次,情感的表达一般是多模态的,然而现有的融合方法无法高效地挖掘出深层次的跨模态情感交互信息,而且在面对自然场景中的干扰时也不够鲁棒。为此,本文主要针对以上两个问题,从表征学习和融合方法两个方面展开深入的研究,以提升情感识别的性能并进一步推动该领域的发展。本文的主要贡献总结如下:

• 提出了一种自监督的视频情感表征学习方法。目前视频情感识别的研究仍由十分依赖于大规模标注数据的监督学习范式所主导。考虑到这些方法难以从小体量的标注数据中学习到泛化的情感表征,本文提出了一种基于掩码视频建模的自监督视频情感表征学习方法。该方法首先利用掩码视频建模在海量无标注的且蕴含丰富情感信息的视频数据上进行自监督预训练,然后将学习到的表征迁移至视频情感识别任务中。所提方法采用视频掩码自编码器的总体框架,并在此基础上引入了人脸外观和运动信息的联合建模,还设计了一个高效的视频编码器,以进一步提升视频情感表征学习的质量和效率。实验表明,相较于现有最先进的监督学习方法,所提方法在六个数据集上均取得了显著的性能提升,从而展示了自监督情感表征学习的优越性。

• 提出了一种自监督的音视频情感表征学习方法。由于音视频情感识别面临着和视频情感识别一样的问题,因此本文将上一部分工作拓展至音视频领域,提出了一种基于掩码音视频建模和对比学习的自监督音视频情感表征学习方法。具体地,为了实现在音视频数据上的联合自监督预训练,本文首先将掩码视频建模推广至掩码音视频建模,并且考虑到音频和视频有着天然的配对性,本文还将二者的跨模态对比学习引入进来作为辅助的训练任务。此外,本文进一步提出了一种三管齐下的层次化表征学习策略来显式地引导模型中间层的学习从而提升整体音视频表征学习的质量。实验表明,所提方法在包含离散和维度两种情感识别任务的九个数据集上都以明显的优势超越了此前最优的音视频情感识别方法,从而再次验证了自监督情感表征学习的优越性。

• 提出了一种高效鲁棒的多模态融合方法。由于多模态表征序列固有的非对齐特性,现有的多模态融合方法一般采用跨模态注意力机制来建模不同模态之间的情感交互关系。然而,本文发现这些方法的时间复杂度均是二次的,因为它们都需要对两两模态间的局部-局部交互关系进行建模。考虑到多模态表征序列中存在着较多的冗余信息,本文提出了一种基于全局-局部跨模态交互建模的高效多模态融合方法。该方法引入了粗粒度的全局多模态上下文作为一个信息枢纽,利用它与细粒度的单模态表征序列中的局部信息进行交互。这不仅将时间复杂度降至近似线性级别,而且还在多个数据集上取得了更优的性能。此外,为了应对自然场景中经常出现的数据缺失问题,本文在上述融合方法的基础上进一步提出了一种双层级表征复原的训练策略。该策略在模型训练的时候模拟数据随机缺失的场景,然后同时利用隐式的低层级表征重建和显式的高层级表征拉近两个任务来指导模型从不完整的数据中学习有用的情感语义信息。实验表明,这种训练策略有效地降低了数据缺失带来的负面影响,提升了模型在真实应用场景中的鲁棒性。

语种中文
页码136
源URL[http://ir.ia.ac.cn/handle/173211/57641]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
孙立才. 基于多模态表征学习与融合的情感识别研究[D]. 2024.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。