中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
文本情绪类别的表示方法研究及应用

文献类型:学位论文

作者王祥宇
答辩日期2023-05-26
文献子类博士
关键词情绪类别 情绪表示 情绪关系 类别分布
英文摘要

情绪是人类面对外部或者内部刺激时所产生的一种主观体验。类别模型和维度模型是最常见的描述人类情绪状态的两类方法。类别模型将人类的情感状态划分为离散的、彼此独立的类别,忽略了不同类别之间的潜在关系。维度模型通常使用2至3维人为预定义的属性(比如愉悦度、激活度等)来表示人类的情绪状态。但是低维的属性不足以描述复杂的情绪状态,也不能够充分反映情绪类别之间的相关关系。为了在连续且高维的空间中充分表达文本情绪状态,本文聚焦于文本情绪类别的表示方法,研究了情绪类别之间的相关关系,分析了不同语言使用者在社交媒体上所表达的情绪状态之间的差异,探究了类别相似性在文本分类中的应用。
论文的主要工作和创新点归纳如下:
(1) 提出了一种基于软标签的文本情绪类别表示方法
情绪类别之间的关系错综复杂,不同类别之间的边界也难以确定。已有的类别模型和维度模型不能有效反映出情绪类别之间的复杂关系。既有的情感分析相关任务将每个情绪类别都看作是一个独立的维度并用独热向量表示,这忽略了类别之间的潜在关系。为了更好表示情绪类别之间的关系,本文提出了一个基本框架来学习情绪类别在高维且连续的向量空间中的分布式表示。本文提出了基于神经网络模型输出的软标签的算法以计算情绪类别的向量表示。此外,本文还提出了三个评价方法来衡量情绪向量空间和人类情绪状态空间的情绪关系的相似性。实验结果表明,本文提出的情绪类别表示方法可以有效表示情绪类别之间的相关关系,并且该方法基于不同数据集得到的情绪类别之间的相关关系具有高度的一致性。
(2) 提出了一种基于情绪类别表示的多语言情绪分析方法
情绪类别之间的关系会随着文化背景、语言使用者的不同而变化。已有的情绪表示模型多用独热向量表示情绪类别。这种独热向量表示方法将每个情绪类别都看作是独立的维度,进而无法反映出情绪类别关系的跨语言差异。为了分析不同语言使用者在社交媒体上所表达的情绪状态的差异,本文研究了三种语言(英语、西班牙语和阿拉伯语)、十一个情绪类别(生气、期待、厌恶、恐惧、喜悦、爱、乐观、悲观、悲伤、惊讶和信任)在情绪空间中的向量表示。对于每种语言,本文将这些情绪类别看作是该语言情绪空间中的锚点,并将这些锚点之间的连线的集合看作是该情绪空间的特征向量。本文用特征向量之间的相似性作为不同语言的情绪表达之间的相似性度量。实验结果表明,该方法可以合理反映不同语言情绪表达之间的相似性,并与已有的心理学、语言学在多语言情绪分析上的研究成果相互印证。
(3) 提出了一种基于类别相似性的改进的标签平滑方法
标签平滑在机器学习领域有着广泛的应用。通过将独热向量与均匀向量加权求和,标签平滑降低了神经网络模型的置信度并提升了模型的分类性能。尽管标签平滑在一定程度上改善了类别标签之间彼此正交的问题,但是平滑后的类别标签彼此之间的余弦相似系数却是一个常数。因此,标签平滑不能有效地揭示类别之间的相关关系。针对上述问题,本文提出了基于类别相似性的类别分布算法。本文首先计算出可以表示类别关系的类别分布,随后基于类别分布计算出新的软标签用于继续训练神经网络模型。该方法既不需要添加额外的神经网络模块,也不需要标注额外的数据信息。实验结果表明,本文所得到的类别分布可以有效表示类别之间的关系,基于类别相似性的标签软化方法进一步提升了神经网络模型在文本分类任务上的表现。

语种中文
页码104
源URL[http://ir.ia.ac.cn/handle/173211/52056]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
王祥宇. 文本情绪类别的表示方法研究及应用[D]. 2023.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。