中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法

文献类型:期刊论文

作者赵张1,3,4,5; 汪静莹1,3,4,5; 耿馨佚1,3,4,5; 朱廷劭1,3,4,5; 王守岩1,3,4,5
刊名复旦学报(自然科学版)
出版日期2021
卷号60期号:06页码:733-739
通讯作者邮箱shouyan@fudan.edu.cn ; tszhu@psych.ac.ch
ISSN号0427-7104
关键词抑郁症 语音处理 注意力机制 双向长短时记忆网络 迁移学习
DOI10.15943/j.cnki.fdxb-jns.2021.06.001
其他题名Depression Recognition Method Based on Acoustic Signal Analysis Integrating Attention Mechanism and Bi-LSTM
产权排序5
文献子类实证研究
中文摘要

In order to effectively classify depressed patients via audio,after preprocessing the audio signal is transformed into spectrogram by short time Fourier transform,then input to proposed DD-AudioNet(an attention based Bi-I_STM convolutional neural network),and extracted 128 deep features from the bottleneck layer through deep neural network. Besides,five types of features are extracted: Acoustical,spectrogram,silent,chroma,MFCC. A total of 563 features in 6 categories and 26 features are selected by Lasso. The transfer learning method C()RAI_ is used to align the feature distribution of the training set and the testing set. Finally,comparing with the classic classification algorithm:Random forest,Xghoost and logistic regression. The experimental results show that proposed deep features can get higher accuracy compared with some traditional features.

英文摘要

为有效地通过语音识别抑郁状态,在将语音进行滤波、降采样等预处理后通过短时傅里叶变换成时频图,输入本文提出的DD-AudioNet(一种融合注意力机制与双向长短时记忆网络的卷积神经网络)进行训练,提取神经网络的瓶颈层向量作为深度学习特征,共128个,再加上声学、频域、停顿、Mel频率倒谱系数和色度5类常用特征共计563个,基于特征选择方法Lasso选择了26个.用迁移学习方法CORAL拉近训练集和测试集的特征分布,最后通过逻辑回归、随机森林和XgBoost分别进行分类辨识.实验结果表明,本文通过高维度特征定义与选择,设计的DD-AudioNet提取的深度学习特征可有效提升基于语音的抑郁状态辨识能力.

收录类别CSCD
语种中文
CSCD记录号CSCD:CSCD
源URL[http://ir.psych.ac.cn/handle/311026/41471]  
专题中国科学院心理研究所
通讯作者赵张
作者单位1.复旦大学计算神经科学与类脑智能教育部重点实验室
2.中国科学院心理研究所
3.复旦大学类脑智能科学与技术研究院
4.复旦大学上海智能机器人工程技术研究中心
5.复旦大学智能机器人教育部工程研究中心
推荐引用方式
GB/T 7714
赵张,汪静莹,耿馨佚,等. 融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法[J]. 复旦学报(自然科学版),2021,60(06):733-739.
APA 赵张,汪静莹,耿馨佚,朱廷劭,&王守岩.(2021).融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法.复旦学报(自然科学版),60(06),733-739.
MLA 赵张,et al."融合注意力机制与双向长短时记忆网络的基于语音分析的抑郁识别方法".复旦学报(自然科学版) 60.06(2021):733-739.

入库方式: OAI收割

来源:心理研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。