中国科学院机构知识库网格系统: 多语言语音数据库自动优化方法研究

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

多语言语音数据库自动优化方法研究

文献类型：会议论文


作者	傅睿博1,4 ; 陶建华1,2,4 ; 温正棋4 ; 易江燕4 ; 王诗明 3,4; 强春雨 1,4
出版日期	2019-08
会议日期	2019-8
会议地点	青海西宁
关键词	语音数据库优化语音合成多语言数据对匹配度
英文摘要	“文本-音频”数据对的匹配度对端到端语音合成系统有着至关重要的影响。语音数据库的自动优化旨在筛选出出错的文本标注与韵律发音一致性较差的音频，可以克服人工检查中的不一致、耗时的缺点。本文采用半监督学习的方式，利用端到端语音合成模型中的局部敏感注意力机制，在模型训练过程中根据其编码器-解码器对齐信息，运用卷积神经网络来判断每个训练“文本-音频”样本对匹配程度，筛选出待矫正样本对。实验结果表明，本文所提出的语音数据库自动优化方法，精度高于基于语音识别的基线系统，可应用于普通话、英语、粤语、藏语和维吾尔语等不同语言的合成音库，实验还验证了使用自动优化音库训练的端到端合成系统的自然度和鲁棒性均有所提高。
会议录出版者	NCCMSC组委会
语种	中文
源URL	[http://ir.ia.ac.cn/handle/173211/39592]
专题	模式识别国家重点实验室_智能交互中国科学院自动化研究所
通讯作者	陶建华
作者单位	1.中国科学院大学人工智能学院 2.中国科学院自动化研究所中国科学院脑科学与智能技术研究中心 3.中国科学技术大学信息科学技术学院 4.中国科学院自动化研究所模式识别国家重点实验室
推荐引用方式 GB/T 7714	傅睿博,陶建华,温正棋,等. 多语言语音数据库自动优化方法研究[C]. 见:. 青海西宁. 2019-8.

入库方式： OAI收割

来源：自动化研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。