中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
汉语音节时长和音高特征统计分析及建模

文献类型:学位论文

作者冯勇强
学位类别博士
答辩日期2001
授予单位中国科学院声学研究所
授予地点中国科学院声学研究所
关键词韵律特征 时长 音高 矢量量化 分类与回归树 人工神经网络 乘积之和模型
中文摘要随着语音合成技术的蓬勃发展,合成语音的清晰度已经没有问题,但许多语音合成产品投入市场之后,一直没有被广大用户所完全接受,其主要的原因是合成语音的自然度不够高,听起来有机器味,语调平淡没有抑扬顿挫,不能充分表达说话人的意图。也就是说,语音合成技术还没能充分接近人的发音,对人类言语的本质和变化规律的了解还不够完全,尤其对言语韵律特征的认识还比较欠缺。深入研究韵律特征,并且建立起有效的韵律模型是目前语音合成中迫切需要解决的问题。 汉语韵律特征的研究在声学层面可以从时长、音高和停顿等方面进行。本文在一个大型语料库的基础上,对广播风格的汉语普通话音节的音长和音高进行了全面的统计分析,得到了影响它们的主要因素,在此基础上建立了时长和音高的预测模型。 本文包括以下内容及主要研究结果:(1)对语音合成和汉语韵律研究的历史回顾。(2)介绍国外韵律研究和建模加典型算法,包括分类与回归树(CART),神经网络BP算法,乘积之和模型(Sop),矢量量化(vQ)等。(3)在大规模语料库的基础上,对音节时长进行了统计分析,首次得到 汉语音节在大量自然语流中音长的统计分布曲线,并从统计分析结果指出:停顿对时长的影响最大,其次是声调,虽然词中位置单独 作用不大,但它与停顿的交互作用很大。(4)在上述统计分析的基础上,提出汉语普通话音节时长和音高几种预 测模型。时长模型分别是相加模型、 SoP模型、CART模型和BP神 经网络模型。模型的输入特征矢量是音节的声、韵、调结构,音节后的停顿类型,及音节在词中的位置。其预测结果为:Sop模型 CART模型和BP神经网络模型预测效果比较接近,归一化时长的RMS误差约为0.18一0.19,相加模型相对差一点,RMS误差约为0.21。(5)提取了数据库中所有音节的浊音段的音高曲线,对它们作了矢量量化处理,并在此基础上分别用CART模型和 BP神经网络模型进行了音高的曲拱类别预测和数值预测。模型的输入特征矢量是本音节 声调、前音节声调、后音节声调、本音节在词中位置和句中位置。CART模型和BP神经网络模型的预测性能比较接近,对音高曲线做整体兑类预测首选的正确率约为25%,前6个候选的正确率是80%;每个声调分s类预测首选的正确率为31%佩40%,前4个候选的正确率是85%。对音高曲线上采样点做数值预测,RMS误差 约为30Hza (6)鉴于大规模数据重音标注的复杂性,在建模中没能利用重音信息,指出这是预测误差的重要来源,也是下一步工作的重点。虽然本文的研究是针对提高汉语文语转换系统合成语音质量的应用目标展开的,但这种基于大规模语料库的研究对汉语语音学的研究,尤其汉语韵律特征的研究有重要的参考价值。
语种中文
公开日期2011-05-07
页码61
源URL[http://159.226.59.140/handle/311008/700]  
专题声学研究所_声学所博硕士学位论文_1981-2009博硕士学位论文
推荐引用方式
GB/T 7714
冯勇强. 汉语音节时长和音高特征统计分析及建模[D]. 中国科学院声学研究所. 中国科学院声学研究所. 2001.

入库方式: OAI收割

来源:声学研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。