维吾尔语广播新闻敏感词检索系统的研究
文献类型:学位论文
作者 | 木合塔尔·沙地克 |
答辩日期 | 2013-05-24 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院新疆理化技术研究所 |
导师 | 李晓 |
关键词 | 语音识别 关键词识别 音频切割 语音单词切分 声学特征 语音语料库 关键词检索 |
学位名称 | 博士 |
学位专业 | 计算机应用 |
英文摘要 | 广播新闻敏感词检索系统的研究是当前大词汇量连续语音研究的一个热点问题。广播新闻节目包括了说话人、方言口音、声道变化、声学环境的一系列声学的复杂特征,对于语音识别的实用化研究是一种理想的研究课题,对于语音识别技术走向实用化方面有着重大的意义。本文针对维吾尔语广播新闻敏感词检索系统中的关键问题,在以下几个方面进行了深入的研究。 首先,对现行维吾尔语32个音素进行声学特征分析,把32个音素分清音和浊音。特征分析的核心是一组多元高斯分布,其参数分别为短时能量,短时过零率,短时自相关系数,第一个预测系数和预测误差能量。 其次,在广播语音的单词切分方面,提出并实现了两种切词算法。一种是基于分帧原理的等宽切词算法。另一种是基于贝叶斯方法的维吾尔语敏感词端点检测算法,即基于清浊音结构的切词算法。基于清浊音结构的切词算法根据敏感词音素数和清浊音结构,对广播新闻语音文件进行单词切分,不符合敏感词清浊音结构的语音段视为垃圾语音,有效提高了检索速度并适当减少误警率。在同等条件下,对两种算法的切词效果和敏感词检索结果进行对比分析。 最后,创建一个小型维吾尔语广播新闻连续语音敏感词语音语料库,并在此语料库基础上用Matlab编程实现维吾尔语广播新闻连续语音敏感词检索系统,同时实现语音分析和敏感词语音语料库维护功能。Matlab编程中,采用多种优化技巧,有效提高系统速度。 |
公开日期 | 2013-05-31 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/2483] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
推荐引用方式 GB/T 7714 | 木合塔尔·沙地克. 维吾尔语广播新闻敏感词检索系统的研究[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2013. |
入库方式: OAI收割
来源:新疆理化技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。