基于主动学习的语音转录文本标注和分类方法研究
文献类型:学位论文
作者 | 曾杰林![]() |
答辩日期 | 2023-05 |
文献子类 | 硕士 |
关键词 | 主动学习,多模态学习,语音转录,场景分类 |
英文摘要 | 近年来,随着语音转录技术发展到可以商业应用的成熟水平,相关行业积累 了大量的语音转录文本。这类文本在部分场景下包含极其丰富的信息,如果能 将这些文本按场景进行分门别类,将会推进相关行业自然语言处理技术的发展。 然而,这类文本普遍缺乏标注,且包含大量口语词汇和转录错误,现有语言模型 很难准确地理解这类文本的语义。针对以上问题,本文基于主动学习对语音转录 文本的标注和分类问题进行了研究,在保证模型分类性能的前提下,提出了两种 不同的方法以减少所需的样本标注量。 本文的主要工作如下: 第一,构建语音转录文本场景分类任务的数据集,并提出该任务的解决方 案。本文开发了标注平台,收集并标注真实通话场景下的语音转录文本,构建了 转录文本场景分类任务的数据集。针对该数据集特点,本文提出基于文本纠错的 分类方法,模型的预处理模块和纠错模块解决了转录文本包含大量口语词汇和 转录错误的问题,可以完成语音转录文本的场景分类任务。 第二,提出了基于特征混合的两阶段文本主动学习算法,能大幅节省语料标 注成本。针对标注工作成本高昂这一问题,本文提出了一种基于特征混合的两阶 段文本主动学习算法,该方法第一阶段使用特征混合技术寻找模型当前无法识 别的特征,采样包含该类特征的样本,第二阶段对这些样本进行重要性排序,挑 选出对模型改善最有效的样本,迭代训练模型。本文方法能有效地减少文本标注 量,降低标注成本。 第三,通过引入语音模态,提出了基于语音和文本的多模态主动学习算法。 本文在文本模态的基础上引入语音模态,提出了另一种针对语音转录文本场景 分类任务的解决方案。本方案设计了语音特征提取方法和模态信息融合策略,扩 展了模型的信息来源,提高了模型的性能。同时,方案的主动学习框架也可以在 保证模型性能的前提下,降低标注成本。 |
语种 | 中文 |
页码 | 86 |
源URL | [http://ir.ia.ac.cn/handle/173211/52169] ![]() |
专题 | 毕业生_硕士学位论文 |
推荐引用方式 GB/T 7714 | 曾杰林. 基于主动学习的语音转录文本标注和分类方法研究[D]. 2023. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。