面向对话文本的自动摘要关键技术研究
文献类型:学位论文
作者 | 林海涛![]() |
答辩日期 | 2023-05-26 |
文献子类 | 博士 |
关键词 | 对话摘要 数据标注 无监督方法 角色交互 多任务学习 |
英文摘要 | 随着互联网和移动技术的日益发展,人们通过对话交换信息的频率越来越高。当对话轮次较多时,读者需要耗费大量的时间阅读整段对话,从而理解其讨论的主要内容。自动摘要技术可以归纳文本中的关键内容,使读者能够更加快速地获取信息。然而,相较于一般文本,面向对话文本的摘要存在明显的不同,主要表现在对话由多个角色的语句交互组成、对话中主题的转变频繁、关键信息分散在对话的各个位置等。这些特点导致面向一般文本的摘要方法难以应用于对话场景。因此,本文聚焦于面向对话文本的自动摘要方法研究,从数据层面和模型层面研究如何生成更高质量的对话摘要。论文的主要创新点和贡献归纳如下: 1. 构建了一个较大规模的中文细粒度对话摘要数据集 现有的对话摘要数据集大多只包含整段对话的摘要内容,并且基本上都是英文数据,极大程度上限制了对话摘要的应用场景。针对这一问题,本文构建了一个包含细粒度标注的中文对话摘要数据集。考虑到对话文本中存在多角色、多主题的问题,该数据集为对话中的每个角色标注了各自的观点摘要内容,且每个摘要都按主题进行了划分,相应的摘要被称作角色粒度的对话摘要和主题粒度的对话摘要。基于该数据集,本文比较了现有的有监督与无监督摘要方法的性能表现。特别地,针对于现有无监督方法难以抽取对话关键内容的问题,本文提出了一种基于对话语句生成难度的无监督对话摘要方法。该方法利用对话生成模型度量不同上文对语句生成的影响,并以此建模对话语句的相关性和信息丰富性,从而抽取对话中的关键语句作为摘要。实验表明,与现有的无监督方法相比,该方法可以显著提升摘要的质量,并且具有良好的鲁棒性,其抽取的关键语句与人类标注的关键语句具有高度的一致性。此外,本文还指出了现有方法在该数据集上存在的问题与挑战,为后续的方法研究奠定基础。 2. 提出了一种基于角色交互的角色粒度对话摘要方法 在对话过程中,不同的角色通常都会频繁地进行交互。已有的对话摘要方法在生成面向某一角色的对话摘要时较少考虑到其他角色所提供的信息。针对这一问题,本文提出了一种基于角色交互的角色粒度对话摘要方法。该方法包含两个角色交互模块,利用不同角色之间信息的相关性和互补性,从对话内容和摘要内容两个方面抽取其他角色的信息,用于辅助生成针对某一角色的摘要内容。实验表明,该方法在多个数据集上均显著优于已有的最好方法,且可适用于多种摘要模型,较好地缓解了现有方法生成的摘要语义不完整的问题。 3. 提出了一种基于主题辅助任务的主题粒度对话摘要方法 随着对话轮次数量的增加,对话主题可能发生变化。在实际应用中,读者有时只关心对话中某个主题相关的内容。针对这种情况,本文提出了主题粒度的对话摘要任务,旨在生成对话中某主题下的摘要内容。为解决该任务,本文提出了一种基于主题辅助任务的主题粒度对话摘要方法。该方法利用三种与主题相关的辅助任务:对话主题识别任务、主题语句注意力限制任务、主题摘要区分任务,目的是更加准确地建模对话中的主题变化,提高生成的摘要与主题的相关性。实验表明,该方法相较于已有的最好方法显著提升了主题粒度的对话摘要质量,在对话结构复杂的情况下能更加准确地输出与主题相关的摘要内容。 |
学科主题 | 自然语言处理 |
语种 | 中文 |
页码 | 106 |
源URL | [http://ir.ia.ac.cn/handle/173211/51968] ![]() |
专题 | 毕业生_博士学位论文 |
通讯作者 | 林海涛 |
推荐引用方式 GB/T 7714 | 林海涛. 面向对话文本的自动摘要关键技术研究[D]. 2023. |
入库方式: OAI收割
来源:自动化研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。