中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
结构信息增强的文本表示模型研究与应用

文献类型:学位论文

作者王克欣
答辩日期2020-05-27
文献子类硕士
授予单位中国科学院大学
授予地点远程答辩
导师周玉
关键词文本表示 文本结构信息 有监督学习 无监督学习 图神经网络
学位名称工学硕士
学位专业模式识别与智能系统
英文摘要

文本表示旨在将文本编码成计算机可理解的形式,是智能化处理文本信息的重要基础。表示学习是深度神经网络的核心,随着深度学习技术的发展,如何高质量地将文本编码成分布式语义表示是学术及工业界的关注热点之一。相比于早期文本表示使用的浅层词汇特征,文本中蕴含的结构信息,如句法结构、实体关系构成的图结构等,可以为文本表示提供更强的语义信息与领域知识,提高文本表示质量。然而,结构信息增强的文本表示模型,有监督方法结构信息利用不充分,而无监督方法的相关研究匮乏,无法处理标注成本较高的情形。本文以这两方面问题为重点展开相关研究,主要研究内容可归纳为如下两点:
(1)提出了一种融合依存句法结构的有监督文本表示方法
目前最优的结构信息增强的有监督文本表示使用常用的交叉熵损失函数进行训练,没有将结构信息体现在损失函数中,导致模型可能逃避使用结构信息并过拟合地依赖高频特征词作决策。针对这一问题,论文以依存句法结构为例,从优化条件互信息的角度出发,提出了结构对比合叶损失函数以主动优化模型决策与结构信息的相关性,迫使模型依赖结构信息作决策。实验表明,相比于之前方法,该方法可以显著提升文本表示质量,并在诸多实验任务上取得最好效果。
(2)提出了一种融合实体关系结构的无监督文本表示方法
除有监督文本表示外,无监督文本表示也为常用方法,为充分利用文本中的实体关系结构信息,本文提出了融合实体关系结构的无监督文本表示,该方法通过图神经网络融入结构信息,高效引入领域知识。针对在特定垂直领域(如医疗)实体标签过长、结构复杂的特点,本文又提出了图构建方式SLevi(Subentity-Levi)以缓解长实体标签引发的数据稀疏问题并高效建模结构信息。为验证提出方法的有效性,本文在相似病例检索任务上进行了验证分析。实验结果表明,融入实体关系结构可有效提升检索性能,SLevi图能显著改善数据稀疏问题,提升文本表示质量。

语种中文
页码84
源URL[http://ir.ia.ac.cn/handle/173211/39112]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
王克欣. 结构信息增强的文本表示模型研究与应用[D]. 远程答辩. 中国科学院大学. 2020.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。