中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
文本向量表示方法研究

文献类型:学位论文

作者王少楠1,2
答辩日期2018-05-24
授予单位中国科学院研究生院
授予地点北京
导师宗成庆
关键词自然语言理解 语义表示 词汇表示 短语表示 句子表示
英文摘要
    文本表示指通过某种方式将自然语言文本编码为计算机可以处理的形式,这是实现自然语言理解最基础也是最重要的步骤。高质量的文本表示可以使计算机有效地完成各种自然语言相关的任务,如机器翻译、自动问答、人机对话等,因此开展这项研究具有重要的理论意义和应用价值。
 
    对文本表示模型来说,将不同类型信息进行有效地融合对获取高质量文本表示至关重要。本文围绕如何设计有效的信息融合方法来学习高质量的文本表示展开,重点关注三种类型信息的融合方法:词汇表示中多种模态信息的融合、短语或句子表示中底层词汇信息的融合、以及句子表示中字符与词汇信息的融合。另外,本文借鉴人脑语义表征研究的最新成果对分布式向量表示的语义可解释性进行了研究。
    
    论文的主要工作和创新点归纳如下:
 
    1. 提出了一种基于动态融合机制的多模态词汇表示方法
 
    词汇可由字符串、语音和图像等不同模态形式呈现,如何综合利用各模态信息学习更好的词汇表示是一个挑战。已有的多模态词汇表示模型平等地对待不同模态的信息,但是相关研究表明,不同模态的信息对于不同类型词汇含义的贡献程度是不同的。因此,我们提出了一种动态融合机制,通过自动针对不同类型的词汇学习不同模态的权重来对不同模态的信息进行有效地融合。实验表明,我们提出的方法有效地为不同类型词汇的文本和视觉模态信息赋予了不同的权重,显著提高了词汇表示的质量。在抽象词和具象词集合中,模型得到的权重符合认知科学的研究结论,即抽象词更依赖文本模态,而具象词的词义学习同时依赖文本和感知觉模态。
    
    2. 系统对比分析了不同因素对汉语和英语短语表示学习方法的影响
 
    短语表示通常由词汇表示组合得到,已有的短语表示学习方法主要关注如何选择合适的组合函数,而忽略了组合模型的其他重要环节,如词汇表示的质量、模型的训练目标等。因此,对于不同环节对模型性能的影响以及在何种条件下模型可以学到最优的短语表示,目前没有明确的结论。为此,我们通过大量的实验系统地比较了来自不同模型的词汇表示、组合函数、训练语料和目标函数对短语表示质量的影响。对比分析发现,词汇表示的质量和词汇信息的融合方法对短语向量表示质量的影响最大,在进行短语组合表示学习时应使用语义增强的词汇向量和形式简单的组合函数,在缺乏高质量的复述短语数据集的情况下,从文本中直接学到的短语向量可以作为一种有效的学习目标。另外,我们公开了用于汉语短语相似度计算研究的数据集,为汉语短语表示方法研究提供了重要的数据资源。
 
    3. 提出了一种受人类注意力机制启发的和基于字词融合机制的句子表示方法
 
    已有的句子表示模型对不同词汇的重要性并不做区分,而认知心理学研究表明,人在阅读句子时会选择性地注视或跳读某些词汇,这种注意力机制使人类对句子的阅读和理解变的更加高效。受此启发,我们提出了一种基于注意力机制的句子表示学习方法,该方法可自动对句子中重要的词汇赋予较高的权重,从而实现词汇级别信息的有效融合。实验表明,该方法显著提升了句子表示的质量,而且模型预测的词汇重要性分布在一定程度上与人的阅读时间分布相吻合,进一步证明了该方法的正确性。
 
    另外,汉语与英语不同,汉语的字包含了丰富的语义信息,而已有的句子表示学习方法并没有充分利用字的信息。为此,我们研究了汉字在学习通用句子表示中的作用,并提出了一种混合字词的网络结构,用于对汉字和词汇级别的信息进行有效地融合。在多种任务上的实验结果表明,我们提出的方法与已有的汉语句子表示方法相比具有明显的优势。并且,我们公开了用于汉语句子相似度计算研究的数据集。
 
    4. 提出了一种分布式语义向量表示可解释性分析的方法
 
    已有的词汇向量表示方法研究表明,多模态模型与单模态模型相比可以学到更好的词汇语义表示。但是,词汇的多模态表示中到底编码了什么信息,它们在哪些方面的效果优于单模态的模型,词汇在不同模态的语义组合过程中有什么区别和联系,以及不同类型的组合模型是如何组合词汇向量表示的,若干问题并没有得到清晰的解释。为此,我们对来自不同模型的词汇表示向量及其语义组合过程进行了深入研究,提出了一种分布式语义向量表示可解释性分析的方法,该方法利用大脑成分语义表征理论研究中对词汇语义维度的划分和数据,并利用表征相似性分析和空间映射方法对分布式向量表示的编码信息进行了解释,得出了多模态表示模型与文本表示模型相比更多地编码了感觉和运动属性,词汇在不同模态中具有相似的语义组合过程等结论。这些解释和结论对于进一步探索和建立更加有效的文本表示方法具有重要的指导意义。
源URL[http://ir.ia.ac.cn/handle/173211/20955]  
专题毕业生_博士学位论文
作者单位1.中国科学院大学
2.中国科学院自动化研究所
推荐引用方式
GB/T 7714
王少楠. 文本向量表示方法研究[D]. 北京. 中国科学院研究生院. 2018.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。