中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于邻近关系的汉语及汉英跨语言文本检索研究

文献类型:学位论文

作者杜林
学位类别博士
答辩日期1998
授予单位中国科学院软件研究所
授予地点中国科学院软件研究所
关键词信息检索 中文信息处理 邻近关系模型 跨语言检索
学位专业计算机软件
中文摘要随着计算机以及互连网络技术的不断发展,计算机系统中存储的信息以几何级数方式增长,其中绝大部分信息以文本形式出现,信息的内容覆盖不同的学科领域,如何从性质各异的大量文档中查找到特定内容的相关信息成为信息检索领域研究工作的焦点之一。同西方语言相比,汉语文本信息检索具有较大的差异。汉语中语词之间缺乏分隔标志,需要进行语词切分,从文本中识别出没有被收录的切分词典中的新语词、术语较为困难,汉语语法、评义兼类较多的特点影响句法分析和语义理解的准确性和效率。在现有的汉语全文检索系统中,一般使用n元字或词进行文本自动标引,查询和文档的匹配依赖于n元字向量或词向量之间的相似系数的大小。由于n元单字仅仅表示文档中字符串流信息,不能反映文档的内容信息,无法实现基于内容的检索。基于语词切分的汉语文本标引,无法在语词切分过程中有效解决新词识别问题,造成专有名词等重要概念的错误切分,极大地影响信息检索的准确性。另一方面,文档出现的许多重要的概念往往通过短语来表示,纯粹的语词标引降低了文本内容表示的专指性。针对语词标引专指性较低的问题,在分析现有信息检索模型和文档表示方法的基础上,根据汉语处理的实际状况,我们使用统计方法和浅层语法信息相结合的方法,进行统计短语的抽取和标引实验,期望能够进一步提高基于语词切分信息检索方法的精度,然而实验结果并没有完全证明预期的假设。基于统计短语的文本标引的查询精度,在三个不同的文档集中,提高的范围分别从6.0%到8.7%不等。统计短语具有较好的统计特征,能够在一定程度上提高查询的精度,但并不能够有效覆盖用户的查询语句,对不同的查询、不同的文档集,检索精度的改进并不一致,所提高的查询精度相对较低。汉语信息检索应用的另一个显著特点是必须具有同时处理不同领域大量信息内容的能力。受系统的效率和实用性的限制,切分词典不可能包括所有领域的语词和术语。如何处理不同领域的新词和专业术语,成为提高汉语信息检索精度的又一个重要任务。在统计短语标引研究的启发下,我们提出了基于邻近关系的汉语文本检索模型,克服上述问题,主要基于以下现象观察,被错误切分的专有名词、领域术语片段之间具有较小的领近距离,一般在文档数据库中具有较高的同现概率。与此相类似,文档数据库中的重要专业术语和短语语词之间也具有较高的文档频率和同现概率,邻近距离越小时语词间的修饰关系越紧密。邻近关系检索模型在传统语词向量空间模型的基础之上,使用语词向量成员之间的邻近距离和同现概率信息描述文档的信息内容,克服现有检索模型对新词、短语概念处理的不足,同时邻近关系标引降低一词多义对信息检索精度的影响。基于邻近关系的文本标引,克服了n元字标引和单语词标引对新词、短语处理的不足,提高了标引的专指性。实验结果显示,邻近关系信息检索模型与传统的信息检索模型相比,检索精度平均提高了20.6%。然而基于邻近关系检索模型的特征空间维数较高,文档中出现的所有邻近关系向量空间成员都参与文档的相似性比较,由于并非所有特征都有效反映文档的信息内容,影响文档相似性计算的准确性。为了进一步提高邻近关系模型特征表示的准确性,我们使用单值分解技术,将高维邻近关系空间转化为正交的低维特征语义空间,消除邻近关系的次要特征对信息检索精度的影响,进一步提高基于邻近关系模型的信息检索精度。实验结果显示,基于单值分解的邻近关系模型,虽然平均检索精度并没有较大的提高,但在召回率较低的条件下,检索精度有了较大的改善。邻近关系模型不仅能够提高汉语文本检索的精度,还能够有效消除汉英跨语言信息检索中出现的检索词翻译歧义。由于互连网络上所提供人的大量信息主要以英文形式表示,对于不能熟练使用英语准确描述所需信息的用户来讲,使用汉语查询相关的英文文档信息,极大地减轻用户的负担。汉英跨语言信息检索的关键是如何消除检索词翻译中出现的歧义。与文本机器翻译处理不同,用户检索词翻译的上下文环境较窄。常用的检索词翻译方法是根据特定应用领域平行语料中不同翻译义项的分布信息,选择概率较大的义项作为该检索词在本领域中的翻译。为了克服平行语料消歧方法对资源条件的苛刻要求, 我们使用内容相似的可比语料和邻近特征信息进插检索词翻译消歧。主要基于下列假设,汉语中具有较高邻近关系特征的检索词对在相似的英语语料中也具有较好的邻近特征。实验结果显示,基于可比语料的邻近关系消歧方法具有较好的消歧功能,汉英跨语言信息检索的精度达到31.92%。
语种中文
公开日期2011-03-17
页码110
源URL[http://ir.iscas.ac.cn/handle/311060/7170]  
专题软件研究所_中科院软件所_中科院软件所
推荐引用方式
GB/T 7714
杜林. 基于邻近关系的汉语及汉英跨语言文本检索研究[D]. 中国科学院软件研究所. 中国科学院软件研究所. 1998.

入库方式: OAI收割

来源:软件研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。