基于多重文本关系图中clique子团聚类的主题识别方法研究
文献类型:期刊论文
作者 | 郭红梅1![]() ![]() ![]() |
刊名 | 情报学报
![]() |
出版日期 | 2017 |
卷号 | 36期号:5页码:433-442 |
关键词 | Clique子团 多重文本关系 文本主题识别 |
英文摘要 | 在网络成为最主要科学交流和信息传播渠道的今天,越来越多的机构将其研究成果以电子化形式呈现,这些电子化的文本资源中蕴涵着丰富的语义信息。面对这些海量的资源,科研人员很难在短时间内快速捕获文本中的主旨内容。如何高效准确地呈现文本资源中的核心主题,辅助科研人员对文本集中的重要关联信息进行聚焦,提高科研效率,一直是文本挖掘研究中的一个重要问题。在对现有有益研究成果借鉴的基础上,结合文本中术语和术语关系的特点,论文提出将文本中的术语和术语间的共现、句法和语义关系利用图结构进行表示,识别文本关系图中的紧密关联子团,基于所得到的紧密关联子团聚类来揭示文本子主题的整体研究思路。开展了两个方面的研究:①将文本集中的术语和术语间各种关系属性进行叠加归并,构建多重文本关系叠加模型;②基于clique子团间相似性距离和语义标识,进行聚类识别文本集中所包含的重要子主题。论文采用"migraine disorders"主题中近五年的文献构建文本集,对提出的方法开展了2个有效性实验。实验1与文本中领域专家所给出的标引词按语义类型分组结果对比,结果表明论文提出的方法与领域专家给出的标引词语义类型分组结果具有一致性;实验2与目前广泛使用的LDA方法结果进行对比,在准确率和召回率上都较LDA方法有所提高。2个实验均证明了文中方法的有效性。 |
URL标识 | 查看原文 |
语种 | 中文 |
CSCD记录号 | CSCD:6009617 |
源URL | [http://ir.las.ac.cn/handle/12502/10540] ![]() |
专题 | 文献情报中心_中国科学院文献情报中心_信息系统部 |
作者单位 | 1.中国科学院文献情报中心 2.中国科学院大学 |
推荐引用方式 GB/T 7714 | 郭红梅,孔贝贝,张智雄. 基于多重文本关系图中clique子团聚类的主题识别方法研究[J]. 情报学报,2017,36(5):433-442. |
APA | 郭红梅,孔贝贝,&张智雄.(2017).基于多重文本关系图中clique子团聚类的主题识别方法研究.情报学报,36(5),433-442. |
MLA | 郭红梅,et al."基于多重文本关系图中clique子团聚类的主题识别方法研究".情报学报 36.5(2017):433-442. |
入库方式: OAI收割
来源:文献情报中心
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。