基于词对向量的中文新闻话题检测方法
文献类型:期刊论文
作者 | 张文博; 米成刚; 杨雅婷![]() |
刊名 | 厦门大学学报(自然科学版)
![]() |
出版日期 | 2019 |
卷号 | 58期号:2页码:231-236 |
关键词 | 话题检测 词对模型 降维 相似度 |
ISSN号 | 0438-0479 |
英文摘要 | 针对传统话题检测方法得到的结果和实际话题个数相差较大的缺点,根据话题所包含的文本数对话题之间的相似度进行衰减,进而优先合并粒度较小类,并根据文档话题频率和权重对较大的话题向量进行降维,通过这两方面对传统的层次聚类方法进行改进.同时为了更好地表达话题的语义信息,使用在句子中共现的词对向量来取代传统的向量空间模型.实验结果表明,使用词对模型和改进的方法可以取得更好的效果,而且得到的聚类结果和实际话题个数相近. |
CSCD记录号 | CSCD:6461388 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/5696] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
作者单位 | 1.中国科学院新疆理化技术研究所 2.中国科学院大学计算机科学与技术学院 3.新疆民族语音语言信息处理实验室 |
推荐引用方式 GB/T 7714 | 张文博,米成刚,杨雅婷. 基于词对向量的中文新闻话题检测方法[J]. 厦门大学学报(自然科学版),2019,58(2):231-236. |
APA | 张文博,米成刚,&杨雅婷.(2019).基于词对向量的中文新闻话题检测方法.厦门大学学报(自然科学版),58(2),231-236. |
MLA | 张文博,et al."基于词对向量的中文新闻话题检测方法".厦门大学学报(自然科学版) 58.2(2019):231-236. |
入库方式: OAI收割
来源:新疆理化技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。