基于非负矩阵分解的重叠社区发现研究及其应用
文献类型:学位论文
作者 | 赵清华 |
答辩日期 | 2018-05-25 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院新疆理化技术研究所 |
导师 | 蒋同海 |
关键词 | 重叠社区发现 非负矩阵分解 复杂网络 社交网络 |
学位名称 | 硕士 |
学位专业 | 计算机技术 |
英文摘要 | 目前,真实生产生活中存在大量的图数据,该种数据包含实体和实体间的关系,且实体间关系相对复杂。以社交网络数据为例,该数据包含用户数据和用户间的关注、评论、转发等交互数据,且该数据可以表示成以用户为顶点,以用户间的交互关系为边的图数据。这种图数据中的顶点、边和结构均包含了大量的信息。目前已经有多种用于揭示图数据中信息的技术,社区发现是该技术中的一种。社区发现旨在检测图数据中具有紧密联系的、由一群顶点组成的团体——社区。在该领域中,当社区间是不可重叠时,称为非重叠社区发现,亦简称社区发现;当社区间可以重叠时,称为重叠社区发现。本文主要针对重叠社区发现的研究与应用,即所检测的圈子是可以重叠的。社区发现的研究具有重要的理论意义和现实应用价值。在理论层面,社区发现技术可以帮助挖掘图数据的结构、图数据中顶点的交互关系和聚集情况;在应用层面,社区发现技术可以用于商品推荐和朋友推荐,购物平台刷单团伙检测,以及黄赌毒网站、垃圾网站等异常站点的检测等。本文以重叠社区发现为核心,围绕非负矩阵分解算法内容展开。 首先,为进一步提高基于非负矩阵分解的重叠社区发现算法的稳定性,以及从不同的角度探究基于非负矩阵分解的重叠社区发现算法的效果,本文提出了一个从概率角度描述网络的基于非负矩阵分解的重叠社区发现算法。该方法将网络的顶点和边看作观测变量,将社区看作隐藏变量,假设整个网络由观测变量和隐藏变量共同组成。为揭示该隐藏变量,使用最大期望算法进行迭代求解。并将该迭代过程生成的矩阵看作非负矩阵分解的一种,以欧式距离的平方和作为损失函数控制迭代次数。该算法不但可以计算顶点到社区的隶属度,而且具有相当好的社区划分效果。其次,在研究非负矩阵分解的重叠社区发现过程中,我们发现如果利用某种定义将文本数据转化成图数据,那么可以将重叠社区发现算法迁移至文本挖掘领域话题发现问题的解决中。因此为解决上述问题,本文利用词频-逆文档频率(TFIDF)将文档转化为文档-词语矩阵,利用文档-词语矩阵的稀疏性,将文档-词语矩阵离散化为二值矩阵,并利用基于非负矩阵分解的社区发现算法进行话题发现。相比于传统话题发现算法,例如LDA,该方法不但不用假设词语间是条件独立的能够捕获词语间的语义关联,而且具有更快的计算速度(30+倍)和更高的准确率。然后,在利用非负矩阵分解的算法检测到重叠社区后,这些社区是原始图数据的子集,具有高维稀疏的网络结构,但是图数据中的顶点和边往往带有自己的特征,这些特征以向量的形式存在,这使得检测得到的社区不能很好地与顶点特征和边特征相结合。为解决上述问题,本文利用顶点社区关系模型将表示网络社区映射为欧式空间特征向量,从而使得社区特征可以方便地与用户特征相结合。实验表明,该社区特征带来了7.2%的效果提升,证明将网络社区映射为欧式空间特征向量的操作是有效的,同时该社区特征中嵌入了网络社区信息。最后,新疆各地的加气站积累了大量的车辆加气数据,这些数据可以表示成一个二元异构网络。二元异构网络指的是,网络中包含两种不同类型的顶点,且仅在不同类型的顶点之间存在边,同种类型的顶点之间不存在边。为对该加气数据利用图挖掘的技术进行分析,本文利用基于非负矩阵分解的重叠社区发现算法进行分析,挖掘出车辆与加气站之间的聚集关系。该聚集关系,不仅反映了真实的车辆加气行为聚集情况而且在车辆异常检测、车辆团伙检测中可以发挥重要价值。 |
源URL | [http://ir.xjipc.cas.cn/handle/365002/5455] ![]() |
专题 | 新疆理化技术研究所_多语种信息技术研究室 |
推荐引用方式 GB/T 7714 | 赵清华. 基于非负矩阵分解的重叠社区发现研究及其应用[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2018. |
入库方式: OAI收割
来源:新疆理化技术研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。