微博客中面向网络热点的信息挖掘应用研究
文献类型:学位论文
作者 | 宋双永 |
学位类别 | 工学博士 |
答辩日期 | 2012-05-29 |
授予单位 | 中国科学院研究生院 |
授予地点 | 中国科学院自动化研究所 |
导师 | 戴汝为 |
关键词 | 微博客 网络热点 主题关联 情感分析 内容浏览 Micro-blogging Popular Topics Association between Topics Opinion Mining Information Browsing |
其他题名 | Research on Internet Hotspot-Oriented Information Mining from Micro-blogging Services |
学位专业 | 模式识别与智能系统 |
中文摘要 | 微博客作为一种新型的网络媒体,以其简洁方便的交互方式,受到越来越多网络用户喜爱。用户能够通过微博客平台实时地了解当前的社会热点,关注自己喜欢的主题,并针对这些内容发表和分享自己的观点言论。如何利用微博客的实时性和交互性等特点,从中发现与社会热点事件和网络热点主题相关的内容,从而帮助普通用户、商家、决策部门等从不同角度获取所需要的信息,已成为当前微博客背景下的研究热点。 微博客中的帖子内容简短,信息发布渠道方便多样,使得用户能够随时随地将自己感兴趣的内容分享到微博客平台之中,通过对微博客信息进行自动归类,并发现各类信息之间的隐含关联,能够方便用户对最新的微博客信息进行整体浏览;微博客中的信息能够实时地反应用户当前最关注的内容,而用户在一段时间内的兴趣往往会集中在当前的一些社会热点事件或者热点主题,通过挖掘微博客信息中关注度较高的网络热点,有利于准确了解用户的整体兴趣分布,并能够进一步把握网民兴趣的变化趋势;用户对网络热点的关注体现为时间变化和空间分布两方面,通过发现用户对不同网络热点的关注度随时空变化的相似性,能够挖掘网络热点之间的关联,使得用户能够了解到与感兴趣热点相关的更多内容;用户在针对感兴趣的热点事件发表帖子时,往往会针对该事件的不同方面发表自己的观点言论,通过对事件的不同角度进行用户情感分析以及情感趋势监测,能够帮助了解民众对特定热点事件的情感变化,从而辅助评估和掌握事件的发展状况。本文以微博客为研究背景,运用网络信息挖掘技术从信息归类浏览、网络热点发现、网络热点关联检测以及针对热点事件的网民情感分析几方面对微博客内容进行分析和研究,主要工作包括如下几个方面: 1、提出了一种基于概率主题模型的微博客内容浏览方法,用于对微博客中包含的信息进行自动归类,并发现各类信息之间的隐含关联关系,方便用户对微博客信息进行整体浏览。该方法基于相关主题模型,通过‘用户-主题-词语’三维关联矩阵的建立,帮助用户快速了解最近一段时间内的主题类别,并查找与其感兴趣内容相关的其他用户作为备选好友,同时计算各类主题之间的关联关系,帮助用户了解更多感兴趣的内容。 2、提出了一种基于用户兴趣的微博客网络热点检测模型,用于抽取一段时间内的网络热点,并通过跟踪特定事件或主题的用户关注程度随时间的变化规律,发现其关注度较高的时段,以此分析微博用户的群体兴趣变化。该模型通过分析用户发表的帖子信息,建立“用户-主题”的对应兴趣关系,并利用用户之间的好友关联,进一步建立主题之间的兴趣关联网络,最后利用基于链接的排序算法,实现基于用户兴趣的主题热度排序,发现特定时间段内的热点主题。 3、提出了一种基于主题之间时空序列相似性计算的微博客主题关联检测模型,用于发现微博客中所包含的热点主题之间的关联关系,帮助用户了解与自己感兴趣主题相关的更丰富的内容。该模型首先将微博客中的主题表示成相应的时空序列模式,之后计算主题之间的时空序列相似度,从而发现主题之间的关联关系。通常情况下,一个主题在不同时间会与不... |
英文摘要 | As a new type of Internet media, micro-blogging has gained more and more attention due to its simple and convenient interactive ways. Users can understand the current social focuses through micro-blogging, pay attention to topics of interest, publish and share their views on those contents. How to utilize the real-time and interactivity features of micro-blogging to discover useful information on Internet hotspots and social focuses, then help different micro-blogging users, like regular users, companies and government departments, to get information they need from different aspects, has become the current research hotspots in micro-blogging. In micro-blogging, user-generated posts are short, and the information publishing channels for micro-blogging are convenient. Those features of micro-blogging make users publish interesting contents into micro-blogging platform easily, anywhere and anytime. By automatically classifying the micro-blogging information and discovering the implicit relationships among different categories of information, we can provide users a convenient way to browse the current micro-blogging contents. Meanwhile, contents in micro-blogging can real-timely reflect users' current interest, and users' may pay attention to numbered Internet hotspots and social focuses for a period of time. By mining the Internet hotspots and social focuses which has attracted a lot of attention, we can well understand the distribution of micro-blogging users' interest, and further grasp the changing trends of Internet users' interest. Furthermore, users' attention on Internet hotspots may change temporally and spatially. By detecting the similarity between spatio-temporal series of different Internet hotspots, we can discover the relationships between them, which can help realize the content extension about the query topic, and provide users with more information about topics of their interest. In user-generated posts in micro-blogging, users' views about different aspects of social focuses will be expressed. By analyzing and monitoring sentiment information in micro-blogging posts, we have opportunities to gain insights into users' emotion trend on different aspects of social focuses, which can help us evaluate and grasp the current situation of social focuses. Based on web mining techniques, this thesis studies micro-blogging from these four major research questions, i.e. information browsing, Internet hotspots detection, detection of association bet... |
语种 | 中文 |
其他标识符 | 200918014628046 |
源URL | [http://ir.ia.ac.cn/handle/173211/6434] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 宋双永. 微博客中面向网络热点的信息挖掘应用研究[D]. 中国科学院自动化研究所. 中国科学院研究生院. 2012. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。