基于浅层语义的Web 信息抽取技术研究
文献类型:学位论文
作者 | 王宇 |
答辩日期 | 2010-01-12 |
文献子类 | 博士 |
授予单位 | 中国科学院研究生院 |
授予地点 | 北京 |
导师 | 方滨兴 |
关键词 | Web 信息抽取 浅层语义 模版过滤 主题相关性 有名属性 模式匹配 属性分布特征 |
学位专业 | 其它专业 |
英文摘要 | 自从伯纳斯•李于1991年发明万维网(World Wide Web)以来,Web已经迅速的成为人类最大也是最重要的资料库之一。但是,大部分Web网页缺少严格、一致的结构,因而难于被计算机程序所理解和应用。为了深入挖掘Web信息的内涵,Web信息抽取技术必不可少。该技术的目标是将方便浏览者阅读的网页转变成方便计算机处理的数据。目前Web信息抽取领域的主流方法都利用了待抽取信息的文本、结构、视觉特征。但是,这些特征都不是待抽取信息的本质特征,因此使用这些特征撰写的包装器仅对特定网页或属于特定网站的网页有效,而无法推广应用于其他网站。当需要从许多网页抽取信息时,每个网站都必须独立的生成包装器,并进行相应的配置,这增加了应用信息抽取技术的代价。 为了解决传统信息抽取方法推广困难、配置代价高的问题,本文提出了一种利用浅层语义进行信息抽取的研究思路:通过直接描述待抽取信息的语义,并在网页中定位具有这些语义的数据,从而完成信息抽取。语义是待抽取信息的本质特征,与信息所在的网站无关,因此具有推广能力。本文将这一研究思路应用于正文抽取与属性抽取任务,形成了基于浅层语义的正文抽取方法和基于浅层语义的属性抽取方法。除了这两项研究外,模版过滤是信息抽取的标准预处理过程,它能够清理网页中的模版,从而提高后续信息抽取步骤的结果质量。所以,本文也对模版过滤方法进行了研究。 论文的工作和贡献主要包括以下四方面: 首先,网页模版是指属于相同网站的网页共同包含的一些稳定的装饰结构和功能结构。大多数传统的模版过滤方法都利用模版的这个特点,通过比较一批网页来找到其中稳定的部分,这些部分被认为是模版。为了保证结果的准确性,模版过滤算法的输入必须包含足够多的网页。这必然导致处理的延迟,同时,存储许多原始网页也占用了大量空间。本文通过维护一个动态的数据结构,这个数据结构支持及时过滤新采集的网页,从而降低了时间延迟。同时,存储压缩结构而非原始网页降低了空间开销。 其次,一篇文章通常由标题和正文组成。标题简要的概括了正文的内容,因此可以作为正文的语义描述。这是基于浅层语义的正文抽取方法的基本思路。本文以新闻网页作为实验数据验证了这一思路的有效性。通过标准的信息检索方法计算标题与正文的相似度,并提出一种基于混合分布的改进隐马尔可夫模型作为新闻网页的生成模型,用该生成模型进行正文抽取。相对于传统的正文抽取方法,本文的方法抓住了正文内容的本质特点,因此抽取结果更为准确。为了更精确的描述这种方法的本质,这种方法又被称为“基于主题相关性的正文抽取方法”。 第三,将浅层语义用于属性抽取的基本思想是:网页中包含的数据对象由许多属性构成,为了帮助浏览者理解每个属性的含义,绝大多数属性都是有名属性,即在属性值的附近存在说明其含义的属性名。这些属性名可以作为相应属性的浅层语义描述。因此,已知待抽取属性的属性名,就可以利用属性名与属性值在结构和视觉上的相邻性进行属性抽取。这种方法又称为“领域无关的全自动有名属性抽取方法”。 最后,针对某一特定属性,不同网站可能使用不同的属性名。为了抽取这一属性,领域无关的全自动有名属性抽取方法必须预先知道所有这些属性名。因此,有名属性抽取首先需要从Web上采集许多属性名,并将它们根据语义聚类。目前已有许多属性名采集的成熟算法,因此本文主要考虑如何进行属性名语义聚类,也就是模式匹配问题。考虑到Web上存在着丰富的数据源,本文提出了一种结合属性分布特征的Web模式匹配算法,属性分布特征可以通过大量数据源的统计得到。相对于传统的基于属性名相似性和属性值相似性的模式匹配算法,结合属性分布特征后,模式匹配的准确率和召回率都有所提高。 |
学科主题 | 人工智能 |
语种 | 中文 |
公开日期 | 2010-01-22 |
分类号 | TP3 |
源URL | [http://ictir.ict.ac.cn/handle/311040/98] ![]() |
专题 | 中国科学院计算技术研究所学位论文_2010博士 |
推荐引用方式 GB/T 7714 | 王宇. 基于浅层语义的Web 信息抽取技术研究[D]. 北京. 中国科学院研究生院. 2010. |
入库方式: OAI收割
来源:计算技术研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。