中文实体提及识别及其共指消解关键技术研究
文献类型:学位论文
作者 | 冯元勇 |
学位类别 | 博士 |
答辩日期 | 2008-01-10 |
授予单位 | 中国科学院软件研究所 |
授予地点 | 软件研究所 |
关键词 | 命名实体识别 实体提及识别 实体提及共指消解 机器学习 实体检测与识别 文本内容抽取 |
其他题名 | Study on Some Key Issues in Chinese Entity Mention Detection and Coreference Resolution |
中文摘要 | 随着计算机应用的深入和互联网的发展,人们可获得的信息量急剧增加,如何自动有效地从网络资源中找到用户真正需要的信息成为当前的迫切需求。文本内容抽取提供了一种对文档实体等信息进行有效提取、结构化的手段。文本内容抽取的关键技术包括实体提及的识别及其共指消解。 与西方语言相比,中文缺乏明显的语法提示特征,因此中文实体提及识别与共指消解更为困难。本文以中文自由文本为研究对象,在最大熵框架下,对以名称型实体提及为主的实体提及识别及其共指消解关键问题开展了深入研究。主要研究工作和创新点如下: (1) 将尾字提示特征引入到中文地名和机构名一体化名称型实体提及识别框架中。提出了对常规提示词具有良好泛化能力、又可有效避开分词错误的尾字特征。这些特征对识别难度较大的地名和机构名两类名称型提及具有良好的提示作用。在863和SIGHAN语料上的实验表明,该特征与词类特征具有一定的互补性,联合使用可以以较小的训练代价,显著提高各类名称型提及的识别性能,特别是机构名的识别精度。 (2) 提出了基于感知器和邻近标签语义约束的条件随机场模型快速训练算法。针对条件随机场模型训练复杂度高、收敛慢的问题,提出了一种改进的快速算法。首先通过引入小规模用字特征(主要为地名和机构名的尾字特征)降低特征的规模,然后通过感知器算法获得更合理的初始参数集,最后通过在推理过程中引入任务相关的人工知识压缩Viterbi和Baum-Welch格(trellis)搜索空间。在中文863评测语料和SIGHAN06语料集上进行的实验表明,该算法在不影响中文名称型实体提及识别精度的同时,总训练时间减少了近40 %。 (3) 提出了基于分类信心重排序的中文实体提及共指消解全局最优逼近算法。针对常规分步共指消解框架中分类器缺乏全局信息的不足,提出了根据分类信心来调整共指链生成(聚类)顺序的新方案。该方案依据分类信心对全体提及配对进行排序,优先保证可靠的分类结果对提及进行聚集或分离,使得聚类过程向全局最优逼近。实验表明,分类信心的引入,在多个学习框架下显著改善了系统的整体消解性能。 |
语种 | 中文 |
公开日期 | 2011-03-17 |
页码 | 142 |
源URL | [http://ir.iscas.ac.cn/handle/311060/5634] ![]() |
专题 | 软件研究所_中科院软件所_中科院软件所 |
推荐引用方式 GB/T 7714 | 冯元勇. 中文实体提及识别及其共指消解关键技术研究[D]. 软件研究所. 中国科学院软件研究所. 2008. |
入库方式: OAI收割
来源:软件研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。