基于CRF模型的语义角色标注研究
文献类型:学位论文
作者 | 董静 |
学位类别 | 博士 |
答辩日期 | 2007-06-07 |
授予单位 | 中国科学院软件研究所 |
授予地点 | 软件研究所 |
关键词 | 语义角色标注 语义角色标注规范 汉语实体关系抽取 |
其他题名 | The Study of Semantic Role Labeling Based on the CRF Model |
中文摘要 | 语义分析是自然语言理解的关键技术之一。尽管经过几十年的发展,目前仍没有成熟的方法能够自动获取文本的语义信息。语义角色自动标注是对这一关键技术的初步探索。 本文首先介绍语义角色标注的定义和语料资源,其后在对现有的语义角色标注方法进行较深入分析和总结的基础上,提出了不同的特征选择方法来对英语和汉语进行语义角色标注。在汉语的实体关系抽取中,提出区分包含关系和非包含关系的方法,通过引入语义角色标注的特征来提高汉语实体关系的抽取精度。具体地说,本文的主要工作有: 第一,从标注方法、标注步骤以及特征选择这三个方面总结和分析了目前国内外语义角色标注的研究现状。另外,还介绍了汉语语义角色标注以及语义角色标注的应用情况,包括自动问答,信息抽取,机器翻译等。在此基础上,我们给出了未来语义角色标注研究值得关注的几个问题。 第二,针对基于树条件随机场模型的英语语义角色标注方法中,句法树父子结点之间的约束关系相对比较薄弱的不足,我们提出“压平”句法树,在线性链条件随机场模型中引入句法树“水平层次”上的角色标签之间的马尔科夫依赖关系。另外,在比较了不同特征对于语义角色标注任务的影响后我们提出了一些新的特征以提高英语语义角色标注系统的性能。 第三,针对汉语语义角色标注任务,我们定义了12角色的汉语语义角色标注规范,并且选用863TreeBank中部分新闻和应用类型的文档作为标注语料。同样基于线性链条件随机场模型,但结合汉语的特点,我们提出了更多的语言特征,取得了积极的效果。 第四,在汉语实体关系抽取任务中,我们提出将实体关系抽取划分为包含关系抽取和非包含关系抽取两个子任务。针对这两种关系的差异,我们采取不同的适合各自特点的句法特征集,尤其是对非包含关系,我们引入语义信息,借鉴语义角色标注的特征,以提高汉语实体关系抽取系统的性能。 |
语种 | 中文 |
公开日期 | 2011-03-17 |
页码 | 79 |
源URL | [http://ir.iscas.ac.cn/handle/311060/7210] ![]() |
专题 | 软件研究所_中科院软件所_中科院软件所 |
推荐引用方式 GB/T 7714 | 董静. 基于CRF模型的语义角色标注研究[D]. 软件研究所. 中国科学院软件研究所. 2007. |
入库方式: OAI收割
来源:软件研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。