中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于多层条件随机场模型的自然语言序列标注研究

文献类型:学位论文

作者蔡勋梁
学位类别工学硕士
答辩日期2007-06-19
授予单位中国科学院研究生院
授予地点中国科学院自动化研究所
导师赵军
关键词序列标注 条件随机场 多层条件随机场 统计学习 Sequence Labeling Conditional Random Fields Multi-Layered Conditional Random Fields Statistical Machine Learning
其他题名The Research on MLCRF-Based Sequence Labeling Approaches in Natural Language Processing
学位专业计算机应用技术
中文摘要序列标注问题是自然语言处理领域的一个非常常见的任务,从浅层的分词、词性标注,到较深层的组块分析以至更为深层的完全句法分析、语义角色标注等任务,都可以看作是典型的序列标注问题。序列标注问题具有样本间关联紧密,样本的标记间相关性强的特点,传统的单点分类器方法难以获得整个序列的最优标记。条件随机场模型作为一个整句联合标定的判别式概率模型,同时具有很强的特征融入能力,是目前解决自然语言序列标注问题最好的统计模型之一。 但自然语言本身的特性决定了自然语言标注问题特有的两大难点:任务标记数目庞大、多任务间关联性强。而另一方面,条件随机场模型有着比较高的训练复杂度,并且这一复杂度随任务标记数目和模型结构复杂度的增加而大幅增加。这使得条件随机场模型应用于词性标注等具有大标记集的真实任务、或者一体化处理多个关联任务时,都面临计算量过大的问题。 本文在普通线性链条件随机场的基础上,提出了多层条件随机场模型,该模型各个分层都是线性链结构,在训练阶段将层间特征引入各分层,每层平行独立训练,解码阶段多层联合求解最优联合标记。这使得多层条件随机场模型在大大降低模型训练复杂度的同时,具有多层联合标定的能力。 论文结合具体的自然语言序列标注任务,研究了多层条件随机场模型在自然语言序列标注问题中的几种典型应用,主要包括: [1] 利用多层条件随机场模型处理可分层的大标记集任务 自然语言处理中像实体识别、组块分析之类的任务,可以分解为分割与分类两个关联的子问题。利用多层条件随机场模型处理这类任务,可以利用两个分层模型分别处理分割和分类任务,这样既大大降低了模型的训练复杂度,同时也通过层间关联的引入和两层联合解码保证了模型的标注性能。 [2] 结合ECOC编码技术与多层条件随机场模型处理大标记集任务 对于像词性标注这种不具备明显可分层特点的大标记集任务,本文提出了结合ECOC编码技术的多层条件随机场标注方法,通过ECOC编码技术将大标记集分为若干个层级的小标记集,然后利用多层条件随机场模型处理。这种方法既可以降低训练复杂度,又能引入编码位元间的关联,避免了ECOC方法与普通线性链条件随机场模型结合时过强的位元间独立假设。 [3] 利用多层条件随机场模型处理多任务一体化标注 多层条件随机场模型将前层标记作为观测特征引入后层模型,并采用多层联合解码算法。这使得该模型在不改变线性链模型结构的情况下,可以引入层间关联关系,实现多层任务的联合标注。模型结构的简单性使得多层条件随机场模型可以应用于多任务一体化标注的大规模实际任务。 在实际的自然语言序列标注任务上的实验表明,多层条件随机场模型能很好地应用于上述三类应用任务,解决目前基于条件随机场模型的方法处理这三类问题时的不足。
英文摘要In the field of natural language processing, the sequence labeling problem is a common and important task. The sequence labeling approach aims at global optimization while traditional classification methods at single point only find out the local optimization. Considered as a discriminative probabilistic model for sequence joint labeling and with the advantage of flexible feature fusion ability, Conditional Random Fields (CRF) is believed to be one of the best probabilistic model for sequence labeling tasks. Based on the common linear CRF model, we proposed multi-layered CRF (MLCRF) model, each layer of which has a linear chain structure. The relative features between layers are introduced into the model in the training stage, and each layer is trained in a parallel and separate way, and the optimal joint labels are finally chosen through computation over all layers. With those steps, the multi-layered model could reduce the training complexity and obtain multi-layer optimal labeling solution. We design several experiments in NLP to evaluate the capability and robustness of our model in practical sequence labeling application, which is listed as follows. [1] Apply multi-layered CRF on the tasks with separable huge label set; [2] Combine ECOC encoding and multi-layered CRF on the tasks with inseparable huge label set; [3] Apply multi-layered CRF on joint labeling of multi-task combination. The experimental results show that multi-layered CRF performs satisfactorily on these kinds of applications. In summary, multi-layered CRF could be a good solution on these tasks where traditional CRF fails.
语种中文
其他标识符200428014628064
源URL[http://ir.ia.ac.cn/handle/173211/7417]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
蔡勋梁. 基于多层条件随机场模型的自然语言序列标注研究[D]. 中国科学院自动化研究所. 中国科学院研究生院. 2007.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。