中国科学院机构知识库网格系统: 基于单语字对齐的无监督分词及其在领域适应中的应用

中国科学院机构知识库网格

Chinese Academy of Sciences Institutional Repositories Grid

基于单语字对齐的无监督分词及其在领域适应中的应用

文献类型：学位论文


作者	滕志扬
答辩日期	2014-12-01
文献子类	硕士
授予单位	中国科学院研究生院
授予地点	北京
导师	刘群
关键词	中文分词单语字对齐无监督分词 Pitman-yor 过程领域适应
学位专业	其它专业
英文摘要	不同于英语，中文的词与词之间没有显著的边界标记。句法分析、机器翻译等自然语言处理任务大多以词作为基础单元。分词问题吸引了很多学者们的研究目光。以字标注为代表的有监督分词方法取得了较好的分词效果。然而有监督分词过于依赖人工标注的语料，存在领域适应性问题。在大规模的无标注语料上由无监督分词方法学习到的信息可以用于改善有监督分词的效果。但是传统的无监督分词方法倾向于将词看作是连续的字符串，对于词内部结构刻画尚有不足。对词的内部结构建模可以帮助分词。本文使用字对齐描述词的内部结构，它可以描述词内部字和字之间松散的关联关系。通过利用单语字语料中的字对共现、字的位置等全局信息，可以学习到句子级的字对齐结构。句子级的字对齐结构可以用于更好地推导出词和词的内部结构。因此，本文研究利用单语字对齐改进无监督分词并探索单语字对齐在有监督分词领域适应中的应用。研究内容主要分为三个部分：基于单语字对齐的两阶段无监督分词模型，单语字对齐和分词的联合模型，以及单语字对齐在领域适应中的应用。具体的说，本文研究的内容主要如下： 1. 基于单语字对齐的两阶段无监督分词模型本章提出了一个两阶段的无监督分词模型。先利用双语词对齐工具GIZA++获得单语字对齐结果，根据对齐一致性约束等启发式方法构建词图，然后利用非参贝叶斯语言模型求解最优的切分。本章的贡献包括两个方面。首先，按长度枚举生成的词图边数较多，存在较多的噪声。本章提出了三种基于单语字对齐的候选词语抽取算法，并将它们结合使用以生成更为紧凑的词图。其次，基于非参贝叶斯的无监督分词方法的一个关键问题是设计拼写模型评估一个字序列成词可能性。传统的n元字语言模型在于只能考虑连续的字之间关系，本工作提出了联合字关联模型和n元字语言模型的拼写模型，考虑了非连续的字之间的关系。实验表明本章提出的拼写模型和基于字对齐的词图生成方法能有效提高无监督分词的效果。 2. 无监督联合单语字对齐和分词研究内容一中字对齐结果仍然由词语对齐工具GIZA++生成，字对齐和分词是两个独立的过程。为了更好地建立单语字对齐和分词之间的关联，本章提出了一种联合模型，同时生成单语字对齐和分词。联合模型是包含了五个子模型的专家模型，它们分别是由双语词语对齐改变而来的字关联模型、位置模型、繁衍模型和转移模型，以及跟分词有关的层次化Pitman-Yor语言模型。一个吉布斯采样器对单语字语料做阻塞采样，生成字对齐和词语切分的样本。该模型是一个纯无监督的非参贝叶斯模型，它综合考虑了字对齐和词语切分两方面的因素。相比于单独的字对齐，它用词语切分模型约束对齐的结果；相比于简单的层次化Pitman-Yor语言模型，它引入了更丰富的字级别的特征。实验表明本文所提出的模型在英语音标数据集和中文数据集中均取得了很好的效果。 3. 单语字对齐在领域适应中的应用简单的字标注模型往往不具有良好的领域适应性。识别未登录词是提升领域适应能力的关键。我们认为词虽然有可能是未登录的，但是词的字对齐模式可能在训练语料中出现过。本章利用单语字对齐建立未标注的目标领域语料和带标注的训练领域语料的联系，然后提取与字对齐有关的特征。这些特征涵盖了字对齐结构、对齐互信息、字对齐推导出的词等信息。在新闻和小说语料上的实验表明本章所提出的方法有效提高了字标注分词模型在领域适应中的效果。
学科主题	自然语言处理
语种	中文
公开日期	2002-01-21
源URL	[http://ictir.ict.ac.cn/handle/311040/2064]
专题	中国科学院计算技术研究所学位论文_2014硕士
推荐引用方式 GB/T 7714	滕志扬. 基于单语字对齐的无监督分词及其在领域适应中的应用[D]. 北京. 中国科学院研究生院. 2014.

入库方式： OAI收割

来源：计算技术研究所

浏览0

下载0

收藏0

其他版本

除非特别说明，本系统中所有内容都受版权保护，并保留所有权利。