汉英平行语料库中名词短语对齐算法的研究
文献类型:学位论文
作者 | 薛松 |
学位类别 | 博士 |
答辩日期 | 2003 |
授予单位 | 中国科学院软件研究所 |
授予地点 | 中国科学院软件研究所 |
关键词 | 平行语料库 对齐 名词短语对齐 |
学位专业 | 计算机软件与理论 |
中文摘要 | 随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消岐和跨语言信息检索也具有重要价值。在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。本文以平行语料库及其对齐技术在基于实例的机器翻译和机器辅助翻译中的应用为背景,讨论了《大规模汉英平行语料库》的建设,包括语料的采集、编码、句子对齐和语料库索引等问题。然后介绍了使用规则和统计相结合的方法进行汉英名词短语对齐的研究。对齐算法利用英语的句法分析器进行英语名词短语识别,采用句法模式规则过滤汉语名词短语候选集,最后通过基于共现频率的相似度计算来选取最佳配对。算法有效地克服了单纯利用规则和双语词典的方法的一些不足,提高了准确率。 |
语种 | 中文 |
公开日期 | 2011-03-17 |
页码 | 55 |
源URL | [http://ir.iscas.ac.cn/handle/311060/5982] ![]() |
专题 | 软件研究所_中科院软件所_中科院软件所 |
推荐引用方式 GB/T 7714 | 薛松. 汉英平行语料库中名词短语对齐算法的研究[D]. 中国科学院软件研究所. 中国科学院软件研究所. 2003. |
入库方式: OAI收割
来源:软件研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。