基于篇章分析的统计机器翻译方法研究
文献类型:学位论文
作者 | 涂眉 |
学位类别 | 工学博士 |
答辩日期 | 2015-05-29 |
授予单位 | 中国科学院大学 |
授予地点 | 中国科学院自动化研究所 |
导师 | 宗成庆 |
关键词 | 篇章分析 机器翻译 机器翻译 语法衔接性 Chinese discourse parser machine translation rhetorical structure grammatical cohesion |
其他题名 | Approaches to Statistical Machine Translation Based on Discourse Analysis |
学位专业 | 模式识别与智能系统 |
中文摘要 | 近年来,统计机器翻译发展迅速,涌现出很多新的模型和方法,在简单句或者句式固定的翻译上取得了较好的结果,并获得了一定的应用,但是在复杂长句的翻译上仍然存在连贯性差、可读性不高的问题。随着语言资源的不断丰富,人们对翻译质量的要求不断提高,如何改善复杂长句乃至篇章的译文质量逐渐吸引了研究人员的视线。目前对于这类问题的相关研究大多集中于词汇层面的衔接性和连贯性上,而缺乏对句子逻辑结构的深层次理解,因此译文在语法层面的衔接性、逻辑语义层面的完整性和一致性上依然存在问题,并且影响了句子的语义连贯性。因此,研究如何自动获取篇章的逻辑结构信息,并借助篇章信息解决译文的语法衔接、逻辑语义等一系列问题,具有重要的理论意义和应用价值。 本文从面向篇章翻译的基本需求出发,对如何自动获取源语言(这里针对汉语)的篇章结构和逻辑关系进行了深入研究。在此基础上,本文提出了基于修辞结构的翻译方法,并借助复句结构和词对齐信息对翻译中的语法衔接现象建立了翻译模型,最后探讨了如何利用双语的篇章单元信息来保持译文篇章单元的完整性。 论文的主要工作和创新点归纳如下: 1、 设计实现了基于最大熵方法的汉语篇章一体化分析器,为面向汉语篇章的机器翻译系统提供了关键的预处理语言学信息:基本篇章单元、篇章结构和篇章关系。 就基于篇章的统计机器翻译而言,构建一个一体化的篇章分析器是必要条件。一方面,目前有关汉语篇章自动分析的工作大都只针对篇章分析中某个单独的任务,比如切分篇章单元,或者识别复句关系;另一方面,目前相关研究工作所依据的理论框架不尽相同,标注标准很不统一,仅将已有的汉语篇章切分或识别的工作简单地串联起来不利于后续的分析和使用。因此,考虑到目前机器翻译任务中(特别是汉-英翻译)存在大量的复句,本文针对汉语复句设计了一体化的自动分析器,在统一的理论标注框架下完成了以下三项任务:(1)汉语篇章单元的切分:采用序列标注的方法自动切分汉语篇章单元;(2)汉语篇章结构的分析:本文提出了基于最大熵模型的篇章结构参数估计方法,并设计了词汇化和句法信息相结合的特征,以 CYK解码的方式自底向上地构建篇章结构;(3)篇章关系的识别:在篇章结构树的基础上对篇章关系进行分类和识别。实验结果显示,篇章单元识别效果能达到0.89的F值,当复句关系不超过三层时,复句结构和关系的分析效果较好。 2、 提出了一种基于修辞结构的翻译方法,该方法将源语言篇章单元和显式篇章关系融入翻译模型,保证了译文和源语言在修辞关系上的一致性。 目前主流的翻译系统并未考虑如何让译文忠实地反映源语言句子的修辞关系和修辞结构,仅根据翻译模型、语言模型等特征挑选译文,这可能会导致源语言句子的语义完整性在翻译过程中遭到破坏,更无法保证译文和源语言具有一致的修辞关系。本文从显式修辞关系出发,提出了一种基于修辞结构的翻译框架,并将其与基于短语的翻译模型相结合以适应复杂长句的翻译。该方法将源语言篇章单元和显式篇章关系纳入翻译模型的考虑范围,在一定程度上保证了源语言基本篇章单元的完整性,... |
英文摘要 | In recent years, the research on statistical machine translation (SMT for short) has made great progress, with many novel models and approaches springing up. The performance of current SMT systems on sentences with fixed patterns or simple structure is acceptable, which enables growing applications of SMT. However, most mainstream systems still suffer from severe problems of cohesion and coherence, especially for compound-complex sentences. With the advance of related language resources, it becomes an increasing concern to improve the translation quality of compound-complex sentences or even a discourse. As far as we know, most related research works focus on lexicon-based cohesion or lexicon-based coherence, ignoring the deep understanding of rhetorical structure. The translation problems of grammatical cohesion and logical structure stay unsolved, let alone the semantic coherence. Therefore, the problems of how to automatically analyze the logical structure of the source sentence or discourse, and then how to take advantage of the analyzed results for text organization of translation, grammatical cohesion, as well as semantic integrity are worth being studied both in theory and application. This dissertation focuses on how to improve the translation quality of compound-complex sentences based on discourse structure analysis. The main contributions are summarized as follows: 1. We design an end-to-end Chinese discourse structure parser, to provide necessary linguistic knowledge for the discourse-oriented machine translation. Most of the related works of Chinese discourse parsing focus on a single task in parsing, i.e. either elementary discourse unit segmentation, or rhetorical relation recognition. In addition, previous works are sometimes based on different annotation framework. It is not suitable to integrate them in a pipeline. Instead, we design an end-to-end parser which is able to segment elementary discourse unit, then build the discourse structure as well as recognize the rhetorical relation, given a raw Chinese text. The experimental results show that the structural F-score achieves 0.81 when there are less than 6 relations. The relation recognition F-score achieves 0.79 when there are two or three relations. 2. We propose a rhetorical-structure-based machine translation framework, to keep the rhetorical structure of translation consistent with that of source sentence. It is not trivial for translation model to keep the rhetorical relation ... |
语种 | 中文 |
其他标识符 | 201218014628054 |
源URL | [http://ir.ia.ac.cn/handle/173211/6730] ![]() |
专题 | 毕业生_博士学位论文 |
推荐引用方式 GB/T 7714 | 涂眉. 基于篇章分析的统计机器翻译方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2015. |
入库方式: OAI收割
来源:自动化研究所
浏览0
下载0
收藏0
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。