中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
借助网络信息的汉英实体翻译技术研究

文献类型:学位论文

作者杨帆
学位类别工学硕士
答辩日期2009-06-05
授予单位中国科学院研究生院
授予地点中国科学院自动化研究所
导师赵军
关键词命名实体 命名实体翻译 网络挖掘 web mining named entity named entity translation
其他题名Chinese-English Named Entity Translation with the Assistance of Web information
学位专业模式识别与智能系统
中文摘要命名实体翻译是机器翻译、跨语言信息检索等多语言信息处理领域的一项重要任务。同时,随着互联网的发展,网络资源日益丰富,如何将海量的网络资源用于命名实体翻译任务,以提高实体翻译的性能,成为了一个研究热点。 本文设计了一个借助网络信息进行命名实体翻译的整体框架,并重点研究了借助网络信息的汉英反向音译以及基于网络挖掘的汉英机构名翻译的方法。主要工作归纳如下: [1] 借助网络信息进行汉英命名实体翻译的系统框架 由于不同类别的命名实体具有其自身的翻译特点和规律,本文通过分析人名、地名和机构名的翻译特点和难点以及网络挖掘的基本方法,设计了利用网络信息进行汉英命名实体翻译的系统框架。 [2] 提出了借助网络信息辅助汉英反向音译的方法 音译是根据发音的相似性进行翻译的方法。使用统计模型进行汉英反向音译存在两个主要问题,一是反向音译过程难以恢复正向音译造成的信息损失。二是音译具有一定的习惯性,当出现音译标准不一致时,统计模型难以选择合适的翻译方案。针对以上两个问题,本文提出了一种借助网络信息辅助汉英反向音译的方法。首先构造一个从汉语拼音到英文音节的统计音译模型,对输入的汉语音译名产生若干最优翻译候选;然后借助一个海量英文单词表,将翻译候选修正为与之最相近的英文单词;最后,将修正后的翻译候选直接作为查询检索英文单语网页,通过在搜索引擎返回的网页片段中进行英文命名实体识别,并借助网页计数等特征,对翻译候选进行重排序。实验结果表明,相对于传统的统计音译模型,本文提出的方法可以将汉英反向音译的精确率提高38.81%。 [3] 提出了基于网络挖掘的汉英机构名翻译的方法 机构名是组成结构最复杂、变化形式最多的一类命名实体,使用统计模型进行机构名翻译存在词语选择、词序安排等诸多困难,性能较低。本文提出一种基于网络挖掘的汉英机构名翻译方法,直接从汉英混合网页中抽取中文机构名的英文翻译。该方法主要解决两个问题,其一是如何有效地检索到英文翻译存在的网页;其二是如何将英文翻译抽取出来。首先使用基于语块划分的分词方法对中文机构名进行分词,从而有效地避免未登录词的干扰,提高机构名分词的正确率;然后使用一种启发式方法从中文机构名分词序列中选择若干词语翻译为英文,并加入到查询中以检索汉英混合语言网页;最后,使用非对称对齐方法将中文机构名与返回的网页片段中的所有英文单词序列进行对齐,抽取出最优片段作为英文翻译。实验证明,相对于传统的统计翻译模型,基于网络挖掘的方法可以将机构名翻译的正确率提高30.42%。
英文摘要Named entity (NE) translation is an important sub-task in Machine Translation and Cross Language Information Retrieval. With the swift development of WWW, the web resources are richer and richer. On this condition, many researches focus on how to improve the performance of named entity translation with the assistance of web resources. In this dissertation, we propose a framework about how to translate named entities with the assistance of web resources. We concentrate on two sub-tasks, one is Chinese-English backward transliteration with the assistance of web information, and the other is Chinese-English organization name translation method based on web mining. [1] A system framework of named entity translation with the assistance of web resources We study on the translation characteristics of different types of names entities and the basic method of NE translation with the assistance of web resources. Based on the empirical analysis, we propose a framework of Chinese-English named entity translation with the assistance of web resources. [2] Chinese-English backward transliteration with the assistance of web information Transliteration is a translation method based on phoneme similarity. Appling statistical transliteration method on the task of Chinese-English backward transliteration has two main problems. First, it is hard to recover the information which has been lost in the forward transliteration step. Second, statistical transliteration approach selects the most probable translations based on the knowledge learned from the training data. This approach, however, does not work well when there are multiple standards in transliteration. In this dissertation, we propose a method which mines monolingual web resources to assist backward transliteration. First, we construct a statistical transliteration model from Chinese pinyin to English syllable. Using the model, we can get N-best transliteration candidates for a given Chinese name. Second, the transliteration candidates are revised to the English words which are mostly similar to them in a huge dictionary. At last, the translation candidates will be used as the queries to search English monolingual web pages directly. These candidates will be re-ranked based on the information extracted from snippets. The experimental results show that the method can outperform the traditional statistical transliteration model by 38.81% in precision. [3] A Chinese-English organization name translation method based...
语种中文
其他标识符200628014628061
源URL[http://ir.ia.ac.cn/handle/173211/7501]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
杨帆. 借助网络信息的汉英实体翻译技术研究[D]. 中国科学院自动化研究所. 中国科学院研究生院. 2009.

入库方式: OAI收割

来源:自动化研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。