中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于深度学习的相似语言短文本的语种识别方法

文献类型:学位论文

作者张琳琳
答辩日期2019-05-23
授予单位中国科学院大学
授予地点中国科学院新疆理化技术研究所
导师杨雅婷
关键词语种识别 相似语言 短文本 文本分类 神经网络
学位名称硕士
学位专业计算机应用技术
英文摘要

语种识别就是给定一段文本判断所使用的语种,如英文、中文、维语、哈语和波斯语等。随着互联网的发展和普及,网络社交文本的数量激增,且出现多语种并存的现象。语种识别是自然语言处理的基础环节。语种识别的效果好坏,直接影响后续的任务,如机器翻译、推荐阅读、信息检索、词法分析及句法分析等。现如今,随着社交媒体的全球化发展以及以短文本作为主要载体,使得识别短文本的语种成为社交媒体中自然语言处理任务的一个挑战性热点课题。同时由于地区和文化带区分,有些地区会出现地理相近所使用的语言也会相似。如一些不同语种但属于相同语系的语言(如维吾尔语和哈萨克语),或一些地区的方言。对于这种相似语言的语种识别有很大的使用需求。所以本文是研究相似语言短文本的语种识别问题。常见的语种识别方法可以分为规则方法和统计方法两大类,规则方法需要人工总结出语法知识并将其转换为系统认可的规则,此方法严重依赖于设计人员对语言本身语法的充分了解和分析归纳,而且结果的正确性很难把握和评估。统计方法将语种识别当作一种特殊的文本分类问题处理,通常是根据Zipf定律,采用n-gram语言模型和统计机器学习的分类模型,通过n-gram词频特征实现语种识别。可以分为基于词的和基于字符的。传统的基于n-gram模型的语种识别工具在长文本上已经实现了很高的正确率,但在短文本尤其是口语文本的语种识别方面,准确率还有待提高。同时,由于基于n-gram模型,随着n的增大,计算消耗也会快速增加,对模型性能有影响。基于n-gram模型的语种识别模型由于n-gram语言模型固有的平滑等问题,在未登录词上可能无法正确识别。对于相似语言,由于语言的交融,会出现很多拼写完全相同或十分相似的词(如英语和荷兰语都有"is")。而且在短文本,尤其是口语文本中,常见词可能经常重复出现,这也降低了基于n-gram词频的语种识别的准确度。在语种识别方面,已经有基于字符和基于词的神经网络模型,但这些模型往往不能很好地兼顾词中字符的组合信息和词与词之间的组合信息,对信息量较小的短文本来说,不能充分利用文本特征进行识别。针对上诉问题,本文提出了一种基于字符的神经网络语种识别模型。该模型以词的字符输入卷积神经网络,获得词向量,再输入长短期记忆网络,最后进入分类层,实现语种识别。1) 该模型能同时获取词本身字符组合信息和词与词之间组合信息。2) 不需要语言学知识。3) 有效提高基于n-gram的语种识别模型性能。4) 能很好地解决未登录词等问题。5) 同时相比于传统的神经网络模型,能有效提高相似语言短文本的识别准确率。最后,在相似语言短文的维哈语料和DSLCC语料上进行对比实验均展现了不错的实验效果。

页码57
源URL[http://ir.xjipc.cas.cn/handle/365002/5992]  
专题新疆理化技术研究所_多语种信息技术研究室
推荐引用方式
GB/T 7714
张琳琳. 基于深度学习的相似语言短文本的语种识别方法[D]. 中国科学院新疆理化技术研究所. 中国科学院大学. 2019.

入库方式: OAI收割

来源:新疆理化技术研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。