中国科学院机构知识库网格
Chinese Academy of Sciences Institutional Repositories Grid
基于大规模语料库的古文词典构建及分词技术研究

文献类型:期刊论文

作者邢付贵1,2; 朱廷劭1,2
刊名中文信息学报
出版日期2021
卷号35期号:07页码:41-46
关键词古汉语分词 大数据 语料库
ISSN号1003-0077
其他题名Large-scale Online Corpus Based Classical Integrated Chinese Dictionary Construction and Word Segmentation
产权排序1
文献子类数据论文
中文摘要

The classical Chinese word segmentation is an important step to analyze existing ancient documents. In this paper, we first collect unstructured classical Chinese online corpus and accumate a basic dictionary. Then the candidate new words are discovered by a multi-feature fusion strategy, including mutual information, information entropy, and position word probability. Finally, a CCIDict of 349,740 words is applied with the forward maximum matching to segment the words in classical Chinese texts, achieving 14% improvements in F-value compared with the open-source Jiayan.

英文摘要

古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。

收录类别CSCD
项目简介

国家社会科学基金(17AZD041)

语种中文
源URL[http://ir.psych.ac.cn/handle/311026/40472]  
专题心理研究所_社会与工程心理学研究室
作者单位1.中国科学院大学心理学系
2.中国科学院心理研究所
推荐引用方式
GB/T 7714
邢付贵,朱廷劭. 基于大规模语料库的古文词典构建及分词技术研究[J]. 中文信息学报,2021,35(07):41-46.
APA 邢付贵,&朱廷劭.(2021).基于大规模语料库的古文词典构建及分词技术研究.中文信息学报,35(07),41-46.
MLA 邢付贵,et al."基于大规模语料库的古文词典构建及分词技术研究".中文信息学报 35.07(2021):41-46.

入库方式: OAI收割

来源:心理研究所

浏览0
下载0
收藏0
其他版本

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。