基于大规模语料库的古文词典构建及分词技术研究
文献类型:期刊论文
作者 | 邢付贵1,2; 朱廷劭1,2![]() |
刊名 | 中文信息学报
![]() |
出版日期 | 2021 |
卷号 | 35期号:07页码:41-46 |
关键词 | 古汉语分词 大数据 语料库 |
ISSN号 | 1003-0077 |
其他题名 | Large-scale Online Corpus Based Classical Integrated Chinese Dictionary Construction and Word Segmentation |
产权排序 | 1 |
文献子类 | 数据论文 |
中文摘要 | The classical Chinese word segmentation is an important step to analyze existing ancient documents. In this paper, we first collect unstructured classical Chinese online corpus and accumate a basic dictionary. Then the candidate new words are discovered by a multi-feature fusion strategy, including mutual information, information entropy, and position word probability. Finally, a CCIDict of 349,740 words is applied with the forward maximum matching to segment the words in classical Chinese texts, achieving 14% improvements in F-value compared with the open-source Jiayan. |
英文摘要 | 古文献的研究有助于传统文化的继承与发扬,而古文分词则是利用自然语言处理技术对古文献进行分析的重要环节。当前互联网拥有大量古汉语文本和词典方面的数据资料,该文提出利用互联网大规模古文语料构建古文基础词典;进而通过互信息、信息熵、位置成词概率多特征融合的新词发现方法从大规模古籍文本中建立候补词典;最终将基础词典与候补词典融合,形成含有349 740个字词的集成古文词典CCIDict。在CCIDict基础上,利用多种分词算法实现古文的分词。基于CCIDict的正向最大匹配算法与开源的分词器甲言比较后,F值提高了14%,取得了良好的效果,证明基于大规模古文语料库建立的古文词典,能够提供良好的古文分词效果。 |
收录类别 | CSCD |
项目简介 | 国家社会科学基金(17AZD041) |
语种 | 中文 |
源URL | [http://ir.psych.ac.cn/handle/311026/40472] ![]() |
专题 | 心理研究所_社会与工程心理学研究室 |
作者单位 | 1.中国科学院大学心理学系 2.中国科学院心理研究所 |
推荐引用方式 GB/T 7714 | 邢付贵,朱廷劭. 基于大规模语料库的古文词典构建及分词技术研究[J]. 中文信息学报,2021,35(07):41-46. |
APA | 邢付贵,&朱廷劭.(2021).基于大规模语料库的古文词典构建及分词技术研究.中文信息学报,35(07),41-46. |
MLA | 邢付贵,et al."基于大规模语料库的古文词典构建及分词技术研究".中文信息学报 35.07(2021):41-46. |
入库方式: OAI收割
来源:心理研究所
其他版本
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。