文件名称:NLP自然语言处理(二)——中文分词篇.pdf
文件大小:207KB
文件格式:PDF
更新时间:2022-04-28 12:24:45
自然语言处理 中文分词 文档资料 人工智能 nlp
中⽂分词技术有三种组成:基于规则的、基于统计的、混合分词 基于规则的分词在已经建⽴好词库的前提下,通过扫描⽂本内容匹配到词库中,若词库中存在⽂本中某词,则把该词单独提取出来。 基于统计的分词需要建⽴语料库并设计分词模型,将中⽂⽂本通过训练好的模型进⾏⾃动分词。 混合分词先进⾏基于规则的分词、再进⾏基于统计的分词,这样分词效果最好,但是也最⿇烦。