NLP自然语言处理(二)——中文分词篇.pdf

时间:2022-04-28 12:24:45
【文件属性】:

文件名称:NLP自然语言处理(二)——中文分词篇.pdf

文件大小:207KB

文件格式:PDF

更新时间:2022-04-28 12:24:45

自然语言处理 中文分词 文档资料 人工智能 nlp

中⽂分词技术有三种组成:基于规则的、基于统计的、混合分词 基于规则的分词在已经建⽴好词库的前提下,通过扫描⽂本内容匹配到词库中,若词库中存在⽂本中某词,则把该词单独提取出来。 基于统计的分词需要建⽴语料库并设计分词模型,将中⽂⽂本通过训练好的模型进⾏⾃动分词。 混合分词先进⾏基于规则的分词、再进⾏基于统计的分词,这样分词效果最好,但是也最⿇烦。


网友评论