文件名称:中文分词算法.docx
文件大小:18KB
文件格式:DOCX
更新时间:2023-05-08 06:43:25
中文分词 算法设计
1、颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“*局长”可以分为“* 局长”、“*局 长”、“*局长”都算对,但是要用于语义分析,则“*局长”的分词结果最好(当然前提是所使用的词典中有这个词)
文件名称:中文分词算法.docx
文件大小:18KB
文件格式:DOCX
更新时间:2023-05-08 06:43:25
中文分词 算法设计
1、颗粒度越大越好:用于进行语义分析的文本分词,要求分词结果的颗粒度越大,即单词的字数越多,所能表示的含义越确切,如:“*局长”可以分为“* 局长”、“*局 长”、“*局长”都算对,但是要用于语义分析,则“*局长”的分词结果最好(当然前提是所使用的词典中有这个词)