文件名称:fuzzychinese:一个用于模糊匹配中文单词的小包装
文件大小:1.84MB
文件格式:ZIP
更新时间:2024-06-07 23:44:14
python natural-language fuzzy-matching chinese text-processing
fuzzychinese 形近词中文模糊匹配 A simple tool to fuzzy match chinese words, particular useful for proper name matching and address matching. 一个可以模糊匹配形近字词的小工具。对于专有名词,地址的匹配尤其有用。 安装说明 pip install fuzzychinese 使用说明 首先使用想要匹配的字典对模型进行训练。 然后用FuzzyChineseMatch.transform(raw_words, n) 来快速查找与raw_words的词最相近的前n个词。 训练模型时有三种分析方式可以选择,笔划分析(stroke),部首分析(radical),和单字分析(char)。也可以通过调整ngram_range的值来提高模型性能。 匹配完成后返回相似度分数,匹配的相近词语及