文件名称:DIYNLP:一个句子相似度算法包,适合中文句子进行相似度分析
文件大小:985KB
文件格式:ZIP
更新时间:2024-06-03 11:22:20
Python
DIY中文NLP算法包 这是一个DIY的中文NLP算法包,具体算法分析请参见https://blog.csdn.net/greepex/article/details/80493045 其中有关于短文本相似度以及情感极性分析的算法。 短文本相似度算法(distance.py) 基于分词后单词: edit_similar(str1,str2):编辑距离相似度,输入为分词后的两个句子的列表,返回值为两者相似度。 cos_sim(str1, str2):余弦相似度,输入为分词后的两个句子的列表,返回值为两者相似度。 基于字符: difflib.SequenceMatcher(None,str1,str2).ratio():difflib为python自带的库,str1和str2无需分词。 综合相似度: compare(str1, str2):输入是两个字符串(中文句子),无需分词,返回值为两者相
【文件预览】:
DIYNLP-master
----model()
--------SA.model(3.37MB)
--------readme.md(25B)
----__init__.py(1B)
----SA.py(286B)
----README.md(976B)
----distance.py(2KB)