cosine_similarities:根据 tfidfvectors 的余弦相似度查找相似推文

时间:2024-07-04 03:18:05
【文件属性】:

文件名称:cosine_similarities:根据 tfidfvectors 的余弦相似度查找相似推文

文件大小:4KB

文件格式:ZIP

更新时间:2024-07-04 03:18:05

Python

这是如何工作的 我们将实现一个简单而有效的模型,称为向量空间模型 (VSM)。 在这个模型中,我们基本上做的是将句子(在这种情况下是推文)投影到 n 维空间中,然后查看它们之间的角度,然后我们取其余弦。 这个值称为余弦相似度,该值在 0,1 之间变化。 因此,接近 0 (cos 90) 的向量与接近 1 (cos 0) 的向量不太相似。 执行 我们使用 scikit 的 TfidfVectorizer 将推文投影为向量,并计算这些向量之间的余弦相似度并存储在文件中。 这绝不是高计算效率,所以请忍受这段旧但有用的代码。 如何使用 你需要先设置一点。 在“ config.py ”文件中,您需要添加所需的推特密钥,以便程序可以访问推特流 API。 在“ stream.py ”下,您可以在两个函数之间进行选择,搜索查询#hashtag 或获取用户流。 完成第 1 步和第 2 步后,运行,


【文件预览】:
cosine_similarities-master
----stream.py(1KB)
----run.py(298B)
----README.md(1KB)
----config.py(288B)
----vsm.py(2KB)
----tweet_processing.py(662B)

网友评论