text-dedup:多合一文本重复数据删除

时间:2024-05-01 07:31:27
【文件属性】:

文件名称:text-dedup:多合一文本重复数据删除

文件大小:42KB

文件格式:ZIP

更新时间:2024-05-01 07:31:27

nlp text-processing data-processing de-duplication Python

具有编辑距离,LSH或嵌入的文本重复数据删除。 (在制品) 用法 在重复项附近分组 import pandas as pd from text_dedup . dedupers import EditDistanceSimilarityDeduper from text_dedup import group_duplicates df = pd . read_csv (...) df_groups = group_duplicates ( df , deduper = EditDistanceSimilarityDeduper ( similarity_metric = "cosine" , threshold = 0.8 , k = 3 ), column = "text" , target_colum


【文件预览】:
text-dedup-main
----poetry.lock(79KB)
----pyproject.toml(604B)
----coverage.svg(904B)
----banner.png(15KB)
----text_dedup()
--------dedupers()
--------__init__.py(3KB)
----LICENSE(1KB)
----.gitignore(2KB)
----tests.py(4KB)
----README.md(3KB)

网友评论