es-dedupe:用于从Elasticsearch删除重复文档的工具

时间:2024-05-25 00:04:04
【文件属性】:

文件名称:es-dedupe:用于从Elasticsearch删除重复文档的工具

文件大小:29KB

文件格式:ZIP

更新时间:2024-05-25 00:04:04

elasticsearch duplicates duplicity Python

ES重迭 用于删除按某些唯一字段(例如--field Uuid )分组的重复文档的工具。 删除过程包括两个阶段: 汇总查询查找具有相同field值且至少出现2次的文档。 此类文档的一份副本留在ES中,其他副本则通过批量API删除(通常,几乎全部-总是有一些问题)。 每次DELETE操作之后,我们都等待索引更新。 处理过的文档将登录到/tmp/es_dedupe.log 。 不幸的是,聚合查询不一定是精确的。 基于/tmp/es_dedupe.log日志文件,我们查询每个field值,并在其他分片上删除文档副本。 根据群集中节点和分片的数量,可能仍会存在聚集查询未返回的文档。 为了禁用第二步,请使用--no-check标志。 码头工人 从Docker运行: docker run -it -e ES=locahost -e INDEX=my-index -e FIELD=id deri


【文件预览】:
es-dedupe-master
----setup.py(1KB)
----.gitignore(59B)
----Dockerfile(787B)
----requirements.txt(40B)
----Makefile(911B)
----dedupe.py(29KB)
----LICENSE(11KB)
----docker-compose.yml(754B)
----scripts()
--------lint(256B)
----README.md(5KB)
----tests()
--------test_esdedupe_timestamp.py(2KB)
--------test_esdedupe_parallel.py(2KB)
--------test_esdedupe_noop.py(2KB)
--------test_esdedupe_simple.py(2KB)
----Dockerfile.test(376B)
----esdedupe()
--------__init__.py(208B)
--------cli.py(8KB)
--------utils.py(767B)
--------__main__.py(108B)
--------esdedupe.py(13KB)
--------cmd.py(2KB)
----requirements-dev.txt(65B)

网友评论