spark_dupfinder:查找重复文件的火花过程

时间:2021-04-15 11:20:58
【文件属性】:
文件名称:spark_dupfinder:查找重复文件的火花过程
文件大小:3KB
文件格式:ZIP
更新时间:2021-04-15 11:20:58
Python spark_dupfinder 查找重复文件的火花过程。 它是按比例缩放的,需要文件列表,可以使用createFileLists.sh脚本创建。 要在群集模式下使用它,文件和环境必须位于共享位置(在所有节点中都安装在同一路径中)。 本地模式安装 注意,在本地模式下,它将比其他本机解决方案慢(已设计该脚本将其扩展为多个节点)。 在这种情况下,您应该考虑使用诸如或类的工具。 创造环境 virtualenv -p python3 venv source venv/bin/activate pip install -r requirements.txt 创建文件列表 createFileLists.sh /mnt/c /mnt/e 这将为每个根路径创建一个文件。 然后,您可以使用本地表达式作为参数在本地模式下运行python脚本。 python spark_find_duplicates
【文件预览】:
spark_dupfinder-master
----requirements.txt(117B)
----spark_find_duplicates.py(3KB)
----createFileLists.sh(118B)
----README.md(2KB)

网友评论