文件名称:pandas-dedupe:通过Pandas简化重复数据删除库的使用
文件大小:12KB
文件格式:ZIP
更新时间:2024-05-21 12:35:52
Python
大熊猫 Pandas使Dedupe库变得容易。 安装 pip install pandas-dedupe 影片教学 基本用法 运行重复数据删除时将创建训练文件和设置文件。 保留这些文件将消除将来对模型进行重新训练的需要。 如果您想从头开始重新训练模型,只需删除设置和训练文件即可。 重复数据删除(dedupe_dataframe) 当您的数据可以包含多个都可以引用同一实体的记录时, dedupe_dataframe用于重复数据删除 import pandas as pd import pandas_dedupe #load dataframe df = pd . read_csv ( 'test_names.csv' ) #initiate deduplication df_final = pandas_dedupe . dedupe_dataframe ( df ,[ 'first_n
【文件预览】:
pandas-dedupe-master
----setup.py(801B)
----.gitignore(67B)
----README.md(6KB)
----pandas_dedupe()
--------__init__.py(184B)
--------dedupe_dataframe.py(9KB)
--------link_dataframes.py(4KB)
--------gazetteer_dataframe.py(12KB)
--------utility_functions.py(2KB)