文件名称:dirty_cat:脏分类变量的编码方法
文件大小:168KB
文件格式:ZIP
更新时间:2024-05-22 05:22:37
data-science machine-learning data-cleaning Python
脏猫 dirty_cat是一个用于对脏分类变量进行机器学习的Python模块。 网站: : 有关对脏分类数据进行编码的问题的详细说明,请参阅和对 。 安装 依存关系 dirty_cat要求: Python(> = 3.6) NumPy(> = 1.8.2) 科学(> = 1.0.1) scikit学习(> = 0.20.0) 可选依赖项: python-Levenshtein用于更快的编辑距离(不用于n-gram距离) 用户安装 如果您已经可以正常安装NumPy和SciPy,则安装dirty_cat的最简单方法是使用pip pip install -U --user dirty_cat 其他实施 Spark ML: : //github.com/rakutentech/spark-dirty-cat 参考 [1] Patricio Cerda,GaëlVaroq
【文件预览】:
dirty_cat-master
----.circleci()
--------config.yml(1KB)
----.gitignore(617B)
----README.rst(1KB)
----.github()
--------workflows()
----examples()
--------01_investigating_dirty_categories.py(7KB)
--------04_feature_interpretation_gap_encoder.py(3KB)
--------03_fit_predict_plot_midwest_survey.py(5KB)
--------06_dimension_reduction_and_performance.py(9KB)
--------05_scaling_non_linear_models.py(21KB)
--------README.txt(33B)
--------02_fit_predict_plot_employee_salaries.py(6KB)
----benchmarks()
--------similarity_scores_time_benchmark.py(5KB)
--------__init__.py(0B)
----dirty_cat()
--------minhash_encoder.py(9KB)
--------test()
--------datasets()
--------count_3_grams.py(4KB)
--------similarity_encoder.py(22KB)
--------gap_encoder.py(25KB)
--------utils.py(750B)
--------__init__.py(463B)
--------fast_hash.py(3KB)
--------string_distances.py(8KB)
--------target_encoder.py(11KB)
--------data()
--------VERSION.txt(6B)
----.coveragerc(188B)
----codecov.yml(718B)
----CHANGES.rst(3KB)
----LICENSE.txt(1KB)
----build_tools()
--------circle()
--------travis()
----setup.py(2KB)
----doc()
--------dirty_cat.svg(3KB)
--------conf.py(8KB)
--------index.rst(3KB)
--------dirty_cat.png(20KB)
--------CHANGES.rst(14B)
--------_static()
--------_templates()
--------Makefile(1KB)
----.travis.yml(971B)