文件名称:Big-Data-2018
文件大小:13KB
文件格式:ZIP
更新时间:2024-06-08 03:52:01
Python
绿日 Green Day是Spark的数据清理专家。 它是通过Python开发的,并以pyspark DataFrame作为输入。 特征 价值缺失 日期格式 文字清理 聚类 离群值 重复删除 缩放比例 先决条件 PySpark 2.3.0 Python 3.6.5 使用方式 将greenday文件夹上载到hdfs和您正在使用的目录。 from greenday import *导入软件包from greenday import *然后,您可以使用Green Day工具箱下的所有模块。 输入必须是pyspark DataFrame 默认设置是整个数据框。 用户可以选择所有列的一部分作为输入参数。 价值缺失 要使用聚类功能,请从Greenday包中导入 from Greenday import missingvalue df = missingvalue(df) 代表缺失值百分比的
【文件预览】:
Big-Data-2018-master
----README.md(11KB)
----greenday()
--------data_format.py(11KB)
--------missingvalue.py(6KB)
--------datetimetransformer.py(5KB)
--------__init__.py(395B)
--------scaler.py(3KB)
--------duplicates.py(1KB)
--------outlier.py(5KB)
----.gitignore(10B)