PyPandas:PyPandas,Spark的数据清理框架

时间:2024-06-06 17:36:45
【文件属性】:

文件名称:PyPandas:PyPandas,Spark的数据清理框架

文件大小:1.69MB

文件格式:ZIP

更新时间:2024-06-06 17:36:45

spark python3 outlier-detection data-cleaning Python

熊猫 PyPandas,Spark的数据清理框架 特征 离群值检测 缩放和归一化 文字清理 安装 pip install pypandas 用法 离群值检测 from pyspark . sql import SparkSession from pypandas . outlier import KMeansOutlierRemover # Create Spark Session spark = SparkSession . builder . getOrCreate () # Load your dataframe here data = load_data () df . count () # 1508177 df . show () ''' +------------+-------------+ |Initial Cost|Total Est Fee| +---------


【文件预览】:
PyPandas-master
----experiment()
--------textcleaner_experiment()
--------outlier_experiment()
--------scaler_experiment()
----script()
--------load_data_dumbo.sh(2KB)
--------install_dask.sh(70B)
--------install_optimus.sh(1KB)
--------bootstrap.sh(109B)
--------load_data.sh(1KB)
----doc()
--------milestone()
--------proposal()
--------final()
----LICENSE(1KB)
----setup.cfg(40B)
----setup.py(748B)
----README.md(12KB)
----pypandas()
--------text_cleaner.py(3KB)
--------scale.py(3KB)
--------datasets.py(3KB)
--------__init__.py(0B)
--------outlier.py(9KB)
--------core.py(695B)
--------common_patterns.py(318B)
--------preprocess.py(3KB)
----.gitignore(1KB)

网友评论