文件名称:pySpark-flatten-dataframe:PySpark函数可展平从JSONCSVSQLParquet加载的任何复杂的嵌套数据框结构
文件大小:2KB
文件格式:ZIP
更新时间:2024-05-22 07:50:33
spark dataframe etl-pipeline JupyterNotebook
pySpark-flatten-dataframe PySpark函数可展平从JSON / CSV / SQL / Parquet加载的任何复杂的嵌套数据框结构 例如,对于嵌套的JSON- 展平所有嵌套项:{“ human”:{“ name”:{“ first_name”:“ Jay Lohokare”}}} 通过column ='human-name-first_name'转换为dataFrame。可以通过更改连接器变量来更改连接器'-'。 爆炸数组:{“ array”:[“ one”,“ two”,“ three”]}转换为具有3行的column ='array'的dataFrame 该函数可以处理任何级别的嵌套。 该函数不能处理数组中的数组。 这只是为了保持代码的动态性和通用性。 为了处理内部数组数组,修改if isinstance在for的循环flattenSchema
【文件预览】:
pySpark-flatten-dataframe-master
----SparkRelationalizeDF.ipynb(6KB)
----README.md(802B)