pySpark-flatten-dataframe:PySpark函数可展平从JSONCSVSQLParquet加载的任何复杂的嵌套数据框结构下载

【文件属性】：

文件名称：pySpark-flatten-dataframe:PySpark函数可展平从JSONCSVSQLParquet加载的任何复杂的嵌套数据框结构

文件大小：2KB

文件格式：ZIP

更新时间：2024-05-22 07:50:33

spark dataframe etl-pipeline JupyterNotebook

pySpark-flatten-dataframe PySpark函数可展平从JSON / CSV / SQL / Parquet加载的任何复杂的嵌套数据框结构例如，对于嵌套的JSON- 展平所有嵌套项：{“ human”：{“ name”：{“ first_name”：“ Jay Lohokare”}}} 通过column ='human-name-first_name'转换为dataFrame。可以通过更改连接器变量来更改连接器'-'。爆炸数组：{“ array”：[“ one”，“ two”，“ three”]}转换为具有3行的column ='array'的dataFrame 该函数可以处理任何级别的嵌套。该函数不能处理数组中的数组。这只是为了保持代码的动态性和通用性。为了处理内部数组数组，修改if isinstance在for的循环flattenSchema

立即下载

【文件预览】：
pySpark-flatten-dataframe-master
----SparkRelationalizeDF.ipynb(6KB)
----README.md(802B)

秒客网

pySpark-flatten-dataframe:PySpark函数可展平从JSONCSVSQLParquet加载的任何复杂的嵌套数据框结构

网友评论

相关文章