Parquet 和 CSV 格式相互转换
将 Parquet 转换为 CSV
可以使用 Python 中的 pandas
或 pyarrow
库来将 Parquet 文件转换为 CSV 文件。以下是两种方法的示例代码:
使用 Pandas
- 安装 Pandas 库:
pip install pandas
- 使用 Pandas 读取 Parquet 文件并转换为 CSV 文件:
import pandas as pd
# 读取 Parquet 文件
df = pd.read_parquet('path/to/file.parquet')
# 保存为 CSV 文件
df.to_csv('path/to/file.csv', index=False)
使用 PyArrow
- 安装 PyArrow 库:
pip install pyarrow
- 使用 PyArrow 读取 Parquet 文件并转换为 CSV 文件:
import pyarrow.parquet as pq
import pyarrow.csv as pc
# 读取 Parquet 文件
table = pq.read_table('path/to/file.parquet')
# 保存为 CSV 文件
pc.write_csv(table, 'path/to/file.csv')
将 CSV 转换为 Parquet
同样,你可以使用 pandas
或 pyarrow
库将 CSV 文件转换为 Parquet 文件。以下是两种方法的示例代码:
使用 Pandas
- 安装 Pandas 库:
pip install pandas
- 使用 Pandas 读取 CSV 文件并转换为 Parquet 文件:
import pandas as pd
# 读取 CSV 文件
df = pd.read_csv('path/to/file.csv')
# 保存为 Parquet 文件
df.to_parquet('path/to/file.parquet', engine='pyarrow')
使用 PyArrow
- 安装 PyArrow 库:
pip install pyarrow
- 使用 PyArrow 读取 CSV 文件并转换为 Parquet 文件:
import pyarrow.csv as pv
import pyarrow.parquet as pq
# 读取 CSV 文件
table = pv.read_csv('path/to/file.csv')
# 保存为 Parquet 文件
pq.write_table(table, 'path/to/file.parquet')
总结
-
将 Parquet 转换为 CSV:可以使用
pandas
或pyarrow
库。 -
将 CSV 转换为 Parquet:可以使用
pandas
或pyarrow
库。