Parquet 和 CSV 格式相互转换

时间:2024-10-16 11:09:20

在这里插入图片描述

Parquet 和 CSV 格式相互转换

将 Parquet 转换为 CSV

可以使用 Python 中的 pandaspyarrow 库来将 Parquet 文件转换为 CSV 文件。以下是两种方法的示例代码:

使用 Pandas
  1. 安装 Pandas 库:
pip install pandas
  1. 使用 Pandas 读取 Parquet 文件并转换为 CSV 文件:
import pandas as pd

# 读取 Parquet 文件
df = pd.read_parquet('path/to/file.parquet')

# 保存为 CSV 文件
df.to_csv('path/to/file.csv', index=False)
使用 PyArrow
  1. 安装 PyArrow 库:
pip install pyarrow
  1. 使用 PyArrow 读取 Parquet 文件并转换为 CSV 文件:
import pyarrow.parquet as pq
import pyarrow.csv as pc

# 读取 Parquet 文件
table = pq.read_table('path/to/file.parquet')

# 保存为 CSV 文件
pc.write_csv(table, 'path/to/file.csv')
将 CSV 转换为 Parquet

同样,你可以使用 pandaspyarrow 库将 CSV 文件转换为 Parquet 文件。以下是两种方法的示例代码:

使用 Pandas
  1. 安装 Pandas 库:
pip install pandas
  1. 使用 Pandas 读取 CSV 文件并转换为 Parquet 文件:
import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('path/to/file.csv')

# 保存为 Parquet 文件
df.to_parquet('path/to/file.parquet', engine='pyarrow')
使用 PyArrow
  1. 安装 PyArrow 库:
pip install pyarrow
  1. 使用 PyArrow 读取 CSV 文件并转换为 Parquet 文件:
import pyarrow.csv as pv
import pyarrow.parquet as pq

# 读取 CSV 文件
table = pv.read_csv('path/to/file.csv')

# 保存为 Parquet 文件
pq.write_table(table, 'path/to/file.parquet')

总结

  • 将 Parquet 转换为 CSV:可以使用 pandaspyarrow 库。
  • 将 CSV 转换为 Parquet:可以使用 pandaspyarrow 库。