文件名称:pyarrow-s3-parquet-benchmarks:使用PyArrow从AWS S3读取实木复合地板文件的基准
文件大小:58KB
文件格式:ZIP
更新时间:2024-03-07 07:14:31
Python
PyArrow阅读S3实木复合地板基准 S3 Parquet阅读基准测试结果 读取的列数 结果大小(MB) 运行时间 吞吐量(MBps) 本地文件系统 1个 41.77 0.44 95.63 4 185.88 0.36 521.01 全部 655.79 1.28 512.53 PyArrow s3fs 1个 41.77 8.64 4.83 4 185.88 28.60 6.50 全部 655.80 115.78 5.66 AWS Data Wrangler 1个 41.77 15.46 2.70 4 183.79 49.22 3.73 全部 643.26 15.68 41.03 讨论 这里讨论了S3中Parquet读取的性能问题: 设置 在虚拟环境中的安装要求: python -m venv .venv source
【文件预览】:
pyarrow-s3-parquet-benchmarks-main
----.gitignore(107B)
----readme_files()
--------figure-gfm()
----benchmark.py(3KB)
----requirements.txt(68B)
----readme.rmd(2KB)
----LICENSE(1KB)
----cli.py(3KB)
----bucket.yml(324B)
----readme.md(22KB)