read-big-file-with-python:案例研究的第一部分:使用python读取大型(21GB)文本文件

时间:2024-05-30 17:54:34
【文件属性】:

文件名称:read-big-file-with-python:案例研究的第一部分:使用python读取大型(21GB)文本文件

文件大小:6KB

文件格式:ZIP

更新时间:2024-05-30 17:54:34

python bigdata Python

用python读取大文件 本来是第一个三部分案例研究(至今已扩展为5个部分)的第一部分是使用C,Python,PYSPARK,Spark-Scala和Athena / Glue读取大型(21GB)文本文件。 您可以在这里看到其他部分: 这部分处理使用C和python程序之间的比较。 我要做的许多工作是处理来自外部数据提供程序的大型数据文件,并尝试将其数据插入我们的系统。 其中一个文件包含我们从标准普尔CapitalIQ数据服务下载的公司所有权数据。 我们使用该文件来计算股票的*流通量,这反过来又决定了股票是否可以成为我们计算的各种股票指数的成员。 数据文件大约有21 Gigabtyes,并包含大约3.66亿个管道分隔的记录。 前10条记录如下所示: 18511|1|2587198|2004-03-31|0|100000|0|1.97|0.49988|100000|||| 18511


【文件预览】:
read-big-file-with-python-master
----process_file.c(2KB)
----vs_process_file.c(939B)
----read_big_file.py(5KB)
----README.md(3KB)

网友评论