文件名称:Data-Engineering-with-Python:Packt发布的《使用Python进行数据工程》
文件大小:1.11MB
文件格式:ZIP
更新时间:2024-06-15 10:42:54
Python
学习使用Python进行数据工程 这是Packt发布的“ 进行的代码存储库。 使用海量数据集设计数据模型并使用Python自动执行数据管道 这本书是关于什么的? 数据工程为数据科学和分析提供了基础,并且构成了所有业务的重要组成部分。 本书将帮助您探索用于理解使用Python进行数据工程过程的各种工具和方法。 这本书将向您展示如何应对数据工程不同方面通常面临的挑战。 您将首先介绍数据工程的基础知识,以及构建用于大型数据集的数据管道所需的技术和框架。 您将学习如何转换和清理数据以及执行分析以充分利用数据。 随着您的前进,您将发现如何使用具有不同复杂性和生产数据库的大数据,并建立数据管道。 使用实际示例,您将构建架构,在该架构上将学习如何部署数据管道。 在这本书的最后,您将对数据建模技术有了清楚的了解,并且能够自信地建立数据工程管道来跟踪数据,运行质量检查以及在生产中进行必要的更改。
【文件预览】:
Data-Engineering-with-Python-master
----Chapter09()
--------api.py(2KB)
--------api.txt(2KB)
----Chapter13()
--------kclient.py(880B)
--------kproducer.py(817B)
--------python-log.log(117B)
--------pythonlog.py(747B)
----LICENSE(1KB)
----Chapter11()
--------CreateDataLake.py(556B)
--------createtablescript(506B)
--------sv.py(1KB)
----Chapter06()
--------QuerySCFArchived.py(1KB)
--------GetEveryPage.py(1KB)
--------querySCF.py(1KB)
--------SCF.xml(54KB)
--------coords.py(1KB)
----Chapter14()
--------EstimatePi.py(587B)
--------DataFrame-Kafka.py(2KB)
--------data.csv(89KB)
----README.md(5KB)
----Chapter03()
--------readcsv.py(155B)
--------AirflowCSV.py(987B)
--------loadjson.py(417B)
--------readjson.py(116B)
--------fromAirflow.json(152KB)
--------loadcsv.py(405B)
----Chapter05()
--------scooter.csv(5.73MB)
--------geocodedstreet.csv(323B)
--------AirflowClean.py(1KB)
----Chapter04()
--------elasticsearchquery.py(924B)
--------elasticsearchbulk.py(444B)
--------queryusers.py(474B)
--------AirflowDB.py(1KB)
--------executemany.py(610B)
--------querydf.py(257B)
--------fromdb.csv(59KB)
--------scroll.py(627B)
--------elasticsearchsingle.py(434B)
--------createrecord.py(537B)
----Chapter07()
--------peoplevalidatescript.py(695B)
--------loadcsv-fail.py(472B)
--------loadcsv.py(405B)