datascalepyspark:用于在 PySpark O'Reilly 在线培训中大规模处理数据的存储库

时间:2024-06-20 01:34:04
【文件属性】:

文件名称:datascalepyspark:用于在 PySpark O'Reilly 在线培训中大规模处理数据的存储库

文件大小:332KB

文件格式:ZIP

更新时间:2024-06-20 01:34:04

JupyterNotebook

欢迎使用 Pyspark 大规模数据! 我们期待课程。 如果您有任何疑问,请与我们联系: Sahil Jhangiani: : 设置 为了充分利用课堂时间,请在上课前完成以下说明。 您的帐户可能需要 24 小时才能激活。 为获得最佳效果,请在上课前几天报名。 重要说明:如果您选择参加课程练习,则将产生一些AWS费用。 请非常仔细地阅读说明。 在本地克隆课程 GitHub 存储库 将克隆到您的本地机器。 创建 AWS 账户 转到 。 选择“个人”帐户(而不是专业帐户)。 您需要提供信用卡才能注册。 选择免费计划。 单击登录控制台并使用您刚刚创建的凭据以 Root 用户身份登录 创建 S3 存储桶 我们将在课堂上使用它来存储文件。 在“查找服务”搜索框中,键入“S3”并选择“云中的 S3 可扩展存储”。 单击创建存储桶。 将其命名为“data-scale-oreilly-


【文件预览】:
datascalepyspark-master
----.gitignore(50B)
----ingest.py(4KB)
----README.md(6KB)
----Section 3 - Attendee.ipynb(14KB)
----bootstrap.sh(83B)
----Supplemental.ipynb(29KB)
----Section 2 - Attendee.ipynb(33KB)
----ny-zip-codes.csv(2KB)
----Section 2 - Key.ipynb(40KB)
----Section 3 - Key.ipynb(99KB)
----Working with Data at Scale in PySpark Slidedeck.pdf(440KB)

网友评论