【文件属性】:
文件名称:datascalepyspark:用于在 PySpark O'Reilly 在线培训中大规模处理数据的存储库
文件大小:332KB
文件格式:ZIP
更新时间:2021-05-31 07:47:24
JupyterNotebook
欢迎使用 Pyspark 大规模数据!
我们期待课程。 如果您有任何疑问,请与我们联系: Sahil Jhangiani: :
设置
为了充分利用课堂时间,请在上课前完成以下说明。
您的帐户可能需要 24 小时才能激活。 为获得最佳效果,请在上课前几天报名。
重要说明:如果您选择参加课程练习,则将产生一些AWS费用。 请非常仔细地阅读说明。
在本地克隆课程 GitHub 存储库
将克隆到您的本地机器。
创建 AWS 账户
转到 。
选择“个人”帐户(而不是专业帐户)。
您需要提供信用卡才能注册。
选择免费计划。
单击登录控制台并使用您刚刚创建的凭据以 Root 用户身份登录
创建 S3 存储桶
我们将在课堂上使用它来存储文件。
在“查找服务”搜索框中,键入“S3”并选择“云中的 S3 可扩展存储”。
单击创建存储桶。
将其命名为“data-scale-oreilly-
【文件预览】:
datascalepyspark-master
----.gitignore(50B)
----ingest.py(4KB)
----README.md(6KB)
----Section 3 - Attendee.ipynb(14KB)
----bootstrap.sh(83B)
----Supplemental.ipynb(29KB)
----Section 2 - Attendee.ipynb(33KB)
----ny-zip-codes.csv(2KB)
----Section 2 - Key.ipynb(40KB)
----Section 3 - Key.ipynb(99KB)
----Working with Data at Scale in PySpark Slidedeck.pdf(440KB)