文件名称:更好的阅读
文件大小:431KB
文件格式:ZIP
更新时间:2024-03-03 16:06:59
HTML
比死书更好的阅读项目 背景 五年级的时候,我决定如果我想变得聪明,就必须读书。 我走进一家书店,问工作人员我应该读什么。 这是对美丽的迷恋的开始,从笔记本中的列表到Excel工作表,再到这个项目。 这确实是我所有兴趣的自然发展-书籍,计算机,使我的生活变得困难。 数据 这是我读了大约18年(2001-2019)的书籍的个人日志。 我的原始数据集包括标题,系列名称,卷和作者的姓名。 最终,我开始增加页数,本书出版的年份以及我读书的年份。 不幸的是,这从来都不意味着要成为正式的数据集,因此可用数据和数据记录方式存在不一致之处。 ETL流程 数据清理的第一阶段涉及将我拥有的书籍的两个数据集结合在一起,其中一个在Word文档中,第二个在Excel中。 为此,我在Excel中手动加入了两个文件。 Word文档中的数据在同一行上具有标题和作者的名称,并用短划线隔开。 我使用Excel中的工具将它们分为
【文件预览】:
betterread-master
----.gitignore(2KB)
----ETL_process.ipynb(16KB)
----templates()
--------.DS_Store(6KB)
--------year_count.json(7KB)
--------books.html(263KB)
--------index.html(3KB)
--------Plots.html(3KB)
----Resources()
--------.DS_Store(6KB)
--------Data()
----.DS_Store(6KB)
----static()
--------js()
--------.DS_Store(6KB)
--------css()
--------Images()
----README.md(4KB)
----app.py(6KB)