reddit-data-is-beautiful:Reddit的“ dataisbeautiful”社区分析

时间:2024-05-19 02:22:15
【文件属性】:

文件名称:reddit-data-is-beautiful:Reddit的“ dataisbeautiful”社区分析

文件大小:7KB

文件格式:ZIP

更新时间:2024-05-19 02:22:15

reddit analysis dataisbeautiful Python

Reddit数据很漂亮 Reddit的“ dataisbeautiful”社区分析 Python 2.7脚本 第一个脚本下载包含新帖子列表的html页面。 第二个脚本从已保存的列表中提取单个帖子的网址。 第三个脚本使用帖子网址下载每个帖子。 最后,第四个脚本解析各个帖子文件,并将结果保存到制表符分隔的文件中。 在要保存数据的位置创建一个文件夹,然后在每个脚本中编辑root_dir变量以提供此文件夹的路径。 将user_agents_non_mobile.txt保存到此文件夹中。 R脚本 该脚本导入由上一个python脚本创建的制表符分隔文件,清理数据并创建图。


【文件预览】:
reddit-data-is-beautiful-master
----LICENSE(1KB)
----1_get_post_lists.py(3KB)
----README.md(775B)
----user_agents_non_mobile.txt(1KB)
----2_parse_post_lists.py(2KB)
----3_get_posts.py(3KB)
----4_parse_posts.py(5KB)

网友评论