839RedditWsbBots

时间:2024-05-08 00:27:21
【文件属性】:

文件名称:839RedditWsbBots

文件大小:78.36MB

文件格式:ZIP

更新时间:2024-05-08 00:27:21

Python

概述 该项目旨在消除分类信息,并使用该数据来确定一系列帖子中的bot交互级别。 此外,它将提供情感分析以及对在同一帖子子集中找到的评论的定性概述。 刮刀 使用两个不同的API(通过reddit api和 )来生成两个数据集,其中包含来自一系列请求请求的信息。 每个拉取请求都会在已配置的纪元内收集子redit中的前X个帖子。 一个数据集包含每个评论的作者列表,以及评论深度(找到评论树的级别)和排名(找到该级别的位置)。 第二个日期集包含前y个级别的所有注释。 这两个数据集都包含将它们链接到适当的提取请求的键。 config.json文件中概述了定义拉取的参数以及全局校验,而示例可以在。\ Scrapper \ config中找到。 目前,Reddit不提供搜索历史帖子的功能。 为了解决这个问题,我们使用pushshift.io,它允许在一组有限的属性上进行历史搜索。 Pushshift利


【文件预览】:
839RedditWsbBots-main
----LICENSE(34KB)
----.gitignore(2KB)
----README.md(5KB)
----_SourceData()
--------postList.csv(2.68MB)
--------comments.csv(6.06MB)
--------postListFiltered.csv(26KB)
--------authors.csv(2.99MB)
----Scrapper()
--------config()
--------requirements.txt(18B)
--------pushShiftIO.py(6KB)
--------Scrapper.py(15KB)
----Data()
--------3b_postList_TopXPosts.csv(8KB)
--------FullPostListBuild()
--------comments.csv(168KB)
--------__authors.csv(15.21MB)
--------__comments.csv(33.34MB)
--------3a_postList_TopXPosts.csv(6KB)
--------1_postList_Original.csv(29.13MB)
--------Run01()
--------authors.csv(48KB)
--------2_postList_WithScores.csv(39.09MB)
--------Obsolete()
--------3_postList_TopXPosts.csv(14KB)

网友评论