reddit-dump-experiment:从Reddit提交转储中实验性提取DOI引用信息

时间:2024-05-24 06:50:48
【文件属性】:

文件名称:reddit-dump-experiment:从Reddit提交转储中实验性提取DOI引用信息

文件大小:36KB

文件格式:ZIP

更新时间:2024-05-24 06:50:48

Scala

Reddit转储实验 快速分析一下随时间推移在Reddit提交中使用DOI的情况。 可以使用这些说明在本地运行,也可以使用Spark文档中的说明在群集上运行。 这里的代码有点hacky,但是可以完成工作。 欢迎提出建议。 输出: yearCountChart -DOI每年以gnuplot格式提及 yearMonthCountChart -DOI每月以gnuplot格式提及 yearSubredditCountChart每年提及DOI的子目录,gnuplot格式 yearMonthSubredditCountChart提及DOI的子索引,每月,gnuplot格式 votesMonthCount提及DOI的帖子中的上/下投票,每月,gnuplot格式 publisherYearDomainCountChart可能是DOI的URL提及计数,每年,gnuplot格式 publisherYea


【文件预览】:
reddit-dump-experiment-master
----project()
--------plugins.sbt(57B)
--------assembly.sbt(56B)
----gnuplot()
--------year-publisher-domain-count(262B)
--------year-count(221B)
--------year-month-subreddit-count(328B)
--------year-month-count(237B)
--------year-subreddit-count(314B)
--------year-month-votes(340B)
--------year-month-publisher-domain-count(275B)
----src()
--------main()
----AWS.md(2KB)
----plots.sh(234B)
----build.sbt(1KB)
----README.md(4KB)
----.gitignore(48B)

网友评论