scale:一组笔记本,可提供有关数据规模及其对数据范围的影响的见解

时间:2024-05-27 15:05:25
【文件属性】:

文件名称:scale:一组笔记本,可提供有关数据规模及其对数据范围的影响的见解

文件大小:2.13MB

文件格式:ZIP

更新时间:2024-05-27 15:05:25

HTML

数据范围和规模 该站点包含一组Jupyter笔记本,用于研究数据集规模与针对不同研究问题得出的数据范围之间的关系。 数据集 这些笔记本使用两个数据集,一个是历史人物的对应关系,另一个是在线书评。 对应数据集包含来自“项目的约110,000个字母的元数据。 元数据包括发送日期,发送方,接收方,发送方位置和接收方位置。 在线评论数据集包含和文本和元数据。 元数据包括评论作者,评论日期,评分,评论书籍和作者以及发布它的平台(即Amazon或Goodreads)。 笔记本: ( ) ( ) ( ) ( ) 发行版 具有多个记录的数据集具有可以在全部或部分记录(日期,发送者和接收者,作者,书名,等级)中进行分析的元素。 某些字段或列中的值可以多次出现,从而产生分布。 分析这些分布并了解其形状可以为我们提供有关生成数据的基本过程的很多信息。 尺度上的分布及其特征 数据生成过程和不同大小


【文件预览】:
scale-master
----.gitignore(61B)
----data()
--------README.md(1KB)
----LICENSE(1KB)
----Workshops()
--------index.md(1KB)
--------Tool-Criticism()
----_config.yml(25B)
----notebooks()
--------EMLO-collection-analysis.ipynb(214KB)
--------Goodreads-Content-Analysis-Comparing-Genres.ipynb(246KB)
--------EMLO-collection-analysis.html(529KB)
--------Merging-datasets.html(299KB)
--------Transforming-JSON-dumps-to-CSV-for-Pandas-analysis.ipynb(7KB)
--------Analysing-Distributions.ipynb(138KB)
--------Transforming-JSON-dumps-to-CSV-for-Pandas-analysis.html(289KB)
--------Transforming-reviews-to-spacy-docs.ipynb(79KB)
--------Filtering-Goodreads-Reviews.ipynb(115KB)
--------Indexing-Reviews.html(350KB)
--------Goodreads-Content-Analysis-Popular-Books.ipynb(412KB)
--------Goodreads-Content-Analysis-Comparing-Genres.html(536KB)
--------Merging-datasets.ipynb(56KB)
--------Goodreads-Content-Analysis-Random-Sample.html(549KB)
--------Transforming-reviews-to-spacy-docs.html(341KB)
--------Filtering-Goodreads-Reviews.html(429KB)
--------Goodreads-Content-Analysis-Popular-Books.html(720KB)
--------Goodreads-Content-Analysis-Random-Sample.ipynb(253KB)
--------Indexing-Reviews.ipynb(61KB)
--------Analysing-Distributions.html(428KB)
----scripts()
--------liwc.py(2KB)
--------__init__.py(0B)
--------helper.py(2KB)
--------__pycache__()
--------text_tail_analysis.py(12KB)
--------pmi.py(2KB)
----README.md(6KB)

网友评论