smooshr:合并来自多个数据集的条目和列的工具

时间:2021-05-14 13:33:37
【文件属性】:
文件名称:smooshr:合并来自多个数据集的条目和列的工具
文件大小:1.64MB
文件格式:ZIP
更新时间:2021-05-14 13:33:37
JavaScript smooshr 引入smooshr,这是一种清理混乱数据集的快速且用户友好的方法。 尽管存在一些用于处理数字数据的解决方案,但清理文本数据是一个漫长而艰辛的过程,即使对于那些生活和呼吸正则表达式的人来说也是如此。 因此,我们构建了smooshr,这是一个基于浏览器的工具,可以轻松创建和共享用于清理不规则数据的配方,并特别关注实体合并和标准化。 只需上传或指向您要清除的数据,然后通过点击界面就可以开始合并列条目。 无需编码-尽管它确实为想要的ETL管道吐出了可重现的脚本! 我们的第一个版本侧重于实体合并任务(在数据集之内和之间),但是我们计划在不久的将来将功能扩展到其他形式的数据清理。 离线优先 我们使用smooshr做出的设计决策之一就是将重点放在离线优先功能上。 将数据集加载到smooshr时,它永远不会离开计算机。 所有处理都是在浏览器中本地完成的,我们对服务器的唯一调用是获取用
【文件预览】:
smooshr-master
----.gitignore(345B)
----package.json(1KB)
----server()
--------api()
--------Dockerfile(423B)
--------requirements.txt(197B)
--------docker-compose.yml(988B)
--------server.py(2KB)
--------start_server.sh(69B)
--------load_data_into_sqlite.py(2KB)
----src()
--------components()
--------index.js(541B)
--------logo.svg(3KB)
--------App.js(2KB)
--------utils()
--------serviceWorker.js(5KB)
--------App.scss(19KB)
--------contexts()
--------index.css(487B)
--------App.test.js(248B)
--------pages()
----CONTRIBUTING.md(911B)
----CODE_OF_CONDUCT.md(3KB)
----LICENSE(11KB)
----public()
--------tutorial_screenshots()
--------DataClinicLogoLarge.png(12KB)
--------index.html(1KB)
--------DataClinicLogo.png(5KB)
--------favicon.ico(1KB)
--------manifest.json(306B)
--------404.html(499B)
----tutorial.md(12KB)
----README.md(5KB)
----Processing.ipynb(89KB)
----yarn.lock(496KB)

网友评论