文件名称:datacl:数据科学家的高效实用程序集合
文件大小:9.9MB
文件格式:ZIP
更新时间:2024-06-27 13:13:14
C
数据线 datacl是数据整理实用程序的集合。 虽然 Hadoop 已成为大数据分析任务的事实上的标准,但通常有大量简单的数据操作操作需要以交互模式执行,作为后处理步骤。 用于后处理的数据通常小到足以放在用户的桌面上。 datacl是数据科学家的高效实用程序的集合。 根据我们的经验,数据科学家的生活通常没有公众的看法那么光鲜。 加快查询速度——在运行时间和脚本时间方面——显着减少了领域带来的一些痛苦,为进行更高层次的思考开辟了时间。 虽然datacl主要是为数据科学家设计的一个有用的工具包,但我们相信它也可以用于其他环境。 一个典型的例子是我们在 2013 年在纽约举办的 SIGMOD 研讨会 DBTest2013 上发表的题为“In Data Veritas --- Data Driven Testing for Distributed Systems”的论文。 我们相信通过开源,