文件名称:tech.ml.dataset:Clojure高性能数据处理系统
文件大小:1.34MB
文件格式:ZIP
更新时间:2024-02-22 09:50:00
machine-learning clojure csv xlsx datascience
tech.ml.dataset tech.ml.dataset是用于数据处理和机器学习的Clojure库。 数据集目前是内存中的列式数据库,我们支持从文件或输入流进行解析。 我们支持以下格式:原始/压缩后的csv / tsv,xls,xlsx,json和映射序列作为输入源。 作为单独的库提供。 内存中的数据大小(原始数组),日期时间类型通常转换为整数表示形式,并且将字符串加载到字符串表中。 这些功能一起极大地减少了内存中的工作集大小。 由于数据以列形式存储,因此对数据集的列操作非常快。 转换回地图序列非常有效,我们支持将数据集写回给csv,tsv和gzip压缩的数据集。 升级了对支持。 我们使用标准api支持复制途径-数据从磁盘复制到缓冲区中。 我们还支持就地构建路径,该路径明确构建为支持大于机器RAM的两个数据集,并纯粹出于命名空间的性能考虑。 通过可以使用具有一些重要附加功能的替代性尖端api。 简单的回归/分类机器学习途径可在中。 即使使用与Parquet该死的速度也很快。 迷你演练 user> ( require '[tech.v3.dataset :as ds])