est:大量数据的快速基数和TopK估计的Shell程序

时间:2024-07-23 04:23:13
【文件属性】:

文件名称:est:大量数据的快速基数和TopK估计的Shell程序

文件大小:6KB

文件格式:ZIP

更新时间:2024-07-23 04:23:13

Java

美东时间。 美东时间。 代表估计。 它是一个 Unix shell 程序,用于估计输入的基数和流的重击者。 如果您正在处理大量文本数据并且需要估计文件或某个程序的输出中有多少唯一行,您肯定会发现它很有用。 你什么时候需要它? cat file | sort | uniq | wc -l cat file | sort | uniq | wc -l – 获取文件中唯一行数的最简单方法。 但是有一个问题。 即, sort 。 当文件中有数千万,有时甚至数百万行时,排序就变得太昂贵了。 如果您可以用精度换取速度,那么est实用程序适合您。 安装 est实用程序需要 Java 1.6 或更高版本。 只需在您的 shell 中运行 fillowing 命令: curl -s https://raw.githubusercontent.com/bazhenov/est/master/inst


【文件预览】:
est-master
----install.sh(218B)
----src()
--------main()
----LICENSE(1KB)
----README.md(2KB)
----pom.xml(2KB)
----.gitignore(14B)

网友评论