文件名称:t-digest:一种新的数据结构,用于精确在线累积基于等级的统计信息,例如分位数和修整后的均值
文件大小:7.13MB
文件格式:ZIP
更新时间:2024-05-18 01:40:23
quantile t-digest accuracy online-algorithms Java
消化 一种新的数据结构,用于精确在线累积基于等级的统计信息,例如分位数和修整后的均值。 t-digest算法对并行程序也非常友好,使其在使用Apache Spark实现的map-reduce和并行流应用程序中很有用。 t-digest构造算法使用一维k-means聚类的变体来生成非常紧凑的数据结构,从而可以精确估计分位数。 这种t-digest数据结构可用于估计分位数,计算其他等级统计数据,甚至可估计相关的度量值(例如修整均值)。 在T-消化比以前的摘要用于此目的的优点是吨,全浮点分辨率-digest处理数据。 只需很小的变化, t- digest就可以处理任何有序集合中的值,对于这些值,我们可以计算出类似于均值的值。 尽管t-digest更为紧凑,特别是在序列化时,但t-digest产生的分位数估计的准确性可能比替代摘要算法产生的精度高几个数量级。 总之,t-digest的特别有趣的