计算流数据的直方图 - 在线直方图计算

Ali*_*ehi 8 algorithm statistics streaming stream

我正在寻找一种算法来生成大量流数据的直方图,max和min不是事先知道的,而是标准偏差和均值在特定范围内.

我很感激你的想法.

干杯,

Ali*_*ehi 5

我刚刚找到了一种解决方案。秒。2.2 “基于流式并行决策树算法的在线直方图构建”论文。该算法由 Hive 项目中的 NumericHistogram 类实现:

一个通用的、可重用的直方图类,支持部分聚合。该算法是改编自以下论文的启发式算法:Yael Ben-Haim 和 Elad Tom-Tov,“流式并行决策树算法”,J. Machine Learning Research 11 (2010),第 849--872 页。虽然没有近似保证,但它似乎适用于足够的数据和大量(例如,20-80)个直方图箱。