Ali*_*ehi 8 algorithm statistics streaming stream
我正在寻找一种算法来生成大量流数据的直方图,max和min不是事先知道的,而是标准偏差和均值在特定范围内.
我很感激你的想法.
干杯,
我刚刚找到了一种解决方案。秒。2.2 “基于流式并行决策树算法的在线直方图构建”论文。该算法由 Hive 项目中的 NumericHistogram 类实现:
一个通用的、可重用的直方图类,支持部分聚合。该算法是改编自以下论文的启发式算法:Yael Ben-Haim 和 Elad Tom-Tov,“流式并行决策树算法”,J. Machine Learning Research 11 (2010),第 849--872 页。虽然没有近似保证,但它似乎适用于足够的数据和大量(例如,20-80)个直方图箱。
归档时间: |
|
查看次数: |
2504 次 |
最近记录: |