Ale*_*gos 8 time-series timescaledb questdb
我见过很少有地方给出类似于以下内容的时间序列基数的定义:
假设您在 20 个位置有 1000 个 IoT 设备,它们运行 5 个固件版本之一,并报告每个设备 5 种类型传感器的输入。该集合的基数为 500,000 (1000 x 20 x 5 x 5)。在某些情况下,这很快就会变得难以管理,因为即使添加和跟踪设备的新固件版本也会将集合增加到 600,000 (1000 x 20 x 6 x 5)
或者
我觉得这个定义非常夸张。例如,如果您有一组 10 行,每行对应不同的设备、不同的位置、不同的固件、不同的传感器,则基数将膨胀到 10x10x10x10 = 10,000。而且只有10行!
时间序列数据集基数是否可以超过数据集的总行数?
在时间序列中,通常将时间序列的基数估计为唯一标签/标签值和测量次数的所有可能组合。该估计有助于了解数据库在其生命周期内(即,而不仅仅是当前状态)可能会存储多少个不同的时间序列。请注意,估计假设标签之间的独立性,这通常是不成立的。InfluxDB 中系列基数的定义讨论了这个方面,除了问题中的链接之外,它也是一个有趣的阅读。
提前了解时间序列可能的基数是有好处的,因为某些时间序列数据库不能很好地处理高基数。例如,请参阅这篇文章来处理 InfluxDB 中的高基数问题。
其他时间序列数据库(例如 TimescaleDB)在处理高基数方面没有任何问题,因为没有对标签进行特殊处理。创建索引时了解基数可能很有用,因为较高的基数使索引更有用,但占用更多空间。
| 归档时间: |
|
| 查看次数: |
1643 次 |
| 最近记录: |