流数据的规范化方法

T.S*_*.Sh 7 machine-learning stream normalization data-mining

我正在使用Clustream算法,我发现我需要规范化我的数据.我决定使用min-max算法来做到这一点,但我认为通过这种方式,新的数据对象的值将以不同的方式计算,因为min和max的值可能会发生变化.你认为我是对的吗?如果是这样,我应该使用哪种算法?

小智 7

代替基于整个数据计算全局最小值-最大值,您可以使用基于滑动窗口的局部规范化(例如,仅使用最后 15 秒的数据)。这种方法在信号和图像处理中计算局部均值滤波器非常常见。

我希望它能帮助你。


fat*_*tih 0

当标准化流数据时,您需要使用训练集的统计属性。在流式传输期间,您只需将太大/太低的值削减为最小/最大值。没有其他办法,这就是流,你知道。

但作为权衡,您可以持续收集所有数据的统计属性,并不时重新训练您的模型以适应不断变化的数据。我不知道 Clustream,但经过短暂的谷歌搜索后:它似乎是一种有助于进行此类权衡的算法。