T.S*_*.Sh 7 machine-learning stream normalization data-mining
我正在使用Clustream算法,我发现我需要规范化我的数据.我决定使用min-max算法来做到这一点,但我认为通过这种方式,新的数据对象的值将以不同的方式计算,因为min和max的值可能会发生变化.你认为我是对的吗?如果是这样,我应该使用哪种算法?
当标准化流数据时,您需要使用训练集的统计属性。在流式传输期间,您只需将太大/太低的值削减为最小/最大值。没有其他办法,这就是流,你知道。
但作为权衡,您可以持续收集所有数据的统计属性,并不时重新训练您的模型以适应不断变化的数据。我不知道 Clustream,但经过短暂的谷歌搜索后:它似乎是一种有助于进行此类权衡的算法。