隔离森林需要数据标准化吗?

bij*_*uvj 4 machine-learning

我希望使用隔离森林对某些系统时间序列数据进行异常值检测。在我的例子中,特征的规模是多种多样的。我的直觉告诉我应该对数据进行标准化,但我不记得原始 Iso Forest 论文中的这一要求。任何指导表示赞赏。

Pal*_*lak 6

我认为标准化隔离森林的数据不是一个好主意。异常检测通常不需要标准化。根据定义,异常值/异常检测是识别与大多数点不同且较少的数据点。归一化将使所有这些点处于较小的范围内,这对于我们在点之间检测的“差异”(异常值检测本身的基础)不利。

来到隔离森林,特征尺度之间的变化应该不重要。如果这是您唯一关心的归一化问题,您始终可以将属性“max_features”设置为 1。隔离森林是一种集成决策树算法,Max_features 是为训练每个树/基估计器选择的最大特征数。如果您将其设置为 1(默认情况下始终为 1),则每棵树将只涉及一个特征,因此比例差异永远不会产生影响。

  • 同意 IsolationForest,不要标准化数据。但对于许多基于距离的方法,如 KMeans 或 DBSCAN 归一化很重要 - 否则特征缩放将创建特征重要性的任意隐式加权 - 很少是想要的 (4认同)