我希望使用隔离森林对某些系统时间序列数据进行异常值检测。在我的例子中,特征的规模是多种多样的。我的直觉告诉我应该对数据进行标准化,但我不记得原始 Iso Forest 论文中的这一要求。任何指导表示赞赏。
我认为标准化隔离森林的数据不是一个好主意。异常检测通常不需要标准化。根据定义,异常值/异常检测是识别与大多数点不同且较少的数据点。归一化将使所有这些点处于较小的范围内,这对于我们在点之间检测的“差异”(异常值检测本身的基础)不利。
来到隔离森林,特征尺度之间的变化应该不重要。如果这是您唯一关心的归一化问题,您始终可以将属性“max_features”设置为 1。隔离森林是一种集成决策树算法,Max_features 是为训练每个树/基估计器选择的最大特征数。如果您将其设置为 1(默认情况下始终为 1),则每棵树将只涉及一个特征,因此比例差异永远不会产生影响。
| 归档时间: |
|
| 查看次数: |
4753 次 |
| 最近记录: |