小编M.A*_*ıcı的帖子

复杂数据的良好异常检测模型

我正在处理数据并希望为这些数据生成异常检测模型。该数据仅包含三个特征：Latitude、Longitude和Speed。我将它标准化，然后应用t-SNE然后再次标准化。有没有标记或目标数据。所以，它应该是一个无监督的异常检测。

我无法共享数据，因为它是私有的。但是，看起来是这样的：

数据中存在一些异常值，例如异常值：

这是数据的最终形状：

如您所见，数据有点复杂。当我手动搜索异常实例时（通过查看特征值），我观察到红色圆圈内的实例（下图中）应该被检测为异常。

红色区域内的实例应该是异常的：

我曾经OneClassSVM检测异常。这里是参数；

nu = 0.02
kernel = "rbf"
gamma = 0.1
degree = 3
verbose = False
random_state = rng

Run Code Online (Sandbox Code Playgroud)

和模型；

# fit the model
clf = svm.OneClassSVM(nu=nu, kernel=kernel, gamma=gamma, verbose=verbose, random_state=random_state)
clf.fit(data_scaled)
y_pred_train = clf.predict(data_scaled)
n_error_train = y_pred_train[y_pred_train == -1].size

Run Code Online (Sandbox Code Playgroud)

这是我最后得到的：

这是检测到的异常OneClassSVM和红色实例被检测为异常：

因此，如您所见，该模型将许多实例预测为异常，但实际上，这些实例中的大多数应该是正常的。

我为nu,gamma和尝试了不同的参数值degree。但是，我找不到合适的决策线来仅检测真正的异常。

我的模型有什么问题？我应该尝试不同的异常检测算法吗？
我的数据不适合异常检测吗？

svm scikit-learn anomaly-detection

M.A*_*ıcı

2021 03-19

0
推荐指数

1
解决办法

742
查看次数

标签统计

anomaly-detection ×1

scikit-learn ×1

svm ×1

复杂数据的良好异常检测模型

标签 统计

小编M.A_ıcı的帖子

标签统计