小编Mus*_*Jan的帖子

如何处理聚类分析中的空值?

我从事金融科技业务,我有如下的客户级别数据:

客户ID 第一天 第2天 第三天 第四天
1 50 0 5
2 10
3 -100 -100 5 0
4 10 -60 0 100
5 20 -20

在上面的数据中,行代表客户唯一 ID,列代表一年中的特定日期,值代表该特定日期的贷方和借方净额。

例如,对于 的客户ID = 1day1因此credit = 100净值debit = 50为 50。零表示credit = debit当天。

NaN我的数据只是表明,在特定的一天,客户没有通过应用程序进行任何信用卡或借记交易,这些知识对我来说很重要。让成为NO INTERACTIONNaN的实例。

现在我的问题是如何告诉 scikit-learn python 中的 K-Means 将 NaN 值视为无交互?我不想消除NaN价值观。我也不想NaN用平均值或中值替换值。NaN值对我来说是附加信息,我如何保留这些信息?

python cluster-analysis nan k-means scikit-learn

5
推荐指数
1
解决办法
1575
查看次数

标签 统计

cluster-analysis ×1

k-means ×1

nan ×1

python ×1

scikit-learn ×1