我从事金融科技业务,我有如下的客户级别数据:
| 客户ID | 第一天 | 第2天 | 第三天 | 第四天 |
|---|---|---|---|---|
| 1 | 50 | 0 | 南 | 5 |
| 2 | 南 | 10 | 南 | 南 |
| 3 | -100 | -100 | 5 | 0 |
| 4 | 10 | -60 | 0 | 100 |
| 5 | 20 | 南 | -20 | 南 |
在上面的数据中,行代表客户唯一 ID,列代表一年中的特定日期,值代表该特定日期的贷方和借方净额。
例如,对于 的客户ID = 1,day1因此credit = 100净值debit = 50为 50。零表示credit = debit当天。
NaN我的数据只是表明,在特定的一天,客户没有通过应用程序进行任何信用卡或借记交易,这些知识对我来说很重要。让成为NO INTERACTIONNaN的实例。
现在我的问题是如何告诉 scikit-learn python 中的 K-Means 将 NaN 值视为无交互?我不想消除NaN价值观。我也不想NaN用平均值或中值替换值。NaN值对我来说是附加信息,我如何保留这些信息?