小编jsw*_*ler的帖子

从原始列创建标志列集，缺失值时为“1”

抱歉，如果这是一个简单的问题，我正在尝试使用 python 技术。我有一个熊猫数据框，其中包含大量缺失值的列。我将为建模部分估算这些值，但我也想看看它们缺失的事实是否重要。

为此，我尝试创建第二组二进制列，当列中的观察值为空时为 1，否则为 0。我的代码如下：

test=train_17
col_names=test.columns.tolist()
for col in col_names:
    for row in test[col]:
        if test[col][row].isnull():
            test[col+"_missing"] = 1
        else:
            test[col+"_missing"] = 0

Run Code Online (Sandbox Code Playgroud)

当我尝试这样做时，我得到了一个 kKeyError: 14297519。在日志中我也看到了这个：

tz=getattr(series.dtype, 'tz', None))

Run Code Online (Sandbox Code Playgroud)

有人对我做错了什么有任何想法或建议吗？

python python-3.x

jsw*_*ler

lucky-day

2
推荐指数

1
解决办法

2965
查看次数

如何加载保存的KMeans模型（在ML管道中）？

我正在学习scala，并尝试加载我已经在数据上运行/拟合的模型而没有成功。运行花了6个小时，如果我想不出一种保存/加载输出的方法，恐怕我将不得不重新运行它。

我将KMeans作为管道的一部分运行。我将在训练数据集上运行的管道的输出保存为“模型”，这就是我尝试加载的结果。

运行模型后，我可以使用以下命令保存（或至少我以为是）：

model.write.overwrite().save("/analytics_shared/qoe/km_model")

Run Code Online (Sandbox Code Playgroud)

我的问题是如何重新加载它，这样我就可以使用它来对新数据进行聚类/评分，而不必重新运行耗时6个小时的培训。

scala k-means apache-spark apache-spark-mllib

jsw*_*ler

2017 07-22

1
推荐指数

1
解决办法

1596
查看次数

标签统计

apache-spark ×1

apache-spark-mllib ×1

k-means ×1

python ×1

python-3.x ×1

scala ×1

从原始列创建标志列集，缺失值时为“1”

如何加载保存的KMeans模型（在ML管道中）？

标签 统计

小编jsw_ler的帖子

标签统计