抱歉,如果这是一个简单的问题,我正在尝试使用 python 技术。我有一个熊猫数据框,其中包含大量缺失值的列。我将为建模部分估算这些值,但我也想看看它们缺失的事实是否重要。
为此,我尝试创建第二组二进制列,当列中的观察值为空时为 1,否则为 0。我的代码如下:
test=train_17
col_names=test.columns.tolist()
for col in col_names:
for row in test[col]:
if test[col][row].isnull():
test[col+"_missing"] = 1
else:
test[col+"_missing"] = 0
Run Code Online (Sandbox Code Playgroud)
当我尝试这样做时,我得到了一个 kKeyError: 14297519。在日志中我也看到了这个:
tz=getattr(series.dtype, 'tz', None))
Run Code Online (Sandbox Code Playgroud)
有人对我做错了什么有任何想法或建议吗?
我正在学习scala,并尝试加载我已经在数据上运行/拟合的模型而没有成功。运行花了6个小时,如果我想不出一种保存/加载输出的方法,恐怕我将不得不重新运行它。
我将KMeans作为管道的一部分运行。我将在训练数据集上运行的管道的输出保存为“模型”,这就是我尝试加载的结果。
运行模型后,我可以使用以下命令保存(或至少我以为是):
model.write.overwrite().save("/analytics_shared/qoe/km_model")
Run Code Online (Sandbox Code Playgroud)
我的问题是如何重新加载它,这样我就可以使用它来对新数据进行聚类/评分,而不必重新运行耗时6个小时的培训。