下午好,
在过去的两天里,Java 服务器出现了许多连接问题。这有点不常见,因为错误并不总是发生,只是有时......
我将 PySpark 与 Jupyter Notebook 结合使用。一切都在 Google Cloud 中的虚拟机实例上运行。我在 Google Cloud 中使用了这个:
custom (8 vCPUs, 200 GB)
Run Code Online (Sandbox Code Playgroud)
这些是其他设置:
conf = pyspark.SparkConf().setAppName("App")
conf = (conf.setMaster('local[*]')
.set('spark.executor.memory', '180G')
.set('spark.driver.memory', '180G')
.set('spark.driver.maxResultSize', '180G'))
sc = pyspark.SparkContext(conf=conf)
sq = pyspark.sql.SQLContext(sc)
Run Code Online (Sandbox Code Playgroud)
我训练了一个随机森林模型并做出了预测:
model = rf.fit(train)
predictions = model.transform(test)
Run Code Online (Sandbox Code Playgroud)
之后我创建了 ROC 曲线并计算了 AUC 值。
然后我想看看混淆矩阵:
confusion_mat = metrics.confusionMatrix().toArray()
print(confusion_mat_train_rf)
Run Code Online (Sandbox Code Playgroud)
现在出现错误:
Traceback (most recent call last):
File "/usr/lib/python2.7/SocketServer.py", line 290, in _handle_request_noblock
self.process_request(request, client_address)
File "/usr/lib/python2.7/SocketServer.py", line 318, in process_request
self.finish_request(request, client_address)
File "/usr/lib/python2.7/SocketServer.py", …Run Code Online (Sandbox Code Playgroud) 我想在列中计算NULL,空和NaN值.我试过这样的:
df.filter( (df["ID"] == "") | (df["ID"].isNull()) | ( df["ID"].isnan()) ).count()
Run Code Online (Sandbox Code Playgroud)
但我总是收到此错误消息:
TypeError: 'Column' object is not callable
Run Code Online (Sandbox Code Playgroud)
有谁知道可能是什么问题?
提前谢谢了!