小编qwe*_*rtz的帖子

Spark/PySpark:尝试连接到 Java 服务器时出错 (127.0.0.1:39543)

下午好,

在过去的两天里,Java 服务器出现了许多连接问题。这有点不常见,因为错误并不总是发生,只是有时......

我将 PySpark 与 Jupyter Notebook 结合使用。一切都在 Google Cloud 中的虚拟机实例上运行。我在 Google Cloud 中使用了这个:

custom (8 vCPUs, 200 GB) 
Run Code Online (Sandbox Code Playgroud)

这些是其他设置:

conf = pyspark.SparkConf().setAppName("App")
conf = (conf.setMaster('local[*]')
        .set('spark.executor.memory', '180G')
        .set('spark.driver.memory', '180G')
        .set('spark.driver.maxResultSize', '180G'))

sc = pyspark.SparkContext(conf=conf)
sq = pyspark.sql.SQLContext(sc)
Run Code Online (Sandbox Code Playgroud)

我训练了一个随机森林模型并做出了预测:

model = rf.fit(train)
predictions = model.transform(test)
Run Code Online (Sandbox Code Playgroud)

之后我创建了 ROC 曲线并计算了 AUC 值。

然后我想看看混淆矩阵:

confusion_mat = metrics.confusionMatrix().toArray()
print(confusion_mat_train_rf)
Run Code Online (Sandbox Code Playgroud)

现在出现错误:

    Traceback (most recent call last):
  File "/usr/lib/python2.7/SocketServer.py", line 290, in _handle_request_noblock
    self.process_request(request, client_address)
  File "/usr/lib/python2.7/SocketServer.py", line 318, in process_request
    self.finish_request(request, client_address)
  File "/usr/lib/python2.7/SocketServer.py", …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark jupyter-notebook

9
推荐指数
1
解决办法
3万
查看次数

Python/Pyspark - 计数NULL,空和NaN

我想在列中计算NULL,空和NaN值.我试过这样的:

df.filter( (df["ID"] == "") | (df["ID"].isNull()) | ( df["ID"].isnan()) ).count()
Run Code Online (Sandbox Code Playgroud)

但我总是收到此错误消息:

TypeError: 'Column' object is not callable
Run Code Online (Sandbox Code Playgroud)

有谁知道可能是什么问题?

提前谢谢了!

python pyspark

3
推荐指数
1
解决办法
1万
查看次数

标签 统计

pyspark ×2

python ×2

apache-spark ×1

jupyter-notebook ×1