小编qwe*_*rtz的帖子

Spark/PySpark：尝试连接到 Java 服务器时出错 (127.0.0.1:39543)

下午好，

在过去的两天里，Java 服务器出现了许多连接问题。这有点不常见，因为错误并不总是发生，只是有时......

我将 PySpark 与 Jupyter Notebook 结合使用。一切都在 Google Cloud 中的虚拟机实例上运行。我在 Google Cloud 中使用了这个：

custom (8 vCPUs, 200 GB)

Run Code Online (Sandbox Code Playgroud)

这些是其他设置：

conf = pyspark.SparkConf().setAppName("App")
conf = (conf.setMaster('local[*]')
        .set('spark.executor.memory', '180G')
        .set('spark.driver.memory', '180G')
        .set('spark.driver.maxResultSize', '180G'))

sc = pyspark.SparkContext(conf=conf)
sq = pyspark.sql.SQLContext(sc)

Run Code Online (Sandbox Code Playgroud)

我训练了一个随机森林模型并做出了预测：

model = rf.fit(train)
predictions = model.transform(test)

Run Code Online (Sandbox Code Playgroud)

之后我创建了 ROC 曲线并计算了 AUC 值。

然后我想看看混淆矩阵：

confusion_mat = metrics.confusionMatrix().toArray()
print(confusion_mat_train_rf)

Run Code Online (Sandbox Code Playgroud)

现在出现错误：

    Traceback (most recent call last):
  File "/usr/lib/python2.7/SocketServer.py", line 290, in _handle_request_noblock
    self.process_request(request, client_address)
  File "/usr/lib/python2.7/SocketServer.py", line 318, in process_request
    self.finish_request(request, client_address)
  File "/usr/lib/python2.7/SocketServer.py", …

Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark jupyter-notebook

qwe*_*rtz

lucky-day

9
推荐指数

1
解决办法

3万
查看次数

Python/Pyspark - 计数NULL,空和NaN

我想在列中计算NULL,空和NaN值.我试过这样的:

df.filter( (df["ID"] == "") | (df["ID"].isNull()) | ( df["ID"].isnan()) ).count()

Run Code Online (Sandbox Code Playgroud)

但我总是收到此错误消息:

TypeError: 'Column' object is not callable

Run Code Online (Sandbox Code Playgroud)

有谁知道可能是什么问题？

提前谢谢了!

python pyspark

qwe*_*rtz

lucky-day

3
推荐指数

1
解决办法

1万
查看次数

标签统计

pyspark ×2

python ×2

apache-spark ×1

jupyter-notebook ×1

Spark/PySpark：尝试连接到 Java 服务器时出错 (127.0.0.1:39543)

Python/Pyspark - 计数NULL,空和NaN

标签 统计

小编qwe_rtz的帖子

标签统计