Spark 会话返回错误:Apache NiFi

Sac*_*ith 6 scala apache-spark apache-nifi livy

我们正在尝试使用 NiFi 运行一个 Spark 程序。这是我们尝试遵循的基本示例

我们已经在127.0.0.1:8998.

ExecutiveSparkInteractive 处理器用于运行示例 Spark 代码。

val gdpDF = spark.read.json("gdp.json")
val gdpRDD = gdpDF.rdd
gdpRDD.count()
Run Code Online (Sandbox Code Playgroud)

LivyController127.0.0.1端口8998和 配置Session Type : spark

当我们运行处理器时,我们得到以下错误:

Spark Session返回错误,将输出的JSON对象作为流文件内容发送到失败(惩罚后)

我们只想输出 JSON 文件中的行数。如何将其重定向到流文件?

NiFi 用户日志:

2020-04-13 21:50:49,955 INFO [NiFi Web Server-85] org.apache.nifi.web.filter.RequestLogger Attempting request for (anonymous) GET http://localhost:9090/nifi-api/flow/控制器/公告(源IP:127.0.0.1)

NiFi 应用程序.log

ERROR [Timer-Driven Process Thread-3] oanplivy.ExecuteSparkInteractive ExecuteSparkInteractive[id=9a338053-0173-1000-fbe9-e613558ad33b] Spark Session 返回错误,将输出 JSON 对象作为流文件内容发送到失败(惩罚后)

Den*_*din 1

我见过几个人在这个例子中挣扎。我建议遵循 Cloudera 社区的这个示例(特别是注意第 2 部分)。 https://community.cloudera.com/t5/Community-Articles/HDF-3-1-Executing-Apache-Spark-via-ExecuteSparkInteractive/ta-p/247772

我会关心的关键点:

  1. 你的火花一般有效吗
  2. 你的生活工作一般吗
  3. Spark示例代码好不好