Sac*_*ith 6 scala apache-spark apache-nifi livy
我们正在尝试使用 NiFi 运行一个 Spark 程序。这是我们尝试遵循的基本示例。
我们已经在127.0.0.1:8998.
ExecutiveSparkInteractive 处理器用于运行示例 Spark 代码。
val gdpDF = spark.read.json("gdp.json")
val gdpRDD = gdpDF.rdd
gdpRDD.count()
Run Code Online (Sandbox Code Playgroud)
LivyController为127.0.0.1端口8998和 配置Session Type : spark。
当我们运行处理器时,我们得到以下错误:
Spark Session返回错误,将输出的JSON对象作为流文件内容发送到失败(惩罚后)
我们只想输出 JSON 文件中的行数。如何将其重定向到流文件?
NiFi 用户日志:
2020-04-13 21:50:49,955 INFO [NiFi Web Server-85] org.apache.nifi.web.filter.RequestLogger Attempting request for (anonymous) GET http://localhost:9090/nifi-api/flow/控制器/公告(源IP:127.0.0.1)
NiFi 应用程序.log
ERROR [Timer-Driven Process Thread-3] oanplivy.ExecuteSparkInteractive ExecuteSparkInteractive[id=9a338053-0173-1000-fbe9-e613558ad33b] Spark Session 返回错误,将输出 JSON 对象作为流文件内容发送到失败(惩罚后)
我见过几个人在这个例子中挣扎。我建议遵循 Cloudera 社区的这个示例(特别是注意第 2 部分)。 https://community.cloudera.com/t5/Community-Articles/HDF-3-1-Executing-Apache-Spark-via-ExecuteSparkInteractive/ta-p/247772
我会关心的关键点: