我想将 Nifi 流文件发送到 Spark 并在 Spark 中进行一些转换,然后再次将结果发送回 Nifi,以便我可以在 Nifi 中进行进一步的操作。我不想将流文件写入数据库或 HDFS,然后触发 Spark 作业。我想将流文件直接发送到 Spark 并直接从 Spark 接收结果到 Nifi。我尝试在 Nifi 中使用 ExecuteSparkInteractive 处理器,但我被卡住了。任何例子都会有帮助
我们使用 Apache Spark 每 2 小时执行一次 ETL。
有时Spark在执行读/写操作时会给数据库带来很大的压力。
对于Spark Streaming,我可以backpressure在kafka上看到配置。
有没有办法在批处理中处理这个问题?
我想在Spark中进行以下转换我的目标是获得输出,我希望如果我可以进行中间转换,我可以轻松获得输出。关于如何将行转换为列的任何想法都会很有帮助。
RowID Name Place
1 Gaga India,US,UK
1 Katy UK,India,Europe
1 Bey Europe
2 Gaga Null
2 Katy India,Europe
2 Bey US
3 Gaga Europe
3 Katy US
3 Bey Null
Output:
RowID Id Gaga Katy Bey
1 1 India UK Europe
1 2 US India Null
1 3 UK Europe Null
2 1 Null India US
2 2 Null Europe Null
3 1 Europe US Null
Intermediate Output:
RowID Gaga Katy Bey
1 India,US,UK UK,India,Europe Europe
2 Null India,Europe …Run Code Online (Sandbox Code Playgroud)