小编Gow*_*n V的帖子

Apache Spark 和 Nifi 集成

我想将 Nifi 流文件发送到 Spark 并在 Spark 中进行一些转换,然后再次将结果发送回 Nifi,以便我可以在 Nifi 中进行进一步的操作。我不想将流文件写入数据库或 HDFS,然后触发 Spark 作业。我想将流文件直接发送到 Spark 并直接从 Spark 接收结果到 Nifi。我尝试在 Nifi 中使用 ExecuteSparkInteractive 处理器,但我被卡住了。任何例子都会有帮助

apache-spark apache-nifi

6
推荐指数
1
解决办法
5620
查看次数

使用 Apache Spark 时如何处理数据库的背压?

我们使用 Apache Spark 每 2 小时执行一次 ETL。

有时Spark在执行读/写操作时会给数据库带来很大的压力。

对于Spark Streaming,我可以backpressure在kafka上看到配置。

有没有办法在批处理中处理这个问题?

apache-spark apache-spark-sql

2
推荐指数
1
解决办法
732
查看次数

在 Spark SQL (pyspark) 中将行转置为列

我想在Spark中进行以下转换我的目标是获得输出,我希望如果我可以进行中间转换,我可以轻松获得输出。关于如何将行转换为列的任何想法都会很有帮助。

RowID  Name  Place
1      Gaga India,US,UK
1      Katy UK,India,Europe
1      Bey  Europe
2      Gaga Null
2      Katy India,Europe
2      Bey  US
3      Gaga Europe
3      Katy US
3      Bey  Null

Output:

RowID   Id  Gaga    Katy    Bey
1       1   India   UK      Europe
1       2   US      India   Null
1       3   UK      Europe  Null
2       1   Null    India   US
2       2   Null    Europe  Null
3       1   Europe  US      Null


Intermediate Output:

RowID   Gaga         Katy               Bey
1       India,US,UK  UK,India,Europe    Europe
2       Null         India,Europe …
Run Code Online (Sandbox Code Playgroud)

sql apache-spark-sql pyspark

1
推荐指数
1
解决办法
6278
查看次数