相关疑难解决方法(0)

如何附加到 HDFS 中的同一文件(spark 2.11)

我正在尝试使用 SparkStreaming 将流数据存储到 HDFS 中，但它不断在新文件中创建，而不是附加到一个文件或多个文件中

如果它不断创建n个文件，我觉得效率不会很高

HDFS文件系统

代码

lines.foreachRDD(f => {
  if (!f.isEmpty()) {
    val df = f.toDF().coalesce(1)
    df.write.mode(SaveMode.Append).json("hdfs://localhost:9000/MT9")
  }
 })

Run Code Online (Sandbox Code Playgroud)

在我的 pom 中，我使用各自的依赖项：

火花核心_2.11
Spark-SQL_2.11
火花流_2.11
火花流-kafka-0-10_2.11

apache-spark spark-streaming apache-spark-sql

and*_*ani

lucky-day

4
推荐指数

1
解决办法

7573
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

spark-streaming ×1

如何附加到 HDFS 中的同一文件(spark 2.11)

标签 统计

标签统计