如何将流数据集写入Kafka？

Question

如何将流数据集写入Kafka？

bug*_*ggy 5 apache-kafka apache-spark spark-structured-streaming

我正在尝试对主题数据进行一些丰富.因此,从Kafka读取使用Spark结构化流媒体回到Kafka.

val ds = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", bootstrapServers)
      .option("group.id", groupId)
      .option("subscribe", "topicname")
      .load()


val enriched = ds.select("key", "value", "topic").as[(String, String, String)].map(record => enrich(record._1,
      record._2, record._3)

val query = enriched.writeStream
      .format("kafka")
      .option("kafka.bootstrap.servers", bootstrapServers)
      .option("group.id", groupId)
      .option("topic", "desttopic")
      .start()

Run Code Online (Sandbox Code Playgroud)

但我得到一个例外:

Exception in thread "main" java.lang.UnsupportedOperationException: Data source kafka does not support streamed writing
    at org.apache.spark.sql.execution.datasources.DataSource.createSink(DataSource.scala:287)
    at org.apache.spark.sql.streaming.DataStreamWriter.start(DataStreamWriter.scala:266)
    at kafka_bridge.KafkaBridge$.main(KafkaBridge.scala:319)
    at kafka_bridge.KafkaBridge.main(KafkaBridge.scala)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at com.intellij.rt.execution.application.AppMain.main(AppMain.java:147)

Run Code Online (Sandbox Code Playgroud)

任何解决方法？

Answer 1

Jac*_*ski 3

饰演T.Gaw\xc4\x99da提到的，没有 kafka 格式可以将流数据集写入 Kafka（即 Kafka 接收器）。

\n\n

Spark 2.1中目前推荐的解决方案是使用foreach运算符。

\n\n

\n
foreach 操作允许对输出数据进行任意操作。从 Spark 2.1 开始，这仅适用于 Scala 和 Java。要使用它，您必须实现 ForeachWriter 接口（Scala/Java 文档），该接口具有每当触发器后生成作为输出的行序列时就会调用的方法。请注意以下要点。
\n

\n

我'使用夜间构建中的spark 2.2.snapshot版本，我从maven添加apache快照存储库引用，现在我将测试kafka同步，稍后如果你愿意我可以分享经验=） (2认同)

归档时间：	8 年，8 月前
查看次数：	2513 次
最近记录：	6 年，9 月前