小编mm1*_*112的帖子

结构化流如何执行单独的流式查询(并行或顺序)？

我正在编写一个测试应用程序,它消耗来自Kafka的topcis的消息,然后将数据推送到S3并进入RDBMS表(流程类似于此处所示:https://databricks.com/blog/2017/04/26/processing-data -in-apache-kafka-with-structured-streaming-in-apache-spark-2-2.html).所以我从Kafka读取数据然后:

每条消息都想保存到S3中
一些消息保存到外部数据库中的表A(基于过滤条件)
一些其他消息保存到外部数据库中的表B(其他过滤条件)

所以我有点像:

Dataset<Row> df = spark
.readStream()
.format("kafka")
.option("kafka.bootstrap.servers", "host1:port1,host2:port2")
.option("subscribe", "topic1,topic2,topic3")
.option("startingOffsets", "earliest")
.load()
.select(from_json(col("value").cast("string"), schema, jsonOptions).alias("parsed_value"))

Run Code Online (Sandbox Code Playgroud)

(请注意我正在阅读多个Kafka主题).接下来我定义所需的数据集:

Dataset<Row> allMessages = df.select(.....)
Dataset<Row> messagesOfType1 = df.select() //some unique conditions applied on JSON elements
Dataset<Row> messagesOfType2 = df.select() //some other unique conditions

Run Code Online (Sandbox Code Playgroud)

现在为每个数据集我创建查询以开始处理:

StreamingQuery s3Query = allMessages
.writeStream()
.format("parquet")
.option("startingOffsets", "latest")
.option("path", "s3_location")
.start()

StreamingQuery firstQuery = messagesOfType1
.writeStream()
.foreach(new CustomForEachWiriterType1()) // class that extends ForeachWriter[T] and save data into external RDBMS table …

Run Code Online (Sandbox Code Playgroud)

apache-spark spark-structured-streaming

mm1*_*112

2018 10-27

8
推荐指数

1
解决办法

1149
查看次数

标签统计

apache-spark ×1

spark-structured-streaming ×1

结构化流如何执行单独的流式查询(并行或顺序)？

标签 统计

小编mm1_112的帖子

标签统计