将 Spark Structure 流数据写入 Cassandra

Ata*_*jee 2 cassandra datastax apache-spark pyspark spark-structured-streaming

我想使用 Pyspark API 将结构流数据写入 Cassandra。

我的数据流如下:

Nifi -> Kafka -> Spark Structure Streaming -> Cassandra

我尝试过以下方式:

query = df.writeStream\
  .format("org.apache.spark.sql.cassandra")\
  .option("keyspace", "demo")\
  .option("table", "test")\
  .start()
Run Code Online (Sandbox Code Playgroud)

但是收到以下错误消息:“org.apache.spark.sql.cassandra”不支持流式写入。

我尝试过的另一种方法:[来源- DSE 6.0 管理员指南]

query = df.writeStream\
   .cassandraFormat("test", "demo")\
   .start()
Run Code Online (Sandbox Code Playgroud)

但有异常:AttributeError: 'DataStreamWriter' object has no attribute 'cassandraFormat'

任何人都可以给我一些想法如何进一步进行?

提前致谢。

Ata*_*jee 6

升级 DSE 6.0(最新版本)后,我可以将结构化流数据写入 Cassandra。[Spark 2.2 和 Cassandra 3.11]

参考代码:

query = fileStreamDf.writeStream\
 .option("checkpointLocation", '/tmp/check_point/')\
 .format("org.apache.spark.sql.cassandra")\
 .option("keyspace", "analytics")\
 .option("table", "test")\
 .start()
Run Code Online (Sandbox Code Playgroud)

DSE 文档网址:https : //docs.datastax.com/en/dse/6.0/dse-dev/datastax_enterprise/spark/structuredStreaming.html