Ata*_*jee 2 cassandra datastax apache-spark pyspark spark-structured-streaming
我想使用 Pyspark API 将结构流数据写入 Cassandra。
我的数据流如下:
Nifi -> Kafka -> Spark Structure Streaming -> Cassandra
我尝试过以下方式:
query = df.writeStream\
.format("org.apache.spark.sql.cassandra")\
.option("keyspace", "demo")\
.option("table", "test")\
.start()
Run Code Online (Sandbox Code Playgroud)
但是收到以下错误消息:“org.apache.spark.sql.cassandra”不支持流式写入。
我尝试过的另一种方法:[来源- DSE 6.0 管理员指南]
query = df.writeStream\
.cassandraFormat("test", "demo")\
.start()
Run Code Online (Sandbox Code Playgroud)
但有异常:AttributeError: 'DataStreamWriter' object has no attribute 'cassandraFormat'
任何人都可以给我一些想法如何进一步进行?
提前致谢。
升级 DSE 6.0(最新版本)后,我可以将结构化流数据写入 Cassandra。[Spark 2.2 和 Cassandra 3.11]
参考代码:
query = fileStreamDf.writeStream\
.option("checkpointLocation", '/tmp/check_point/')\
.format("org.apache.spark.sql.cassandra")\
.option("keyspace", "analytics")\
.option("table", "test")\
.start()
Run Code Online (Sandbox Code Playgroud)
DSE 文档网址:https : //docs.datastax.com/en/dse/6.0/dse-dev/datastax_enterprise/spark/structuredStreaming.html
| 归档时间: |
|
| 查看次数: |
4338 次 |
| 最近记录: |