如何使用pyspark在cassandra数据上创建RDD对象

use*_*818 9 python scala cassandra pycassa apache-spark

我正在使用cassandra 2.0.3,我想使用pyspark(Apache Spark Python API)从cassandra数据创建一个RDD对象.

请注意:我不想从pyspark API执行导入CQL和CQL查询,而是想创建一个RDD,我想在其上做一些转换.

我知道这可以在Scala中完成,但我无法找到如何通过pyspark完成.

真的很感激,如果有人能指导我这个.

小智 0

我不确定您是否看过这个示例 https://github.com/apache/spark/blob/master/examples/src/main/python/cassandra_inputformat.py 我已经使用类似的模式从 Cassandra 中读取了内容