Jus*_*tin 8 java postgresql cassandra apache-spark apache-spark-sql
我有Cassandra数据库,我通过Apache Spark使用SparkSQL分析数据.现在我想将这些分析的数据插入到PostgreSQL中.除了使用PostgreSQL驱动程序之外,有没有办法直接实现这一点(我使用postREST和Driver实现它我想知道是否有任何方法saveToCassandra())?
0x0*_*FFF 13
目前没有将RDD写入任何DBMS的本机实现.以下是Spark用户列表中相关讨论的链接:一,二
一般来说,最高效的方法如下:
repartition用20个分区调用,如果更高 - 调用coalesce50个分区mapPartition转换,在其内部调用函数以使用JDBC将记录插入到DBMS中.在此函数中,您打开与数据库的连接并使用带有此API的COPY命令,这将允许您无需为每条记录单独执行命令 - 这样可以更快地处理插入这样,您可以使用多达50个并行连接以并行方式将数据插入Postgres(取决于您的Spark群集大小及其配置).整个方法可以实现为接受RDD和连接字符串的Java/Scala函数
| 归档时间: |
|
| 查看次数: |
5643 次 |
| 最近记录: |