从Spark到MySQL的JDBC写入速度低

Tak*_* Lê 8 apache-spark pyspark

我需要从Spark一个DataFrame写入大约100万行到MySQL但是插入太慢了.我怎样才能改进它?

代码如下:

df = sqlContext.createDataFrame(rdd, schema)
df.write.jdbc(url='xx', table='xx', mode='overwrite')
Run Code Online (Sandbox Code Playgroud)

Dan*_*bos 12

/sf/answers/743243791/中的答案对我有用.添加rewriteBatchedStatements=true到连接URL.(请参阅Connector/J的配置属性.)

我的基准测试从3325秒变为42秒!