将 PySpark Dataframe 作为批处理写入 SQL DB

Ger*_*ckl 5 apache-spark apache-spark-sql pyspark databricks

我在 PySpark 中有一个数据帧（使用 Databricks），我想将此数据帧写入 SQL DB（在我的例子中为 Azure SQL 数据库）。这工作得很好，只是这似乎会触发逐行插入 SQL DB，这对于 10M+ 行来说当然是不可行的。有没有办法强制 PySpark 使用 Bulk-Inserts 代替？

目前我只是使用这个命令：

df.write.jdbc(url=jdbcUrl, table=targetTable, mode="append", properties=connectionProperties)

在 SQL 端执行的代码如下所示：

(@P0 int,@P1 bit,@P2 bit,@P3 float,@P4 float,@P5 nvarchar(4000),@P6 int,@P7 int,@P8 int)INSERT INTO dbo.MyTable("Index","Sampling10pct","Sampling1pct","Latitude","Longitude","SessionID","Year","Month","Day") VALUES (@P0,@P1,@P2,@P3,@P4,@P5,@P6,@P7,@P8)

归档时间：	7 年，6 月前
查看次数：	4619 次
最近记录：	5 年，5 月前

如何在Pyspark中使用Scala类 19

更多相关链接

从Pyspark LDA模型中提取文档主题矩阵 16

JavaSparkContext不可序列化 7

如何分发xgboost模块用于spark？ 7

如何从Spark RDD中的特定分区获取数据？ 6

替换深层嵌套架构中的值 Spark Dataframe 6

AirFlow DatabricksSubmitRunOperator 不接受笔记本参数 6

获取错误:Route中的Route()无法应用于String 5

Apache Spark任务不可序列化 4

错误：运行 Spark-submit 时缺少应用程序资源 4

使用 pyspark 将镶木地板数据写入 csv 时出现“不支持的编码：DELTA_BYTE_ARRAY” 3

让现有的Git分支跟踪一个远程分支？ 3437

"git add -A"和"git add"之间的区别. 2788

如何在JavaScript中将字符串转换为布尔值？ 2328

NPM vs. Bower vs. Browserify vs. Gulp vs. Grunt vs. Webpack 1811

从Git提交中删除文件 1484

<meta http-equiv ="X-UA-Compatible"content ="IE = edge">是做什么用的？ 1378

const int*,const int*const和int const*之间有什么区别？ 1262

Subversion存储库中"分支","标记"和"主干"的含义是什么？ 1181

获取数据库中所有表的大小 1180

LF将被git中的CRLF取代 - 这是什么,它是否重要？ 1146