Vin*_*wal 3 apache-spark pyspark databricks
在PySpark中,spark.read()和spark.readstream()有什么区别?
我试图了解在 Databricks 中读取数据的各种选项。我在 Spark read() 和 readstream() 上遇到了这两个函数,但找不到有关何时使用哪个函数以及它们之间有何不同的信息。
Ale*_*Ott 5
它们有不同的用途:
.read用于批量数据处理,当您读取整个输入数据集、处理它并存储在某个地方时。如果添加新数据并再次读取,它将与新数据一起读取先前处理过的数据并再次处理它们。
.read
.readStream用于增量数据处理(流式传输) - 当您读取输入数据时,Spark 确定自上次读取操作以来添加了哪些新数据并仅处理它们。流数据处理有不同类型 - 连续的,当你的程序一直运行并处理数据时,或者像批处理一样,当它开始时,找出可用的新数据,并在处理完成后完成。它由触发器调节。
.readStream
归档时间:
2 年,6 月 前
查看次数:
2240 次
最近记录: