在pyspark中，spark.read()和spark.readstream()有什么区别？

Question

在PySpark中，spark.read()和spark.readstream()有什么区别？

我试图了解在 Databricks 中读取数据的各种选项。我在 Spark read() 和 readstream() 上遇到了这两个函数，但找不到有关何时使用哪个函数以及它们之间有何不同的信息。

Answer 1

它们有不同的用途：

.read用于批量数据处理，当您读取整个输入数据集、处理它并存储在某个地方时。如果添加新数据并再次读取，它将与新数据一起读取先前处理过的数据并再次处理它们。
.readStream用于增量数据处理（流式传输） - 当您读取输入数据时，Spark 确定自上次读取操作以来添加了哪些新数据并仅处理它们。流数据处理有不同类型 - 连续的，当你的程序一直运行并处理数据时，或者像批处理一样，当它开始时，找出可用的新数据，并在处理完成后完成。它由触发器调节。