小编use*_*601的帖子

spark中不同的读取选项有什么区别?

我正在通过以下代码读取 csv 文件:-

    from pyspark.sql import SparkSession
    spark = SparkSession.builder \
            .master("local[2]") \
            .getOrCreate()
Run Code Online (Sandbox Code Playgroud)

现在有四种不同的阅读选项:

  1. df = spark.read.load("/..../xyz.csv")
  2. df = spark.read.csv("/..../xyz.csv")
  3. df = spark.read.format('csv').load("/..../xyz.csv")
  4. df = spark.read.option().csv("/..../xyz.csv")

我应该使用哪个选项?

编辑:-

此外,无论是inferSchema="true"inferSchema=True正在工作。我们可以盲目使用任何一种吗?

python csv apache-spark apache-spark-sql pyspark

1
推荐指数
2
解决办法
2172
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

csv ×1

pyspark ×1

python ×1