小编Iso*_*ted的帖子

如何使用 Python / Pyspark 合并 Databricks 笔记本中的数据帧

我正在使用 Databricks 笔记本提取 gz 压缩的 csv 文件并加载到数据框对象中。我在执行下面的第 2 部分时遇到了问题。

第 1 部分：将压缩文件加载到数据框中运行良好......

    %python
    df1 = spark.read.option("header",True).option("delimiter", "|").csv("dbfs:/model/.../file_1.csv.gz")
    df2 = spark.read.option("header",True).option("delimiter", "|").csv("dbfs:/model/.../file_2.csv.gz")

Run Code Online (Sandbox Code Playgroud)

第 2 部分：尝试合并数据框...

    %python
    import pandas as pd
    df =pd.concat([df1, df2], ignore_index=True)
    df.show(truncate=False)

Run Code Online (Sandbox Code Playgroud)

...返回以下错误：

类型错误：无法连接 '<class 'pyspark.sql.dataframe.DataFrame'>' 类型的对象；仅 Series 和 DataFrame 对象有效

对于尝试修改合并数据框的方式有什么建议吗？我最多将有 20 个文件要合并，其中所有列都相同。

python pandas pyspark databricks

Iso*_*ted

2021 02-11

1
推荐指数

1
解决办法

3803
查看次数

标签统计

databricks ×1

pandas ×1

pyspark ×1

python ×1

如何使用 Python / Pyspark 合并 Databricks 笔记本中的数据帧

标签 统计

小编Iso_ted的帖子

标签统计