小编Iso*_*ted的帖子

如何使用 Python / Pyspark 合并 Databricks 笔记本中的数据帧

我正在使用 Databricks 笔记本提取 gz 压缩的 csv 文件并加载到数据框对象中。我在执行下面的第 2 部分时遇到了问题。

第 1 部分:将压缩文件加载到数据框中运行良好......

    %python
    df1 = spark.read.option("header",True).option("delimiter", "|").csv("dbfs:/model/.../file_1.csv.gz")
    df2 = spark.read.option("header",True).option("delimiter", "|").csv("dbfs:/model/.../file_2.csv.gz")
    
Run Code Online (Sandbox Code Playgroud)

第 2 部分:尝试合并数据框...

    %python
    import pandas as pd
    df =pd.concat([df1, df2], ignore_index=True)
    df.show(truncate=False)
    
Run Code Online (Sandbox Code Playgroud)

...返回以下错误:

类型错误:无法连接 '<class 'pyspark.sql.dataframe.DataFrame'>' 类型的对象;仅 Series 和 DataFrame 对象有效

对于尝试修改合并数据框的方式有什么建议吗?我最多将有 20 个文件要合并,其中所有列都相同。

python pandas pyspark databricks

1
推荐指数
1
解决办法
3803
查看次数

标签 统计

databricks ×1

pandas ×1

pyspark ×1

python ×1