给定一个类似 csv 的字符串,如何加载到 Spark 数据帧中?

huy*_*ang 4 apache-spark pyspark

我有一个字符串,格式与 csv 相同,第一行作为列名,其余记录作为数据。如何使用 pyspark 将此字符串加载到数据框中。

str = '''
        sale_id, cust_name, amount
        111, abc, 10000
        222, bcd, 15000
      '''
Run Code Online (Sandbox Code Playgroud)

huy*_*ang 6

找到答案:

import pandas as pd
import io

data = io.StringIO(str)
pd_df = pd.read_csv(data, sep=",")
df = spark.createDataFrame(pd_df)
display(df)
Run Code Online (Sandbox Code Playgroud)