在 pyspark 中读取 Excel (.xlsx) 文件

Question

在 pyspark 中读取 Excel (.xlsx) 文件

OMG*_*OMG 5 apache-spark pyspark spark-excel

我正在尝试从 PySpark 中的本地路径读取 .xlsx 文件。

我写了下面的代码：

from pyspark.shell import sqlContext
from pyspark.sql import SparkSession

spark = SparkSession.builder \
      .master('local') \
      .appName('Planning') \
      .enableHiveSupport() \
      .config('spark.executor.memory', '2g') \
      .getOrCreate()

df = sqlContext.read("C:\P_DATA\tyco_93_A.xlsx").show()

Run Code Online (Sandbox Code Playgroud)

错误：

类型错误：“DataFrameReader”对象不可调用

Answer 1

小智 7

您可以使用 Pandas 读取 .xlsx 文件，然后将其转换为 spark 数据帧。

from pyspark.sql import SparkSession
import pandas

spark = SparkSession.builder.appName("Test").getOrCreate()

pdf = pandas.read_excel('excelfile.xlsx', sheet_name='sheetname', inferSchema='true')
df = spark.createDataFrame(pdf)

df.show()

Run Code Online (Sandbox Code Playgroud)

归档时间：	5 年，7 月前
查看次数：	11536 次
最近记录：	4 年，2 月前