如何使用pyspark读取orc文件

Question

spark有两种压缩文件格式。一种是镶木地板，很容易阅读：

from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)

但对于 ocr 文件。我找不到一个很好的例子来告诉我如何使用 pyspark 阅读。

Answer 1

嗯，有两种方法：

火花2.x：

orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')

火花1.6：

df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')