How*_*yan 3 apache-spark pyspark pyspark-sql
spark有两种压缩文件格式。一种是镶木地板,很容易阅读:
from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)
hiveCtx.parquetFile(parquetFile)
Run Code Online (Sandbox Code Playgroud)
但对于 ocr 文件。我找不到一个很好的例子来告诉我如何使用 pyspark 阅读。
嗯,有两种方法:
火花2.x:
orc_df = spark.read.orc('python/test_support/sql/orc_partitioned')
Run Code Online (Sandbox Code Playgroud)
火花1.6:
df = hiveContext.read.orc('python/test_support/sql/orc_partitioned')
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
13947 次 |
| 最近记录: |