小编msl*_*ck3的帖子

直接从Spark shell读取ORC文件

我在从Spark shell直接读取ORC文件时遇到问题.注意:使用pyspark shell运行Hadoop 1.2和Spark 1.2可以使用spark-shell(运行scala).

我使用过这个资源http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.2.4/Apache_Spark_Quickstart_v224/content/ch_orc-spark-quickstart.html.

from pyspark.sql import HiveContext
hiveCtx = HiveContext(sc)

inputRead = sc.hadoopFile("hdfs://user@server:/file_path",
classOf[inputFormat:org.apache.hadoop.hive.ql.io.orc.OrcInputFormat],
classOf[outputFormat:org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat])
Run Code Online (Sandbox Code Playgroud)

我得到一个错误,一般说错误的语法.有一次,代码似乎工作,我只使用传递给hadoopFile的三个参数中的第一个,但是当我尝试使用时

inputRead.first()
Run Code Online (Sandbox Code Playgroud)

输出是RDD [什么都没有].我不知道这是因为inputRead变量没有被创建为RDD,或者根本没有创建它.

我感谢任何帮助!

hadoop hive scala apache-spark pyspark

8
推荐指数
1
解决办法
2万
查看次数

标签 统计

apache-spark ×1

hadoop ×1

hive ×1

pyspark ×1

scala ×1