相关疑难解决方法(0)

Spark迭代HDFS目录

我在HDFS上有一个目录目录,我想迭代这些目录.使用SparkContext对象有没有简单的方法来使用Spark？

hadoop hdfs apache-spark

Jon*_*Jon

2014 11-20

34
推荐指数

3
解决办法

3万
查看次数

使用--jars选项时,Spark会抛出ClassNotFoundException

我试图遵循这里描述的Spark独立应用程序示例 https://spark.apache.org/docs/latest/quick-start.html#standalone-applications

该示例在以下调用中运行良好:

spark-submit  --class "SimpleApp" --master local[4] target/scala-2.10/simple-project_2.10-1.0.jar

Run Code Online (Sandbox Code Playgroud)

但是,当我尝试通过引入一些第三方库时--jars,它会抛出ClassNotFoundException.

$ spark-submit --jars /home/linpengt/workspace/scala-learn/spark-analysis/target/pack/lib/* \
  --class "SimpleApp" --master local[4] target/scala-2.10/simple-project_2.10-1.0.jar

Spark assembly has been built with Hive, including Datanucleus jars on classpath
Exception in thread "main" java.lang.ClassNotFoundException: SimpleApp
    at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
    at java.security.AccessController.doPrivileged(Native Method)
    at java.net.URLClassLoader.findClass(URLClassLoader.java:190)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:306)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:247)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:247)
    at org.apache.spark.deploy.SparkSubmit$.launch(SparkSubmit.scala:300)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:55)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

Run Code Online (Sandbox Code Playgroud)

删除--jars选项和程序再次运行(我实际上还没有开始使用这些库).这有什么问题？我该如何添加外部罐子？

apache-spark

cht*_*tlp

lucky-day

18
推荐指数

1
解决办法

2万
查看次数

如何使用 JDBC 将 Impala 表直接加载到 Spark？

我正在尝试使用 Python 编写一个 Spark 作业，该作业将打开与 Impala 的 jdbc 连接，并将 VIEW 直接从 Impala 加载到 Dataframe 中。这个问题非常接近，但在 Scala 中：Calling JDBC to impala/hive from inside a spark job and created a table

我该怎么做呢？对于其他数据源，例如 MySQL、PostgreSQL 等，有很多示例，但我还没有看到 Impala + Python + Kerberos 的示例。一个例子会有很大帮助。谢谢！

用网络上的信息试过这个，但没有用。

星火笔记本

#!/bin/bash
export PYSPARK_PYTHON=/home/anave/anaconda2/bin/python
export HADOOP_CONF_DIR=/etc/hive/conf
export PYSPARK_DRIVER_PYTHON=/home/anave/anaconda2/bin/ipython
export PYSPARK_DRIVER_PYTHON_OPTS='notebook --ip=* --no-browser'

# use Java8
export JAVA_HOME=/usr/java/latest
export PATH=$JAVA_HOME/bin:$PATH

# JDBC Drivers for Impala
export CLASSPATH=/home/anave/impala_jdbc_2.5.30.1049/Cloudera_ImpalaJDBC41_2.5.30/*.jar:$CLASSPATH
export JDBC_PATH=/home/anave/impala_jdbc_2.5.30.1049/Cloudera_ImpalaJDBC41_2.5.30

# --jars $SRCDIR/spark-csv-assembly-1.4.0-SNAPSHOT.jar \
# --conf spark.sql.parquet.binaryAsString=true \
# --conf spark.sql.hive.convertMetastoreParquet=false

pyspark …

Run Code Online (Sandbox Code Playgroud)

kerberos jdbc impala apache-spark pyspark

alf*_*dox

2017 05-23

5
推荐指数

1
解决办法

1万
查看次数