标签: apache-zeppelin

抛出java.lang.ClassNotFoundException:org.apache.spark.repl.SparkCommandLine在java.net.URLClassLoader.findClass(URLClassLoader.java:381)在java.lang.ClassLoader.loadClass(ClassLoader.java:424)在sun.misc.启动$ AppClassLoader.loadClass(Launcher.java:331)在java.lang.ClassLoader.loadClass(ClassLoader.java:357)在org.apache.zeppelin.spark.SparkInterpreter.open(SparkInterpreter.java:401)在org.apache .zeppelin.interpreter.ClassloaderInterpreter.open(ClassloaderInterpreter.java:74)org.apache.zeppelin.interpreter.LazyOpenInterpreter.open(LazyOpenInterpreter.java:68)at org.apache.zeppelin.spark.PySparkInterpreter.getSparkInterpreter(PySparkInterpreter.java) :485)org.apache.zeppelin.spark.PySparkInterpreter.createGatewayServerAndStartScript(PySparkInterpreter.java:174)org.apache.zeppelin.spark.PySparkInterpreter.open(PySparkInterpreter.java:152)org.apache.zeppelin.interpreter. org.apache.zeppelin.interpreter.Lazy中的ClassloaderInterpreter.open(ClassloaderInterpreter.java:74)org.apache.zeppelin.interpret(LazyOpenInterpreter.java:92)中的OpenInterpreter.open(LazyOpenInterpreter.java:68)位于org.apache.zeppelin.interpreter.remote.RemoteInterpreterServer $ InterpretJob.jobRun(RemoteInterpreterServer.java: 302)在org.apache.zeppelin.scheduler.Job.run(Job.java:171)在org.apache.zeppelin.scheduler.FIFOScheduler $ 1.run(FIFOScheduler.java:139)在java.util.concurrent.Executors $ RunnableAdapter.call(Executors.java:511)在java.util.concurrent.FutureTask.run(FutureTask.java:266)在java.util.concurrent.ScheduledThreadPoolExecutor中$ ScheduledFutureTask.access $ 201(ScheduledThreadPoolExecutor.java:180)在爪哇. util.concurrent.ScheduledThreadPoolExecutor $ ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293)在java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)在java.util.concurrent.ThreadPoolExecutor中的$ Worker.run(ThreadPoolExecutor.java: 617)在java.lang.Thread.run(Thread.java:745)

更新我的解决方案是将我的scala版本从2.11.*降级到2.10.*,再次构建Apache Spark并运行Zeppelin.

scala apache-spark pyspark apache-zeppelin

Tom*_*Ron

2016 01-19

6
推荐指数

1
解决办法

2336
查看次数

在单个图表中显示多个数据点

斯卡拉:

val df = sc.parallelize(Seq(
    ("Jan" , "1", "1","3"),
    ("Feb" , "2", "5","2"),
    ("Mar" , "2", "3","1")))
    .toDF("time" , "f1", "f2", "f3")

 df.registerTempTable("inout")

Run Code Online (Sandbox Code Playgroud)

sql:

%sql 
select time , f1 , f2 , f3
from inout

Run Code Online (Sandbox Code Playgroud)

但是我想在单个可视化上绘制所有数据点的图形,因此应绘制三条线,其中每条线显示f1,f2,f3的点.目前只显示"f1":

如何在单线图中显示所有数据？

换句话说,如何将这三个折线图显示为单个图表？:

apache-zeppelin

blu*_*sky

2016 04-09

6
推荐指数

1
解决办法

2122
查看次数

没有$ ZEPPELIN_HOME/scripts/docker/spark-cluster-managers/spark_standalone文件

我正在寻找zeppelin文档来启动本地火花它说:

cd $ZEPPELIN_HOME/scripts/docker/spark-cluster-managers/spark_standalone

Run Code Online (Sandbox Code Playgroud)

但是在$ ZEPPELIN_HOME我没有脚本文件夹:

$ ls -l ~/dev/zeppelin-0.7.3-bin-all/
LICENSE                 README.md               conf/                   lib/                    local-repo/             notebook/               webapps/                
NOTICE                  bin/                    interpreter/            licenses/               logs/                   run/                    zeppelin-web-0.7.3.war

Run Code Online (Sandbox Code Playgroud)

上面提到的脚本目录在哪里？

apache-zeppelin

Jas*_*Jas

lucky-day

6
推荐指数

1
解决办法

214
查看次数

容器因超出内存限制而被 YARN 杀死

我正在 google dataproc 中创建一个具有以下特征的集群：

Master Standard (1 master, N workers)
  Machine       n1-highmem-2 (2 vCPU, 13.0 GB memory)
  Primary disk  250 GB

Worker nodes    2
  Machine type  n1-highmem-2 (2 vCPU, 13.0 GB memory)
  Primary disk  size    250 GB

Run Code Online (Sandbox Code Playgroud)

我还添加Initialization actions了.sh这个存储库中的文件以使用 zeppelin。

我使用的代码可以很好地处理某些数据，但是如果我使用更多的数据，则会出现以下错误：

Container killed by YARN for exceeding memory limits. 4.0 GB of 4 GB physical memory used. Consider boosting spark.yarn.executor.memoryOverhead.

Run Code Online (Sandbox Code Playgroud)

我看到的帖子像这样的：集装箱杀害纱线超过内存...它建议更改yarn.nodemanager.vmem-check-enabled到false。

我有点困惑。当我初始化集群时是否所有这些配置都发生了？

还有具体位置在哪里yarn-site.xml？我无法在 master 中找到它（无法在/usr/lib/zeppelin/conf/ …

apache-spark apache-zeppelin google-cloud-dataproc

Mpi*_*ris

lucky-day

6
推荐指数

1
解决办法

6897
查看次数

[AWS Glue]：org.apache.thrift.TApplicationException：内部错误处理 createInterpreter

我正在尝试使用 zeppelin-0.8.0 连接到 AWS Glue 开发端点，并且在执行以下单元格时发生错误。并且没有有用的信息来了解可能是什么问题。任何线索表示赞赏

172318_1906434757 is finished, status: ERROR, exception: java.lang.RuntimeException: org.apache.thrift.TApplicationException: Internal error processing createInterpreter, result: %text org.apache.thrift.TApplicationException: Internal error processing createInterpreter
        at org.apache.thrift.TApplicationException.read(TApplicationException.java:111)
        at org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:71)
        at org.apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.recv_createInterpreter(RemoteInterpreterService.java:209)
        at org.apache.zeppelin.interpreter.thrift.RemoteInterpreterService$Client.createInterpreter(RemoteInterpreterService.java:192)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreter$2.call(RemoteInterpreter.java:169)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreter$2.call(RemoteInterpreter.java:165)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreterProcess.callRemoteFunction(RemoteInterpreterProcess.java:135)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreter.internal_create(RemoteInterpreter.java:165)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreter.open(RemoteInterpreter.java:132)
        at org.apache.zeppelin.interpreter.remote.RemoteInterpreter.getFormType(RemoteInterpreter.java:299)
        at org.apache.zeppelin.notebook.Paragraph.jobRun(Paragraph.java:407)
        at org.apache.zeppelin.scheduler.Job.run(Job.java:188)
        at org.apache.zeppelin.scheduler.RemoteScheduler$JobRunner.run(RemoteScheduler.java:307)
        at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180)
        at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
        at java.lang.Thread.run(Thread.java:748)

Run Code Online (Sandbox Code Playgroud)

更新：所以在下面的答案中看起来 0.8.0 还不能与 Glue 一起使用..我在运行 0.7.x 时遇到了问题，javax.ws.rx 包在使用 Java 8 时有一堆 MethodNotFoundException（也没有帮助更新替代 …

apache-zeppelin aws-glue

Som*_*kar

2018 11-08

6
推荐指数

1
解决办法

3919
查看次数

默认情况下，用户在Zeppelin Notebook上创建一个Spark池

我正在Zeppelin内部的协作环境中与Spark合作。因此，我们只有一个解释器，并且许多用户正在使用该解释器。出于这个原因，我定义它使用instantiation per user在scoped mode。

通过这种配置，用户作业X等待其他用户的作业分配的资源。

为了更改此行为并允许来自不同用户的作业同时执行，我将Spark配置（在Zeppelin解释器配置上）定义spark.scheduler.mode为FAIR。为了达到预期的效果，用户需要在笔记本上手动定义自己的Spark池（可以同时执行来自不同池的作业：https：//spark.apache.org/docs/latest/job-scheduling。 html＃scheduling-in-an-application）和以下代码：

sc.setLocalProperty("spark.scheduler.pool", "pool1")

Run Code Online (Sandbox Code Playgroud)

备注：一小时后，翻译器关闭。如果用户忘记了下次执行该命令，那么他们将落入默认池中，这不好。

我想知道的是：是否可以在他每次执行Spark段落时自动设置一个Spark用户池，而无需人工操作？

如果还有其他方法可以做到，请告诉我。

hadoop-yarn apache-spark pyspark apache-zeppelin

Igo*_*hôa

lucky-day

6
推荐指数

0
解决办法

130
查看次数

py4JJava 错误 - 使用 select 语句时出错

我在 Zeppelin 笔记本中使用 pspark 并尝试使用 SELECT 语句获取数据。我只是想查询一个表，但以下命令出现奇怪的错误：

%pyspark
spark.sql('select * from default.abc').show()

Run Code Online (Sandbox Code Playgroud)

这是我得到的错误：

Py4JJavaError: An error occurred while calling o92.sql.
: java.lang.NoSuchMethodError: com.facebook.fb303.FacebookService$Client.sendBaseOneway(Ljava/lang/String;Lorg/apache/thrift/TBase;)V
    at com.facebook.fb303.FacebookService$Client.send_shutdown(FacebookService.java:436)
    at com.facebook.fb303.FacebookService$Client.shutdown(FacebookService.java:430)
    at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.close(HiveMetaStoreClient.java:606)
    at sun.reflect.GeneratedMethodAccessor37.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.invoke(RetryingMetaStoreClient.java:154)
    at com.sun.proxy.$Proxy39.close(Unknown Source)
    at sun.reflect.GeneratedMethodAccessor37.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.hadoop.hive.metastore.HiveMetaStoreClient$SynchronizedHandler.invoke(HiveMetaStoreClient.java:2477)
    at com.sun.proxy.$Proxy39.close(Unknown Source)
    at org.apache.hadoop.hive.ql.metadata.Hive.close(Hive.java:414)
    at org.apache.hadoop.hive.ql.metadata.Hive.create(Hive.java:330)
    at org.apache.hadoop.hive.ql.metadata.Hive.getInternal(Hive.java:317)
    at org.apache.hadoop.hive.ql.metadata.Hive.get(Hive.java:293)
    at org.apache.spark.sql.hive.client.HiveClientImpl$$anonfun$withHiveState$1.apply(HiveClientImpl.scala:278)
    at org.apache.spark.sql.hive.client.HiveClientImpl.liftedTree1$1(HiveClientImpl.scala:221)
    at org.apache.spark.sql.hive.client.HiveClientImpl.retryLocked(HiveClientImpl.scala:220)
    at org.apache.spark.sql.hive.client.HiveClientImpl.withHiveState(HiveClientImpl.scala:266)
    at org.apache.spark.sql.hive.client.HiveClientImpl.databaseExists(HiveClientImpl.scala:356)
    at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$databaseExists$1.apply$mcZ$sp(HiveExternalCatalog.scala:217)
    at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$databaseExists$1.apply(HiveExternalCatalog.scala:217)
    at org.apache.spark.sql.hive.HiveExternalCatalog$$anonfun$databaseExists$1.apply(HiveExternalCatalog.scala:217)
    at org.apache.spark.sql.hive.HiveExternalCatalog.withClient(HiveExternalCatalog.scala:99)
    at …

Run Code Online (Sandbox Code Playgroud)

python-3.x apache-spark pyspark apache-zeppelin pyspark-sql

use*_*253

2020 01-02

6
推荐指数

1
解决办法

597
查看次数

如何将参数传递给spark.sql(""" """)？

我想将一个字符串传递给spark.sql

这是我的查询

mydf = spark.sql("SELECT * FROM MYTABLE WHERE TIMESTAMP BETWEEN '2020-04-01' AND '2020-04-08')

Run Code Online (Sandbox Code Playgroud)

我想传递一个日期字符串。

我试过这段代码

val = '2020-04-08'

s"spark.sql("SELECT * FROM MYTABLE WHERE TIMESTAMP  BETWEEN $val  AND '2020-04-08'

Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark apache-zeppelin

Cau*_*der

lucky-day

6
推荐指数

2
解决办法

3万
查看次数

标签统计

apache-zeppelin ×10

apache-spark ×6

pyspark ×4

apache-spark-sql ×2

amazon-web-services ×1

aws-glue ×1

bigdata ×1

google-cloud-dataproc ×1

hadoop-yarn ×1

pyspark-sql ×1

python-3.x ×1

scala ×1

标签 统计

标签统计