标签: apache-zeppelin

如何将Zeppelin连接到源自Spark的Spark 1.5?

我从Spark存储库中提取了最新的源代码并在本地构建.它可以从像spark-shell或的交互式shell中运行得很好spark-sql.

现在我想根据这个安装手册将Zeppelin连接到我的Spark 1.5 .我将自定义Spark构建发布到本地maven存储库,并在Zeppelin构建命令中设置自定义Spark版本.构建过程成功完成但是当我尝试运行像sc笔记本内部这样的基本内容时,它会抛出:

akka.ConfigurationException:Akka JAR版本[2.3.11]与提供的配置版本[2.3.4]不匹配

2.3.4版中设置pom.xmlspark/pom.xml,而只是改变他们甚至不会让我得到一个版本.

如果我用标准重建Zeppelin -Dspark.vesion=1.4.1,一切正常.

apache-spark apache-zeppelin apache-spark-1.5

11
推荐指数
1
解决办法
1351
查看次数

是否可以在Zeppelin上定制皮肤?

是否可以在Zeppelin上定制皮肤?换句话说,用其他东西替换Zeppelin徽标?

apache-zeppelin

11
推荐指数
2
解决办法
5475
查看次数

无法读取Apache Zeppelin 0.8的csv文件

我目前正在使用Apache Zeppelin 0.8.我试着像这样加载一个csv文件:

val df = spark.read.option("header", "true").option("inferSchema", "true").csv("/path/to/csv/name.csv")
Run Code Online (Sandbox Code Playgroud)

我也试过这个:

val df = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/path/to/csv/name.csv")
Run Code Online (Sandbox Code Playgroud)

但是,它无法打印出以下内容:

org.apache.spark.SparkException:作业因阶段失败而中止:阶段2.0中的任务0失败1次,最近失败:阶段2.0中丢失的任务0.0(TID 2,localhost,执行器驱动程序):java.lang.NoSuchMethodError: org.apache.hadoop.fs.FileSystem $ Statistics.getThreadStatistics()Lorg /阿帕奇/的Hadoop/FS /文件系统$ $统计统计局数据;

注意: 问题解决 如果我使用zeppelin-env.sh中的SPARK_HOME env变量为Spark指定我自己的构建.但是,我仍然想要一个解决方案,这不需要我这样做,因为我有一些其他库不能与该版本的Spark一起使用.

csv apache-spark apache-zeppelin

11
推荐指数
1
解决办法
1737
查看次数

Scala和Spark UDF功能

我做了一个简单的UDF来转换或从spark中的temptabl中的时间字段中提取一些值.我注册了该函数,但是当我使用sql调用该函数时,它会抛出一个NullPointerException.以下是我的功能和执行过程.我正在使用Zeppelin.扼杀这是昨天工作,但它今天早上停止工作.

功能

def convert( time:String ) : String = {
  val sdf = new java.text.SimpleDateFormat("HH:mm")
  val time1 = sdf.parse(time)
  return sdf.format(time1)
}
Run Code Online (Sandbox Code Playgroud)

注册功能

sqlContext.udf.register("convert",convert _)
Run Code Online (Sandbox Code Playgroud)

没有SQL测试函数 - 这是有效的

convert(12:12:12) -> returns 12:12
Run Code Online (Sandbox Code Playgroud)

在Zeppelin这个FAILS中用SQL测试函数.

%sql
select convert(time) from temptable limit 10
Run Code Online (Sandbox Code Playgroud)

结构的诱惑力

root
 |-- date: string (nullable = true)
 |-- time: string (nullable = true)
 |-- serverip: string (nullable = true)
 |-- request: string (nullable = true)
 |-- resource: string (nullable = true)
 |-- protocol: integer (nullable = true)
 |-- sourceip: …
Run Code Online (Sandbox Code Playgroud)

scala apache-spark apache-spark-sql apache-zeppelin

10
推荐指数
2
解决办法
2万
查看次数

如何在Zeppelin中查看Spark和Scala的版本?

当我运行交互式spark-shell时,我会显示spark版本(2.2.0)和scala版本(2.11.8)

Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 2.2.0
      /_/

Using Scala version 2.11.8 (OpenJDK 64-Bit Server VM, Java 1.8.0_131)
Run Code Online (Sandbox Code Playgroud)

但是,我想查看我使用Zeppelin(localhost)的Spark和Scala版本

我不确定Zeppelin是否使用我的交互式shell运行相同的spark/scala.

(我检查了https://community.hortonworks.com/questions/54918/how-do-i-tell-which-version-ofspark-i-am-running.html,但这不是我想要的,因为我主持了Zeppelin本地主机)

scala version apache-spark apache-zeppelin

10
推荐指数
1
解决办法
8932
查看次数

Zeppelin Notebook存储在本地Git存储库中

我跟随讲师在本地Git存储库中设置了Zeppelin Notebook Storage:

https://zeppelin.incubator.apache.org/docs/0.6.0-incubating-SNAPSHOT/storage/storage.html#Git

但我仍然不清楚如何在Git中存储笔记本版本.有没有其他人试过这个,你的经历是什么?

git apache-zeppelin

9
推荐指数
1
解决办法
2929
查看次数

Spark 1.6:过滤由describe()生成的DataFrames

当我describe在DataFrame上调用函数时出现问题:

val statsDF = myDataFrame.describe()
Run Code Online (Sandbox Code Playgroud)

调用describe函数会产生以下输出:

statsDF: org.apache.spark.sql.DataFrame = [summary: string, count: string]
Run Code Online (Sandbox Code Playgroud)

我可以statsDF通过电话正常显示statsDF.show()

+-------+------------------+
|summary|             count|
+-------+------------------+
|  count|             53173|
|   mean|104.76128862392568|
| stddev|3577.8184333911513|
|    min|                 1|
|    max|            558407|
+-------+------------------+
Run Code Online (Sandbox Code Playgroud)

我想现在得到标准差和平均值statsDF,但是当我试图通过做类似的事情来收集值时:

val temp = statsDF.where($"summary" === "stddev").collect()
Run Code Online (Sandbox Code Playgroud)

我越来越Task not serializable异常了.

我打电话时也面临同样的异常:

statsDF.where($"summary" === "stddev").show()
Run Code Online (Sandbox Code Playgroud)

看起来我们无法过滤函数生成的DataFrame describe()

apache-spark apache-spark-sql apache-zeppelin

9
推荐指数
1
解决办法
1万
查看次数

Zeppelin:如何在zeppelin中重启sparkContext

我正在使用隔离模式的zeppelins spark解释器,在这种模式下,它将为spark集群中的每个笔记本启动一项新工作.笔记本执行完成后,我想通过zeppelin终止这项工作.为此我做了sc.stop这个停止sparkContext并且作业也从spark集群停止.但是下次当我尝试运行笔记本时,它不再启动了sparkContext.那怎么办呢?

apache-spark apache-zeppelin

9
推荐指数
3
解决办法
1万
查看次数

如何让Zeppelin在EMR集群上干净地重启?

我正在运行EMR集群并尝试使用Zeppelin笔记本进行数据分析.

版本:发行标签:emr-5.2.1
Hadoop发行版:Amazon 2.7.3
Hive 2.1.0
Spark 2.0.2
Zeppelin 0.6.2

在运行查询时,我一直遇到Zeppelin挂起的问题,我无法恢复它.我曾尝试:
-重新启动解释
- SSH'ing到主节点和运行zeppelin_daemon.sh restart(试图运行的的hadoop /根/飞艇,并且还运行用的选项的脚本reload,start/stop,upstart)

每次我使用守护进程shell脚本时,它都会告诉我它已经停止/启动了,但是当我运行状态时,我得到了这个:
Zeppelin running but process is dead [FAILED]

我似乎唯一能做的就是杀死我的集群并建立一个新的集群,这在很多层面都很疯狂.

那么......重启Zeppelin的官方支持方式是什么?

hadoop amazon-web-services amazon-emr pyspark apache-zeppelin

9
推荐指数
2
解决办法
8926
查看次数

如何在Zeppelin中获得控制台流水槽的输出?

从Zeppelin运行时,我正在努力让接收console器使用PySpark Structured Streaming.基本上,我没有看到任何结果打印到屏幕或我发现的任何日志文件.

我的问题:有没有人有一个使用PySpark Structured Streaming和一个产生Apache Zeppelin可见输出的接收器的工作示例?理想情况下它也会使用套接字源,因为它很容易测试.

我正在使用:

  • Ubuntu 16.04
  • 火花2.2.0彬hadoop2.7
  • 齐柏林0.7.3彬所有
  • Python3

我的代码基于structured_network_wordcount.py示例.它从PySpark shell(./bin/pyspark --master local[2])运行时起作用; 我看到每批表.

%pyspark
# structured streaming
from pyspark.sql.functions import *
lines = spark\
    .readStream\
    .format('socket')\
    .option('host', 'localhost')\
    .option('port', 9999)\
    .option('includeTimestamp', 'true')\
    .load()

# Split the lines into words, retaining timestamps
# split() splits each line into an array, and explode() turns the array into multiple rows
words = lines.select(
    explode(split(lines.value, ' ')).alias('word'),
    lines.timestamp
)

# …
Run Code Online (Sandbox Code Playgroud)

apache-spark pyspark apache-zeppelin spark-structured-streaming

9
推荐指数
1
解决办法
5955
查看次数