小编Ric*_*chD的帖子

从 Jupyter/pyspark 中确定 Spark UI 端口

我正在运行多个 Jupyter 笔记本，每个笔记本都有自己的 pyspark (Spark 1.6.1) 内核。如何发现哪个 Spark UI 实例属于哪个内核？显然，我可以循环浏览打开的页面（http://sparky:4040、http://sparky:4041等）并尝试解决它，但我希望有一种编程方式来做到这一点。

编辑：我没有服务器的根访问权限......

apache-spark pyspark

Ric*_*chD

2016 06-21

5
推荐指数

2
解决办法

6548
查看次数

为什么我的Spark DataFrame比RDD慢得多？

我有一个非常简单的Spark DataFrame,当运行DataFrame groupby时,性能非常糟糕 - 比(在我脑中)等效的RDD reduceByKey慢约8倍...

我的缓存DF只有两列,客户和名称只有5万行:

== Physical Plan ==
InMemoryColumnarTableScan [customer#2454,name#2456], InMemoryRelation [customer#2454,name#2456], true, 10000, StorageLevel(true, true, false, true, 1), Scan ParquetRelation[customer#2454,name#2456] InputPaths: hdfs://nameservice1/tmp/v2_selected_parquet/test_parquet2, None

Run Code Online (Sandbox Code Playgroud)

当我运行以下两个片段时,我期望性能相似,不是rdd版本在10s运行而DF版本在85s运行...

rawtempDF2.rdd.map(lambda x: (x['name'], 1)).reduceByKey(lambda x,y: x+y).collect()

rawtempDF2.groupby('name').count().collect()

Run Code Online (Sandbox Code Playgroud)

我错过了一些非常基本的东西吗？FWIW,RDD版本运行54个阶段,DF版本为227:/

编辑:我正在使用Spark 1.6.1和Python 3.4.2.编辑2:此外,源镶木地板是分区客户/日/名称 - 目前27客户,1天,c.45个名字.

python dataframe apache-spark apache-spark-sql pyspark

Ric*_*chD

2019 01-06

4
推荐指数

1
解决办法

3918
查看次数

标签统计

apache-spark ×2

pyspark ×2

apache-spark-sql ×1

dataframe ×1

python ×1

从 Jupyter/pyspark 中确定 Spark UI 端口

为什么我的Spark DataFrame比RDD慢得多？

标签 统计

小编Ric_chD的帖子

标签统计