小编TSA*_*SAR的帖子

PySpark中熊猫的value_counts（）等于多少？

我有以下python / pandas命令：

df.groupby('Column_Name').agg(lambda x: x.value_counts().max()

Run Code Online (Sandbox Code Playgroud)

我在哪里获取DataFrameGroupBy对象中所有列的值计数。

如何在PySpark中执行此操作？

count dataframe pyspark pandas-groupby

TSA*_*SAR

2018 08-28

8
推荐指数

2
解决办法

3900
查看次数

在 Jupyter Notebook 中设置 PySpark executor.memory 和 executor.core

我正在从 Jupyter Notebook 中初始化 PySpark，如下所示：

from pyspark import SparkContext
#
conf = SparkConf().setAppName("PySpark-testing-app").setMaster("yarn")
conf = (conf.set("deploy-mode","client")
       .set("spark.driver.memory","20g")
       .set("spark.executor.memory","20g")
       .set("spark.driver.cores","4")
       .set("spark.num.executors","6")
       .set("spark.executor.cores","4"))

sc = SparkContext(conf=conf)
sqlContext = SQLContext.getOrCreate(sc)

Run Code Online (Sandbox Code Playgroud)

但是，当我启动 YARN GUI 并查看“正在运行的应用程序”时，我看到我的会话被分配了 1 个容器、1 个 vCPU 和 1GB 的 RAM，即默认值！我可以获得上面列出的所需的传递值吗？

apache-spark pyspark jupyter-notebook

TSA*_*SAR

lucky-day

5
推荐指数

1
解决办法

5436
查看次数