我有以下python / pandas命令:
df.groupby('Column_Name').agg(lambda x: x.value_counts().max()
Run Code Online (Sandbox Code Playgroud)
我在哪里获取DataFrameGroupBy对象中所有列的值计数。
如何在PySpark中执行此操作?
我正在从 Jupyter Notebook 中初始化 PySpark,如下所示:
from pyspark import SparkContext
#
conf = SparkConf().setAppName("PySpark-testing-app").setMaster("yarn")
conf = (conf.set("deploy-mode","client")
.set("spark.driver.memory","20g")
.set("spark.executor.memory","20g")
.set("spark.driver.cores","4")
.set("spark.num.executors","6")
.set("spark.executor.cores","4"))
sc = SparkContext(conf=conf)
sqlContext = SQLContext.getOrCreate(sc)
Run Code Online (Sandbox Code Playgroud)
但是,当我启动 YARN GUI 并查看“正在运行的应用程序”时,我看到我的会话被分配了 1 个容器、1 个 vCPU 和 1GB 的 RAM,即默认值!我可以获得上面列出的所需的传递值吗?