相关疑难解决方法(0)

如何制作良好的可重现的Apache Spark示例

我花了相当多的时间阅读pyspark和spark- dataframe标签的一些问题,而且我经常发现海报没有提供足够的信息来真正理解他们的问题.我经常评论要求他们发布MCVE,但有时让他们显示一些样本输入/输出数据就像拔牙一样.例如:请参阅有关此问题的评论.

也许问题的一部分是人们只是不知道如何轻松地为火花数据帧创建MCVE.我认为将这个pandas问题的spark-dataframe版本作为可以链接的指南是有用的.

那么如何创造一个好的,可重复的例子呢？

dataframe apache-spark apache-spark-sql pyspark pyspark-sql

pau*_*ult

2019 01-15

55
推荐指数

4
解决办法

3952
查看次数

将组计数列添加到PySpark数据帧

由于其优越的Spark处理能力,我来自R和tidyverse到PySpark,我正在努力将某些概念从一个上下文映射到另一个上下文.

特别是,假设我有一个如下所示的数据集

x | y
--+--
a | 5
a | 8
a | 7
b | 1

Run Code Online (Sandbox Code Playgroud)

我想添加一个包含每个x值的行数的列,如下所示:

x | y | n
--+---+---
a | 5 | 3
a | 8 | 3
a | 7 | 3
b | 1 | 1

Run Code Online (Sandbox Code Playgroud)

在dplyr中,我只想说:

import(tidyverse)

df <- read_csv("...")
df %>%
    group_by(x) %>%
    mutate(n = n()) %>%
    ungroup()

Run Code Online (Sandbox Code Playgroud)

就是这样.如果我想按行数总结一下,我可以在PySpark中做一些简单的事情:

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.getOrCreate()

spark.read.csv("...") \
    .groupBy(col("x")) …

Run Code Online (Sandbox Code Playgroud)

dplyr apache-spark pyspark

Dav*_*ein

2019 06-28

9
推荐指数

3
解决办法

1万
查看次数

标签统计

apache-spark ×2

pyspark ×2

apache-spark-sql ×1

dataframe ×1

dplyr ×1

pyspark-sql ×1

如何制作良好的可重现的Apache Spark示例

将组计数列添加到PySpark数据帧

标签 统计

标签统计