相关疑难解决方法(0)

Spark数据帧:collect()vs select()

调用collect()RDD会将整个数据集返回给驱动程序,这会导致内存不足,我们应该避免这种情况.

collect()如果在数据帧上调用,它的行为方式会相同吗？方法怎么
样select()？
它是否也像collect()在数据帧上调用一样工作？

bigdata dataframe apache-spark apache-spark-sql

Mri*_*nal

2018 09-05

24
推荐指数

5
解决办法

9万
查看次数

从Spark GroupedData对象中选择随机项

我是新来使用Python中Spark和一直未能解决这个问题:运行后groupBy在pyspark.sql.dataframe.DataFrame

df = sqlsc.read.json("data.json")
df.groupBy('teamId')

Run Code Online (Sandbox Code Playgroud)

如何N从每个结果组中选择随机样本(按teamId分组)而无需替换？

我基本上试图N从每个团队中选择随机用户,也许使用groupBy错误开始？

python python-2.7 apache-spark apache-spark-sql

Nyx*_*nyx

2015 11-17

9
推荐指数

2
解决办法

6619
查看次数

从 PySpark 数据框中选择随机行

我想从 PySpark 数据帧（最好以新的 PySpark 数据帧的形式）中选择 n 随机行（无需替换）。做这个的最好方式是什么？

以下是包含十行的数据框的示例。

+-----+-------------------+-----+
| name|          timestamp|value|
+-----+-------------------+-----+
|name1|2019-01-17 00:00:00|11.23|
|name2|2019-01-17 00:00:00|14.57|
|name3|2019-01-10 00:00:00| 2.21|
|name4|2019-01-10 00:00:00| 8.76|
|name5|2019-01-17 00:00:00|18.71|
|name5|2019-01-10 00:00:00|17.78|
|name4|2019-01-10 00:00:00| 5.52|
|name3|2019-01-10 00:00:00| 9.91|
|name1|2019-01-17 00:00:00| 1.16|
|name2|2019-01-17 00:00:00| 12.0|
+-----+-------------------+-----+

Run Code Online (Sandbox Code Playgroud)

上面给出的数据框是使用以下代码生成的：

from pyspark.sql import *

df_Stats = Row("name", "timestamp", "value")

df_stat1 = df_Stats('name1', "2019-01-17 00:00:00", 11.23)
df_stat2 = df_Stats('name2', "2019-01-17 00:00:00", 14.57)
df_stat3 = df_Stats('name3', "2019-01-10 00:00:00", 2.21)
df_stat4 = df_Stats('name4', "2019-01-10 00:00:00", 8.76)
df_stat5 = df_Stats('name5', "2019-01-17 00:00:00", 18.71) …

Run Code Online (Sandbox Code Playgroud)

python pandas apache-spark-sql pyspark

Sid*_*thy

2022 09-15

5
推荐指数

1
解决办法

1万
查看次数