小编Mri*_*nal的帖子

Spark数据帧:collect()vs select()

调用collect()RDD会将整个数据集返回给驱动程序,这会导致内存不足,我们应该避免这种情况.

collect()如果在数据帧上调用,它的行为方式会相同吗？方法怎么
样select()？
它是否也像collect()在数据帧上调用一样工作？

bigdata dataframe apache-spark apache-spark-sql

Mri*_*nal

2018 09-05

24
推荐指数

5
解决办法

9万
查看次数

pyspark:计算数据框中like()方法的一部分

在spark数据帧中是否存在like()的计数器方法(某些内容为notLike())？

或者除了使用传统的SQL查询之外还有其他方法吗？

我想做与以下相反的事情:

df.where(col("_c2").like("XY6%")).show(5)

Run Code Online (Sandbox Code Playgroud)

bigdata apache-spark spark-dataframe pyspark-sql

Mri*_*nal

2017 09-23

5
推荐指数

1
解决办法

6081
查看次数

ipython笔记本在不同端口上的多个实例

我想在同一个用户的不同端口上运行多个ipython笔记本实例.可能吗？

类似于'NotebookApp.port'的端口列表,具有默认端口.

ipython ipython-notebook

Mri*_*nal

lucky-day

5
推荐指数

2
解决办法

2758
查看次数

pyspark withcolumn 在每行中插入列表

我有df一个列type，我有两个列表

women = ['0980981', '0987098']
men = ['1234567', '4567854']

Run Code Online (Sandbox Code Playgroud)

现在我想根据type列的值添加另一列，如下所示：

from pyspark.sql import functions as psf
df_ = df.withColumn('new_col', psf.when(psf.col('type') == 'men', men).when(psf.col('type') == 'women', women))

Run Code Online (Sandbox Code Playgroud)

但我想我们不能像Array('1234567', '4567854')在 Scala 中那样直接插入列表。psf.lit(men)我也尝试过，但没有运气。

关于如何做有什么想法吗？

python apache-spark-sql pyspark

Mri*_*nal

2022 09-15

5
推荐指数

1
解决办法

9566
查看次数

标签统计

apache-spark ×2

apache-spark-sql ×2

bigdata ×2

dataframe ×1

ipython ×1

ipython-notebook ×1

pyspark ×1

pyspark-sql ×1

python ×1

spark-dataframe ×1

Spark数据帧:collect()vs select()

pyspark:计算数据框中like()方法的一部分

ipython笔记本在不同端口上的多个实例

pyspark withcolumn 在每行中插入列表

标签 统计

小编Mri_nal的帖子

标签统计