小编Mri*_*nal的帖子

Spark数据帧:collect()vs select()

调用collect()RDD会将整个数据集返回给驱动程序,这会导致内存不足,我们应该避免这种情况.

collect()如果在数据帧上调用,它的行为方式会相同吗?方法怎么
select()
它是否也像collect()在数据帧上调用一样工作?

bigdata dataframe apache-spark apache-spark-sql

24
推荐指数
5
解决办法
9万
查看次数

pyspark:计算数据框中like()方法的一部分

在spark数据帧中是否存在like()的计数器方法(某些内容为notLike())?

或者除了使用传统的SQL查询之外还有其他方法吗?

我想做与以下相反的事情:

df.where(col("_c2").like("XY6%")).show(5)
Run Code Online (Sandbox Code Playgroud)

bigdata apache-spark spark-dataframe pyspark-sql

5
推荐指数
1
解决办法
6081
查看次数

ipython笔记本在不同端口上的多个实例

我想在同一个用户的不同端口上运行多个ipython笔记本实例.可能吗?

类似于'NotebookApp.port'的端口列表,具有默认端口.

ipython ipython-notebook

5
推荐指数
2
解决办法
2758
查看次数

pyspark withcolumn 在每行中插入列表

我有df一个列type,我有两个列表

women = ['0980981', '0987098']
men = ['1234567', '4567854']
Run Code Online (Sandbox Code Playgroud)

现在我想根据type列的值添加另一列,如下所示:

from pyspark.sql import functions as psf
df_ = df.withColumn('new_col', psf.when(psf.col('type') == 'men', men).when(psf.col('type') == 'women', women))
Run Code Online (Sandbox Code Playgroud)

但我想我们不能像Array('1234567', '4567854')在 Scala 中那样直接插入列表。psf.lit(men)我也尝试过,但没有运气。

关于如何做有什么想法吗?

python apache-spark-sql pyspark

5
推荐指数
1
解决办法
9566
查看次数