调用collect()RDD会将整个数据集返回给驱动程序,这会导致内存不足,我们应该避免这种情况.
collect()如果在数据帧上调用,它的行为方式会相同吗?方法怎么
样select()?
它是否也像collect()在数据帧上调用一样工作?
在spark数据帧中是否存在like()的计数器方法(某些内容为notLike())?
或者除了使用传统的SQL查询之外还有其他方法吗?
我想做与以下相反的事情:
df.where(col("_c2").like("XY6%")).show(5)
Run Code Online (Sandbox Code Playgroud) 我想在同一个用户的不同端口上运行多个ipython笔记本实例.可能吗?
类似于'NotebookApp.port'的端口列表,具有默认端口.
我有df一个列type,我有两个列表
women = ['0980981', '0987098']
men = ['1234567', '4567854']
Run Code Online (Sandbox Code Playgroud)
现在我想根据type列的值添加另一列,如下所示:
from pyspark.sql import functions as psf
df_ = df.withColumn('new_col', psf.when(psf.col('type') == 'men', men).when(psf.col('type') == 'women', women))
Run Code Online (Sandbox Code Playgroud)
但我想我们不能像Array('1234567', '4567854')在 Scala 中那样直接插入列表。psf.lit(men)我也尝试过,但没有运气。
关于如何做有什么想法吗?