相关疑难解决方法(0)

比较Pyspark中的列

我正在使用n列的PySpark DataFrame.我有一组m列(m <n),我的任务是选择包含最大值的列.

例如:

输入:PySpark DataFrame包含col_1 = [1,2,3],col_2 = [2,1,4],col_3 = [3,2,5].

在该示例中,Ouput = col_4 = max(col1,col_2,col_3)= [3,2,5].

这个问题中解释的熊猫有类似的东西.

有什么方法可以在PySpark中执行此操作,还是应该将我的PySpark df转换为Pandas df然后执行操作?

python apache-spark pyspark

12
推荐指数
3
解决办法
2万
查看次数

numpy.isnan(value)与value == numpy.nan不一样?

为什么我会得到以下内容:

>>> v
nan
>>> type(v)
<type 'numpy.float64'>
>>> v == np.nan
False
>>> np.isnan(v)
True
Run Code Online (Sandbox Code Playgroud)

我原以为这两个应该是等价的?

python types boolean numpy nan

11
推荐指数
1
解决办法
8385
查看次数

标签 统计

python ×2

apache-spark ×1

boolean ×1

nan ×1

numpy ×1

pyspark ×1

types ×1