df.loc的pyspark对等吗？

Question

df.loc的pyspark对等吗？

wre*_*rek 6 python dataframe pandas apache-spark pyspark

我正在寻找熊猫dataframe的pyspark等效项。特别是，我想对pyspark数据框执行以下操作

# in pandas dataframe, I can do the following operation
# assuming df = pandas dataframe
index = df['column_A'] > 0.0
amount = sum(df.loc[index, 'column_B'] * df.loc[index, 'column_C']) 
        / sum(df.loc[index, 'column_C'])

Run Code Online (Sandbox Code Playgroud)

我想知道对pyspark数据框执行此操作的pyspark等效性是什么？

Answer 1

hi-*_*zir 3

SparkDataFrame没有严格的顺序，因此索引没有意义。相反，我们使用类似 SQL 的 DSL。在这里您可以使用where( filter) 和select. 如果数据看起来像这样：

import pandas as pd
import numpy as np
from pyspark.sql.functions import col, sum as sum_

np.random.seed(1)

df = pd.DataFrame({
   c: np.random.randn(1000) for c in ["column_A", "column_B", "column_C"]
})

Run Code Online (Sandbox Code Playgroud)

amount将会

amount
# 0.9334143225687774

Run Code Online (Sandbox Code Playgroud)

和 Spark 等效的是：

sdf = spark.createDataFrame(df)

(amount_, ) = (sdf
    .where(sdf.column_A > 0.0)
    .select(sum_(sdf.column_B * sdf.column_C) / sum_(sdf.column_C))
    .first())

Run Code Online (Sandbox Code Playgroud)

结果在数值上是等价的：

abs(amount - amount_)
# 1.1102230246251565e-16

Run Code Online (Sandbox Code Playgroud)

您还可以使用条件语句：

from pyspark.sql.functions import when

pred = col("column_A") > 0.0

amount_expr = sum_(
  when(pred, col("column_B")) * when(pred, col("column_C"))
) / sum_(when(pred, col("column_C")))

sdf.select(amount_expr).first()[0]
# 0.9334143225687773

Run Code Online (Sandbox Code Playgroud)

看起来更像 Pandas，但更冗长。

归档时间：	7 年，9 月前
查看次数：	2785 次
最近记录：	7 年，9 月前