小编pas*_*nak的帖子

:scala中的_*表示法

我遇到了这个:_*表示许多spark-scala答案,但找不到任何文档.实际上是什么意思?这种用法的一个例子就是这个问题的答案

如何在Spark Java中使用isin的DataFrame过滤器?

线:

df.filter(col("something").isin(list: _*)
Run Code Online (Sandbox Code Playgroud)

scala

5
推荐指数
1
解决办法
2343
查看次数

在python pandas数据帧中使用多列进行总结

在 R 中,我可以使用多个数据列汇总数据,如下所示:library(dplyr):

A =  B %>%
group_by(col1,col2) %>%
summarize(newcol = sum(col3)/sum(col4))
Run Code Online (Sandbox Code Playgroud)

但是在python的pandas的dataframes中,如何一步执行相同的操作呢?

我可以分两步完成。第1步:

A = B.groupby(['col1','col2']).agg({'col3': 'sum','col4':'sum'})
Run Code Online (Sandbox Code Playgroud)

第2步:

A['newcol'] = A['col3']/A['col4']
Run Code Online (Sandbox Code Playgroud)

python pandas

3
推荐指数
1
解决办法
2124
查看次数

数据集运算符(如select或filter)中"$"的含义是什么?

我对使用$select或等的DataFrame运算符中的列引用有点困惑filter.

以下陈述有效:

df.select("app", "renders").show
df.select($"app", $"renders").show
Run Code Online (Sandbox Code Playgroud)

但是,只有以下作品中的第一个声明:

df.filter("renders = 265").show // <-- this works
df.filter($"renders" = 265).show // <-- this does not work (!) Why?!
Run Code Online (Sandbox Code Playgroud)

但是,这又有效:

df.filter($"renders" > 265).show
Run Code Online (Sandbox Code Playgroud)

基本上,$DataFrame的运算符是什么以及何时/应该如何使用它?

scala apache-spark apache-spark-sql

1
推荐指数
1
解决办法
461
查看次数

标签 统计

scala ×2

apache-spark ×1

apache-spark-sql ×1

pandas ×1

python ×1