这是我的命令组:
pdf_chart_data1 = pdf_chart_data.groupby('sell').value.agg(['sum']).rename(
columns={'sum':'valuesum','sell' : 'selltime'}
)
Run Code Online (Sandbox Code Playgroud)
我可以更改列名称的值,但不能更改为"sell".请帮助解决此问题.
我有一个数据帧rawdata,我必须在列X上应用值CB,CI和CR的过滤条件.所以我使用了以下代码:
df = dfRawData.filter(col("X").between("CB","CI","CR"))
Run Code Online (Sandbox Code Playgroud)
但是我收到以下错误:
在()之间取3个参数(4个给定)
请告诉我如何解决此问题.
apache-spark apache-spark-sql pyspark spark-dataframe pyspark-sql
这是我的输入数据框:
id val
1 Y
1 N
2 a
2 b
3 N
Run Code Online (Sandbox Code Playgroud)
结果应该是:
id val
1 Y
2 a
2 b
3 N
Run Code Online (Sandbox Code Playgroud)
我想在 val 中同时具有 Y 和 N 的 col id 上分组,然后删除列 val 包含“N”的行。请帮我解决这个问题,因为我是 pyspark 的初学者