小编Nav*_*nth的帖子

为多个数据帧和未列表的列表计算新属性

我在R请求您帮助解决问题.我有如下给出的数据帧

df1

a,b,c,d

1,2,3,4

1,2,3,4

1,2,3,4

df2

a,b,c,d

1,2,3,4

1,2,3,4

1,2,3,4

1,2,3,4
Run Code Online (Sandbox Code Playgroud)

我需要对每个数据帧执行操作,如下所示

 df1$value <- 0.12*df1$a+0.24*df1$b+0.56*df1$c
Run Code Online (Sandbox Code Playgroud)

从另一个Stack Overflow应答中读取,建议放入所有数据帧的列表.我试图使用以下声明来这样做.有效

df_list <- list(ls(pattern='df*'))
Run Code Online (Sandbox Code Playgroud)

现在我无法使用lapply使用以下代码计算新属性

res <- lapply(dflist, function(x) {
          0.12*grep(x[[a]])+0.24*grep(x[[b]])+0.56*grep(x[[c]]))
          })
Run Code Online (Sandbox Code Playgroud)

执行上述操作后,我想在没有列表的情况下改造我的数据帧.

r list lapply dataframe

6
推荐指数
1
解决办法
77
查看次数

Pyspark创建时间戳列

我正在使用spark 2.1.0.我无法在pyspark中创建时间戳列我正在使用下面的代码片段.请帮忙

df=df.withColumn('Age',lit(datetime.now()))
Run Code Online (Sandbox Code Playgroud)

我正进入(状态

断言错误:col应该是Column

请帮忙

python datetime pyspark

6
推荐指数
2
解决办法
1万
查看次数

Pyspark从数据框中的列中删除空值

我的数据框如下所示

ID,FirstName,LastName

1,Navee,Srikanth

2,,Srikanth 

3,Naveen,
Run Code Online (Sandbox Code Playgroud)

现在我的问题陈述是,由于名字为空,我必须删除第2行。

我正在使用以下pyspark脚本

join_Df1= Name.filter(Name.col(FirstName).isnotnull()).show()
Run Code Online (Sandbox Code Playgroud)

我收到错误消息

  File "D:\0\NameValidation.py", line 13, in <module>
join_Df1= filter(Name.FirstName.isnotnull()).show()
Run Code Online (Sandbox Code Playgroud)

TypeError:“列”对象不可调用

谁能帮我解决这个问题

python hadoop mapreduce apache-spark pyspark

2
推荐指数
2
解决办法
2万
查看次数

Plotly python 直方图将自定义颜色添加到不同的值

我有一个数据框,一列中有 4 个不同的值,我需要为每个值设置自定义颜色。

以下是样本数据

val,cluster
118910.000000,3
71209.000000,2
25674.666667,0
109267.666667,3
8.000000,1
Run Code Online (Sandbox Code Playgroud)

下面是代码。

fig = px.histogram(types, x="val",color='cluster')
fig.show()
Run Code Online (Sandbox Code Playgroud)

types 是给定数据中的数据框名称

当我想我得到默认颜色。相反,我需要得到

0:红色

2:蓝色

1:紫色

3:绿色

如何在 python 中为直方图设置自定义颜色

任何人都可以帮忙吗?

python visualization histogram plotly

2
推荐指数
1
解决办法
8250
查看次数

pyspark 获取周数

我坚持从 datafrme 列在 pyspark 中从月份中获取周数,例如,将我的数据框视为

WeekID,DateField,WeekNUM
1,01/JAN/2017
2,15/Feb/2017
Run Code Online (Sandbox Code Playgroud)

我的输出应该如下

WeekIDm,DateField,MOF
1,01/JAN/2017,1
2,15/FEB/2017,2
Run Code Online (Sandbox Code Playgroud)

我尝试了 striftime 和其他我无法做到的日期函数。

请帮助我解决问题。

sql hadoop apache-spark pyspark

1
推荐指数
1
解决办法
7454
查看次数