小编Nav*_*nth的帖子

为多个数据帧和未列表的列表计算新属性

我在R请求您帮助解决问题.我有如下给出的数据帧

df1

a,b,c,d

1,2,3,4

1,2,3,4

1,2,3,4

df2

a,b,c,d

1,2,3,4

1,2,3,4

1,2,3,4

1,2,3,4

Run Code Online (Sandbox Code Playgroud)

我需要对每个数据帧执行操作,如下所示

 df1$value <- 0.12*df1$a+0.24*df1$b+0.56*df1$c

Run Code Online (Sandbox Code Playgroud)

从另一个Stack Overflow应答中读取,建议放入所有数据帧的列表.我试图使用以下声明来这样做.有效

df_list <- list(ls(pattern='df*'))

Run Code Online (Sandbox Code Playgroud)

现在我无法使用lapply使用以下代码计算新属性

res <- lapply(dflist, function(x) {
          0.12*grep(x[[a]])+0.24*grep(x[[b]])+0.56*grep(x[[c]]))
          })

Run Code Online (Sandbox Code Playgroud)

执行上述操作后,我想在没有列表的情况下改造我的数据帧.

r list lapply dataframe

Nav*_*nth

2016 10-08

6
推荐指数

1
解决办法

77
查看次数

Pyspark创建时间戳列

我正在使用spark 2.1.0.我无法在pyspark中创建时间戳列我正在使用下面的代码片段.请帮忙

df=df.withColumn('Age',lit(datetime.now()))

Run Code Online (Sandbox Code Playgroud)

我正进入(状态

断言错误:col应该是Column

请帮忙

python datetime pyspark

Nav*_*nth

2017 08-03

6
推荐指数

2
解决办法

1万
查看次数

Pyspark从数据框中的列中删除空值

我的数据框如下所示

ID,FirstName,LastName

1,Navee,Srikanth

2,,Srikanth 

3,Naveen,

Run Code Online (Sandbox Code Playgroud)

现在我的问题陈述是，由于名字为空，我必须删除第2行。

我正在使用以下pyspark脚本

join_Df1= Name.filter(Name.col(FirstName).isnotnull()).show()

Run Code Online (Sandbox Code Playgroud)

我收到错误消息

  File "D:\0\NameValidation.py", line 13, in <module>
join_Df1= filter(Name.FirstName.isnotnull()).show()

Run Code Online (Sandbox Code Playgroud)

TypeError：“列”对象不可调用

谁能帮我解决这个问题

python hadoop mapreduce apache-spark pyspark

Nav*_*nth

2017 06-23

2
推荐指数

2
解决办法

2万
查看次数

Plotly python 直方图将自定义颜色添加到不同的值

我有一个数据框，一列中有 4 个不同的值，我需要为每个值设置自定义颜色。

以下是样本数据

val,cluster
118910.000000,3
71209.000000,2
25674.666667,0
109267.666667,3
8.000000,1

Run Code Online (Sandbox Code Playgroud)

下面是代码。

fig = px.histogram(types, x="val",color='cluster')
fig.show()

Run Code Online (Sandbox Code Playgroud)

types 是给定数据中的数据框名称

当我想我得到默认颜色。相反，我需要得到

0：红色

2：蓝色

1：紫色

3：绿色

如何在 python 中为直方图设置自定义颜色

任何人都可以帮忙吗？

python visualization histogram plotly

Nav*_*nth

2020 09-05

2
推荐指数

1
解决办法

8250
查看次数

pyspark 获取周数

我坚持从 datafrme 列在 pyspark 中从月份中获取周数，例如，将我的数据框视为

WeekID,DateField,WeekNUM
1,01/JAN/2017
2,15/Feb/2017

Run Code Online (Sandbox Code Playgroud)

我的输出应该如下

WeekIDm,DateField,MOF
1,01/JAN/2017,1
2,15/FEB/2017,2

Run Code Online (Sandbox Code Playgroud)

我尝试了 striftime 和其他我无法做到的日期函数。

请帮助我解决问题。

sql hadoop apache-spark pyspark

Nav*_*nth

2017 07-27

1
推荐指数

1
解决办法

7454
查看次数

标签统计

pyspark ×3

python ×3

apache-spark ×2

hadoop ×2

dataframe ×1

datetime ×1

histogram ×1

lapply ×1

list ×1

mapreduce ×1

plotly ×1

r ×1

sql ×1

visualization ×1

为多个数据帧和未列表的列表计算新属性

Pyspark创建时间戳列

Pyspark从数据框中的列中删除空值

Plotly python 直方图将自定义颜色添加到不同的值

pyspark 获取周数

标签 统计

小编Nav_nth的帖子

标签统计