Bak*_*urg 5 dataframe julia data-wrangling
我需要按一个变量对数据框进行分组,然后通过添加相对于另一个变量的 0.25、.5、0.75 分位数的数字或行(我已经可以这样做)和列数对其进行汇总。
在 RI 中会做例如:
iris %>%
group_by(Species) %>%
summarise(
quantile(Sepal.Length, c(.25, .75)) %>%
matrix(nrow = 1) %>%
as.data.frame() %>%
setNames(paste0("Sepal.Length", c(.25, .75)))
)
Run Code Online (Sandbox Code Playgroud)
使用 DataFrames 和 DataFrameMeta 在 Julia 中编写此代码的简洁方法是什么?如果有一个解决方案可以将它一次应用于多个列,那就更好了。
我能在 Julia 中找到的最接近的解决方案是:
groupby(iris, :Species) |>
x -> combine(x, :Sepal.Length => x -> [[map(p -> quantile(x, p), (Q25 = 0.25, Q75 = 0.75))] |> DataFrame])
Run Code Online (Sandbox Code Playgroud)
但它只是将数据帧封装到一个单元格中,而它应该将其分散到多列中。
这是我目前可以向您建议的最短内容:
combine(groupby(iris, :Species), :SepalLength => (x -> (quantile(x, [0.25, 0.75]))') => [:q25, :q75])
Run Code Online (Sandbox Code Playgroud)
或类似地
combine(groupby(iris, :Species), :SepalLength => (x -> [quantile(x, [0.25, 0.75])]) => [:25, :q75])
Run Code Online (Sandbox Code Playgroud)
或者
combine(groupby(iris, :Species), :SepalLength .=> [x -> quantile(x, q) for q in [0.25, 0.75]] .=> [:q25, :q75])
Run Code Online (Sandbox Code Playgroud)
但即使你原来的解决方案似乎也比 R 短一点。而且我会将其重写为:
combine(groupby(iris, :Species), :SepalLength => (x -> map(p -> quantile(x, p), (Q25=0.25, Q75=0.75))) => AsTable)
Run Code Online (Sandbox Code Playgroud)
这看起来更干净一些。
现在,如果您想处理多个列,您可以这样做(顺便说一句 - 您将如何在 R 中执行此操作?):
combine(groupby(iris, :Species), [n => (x -> (quantile(x, [0.25, 0.75]))') => [n*"_q25", n*"_q75"]
for n in ["SepalLength", "SepalWidth", "PetalLength", "PetalWidth"]])
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
86 次 |
| 最近记录: |