我正在尝试为我的数据集绘制行的子集,但我似乎无法弄清楚如何让图例正确显示,无论是正常显示还是使用熔化。数据集结构如下(实际数据集中有更多的预测和日期,这只是一个例子):
Date Actual Fcst1 Fcst2 Fcst3 Fcst4
2015-01-01 500 600 700 400 450
2015-02-01 600 610 630 480 600
2015-03-01 700 234 875 754 733
.......... ... ... ... ... ...
Run Code Online (Sandbox Code Playgroud)
我目前正在使用此代码:
ggplot(df, aes(x = Date)) +
geom_line(aes(y = Fcst1), color = "red", size = 1) +
geom_line(aes(y = Fcst2),
color = "blue",
size = 1
) +
geom_line(aes(y = Fcst3),
color = "green",
size = 1
) +
geom_line(aes(y = Fcst4),
color = "yellow",
size = 1
) +
geom_line(aes(y = Fcst5),
color = "purple",
size = 1
) +
geom_line(aes(y = Fcst6), color = "orange", size = 1) +
geom_line(aes(y = Actual), color = "black", size = 1.2) +
ggtitle(label = "Actuals vs 2015 Forecasts", subtitle = fname) +
ylab("Balance") +
scale_y_continuous(labels = comma)
Run Code Online (Sandbox Code Playgroud)
无论如何,即使我尝试使用熔体,我也无法正确显示图例。有人能帮助我吗?
ggplot2更喜欢长格式的东西,并且倾向于“惩罚”(使困难)做你现在正在做的事情。让我们重塑(我会使用tidyr::pivot_longer,其他人也一样)。
library(ggplot2)
ggplot(tidyr::pivot_longer(df, Fcst1:Fcst4),
aes(Date, value, color = name)) +
geom_line()
Run Code Online (Sandbox Code Playgroud)
正如你所知道的,使用color= 中的aes正题的颜色也会相应变化。如果你想控制颜色,有很多可用的主题(例如,viridis很多带有色盲配置文件),但手动操作是用 完成的scale_color_manual,我将在下面进行演示。最后,我将调整名称等等。
ggplot(tidyr::pivot_longer(df, Actual:Fcst4, names_to = "Forecast", names_prefix = "Fcst"),
aes(Date, value, color = Forecast)) +
geom_line(size = 1) +
scale_color_manual(values = c("Actual" = "black", "1" = "red", "2" = "blue",
"3" = "green", "4" = "yellow", "5" = "purple",
"6" = "orange")) +
ggtitle(label = "Actuals vs 2015 Forecasts", subtitle = "(unk filename)") +
ylab("Balance") +
scale_y_continuous(labels = scales::comma)
Run Code Online (Sandbox Code Playgroud)
手动颜色不必完美匹配,正如您所见,已5定义但未使用(基于您的数据样本)。values=命名向量中缺少的颜色将从图中删除(带有警告)。
最后,一个常见问题是对图例中的组件进行排序。这可以用factors来完成:
df_long <- tidyr::pivot_longer(df, Actual:Fcst4, names_to = "Forecast", names_prefix = "Fcst")
df_long$Forecast <- relevel(factor(df_long$Forecast), "Actual")
ggplot(df_long, aes(Date, value, color = Forecast)) +
geom_line(size = 1) +
scale_color_manual(values = c("Actual" = "black", "1" = "red", "2" = "blue",
"3" = "green", "4" = "yellow", "5" = "purple",
"6" = "orange")) +
ggtitle(label = "Actuals vs 2015 Forecasts", subtitle = "(unk filename)") +
ylab("Balance") +
scale_y_continuous(labels = scales::comma)
Run Code Online (Sandbox Code Playgroud)
我曾经stats::relevel将一个因素移到“前面”,否则它往往是按字母顺序排列的(如上图第二张图所示)。有许多用于处理因子的工具,该forcats软件包是一种流行工具(尤其是在 tidyverse 用户中)。
这个处理可以很容易地在一个dplyr-pipe 中处理。
由于您提到一次绘制成批的预测,这里有几种方法。我将通过将Fcst列复制到另一组 4 列来扩充数据:
df <- cbind(df, setNames(df[,3:6], paste0("Fcst", 5:8)))
df_long <- tidyr::pivot_longer(df, Actual:Fcst8, names_to = "Forecast", names_prefix = "Fcst")
df_long$Forecast <- relevel(factor(df_long$Forecast), "Actual")
Run Code Online (Sandbox Code Playgroud)
为了代码简洁,我将“简化”情节,尽管主题仍然像上面一样工作。
单个图,一次过滤一个并绘制它。
ggplot(df_long[df_long$Forecast %in% c("Actual", "1", "3", "5", "7"),],
aes(Date, value, color = Forecast)) +
geom_line(size = 1)
Run Code Online (Sandbox Code Playgroud)
刻面。对于这个例子,我将展示一种蛮力的方式来做到这一点,然后是一种更灵活的(也许)方式。我在dplyr这里使用它是因为它使一些操作更容易看到和理解(一旦你习惯了 dplyr-esque 语法)。(我经常发现保持控制线“实际”,与其他颜色/厚度不同的颜色/厚度有助于巩固各个方面的比较。交给你。)
library(dplyr)
df_rest <- df_long %>%
filter(! Forecast == "Actual") %>%
mutate(grp = cut(as.integer(as.character(Forecast)), c(0, 5, 9), labels = FALSE))
df_combined <- df_long %>%
filter(Forecast == "Actual") %>%
select(-grp) %>%
crossing(., unique(select(df_rest, grp))) %>%
bind_rows(df_rest)
ggplot(df_combined, aes(Date, value, color = Forecast)) +
geom_line(size = 1) +
facet_grid(grp ~ .)
Run Code Online (Sandbox Code Playgroud)
分面,但具有一组更易于维护的分面。我将使用一个简单的方法data.frame来控制哪些行包含在哪些$grp. 这使得(imo)为特定方面“挑选”特定行变得更加容易。
grps <- tibble::tribble(
~grp, ~Forecast
,1, "Actual"
,1, "1"
,1, "3"
,1, "5"
,2, "Actual"
,2, "2"
,2, "4"
,2, "6"
,2, "7"
,2, "8"
)
ggplot(left_join(df_long, grps, by = "Forecast"),
aes(Date, value, color = Forecast)) +
geom_line(size = 1) +
facet_grid(grp ~ .)
Run Code Online (Sandbox Code Playgroud)
在这种情况下,我tribble只是为了更容易看到哪个一起出现;任何data.frame将工作。我还演示了$grp大小不需要相等,包括您想要的任何内容。
使用上面#3 中的框架进行连接,然后对它们进行过滤,如
left_join(df_long, grps, by = "Forecase") %>%
filter(grp == 1) %>%
ggplot(., aes(Date, value, color = Forecast)) +
geom_line(size = 1) +
facet_grid(grp ~ .)
Run Code Online (Sandbox Code Playgroud)