缺少 ggplot 的图例

kma*_*ai2 2 r ggplot2

我正在尝试为我的数据集绘制行的子集,但我似乎无法弄清楚如何让图例正确显示,无论是正常显示还是使用熔化。数据集结构如下(实际数据集中有更多的预测和日期,这只是一个例子):

Date        Actual Fcst1 Fcst2 Fcst3 Fcst4
2015-01-01  500    600   700   400   450
2015-02-01  600    610   630   480   600
2015-03-01  700    234   875   754   733
..........  ...    ...   ...   ...   ...
Run Code Online (Sandbox Code Playgroud)

我目前正在使用此代码:

ggplot(df, aes(x = Date)) +
  geom_line(aes(y = Fcst1), color = "red", size = 1) +
  geom_line(aes(y = Fcst2),
    color = "blue",
    size = 1
  ) +
  geom_line(aes(y = Fcst3),
    color = "green",
    size = 1
  ) +
  geom_line(aes(y = Fcst4),
    color = "yellow",
    size = 1
  ) +
  geom_line(aes(y = Fcst5),
    color = "purple",
    size = 1
  ) +
  geom_line(aes(y = Fcst6), color = "orange", size = 1) +
  geom_line(aes(y = Actual), color = "black", size = 1.2) +
  ggtitle(label = "Actuals vs 2015 Forecasts", subtitle = fname) +
  ylab("Balance") +
  scale_y_continuous(labels = comma)
Run Code Online (Sandbox Code Playgroud)

无论如何,即使我尝试使用熔体,我也无法正确显示图例。有人能帮助我吗?

r2e*_*ans 5

ggplot2更喜欢长格式的东西,并且倾向于“惩罚”(使困难)做你现在正在做的事情。让我们重塑(我会使用tidyr::pivot_longer,其他人也一样)。

library(ggplot2)
ggplot(tidyr::pivot_longer(df, Fcst1:Fcst4),
       aes(Date, value, color = name)) +
  geom_line()
Run Code Online (Sandbox Code Playgroud)

基本的ggplot2

正如你所知道的,使用color= aes正题的颜色也会相应变化。如果你想控制颜色,有很多可用的主题(例如,viridis很多带有色盲配置文件),但手动操作是用 完成的scale_color_manual,我将在下面进行演示。最后,我将调整名称等等。

ggplot(tidyr::pivot_longer(df, Actual:Fcst4, names_to = "Forecast", names_prefix = "Fcst"),
       aes(Date, value, color = Forecast)) +
  geom_line(size = 1) +
  scale_color_manual(values = c("Actual" = "black", "1" = "red", "2" = "blue",
                                "3" = "green", "4" = "yellow", "5" = "purple",
                                "6" = "orange")) +
  ggtitle(label = "Actuals vs 2015 Forecasts", subtitle = "(unk filename)") +
  ylab("Balance") +
  scale_y_continuous(labels = scales::comma)
Run Code Online (Sandbox Code Playgroud)

手动颜色不必完美匹配,正如您所见,已5定义但未使用(基于您的数据样本)。values=命名向量中缺少的颜色将从图中删除(带有警告)。

相同的 ggplot2,更新主题

最后,一个常见问题是对图例中的组件进行排序。这可以用factors来完成:

df_long <- tidyr::pivot_longer(df, Actual:Fcst4, names_to = "Forecast", names_prefix = "Fcst")
df_long$Forecast <- relevel(factor(df_long$Forecast), "Actual")
ggplot(df_long, aes(Date, value, color = Forecast)) +
  geom_line(size = 1) +
  scale_color_manual(values = c("Actual" = "black", "1" = "red", "2" = "blue",
                                "3" = "green", "4" = "yellow", "5" = "purple",
                                "6" = "orange")) +
  ggtitle(label = "Actuals vs 2015 Forecasts", subtitle = "(unk filename)") +
  ylab("Balance") +
  scale_y_continuous(labels = scales::comma)
Run Code Online (Sandbox Code Playgroud)

相同的 ggplot2,重新排序的图例

我曾经stats::relevel将一个因素移到“前面”,否则它往往是按字母顺序排列的(如上图第二张图所示)。有许多用于处理因子的工具,该forcats软件包是一种流行工具(尤其是在 tidyverse 用户中)。

这个处理可以很容易地在一个dplyr-pipe 中处理。


由于您提到一次绘制成批的预测,这里有几种方法。我将通过将Fcst列复制到另一组 4 列来扩充数据:

df <- cbind(df, setNames(df[,3:6], paste0("Fcst", 5:8)))
df_long <- tidyr::pivot_longer(df, Actual:Fcst8, names_to = "Forecast", names_prefix = "Fcst")
df_long$Forecast <- relevel(factor(df_long$Forecast), "Actual")
Run Code Online (Sandbox Code Playgroud)

为了代码简洁,我将“简化”情节,尽管主题仍然像上面一样工作。

  1. 单个图,一次过滤一个并绘制它。

    ggplot(df_long[df_long$Forecast %in% c("Actual", "1", "3", "5", "7"),],
           aes(Date, value, color = Forecast)) +
      geom_line(size = 1)
    
    Run Code Online (Sandbox Code Playgroud)
  2. 刻面。对于这个例子,我将展示一种蛮力的方式来做到这一点,然后是一种更灵活的(也许)方式。我在dplyr这里使用它是因为它使一些操作更容易看到和理解(一旦你习惯了 dplyr-esque 语法)。(我经常发现保持控制线“实际”,与其他颜色/厚度不同的颜色/厚度有助于巩固各个方面的比较。交给你。)

    library(dplyr)
    df_rest <- df_long %>%
      filter(! Forecast == "Actual") %>%
      mutate(grp = cut(as.integer(as.character(Forecast)), c(0, 5, 9), labels = FALSE))
    
    df_combined <- df_long %>%
      filter(Forecast == "Actual") %>%
      select(-grp) %>%
      crossing(., unique(select(df_rest, grp))) %>%
      bind_rows(df_rest)
    
    ggplot(df_combined, aes(Date, value, color = Forecast)) +
      geom_line(size = 1) +
      facet_grid(grp ~ .)
    
    Run Code Online (Sandbox Code Playgroud)

    扩展数据,ggplot2 多面

  3. 分面,但具有一组更易于维护的分面。我将使用一个简单的方法data.frame来控制哪些行包含在哪些$grp. 这使得(imo)为特定方面“挑选”特定行变得更加容易。

    grps <- tibble::tribble(
      ~grp, ~Forecast
      ,1, "Actual"
      ,1, "1"
      ,1, "3"
      ,1, "5"
      ,2, "Actual"
      ,2, "2"
      ,2, "4"
      ,2, "6"
      ,2, "7"
      ,2, "8"
    )
    ggplot(left_join(df_long, grps, by = "Forecast"),
           aes(Date, value, color = Forecast)) +
      geom_line(size = 1) +
      facet_grid(grp ~ .)
    
    Run Code Online (Sandbox Code Playgroud)

    在这种情况下,我tribble只是为了更容易看到哪个一起出现;任何data.frame将工作。我还演示了$grp大小不需要相等,包括您想要的任何内容。

  4. 使用上面#3 中的框架进行连接,然后对它们进行过滤,如

    left_join(df_long, grps, by = "Forecase") %>%
      filter(grp == 1) %>%
      ggplot(., aes(Date, value, color = Forecast)) +
      geom_line(size = 1) +
      facet_grid(grp ~ .)
    
    Run Code Online (Sandbox Code Playgroud)