从特定列中选择值并跳过 R 中的 NA 值

Question

从特定列中选择值并跳过 R 中的 NA 值

我正在处理癌症登记数据。在下文中数据的例子（ex_data），变量ID和diagnosis_yr立场ID，并在每年确诊的癌症接受性。列x_2005到x_2010和y_2005到y_2010分别代表x和y的状态，每年（2005至2010年）。在我的实际工作数据，我已经很多年（2005- 2020年）多列。我想从最早的可用年份、最近的可用年份和诊断年份（即x_earliest、y_latest、x_at_diagnosis、y_at_diagnosis）中提取 x 和 y 值“通缉”中的变量）通过排除 NAs 。例如，对于 id 1，我想通过跳过 NA 从最早的一年中提取 x 值和从最近一年中提取 y 值。对于诊断年份的 x 和 y 值，如果诊断年份有 NA，我想跳过 NA 并提取前一年的可用数据。我如何实现以在 R 中获取想要的变量？

library(tidyverse) #example data ex_data <- tribble( ~id,~diagnosis_yr,~x_2005,~x_2006,~x_2007,~x_2008,~x_2009,~x_2010,~y_2005,~y_2006,~y_2007,~y_2008,~y_2009,~y_2010, 1, 2007, NA, NA, 1, 2, 2, 3, "a", "b", "c", "d", "e", NA, 2, 2008, 1, 3, 1, NA, 1, 2, NA, "b", "b", "e", "d", "d", 3, 2010, NA, 2, 2, 2, 3, NA, "a", "b", "c", NA, NA, NA, 4, 2009, 1, 3, 1, NA, 1, 2, NA, NA, NA, NA, NA, NA, 5, 2005, NA, 1, 1, 2, 2, 3, "a", "b", "c", "d", "e", "e" ) #wanted variables wanted <- tribble( ~id,~diagnosis_yr,~x_earliest,~y_latest,~x_at_diagnosis,~y_at_diagnosis, 1, 2007, 1, "e", 1, "c", 2, 2008, 1, "d", 1, "e", 3, 2010, 2, "c", 3, "c", 4, 2009, 1, NA, 1, NA, 5, 2005, 1, "e", NA, "a" )
Run Code Online (Sandbox Code Playgroud)

Answer 1

Mar*_*Gal 5

我不完全确定，如果这是正确的：

library(dplyr)
library(tidyr)

ex_data %>% 
  pivot_longer(-c(id, diagnosis_yr), 
               names_to = c(".value", "year"),
               names_pattern = "(.*)_(\\d+)") %>% 
  group_by(id) %>% 
  mutate(x_earliest     = first(na.omit(x)),
         x_at_diagnosis = last(na.omit(x[diagnosis_yr >= year])),
         y_latest       = last(na.omit(y)),
         y_at_diagnosis = last(na.omit(y[diagnosis_yr >= year]))) %>% 
  select(id, diagnosis_yr, x_earliest, y_latest, x_at_diagnosis, y_at_diagnosis) %>% 
  distinct() %>% 
  ungroup()

Run Code Online (Sandbox Code Playgroud)

这返回

# A tibble: 3 x 6
     id diagnosis_yr x_earliest y_latest x_at_diagnosis y_at_diagnosis
  <dbl>        <dbl>      <dbl> <chr>             <dbl> <chr>         
1     1         2007          1 e                     1 c             
2     2         2008          1 d                     1 e             
3     3         2010          2 c                     3 c

Run Code Online (Sandbox Code Playgroud)

Answer 2

moo*_*nlu 1

在@Martin 和@TarJae 建议的代码和策略的帮助下，我想分享以下代码（Martin 和TarJae 建议代码的组合）来解决我的问题（编辑版本）。

library (zoo)
library(dplyr)
library(tidyverse) 

ex_data %>% 
  pivot_longer(-c(id, diagnosis_yr), 
               names_to = c(".value", "year"),
               names_pattern = "(.*)_(\\d+)") %>% 
  group_by(id) %>% 
  mutate(x_earliest     = first(na.locf(x,fromLast=T,na.rm = F)),
         x_at_diagnosis = last(na.locf(x[diagnosis_yr >= year],na.rm = F)), #na.rm=F is to keep as it is if there is no replacement 
         y_latest       = last(na.locf(y,fromLast=F, na.rm =F)), 
         y_at_diagnosis = last(na.locf(y[diagnosis_yr >= year],na.rm=F))) %>% 
  dplyr::select(id, diagnosis_yr, x_earliest, y_latest, x_at_diagnosis, y_at_diagnosis) %>% 
  distinct() %>% 
  ungroup()

Run Code Online (Sandbox Code Playgroud)

输出

id       diagnosis_yr x_earliest y_latest  x_at_diagnosis  y_at_diagnosis
  <dbl>        <dbl>      <dbl>  <chr>             <dbl> <chr>         
     1         2007          1    e                    1   c             
     2         2008          1    d                    1   e             
     3         2010          2    c                    3   c             
     4         2009          1    NA                   1   NA            
     5         2005          1    e                   NA   a

Run Code Online (Sandbox Code Playgroud)

归档时间：	4 年，6 月前
查看次数：	71 次
最近记录：	4 年，6 月前