slh*_*hck 2 r plyr dplyr tidyr
我有一张表(d.tab),里面有一个调查问答对.其中一些是单选答案,一些是多项选择.我想从数值中查找单选答案的文本值.为此,我有一个查找表(d.lookup).
我试过merge这些,但它有点难看,因为我现在必须过滤掉所有的行value != answer_id.有没有更漂亮的方法,可能使用plyr或dplyr或tidyr?
tab = '
question_id question_type subject value
1 single-choice 1 1
2 multiple-choice 1 2
3 single-choice 1 2
1 single-choice 2 2
2 multiple-choice 2 3,4
3 single-choice 2 2
'
lookup = '
question_id answer_id answer_text
1 1 female
1 2 male
3 1 no
3 2 yes
'
d.tab = read.table(text = tab, header = TRUE)
d.lookup = read.table(text = lookup, header = TRUE)
merge(d.tab, d.lookup, by = "question_id", all.x = TRUE)
Run Code Online (Sandbox Code Playgroud)
我不想对multiple-choice行做任何事情,只是简单地更新原始数据框以替换s中value的实际文本,如果s匹配的话.d.tabanswer_textanswer_idvalue
我知道我能做到:
merge(d.tab, d.lookup, by.x = c("question_id", "value"), by.y = c("question_id", "answer_id"), all.x = TRUE)
Run Code Online (Sandbox Code Playgroud)
但这给了我一个新的专栏answer_text,原来value还在那里,我不需要.
您merge()在问题中有正确的电话.剩下的就是您使用单选答案过滤行并选择除以外的所有列value.使用dplyr,可以按如下方式完成:
library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
mutate(value = as.numeric(as.character(value))) %>%
merge(d.lookup, by.x = c("question_id", "value"),
by.y = c("question_id", "answer_id")) %>%
select(-value)
Run Code Online (Sandbox Code Playgroud)
第二行包含因子变量value到numeric 的显式转换.这很重要,因为将因子转换为数字可能会导致奇怪的结果.我将在下面添加关于此主题的几行.
请注意,dplyr它还附带了自己的函数来替换merge.如果你的桌子很大,你会发现它们更有效率.使用left_join从dplyr该解决方案如下:
library(dplyr)
filter(d.tab, question_type == "single-choice") %>%
mutate(value = as.numeric(as.character(value))) %>%
left_join(d.lookup,
by = c("question_id" = "question_id",
"value" = "answer_id")) %>%
select(-value)
Run Code Online (Sandbox Code Playgroud)
所以这里有关于我承诺的因素的评论.因子的问题是它们实际上是整数,其中每个整数值都有一个与之关联的标签.当您将因子天真地转换为数字时as.numeric(),您将获得与标签关联的整数.你几乎肯定会遇到这个问题与你的数据,这就是原因.
我创建了一个模拟数据的因子变量:
values <- factor(c("1", "2", "3,4", "3", "4"))
Run Code Online (Sandbox Code Playgroud)
现在我扔掉第三个值("3,4")并转换为数字:
as.numeric(values[-3])
## [1] 1 2 3 5
Run Code Online (Sandbox Code Playgroud)
这可能不是你所期望的.原因是数字1到5与我们上面定义的五个级别相关联.如果要获取与标签匹配的数字,则需要先转换为字符:
as.numeric(as.character(values[-3]))
## [1] 1 2 3 4
Run Code Online (Sandbox Code Playgroud)
因此,即使merge()将因子转换为数字某处,我也不会依赖它以您想要的方式进行.因此,您应该明确地进行转换.
| 归档时间: |
|
| 查看次数: |
3322 次 |
| 最近记录: |