我的数据框如下所示.我需要逐个根据"geneID"列的名称提取特定行的数据.我用的是grepl功能.
#Data frame:geneDf
geneID=c("EGFR","Her2","PTENPP","PTEN")
patient1=c(12,23,56,23)
patient2=c(23,34,11,6)
patient3=c(56,44,32,45)
patient4=c(23,64,45,23)
geneDf=data.frame(patient1,patient2,patient3,patient4,geneID)
geneDf
patient1 patient2 patient3 patient4 geneID
1 12 23 56 23 EGFR
2 23 34 44 64 Her2
3 56 11 32 45 PTENPP
4 23 6 45 23 PTEN
Run Code Online (Sandbox Code Playgroud)
前三行效果很好.
targetGene<-subset(geneDf,grepl(geneDf$geneID[1],geneDf$geneID))
targetGene
patient1 patient2 patient3 patient4 geneID
1 12 23 56 23 EGFR
Run Code Online (Sandbox Code Playgroud)
当我提取第4行的数据时,我得到了这个:
targetGene<-subset(geneDf,grepl(geneDf$geneID[4],geneDf$geneID))
targetGene
patient1 patient2 patient3 patient4 geneID
3 56 11 32 45 PTENPP
4 23 6 45 23 PTEN
Run Code Online (Sandbox Code Playgroud)
似乎其他数据,在这种情况下,"geneID"列的第3行,其中包括第4行的内容也被拾取.我的命令出了什么问题?如何使它每次只获取某一行的数据?
您可能需要word boundaryie \\b或使用
subset(geneDf, grepl(paste0('^', geneID[4], '$'), geneID))
# patient1 patient2 patient3 patient4 geneID
#4 23 6 45 23 PTEN
Run Code Online (Sandbox Code Playgroud)
要么
subset(geneDf, grepl(paste0('\\b', geneID[4], '\\b'), geneID))
# patient1 patient2 patient3 patient4 geneID
#4 23 6 45 23 PTEN
Run Code Online (Sandbox Code Playgroud)