我正在尝试用R研究基因组数据,我已经看到了几个主题,它们有两个数据帧和重叠区间相关的很好的答案.我的问题是我有一个重叠间隔的数据帧,我想合并,即:
chrom start stop
5 100 105
5 100 105
5 200 300
9 275 300
9 280 301
Run Code Online (Sandbox Code Playgroud)
我想最终得到这样的东西:
chrom start stop
5 100 105
5 200 300
9 275 301
Run Code Online (Sandbox Code Playgroud)
我也在努力改进编码,所以我想知道最优雅的方法是什么.希望这不是一些其他查询的冗余,
我正在使用 dummies 包为分类变量生成虚拟变量,其中一些具有两个以上的类别。
testdf<- data.frame(
"A" = as.factor(c(1,2,2,3,3,1)),
"B" = c('A','B','A','B','C','C'),
"C"= c('D','D','E','D','D','E'))
#
#Generate dummy variables:
#
testdf<- cbind(testdf, dummy(testdf$C, sep='_'))
testdf<- cbind(testdf, dummy(testdf$B, sep='_'))
Run Code Online (Sandbox Code Playgroud)
对于这两个命令,我得到:
Run Code Online (Sandbox Code Playgroud)Warning message: In model.matrix.default(~x - 1, model.frame(~x - 1), contrasts = FALSE) : non-list contrasts argument ignored
结果似乎是正确的。您能否就警告的原因提出建议?
我正在尝试使用ecdf,但是我不确定自己是否做对了。我的最终目的是找到对应于特定值的分位数。举个例子:
sample_set <- c(20, 40, 60, 80, 100)
# Now I want to get the 0.75 quantile:
quantile(x = sample_set, probs = 0.75)
#result:
75%
80
# Let's use ecdf
ecdf(x = sample_set) (80)
#result
0.8
Run Code Online (Sandbox Code Playgroud)
为什么会有这种差异?我是在犯一些琐碎的错误,还是取决于分位数的计算方式?
谢谢,马克斯
使用 RStudio 我注意到,在调用函数时,我可以点击选项卡,然后会出现一个弹出窗口,其中包含可以选择的可能参数,例如,如果我键入round(并点击选项卡,x= 并且digits=将显示为可能的选项。我编写的自定义函数也会发生这种情况。不同之处在于内置函数弹出窗口还具有有关各个参数的注释和解释。是否也可以使用自定义函数重新创建这样的行为?
好吧,我有一个小问题,我相信我可以解决which和grepl(替代品的欢迎),但我迷路:
my_query<- c('g1', 'g2', 'g3')
my_data<- c('string2','string4','string5','string6')
Run Code Online (Sandbox Code Playgroud)
我想在my_query匹配中返回索引my_data.在上面的示例中,只有'g2' mydata,因此示例中的结果将是2.请帮忙 :)