我有两个大数据框,一个(df1)有这个结构
chr init
1 12 25289552
2 3 180418785
3 3 180434779
Run Code Online (Sandbox Code Playgroud)
另一个(df2)有这个
V1 V2 V3
10 1 69094 medium
11 1 69094 medium
12 12 25289552 high
13 1 69095 medium
14 3 180418785 medium
15 3 180434779 low
Run Code Online (Sandbox Code Playgroud)
我试图做的是添加列V3的df2到df1,来获得突变的信息
chr init Mut
1 12 25289552 high
2 3 180418785 medium
3 3 180434779 low
Run Code Online (Sandbox Code Playgroud)
我正在尝试将两者加载到R中,然后使用匹配进行for循环,但它不起作用.你知道有什么特别的方法吗?我也愿意使用awk或类似的东西
我有一个这样的数据框架
1 1 1 K 1 K K
2 1 2 K 1 K K
3 8 3 K 1 K K
4 8 2 K 1 K K
1 1 1 K 1 K K
2 1 2 K 1 K K
Run Code Online (Sandbox Code Playgroud)
我想删除所有具有相同值的列,即K,所以我的结果将是这样的
1 1 1 1
2 1 2 1
3 8 3 1
4 8 2 1
1 1 1 1
2 1 2 1
Run Code Online (Sandbox Code Playgroud)
我尝试迭代列中的迭代,但我什么都没得到.有任何想法吗?提前致谢
我正在使用GenomicRanges来查找来自一个实验的哪些转录本与来自其他实验的转录本重叠.
head(to_ranges1)
knowngene chr strand Start Gene
1 uc001aaa.3 chr1 + 9873 16409 DDX11L1
2 uc001aac.4 chr1 - 12361 31370 WASH7P
3 uc001aae.4 chr1 - 12361 21759 WASH7P
library(GenomicRanges)
object_one<-with(to_ranges, GRanges(chr, IRanges(Start,End),
strand,names=knowngene,Gene=Gene)
object_two<-with(to_ranges, GRanges(chr, IRanges(Start,End),
strand,names=knowngene, Gene=Gene))
mm<-findOverlaps(object_one,object_two)
solution <- data.frame(as.data.frame(object_one[as.matrix(mm)[,1],]),
as.data.frame(object_two[as.matrix(mm)[,2],]))
Run Code Online (Sandbox Code Playgroud)
我想要找到的是解决方案数据框中命中之间的重叠段的宽度,但是我可以获得的唯一宽度是与重叠过程之前的原始转录本相关.
你能帮我恳求吗?
我想分割这样的数据帧
chr.pos nt.pos CNV
1 74355 0
1 431565 0
1 675207 0
1 783605 1
1 888149 1
1 991311 1
1 1089305 1
1 1177669 1
1 1279886 0
1 1406311 0
1 1491385 0
1 1579761 0
2 1670488 1
2 1758800 1
2 1834256 0
2 1902924 1
2 1978088 1
2 2063124 0
Run Code Online (Sandbox Code Playgroud)
关键是要获得chr相同且CNV = 1列的间隔列表,但要考虑它们之间的0个iner
[[1]]
1 783605 1
1 888149 1
1 991311 1
1 1089305 1
1 1177669 1
[[2]]
2 1670488 …Run Code Online (Sandbox Code Playgroud)