标签: bed

如何合并具有两个公共列的多个文件,并将添加的列命名为文件名?

我试图.bed通过识别前两列chrstart遵循此来合并多个文件,

将多个文件合并为两个公共列,并将空白替换为0

但是,我想知道如何使文件名成为新添加的列名。

$cat combineFWPS_02.sh

    BEGIN {
       for (k=1; k<ARGC; ++k)
          s = s " " 0
    }
    FNR == 1 {
       ++ARGIND
    }
    {
       key=$1 OFS $2
       if (!(key in map))
          map[key] = s
       split(map[key], a)
       a[ARGIND] = $3
       v = ""
       for (k=1; k<ARGC; ++k)
          v = v " " a[k]
       map[key]=v
    }
    END {
       for (k in map)
          print k map[k]
    }

$cat comRwps_02.sh

awkCOM="~/scripts/combineFWPS_02.sh"
## Run the jobs
time awk …
Run Code Online (Sandbox Code Playgroud)

awk bioinformatics bed

6
推荐指数
2
解决办法
195
查看次数

如何处理两个床文件以并行查找重叠区域?

我想处理多个床文件以查找重叠区域。我将我的数据集读取为数据帧,以及如何有效地并行扫描两个数据集以检测重叠区域发生的位置。我的方法是每次将数据框对象的每个单元格的峰值区域作为查询时,将间隔树中另一个数据框的所有行的峰值区域作为查询,然后搜索重叠区域。我很困惑如何在 R 中实现这一点。请帮助处理生物信息学中的床格式文件。感谢有人指出我如何做到这一点......

这是我想要实现的简单示例:

  [1]     chr1 [10171, 10226]      * | MACS_peak_1      7.12
  [2]     chr1 [32698, 33079]      * | MACS_peak_2     13.92
  [3]     chr1 [34757, 34794]      * | MACS_peak_3      6.08
  [4]     chr1 [37786, 37833]      * | MACS_peak_4      2.44
  [5]     chr1 [38449, 38484]      * | MACS_peak_5      3.61
  [6]     chr1 [38584, 38838]      * | MACS_peak_6      4.12
  ..
  ..
  []     chrX [155191467, 155191508]      * | MACS_peak_77948      3.80
  []     chrX [155192786, 155192821]      * | MACS_peak_77949      3.71
  []     chrX [155206352, 155206433]      * | MACS_peak_77950      3.81
  []     chrX …
Run Code Online (Sandbox Code Playgroud)

parallel-processing r bioinformatics bed

1
推荐指数
1
解决办法
1491
查看次数

从 .bim、.bed 和 .fam 文件创建 VCF

我有一个 .fam、.bed 和 .bim 文件,其中包含少数个人的标记。我需要将其转换为 VCF 文件。

有人可以帮忙创建一个 VCF 文件吗?有没有开源工具可以做到这一点?

bioinformatics genetics bam vcf-variant-call-format bed

0
推荐指数
1
解决办法
6170
查看次数