标签: vcf-variant-call-format

如何将所有染色体组合在一个文件中

我下载了1000个基因组数据（染色体1 -22），它是VCF格式的。如何将所有染色体合并到一个文件中？我应该首先将所有染色体转换为 plink 二进制文件，然后再执行吗--bmerge mmerge-list？或者还有其他方法可以将它们结合起来吗？请问有什么建议吗？

bioinformatics genetics vcf-variant-call-format

bha*_*bha

2020 10-05

5
推荐指数

2
解决办法

7131
查看次数

如何使用plink将vcf文件转换为ped文件？

我正在尝试使用 plink 将 .vcf 文件转换为 .ped 文件。我在网上看了一些手册和帖子，但似乎没有人特别提到如何将vcf转换为ped。

我希望这里可能有一些专家，他们有使用plink将vcf转换为ped的经验。如果您能分享知识，我将不胜感激。此外，如果有另一种方式（非链接）这样做，请分享。

谢谢！

bioinformatics vcftools vcf-variant-call-format

Nev*_*rBe

2020 10-02

4
推荐指数

2
解决办法

1万
查看次数

使用 R 进行下一代测序 vcf 文件

我是 R 初学者。我正在使用 R 来分析我的大型下一代测序 vcf 文件，但遇到了一些困难。我已将非常大的 vcf 文件作为数据框（2446824 个观测值，共 177 个变量）导入，并仅使用我感兴趣的 3 个样本（2446824 个观测值，共 29 个变量）制作了一个子集。

我现在希望进一步减少尺寸（将行数减少到 200000 左右）。我一直在尝试使用 grep，但无法让它工作。我得到的错误是

Error in "0/1" | "1/0" : 
   operations are possible only for numeric, logical or complex types

Run Code Online (Sandbox Code Playgroud)

这是我正在使用的文件的一个小示例部分。

Chr Start   End Ref Alt Func.refGene    INFO    FORMAT  Run.Sample1 Run.Sample2 Run.Sample3
489 1   909221  909221  T   C   PASS    GT:AD:DP:GQ:PL  0/1:11,0:11:33:0,33,381     ./.     ./.
490 1   909238  909238  G   C   PASS    GT:AD:DP:GQ:PL  0/1:11,6:17:99:171,0,274    0/1:6,5:11:99:159,0,116     1/1:0,15:15:36:441,36,0
491 1   909242  909242  A   G   PASS    GT:AD:DP:GQ:PL  0/1:16,4:13:45:0,45,532 …

Run Code Online (Sandbox Code Playgroud)

regex r bioinformatics sequencing vcf-variant-call-format

Kel*_*ams

2020 10-02

1
推荐指数

1
解决办法

564
查看次数

.vcf 数据到 pandas 数据框

如何将此VCF 数据转换为 pandas 数据框？

^{注意：复制问题不需要完整文件。只需前 50 行（上面要点链接的第一部分）就可以了。}

理想情况下，我希望采用以下形式：

到目前为止，我只能获取标题：

import pandas as pd

f = open('clinvar_final.txt',"r")

for line in f.readlines():
    if line[:5] == 'CHROM':
        vcf_header = line.strip().split('\t')

df = pd.DataFrame
df.header = vcf_header

Run Code Online (Sandbox Code Playgroud)

python data-analysis pandas vcf-variant-call-format

Mig*_*gan

2023 03-28

1
推荐指数

1
解决办法

5041
查看次数

从 .bim、.bed 和 .fam 文件创建 VCF

我有一个 .fam、.bed 和 .bim 文件，其中包含少数个人的标记。我需要将其转换为 VCF 文件。

有人可以帮忙创建一个 VCF 文件吗？有没有开源工具可以做到这一点？

bioinformatics genetics bam vcf-variant-call-format bed

cha*_*has

2020 10-02

0
推荐指数

1
解决办法

6170
查看次数

整数编码VCF文件的最优解

我对我的问题有一个可行的解决方案，但速度很慢。我很好奇推荐的加速方法，并想看看它能达到多快。这是一个示例输入文件

CHROM    POS REF   ALT   Geno      value                                                                                       
Chr16 616504 T     C     X93.968   0|1:7,28:35:99:0|1:616504_T_C:787,0,177:616504   
Chr16 616504 T     C     BESC.1    0/0:48,0:48:99:.:.:0,114,1710:.                  
Chr16 616504 T     C     BESC.10   1|1:0,23:23:72:1|1:616504_T_C:1059,72,0:616504   
Chr16 616504 T     C     BESC.100  0/0:34,0:34:96:.:.:0,96,1440:.                   
Chr16 616504 T     C     BESC.1001 0/0:47,0:47:99:.:.:0,120,1800:.                  
Chr16 616504 T     C     BESC.1002 0/0:39,0:39:99:.:.:0,108,948:.

Run Code Online (Sandbox Code Playgroud)

目标是从value列中取出第一个和第三个字符并对它们求和，然后输出一个类似的文件，其中值列替换为该总和。前两行的示例输出：

CHROM    POS REF   ALT   Geno      value                                                                                       
Chr16 616504 T     C     X93.968   1   
Chr16 616504 T     C     BESC.1    0

Run Code Online (Sandbox Code Playgroud)

这是我当前的解决方案，其中 STDIN 1 是输入文件名，STDIN 2 是输出文件名：

#!/bin/bash
i=0
len=$(cat $1 | wc -l)

touch $2
while …

Run Code Online (Sandbox Code Playgroud)

bash awk bioinformatics vcf-variant-call-format

C. *_*ohn

lucky-day

0
推荐指数

1
解决办法

63
查看次数

标签统计

vcf-variant-call-format ×6

bioinformatics ×5

genetics ×2

awk ×1

bam ×1

bash ×1

bed ×1

data-analysis ×1

pandas ×1

python ×1

r ×1

regex ×1

sequencing ×1

vcftools ×1

如何将所有染色体组合在一个文件中

如何使用plink将vcf文件转换为ped文件？

使用 R 进行下一代测序 vcf 文件

.vcf 数据到 pandas 数据框

从 .bim、.bed 和 .fam 文件创建 VCF

整数编码VCF文件的最优解

标签 统计

标签统计