如何使用PLink删除重复的SNP？

Question

如何使用PLink删除重复的SNP？

use*_*418 5 bioinformatics

我正在与PLINK合作分析全基因组数据.

有谁知道如何删除重复的SNP？

Answer 1

小智 5

在 PLINK 1.9 中，使用--list-duplicate-vars suppress-first，它将列出重复项，并删除一个（第一个），而另一个保持不变。我知道这会出错。

--exclude您也可以使用--extract，保留而不是删除 SNP 列表，而不是像 Davy 建议的那样使用。在任何基于 Unix 的系统上都有一个简单的方法（假设您的数据采用 PED/MAP 格式并由染色体分割）：

for i in {1..22}; do
  cat yourfile_chr${i}.map | grep "$i" | cut -f -4 | uniq | cut -f -2 | keepers_chr${i}.txt;
done

Run Code Online (Sandbox Code Playgroud)

keepers_chr.txt这将为位于唯一位置的 SNP创建一个包含 SNP ID 的文件。然后运行 PLINK 为其提供原始文件并使用--extract keepers_chr, 和--make-bed --out unique_file

Answer 2

Dav*_*agh 3

据我所知，没有命令可以自动执行此操作，但我过去执行此操作的方法是获取重复的 SNP 列表，例如将重复项更改为 rs1001.dup，然后运行并--update-allele --update-name创建重复项列表，因此所有条目的.dup名称末尾都会有，然后运行--extract duplicateSNPs.txt --make-bed --out yourfilename.dups.removed

如果您熟悉 R，那么获取重复的 SNP 列表应该不会太难。很抱歉给您一个“好吧，只需学习 X！” 回答

归档时间：	14 年，2 月前
查看次数：	9299 次
最近记录：	9 年前