如何使用PLink删除重复的SNP?

use*_*418 5 bioinformatics

我正在与PLINK合作分析全基因组数据.

有谁知道如何删除重复的SNP?

小智 5

在 PLINK 1.9 中,使用--list-duplicate-vars suppress-first,它将列出重复项,并删除一个(第一个),而另一个保持不变。我知道这会出错。

--exclude您也可以使用--extract,保留而不是删除 SNP 列表,而不是像 Davy 建议的那样使用。在任何基于 Unix 的系统上都有一个简单的方法(假设您的数据采用 PED/MAP 格式并由染色体分割):

for i in {1..22}; do
  cat yourfile_chr${i}.map | grep "$i" | cut -f -4 | uniq | cut -f -2 | keepers_chr${i}.txt;
done
Run Code Online (Sandbox Code Playgroud)

keepers_chr.txt这将为位于唯一位置的 SNP创建一个包含 SNP ID 的文件。然后运行 ​​PLINK 为其提供原始文件并使用--extract keepers_chr, 和--make-bed --out unique_file


Dav*_*agh 3

据我所知,没有命令可以自动执行此操作,但我过去执行此操作的方法是获取重复的 SNP 列表,例如将重复项更改为 rs1001.dup,然后运行并--update-allele --update-name创建重复项列表,因此所有条目的.dup名称末尾都会有,然后运行--extract duplicateSNPs.txt --make-bed --out yourfilename.dups.removed

如果您熟悉 R,那么获取重复的 SNP 列表应该不会太难。很抱歉给您一个“好吧,只需学习 X!” 回答