在生物信息学中,什么是单身?

Mat*_*teo 5 bioinformatics samtools

我很快意识到,生物信息学不是一个明确定义且易于获取的术语的主题.我的一些结果明显不一致.

我用过samtools view -b -h -f 8 fileName.bam > mateUnmapped.bam几个BAM文件.我的印象是这个命令只提取其伙伴不与草图基因组对齐的读数(也包括标题;输出是BAM格式)

当我samtools 'flagstat'在生成的文件上使用时,我得到一个有趣的结果:"单例"的数量与读取的总数不匹配......这对我来说似乎很奇怪.

我能找到的唯一对比是:

http://seqanswers.com/forums/showthread.php?t=46711

回答本论坛提出的问题的一个人声称,单身人士有时被定义为根本没有伴侣阅读的序列.但是,这仍然无法解释我的结果.弗拉格斯塔特说我的读书中大约有40%是单身,但我觉得我根据我使用的"观察"命令,他们应该都是单身人士.

经验丰富的生物信息学家可以帮助我吗?

dka*_*zel 7

在一般的基因组装配中,单体是不会组装成重叠群或映射到参考的读数.这是一个只有1读取的重叠群.

在samtools中,单例是指映射但是配合没有映射的读取.

弗拉格斯塔特说我的读书中大约有40%是单身,但我觉得我根据我使用的"观察"命令,他们应该都是单身人士.

我不是一个samtools专家,但我认为-f 8意味着显示其配偶没有映射的读物.这并没有说明阅读本身,只是它的配偶.因此,您可能正在读取两个根本没有映射的配对(60%)和读取其中只有一个配对映射的配对(40%).?

您可能希望尝试运行-f 8 -F 4以成为映射但其配合没有映射的读取.