小编the*_*ile的帖子

我有一个8个字母的DNA序列列表,例如:

    GGAGACAA  
    GGATACAA 
    AATCAGTC 
    ACACCTGG

我想选择位置上至少2个字母不同于其他所有行的所有行.理想情况下,我想保留3,4和1或2行(但不关心哪一行).但至少,我想保留3和4.最重要的是,没有包含的线与任何其他保留线只有一个位置基差.

你会怎么做？R,grep/gawk是我常用的工具,但我无法弄清楚如何使用那些看似简单的任务.

ETA-第一和第二行只有一个字母彼此不同(G与第四位的T).这就是为什么我不想保留它们的原因.有大约65,000个可能的8个碱基的组合,所以我的大多数(~4000行)列表应该满足这2个不同于所有其他行标准的字母.我很难弄清楚如何找到那些没有的人.

2
推荐指数

1
解决办法

86
查看次数

awk ×1

r ×1

小编the_ile的帖子