小编the*_*ile的帖子

短文列表,要选择至少2个字母不同的行

我有一个8个字母的DNA序列列表,例如:

    GGAGACAA  
    GGATACAA 
    AATCAGTC 
    ACACCTGG 
Run Code Online (Sandbox Code Playgroud)

我想选择位置上至少2个字母不同于其他所有行的所有行.理想情况下,我想保留3,4和1或2行(但不关心哪一行).但至少,我想保留3和4.最重要的是,没有包含的线与任何其他保留线只有一个位置基差.

你会怎么做?R,grep/gawk是我常用的工具,但我无法弄清楚如何使用那些看似简单的任务.

ETA-第一和第二行只有一个字母彼此不同(G与第四位的T).这就是为什么我不想保留它们的原因.有大约65,000个可能的8个碱基的组合,所以我的大多数(~4000行)列表应该满足这2个不同于所有其他行标准的字母.我很难弄清楚如何找到那些没有的人.

awk grep text r

2
推荐指数
1
解决办法
86
查看次数

标签 统计

awk ×1

grep ×1

r ×1

text ×1