根据常见的子模式聚类短的同质字符串(DNA)并提取类的共识

Question

任务:
将大量短DNA片段聚类在具有共同子序列模式的类中,并找到每个类的共有序列.

游泳池:约 300个序列片段
每个片段8到20个字母
4个可能的字母:a,g,t,c
每个片段分为三个区域:
1. 5个通用字母
2. g和c的8个或更多个位置
3. 5个通用字母
  (正如所有的正则表达式[gcta]{5}[gc]{8,}[gcta]{5})

计划:
执行多重比对(即withClustalW2)以找到在区域2中共享共同序列的类及其共有序列.

问题:

最好的祝福,

西蒙

Answer 1

您的区域二（包含 2 个字母）最终可能会有点过于相似，增加长度或可变性（例如更多字母）可能会有所帮助。