根据常见的子模式聚类短的同质字符串(DNA)并提取类的共识

Sim*_*man 5 string cluster-analysis bioinformatics dna-sequence

任务:
将大量短DNA片段聚类在具有共同子序列模式的类中,并找到每个类的共有序列.

  • 游泳池:约 300个序列片段
  • 每个片段8到20个字母
  • 4个可能的字母:a,g,t,c
  • 每个片段分为三个区域:
    1. 5个通用字母
    2. g和c的8个或更多个位置
    3. 5个通用字母
      (正如所有的正则表达式[gcta]{5}[gc]{8,}[gcta]{5})

计划:
执行多重比对(即withClustalW2)以找到在区域2中共享共同序列的类及其共有序列.

问题:

  1. 我的碎片是否太短,是否有助于增加它们的尺寸?
  2. 区域2是否过于同质,只有两个允许的字母类型,用于显示其序列中的模式?
  3. 您可以为此任务建议哪些替代方法或工具?

最好的祝福,

西蒙

Cal*_*yth 1

您的区域二(包含 2 个字母)最终可能会有点过于相似,增加长度或可变性(例如更多字母)可能会有所帮助。