R如何可视化成对对齐

Prr*_*dep 1 r bioinformatics ggplot2 sequence-alignment

如何可视化两个序列的完全比对?

library(Biostrings)
s1 <-DNAString("ACTTCACCAGCTCCCTGGCGGTAAGTTGATCAAAGGAAACGCAAAGTTTTCACTTCACCAGCTCCCTGGCGGTAAGTTGATCAAAGGAAACGCAAAGTTTTCAAGAAGACTTCACCAGCTCCCTGGCGGTAAGTTGATCAAAGGAAACGCAAAGTTTTCAAG")
s2 <-DNAString("GTTTCACTACTTCCTTTCGGGTAAGTAAATATATGTTTCACTACTTCCTTTCGGGTAAGTGTTTCACTACTTCCTTTCGGGTAAGTAAATATATAAATATATAAAAATATAATTTTCATCAAATATATAAATATATAAAAATATAATTTTCATCAAATATATAAAAATATAATTTTCATC")
pairwiseAlignment(s1,s2)
Run Code Online (Sandbox Code Playgroud)

输出:

Global PairwiseAlignmentsSingleSubject (1 of 1)
pattern: [1] ACTTCACCAGCTCCCTGGCGGTAAGTTGATCAAAGGAAACGCAAAGT--TTTCAC---...CTTCACCAGCTCCCTGGCGGTAAGTTG-ATCAAAGG---AAACGCAAAGTTTTCAAG 
subject: [1] GTTTCACTACTTCCTTTCGGGTAAGTAAAT-ATATGTTTCACTACTTCCTTTCGGGTA...TATATAAATATATAAAAATATAATTTTCATCAAATATATAAAAATATAATTTTCATC 
score: -394.7115 
Run Code Online (Sandbox Code Playgroud)

在这里,仅显示了部分对齐?您知道绘制或打印路线的任何现有功能吗?

Mau*_*ers 7

您可以在中找到有关如何提取对齐模式和主题序列的信息和详细信息?pairwiseAlignments

这是一个基于您提供的样本数据的示例:

  1. 将成对对齐方式存储在PairwiseAlignmentsSingleSubject对象中

    alg <- pairwiseAlignment(s1,s2)
    
    Run Code Online (Sandbox Code Playgroud)
  2. 提取对齐的模式和主题序列,然后将它们合并为一个DNAStringSet对象。

    seq <- c(alignedPattern(alg), alignedSubject(alg))
    
    Run Code Online (Sandbox Code Playgroud)
  3. 您可以使用以下命令访问完整序列 as.character

    as.character(seq)
    [1] "ACTTCACCAGCTCCCTGGCGGTAAGTTGATCAAAGGAAACGCAAAGT--TTTCAC--------TTCACCAGCTCCCTGGCGGTAAGTTGATC---AAAGG---AAACGCAAAGTTTTCAAGAAGACTTCACCAGCTCCCTGGCGGTAAGTTG-ATCAAAGG---AAACGCAAAGTTTTCAAG"
    [2] "GTTTCACTACTTCCTTTCGGGTAAGTAAAT-ATATGTTTCACTACTTCCTTTCGGGTAAGTGTTTCACTACTTCCTTTCGGGTAAGTAAATATATAAATATATAAAAATATAATTTTCATCAA-ATATATAAATATATAAAAATATAATTTTCATCAAATATATAAAAATATAATTTTCATC"
    
    Run Code Online (Sandbox Code Playgroud)

    好像alignedPattern并且alignedSubject被添加到Biostrings最近了。或者你可以做

    seq <- c(aligned(pattern(alg)), aligned(subject(alg)))
    
    Run Code Online (Sandbox Code Playgroud)

    但请注意,这会修剪全局对齐的序列(请参阅详细信息)。

  4. 有一个不错的R / Bioconductor软件包DECIPHER,它提供了一种XStringSet在Web浏览器中可视化数据的方法。它会在底部自动添加颜色编码和共识序列。在你的情况下,你会做

    library(DECIPHER)
    BrowseSeqs(seq)
    
    Run Code Online (Sandbox Code Playgroud)

    在此处输入图片说明