小编Gre*_*egS的帖子

我的问题是我需要在字符串中找到一个位置,其中我有一些字符块,它们实际上应该只是一个字符位置.我正在使用核苷酸序列,我需要跟踪序列中的位置,但我有一些位置,其中有变体已被表示为[A/T],其中A或T可能存在,具体取决于哪个序列我关心(这是两个相似的DNA序列,它们在整个序列的几个位置上变化).因此,对于这些变体网站中的每一个,序列的长度是额外的四个字符/位置更长.

我知道我可以通过制作一个新的代码来解决这个问题,其中[A/T]可以转换为,例如X和[T/A]由Y表示,但这会让人感到困惑,因为已经有一个标准的简并代码,但是它不会跟踪哪个核苷酸来自哪个菌株(对于我来说,/来自菌株A的菌株和/来自菌株B的核苷酸之后).我想以某种方式索引这个DNA序列字符串,我在想这样:

如果我有一个像这样的字符串:

dna <- "ATC[A/T]G[G/C]ATTACAATCG"

Run Code Online (Sandbox Code Playgroud)

我想得到一个表/ data.frame:

pos nuc
1   A
2   T
3   C
4   [A/T]
5   G
6   [G/C]
... and so on

Run Code Online (Sandbox Code Playgroud)

如果我更了解正则表达式,我觉得我可以用某种方式使用strplit.我可以插入一个条件来分割每个字符,除非用方括号绑定,它应该作为一个块保存吗？

regex string r bioinformatics

Gre*_*egS

lucky-day

6
推荐指数

2
解决办法

118
查看次数

标签统计

r ×3

regex ×2

bioinformatics ×1

perl ×1

string ×1

R内存限制警告vs"无法分配......"

正则表达式在某个字符R Perl之前抓取单词

R索引字符串,其中字符块表示核苷酸变体

标签 统计

小编Gre_egS的帖子

标签统计