小编Gre*_*egS的帖子

R内存限制警告vs"无法分配......"

记忆警告会影响我的R分析吗?

在RI中运行大型数据分析脚本时会收到类似的警告:

在'...'达到_ __Mb的总分配:看帮助......

但我的脚本继续没有错误,只是警告.使用其他数据集,我得到一个错误:

错误:无法分配大小为___Mb的向量:

我知道错误会破坏我的数据分析,但是只是收到警告有什么问题吗?我没有注意到我的数据集中有任何遗漏,但它非常大,我没有办法检查所有内容.我在18000Mb分配给内存,不能合理分配更多.

r

10
推荐指数
1
解决办法
2520
查看次数

正则表达式在某个字符R Perl之前抓取单词

我需要在R中的一个字符串中的一个唯一字符(在我的情况下:&)之前和之后得到单词

我需要从这样的东西中得到'word1':"......有些东西是word1和word2的东西......"

在R中使用Perl正则表达式之后我可以得到这个词:( (?<=& )[^ ]*(?= ) 它似乎按照我想要的方式运行.我通过梳理我在本网站上找到的答案得到它)

我现在需要在&符号前面加上这个词.单词的长度发生变化,其他前面单词的数量以及空格也会发生变化.单词一可以是字母和数字,只是被两边的空格所限制.

regex perl r

7
推荐指数
2
解决办法
2万
查看次数

R索引字符串,其中字符块表示核苷酸变体

我的问题是我需要在字符串中找到一个位置,其中我有一些字符块,它们实际上应该只是一个字符位置.我正在使用核苷酸序列,我需要跟踪序列中的位置,但我有一些位置,其中有变体已被表示为[A/T],其中A或T可能存在,具体取决于哪个序列我关心(这是两个相似的DNA序列,它们在整个序列的几个位置上变化).因此,对于这些变体网站中的每一个,序列的长度是额外的四个字符/位置更长.

我知道我可以通过制作一个新的代码来解决这个问题,其中[A/T]可以转换为,例如X和[T/A]由Y表示,但这会让人感到困惑,因为已经有一个标准的简并代码,但是它不会跟踪哪个核苷酸来自哪个菌株(对于我来说,/来自菌株A的菌株和/来自菌株B的核苷酸之后).我想以某种方式索引这个DNA序列字符串,我在想这样:

如果我有一个像这样的字符串:

dna <- "ATC[A/T]G[G/C]ATTACAATCG"
Run Code Online (Sandbox Code Playgroud)

我想得到一个表/ data.frame:

pos nuc
1   A
2   T
3   C
4   [A/T]
5   G
6   [G/C]
... and so on
Run Code Online (Sandbox Code Playgroud)

如果我更了解正则表达式,我觉得我可以用某种方式使用strplit.我可以插入一个条件来分割每个字符,除非用方括号绑定,它应该作为一个块保存吗?

regex string r bioinformatics

6
推荐指数
2
解决办法
118
查看次数

标签 统计

r ×3

regex ×2

bioinformatics ×1

perl ×1

string ×1