小编Cin*_*ina的帖子

由R session分配的清除内存(gc()没有帮助!)

我正在进行大规模的机器学习,但是由于R内存占用,我的计算速度变慢了.
我清除了我的对象,我也尝试gc()了结果:

           used  (Mb) gc trigger   (Mb)  max used   (Mb)
Ncells  4460452 231.5   15288838 1116.6  36599071 1954.7
Vcells 29572776 349.4  324509788 2712.9 350796378 3376.4
Run Code Online (Sandbox Code Playgroud)

我的任务管理器显示R会话仍然分配超过3GB的内存,我的电脑仍然很慢.
如何释放R占用的内存?(我不想重启电脑)

memory garbage-collection r

18
推荐指数
2
解决办法
3万
查看次数

R中匹配和计数字符串(DNA的k聚体)

我有一个字符串列表(DNA序列),包括A,T,C,G.我想找到所有匹配并插入到表中,其列是这些DNA字母表的所有可能组合(4 ^ k;"k"是每个匹配的长度 - K-mer - 并且必须由用户指定)并且行表示数字在列表中按顺序匹配.

让我们说我的名单包括5名成员:

DNAlst<-list("CAAACTGATTTT","GATGAAAGTAAAATACCG","ATTATGC","TGGA","CGCGCATCAA")
Run Code Online (Sandbox Code Playgroud)

我想要套装k=2(2-mer),所以4^2=16组合可用,包括AA,AT,AC,AG,TA,TT,...

所以我的桌子会有5 rows16 columns.我想计算我的k-mers和列表成员之间的匹配数量.

我想要的结果: df:

lstMemb AA AT AC AG TA TT TC ...
  1     2  1  1  0  0  3  0
  2       ...
  3
  4
  5
Run Code Online (Sandbox Code Playgroud)

你能帮我在R中实现吗?

regex string r dna-sequence

6
推荐指数
4
解决办法
2709
查看次数

根据 R 中的可变条件添加行

我有如下 df

df
ID   type  other-col
1    A1      cc
1    A2      dd
1    A3      cc
2    A1      cc
2    B1      aa
3    A2      aa
Run Code Online (Sandbox Code Playgroud)

我想在“ID”随着“type”和“other-col”列的 F 值变化时添加新内容

new_df
ID
  df
    ID   type  other-col
    1    A1      cc
    1    A2      dd
    1    A3      cc
    1    F       F     <- this row added
    2    A1      cc
    2    B1      aa
    2    F       F      <- this row added
    3    A2      aa
Run Code Online (Sandbox Code Playgroud)

我怎样才能在R中做到这一点?谢谢

r

5
推荐指数
1
解决办法
1288
查看次数

使用另一列中的先前信息更改列中的数据

我有一个包含三列的数据集。该列user有两个操作,包括action1action2action2仅当action1列有A数据时才包含信息。我想将P数据action1action2. 例如,如果action2has ac,而下一行有Pin action1,我想P变成Pac,并且会继续(全部P变成Pac)直到action2变化。请注意,此过程应针对每个user.

df<-read.table(text="
user   action1    action2 
1        A          a
1        B          NA
1        P          NA
1        P          NA
1        A          ac
1        P          NA
2        B          NA
2        P          NA
2        A          aa
2        P          NA
2        AB         aa",header=T)

result: (I highlighted …
Run Code Online (Sandbox Code Playgroud)

r

5
推荐指数
1
解决办法
52
查看次数

Javascript 错误:backtrader 中的 JupyterLab 3.2 中未定义 IPython

我尝试了这篇文章中的所有解决方案:

Javascript 错误:JupyterLab 中未定义 IPython

然而,在 jupyterLab 3.3.2 中收到相同的错误(但它在 VScode 中正常工作)。任何人将不胜感激。

python matplotlib jupyter-lab

5
推荐指数
1
解决办法
4013
查看次数

在 R 中的 ggplot 中绘制树

我想知道是否可以通过ggplot绘制树?让我们说:

library(rpart
library(rpart.plot)

data(iris)
mod <- rpart(Species~., data=iris)
prp(mod)
Run Code Online (Sandbox Code Playgroud)

在此处输入图片说明

我可以在 ggplot 中绘制类似的图形吗?

tree r ggplot2

4
推荐指数
1
解决办法
5090
查看次数

绑定不同行数的列

我想创建一个迭代,它采用一个列表(这是另一个数据帧的列)并将其作为列添加到当前数据帧中。但列的长度不相等。所以,我想生成 NA 作为不匹配的行。

seq_actions=as.data.frame(x = NA)
for(i in 1:20){
  temp_seq=another_df$c1[some conditions]  
  seq_actions=cbind(temp_seq,seq_actions)
}
Run Code Online (Sandbox Code Playgroud)

为了简化,假设我有

df
1  3
3  4
2  2
Run Code Online (Sandbox Code Playgroud)

将 5,6 的列表添加为 df 的新列,所以我想要:

 df
    1  3  5
    3  4  6
    2  2  NA
Run Code Online (Sandbox Code Playgroud)

另一个添加列表是 7 7 7 8,所以我的 df 将是:

df
   1  3  5  7
   3  4  6  7
   2  2  NA 7
   NA NA NA 8
Run Code Online (Sandbox Code Playgroud)

我该怎么做?

r dataframe cbind

3
推荐指数
1
解决办法
2万
查看次数

找到R中具有最大NA值的行

我有数据来自

df
1 a c  NA NA
2 a a  a  NA
3 c NA NA NA
Run Code Online (Sandbox Code Playgroud)

首先,我想找到哪一行具有最高NA值.我也有兴趣找到条件超过2个NA值的行.
我怎么能在R?

row r missing-data

3
推荐指数
1
解决办法
222
查看次数

比较并找到R中的重叠范围

我有两个表,每个表都包括数字范围。一个表是另一表的细分。我想在第一个表中创建二进制列,以显示它们重叠的范围。

例如:

df1:
start1   end1
 1       6
 6       8
 9       12
 13      15
 15      19
 19      20

df2:
start2   end2
 2        4
 9        11
 14       18
Run Code Online (Sandbox Code Playgroud)

结果:结果是带有列的第一个表,该列显示是否存在重叠。

  start1   end1   overlap
     1       6       1
     6       8       0
     9       12      1
     13      15      1
     15      19      1
     19      20      0
Run Code Online (Sandbox Code Playgroud)

谢谢。

r overlap

2
推荐指数
1
解决办法
1546
查看次数

cat在r中输出的时间格式

我正在使用写入文本文件 cat

mytime <- structure(
  1465667039, 
  class = c("POSIXct", "POSIXt"), 
  tzone = "UTC"
)
sink("text.txt")
cat(mytime)
sink()
Run Code Online (Sandbox Code Playgroud)

输出为1465667039。我想要格式("%Y-%m-%dT%H:%M:%S", tz = "UTC")和输出应该看起来像2016-06-11 17:43:59

time r date

2
推荐指数
1
解决办法
464
查看次数