小编use*_*718的帖子

R:如何为预测模型制作混淆矩阵?

我有一个数据帧.对于我的模型,第一列包含我的预测分数(范围从0到100,较小的值预计在A类中,较大的值预计在B类中),第二列包含条目的实际分类(" A类"或"B类").

如何使用R得到不同截止值的混淆矩阵,因为我无法确定在哪里定义值<20或<50作为A类呢?

如何与R有效地进行这种比较?

r prediction

13
推荐指数
1
解决办法
5万
查看次数

如何获得~1000种蛋白质的成对"序列相似性得分"?

我有大量的fasta格式的蛋白质序列.

我想获得每对蛋白质的成对序列相似性得分.

R中的任何包装都可用于获得蛋白质序列的爆炸相似性评分?

r similarity sequence

7
推荐指数
1
解决办法
4060
查看次数

R:如何使用分布组合拟合大型数据集?

为了使实数值(x)的数据集与一个分布拟合,我们可以使用MASS,如下所示:gammaStudent t分布:

fitdistr(x, "gamma")
Run Code Online (Sandbox Code Playgroud)

要么

fitdistr(x2, "t")
Run Code Online (Sandbox Code Playgroud)

如果我认为我的数据集应该符合gamma和t分布的总和,该怎么办?

P(X) = Gamma(x) + t(x)
Run Code Online (Sandbox Code Playgroud)

我可以使用R中的最大似然拟合来拟合概率分布混合的参数吗?

statistics r distribution

5
推荐指数
1
解决办法
2391
查看次数

R:计算并转换为数字

我有一个具有以下格式的数据帧.

A    B
xxx 100;2;30;5
yyy 30;5
zzz 35
Run Code Online (Sandbox Code Playgroud)

如何计算第二列中B列中的数字数并转换为计数,如下所示:

A    B
xxx  4
yyy  2
zzz  1
Run Code Online (Sandbox Code Playgroud)

谢谢.

r count

4
推荐指数
1
解决办法
310
查看次数

R:搜索字符串SIMILAR并使用条件符号返回

我的df有以下条目:

A
xxx
xxx
xxx1
xx1x
yyyy
gggg
Run Code Online (Sandbox Code Playgroud)

我想根据以下条件,根据A列的相似性将符号添加到我的df的B列.

  • 我将阈值设置为=或> 75%相似.

  • A列已经排序.因此,需要检查上述ONE的相似性.

  • 如果上面一个相似,则符号将从上面的列B中复制.

  • 如果上面的不相似,则符号将从同一行的列A中复制.

例如,第1行和第2行是相同的.它们的符号与A列相同.第3行是(4个字母中的3个字母具有相同的字母且序列相同)75%与row1和row2相似.B列中的sybmol将从上面复制,即xxx.由于xx1x(row4)只有4个字母中的2个类似于row3,因此它只使用自己的符号,即xx1x.由于yyyy和gggg完全不同,他们将保留自己的sybmol,如A列.

因此,我的最终结果应该是这样的:

A      B
xxx    xxx
xxx    xxx
xxx1   xxx
xx1x   xx1x
yyyy   yyyy
gggg   gggg
Run Code Online (Sandbox Code Playgroud)

我通过猜测得出这个相似度(如果有正式的字符串相似性搜索方法则不需要使用),如果有任何形式的方法来检查R中的字符串相似性,那么它可能很好用.

您能介意如何使用R有效地添加此符号列吗?

r similarity

4
推荐指数
1
解决办法
1945
查看次数

R:如何编写循环来获取矩阵?

感谢diliop为我之前的问题提出的精彩解决方案.

如何获得~1000种蛋白质的成对"序列相似性得分"?

为了建立这个答案,我尝试编写一个循环来获得1000个蛋白质的所有成对的"序列相似性得分",具有以下代码.

for (i in 1:1000){
score <- score(pairwiseAlignment(seqs[[i]]$seq, seqs[[i+1]]$seq, substitutionMatrix=BLOSUM100, gapOpening=0, gapExtension=-5))}
Run Code Online (Sandbox Code Playgroud)

但是,我很难将每个分数转换为a data.frame,这样自动列出所有分数?

seq1 seq2 score
seq1 seq3 score
seq1 seq4 score
....
seq1000 seq1000 score
Run Code Online (Sandbox Code Playgroud)

专家可以给我一些关于如何获得1000 x 1000蛋白质的更多提示吗?

for-loop r

0
推荐指数
1
解决办法
513
查看次数

R:在三列上添加带条件检查的列?

我的df1如下:

df1 <- data.frame(A=c("a","b","c","d","e"), B=c("f","g","t","g","u"), C=c("M","NA","NA","NA","M"), D=c("A","NA","NA","NA","NA"), E=c("NA","NA","NA","NA","G"), G=c(1:5))

  A B  C  D  E G
1 a f  M  A NA 1
2 b g NA NA NA 2
3 c t NA NA NA 3
4 d g NA NA NA 4
5 e u  M NA  G 5
Run Code Online (Sandbox Code Playgroud)

我想根据C,D和E列中的读数添加列.如果所有都是NA,我想将X添加到H列.如果其中任何一个都不是NA,我想在列H中添加YES.结果如下:

  A B  C  D  E G H
1 a f  M  A NA 1 YES
2 b g NA NA NA 2 X
3 c t NA NA NA …
Run Code Online (Sandbox Code Playgroud)

r conditional-statements

0
推荐指数
1
解决办法
1792
查看次数