我有一个数据帧.对于我的模型,第一列包含我的预测分数(范围从0到100,较小的值预计在A类中,较大的值预计在B类中),第二列包含条目的实际分类(" A类"或"B类").
如何使用R得到不同截止值的混淆矩阵,因为我无法确定在哪里定义值<20或<50作为A类呢?
如何与R有效地进行这种比较?
我有大量的fasta格式的蛋白质序列.
我想获得每对蛋白质的成对序列相似性得分.
R中的任何包装都可用于获得蛋白质序列的爆炸相似性评分?
为了使实数值(x)的数据集与一个分布拟合,我们可以使用MASS,如下所示:gamma或Student t分布:
fitdistr(x, "gamma")
Run Code Online (Sandbox Code Playgroud)
要么
fitdistr(x2, "t")
Run Code Online (Sandbox Code Playgroud)
如果我认为我的数据集应该符合gamma和t分布的总和,该怎么办?
P(X) = Gamma(x) + t(x)
Run Code Online (Sandbox Code Playgroud)
我可以使用R中的最大似然拟合来拟合概率分布混合的参数吗?
我有一个具有以下格式的数据帧.
A B
xxx 100;2;30;5
yyy 30;5
zzz 35
Run Code Online (Sandbox Code Playgroud)
如何计算第二列中B列中的数字数并转换为计数,如下所示:
A B
xxx 4
yyy 2
zzz 1
Run Code Online (Sandbox Code Playgroud)
谢谢.
我的df有以下条目:
A
xxx
xxx
xxx1
xx1x
yyyy
gggg
Run Code Online (Sandbox Code Playgroud)
我想根据以下条件,根据A列的相似性将符号添加到我的df的B列.
我将阈值设置为=或> 75%相似.
A列已经排序.因此,需要检查上述ONE的相似性.
如果上面一个相似,则符号将从上面的列B中复制.
如果上面的不相似,则符号将从同一行的列A中复制.
例如,第1行和第2行是相同的.它们的符号与A列相同.第3行是(4个字母中的3个字母具有相同的字母且序列相同)75%与row1和row2相似.B列中的sybmol将从上面复制,即xxx.由于xx1x(row4)只有4个字母中的2个类似于row3,因此它只使用自己的符号,即xx1x.由于yyyy和gggg完全不同,他们将保留自己的sybmol,如A列.
因此,我的最终结果应该是这样的:
A B
xxx xxx
xxx xxx
xxx1 xxx
xx1x xx1x
yyyy yyyy
gggg gggg
Run Code Online (Sandbox Code Playgroud)
我通过猜测得出这个相似度(如果有正式的字符串相似性搜索方法则不需要使用),如果有任何形式的方法来检查R中的字符串相似性,那么它可能很好用.
您能介意如何使用R有效地添加此符号列吗?
感谢diliop为我之前的问题提出的精彩解决方案.
为了建立这个答案,我尝试编写一个循环来获得1000个蛋白质的所有成对的"序列相似性得分",具有以下代码.
for (i in 1:1000){
score <- score(pairwiseAlignment(seqs[[i]]$seq, seqs[[i+1]]$seq, substitutionMatrix=BLOSUM100, gapOpening=0, gapExtension=-5))}
Run Code Online (Sandbox Code Playgroud)
但是,我很难将每个分数转换为a data.frame,这样自动列出所有分数?
seq1 seq2 score
seq1 seq3 score
seq1 seq4 score
....
seq1000 seq1000 score
Run Code Online (Sandbox Code Playgroud)
专家可以给我一些关于如何获得1000 x 1000蛋白质的更多提示吗?
我的df1如下:
df1 <- data.frame(A=c("a","b","c","d","e"), B=c("f","g","t","g","u"), C=c("M","NA","NA","NA","M"), D=c("A","NA","NA","NA","NA"), E=c("NA","NA","NA","NA","G"), G=c(1:5))
A B C D E G
1 a f M A NA 1
2 b g NA NA NA 2
3 c t NA NA NA 3
4 d g NA NA NA 4
5 e u M NA G 5
Run Code Online (Sandbox Code Playgroud)
我想根据C,D和E列中的读数添加列.如果所有都是NA,我想将X添加到H列.如果其中任何一个都不是NA,我想在列H中添加YES.结果如下:
A B C D E G H
1 a f M A NA 1 YES
2 b g NA NA NA 2 X
3 c t NA NA NA …Run Code Online (Sandbox Code Playgroud) r ×7
similarity ×2
count ×1
distribution ×1
for-loop ×1
prediction ×1
sequence ×1
statistics ×1