我有这种格式的大型数据集
HF TLLL A T 0.999 NA 0.666 NA 0.566 NA NA 0.87
HF TLLM A T 0.500 0.500 0.666 0.566 NA NA 0.87
Run Code Online (Sandbox Code Playgroud)
我想计算每一行的平均值,从第5列开始直到行结束,并忽略字符串NA.然后将平均值附加到每行的末尾.
输出看起来像这样:
HF TLLL A T 0.999 NA 0.666 NA 0.566 NA NA 0.87 0.775
HF TLLM A T 0.500 0.500 0.666 0.566 NA NA 0.87 0.620
Run Code Online (Sandbox Code Playgroud)
我一直得到这样的总和,但无法弄清楚如何跟踪求和的整数数,以便计算平均值.
awk '{x=0;for(i=5;i<=NF;i++)x=x+$i;print $0, x}'
Run Code Online (Sandbox Code Playgroud) 我想对图像进行一些小小的调整.我生成一个简单的相关热图的命令如下:
psticorr <- cor(psti)
rgb.palette <- colorRampPalette(c("blue", "yellow"), space = "lab")
levelplot(psticorr, col.regions=rgb.palette(120), scales=list(x=list(cex=.3), y=list(cex=.3)), main="PstI: Correlations of loci coverage", xlab="Samples", ylab="Samples" )
Run Code Online (Sandbox Code Playgroud)
我得到了我需要的东西,但我真的很喜欢,如果我可以设置色标的范围,例如从0到1,此时它从我的最低相关(r)值开始.