小编Ben*_* B.的帖子

删除data.frame中包含全部或部分NA(缺失值)的行

我想删除此数据框中的行:

a)包含NA所有列的s.下面是我的示例数据框.

             gene hsap mmul mmus rnor cfam
1 ENSG00000208234    0   NA   NA   NA   NA
2 ENSG00000199674    0   2    2    2    2
3 ENSG00000221622    0   NA   NA   NA   NA
4 ENSG00000207604    0   NA   NA   1    2
5 ENSG00000207431    0   NA   NA   NA   NA
6 ENSG00000221312    0   1    2    3    2
Run Code Online (Sandbox Code Playgroud)

基本上,我想获得如下的数据框.

             gene hsap mmul mmus rnor cfam
2 ENSG00000199674    0   2    2    2    2
6 ENSG00000221312    0   1    2    3    2
Run Code Online (Sandbox Code Playgroud)

b)只在某些列中包含NAs …

r filter missing-data dataframe r-faq

792
推荐指数
15
解决办法
139万
查看次数

快速替换R中数据帧中的值

我有一个150,000行的数据框,其中2,000列包含值,有些是负数.我将这些负值替换为0,但这样做非常慢(约60分钟或更长).

df[df < 0] = 0

这里df[,1441:1453]看起来像(所有列/值的数字):

  V1441 V1442 V1443 V1444 V1445 V1446 V1447 V1448 V1449 V1450 V1451 V1452 V1453
1     3     1     0     4     4    -2     0     3    12     5    17    34    27
2     0     1     0     7     0     0     0     1     0     0     0     0     0
3     0     2     0     1     2     3     6     1     2     1    -6     3     1
4     1     2     3     6     1     2     1    -6     3     1    -4     1     0
5     1 …
Run Code Online (Sandbox Code Playgroud)

replace r dataframe

19
推荐指数
2
解决办法
7万
查看次数

Bash从长路径中提取文件基名

bash我尝试glob从目录中的文件列表,以作为程序的输入.但是,我还想给这个程序提供文件名列表

files="/very/long/path/to/various/files/*.file"
Run Code Online (Sandbox Code Playgroud)

所以我可以这样使用它.

prompt> program -files $files -names $namelist
Run Code Online (Sandbox Code Playgroud)

如果glob给我:

/very/long/path/to/various/files/AA.file /very/long/path/to/various/files/BB.file /very/long/path/to/various/files/CC.file /very/long/path/to/various/files/DD.file /very/long/path/to/various/files/ZZ.file
Run Code Online (Sandbox Code Playgroud)

我想获得AA BB CC DD ZZ的列表,以便在没有长路径名和文件扩展名的情况下提供我的程序.但是我不清楚如何从那里开始!任何提示非常感谢!

bash filenames glob

12
推荐指数
2
解决办法
3万
查看次数

R ggplot在"barplot-like"图中排序

这是我的代码:

ggplot(tmp, aes(x=tmp$V2, y=-log10(tmp$V3), fill=tmp$V1)) +
geom_bar(stat="identity") +
coord_flip()
Run Code Online (Sandbox Code Playgroud)

现在我想创建与上面相同的图,但是每个"组"中的值都被排序.看起来像这样的东西.

sorting r ggplot2

10
推荐指数
3
解决办法
1万
查看次数

使用ggplot2在每个因子内订购条形码

我正在创建这个"barplot" ggplot,但我希望能够重新定位每个类别中的条形图,以便最高的条形图位于顶部.简而言之,每个类别都有一个从高到低排序.

以下是我的代码 - 欢迎任何提示 - 谢谢

library("ggplot2")
d <- read.csv('http://db.tt/EOtR3uh', header = F)

d$V4 <- factor(d$V2, levels=d$V2)
base_size <- 11
ggplot(d, aes(d$V4, -log10(d$V3), fill=d$V1)) +
geom_bar(stat="identity") +
coord_flip() +
labs(y = "-log10(Pvalues)",x = "",fill="") +
theme_grey(base_size = base_size) +
scale_x_discrete(expand = c(0, 0))
Run Code Online (Sandbox Code Playgroud)

在此输入图像描述

r ggplot2

9
推荐指数
1
解决办法
1778
查看次数

在TIFF中绘制热图时的垂直白线

当我matriximage函数作为TIFF文件绘制a 时,我经常得到垂直或水平线.

我的矩阵是150000行×2000列,当绘制150000行×100列的矩阵时也会出现这些行.结果是一样的.

线条来自哪里?这是一种像素化的神器吗?我几乎一直都会得到它们.

矩阵看起来像这样:

    V999 V1000 V1001 V1002 V1003 V1004 V1005 V1006 V1007 V1008 V1009 V1010
[1,]    1     4     0     0    15    15    15    15     8     0     1     0
[2,]    0     3    12     5    15    15    15     1    15     4     0     2
[3,]    0     0     0     3     6    15    15    15    15    15     0     3
[4,]    3     6    15    15    15    15    15     0     3    15    15     2
[5,]   15    15    15     0     3    15 …
Run Code Online (Sandbox Code Playgroud)

plot tiff r image lines

7
推荐指数
1
解决办法
1425
查看次数

unix:使用第二列合并2个文件

我想根据第二列的内容合并两个文件.

档案1:

"4742"  "209220_at"     2.60700394801826
"104"   "209396_s_at"   2.60651442103297
"749"   "202409_at"     2.59424724783704
"4168"  "209875_s_at"   2.58773204877464
"3973"  "1431_at"       2.52832098784342
"1826"  "207201_s_at"   2.41685345240968
Run Code Online (Sandbox Code Playgroud)

文件2:

"653"   "1431_at"       2.14595534191867
"1109"  "207201_s_at"   2.13777517447307
"353"   "212531_at"     2.12706340284672
"381"   "206535_at"     2.11456707231618
"1846"  "204534_at"     2.10919474441178
Run Code Online (Sandbox Code Playgroud)

到最后:

"3973"  "1431_at"       2.52832098784342 "653"   "1431_at"       2.14595534191867
"1826"  "207201_s_at"   2.41685345240968 "1109"  "207201_s_at"   2.13777517447307
Run Code Online (Sandbox Code Playgroud)

我试过了comm,diff一些不起眼awk的单线,没有任何成功.任何帮助非常感谢.本

unix merge awk

5
推荐指数
2
解决办法
7700
查看次数

R使用热图绘制kmeans聚类

我想用kmeans聚类一个矩阵,并能够将其绘制为热图.这听起来很微不足道,我看过很多像这样的情节.我试图google atround,但找不到绕道而行的方法.

我希望能够在这个图上绘制类似A或B的图.假设我有一个250行和5列的矩阵.我不希望对列进行聚类,只是对行进行聚类.

m = matrix(rnorm(25), 250, 5)

km = kmeans(m, 10)
Run Code Online (Sandbox Code Playgroud)

那么如何将这10个聚类作为热图进行绘制?您的评论和帮助非常受欢迎.

谢谢.

在此输入图像描述

visualization r cluster-analysis heatmap k-means

5
推荐指数
1
解决办法
1万
查看次数

R在图上翻转XY轴

这似乎是一个微不足道的R问题,但我没有找到任何令人信服的解决方案.我想在X轴变成Y的地方翻转我的情节,反之亦然.在boxplot中有一个horiz="T"选项,但不是plot().

这就是我的情节:

plot(rm, type="l", main="CpG - running window 100")

> str(rm)
 num [1:43631] 0.667 0.673 0.679 0.685 0.691 ...
Run Code Online (Sandbox Code Playgroud)

这就是我所拥有的

我想得到这个:

在此输入图像描述

感谢您的反馈.

plot r flip

5
推荐指数
1
解决办法
1万
查看次数

使用R中的对绘制散点图,以对数比例绘制包含零的数据

我试图使用"对"绘制一些散点图对.我的数据框看起来像:

    >e
    X Y Z
    0 0 0
    2 3 4
    0 3 4
    3 3 3
Run Code Online (Sandbox Code Playgroud)

这里是一个完全标准的数据帧.

我用这个绘制我的散点图,再没什么花哨的:

pairs(~X+Y+Z, data=e, log="xy")
Run Code Online (Sandbox Code Playgroud)

它工作得很好,但它没有绘制标签.但是,如果我在命令中删除log ="xy",那么标签就会很好地绘制出来.所以我想这与我希望我的散点图是对数比例这一事实有关.

所以我的问题是我该怎么办?我应该在手前删除所有带有零的行(你是怎么做到的?)是否有一个神奇的技巧让我有log ="xy"并且我的散点图被标记了?

如果不清楚,请告诉我.

r scatter-plot dataframe

3
推荐指数
1
解决办法
3173
查看次数

使用条形图绘制条形图,按组名称分组/着色

那么这个CSV格式的数据集,

GO Biological Process,regulation of lipid metabolic process,1.87E-35
GO Biological Process,acute inflammatory response,3.21E-37
GO Biological Process,response to insulin stimulus,1.05E-38
GO Biological Process,steroid metabolic process,4.19E-39
GO Biological Process,cholesterol metabolic process,1.19E-40
GO Biological Process,cellular response to chemical stimulus,5.87E-42
GO Biological Process,alcohol metabolic process,5.27E-43
GO Biological Process,sterol metabolic process,2.61E-43
GO Biological Process,lipid homeostasis,1.12E-44
GO Biological Process,response to peptide hormone stimulus,1.29E-45
GO Biological Process,monocarboxylic acid metabolic process,2.33E-54
GO Biological Process,cellular ketone metabolic process,5.46E-74
GO Biological Process,carboxylic acid metabolic process,2.41E-76
GO Biological Process,organic acid metabolic …
Run Code Online (Sandbox Code Playgroud)

plot r colors histogram

1
推荐指数
1
解决办法
5935
查看次数

交互式热图/矩阵可视化

我想在网页上显示我在 R 中生成的热图(矩阵)。我的矩阵看起来像这样,但在我的例子中,大小是 300x300。

http://2.bp.blogspot.com/-38wWn7KD6v0/TgTJskG1ujI/AAAAAAAAC5g/0k33b0L5fL8/s1600/heatmap.png

基本上我正在寻找一个交互式集群,它看起来像这样:

http://online.wsj.com/article/SB125993225142676615.html#articleTabs%3Dinteractive

http://mbostock.github.com/protovis/ex/matrix.html

我希望能够点击一个分支,然后突出显示所选的组/文本,并淡出矩阵的其余部分。

我环顾四周,找不到太多东西。我什至不知道我应该使用什么语言?JSON、Flash、HTML5、javascript、谷歌图表?

如有任何意见和建议,我们将不胜感激。

谢谢。

visualization matrix google-visualization

1
推荐指数
1
解决办法
7803
查看次数

Bash循环遍历目录和文件名

我需要循环遍历具有相同名称的各种目录和文件名,但递增1,从001,002,003到100.

/Very/long/path/to/folder001/very_long_filename001.foobar
/Very/long/path/to/folder002/very_long_filename002.foobar
/Very/long/path/to/folder003/very_long_filename003.foobar


$FILES=/Very/long/path/to/folder*/very_long_filename*.foobar
for f in $FILES
do
  echo "$f"
done
Run Code Online (Sandbox Code Playgroud)

for我上面写的循环不起作用,我真的不明白为什么!有什么提示吗?谢谢.

directory bash for-loop

0
推荐指数
1
解决办法
2398
查看次数