我想删除此数据框中的行:
a)包含NA所有列的s.下面是我的示例数据框.
gene hsap mmul mmus rnor cfam
1 ENSG00000208234 0 NA NA NA NA
2 ENSG00000199674 0 2 2 2 2
3 ENSG00000221622 0 NA NA NA NA
4 ENSG00000207604 0 NA NA 1 2
5 ENSG00000207431 0 NA NA NA NA
6 ENSG00000221312 0 1 2 3 2
Run Code Online (Sandbox Code Playgroud)
基本上,我想获得如下的数据框.
gene hsap mmul mmus rnor cfam
2 ENSG00000199674 0 2 2 2 2
6 ENSG00000221312 0 1 2 3 2
Run Code Online (Sandbox Code Playgroud)
b)只在某些列中包含NAs …
我有一个150,000行的数据框,其中2,000列包含值,有些是负数.我将这些负值替换为0,但这样做非常慢(约60分钟或更长).
df[df < 0] = 0
这里df[,1441:1453]看起来像(所有列/值的数字):
V1441 V1442 V1443 V1444 V1445 V1446 V1447 V1448 V1449 V1450 V1451 V1452 V1453
1 3 1 0 4 4 -2 0 3 12 5 17 34 27
2 0 1 0 7 0 0 0 1 0 0 0 0 0
3 0 2 0 1 2 3 6 1 2 1 -6 3 1
4 1 2 3 6 1 2 1 -6 3 1 -4 1 0
5 1 …Run Code Online (Sandbox Code Playgroud) 在bash我尝试glob从目录中的文件列表,以作为程序的输入.但是,我还想给这个程序提供文件名列表
files="/very/long/path/to/various/files/*.file"
Run Code Online (Sandbox Code Playgroud)
所以我可以这样使用它.
prompt> program -files $files -names $namelist
Run Code Online (Sandbox Code Playgroud)
如果glob给我:
/very/long/path/to/various/files/AA.file /very/long/path/to/various/files/BB.file /very/long/path/to/various/files/CC.file /very/long/path/to/various/files/DD.file /very/long/path/to/various/files/ZZ.file
Run Code Online (Sandbox Code Playgroud)
我想获得AA BB CC DD ZZ的列表,以便在没有长路径名和文件扩展名的情况下提供我的程序.但是我不清楚如何从那里开始!任何提示非常感谢!
这是我的代码:
ggplot(tmp, aes(x=tmp$V2, y=-log10(tmp$V3), fill=tmp$V1)) +
geom_bar(stat="identity") +
coord_flip()
Run Code Online (Sandbox Code Playgroud)
现在我想创建与上面相同的图,但是每个"组"中的值都被排序.看起来像这样的东西.
我正在创建这个"barplot" ggplot,但我希望能够重新定位每个类别中的条形图,以便最高的条形图位于顶部.简而言之,每个类别都有一个从高到低排序.
以下是我的代码 - 欢迎任何提示 - 谢谢
library("ggplot2")
d <- read.csv('http://db.tt/EOtR3uh', header = F)
d$V4 <- factor(d$V2, levels=d$V2)
base_size <- 11
ggplot(d, aes(d$V4, -log10(d$V3), fill=d$V1)) +
geom_bar(stat="identity") +
coord_flip() +
labs(y = "-log10(Pvalues)",x = "",fill="") +
theme_grey(base_size = base_size) +
scale_x_discrete(expand = c(0, 0))
Run Code Online (Sandbox Code Playgroud)

当我matrix用image函数作为TIFF文件绘制a 时,我经常得到垂直或水平线.
我的矩阵是150000行×2000列,当绘制150000行×100列的矩阵时也会出现这些行.结果是一样的.
线条来自哪里?这是一种像素化的神器吗?我几乎一直都会得到它们.
矩阵看起来像这样:
V999 V1000 V1001 V1002 V1003 V1004 V1005 V1006 V1007 V1008 V1009 V1010
[1,] 1 4 0 0 15 15 15 15 8 0 1 0
[2,] 0 3 12 5 15 15 15 1 15 4 0 2
[3,] 0 0 0 3 6 15 15 15 15 15 0 3
[4,] 3 6 15 15 15 15 15 0 3 15 15 2
[5,] 15 15 15 0 3 15 …Run Code Online (Sandbox Code Playgroud) 我想根据第二列的内容合并两个文件.
档案1:
"4742" "209220_at" 2.60700394801826
"104" "209396_s_at" 2.60651442103297
"749" "202409_at" 2.59424724783704
"4168" "209875_s_at" 2.58773204877464
"3973" "1431_at" 2.52832098784342
"1826" "207201_s_at" 2.41685345240968
Run Code Online (Sandbox Code Playgroud)
文件2:
"653" "1431_at" 2.14595534191867
"1109" "207201_s_at" 2.13777517447307
"353" "212531_at" 2.12706340284672
"381" "206535_at" 2.11456707231618
"1846" "204534_at" 2.10919474441178
Run Code Online (Sandbox Code Playgroud)
到最后:
"3973" "1431_at" 2.52832098784342 "653" "1431_at" 2.14595534191867
"1826" "207201_s_at" 2.41685345240968 "1109" "207201_s_at" 2.13777517447307
Run Code Online (Sandbox Code Playgroud)
我试过了comm,diff一些不起眼awk的单线,没有任何成功.任何帮助非常感谢.本
我想用kmeans聚类一个矩阵,并能够将其绘制为热图.这听起来很微不足道,我看过很多像这样的情节.我试图google atround,但找不到绕道而行的方法.
我希望能够在这个图上绘制类似A或B的图.假设我有一个250行和5列的矩阵.我不希望对列进行聚类,只是对行进行聚类.
m = matrix(rnorm(25), 250, 5)
km = kmeans(m, 10)
Run Code Online (Sandbox Code Playgroud)
那么如何将这10个聚类作为热图进行绘制?您的评论和帮助非常受欢迎.
谢谢.

这似乎是一个微不足道的R问题,但我没有找到任何令人信服的解决方案.我想在X轴变成Y的地方翻转我的情节,反之亦然.在boxplot中有一个horiz="T"选项,但不是plot().
这就是我的情节:
plot(rm, type="l", main="CpG - running window 100")
> str(rm)
num [1:43631] 0.667 0.673 0.679 0.685 0.691 ...
Run Code Online (Sandbox Code Playgroud)

我想得到这个:

感谢您的反馈.
我试图使用"对"绘制一些散点图对.我的数据框看起来像:
>e
X Y Z
0 0 0
2 3 4
0 3 4
3 3 3
Run Code Online (Sandbox Code Playgroud)
这里是一个完全标准的数据帧.
我用这个绘制我的散点图,再没什么花哨的:
pairs(~X+Y+Z, data=e, log="xy")
Run Code Online (Sandbox Code Playgroud)
它工作得很好,但它没有绘制标签.但是,如果我在命令中删除log ="xy",那么标签就会很好地绘制出来.所以我想这与我希望我的散点图是对数比例这一事实有关.
所以我的问题是我该怎么办?我应该在手前删除所有带有零的行(你是怎么做到的?)是否有一个神奇的技巧让我有log ="xy"并且我的散点图被标记了?
如果不清楚,请告诉我.
那么这个CSV格式的数据集,
GO Biological Process,regulation of lipid metabolic process,1.87E-35
GO Biological Process,acute inflammatory response,3.21E-37
GO Biological Process,response to insulin stimulus,1.05E-38
GO Biological Process,steroid metabolic process,4.19E-39
GO Biological Process,cholesterol metabolic process,1.19E-40
GO Biological Process,cellular response to chemical stimulus,5.87E-42
GO Biological Process,alcohol metabolic process,5.27E-43
GO Biological Process,sterol metabolic process,2.61E-43
GO Biological Process,lipid homeostasis,1.12E-44
GO Biological Process,response to peptide hormone stimulus,1.29E-45
GO Biological Process,monocarboxylic acid metabolic process,2.33E-54
GO Biological Process,cellular ketone metabolic process,5.46E-74
GO Biological Process,carboxylic acid metabolic process,2.41E-76
GO Biological Process,organic acid metabolic …Run Code Online (Sandbox Code Playgroud) 我想在网页上显示我在 R 中生成的热图(矩阵)。我的矩阵看起来像这样,但在我的例子中,大小是 300x300。

基本上我正在寻找一个交互式集群,它看起来像这样:
http://online.wsj.com/article/SB125993225142676615.html#articleTabs%3Dinteractive
http://mbostock.github.com/protovis/ex/matrix.html
我希望能够点击一个分支,然后突出显示所选的组/文本,并淡出矩阵的其余部分。
我环顾四周,找不到太多东西。我什至不知道我应该使用什么语言?JSON、Flash、HTML5、javascript、谷歌图表?
如有任何意见和建议,我们将不胜感激。
谢谢。
我需要循环遍历具有相同名称的各种目录和文件名,但递增1,从001,002,003到100.
/Very/long/path/to/folder001/very_long_filename001.foobar
/Very/long/path/to/folder002/very_long_filename002.foobar
/Very/long/path/to/folder003/very_long_filename003.foobar
$FILES=/Very/long/path/to/folder*/very_long_filename*.foobar
for f in $FILES
do
echo "$f"
done
Run Code Online (Sandbox Code Playgroud)
for我上面写的循环不起作用,我真的不明白为什么!有什么提示吗?谢谢.