这可能是一个简单的问题,但我仍然需要一些帮助使用R.
我有一个data.frame(main_data),让我们说..
NAMES AGE LOC
Jyo 23 Hyd
Abid 27 Kar
Ras 24 Pun
Poo 25 Goa
Sus 28 Kar
Run Code Online (Sandbox Code Playgroud)
我希望根据名称列表删除几行.所以我可以说我有另一个表列表如下:
NAMES_list
Jyo
Ras
Poo
Run Code Online (Sandbox Code Playgroud)
所以基于这个列表,如果任何名称与我上面的"main_data"表匹配,那么我想删除它们的整行,所以结果应该如下
NAMES AGE LOC
Abid 27 Kar
Sus 28 Kar
Run Code Online (Sandbox Code Playgroud)
任何人都可以帮我解决这个问题吗?提前致谢.. :)
我有一个数据集(测试),如下所示:
Type Met1 Met2 Met3 Met4
TypeA 65 43 97 77
TypeA 46 25 76 77
TypeA 44 23 55 46
TypeA 46 44 55 77
TypeA 33 22 55 54
TypeB 66 8 66 47
TypeB 55 76 66 65
TypeB 55 77 88 46
TypeB 36 67 55 44
TypeB 67 55 76 65
Run Code Online (Sandbox Code Playgroud)
我在盒子图上检查了很多链接,但是我仍然没有成功获得我想要的盒子图.我希望有一个箱形图,我的X轴有所有Mets(Met1,Met2,Met3,Met4)的A型(黄色,橙色).从本质上讲,我想要以下内容(取自此处):
我正在尝试一些事情,比如
boxplot(formula = len ~ Type , data = test, subset == "TypeA")
boxplot(formula = len ~ Type , data = …
Run Code Online (Sandbox Code Playgroud) 我想将na.omit(数据)用于以下示例数据集,但是在条件下,只有当它们存在时才会删除带有NAs的行,比如说"超过30%"的列.
数据:
C1 C2 C3 C4 C5
Gene1 0.07 NA 0.05 0.07 0.07
Gene2 0.2 0.18 0.16 0.15 0.15
Gene3 NA 0.93 0.9 NA 0.92
Gene4 0.32 0.05 0.12 0.13 0.05
Gene5 0.44 0.53 0.46 0.03 0.47
Gene6 NA 0.34 NA 0.8 NA
Gene7 0.49 0.55 0.67 0.49 0.89
Gene8 0.25 NA 0.49 NA NA
Gene9 0.1 0.1 0.05 NA 0.09
Run Code Online (Sandbox Code Playgroud)
因此生成的文件应如下所示:
C1 C2 C3 C4 C5
Gene1 0.07 NA 0.05 0.07 0.07
Gene2 0.2 0.18 0.16 0.15 0.15
Gene4 …
Run Code Online (Sandbox Code Playgroud) 可能重复:
如何在R中叠加密度图?
我最近开始使用微阵列数据集,并且我正试图抓住R.我希望从我的结果数据中得出一些图,但是我仍然坚持以下.
我有以下数据(myData),
cpg samp1 samp2 samp3
cpg1 0.43 0.32 0.21
cpg2 0.43 0.22 1.00
cpg3 0.11 0.99 0.78
cpg4 0.65 0.32 0.12
cpg5 0.11 0.43 0.89
Run Code Online (Sandbox Code Playgroud)
我希望得到一个密度图,
我做了以下,
plot (density(MyData$samp1), col="red")
lines (density(MyData$samp2), col="green")
lines (density(MyData$samp3), col="blue")
Run Code Online (Sandbox Code Playgroud)
但这样做并不能给我正确的图,因为并非所有的样本曲线都符合图的限制.我确实尝试寻找答案,但老实说,我仍然无法解决这个问题.你能帮我知道我如何设定上述比例吗?或者我应该对上面的代码做些什么,以便所有曲线都在范围内?我有很多样本,所以我需要一些能够自动为我的每个样本分配不同颜色曲线的东西,然后缩放它.
提前致谢..
我想在 R 中对下面的示例数据帧“数据”执行两个样本 Kolmogorov-Smirnov (KS) 测试:
Protein1 Protein2 Protein3 Protein4 Protein5 Protein6 Protein7 Protein8 Group
Sample1 0.56 1.46 0.64 2.53 1.96 305.29 428.41 113.22 Control
Sample2 0.75 2.29 0.38 4.31 1.72 307.95 492.58 82.75 Control
Sample3 2.05 1.73 2.42 14.75 2.92 523.92 426.94 131.51 Control
Sample4 1.71 5.37 0.68 6.39 2.02 343.05 435.16 123.12 Control
Sample5 13.31 0.94 1.21 3.83 2.83 313.71 327.84 66.8 Control
Sample6 0.36 1.81 0.42 2.25 1.48 335.23 352.55 93.81 Control
Sample7 0.28 3.26 0.49 2.62 …
Run Code Online (Sandbox Code Playgroud) 我刚刚开始了解PCA,我希望将它用于一个超过4,00,000行的巨大微阵列数据集.我的样本形式的列,以及基因/基因座形式的行.我确实通过了一些关于使用PCA的教程,并遇到了princomp()和prcomp()以及其他几个.
现在,正如我在此学到的那样,为了在双标图中绘制"样本",我需要将它们放在行中,并将基因/轨迹放在列中,因此我必须在使用它之前转置我的数据PCA.
但是,由于行超过4,00,000,我实际上无法将它们转换为列,因为列是有限的.所以我的问题是,有没有办法在我的数据上执行PCA,而不使用这些R函数进行转置?如果没有,你们中的任何人都可以建议我采取其他任何方式或方法吗?
我试图根据另一个数据帧(PvalueData)中的p值标准过滤掉我的数据框(MainData)中的行.所以,我想要的是:如果一行中超过50%的列的p值> 0.05(PvalueData),那么该特定行将从主数据帧(MainDatA)中删除.
可以说,这是我的数据:
MainData:
C1 C2 C3 C4 C5
Gene1 70 54 54 75 75
Gene2 23 18 16 54 15
Gene3 43 93 90 43 92
Gene4 32 50 23 13 45
Gene5 44 53 46 34 47
Gene6 42 34 53 85 43
Gene7 49 55 67 49 89
Gene8 25 45 49 34 35
Gene9 19 16 54 53 94
Run Code Online (Sandbox Code Playgroud)
PvalueData:
C1 C2 C3 C4 C5
Gene1 0.04 0.01 0.01 0.01 0.01
Gene2 0.01 0.01 0.01 0.02 …
Run Code Online (Sandbox Code Playgroud) 我有一个看起来像这样的文件..
"Locations" "X9442" "X5997"
"1" "cg00000957" 0.87 0.86
"2" "cg00001349" 0.78 0.78
"3" "cg00001583" 0.06 0.08
"4" "cg00002028" 0.01 0.01
Run Code Online (Sandbox Code Playgroud)
我希望删除行名称,使其如下所示:
"Locations" "X9442" "X5997"
"cg00000957" 0.87 0.86
"cg00001349" 0.78 0.78
"cg00001583" 0.06 0.08
"cg00002028" 0.01 0.01
Run Code Online (Sandbox Code Playgroud)
我尝试了各种各样的东西,但是在执行write.table时我无法删除这些索引.有时标题"Locations"会改变其列.有人可以帮助我如何在R或Linux中实现上述目的?
我有一个示例文件如下:
GENES Samp1 Samp2 Samp3 Samp4 Samp5 Samp6 Samp7 Samp8
g1 0.000 0.000 0.000 0.000 0.010 0.000 0.022 0.344
g2 0.700 0.000 0.000 0.000 0.000 0.000 0.000 0.000
g3 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
g4 0.322 0.782 0.000 0.023 0.000 0.000 0.000 0.345
g5 0.010 0.000 0.333 0.000 0.000 0.000 0.011 0.000
g6 0.000 0.000 0.010 0.000 0.000 0.000 0.000 0.000
Run Code Online (Sandbox Code Playgroud)
我需要检索行(基因)列表,如果它有"2个或更多样本",值为"0.010或更多".所以我应该得到如下结果列:
GENES
g1
g4
g5
Run Code Online (Sandbox Code Playgroud)
谁能帮我这个 ?