小编Let*_*tin的帖子

如何使用R？基于外部列表从data.frame中删除行？

这可能是一个简单的问题,但我仍然需要一些帮助使用R.

我有一个data.frame(main_data),让我们说..

NAMES   AGE     LOC
Jyo     23      Hyd
Abid    27      Kar
Ras     24      Pun
Poo     25      Goa
Sus     28      Kar

Run Code Online (Sandbox Code Playgroud)

我希望根据名称列表删除几行.所以我可以说我有另一个表列表如下:

NAMES_list
Jyo
Ras
Poo

Run Code Online (Sandbox Code Playgroud)

所以基于这个列表,如果任何名称与我上面的"main_data"表匹配,那么我想删除它们的整行,所以结果应该如下

NAMES   AGE     LOC
Abid    27      Kar
Sus     28      Kar

Run Code Online (Sandbox Code Playgroud)

任何人都可以帮我解决这个问题吗？提前致谢.. :)

r dataframe

Let*_*tin

2013 04-12

25
推荐指数

3
解决办法

3万
查看次数

小组的插图？

我有一个数据集(测试),如下所示:

Type    Met1    Met2    Met3    Met4
TypeA   65  43  97  77
TypeA   46  25  76  77
TypeA   44  23  55  46
TypeA   46  44  55  77
TypeA   33  22  55  54
TypeB   66  8   66  47
TypeB   55  76  66  65
TypeB   55  77  88  46
TypeB   36  67  55  44
TypeB   67  55  76  65

Run Code Online (Sandbox Code Playgroud)

我在盒子图上检查了很多链接,但是我仍然没有成功获得我想要的盒子图.我希望有一个箱形图,我的X轴有所有Mets(Met1,Met2,Met3,Met4)的A型(黄色,橙色).从本质上讲,我想要以下内容(取自此处):

我正在尝试一些事情,比如

boxplot(formula = len ~ Type , data = test, subset == "TypeA")
boxplot(formula = len ~ Type , data = …

Run Code Online (Sandbox Code Playgroud)

r boxplot

Let*_*tin

2016 08-23

16
推荐指数

2
解决办法

5万
查看次数

如果只有超过一定百分比的列存在,那么如何删除具有NA的行？

我想将na.omit(数据)用于以下示例数据集,但是在条件下,只有当它们存在时才会删除带有NAs的行,比如说"超过30%"的列.

数据:

        C1     C2     C3     C4     C5
Gene1   0.07   NA     0.05   0.07   0.07
Gene2   0.2    0.18   0.16   0.15   0.15
Gene3   NA     0.93   0.9    NA     0.92
Gene4   0.32   0.05   0.12   0.13   0.05
Gene5   0.44   0.53   0.46   0.03   0.47
Gene6   NA     0.34   NA     0.8    NA
Gene7   0.49   0.55   0.67   0.49   0.89
Gene8   0.25   NA     0.49   NA     NA
Gene9   0.1    0.1    0.05   NA     0.09

Run Code Online (Sandbox Code Playgroud)

因此生成的文件应如下所示:

        C1     C2     C3     C4     C5
Gene1   0.07   NA     0.05   0.07   0.07
Gene2   0.2    0.18   0.16   0.15   0.15
Gene4 …

Run Code Online (Sandbox Code Playgroud)

r na

Let*_*tin

lucky-day

10
推荐指数

1
解决办法

885
查看次数

如何在单一密度图中获得多条线,并使用校正后的比例？

可能重复:
如何在R中叠加密度图？

我最近开始使用微阵列数据集,并且我正试图抓住R.我希望从我的结果数据中得出一些图,但是我仍然坚持以下.

我有以下数据(myData),

cpg samp1 samp2 samp3 
cpg1 0.43 0.32 0.21 
cpg2 0.43 0.22 1.00 
cpg3 0.11 0.99 0.78 
cpg4 0.65 0.32 0.12 
cpg5 0.11 0.43 0.89

Run Code Online (Sandbox Code Playgroud)

我希望得到一个密度图,

我做了以下,

plot (density(MyData$samp1), col="red") 
lines (density(MyData$samp2), col="green") 
lines (density(MyData$samp3), col="blue")

Run Code Online (Sandbox Code Playgroud)

但这样做并不能给我正确的图,因为并非所有的样本曲线都符合图的限制.我确实尝试寻找答案,但老实说,我仍然无法解决这个问题.你能帮我知道我如何设定上述比例吗？或者我应该对上面的代码做些什么,以便所有曲线都在范围内？我有很多样本,所以我需要一些能够自动为我的每个样本分配不同颜色曲线的东西,然后缩放它.

提前致谢..

r sample scale

Let*_*tin

2017 05-23

8
推荐指数

1
解决办法

1万
查看次数

如何在 R 中的数据框中按组执行 KS.test

我想在 R 中对下面的示例数据帧“数据”执行两个样本 Kolmogorov-Smirnov (KS) 测试：

    Protein1    Protein2    Protein3    Protein4    Protein5    Protein6    Protein7    Protein8    Group
Sample1 0.56    1.46    0.64    2.53    1.96    305.29  428.41  113.22  Control
Sample2 0.75    2.29    0.38    4.31    1.72    307.95  492.58  82.75   Control
Sample3 2.05    1.73    2.42    14.75   2.92    523.92  426.94  131.51  Control
Sample4 1.71    5.37    0.68    6.39    2.02    343.05  435.16  123.12  Control
Sample5 13.31   0.94    1.21    3.83    2.83    313.71  327.84  66.8    Control
Sample6 0.36    1.81    0.42    2.25    1.48    335.23  352.55  93.81   Control
Sample7 0.28    3.26    0.49    2.62 …

Run Code Online (Sandbox Code Playgroud)

r kolmogorov-smirnov

Let*_*tin

lucky-day

5
推荐指数

1
解决办法

5486
查看次数

如何在R中使用大型数据集中的princomp()或prcomp()函数,而无需转移数据？

我刚刚开始了解PCA,我希望将它用于一个超过4,00,000行的巨大微阵列数据集.我的样本形式的列,以及基因/基因座形式的行.我确实通过了一些关于使用PCA的教程,并遇到了princomp()和prcomp()以及其他几个.

现在,正如我在此学到的那样,为了在双标图中绘制"样本",我需要将它们放在行中,并将基因/轨迹放在列中,因此我必须在使用它之前转置我的数据PCA.

但是,由于行超过4,00,000,我实际上无法将它们转换为列,因为列是有限的.所以我的问题是,有没有办法在我的数据上执行PCA,而不使用这些R函数进行转置？如果没有,你们中的任何人都可以建议我采取其他任何方式或方法吗？

transpose r pca princomp

Let*_*tin

lucky-day

2
推荐指数

1
解决办法

1876
查看次数

如何根据另一个数据帧的值删除数据框中的行

我试图根据另一个数据帧(PvalueData)中的p值标准过滤掉我的数据框(MainData)中的行.所以,我想要的是:如果一行中超过50%的列的p值> 0.05(PvalueData),那么该特定行将从主数据帧(MainDatA)中删除.

可以说,这是我的数据:

MainData:

        C1   C2   C3   C4   C5
Gene1   70   54   54   75   75
Gene2   23   18   16   54   15
Gene3   43   93   90   43   92
Gene4   32   50   23   13   45
Gene5   44   53   46   34   47
Gene6   42   34   53   85   43
Gene7   49   55   67   49   89
Gene8   25   45   49   34   35
Gene9   19   16   54   53   94

Run Code Online (Sandbox Code Playgroud)

PvalueData:

        C1     C2     C3     C4     C5
Gene1   0.04   0.01   0.01   0.01   0.01
Gene2   0.01   0.01   0.01   0.02 …

Run Code Online (Sandbox Code Playgroud)

filtering r rows dataframe

Let*_*tin

lucky-day

2
推荐指数

1
解决办法

347
查看次数

如何从文件中删除rownames

我有一个看起来像这样的文件..

"Locations" "X9442" "X5997"
"1" "cg00000957"    0.87    0.86
"2" "cg00001349"    0.78    0.78
"3" "cg00001583"    0.06    0.08
"4" "cg00002028"    0.01    0.01

Run Code Online (Sandbox Code Playgroud)

我希望删除行名称,使其如下所示:

 "Locations"    "X9442" "X5997"
 "cg00000957"   0.87    0.86
 "cg00001349"   0.78    0.78
 "cg00001583"   0.06    0.08
 "cg00002028"   0.01    0.01

Run Code Online (Sandbox Code Playgroud)

我尝试了各种各样的东西,但是在执行write.table时我无法删除这些索引.有时标题"Locations"会改变其列.有人可以帮助我如何在R或Linux中实现上述目的？

csv r dataframe rowname

Let*_*tin

2012 11-30

1
推荐指数

1
解决办法

735
查看次数

如何根据特定条件过滤行？

我有一个示例文件如下:

GENES Samp1 Samp2 Samp3 Samp4 Samp5 Samp6 Samp7 Samp8
g1    0.000 0.000 0.000 0.000 0.010 0.000 0.022 0.344
g2    0.700 0.000 0.000 0.000 0.000 0.000 0.000 0.000
g3    0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000
g4    0.322 0.782 0.000 0.023 0.000 0.000 0.000 0.345
g5    0.010 0.000 0.333 0.000 0.000 0.000 0.011 0.000
g6    0.000 0.000 0.010 0.000 0.000 0.000 0.000 0.000

Run Code Online (Sandbox Code Playgroud)

我需要检索行(基因)列表,如果它有"2个或更多样本",值为"0.010或更多".所以我应该得到如下结果列: