如何根据另一个数据帧的值删除数据框中的行

Question

如何根据另一个数据帧的值删除数据框中的行

我试图根据另一个数据帧(PvalueData)中的p值标准过滤掉我的数据框(MainData)中的行.所以,我想要的是:如果一行中超过50%的列的p值> 0.05(PvalueData),那么该特定行将从主数据帧(MainDatA)中删除.

可以说,这是我的数据:

MainData:

        C1   C2   C3   C4   C5
Gene1   70   54   54   75   75
Gene2   23   18   16   54   15
Gene3   43   93   90   43   92
Gene4   32   50   23   13   45
Gene5   44   53   46   34   47
Gene6   42   34   53   85   43
Gene7   49   55   67   49   89
Gene8   25   45   49   34   35
Gene9   19   16   54   53   94

Run Code Online (Sandbox Code Playgroud)

PvalueData:

        C1     C2     C3     C4     C5
Gene1   0.04   0.01   0.01   0.01   0.01
Gene2   0.01   0.01   0.01   0.02   0.01
Gene3   0.01   0.07   0.09   0.01   0.06
Gene4   0.01   0.03   0.06   0.01   0.02
Gene5   0.04   0.01   0.07   0.08   0.01
Gene6   0.09   0.07   0.01   0.06   0.06
Gene7   0.10   0.07   0.01   0.01   0.06
Gene8   0.01   0.01   0.02   0.01   0.01
Gene9   0.09   0.01   0.07   0.08   0.06

Run Code Online (Sandbox Code Playgroud)

所以我的结果文件应如下所示:

结果:

        C1   C2   C3   C4   C5
Gene1   70   54   54   75   75
Gene2   23   18   16   54   15
Gene4   32   50   23   13   45
Gene5   44   53   46   34   47
Gene8   25   45   49   34   35

Run Code Online (Sandbox Code Playgroud)

我确实试过这样的事情:

check = if (PvalueData[!rowSums(PvalueData>thres) > ncol(PvalueData)*.5], MainData)

Run Code Online (Sandbox Code Playgroud)

但无法真正解决这个问题.

Answer 1

lmo*_*lmo 5

以下是使用rowMeans的答案:

df[rowMeans(df2 < 0.05) > 0.5,]
      C1 C2 C3 C4 C5
Gene1 70 54 54 75 75
Gene2 23 18 16 54 15
Gene4 32 50 23 13 45
Gene5 44 53 46 34 47
Gene8 25 45 49 34 35

Run Code Online (Sandbox Code Playgroud)

以下是代码的快速细分:

df2 < 0.05 将data.frame强制转换为由逻辑元素组成的矩阵(TRUE和FALSE),如果元素符合您的p值标准,则该元素为TRUE.
rowMeans 计算每行的这些逻辑值的平均值.
这些装置用于根据第二标准对主数据帧进行子集化.

数据

df <- read.table(header=T, text="C1   C2   C3   C4   C5
Gene1   70   54   54   75   75
Gene2   23   18   16   54   15
Gene3   43   93   90   43   92
Gene4   32   50   23   13   45
Gene5   44   53   46   34   47
Gene6   42   34   53   85   43
Gene7   49   55   67   49   89
Gene8   25   45   49   34   35
Gene9   19   16   54   53   94")

df2 <- read.table(header=T, text="C1     C2     C3     C4     C5
Gene1   0.04   0.01   0.01   0.01   0.01
Gene2   0.01   0.01   0.01   0.02   0.01
Gene3   0.01   0.07   0.09   0.01   0.06
Gene4   0.01   0.03   0.06   0.01   0.02
Gene5   0.04   0.01   0.07   0.08   0.01
Gene6   0.09   0.07   0.01   0.06   0.06
Gene7   0.10   0.07   0.01   0.01   0.06
Gene8   0.01   0.01   0.02   0.01   0.01
Gene9   0.09   0.01   0.07   0.08   0.06")

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，2 月前
查看次数：	347 次
最近记录：	9 年，2 月前