小编Sam*_*bus的帖子

比较跨越多行的数据框中的两列

我有我在,我想一个数据点的工作比较数据帧Genotype有两个参考S288CSK1.这种比较将在数据帧的许多行(100+)上完成.以下是我的数据框的前几行:

    Assay   Genotype S288C SK1
1   CCT6-002     G     A    G
2   CCT6-007     G     A    G
3   CCT6-013     C     T    C
4   CCT6-015     G     A    G
5   CCT6-016     G     G    T
Run Code Online (Sandbox Code Playgroud)

作为最终产品,我想要一个1(S288C)和0(SK1)的字符串,具体取决于数据点匹配的引用.因此,在上面的例子中,我想要00001除了最后一个匹配以外的所有输出SK1.

r dataframe

11
推荐指数
1
解决办法
6万
查看次数

数据帧上下文中的模式匹配

我有一个数据框,其前5行看起来如下:

Sample    CCT6        GAT1                   IMD3          PDR3          RIM15
001       0000000000  111111111111111111111  010001000011  0N100111NNNN  01111111111NNNNNN
002       1111111111  111111111111111111000  000000000000  0N100111NNNN  00000000000000000
003       0NNNN00000  000000000000000000000  010001000011  000000000000  11111111111111111
004       000000NNN0  11100111111N111111111  010001000011  111111111111  01111111111000000
005       0111100000  111111111111111111111  111111111111  0N100111NNNN  00000000000000000
Run Code Online (Sandbox Code Playgroud)

完整的数据集有2000个样本.我正在尝试编写代码,这将允许我告诉我所有样本中5列中每列的数字串是否是同质的(即全部为1或0).理想情况下,我还希望能够在答案的情况下区分1和0 True.从我的例子来看,预期结果将是:

Sample    CCT6        GAT1         IMD3          PDR3          RIM15
001       TRUE (0)    TRUE (1)     FALSE         FALSE         FALSE
002       TRUE (1)    FALSE        TRUE (0)      FALSE         TRUE (0)
003       FALSE       TRUE (0)     FALSE         TRUE (0)      TRUE (1)
004       FALSE       FALSE        FALSE         TRUE (1)      FALSE
005 …
Run Code Online (Sandbox Code Playgroud)

r pattern-matching dataframe

6
推荐指数
2
解决办法
1317
查看次数

更改数据框中的文本

我正在使用一个数据框,我需要在其中编辑一个特定列中的条目以便于排序.导入时数据框如下所示:

     Assay    Genotype Description Sample   Operator
1    CCT6-18  C    A.Conservative  1_062911 Automatic   
2    CCT6-24  C       E.User Call  1_062911   charles
3    CCT6-25  A    A.Conservative  1_062911 Automatic
Run Code Online (Sandbox Code Playgroud)

我需要将测定柱从CCT6-18更改为CCT6-018.这个"化验"在数据框中出现多次,我想一次更改所有条目.我尝试过gsub函数,但它以我不熟悉的格式返回数据.我想把数据放回数据框中.

救命!

r

4
推荐指数
1
解决办法
1万
查看次数

从数据框中提取重复的行

我有一个大数据框,我正在使用,前几行如下:

      Assay   Genotype   Sample    Result
1     001        G         1         0
2     001        A         2         1
3     001        G         3         0 
4     001        NA        1         NA
5     002        T         1         0
6     002        G         2         1
7     002        T         2         0 
8     002        T         4         0
9     003        NA        1         NA
Run Code Online (Sandbox Code Playgroud)

总共我将为每个样本处理2000个样本和168个分析.

我想提取具有相同Assay和Sample的多个条目的行.我希望结果数据位于包含所有重复条目的数据框中,进行排序以使重复项彼此相邻.从上面的示例中,结果将如下所示:

      Assay   Genotype   Sample    Result
1     001        G         1         0
4     001        NA        1         NA
6     002        G         2         1
7     002        T         2         0 
Run Code Online (Sandbox Code Playgroud)

r extraction dataframe

4
推荐指数
1
解决办法
2276
查看次数

将字符串分解为不同行上的多个字符串

我有一个数据框,其中包含一个长字符串,每个字符串与一个'Sample'相关联:

Sample  Data
  1     000000000000000000000000000N01000000000000N0N000000000N00N0000NN00N0N000000100000N00N0N0000000NNNN011111111111111111111111111111110000000000000000000N000000N0000000000N
  2     000000000000000000000000000N01000000000000N0N000000000N00N0000NN00N0N000000100000N00N0N0000000NNNN011111111111111111111111111111110000000000000000000N000000N0000000000N
Run Code Online (Sandbox Code Playgroud)

我想用一种简单的方法将这个字符串打成5个片段,格式如下:

Sample X
CCT6 - Characters 1-33
GAT1 - Characters 34-68
IMD3 - Characters 69-99
PDR3 - Characters 100-130
RIM15 - Characters 131-168
Run Code Online (Sandbox Code Playgroud)

为每个样本提供如下所示的输出:

Sample 1
CCT6 - 000000000000000000000000000N01000
GAT1 - 000000000N0N000000000N00N0000NN00N0
IMD3 - N000000100000N00N0N0000000NNNN0
PDR3 - 1111111111111111111111111111111
RIM15 - 0000000000000000000N000000N0000000000N
Run Code Online (Sandbox Code Playgroud)

我已经能够使用该substr函数将长字符串分解为单个部分,但是id能够自动化它,因此我可以在一个输出中获得所有5个部分.理想情况下,此输出也是数据帧.

r character dataframe

2
推荐指数
1
解决办法
475
查看次数

从多种不同格式创建标准化数据表条目

我有一个包含许多字段的数据框.其中一个字段是"Sample",由于各种输入,我的样本使用各种格式命名.这里有些例子:

 "12" "250" "1248" "1_100111" "16_100111" "125_081811" "1249_100111" 
Run Code Online (Sandbox Code Playgroud)

以上实例代表大多数样品.我想将所有样本更改为4位数格式,以便轻松排序.以上示例的最终结果将是:

 "0012" "0250" "1248" "0001" "0016" "0125" "1249" 
Run Code Online (Sandbox Code Playgroud)

因此,在某些情况下必须添加零,而在其他情况下,必须切断日期标记.在数据框的上下文中进行更改并以相同的格式返回非常重要.

r dataframe

1
推荐指数
1
解决办法
132
查看次数

标签 统计

r ×6

dataframe ×5

character ×1

extraction ×1

pattern-matching ×1