我有我在,我想一个数据点的工作比较数据帧Genotype有两个参考S288C和SK1.这种比较将在数据帧的许多行(100+)上完成.以下是我的数据框的前几行:
Assay Genotype S288C SK1
1 CCT6-002 G A G
2 CCT6-007 G A G
3 CCT6-013 C T C
4 CCT6-015 G A G
5 CCT6-016 G G T
Run Code Online (Sandbox Code Playgroud)
作为最终产品,我想要一个1(S288C)和0(SK1)的字符串,具体取决于数据点匹配的引用.因此,在上面的例子中,我想要00001除了最后一个匹配以外的所有输出SK1.
我有一个数据框,其前5行看起来如下:
Sample CCT6 GAT1 IMD3 PDR3 RIM15
001 0000000000 111111111111111111111 010001000011 0N100111NNNN 01111111111NNNNNN
002 1111111111 111111111111111111000 000000000000 0N100111NNNN 00000000000000000
003 0NNNN00000 000000000000000000000 010001000011 000000000000 11111111111111111
004 000000NNN0 11100111111N111111111 010001000011 111111111111 01111111111000000
005 0111100000 111111111111111111111 111111111111 0N100111NNNN 00000000000000000
Run Code Online (Sandbox Code Playgroud)
完整的数据集有2000个样本.我正在尝试编写代码,这将允许我告诉我所有样本中5列中每列的数字串是否是同质的(即全部为1或0).理想情况下,我还希望能够在答案的情况下区分1和0 True.从我的例子来看,预期结果将是:
Sample CCT6 GAT1 IMD3 PDR3 RIM15
001 TRUE (0) TRUE (1) FALSE FALSE FALSE
002 TRUE (1) FALSE TRUE (0) FALSE TRUE (0)
003 FALSE TRUE (0) FALSE TRUE (0) TRUE (1)
004 FALSE FALSE FALSE TRUE (1) FALSE
005 …Run Code Online (Sandbox Code Playgroud) 我正在使用一个数据框,我需要在其中编辑一个特定列中的条目以便于排序.导入时数据框如下所示:
Assay Genotype Description Sample Operator
1 CCT6-18 C A.Conservative 1_062911 Automatic
2 CCT6-24 C E.User Call 1_062911 charles
3 CCT6-25 A A.Conservative 1_062911 Automatic
Run Code Online (Sandbox Code Playgroud)
我需要将测定柱从CCT6-18更改为CCT6-018.这个"化验"在数据框中出现多次,我想一次更改所有条目.我尝试过gsub函数,但它以我不熟悉的格式返回数据.我想把数据放回数据框中.
救命!
我有一个大数据框,我正在使用,前几行如下:
Assay Genotype Sample Result
1 001 G 1 0
2 001 A 2 1
3 001 G 3 0
4 001 NA 1 NA
5 002 T 1 0
6 002 G 2 1
7 002 T 2 0
8 002 T 4 0
9 003 NA 1 NA
Run Code Online (Sandbox Code Playgroud)
总共我将为每个样本处理2000个样本和168个分析.
我想提取具有相同Assay和Sample的多个条目的行.我希望结果数据位于包含所有重复条目的数据框中,进行排序以使重复项彼此相邻.从上面的示例中,结果将如下所示:
Assay Genotype Sample Result
1 001 G 1 0
4 001 NA 1 NA
6 002 G 2 1
7 002 T 2 0
Run Code Online (Sandbox Code Playgroud) 我有一个数据框,其中包含一个长字符串,每个字符串与一个'Sample'相关联:
Sample Data
1 000000000000000000000000000N01000000000000N0N000000000N00N0000NN00N0N000000100000N00N0N0000000NNNN011111111111111111111111111111110000000000000000000N000000N0000000000N
2 000000000000000000000000000N01000000000000N0N000000000N00N0000NN00N0N000000100000N00N0N0000000NNNN011111111111111111111111111111110000000000000000000N000000N0000000000N
Run Code Online (Sandbox Code Playgroud)
我想用一种简单的方法将这个字符串打成5个片段,格式如下:
Sample X
CCT6 - Characters 1-33
GAT1 - Characters 34-68
IMD3 - Characters 69-99
PDR3 - Characters 100-130
RIM15 - Characters 131-168
Run Code Online (Sandbox Code Playgroud)
为每个样本提供如下所示的输出:
Sample 1
CCT6 - 000000000000000000000000000N01000
GAT1 - 000000000N0N000000000N00N0000NN00N0
IMD3 - N000000100000N00N0N0000000NNNN0
PDR3 - 1111111111111111111111111111111
RIM15 - 0000000000000000000N000000N0000000000N
Run Code Online (Sandbox Code Playgroud)
我已经能够使用该substr函数将长字符串分解为单个部分,但是id能够自动化它,因此我可以在一个输出中获得所有5个部分.理想情况下,此输出也是数据帧.
我有一个包含许多字段的数据框.其中一个字段是"Sample",由于各种输入,我的样本使用各种格式命名.这里有些例子:
"12" "250" "1248" "1_100111" "16_100111" "125_081811" "1249_100111"
Run Code Online (Sandbox Code Playgroud)
以上实例代表大多数样品.我想将所有样本更改为4位数格式,以便轻松排序.以上示例的最终结果将是:
"0012" "0250" "1248" "0001" "0016" "0125" "1249"
Run Code Online (Sandbox Code Playgroud)
因此,在某些情况下必须添加零,而在其他情况下,必须切断日期标记.在数据框的上下文中进行更改并以相同的格式返回非常重要.