小编Eva*_*nig的帖子

从包含键值对的字符串有效地创建数据帧

我想问一下R中特定编码问题的效率建议.我有一个以下样式的字符串向量:

[1] "HGVSc=ENST00000495576.1:n.820-1G>A;INTRON=1/1;CANONICAL=YES"
[2] "DISTANCE=2179"                                              
[3] "HGVSc=ENST00000466430.1:n.911C>T;EXON=4/4;CANONICAL=YES"    
[4] "DISTANCE=27;CANONICAL=YES;common"
Run Code Online (Sandbox Code Playgroud)

在向量的每个元素中,单个条目用a ;和MOST 分隔,单个条目具有格式KEY=VALUE.但是,也有一些条目只有格式KEY(参见[4]中的"common").在此示例中,有15个不同的键,并不是每个键都出现在向量的每个元素中.15个不同的键是:

names <- c('ENSP','HGVS','DOMAINS','EXON','INTRON', 'HGVSp', 'HGVSc','CANONICAL','GMAF','DISTANCE', 'HGNC', 'CCDS', 'SIFT', 'PolyPhen', 'common')
Run Code Online (Sandbox Code Playgroud)

从这个向量我想创建一个如下所示的数据帧:

ENSP HGVS DOMAINS EXON INTRON HGVSp                        HGVSc CANONICAL
1    -    -       -    -    1/1     - ENST00000495576.1:n.820-1G>A       YES
2    -    -       -    -      -     -                            -         -
3    -    -       -  4/4      -     -   ENST00000466430.1:n.911C>T       YES
4    -    -       -    -      -     -                            -       YES
GMAF DISTANCE HGNC CCDS SIFT PolyPhen common
1 …
Run Code Online (Sandbox Code Playgroud)

algorithm performance r

12
推荐指数
1
解决办法
876
查看次数

标签 统计

algorithm ×1

performance ×1

r ×1