将数据框字符串列拆分为多个不同的列

Tim*_*Tim 27 split r dataframe stringr

我想要完成的是将列拆分为多个列.我希望第一列包含"F",第二列"US",第三列"CA6"或"DL",第四列是"Z13"或"U13"等等.我的整个df遵循相同的模式X.XX.XXXX.XXX或X.XX.XXX.XXX或X.XX.XX.XXX我知道第三列是我的问题所在,因为长度不同.我过去只使用了substr,我可以在这里使用一些if语句,但是想学习如何使用stringr包和POSIX来做到这一点(除非有更好的选择).先感谢您.

这是我的df:

c("F.US.CLE.V13", "F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", 
"F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", 
"F.US.DL.U13", "F.US.DL.U13", "F.US.DL.U13", "F.US.DL.Z13", "F.US.DL.Z13"
)
Run Code Online (Sandbox Code Playgroud)

A5C*_*2T1 52

一个非常直接的方法是只使用read.table你的角色向量:

> read.table(text = text, sep = ".", colClasses = "character")
   V1 V2  V3  V4
1   F US CLE V13
2   F US CA6 U13
3   F US CA6 U13
4   F US CA6 U13
5   F US CA6 U13
6   F US CA6 U13
7   F US CA6 U13
8   F US CA6 U13
9   F US  DL U13
10  F US  DL U13
11  F US  DL U13
12  F US  DL Z13
13  F US  DL Z13
Run Code Online (Sandbox Code Playgroud)

colClasses需要指定,否则F转换为FALSE(这是我需要修复的"splitstackshape",否则我会建议:))


更新(>一年后)......

或者,您可以使用我的cSplit功能,如下所示:

cSplit(as.data.table(text), "text", ".")
#     text_1 text_2 text_3 text_4
#  1:      F     US    CLE    V13
#  2:      F     US    CA6    U13
#  3:      F     US    CA6    U13
#  4:      F     US    CA6    U13
#  5:      F     US    CA6    U13
#  6:      F     US    CA6    U13
#  7:      F     US    CA6    U13
#  8:      F     US    CA6    U13
#  9:      F     US     DL    U13
# 10:      F     US     DL    U13
# 11:      F     US     DL    U13
# 12:      F     US     DL    Z13
# 13:      F     US     DL    Z13
Run Code Online (Sandbox Code Playgroud)

或者,separate从"tidyr",像这样:

library(dplyr)
library(tidyr)

as.data.frame(text) %>% separate(text, into = paste("V", 1:4, sep = "_"))
#    V_1 V_2 V_3 V_4
# 1    F  US CLE V13
# 2    F  US CA6 U13
# 3    F  US CA6 U13
# 4    F  US CA6 U13
# 5    F  US CA6 U13
# 6    F  US CA6 U13
# 7    F  US CA6 U13
# 8    F  US CA6 U13
# 9    F  US  DL U13
# 10   F  US  DL U13
# 11   F  US  DL U13
# 12   F  US  DL Z13
# 13   F  US  DL Z13
Run Code Online (Sandbox Code Playgroud)


Sim*_*lon 18

这是你想要做的吗?

# Our data
text <- c("F.US.CLE.V13", "F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", 
"F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", "F.US.CA6.U13", 
"F.US.DL.U13", "F.US.DL.U13", "F.US.DL.U13", "F.US.DL.Z13", "F.US.DL.Z13"
)

#  Split into individual elements by the '.' character
#  Remember to escape it, because '.' by itself matches any single character
elems <- unlist( strsplit( text , "\\." ) )

#  We know the dataframe should have 4 columns, so make a matrix
m <- matrix( elems , ncol = 4 , byrow = TRUE )

#  Coerce to data.frame - head() is just to illustrate the top portion
head( as.data.frame( m ) )
#  V1 V2  V3  V4
#1  F US CLE V13
#2  F US CA6 U13
#3  F US CA6 U13
#4  F US CA6 U13
#5  F US CA6 U13
#6  F US CA6 U13
Run Code Online (Sandbox Code Playgroud)


Kon*_*lph 8

通过unlistmatrix似乎有点复杂的方式,并要求你硬编码元素的数量(这实际上是一个非常大的禁止.当然,你可以规避硬编码,并在运行时确定它)

我将采用不同的路径,并直接从strsplit返回的列表构建数据框.对我来说,这在概念上更简单.基本上有两种方法:

  1. as.data.frame - 但由于列表完全是错误的方式(我们有一个行列表而不是列列表),我们必须转置结果.我们也清楚,rownames因为它们默认是丑陋的(但这绝对是不必要的!):

    `rownames<-`(t(as.data.frame(strsplit(text, '\\.'))), NULL)
    
    Run Code Online (Sandbox Code Playgroud)
  2. 或者,用于rbind从行列表构造数据框.我们使用do.call调用rbind的所有行作为单独的参数:

    do.call(rbind, strsplit(text, '\\.'))
    
    Run Code Online (Sandbox Code Playgroud)

两种方式都会产生相同的结果:

     [,1] [,2] [,3]  [,4]
[1,] "F"  "US" "CLE" "V13"
[2,] "F"  "US" "CA6" "U13"
[3,] "F"  "US" "CA6" "U13"
[4,] "F"  "US" "CA6" "U13"
[5,] "F"  "US" "CA6" "U13"
[6,] "F"  "US" "CA6" "U13"
…
Run Code Online (Sandbox Code Playgroud)

显然,第二种方式比第一种方式简单得多.