每隔n个字符拆分字符串新列

Mik*_*key 6 substring r gsub stringr

假设我有一个像这样的数据框,带有字符串向量var2

var1  var2
1     abcdefghi 
2     abcdefghijklmnop
3     abc 
4     abcdefghijklmnopqrst
Run Code Online (Sandbox Code Playgroud)

将每n个字符的var2拆分为新列的最有效方法是什么,直到每个字符串结束为止,

例如,如果每4个字符,输出将如下所示:

var1  var2                  new_var1  new_var2 new_var3  new_var4  new_var5
1     abcdefghi             abcd      efgh     i 
2     abcdefghijklmnop      abcd      efgh     ijkl      mnop 
3     abc                   abc
4     abcdefghijklmnopqrst  abcd      efgh     ijkl      mnop      qrst 
Run Code Online (Sandbox Code Playgroud)

stringr包?使用"str_split_fixed"

或使用正则表达式:

gsub("(.{4})", "\\1 ", "abcdefghi")
Run Code Online (Sandbox Code Playgroud)

根据var2的长度创建转到new_var_n的新列的容量,例如可以是10000个字符.

mt1*_*022 4

或者,您可以尝试read.fwf在基础 R 中。不需要特殊的包:

tmp <- read.fwf(
    textConnection(dtf$var2),
    widths = rep(4, ceiling(max(nchar(dtf$var2) / 4))),
    stringsAsFactors = FALSE)

cbind(dtf, tmp)

#   var1                 var2   V1   V2   V3   V4   V5
# 1    1            abcdefghi abcd efgh    i <NA> <NA>
# 2    2     abcdefghijklmnop abcd efgh ijkl mnop <NA>
# 3    3                  abc  abc <NA> <NA> <NA> <NA>
# 4    4 abcdefghijklmnopqrst abcd efgh ijkl mnop qrst
Run Code Online (Sandbox Code Playgroud)