我有一列包含以下格式的尺寸字符串:
41 1/4 x 29 3/8" (104.8 x 74.6 厘米)
7'1" x 31" (216 x 78.8 厘米)
6'6 3/4" x 6'6 3/4" (200 x 200 厘米)
如何将高度和宽度(以厘米为单位)提取到单独的列中?我想使用stringr和dplyr。
我们可以尝试
library(stringr)
do.call(rbind,
lapply(str_extract_all(df1$Col1,
"(?<=\\()[0-9.]+|[0-9.]+(?=\\scm)"), as.numeric))
# [,1] [,2]
#[1,] 104.8 74.6
#[2,] 216.0 78.8
#[3,] 200.0 200.0
Run Code Online (Sandbox Code Playgroud)
如果我们需要使用dplyr
library(dplyr)
library(purrr)
str_extract_all(df1$Col1, "(?<=\\()[0-9.]+|[0-9.]+(?=\\scm)") %>%
map(~as.numeric(.)) %>%
do.call(rbind,.)
# [,1] [,2]
#[1,] 104.8 74.6
#[2,] 216.0 78.8
#[3,] 200.0 200.0
Run Code Online (Sandbox Code Playgroud)
或者与extract来自tidyr
library(tidyr)
extract(df1, Col1, into=c("Col1", "Col2"),
"^[^(]+\\(([0-9.]+)\\D+([0-9.]+).*")
# Col1 Col2
#1 104.8 74.6
#2 216 78.8
#3 200 200
Run Code Online (Sandbox Code Playgroud)