Jaa*_*aap 5 r data.table splitstackshape
请考虑以下数据集:
dt <- structure(list(lllocatie = structure(c(1L, 6L, 2L, 4L, 3L), .Label = c("Assen", "Oosterwijtwerd", "Startenhuizen", "t-Zandt", "Tjuchem", "Winneweer"), class = "factor"),
lat = c(52.992, 53.32, 53.336, 53.363, 53.368),
lon = c(6.548, 6.74, 6.808, 6.765, 6.675),
mag.cat = c(3L, 2L, 1L, 2L, 2L),
places = structure(c(2L, 4L, 5L, 6L, 3L), .Label = c("", "Amen,Assen,Deurze,Ekehaar,Eleveld,Geelbroek,Taarlo,Ubbena", "Eppenhuizen,Garsthuizen,Huizinge,Kantens,Middelstum,Oldenzijl,Rottum,Startenhuizen,Toornwerd,Westeremden,Zandeweer", "Loppersum,Winneweer", "Oosterwijtwerd", "t-Zandt,Zeerijp"), class = "factor")),
.Names = c("lllocatie", "lat", "lon", "mag.cat", "places"),
class = c("data.table", "data.frame"),
row.names = c(NA, -5L))
Run Code Online (Sandbox Code Playgroud)
当我想将最后一列中的字符串拆分为单独的行时,我使用(data.table版本1.9.5+):
dt.new <- dt[, lapply(.SD, function(x) unlist(tstrsplit(x, ",", fixed=TRUE))), by=list(lllocatie,lat,lon,mag.cat)]
Run Code Online (Sandbox Code Playgroud)
但是,当我使用时:
dt.new2 <- dt[, lapply(.SD, function(x) unlist(tstrsplit(x, ",", fixed=TRUE))), by=lllocatie]
Run Code Online (Sandbox Code Playgroud)
我得到相同的结果,除了所有列都被强制转换为字符变量.问题是,对于小型数据集,指定不必在by参数中拆分的变量不是一个大问题,而是对于具有许多列/变量的数据集.我知道可以用这个splitstackshape包来做这个(正如@ColonelBeauvel在他的回答中提到的那样),但是我正在寻找一个data.table解决方案,因为我想把更多的操作链接到这个.
如果不手动指定不必在by参数中拆分的变量,如何防止这种情况?
两种解决方案data.table:
1:使用@Arun提出的type.convert=TRUE内部参数tstrsplit():
dt.new1 <- dt[, lapply(.SD, function(x) unlist(tstrsplit(x, ",", fixed=TRUE, type.convert=TRUE))), by=lllocatie]
Run Code Online (Sandbox Code Playgroud)
2:setdiff(names(dt),"places")在by@Frank提出的论证中使用:
dt.new2 <- dt[, lapply(.SD, function(x) unlist(tstrsplit(x, ",", fixed=TRUE))), by=setdiff(names(dt),"places")]
Run Code Online (Sandbox Code Playgroud)
两种方法都给出了相同的结果:
> identical(dt.new1,dt.new2)
[1] TRUE
Run Code Online (Sandbox Code Playgroud)
第二种解决方案的优点是,当您有多个具有字符串值的列时,只会setdiff(names(dt),"places")分割您指定的列(假设您只想要那个特定的列,在这种情况下places,要拆分).该splitstackshape套装还具有这一优势.
这完全是cSplit来自splitstackshape包装的工作:
library(splitstackshape)
cSplit(dt, 'places', ',')
Run Code Online (Sandbox Code Playgroud)