根据文档data.frame(...)
,...
论证的形式如下:
Run Code Online (Sandbox Code Playgroud)... these arguments are of either the form value or tag = value. Component names are created based on the tag (if present) or the deparsed argument itself.
考虑具有三列的数据框:a,b,c
DF <- data.frame(a=1:10, b=letters[1:10], c=rnorm(10))
Run Code Online (Sandbox Code Playgroud)
现在考虑创建新数据框的这三种可能性
newDF <- data.frame(x=DF$a)
colnames(newDF) # as expected...
# [1] "x"
newDF <- data.frame(x=DF["a"])
colnames(newDF) # Huh??
# [1] "a"
newDF <- data.frame(x=DF[["a"]])
colnames(newDF) # Why is this necessary??
# [1] "x"
Run Code Online (Sandbox Code Playgroud)
查看每个RHS的类:
class(DF$a)
# [1] "integer"
class(DF["a"])
# [1] "data.frame"
class(DF[["a"]])
# [1] "integer"
Run Code Online (Sandbox Code Playgroud)
看起来,如果RHS是data.frame,那么tag
被dimname覆盖value
.
另外,请考虑这个稍微复杂的例子,由这个问题提示:
library(xts)
data(sample_matrix)
xtsObject=as.xts(sample_matrix)
head(xtsObject,1)
# Open High Low Close
# 2007-01-02 50.03978 50.11778 49.95041 50.11778
newDF <- data.frame(x=xtsObject$Open) # would have expected this to work
colnames(newDF) # alas, no...
# [1] "Open"
class(xtsObject$Open)
# [1] "xts" "zoo"
Run Code Online (Sandbox Code Playgroud)
所以我的问题是:使用时的规则是什么data.frame(tag=value,...)
?也就是说,我什么时候可以期望结果有一个名为"tag"
?的列?
tl;dr:如果提供给的对象data.frame
未命名,则结果将具有标签的名称。
data.frame
让我们调用数据的 可选参数。data.frame
首先创建提供给它的数据列表。然后该函数循环遍历列表中的每个元素。如果列表的元素有名称,data.frame
则保留该名称。从技术上讲,它检查是否为提供给函数的数据列表的length(names(data[[i]])) > 0
每个元素。i
仅当该元素没有名称时,才data.frame
用作tag
名称。
DF
回到您的示例,考虑从提供给派生的参数名称data.frame
:
names(DF$a)
# NULL
names(DF['a'])
# [1] "a"
names(DF[['a']])
# NULL
Run Code Online (Sandbox Code Playgroud)
请注意,在第一种和第三种情况中,names(...)
是NULL
。这就是为什么data.frame(x = DF$a)
和data.frame(x = DF[['a']])
具有预期的名称:x
。
然而,对于更复杂的xts
对象,请注意子集操作的结果对象$
有一个名称:
names(xtsObject$Open)
#"Open"
names(xtsObject[, 'Open'])
#"Open"
Run Code Online (Sandbox Code Playgroud)
data.frame(x=xtsObject[, 'Open'])
因此,在任何一种情况下,使用或创建的数据框都data.frame(x=xtsObject$Open)
将具有名称Open
。
这是在 中设置名称的相关代码data.frame
。请注意,这x
是数据所在的list(...)
位置。...
for (i in seq_len(n)) {
xi <- if (is.character(x[[i]]) || is.list(x[[i]]))
as.data.frame(x[[i]], optional = TRUE, stringsAsFactors = stringsAsFactors)
else as.data.frame(x[[i]], optional = TRUE)
nrows[i] <- .row_names_info(xi)
ncols[i] <- length(xi)
namesi <- names(xi)
if (ncols[i] > 1L) {
if (length(namesi) == 0L)
namesi <- seq_len(ncols[i])
if (no.vn[i])
vnames[[i]] <- namesi
else vnames[[i]] <- paste(vnames[[i]], namesi, sep = ".")
}
else {
if (length(namesi))
vnames[[i]] <- namesi
else if (no.vn[[i]]) {
tmpname <- deparse(object[[i]])[1L]
if (substr(tmpname, 1L, 2L) == "I(") {
ntmpn <- nchar(tmpname, "c")
if (substr(tmpname, ntmpn, ntmpn) == ")")
tmpname <- substr(tmpname, 3L, ntmpn - 1L)
}
vnames[[i]] <- tmpname
}
}
if (mirn && nrows[i] > 0L) {
rowsi <- attr(xi, "row.names")
nc <- nchar(rowsi, allowNA = FALSE)
nc <- nc[!is.na(nc)]
if (length(nc) && any(nc))
row.names <- data.row.names(row.names, rowsi,
i)
}
nrows[i] <- abs(nrows[i])
vlist[[i]] <- xi
}
Run Code Online (Sandbox Code Playgroud)