Doo*_*gan 3 r cluster-analysis linear-regression plm
使用不同的来源,我编写了一个小函数,该函数创建一个包含标准误差、t 统计量和标准误差的表,这些表根据线性回归模型后的组变量“集群”进行聚类。代码如下
cl1 <- function(modl,clust) {
# model is the regression model
# clust is the clustervariable
# id is a unique identifier in ids
library(plm)
library(lmtest)
# Get Formula
form <- formula(modl$call)
# Get Data frame
dat <- eval(modl$call$data)
dat$row <- rownames(dat)
dat$id <- ave(dat$row, dat[[deparse(substitute(clust))]], FUN =seq_along)
pdat <- pdata.frame(dat,
index=c("id", deparse(substitute(clust)))
, drop.index= F, row.names= T)
# # Regression
reg <- plm(form, data=pdat, model="pooling")
# # Adjustments
G <- length(unique(dat[, deparse(substitute(clust))]))
N <- length(dat[,deparse(substitute(clust))])
# # Resid degrees of freedom, adjusted
dfa <- (G/(G-1))*(N-1)/reg$df.residual
d.vcov <- dfa* vcovHC(reg, type="HC0", cluster="group", adjust=T)
table <- coeftest(reg, vcov=d.vcov)
# # Output: se, t-stat and p-val
cl1out <- data.frame(table[, 2:4])
names(cl1out) <- c("se", "tstat", "pval")
# # Cluster VCE
return(cl1out)
Run Code Online (Sandbox Code Playgroud)
}
对于像 那样的回归 reg1 <- lm (y ~ x1 + x2 , data= df),调用该函数cl1(reg1, cluster)就可以了。
但是,如果我使用类似 的模型reg2 <- lm(y ~ . , data=df),则会收到错误消息:
Error in terms.formula(object) : '.' in formula and no 'data' argument
Run Code Online (Sandbox Code Playgroud)
经过一些测试,我猜我不能使用“。” 为 {plm} 发出“使用数据框中的所有变量”的信号。有没有办法用 {plm} 做到这一点?否则,关于如何以不使用 {plm} 并且接受线性模型的所有可能规范的方式改进我的函数的任何想法?
实际上,您不能.在plmpacakge 中使用公式表示法。
data("Produc", package = "plm")
plm(gsp ~ .,data=Produc)
Error in terms.formula(object) : '.' in formula and no 'data' argument
Run Code Online (Sandbox Code Playgroud)
一个想法是当您有一个.. 这是一个完成这项工作的自定义函数(肯定是在其他包中完成的):
expand_formula <-
function(form="A ~.",varNames=c("A","B","C")){
has_dot <- any(grepl('.',form,fixed=TRUE))
if(has_dot){
ii <- intersect(as.character(as.formula(form)),
varNames)
varNames <- varNames[!grepl(paste0(ii,collapse='|'),varNames)]
exp <- paste0(varNames,collapse='+')
as.formula(gsub('.',exp,form,fixed=TRUE))
}
else as.formula(form)
}
Run Code Online (Sandbox Code Playgroud)
现在测试一下:
(eform = expand_formula("gsp ~ .",names(Produc)))
# gsp ~ state + year + pcap + hwy + water + util + pc + emp + unemp
plm(eform,data=Produc)
# Model Formula: gsp ~ state + year + pcap + hwy + water + util + pc + emp + unemp
# <environment: 0x0000000014c3f3c0>
Run Code Online (Sandbox Code Playgroud)