小编daa*_*onr的帖子

分类变量的所有系数均具有“与平均值的差异”的模型;得到“对比编码”来做到这一点?

假设我们想做一个简单的“收入描述模型”。假设我们有三个组,北部、中部和南部(想想美国地区)。\n比较其他相似的组,假设北部的平均收入为 130,中部为 80,南部为 60。假设组规模相等,则平均值为90.

\n

在(线性回归)模型中,应该有一种方法将系数报告为与总体平均值的差异(在多变量上下文中,\xe2\x80\x98所有其他都等于\xe2\x80\x99)并为每个系数获取一个:

\n

$\\beta_{北} = 40$

\n

$\\beta_{中心} = -10$

\n

$\\beta_{南} = -30$

\n

显然,要跳过拦截。

\n

这对我来说似乎是最直观的。但我可以\xe2\x80\x99t在我的一生中弄清楚如何使用R\xe2\x80\x99s\xe2\x80\x98对比编码\xe2\x80\x99来得到这个。(而且,这似乎弄乱了变量名称)。

\n

为我的模拟/mwe 设置参数

\n
m_inc <- 90\nb_n <- 40\nb_c  <- -10\nb_s <- -30\n\nsd_prop <- 0.5 #sd as share of mean\npop_per <- 1000 \n
Run Code Online (Sandbox Code Playgroud)\n

模拟数据

\n
\nset.seed(100)\n\nn_income <- rnorm(pop_per, m_inc + b_n, (m_inc + b_n)*sd_prop)\nc_income <- rnorm(pop_per, m_inc + b_c, (m_inc + b_s)*sd_prop)\ns_income <- rnorm(pop_per, m_inc + b_s, (m_inc + b_s)*sd_prop)\n\nnoise_var <- rnorm(pop_per*3, 0, (m_inc + b_s)*sd_prop)\n\ni_df <- …
Run Code Online (Sandbox Code Playgroud)

r linear-regression lm

10
推荐指数
1
解决办法
767
查看次数

标签 统计

linear-regression ×1

lm ×1

r ×1