小编daa*_*onr的帖子

分类变量的所有系数均具有“与平均值的差异”的模型；得到“对比编码”来做到这一点？

假设我们想做一个简单的“收入描述模型”。假设我们有三个组，北部、中部和南部（想想美国地区）。\n比较其他相似的组，假设北部的平均收入为 130，中部为 80，南部为 60。假设组规模相等，则平均值为90.

在（线性回归）模型中，应该有一种方法将系数报告为与总体平均值的差异（在多变量上下文中，\xe2\x80\x98所有其他都等于\xe2\x80\x99）并为每个系数获取一个：

$\\beta_{北} = 40$

$\\beta_{中心} = -10$

$\\beta_{南} = -30$

显然，要跳过拦截。

这对我来说似乎是最直观的。但我可以\xe2\x80\x99t在我的一生中弄清楚如何使用R\xe2\x80\x99s\xe2\x80\x98对比编码\xe2\x80\x99来得到这个。（而且，这似乎弄乱了变量名称）。

为我的模拟/mwe 设置参数

m_inc <- 90\nb_n <- 40\nb_c  <- -10\nb_s <- -30\n\nsd_prop <- 0.5 #sd as share of mean\npop_per <- 1000 \n

Run Code Online (Sandbox Code Playgroud)\n

模拟数据

\nset.seed(100)\n\nn_income <- rnorm(pop_per, m_inc + b_n, (m_inc + b_n)*sd_prop)\nc_income <- rnorm(pop_per, m_inc + b_c, (m_inc + b_s)*sd_prop)\ns_income <- rnorm(pop_per, m_inc + b_s, (m_inc + b_s)*sd_prop)\n\nnoise_var <- rnorm(pop_per*3, 0, (m_inc + b_s)*sd_prop)\n\ni_df <- …

Run Code Online (Sandbox Code Playgroud)

r linear-regression lm

daa*_*onr

2021 05-12

10
推荐指数

1
解决办法

767
查看次数

标签统计

linear-regression ×1

lm ×1

r ×1

分类变量的所有系数均具有“与平均值的差异”的模型；得到“对比编码”来做到这一点？

标签 统计

小编daa_onr的帖子

标签统计