当有多个因子水平作为基线时,如何解释R线性回归?

Ida*_*Ida 6 statistics r linear-regression

我的数据有3个独立变量,所有变量都是分类的:

condition: cond1, cond2, cond3

population: A,B,C

task: 1,2,3,4,5
Run Code Online (Sandbox Code Playgroud)

因变量是任务完成时间.我lm(time~condition+user+task,data)在R中运行并得到以下结果:

在此输入图像描述

令我困惑的是,cond1,groupA和task1被排除在结果之外.从线性回归"NA"仅估计最后一个系数,我理解选择一个因子水平作为"基线"并显示在(拦截)行中.

但是,如果有多个因子水平用作基线,如上所述呢?

  • (拦截)行现在是否表示cond1 + groupA + task1?
  • 如果我想分别了解cond1,groupA和task1的系数和重要性怎么办?
  • 例如,与groupA相比,groupB的估计系数为+9.3349?或者与cond1 + groupA + task1相比?

Ruf*_*ufo 5

您人口中的一个人必须为每个变量“条件”,“人口”和“任务”取一个值,因此基准个人必须为每个变量取一个值。在这种情况下,cond1,A和t1。所有结果均基于具有这些自变量的理想(平均)个体,因此截距确实给出了cond1,groupA和task1的时间平均值。

cond1,groupA或task1的显着性或系数没有意义,因为显着性表示一组与参考组之间的平均值存在显着差异。您无法将参考组与其自身进行比较。

由于您的模型没有交互作用,因此groupB的系数意味着种群B中某人的平均时间将比种群A中某人的平均时间高9.33(秒?),而无论他们执行的条件和任务如何,并且p值非常小,可以看出,人口B中的人与参考人口(A)中的人实际上的平均时间是不同的。如果您在模型中添加了互动项,则这些项(例如usergroupB:taskt4)将表明如果一个人同时具有两个条件(在此示例中,如果一个人来自人群B并且具有执行任务4)。这些影响将添加到边际影响(usergroupBtaskt4)中。

希望我能帮上忙。

  • 我不知道为什么这会引起反对。所以,我给了它一个赞。 (2认同)