回归分析中如何区分分类变量和序数变量?

Erb*_*yev 0 encoding regression machine-learning linear-regression categorical-data

我正在对与房屋有关的数据进行线性回归分析。目前我有 23 个功能。其中一些显然是有序的(例如年份、房间数、楼层)。有些功能是分类的,我对在编码为数字格式时如何处理它们感到困惑。我对使用哪种编码方法犹豫不决:one-hot 编码(用于分类)或只是序数映射(用于序数数据)。我知道诸如颜色、性别、地区、国籍等分类特征显然必须使用虚拟编码进行编码。而且很明显,诸如可能值为“旧”、“翻新”、“新”的条件这样的分类特征可以分别排序和编码为1、2、3

但我不确定如何编码不太明显的特征。该特征的性质不会立即引人注目,并且在某种程度上可以同时归因于序数数据和分类数据。让我们看一下例子:

Strongly Agree 
Agree 
Undecided 
Disagree 
Strongly Disagree 
Run Code Online (Sandbox Code Playgroud)

它来自问题: https://stats.stackexchange.com/questions/58818/can-ordinal-variables-be-used-as-predictor-for-linear-multiple-regression-analys

作者决定按顺序对它们进行编码。有些人建议使用虚拟编码。不清楚。
另一个例子(材料):

Plastic
Wood    
Metal
Armored 
Run Code Online (Sandbox Code Playgroud)

从我的角度来看,这些数据可以按顺序排序和编码为 1,2,3,4。简单装甲比金属更贵。金属比木材等贵。但我在 youtube 上看到了一个讲座,据说不要仅仅因为看到一些升序或降序模式就对特征进行常规编码。这些模式可能是幻觉和错误的。

另一个例子(互联网连接类型):

DSL
ADSL
SDSL
Cable
Broadband
Run Code Online (Sandbox Code Playgroud)

其中一些比其他更快,一些比其他慢,但没有“明确的顺序”。如何处理此类“不清楚”的分类数据。

如何区分分类数据和序数数据?或者我只需要按序编码非常简单的序数变量,例如“条件”,并将其余不清楚的变量保留为分类和虚拟编码。

pio*_*rek 5

我想说的是,序数变量是您可以订购的东西,并且在您的值集之外的答案仍然有意义。一个很好的例子是“同意”/“不同意”。你可以将它们映射到值 1-5,甚至当你得到 2.3 时,你也知道这意味着什么:它不仅仅是“同意”。但它对于“塑料”/“木材”完全没有意义——这是绝对的。关于互联网连接类型。这取决于。如果我们谈论的是速度并且您可以对这些连接进行排序,那么将其视为序数可能是有意义的。但如果我们谈论的是调制解调器类型的流行度,那么它只是一个分类变量