回归分析中如何区分分类变量和序数变量？

Question

回归分析中如何区分分类变量和序数变量？

Erb*_*yev 0 encoding regression machine-learning linear-regression categorical-data

我正在对与房屋有关的数据进行线性回归分析。目前我有 23 个功能。其中一些显然是有序的（例如年份、房间数、楼层）。有些功能是分类的，我对在编码为数字格式时如何处理它们感到困惑。我对使用哪种编码方法犹豫不决：one-hot 编码（用于分类）或只是序数映射（用于序数数据）。我知道诸如颜色、性别、地区、国籍等分类特征显然必须使用虚拟编码进行编码。而且很明显，诸如可能值为“旧”、“翻新”、“新”的条件这样的分类特征可以分别排序和编码为1、2、3。

但我不确定如何编码不太明显的特征。该特征的性质不会立即引人注目，并且在某种程度上可以同时归因于序数数据和分类数据。让我们看一下例子：

Strongly Agree 
Agree 
Undecided 
Disagree 
Strongly Disagree

Run Code Online (Sandbox Code Playgroud)

它来自问题： https://stats.stackexchange.com/questions/58818/can-ordinal-variables-be-used-as-predictor-for-linear-multiple-regression-analys

作者决定按顺序对它们进行编码。有些人建议使用虚拟编码。不清楚。
另一个例子（材料）：

Plastic
Wood    
Metal
Armored

Run Code Online (Sandbox Code Playgroud)

从我的角度来看，这些数据可以按顺序排序和编码为 1,2,3,4。简单装甲比金属更贵。金属比木材等贵。但我在 youtube 上看到了一个讲座，据说不要仅仅因为看到一些升序或降序模式就对特征进行常规编码。这些模式可能是幻觉和错误的。

另一个例子（互联网连接类型）：

DSL
ADSL
SDSL
Cable
Broadband

Run Code Online (Sandbox Code Playgroud)

其中一些比其他更快，一些比其他慢，但没有“明确的顺序”。如何处理此类“不清楚”的分类数据。

如何区分分类数据和序数数据？或者我只需要按序编码非常简单的序数变量，例如“条件”，并将其余不清楚的变量保留为分类和虚拟编码。

Answer 1

pio*_*rek 5

我想说的是，序数变量是您可以订购的东西，并且在您的值集之外的答案仍然有意义。一个很好的例子是“同意”/“不同意”。你可以将它们映射到值 1-5，甚至当你得到 2.3 时，你也知道这意味着什么：它不仅仅是“同意”。但它对于“塑料”/“木材”完全没有意义——这是绝对的。关于互联网连接类型。这取决于。如果我们谈论的是速度并且您可以对这些连接进行排序，那么将其视为序数可能是有意义的。但如果我们谈论的是调制解调器类型的流行度，那么它只是一个分类变量

归档时间：	10 年前
查看次数：	1585 次
最近记录：	3 年，5 月前