Lon*_*guy 2 machine-learning data-mining weka
如果我的数据集中的一列只有3个可能的值.ie 0,1和2,如果我将它们声明为标称v/s数值,那么WEKA对它们有何不同?
此外,如果我有一个列属性的大量名义值,是否有一种简单的方法来声明这个具有非常高的序数值的名义属性?
粗略地说(这取决于实际的算法):
当被视为数字时,1到2和1到3之间的差异大约是两倍.(鉴于没有其他属性).
当被视为字符串时,它们可能都是同样不同的,如'1'!='2'和'1'!='3'.(但是,结果可能例如取决于数字的频率;例如,分类数据的常见相异性度量涉及相对频率)