R中的聚类算法用于缺失分类和数值

Sco*_*vis 8 r cluster-analysis machine-learning missing-data

我想在R中缺少分类和数值的数据集上执行市场细分聚类.由于缺少值,我无法执行k均值聚类.

R版本3.1.0(2014-04-10)

平台:x86_64-apple-darwin13.1.0(64位)

Mac OSX 10.9.3 4GB硬盘

R中是否有可用于支持部分填充率的聚类算法包?在研究缺失值的学术文章时,研究人员为特殊用例创建了一种新算法,并且R中没有包.例如,k-means有软约束,k-means聚类有部分距离策略.

我有36个变量,但这里是前5个的描述:

head(df)

  user_id    Age   Gender Household.Income Marital.Status
1   12945           Male                                
2   12947           Male                                
3   12990                                                  
4   13160   25-34   Male   100k-125k         Single
5   13195           Male    75k-100k         Single
6   13286                                               
Run Code Online (Sandbox Code Playgroud)

如果我能提供更多信息,请告诉我.

Edu*_*aro 0

我建议使用层次聚类 (HC) 和高尔度量。检查用空单元替换 NA 的可能性。

HC 可以处理分类值和数值。查看 R 中的 daisy 包。

daisy(x, metric ="gower",stand = FALSE, type = list(), weights = rep.int(1, p))
Run Code Online (Sandbox Code Playgroud)

有关更多信息,请访问:https://stat.ethz.ch/R-manual/R-devel/library/cluster/html/daisy.html