Sco*_*vis 8 r cluster-analysis machine-learning missing-data
我想在R中缺少分类和数值的数据集上执行市场细分聚类.由于缺少值,我无法执行k均值聚类.
R版本3.1.0(2014-04-10)
平台:x86_64-apple-darwin13.1.0(64位)
Mac OSX 10.9.3 4GB硬盘
R中是否有可用于支持部分填充率的聚类算法包?在研究缺失值的学术文章时,研究人员为特殊用例创建了一种新算法,并且R中没有包.例如,k-means有软约束,k-means聚类有部分距离策略.
我有36个变量,但这里是前5个的描述:
head(df)
user_id Age Gender Household.Income Marital.Status
1 12945 Male
2 12947 Male
3 12990
4 13160 25-34 Male 100k-125k Single
5 13195 Male 75k-100k Single
6 13286
Run Code Online (Sandbox Code Playgroud)
如果我能提供更多信息,请告诉我.
我建议使用层次聚类 (HC) 和高尔度量。检查用空单元替换 NA 的可能性。
HC 可以处理分类值和数值。查看 R 中的 daisy 包。
daisy(x, metric ="gower",stand = FALSE, type = list(), weights = rep.int(1, p))
Run Code Online (Sandbox Code Playgroud)
有关更多信息,请访问:https://stat.ethz.ch/R-manual/R-devel/library/cluster/html/daisy.html