我想使用 NbClust 包确定聚类的最佳 k。我的数据既有连续变量又有分类变量,因此我使用使用 cluster 包中的 daisy() 计算得出的相异矩阵。我使用了下面的代码:
res.nb <- NbClust(gower_dist_gender, min.nc = 1,
max.nc = 5,method = "complete", index ="all")
Run Code Online (Sandbox Code Playgroud)
并遇到这个错误:
The TSS matrix is indefinite. There must be too many missing values. The
index cannot be calculated.
Run Code Online (Sandbox Code Playgroud)
问题是什么?我应该如何解决?另外考虑到当我将索引设置为“silhouette”时,没有出现问题并返回最佳k为2。但我想使用index =“all”来确保根据大多数索引得到最佳k的结果(当索引设置为“全部”时,26个索引被视为索引,结果显示索引对k个数的多数投票)。 所以问题是为什么运行上面将索引设置为“all”的代码会遇到前面提到的错误?
任何一点帮助将不胜感激。
我有一个数据框,想要在一个特定列上创建一个饼图,表示此列中每个级别的百分比.
data <- data.frame(a=c("a1","a1","a2","a3","a1","a2","a3","a4","a2","a1","a5","a4","a3"),
b=1:13)
Run Code Online (Sandbox Code Playgroud)
换句话说,我想要一个饼图,表明a1,a2,......的出现百分比.
另外,我需要在图表上显示百分比.我怎样才能用ggplot2包完成这一切?
任何小小的帮助将不胜感激!