dan*_*kas 11 r cluster-analysis
我很惊讶地发现,clara从library(cluster)允许来港定居.但是函数文档没有说明它如何处理这些值.
所以我的问题是:
clara处理NAs?kmeans(不允许使用Nas)吗?[更新]所以我确实在clara函数中找到了代码行:
inax <- is.na(x)
valmisdat <- 1.1 * max(abs(range(x, na.rm = TRUE)))
x[inax] <- valmisdat
Run Code Online (Sandbox Code Playgroud)
哪个缺少价值替代valmisdat.不确定我理解使用这种配方的原因.有任何想法吗?是否更自然地分别对每个列处理NAs,可能用均值/中位数替换?
虽然没有明确说明,但我认为这NA是以?daisy帮助页面中描述的方式处理的.详细信息部分包含:
在菊花算法中,x行中的缺失值不包括在涉及该行的不相似性中.
在内部给出相同的代码将被使用,clara()这是我如何理解NA数据中的s可以处理 - 他们只是不参与计算.这是在这种情况下进行的合理标准方式,并且例如用于Gower的广义相似系数的定义中.
更新的C来源clara.c清楚地表明,此(以上)是如何NAS被处理clara()(线350-356中./src/clara.c):
if (has_NA && jtmd[j] < 0) { /* x[,j] has some Missing (NA) */
/* in the following line (Fortran!), x[-2] ==> seg.fault
{BDR to R-core, Sat, 3 Aug 2002} */
if (x[lj] == valmd[j] || x[kj] == valmd[j]) {
continue /* next j */;
}
}
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
11949 次 |
| 最近记录: |