我现在正在阅读" 数据挖掘:实用机器学习工具和技术"第三版.在4.8聚类中,它讨论了如何使用k-d trees或ball trees改进性能k-means algorithm.
在用所有数据点构建球树之后,它搜索所有叶子节点以查看哪个预先选择的聚类中心各自的点都接近.它表示,较高内部节点所代表的区域有时完全属于单个集群中心的范围.然后我们不需要遍历其子节点,并且可以一次处理所有日期点.
问题是,在实现数据结构和算法时,我们如何确定引用内部节点的区域是否属于单个集群中心?
在二维或三维空间中,这并不困难.我们可以看到聚类中心中每对的所有中间垂线是否都涉及到指向内部节点的区域.
但在高维空间中,如何识别?有一般的方法吗?