我可以使用mcl玩什么参数?

big*_*ree 1 cluster-analysis machine-learning data-mining mcl

我正在使用mcl对无向图进行聚类。为此,我选择了一个连接节点的阈值,每个边缘的相似性度量以及膨胀参数以调整图的粒度。我一直在使用这些参数,但是到目前为止,群集似乎太大了(我进行了可视化处理,建议将最大的群集切成2个或更多的群集)。因此,我想知道还有什么其他参数可以用来改善聚类(我目前正在使用mcl的scheme参数来查看提高准确性是否会有所帮助,但是如果还有其他“更具体的”参数可以帮助获得较小的群集,例如,请让我知道)?

mic*_*ans 5

实际上主要有两件事要考虑。第一个也是最重要的是外部mcl(http://micans.org/mcl/)本身,即网络的构建方式。我已经在其他地方写过,但是在这里我会重复,因为它很重要。

如果您具有加权相似性,请选择边沿权重(相似性)截止点,以使网络拓扑变得有用。即,在边缘的不存在/存在结构中,太多的边缘或太少的边缘产生的判别信息很少。选择它时,不要让边缘连接您认为非常相似的事物,并且不要使边缘连接您认为有些相似或非常相似的事物。对于mcl,根据经​​验,边缘权重的动态范围在“有点相似”和“非常相似”之间应为一个数量级,即两倍或五倍或十倍,而不是从0.9到1.0。当然,可以为mcl提供简单的网络,并且它将仅利用边缘的不存在/存在。确保网络不会变得非常密集- 非常粗糙经验法则可能是针对总的边数,其顺序V * sqrt(V)为节点(顶点)的数量为V,即每个节点平均而言具有sqrt(V)邻居的顺序。

上面的网络建设确实至关重要,建议尝试其他方法。现在,给定一个网络,实际上只有一个mcl参数可以改变:通货膨胀参数(该-I选项)。可以测试的一组好的值是1.4, 2, 3, 4, 6

总之,如果您正在探索,请尝试使用不同的网络构建方式,利用对数据的了解使网络成为有意义的表示形式,并将其与尝试使用不同的mcl通货膨胀值相结合。