mah*_* cs 4 cluster-analysis data-mining precision-recall
任何人都可以帮我集体计算F测量吗?我知道如何计算回忆和精度,但不知道给定算法如何计算一个F测量值.
作为一个例子,假设我的算法创建了m个集群,但我知道有相同数据的n个集群(由另一个基准算法创建).
我发现了一个pdf,但它没有用,因为我得到的集体值大于1. pdf的参考是F测量解释.具体来说,我已经阅读了一些研究论文,其中作者在F-measure的基础上比较了两种算法,如果你仔细阅读上面提到的pdf,它们的集合值在0和1之间,公式为F(C,K) =Σ| ci |/N*max {F(ci,kj)}
其中ci是参考簇&kj是由其他算法创建的簇,这里我从1运行到n&j从1运行到m.Let say | c1 | = 218这里按pdf N = m*n假设m = 12且n = 10,并且我们得到j = 2的最大F(c1,kj).绝对地,F(c1,k2)在0和1之间,但是通过上面的公式计算的结果值将得到高于1的值.
Darius Pfitzner、Richard Leibbrandt 和 David Powers的论文对聚类对的相似性度量的表征和评估包含许多关于该主题的有用信息,包括以下示例:
鉴于集合,
D = {1, 2, 3, 4, 5, 6}
和分区,
P = {1, 2, 3}, {4, 5}, {6}, 和
Q = {1, 2, 4}, {3, 5, 6}
其中 P 是由我们的算法创建的集合,Q 是由我们已知的标准算法创建的集合
PairsP = {(1, 2), (1, 3), (2, 3), (4, 5)},
PairsQ = {(1, 2), (1, 4), (2, 4), (3, 5), (3, 6), (5, 6)},和
PairsD = {(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 3), (2, 4),
(2, 5), (2, 6), (3, 4), (3, 5), (3, 6), (4, 5), (4, 6), (5, 6)}
所以,
一个 = | PairsP 交集 PairsQ | = |(1, 2)| = 1
b = | PairsP- PairsQ | = |(1, 3)(2, 3)(4, 5)| = 3
c = | PairsQ- PairsP | = |(1, 4)(2, 4)(3, 5)(3, 6)(5, 6)| = 5
F-measure= 2a/(2a+b+c)
注意:第 364 页的出版物中存在错误,其中计算了 a、b、c 和 d,而 b 和 c 的结果实际上切换不正确。这种转换会破坏一些其他措施的结果。显然,F-measure 不受影响。
f-measure本身这个术语是不明确的.它是调和平均值,通常是精确度和召回率.实际上你甚至应该说F1分数,如果你的意思是未加权的版本,因为你可以对两个输入值赋予不同的权重.但是,没有说明哪两个值是平均值(不是算术平均值!),这并没有多说.
https://en.wikipedia.org/wiki/F1_score
请注意,值必须在0-1值范围内.否则,您之前有错误.
在聚类分析中,常用的方法是将F1-测量施加到精度和召回对,通常被称为"一对计数F值".但你也可以在其他值上计算相同的均值.
配对计数具有很好的特性,它不直接比较集群,因此当一个结果具有m个集群,另一个具有n个集群时,结果可以很好地定义.但是,对计数需要严格的分区.当元素未聚类或分配给多个聚类时,对计数度量可以很容易地超出0-1的范围.
讨论了一些这些指标(包括兰德指数等),并给出了"对计数F指标"的简单解释.