Mic*_*ael 2 machine-learning data-mining
在频繁生成关联规则挖掘的项目集时,最大和闭合模式项目集之间的根本区别是什么。有人可以指导我有关他们的资源吗?
在频繁项集挖掘中:
- 最大项集是没有频繁超集的项集。
- 闭项集是没有具有相同支持度的超集的项集。
最大项集是闭项集集合的子集,闭项集是所有频繁项集的子集。
您可以获得封闭项集挖掘算法和最大项集挖掘算法(FPMax、FPClosed、DCI_Closed、CHarm 等)的实现,以及作为SPMF 数据挖掘库的一部分的示例。(我是作者)
在频繁项集挖掘中:
如果X 是频繁模式并且不存在频繁超级模式 Y(其中 Y 是 X 的超集),则称 X 是最大模式。最大模式是有损压缩形式,因为底层支持信息会丢失。
另一方面,如果 X 是频繁的并且不存在与 X 具有相同支持的超级模式 Y(其中 Y 是 X 的超集),则称 X 是闭合模式。闭合模式是无损压缩形式,因为支持信息存储在模式内。
从这个原始来源:
封闭模式是常见模式。因此,它符合最低支持标准。除此之外,封闭模式的所有超级模式都不如封闭模式那么频繁。
让我们看一些例子。
假设最小支持计数为2。对于第一个示例,假设总共有3个项目:a,b,c。假设模式ab的支持计数为2,模式abc的支持计数为2。模式ab是封闭模式吗?模式ab是一种常见模式,但是它的超级模式并不比ab少。
对于第二个示例
假设总共有3个项目:x,y,z。假设模式xy的支持计数为3,模式xyz的支持计数为2。模式xy是封闭模式吗?模式xy是常见模式,并且唯一的超级模式xyz的频率低于xy。
因此,xy是闭合模式。
最大模式是
频繁的模式。因此,它还满足最小支持条件,例如封闭模式。此外,与封闭模式不同,max模式的所有超级模式都不是频繁模式。
让我们也看一些例子。
假设最小支持计数为2。像之前一样,对于第一个示例,假设总共有3个项目:a,b,c。假设模式ab的支持计数为3,模式abc的支持计数为2。模式ab是最大模式吗?模式ab是一个频繁模式,但它也具有一个超级模式,这也是一个频繁模式。因此,模式ab不是最大模式。
对于第二个示例
假设总共有3个项目:x,y,z。假设模式xy的支持计数为3,模式xyz的支持计数为1。模式xy是最大模式吗?模式xy是频繁模式,并且唯一的超级模式xyz不是频繁模式。因此,xy是最大模式。
我认为你的问题涉及最大频繁项集和封闭频繁项集。
它们之间的主要区别是
@maximal频繁项集不提供其子集的支持计数。
@close频繁项集保留其项集的支持计数。
您可以参考以下链接以更好地了解关联挖掘以及最大和封闭频繁项集。
http://www-users.cs.umn.edu/~kumar/dmbook/ch6.pdf