闭序和开序列模式挖掘算法的区别

Question

我想使用一些算法来挖掘我的日志数据.

我尝试了几种算法,BIDE +算法表现最佳.

BIDE +算法用于从序列数据库中挖掘频繁闭合的序列模式.

有人可以解释关于"封闭"序列模式和开放模式的定义吗？

Answer 1

很高兴你使用我的SPMF软件.

顺序模式的支持是包含顺序模式的序列的数量.

甲频繁序列模式是出现在一个序列数据库,其中至少为"最小支持度"序列的图案最小支持度是由用户设置的参数.

甲频繁闭合序列模式是一个频繁序列图案,使得它不包括在具有完全相同的支撑另一序列模式.

像PrefixSpan这样的算法可以找到频繁的序列模式.诸如BIDE +的算法找到频繁的闭合序列模式.BIDE +通常比PrefixSpan快得多,因为它使用修剪技术来避免生成所有顺序模式.此外,闭合模式集通常比顺序模式集小得多,因此BIDE +也更具存储器效率.

另一个需要知道的重要事项是,闭合序列模式是所有序列模式的紧凑和无损表示.这意味着闭合序列模式的集合通常要小得多,但它是无损的,这意味着它允许恢复整个连续模式集(没有信息丢失),这非常方便.

我可以举个简单的例子.

让我们考虑4个序列:

a  b  c  d  e
a  b  d
b  e  a  
b  c  d  e

让我们说minsup = 2.

b c是一种频繁的序列模式,因为它出现在两个序列中(它有2个支持).b c不是闭合的顺序模式,因为它包含在b c d具有相同支持的较大顺序模式中.

b c d它也不是闭合的顺序模式,因为它包含在b c d e具有相同支持的较大顺序模式中. b c d e是一个封闭的顺序模式,因为它不包含在具有相同支持的任何其他顺序模式中.

顺便说一下,您还可以查看我关于顺序模式挖掘的调查.它给出了关于这个主题和不同算法的很好的介绍.