leo*_*eon 25 data-mining pattern-matching apriori sequential
我想使用一些算法来挖掘我的日志数据.
我找到了一个模式挖掘框架:http://www.philippe-fournier-viger.com/spmf/index.php?link = _algorithms.php
我尝试了几种算法,BIDE +算法表现最佳.
BIDE +算法用于从序列数据库中挖掘频繁闭合的序列模式.
有人可以解释关于"封闭"序列模式和开放模式的定义吗?
Phi*_*hil 47
很高兴你使用我的SPMF软件.
顺序模式的支持是包含顺序模式的序列的数量.
甲频繁序列模式是出现在一个序列数据库,其中至少为"最小支持度"序列的图案最小支持度是由用户设置的参数.
甲频繁闭合序列模式是一个频繁序列图案,使得它不包括在具有完全相同的支撑另一序列模式.
像PrefixSpan这样的算法可以找到频繁的序列模式.诸如BIDE +的算法找到频繁的闭合序列模式.BIDE +通常比PrefixSpan快得多,因为它使用修剪技术来避免生成所有顺序模式.此外,闭合模式集通常比顺序模式集小得多,因此BIDE +也更具存储器效率.
另一个需要知道的重要事项是,闭合序列模式是所有序列模式的紧凑和无损表示.这意味着闭合序列模式的集合通常要小得多,但它是无损的,这意味着它允许恢复整个连续模式集(没有信息丢失),这非常方便.
我可以举个简单的例子.
让我们考虑4个序列:
a b c d e
a b d
b e a
b c d e
Run Code Online (Sandbox Code Playgroud)
让我们说minsup = 2.
b c
是一种频繁的序列模式,因为它出现在两个序列中(它有2个支持).b c
不是闭合的顺序模式,因为它包含在b c d
具有相同支持的较大顺序模式中.
b c d
它也不是闭合的顺序模式,因为它包含在b c d e
具有相同支持的较大顺序模式中. b c d e
是一个封闭的顺序模式,因为它不包含在具有相同支持的任何其他顺序模式中.
顺便说一下,您还可以查看我关于顺序模式挖掘的调查.它给出了关于这个主题和不同算法的很好的介绍.
归档时间: |
|
查看次数: |
9127 次 |
最近记录: |