频繁项目集和关联规则 - Apriori算法

Myl*_*ray 6 algorithm data-mining apriori

我试图理解用于数据挖掘的Apriori(Basket)算法的基本原理,

我最好用一个例子来解释我所遇到的并发症:

这是一个事务数据集:

t1: Milk, Chicken, Beer
t2: Chicken, Cheese
t3: Cheese, Boots
t4: Cheese, Chicken, Beer
t5: Chicken, Beer, Clothes, Cheese, Milk
t6: Clothes, Beer, Milk
t7: Beer, Milk, Clothes
Run Code Online (Sandbox Code Playgroud)

用于上述最小支持度为0.5或50%.

从上面可以看出,我的交易数量显然是7,意味着项目集"频繁",它必须有4/7的计数.因此,这是我的常用项目集1:

F1:

Milk = 4
Chicken = 4
Beer = 5
Cheese = 4
Run Code Online (Sandbox Code Playgroud)

然后我创建了我的第二个改进的候选者(C2)并将其缩小到:

F2:

{Milk, Beer} = 4
Run Code Online (Sandbox Code Playgroud)

这是我感到困惑,如果有人问我,以显示所有的频繁项集我记下所有的F1F2或只F2F1对我来说不是"套装".

然后我被要求为我刚刚定义的频繁项目集创建关联规则并计算他们的"置信度"数字,我得到:

Milk -> Beer = 100% confidence
Beer -> Milk = 80% confidence
Run Code Online (Sandbox Code Playgroud)

F1项目集放在这里似乎是多余的,因为它们都会有100%的置信度而且实际上并没有"关联"任何东西,这就是我现在质疑是否F1确实"频繁"的原因?

mam*_*dan 2

如果支持合适,大小为 1 的项集被认为是频繁项集。这里你必须考虑最低门槛。例如,如果示例中的最小阈值是2,则F1不会被考虑。但如果最小阈值1,那么你就必须这么做。

您可以查看此处此处以获取更多想法和示例。

希望我有所帮助。