Myl*_*ray 6 algorithm data-mining apriori
我试图理解用于数据挖掘的Apriori(Basket)算法的基本原理,
我最好用一个例子来解释我所遇到的并发症:
这是一个事务数据集:
t1: Milk, Chicken, Beer
t2: Chicken, Cheese
t3: Cheese, Boots
t4: Cheese, Chicken, Beer
t5: Chicken, Beer, Clothes, Cheese, Milk
t6: Clothes, Beer, Milk
t7: Beer, Milk, Clothes
Run Code Online (Sandbox Code Playgroud)
在用于上述最小支持度为0.5或50%.
从上面可以看出,我的交易数量显然是7,意味着项目集"频繁",它必须有4/7的计数.因此,这是我的常用项目集1:
F1:
Milk = 4
Chicken = 4
Beer = 5
Cheese = 4
Run Code Online (Sandbox Code Playgroud)
然后我创建了我的第二个改进的候选者(C2)并将其缩小到:
F2:
{Milk, Beer} = 4
Run Code Online (Sandbox Code Playgroud)
这是我感到困惑,如果有人问我,以显示所有的频繁项集我记下所有的F1
和F2
或只F2
?F1
对我来说不是"套装".
然后我被要求为我刚刚定义的频繁项目集创建关联规则并计算他们的"置信度"数字,我得到:
Milk -> Beer = 100% confidence
Beer -> Milk = 80% confidence
Run Code Online (Sandbox Code Playgroud)
将F1
项目集放在这里似乎是多余的,因为它们都会有100%的置信度而且实际上并没有"关联"任何东西,这就是我现在质疑是否F1
确实"频繁"的原因?
归档时间: |
|
查看次数: |
4128 次 |
最近记录: |