我正在使用 Apriori 算法来识别客户的频繁项目集。基于识别的频繁项目集,我想在客户将新项目添加到他的购物清单时向客户提示建议项目。假设我识别的频繁项目集是 [2 ,3,5]。我的问题是;
如果用户已经添加了第 2 项和第 5 项,我想检查规则的置信度以建议第 3 项。
置信度 = 支持 (2,3,5)/ 支持 (3) ?
置信度 = 支持(2,3,5)/支持(2,5)?
哪个方程是正确的?请帮忙!!
我正在尝试使用pyfpgrowth库和 pandas找到频繁模式,首先我创建了一个带有一列的数据框,每一行都是一个事务,这里是代码:
import pyfpgrowth
import pandas as pd
import numpy as np
data = pd.read_csv("itemsets1.csv")
data = pd.DataFrame(data)
data.columns = ['itemsets']
data
Run Code Online (Sandbox Code Playgroud)
输出:

patterns = pyfpgrowth.find_frequent_patterns(data['itemsets'],6)
patterns
Run Code Online (Sandbox Code Playgroud)
输出:
{(' ',): 6, (' ', '1'): 8, ('1',): 9, ('1', '8'): 6, ('8',): 6}
Run Code Online (Sandbox Code Playgroud)
实际上我在这里有两个问题,第一个是算法将空间作为错误的项目,第二个是项目的频率,例如项目一个“1”只出现一次,但在输出中它显示 9 也是错误的,请需要一些帮助
我在 df 列中有一堆日期,格式如下:dd.mm.yyyy
我希望它看起来像这样:01/2020 (mm.yyyy)
如何从所有日期中删除这一天?
问题:在Uni找到数学讲座的答案和练习.赫尔辛基
实际问题
Disallowrobots.txt中的.com制作网站列表对实际问题的建议
问题
对数据集进行归一化,使每个数据点的范数等于1。
x1 (1.5,1.7) [x1 (i,j)]
x2 (2,1.9)
x3 (1.6,1.8)
x4(1.2,1.5)
x5(1.5,1.0)
给定一个新数据点 x = (1.4; 1.6) 作为查询,
归一化后的解
x(0.6585,0.7526)
x1(0.6616,0.7498)
x2(0.7250,0.6887)
x3(0.6644,0.7474)
x4(0.6247,0.7809)
x5(0.8321,0.5547)
但我很困惑如何获得解决方案,我尝试了不同的公式,但没有一个起作用。
所以我试图编码k最近邻算法.我的函数的输入是一组数据和一个要分类的样本.我只是想了解算法的工作原理.你能告诉我这个我想做的"伪代码"是否正确吗?
kNN (dataset, sample){
1. Go through each item in my dataset, and calculate the "distance" from that data item to my specific sample.
2. Out of those samples I pick the "k" ones that are most close to my sample, maybe in a premade array of "k" items?
}
Run Code Online (Sandbox Code Playgroud)
我感到困惑的部分是当我说"浏览我的数据集中的每个项目"时.我是否应该浏览数据集中的每个CLASS并找到k-最近邻居?然后从那里找到哪一个最接近我的样本,然后告诉我班级?
第2部分问题(ish),正在使用此算法,但没有样本.我如何计算数据集的"准确度"?
我真的在寻找广泛的单词答案,而不是具体细节,但任何有助于我理解的东西都表示赞赏.我在R中实现这一点
谢谢
最近我开始了电子商务项目,我需要使用数据挖掘.我的问题只是我可以在开发中使用哪种解决方案:
实际上,MySQL是一个很好的解决方案,适合我的项目有很多原因,但它对Datamining来说是好的和最佳的吗?我是Datamining的初学者,我将把它作为我项目的一部分.它有一个很好的支持工具吗?
data-mining ×7
python ×2
r ×2
algorithm ×1
apriori ×1
asp.net-mvc ×1
associations ×1
mysql ×1
php ×1
rules ×1
sql-server ×1
web-crawler ×1