标签: data-mining

如何在Apriori算法中找到关联规则的置信度

我正在使用 Apriori 算法来识别客户的频繁项目集。基于识别的频繁项目集,我想在客户将新项目添加到他的购物清单时向客户提示建议项目。假设我识别的频繁项目集是 [2 ,3,5]。我的问题是;

如果用户已经添加了第 2 项和第 5 项,我想检查规则的置信度以建议第 3 项。


置信度 = 支持 (2,3,5)/ 支持 (3) ?

或者

置信度 = 支持(2,3,5)/支持(2,5)?


哪个方程是正确的?请帮忙!!

rules associations data-mining apriori

0
推荐指数
1
解决办法
9422
查看次数

使用 pyfpgrowth 查找频繁模式

我正在尝试使用pyfpgrowth库和 pandas找到频繁模式,首先我创建了一个带有一列的数据,每一行都是一个事务,这里是代码:

import pyfpgrowth
import pandas as pd
import numpy as np
data = pd.read_csv("itemsets1.csv")
data = pd.DataFrame(data)
data.columns = ['itemsets']
data
Run Code Online (Sandbox Code Playgroud)

输出: 在此处输入图片说明

patterns = pyfpgrowth.find_frequent_patterns(data['itemsets'],6)
patterns
Run Code Online (Sandbox Code Playgroud)

输出:

{(' ',): 6, (' ', '1'): 8, ('1',): 9, ('1', '8'): 6, ('8',): 6}
Run Code Online (Sandbox Code Playgroud)

实际上我在这里有两个问题,第一个是算法将空间作为错误的项目,第二个是项目的频率,例如项目一个“1”只出现一次,但在输出中它显示 9 也是错误的,请需要一些帮助

python data-mining

0
推荐指数
1
解决办法
4375
查看次数

R:如何从日期中删除当天?

我在 df 列中有一堆日期,格式如下:dd.mm.yyyy

我希望它看起来像这样:01/2020 (mm.yyyy)

如何从所有日期中删除这一天?

r data-mining

0
推荐指数
1
解决办法
8825
查看次数

无法找到robots.txt阻止的互联网页面

问题:在Uni找到数学讲座的答案和练习.赫尔辛基

实际问题

  1. 使用Disallowrobots.txt中的.com制作网站列表
  2. 在(1)处创建包含*.pdf文件的站点列表
  3. 在(2)中制作一个包含pdf文件中"analyysi"一词的网站列表

对实际问题的建议

  1. 问题3:制作一个从pdf文件中删除数据的编译器

问题

  1. 你如何搜索注册的.com-网站?
  2. 您如何通过Python的defaultdict和BeautifulSoap解决实际问题1和2?

python web-crawler data-mining

-1
推荐指数
1
解决办法
408
查看次数

如何标准化数据

对数据集进行归一化,使每个数据点的范数等于1。

x1 (1.5,1.7) [x1 (i,j)]

x2 (2,1.9)

x3 (1.6,1.8)

x4(1.2,1.5)

x5(1.5,1.0)

给定一个新数据点 x = (1.4; 1.6) 作为查询,

归一化后的解

x(0.6585,0.7526)
x1(0.6616,0.7498)
x2(0.7250,0.6887)
x3(0.6644,0.7474)
x4(0.6247,0.7809)
x5(0.8321,0.5547)

但我很困惑如何获得解决方案,我尝试了不同的公式,但没有一个起作用。

data-mining

-1
推荐指数
1
解决办法
4927
查看次数

K最近邻伪码?

所以我试图编码k最近邻算法.我的函数的输入是一组数据和一个要分类的样本.我只是想了解算法的工作原理.你能告诉我这个我想做的"伪代码"是否正确吗?

kNN (dataset, sample){

   1. Go through each item in my dataset, and calculate the "distance" from that data item to my specific sample.
   2. Out of those samples I pick the "k" ones that are most close to my sample, maybe in a premade array of "k" items?

}
Run Code Online (Sandbox Code Playgroud)

我感到困惑的部分是当我说"浏览我的数据集中的每个项目"时.我是否应该浏览数据集中的每个CLASS并找到k-最近邻居?然后从那里找到哪一个最接近我的样本,然后告诉我班级?

第2部分问题(ish),正在使用此算法,但没有样本.我如何计算数据集的"准确度"?

我真的在寻找广泛的单词答案,而不是具体细节,但任何有助于我理解的东西都表示赞赏.我在R中实现这一点

谢谢

algorithm r data-mining nearest-neighbor

-3
推荐指数
1
解决办法
1万
查看次数

MySQL上的数据挖掘

最近我开始了电子商务项目,我需要使用数据挖掘.我的问题只是我可以在开发中使用哪种解决方案:

  • MySQL与PHP
  • 带ASP的SQL Server

实际上,MySQL是一个很好的解决方案,适合我的项目有很多原因,但它对Datamining来说是好的和最佳的吗?我是Datamining的初学者,我将把它作为我项目的一部分.它有一个很好的支持工具吗?

php mysql sql-server asp.net-mvc data-mining

-6
推荐指数
1
解决办法
1万
查看次数