标签: data-mining

如何在Apriori算法中找到关联规则的置信度

我正在使用 Apriori 算法来识别客户的频繁项目集。基于识别的频繁项目集，我想在客户将新项目添加到他的购物清单时向客户提示建议项目。假设我识别的频繁项目集是 [2 ,3,5]。我的问题是；

如果用户已经添加了第 2 项和第 5 项，我想检查规则的置信度以建议第 3 项。

置信度 = 支持 (2,3,5)/ 支持 (3) ?

或者

置信度 = 支持（2,3,5）/支持（2,5）？

哪个方程是正确的？请帮忙！！

rules associations data-mining apriori

作者

lucky-day

0
推荐指数

1
解决办法

9422
查看次数

使用 pyfpgrowth 查找频繁模式

我正在尝试使用pyfpgrowth库和 pandas找到频繁模式，首先我创建了一个带有一列的数据框，每一行都是一个事务，这里是代码：

import pyfpgrowth import pandas as pd import numpy as np data = pd.read_csv("itemsets1.csv") data = pd.DataFrame(data) data.columns = ['itemsets'] data
Run Code Online (Sandbox Code Playgroud)
输出：

patterns = pyfpgrowth.find_frequent_patterns(data['itemsets'],6) patterns
Run Code Online (Sandbox Code Playgroud)
输出：

{(' ',): 6, (' ', '1'): 8, ('1',): 9, ('1', '8'): 6, ('8',): 6}
Run Code Online (Sandbox Code Playgroud)
实际上我在这里有两个问题，第一个是算法将空间作为错误的项目，第二个是项目的频率，例如项目一个“1”只出现一次，但在输出中它显示 9 也是错误的，请需要一些帮助

python data-mining

K_ *_*uli

2018 03-28

0
推荐指数

1
解决办法

4375
查看次数

R：如何从日期中删除当天？

我在 df 列中有一堆日期，格式如下：dd.mm.yyyy

我希望它看起来像这样：01/2020 (mm.yyyy)

如何从所有日期中删除这一天？

r data-mining

sjo*_*lly

2020 05-01

0
推荐指数

1
解决办法

8825
查看次数

无法找到robots.txt阻止的互联网页面

问题:在Uni找到数学讲座的答案和练习.赫尔辛基

实际问题

使用Disallowrobots.txt中的.com制作网站列表

在(1)处创建包含*.pdf文件的站点列表

在(2)中制作一个包含pdf文件中"analyysi"一词的网站列表

对实际问题的建议

问题3:制作一个从pdf文件中删除数据的编译器

问题

你如何搜索注册的.com-网站？

您如何通过Python的defaultdict和BeautifulSoap解决实际问题1和2？

python web-crawler data-mining

作者

2012 10-31

-1
推荐指数

1
解决办法

408
查看次数

如何标准化数据

对数据集进行归一化，使每个数据点的范数等于1。

x1 (1.5,1.7) [x1 (i,j)]

x2 (2,1.9)

x3 (1.6,1.8)

x4（1.2，1.5）

x5（1.5，1.0）

给定一个新数据点 x = (1.4; 1.6) 作为查询，

归一化后的解

x(0.6585,0.7526)
x1(0.6616,0.7498)
x2(0.7250,0.6887)
x3(0.6644,0.7474)
x4(0.6247,0.7809)
x5(0.8321,0.5547)

但我很困惑如何获得解决方案，我尝试了不同的公式，但没有一个起作用。

data-mining

use*_*867

2015 02-04

-1
推荐指数

1
解决办法

4927
查看次数

K最近邻伪码？

所以我试图编码k最近邻算法.我的函数的输入是一组数据和一个要分类的样本.我只是想了解算法的工作原理.你能告诉我这个我想做的"伪代码"是否正确吗？

kNN (dataset, sample){ 1. Go through each item in my dataset, and calculate the "distance" from that data item to my specific sample. 2. Out of those samples I pick the "k" ones that are most close to my sample, maybe in a premade array of "k" items? }
Run Code Online (Sandbox Code Playgroud)
我感到困惑的部分是当我说"浏览我的数据集中的每个项目"时.我是否应该浏览数据集中的每个CLASS并找到k-最近邻居？然后从那里找到哪一个最接近我的样本,然后告诉我班级？

第2部分问题(ish),正在使用此算法,但没有样本.我如何计算数据集的"准确度"？

我真的在寻找广泛的单词答案,而不是具体细节,但任何有助于我理解的东西都表示赞赏.我在R中实现这一点

谢谢

algorithm r data-mining nearest-neighbor

use*_*172

lucky-day

-3
推荐指数

1
解决办法

1万
查看次数

MySQL上的数据挖掘

最近我开始了电子商务项目,我需要使用数据挖掘.我的问题只是我可以在开发中使用哪种解决方案:

MySQL与PHP

带ASP的SQL Server

实际上,MySQL是一个很好的解决方案,适合我的项目有很多原因,但它对Datamining来说是好的和最佳的吗？我是Datamining的初学者,我将把它作为我项目的一部分.它有一个很好的支持工具吗？

php mysql sql-server asp.net-mvc data-mining

作者

2013 10-05

-6
推荐指数

1
解决办法

1万
查看次数

标签统计

data-mining ×7

python ×2

r ×2

algorithm ×1

apriori ×1

asp.net-mvc ×1

associations ×1

mysql ×1

nearest-neighbor ×1

php ×1

rules ×1

sql-server ×1

web-crawler ×1

或者

标签 统计

标签统计