标签: data-mining

关联规则挖掘和频繁项集挖掘之间有什么区别

我是数据挖掘的新手,并且对关联规则和频繁的项目挖掘感到困惑.对我来说,我认为两者都是一样的,但我需要本论坛专家的意见

我的问题是

关联规则挖掘和频繁项集挖掘有什么区别?谢谢

data-mining

10
推荐指数
3
解决办法
7466
查看次数

什么是数据挖掘中的自举数据?

最近我遇到了这个术语,但我真的不知道它指的是什么.我在线搜索,但收益甚微.谢谢.

machine-learning data-mining

10
推荐指数
2
解决办法
2万
查看次数

人工智能与机器学习中的随机性

在AI和ML中处理2个项目时,我想到了这个问题.如果我正在构建模型(例如,分类神经网络,K-NN等等),该模型使用包含随机性的一些功能.如果我不修复种子,那么每次在相同的训练数据上运行算法时,我都会得到不同的精度结果.但是,如果我修复它,那么其他一些设置可能会提供更好的结果.

平均一组精度足以说明这个模型的准确度是xx%吗?

我不确定这是否是提出这样一个问题的正确场所/开放这样的讨论.

artificial-intelligence classification machine-learning data-mining

10
推荐指数
2
解决办法
1852
查看次数

DBMS_DATA_MINING.CREATE_MODEL导致 "ORA-40103:无效的情况下,ID列:TID" 的11.2.0.1.0 64B,但万兆OK

我在版本11.2上遇到DBMS_DATA_MINING.CREATE_MODEL问题.在10g这个代码下面的代码运行正常,我很确定在11.1上它也有效.

CREATE OR REPLACE VIEW "SH"."ITEMS" AS SELECT PROD_ID AS item FROM SALES GROUP BY PROD_ID;
CREATE OR REPLACE VIEW "SH"."TRANSACTIONS" AS SELECT "SH"."SALES"."PROD_ID" AS item , "SH"."SALES"."CUST_ID" tid FROM "SH"."SALES" where cust_id between 100001 AND 104500 GROUP BY cust_id, prod_id;
CREATE TABLE "SH"."AR_SETTINGS" ( "SETTING_NAME" VARCHAR2(30 BYTE), "SETTING_VALUE" VARCHAR2(128 BYTE) );
INSERT INTO SH.AR_SETTINGS (SETTING_NAME, SETTING_VALUE) VALUES ('ASSO_MAX_RULE_LENGTH', '6' );
INSERT INTO SH.AR_SETTINGS (SETTING_NAME, SETTING_VALUE) VALUES( 'ASSO_MIN_CONFIDENCE', TO_CHAR(0.7));
INSERT INTO SH.AR_SETTINGS (SETTING_NAME, SETTING_VALUE) VALUES( 'ASSO_MIN_SUPPORT', TO_CHAR(0.1));

BEGIN DBMS_DATA_MINING.CREATE_MODEL( model_name …
Run Code Online (Sandbox Code Playgroud)

oracle data-mining oracle11g oracle11gr2

10
推荐指数
1
解决办法
1078
查看次数

Java中的CSV自动检测

如果CSV被重新定义为"字符分隔值",即使用任何单个字符(但通常是任何非字母数字符号)作为分隔符而不仅仅是逗号的数据,那么自动检测文件实际上是CSV的可靠方法是什么??

本质上,使用此(重新)定义,CSV = DSV("分隔符 - 分隔值"),例如,在本维基百科文章中讨论,而"逗号分隔值"格式在RFC 4180中定义.

更具体地说,是否存在一种统计推断数据具有某种"固定"长度的方法,意味着"可能的CSV"?仅计算分隔符的数量并不总是有效,因为每个记录都有可变数量字段的 CSV文件(即,与RFC 4180要求相反的记录,在同一文件中没有相同数量的字段).

CSV识别似乎是一个特别具有挑战性的问题,特别是如果检测不能基于文件扩展名(例如,当读取无论如何都没有这种信息的流时).

正确("完整")自动检测需要至少4个可靠的决策:

  1. 检测文件实际上是CSV
  2. 检测标头的存在
  3. 检测实际的分隔符
  4. 检测特殊字符(例如,引号)

由于其他数据集(例如,使用逗号的自由文本)的相似性,完全自动检测似乎没有单一的解决方案,特别是对于诸如可变长度记录,单引号或双引号字段或多行记录的转角情况.

因此,最佳方法似乎是望远镜检测,其中在应用CSV检测规则之前检查也可以归类为CSV的格式(例如,像Apache CLF这样的日志文件格式).

甚至像Excel这样的商业应用程序似乎依赖于文件扩展名(.csv)来决定(1),这显然不是自动检测,尽管如果应用程序被告知数据是CSV,问题会大大简化.

以下是一些讨论(2)和(3)的启发式的好相关文章:

(4)(引号的类型)的检测可以基于处理来自文件的几行并查找相应的值(例如,每行的偶数'或'将表示单引号或双引号).可以通过初始化现有的CSV解析器(例如,OpenCSV)来完成,该解析器将适当地关注CSV行分离(例如,多行事件).

但是(1),即首先确定数据是CSV呢?

莫非数据挖掘这一决定帮助吗?

java csv data-mining autodiscovery

10
推荐指数
1
解决办法
5368
查看次数

使用clojure进行大规模数据挖掘

我正在寻找一个很好的参考

使用Clojure进行大规模数据挖掘

我知道很多好的clojure编程书籍(Programming Clojure,Joy of Clojure,...),以及许多优秀的数据挖掘教科书(挖掘海量数据集,管理千兆字节......).但是我不知道有任何专门针对的引用

使用Clojure进行大规模数据挖掘

由于以下原因,"with clojure"部分对我来说非常重要:

* most theoretical analysis uses big-Oh running time, which ignores constants
* constants matter, if it ends up being a matter of 1 second vs 1 hour (for things that need to be real time)
* or 1 hour vs 1 week (for batch jobs)
Run Code Online (Sandbox Code Playgroud)

特别是,我认为JVM,Clojure数据结构之间存在很多相互作用,数据是存储在内存中还是懒惰地从磁盘读取 - 可以使"相同"算法的运行时间大不相同"略微"不同的实现.

因此,我的问题(以上所有内容都是为了避免被"Check Google"关闭):

使用Clojure进行大规模数据挖掘的好资源是什么?

谢谢!

clojure data-mining

10
推荐指数
1
解决办法
4454
查看次数

如何测试内核是否是有效的内核

如果我定义自己的方法来确定我的支持向量机分类器的两个输入实体之间的相似性,从而将其定义为我的内核,我该如何验证它是否确实是一个我可以使用的有效内核?

例如,如果我的输入是字符串,并且我选择的内核是可以说某种字符串距离度量,那么我如何决定是否可以将它用于我的SVM.我知道有一些有效SVM内核的条件.任何人都可以告诉我它们是什么以及如何验证这些条件?

machine-learning data-mining svm

10
推荐指数
3
解决办法
1万
查看次数

R中的时间序列突破/变化/干扰检测:结构,变化点,突破检测,bfast等

我希望这能成为R中各种时间序列突破/变化/干扰检测方法的标志.我的问题是用以下每个包描述方法的动机和差异.也就是说,何时使用一种方法比另一种方法,相似性/差异等更有意义.

有问题的包裹:

我希望有针对性的答案.也许是每种方法的一个段落.在一个时间序列中很容易拍打每一个,但这可能会以滥用/违反假设为代价.有资源为ML监督/无监督技术提供指导.我(当然还有其他人)会欣赏这个时间序列分析领域的一些指南/指针.

r time-series data-mining

10
推荐指数
1
解决办法
2841
查看次数

在MATLAB中将数据拆分为训练/测试数据集?

经过一些研究,我在MATLAB中找到了两个函数来完成任务:

现在我用它cvpartition来创建n倍交叉验证子集,以及统计工具箱中的Dataset/ Nominalclasses.所以我只是想知道两者之间的区别和各自的优缺点是什么?

matlab data-mining

9
推荐指数
1
解决办法
2万
查看次数

如何对存储在SQL中的纬度和经度位置进行分组

我试图分析英国周期事故的数据,以找到统计黑点.以下是来自其他网站的数据示例.http://www.cycleinjury.co.uk/map

我目前正在使用SQLite来实现~100k存储lat/lon位置.我想将附近的地点组合在一起.此任务称为群集分析.

我想通过忽略孤立的事件来简化数据集,而只是显示在一个小区域内发生多个事故的集群的起源.

我需要克服3个问题.

  1. 性能 - 如何确保快速找到附近的点.我应该使用的SQLite的实现了的R树的例子吗?

  2. 链条 - 如何避免拾取附近的链条?

  3. 密度 - 如何考虑周期人口密度?伦敦的自行车运动员的人口密度远远超过布里斯托尔,因此伦敦似乎有更多的支持者.

我想避免像这样的'链'场景:

在此输入图像描述

相反,我想找到集群:

在此输入图像描述

伦敦截图(我手绘了一些集群)......

在此输入图像描述

布里斯托尔截图 - 密度低得多 - 如果不考虑相对密度,在该区域上运行的相同程序可能找不到任何黑点.

在此输入图像描述

任何指针都会很棒!

sql sqlite cluster-analysis machine-learning data-mining

9
推荐指数
1
解决办法
4946
查看次数