标签: data-mining

CREATE OR REPLACE VIEW "SH"."ITEMS" AS SELECT PROD_ID AS item FROM SALES GROUP BY PROD_ID;
CREATE OR REPLACE VIEW "SH"."TRANSACTIONS" AS SELECT "SH"."SALES"."PROD_ID" AS item , "SH"."SALES"."CUST_ID" tid FROM "SH"."SALES" where cust_id between 100001 AND 104500 GROUP BY cust_id, prod_id;
CREATE TABLE "SH"."AR_SETTINGS" ( "SETTING_NAME" VARCHAR2(30 BYTE), "SETTING_VALUE" VARCHAR2(128 BYTE) );
INSERT INTO SH.AR_SETTINGS (SETTING_NAME, SETTING_VALUE) VALUES ('ASSO_MAX_RULE_LENGTH', '6' );
INSERT INTO SH.AR_SETTINGS (SETTING_NAME, SETTING_VALUE) VALUES( 'ASSO_MIN_CONFIDENCE', TO_CHAR(0.7));
INSERT INTO SH.AR_SETTINGS (SETTING_NAME, SETTING_VALUE) VALUES( 'ASSO_MIN_SUPPORT', TO_CHAR(0.1));

BEGIN DBMS_DATA_MINING.CREATE_MODEL( model_name …

Run Code Online (Sandbox Code Playgroud)

oracle data-mining oracle11g oracle11gr2

zac*_*usz

2015 10-23

10
推荐指数

1
解决办法

1078
查看次数

Java中的CSV自动检测

如果CSV被重新定义为"字符分隔值",即使用任何单个字符(但通常是任何非字母数字符号)作为分隔符而不仅仅是逗号的数据,那么自动检测文件实际上是CSV的可靠方法是什么？？

本质上,使用此(重新)定义,CSV = DSV("分隔符 - 分隔值"),例如,在本维基百科文章中讨论,而"逗号分隔值"格式在RFC 4180中定义.

更具体地说,是否存在一种统计推断数据具有某种"固定"长度的方法,意味着"可能的CSV"？仅计算分隔符的数量并不总是有效,因为每个记录都有可变数量字段的 CSV文件(即,与RFC 4180要求相反的记录,在同一文件中没有相同数量的字段).

CSV识别似乎是一个特别具有挑战性的问题,特别是如果检测不能基于文件扩展名(例如,当读取无论如何都没有这种信息的流时).

正确("完整")自动检测需要至少4个可靠的决策:

检测文件实际上是CSV
检测标头的存在
检测实际的分隔符
检测特殊字符(例如,引号)

由于其他数据集(例如,使用逗号的自由文本)的相似性,完全自动检测似乎没有单一的解决方案,特别是对于诸如可变长度记录,单引号或双引号字段或多行记录的转角情况.

因此,最佳方法似乎是望远镜检测,其中在应用CSV检测规则之前检查也可以归类为CSV的格式(例如,像Apache CLF这样的日志文件格式).

甚至像Excel这样的商业应用程序似乎依赖于文件扩展名(.csv)来决定(1),这显然不是自动检测,尽管如果应用程序被告知数据是CSV,问题会大大简化.

以下是一些讨论(2)和(3)的启发式的好相关文章:

(4)(引号的类型)的检测可以基于处理来自文件的几行并查找相应的值(例如,每行的偶数'或'将表示单引号或双引号).可以通过初始化现有的CSV解析器(例如,OpenCSV)来完成,该解析器将适当地关注CSV行分离(例如,多行事件).

但是(1),即首先确定数据是CSV呢？

莫非数据挖掘这一决定帮助吗？

java csv data-mining autodiscovery

PNS*_*PNS

2017 05-23

10
推荐指数

1
解决办法

5368
查看次数

使用clojure进行大规模数据挖掘

我正在寻找一个很好的参考

使用Clojure进行大规模数据挖掘

我知道很多好的clojure编程书籍(Programming Clojure,Joy of Clojure,...),以及许多优秀的数据挖掘教科书(挖掘海量数据集,管理千兆字节......).但是我不知道有任何专门针对的引用

使用Clojure进行大规模数据挖掘

由于以下原因,"with clojure"部分对我来说非常重要:

* most theoretical analysis uses big-Oh running time, which ignores constants
* constants matter, if it ends up being a matter of 1 second vs 1 hour (for things that need to be real time)
* or 1 hour vs 1 week (for batch jobs)

Run Code Online (Sandbox Code Playgroud)

特别是,我认为JVM,Clojure数据结构之间存在很多相互作用,数据是存储在内存中还是懒惰地从磁盘读取 - 可以使"相同"算法的运行时间大不相同"略微"不同的实现.

因此,我的问题(以上所有内容都是为了避免被"Check Google"关闭):

使用Clojure进行大规模数据挖掘的好资源是什么？

谢谢!

clojure data-mining

use*_*359

2012 06-23

10
推荐指数

1
解决办法

4454
查看次数