如果您遵循DM课程,使用哪本教科书?
我了解数据挖掘:实用机器学习工具和技术(第二版)和本次调查.你有效地使用了什么?
我的公司得到的项目只用没有购物车的目录建立杂货店的简单网站.几天前我从这里读到了一些关于数据挖掘的内容
我发现有可能做一些预测建模
例如,一家中西部杂货连锁店利用Oracle软件的数据挖掘能力来分析本地购买模式.他们发现,当男性在周四和周六购买尿布时,他们也倾向于购买啤酒.
我告诉他们这个例子,如果我能做那样的事,他们很高兴.
现在不知道如何开始和从哪里开始.我知道mysql数据库,也可以编写复杂的查询.但我不知道如何获得啤酒和尿布等数据类型
我还剩3-4个月.任何人都可以指导我如何开始.我也不知道我可以从商店获得的客户购物数据类型可能是excel文件.
但我想开始
我们有一个基于生产网络的产品,允许用户对商品的未来价值(或需求)做出预测,历史数据包含大约10万个例子,每个例子有大约5个参数;
考虑一类称为谓词的数据:
prediction {
id: int
predictor: int
predictionDate: date
predictedProductId: int
predictedDirection: byte (0 for decrease, 1 for increase)
valueAtPrediciton: float
}
Run Code Online (Sandbox Code Playgroud)
以及测量预测结果的配对结果类:
predictionResult {
id: int
valueTenDaysAfterPrediction: float
valueTwentyDaysAfterPrediction: float
valueThirtyDaysAfterPrediction: float
}
Run Code Online (Sandbox Code Playgroud)
我们可以定义一个成功的测试用例,其中如果任何两个未来的值检查点在预测时考虑方向和值时是有利的.
success(p: prediction, r: predictionResult): bool =
count: int
count = 0
// value is predicted to fall
if p.predictedDirection = 0 then
if p.valueAtPrediciton > r.valueTenDaysAfterPrediction then count = count + 1
if p.valueAtPrediciton > r.valueTwentyDaysAfterPrediction then count = count + 1
if p.valueAtPrediciton …Run Code Online (Sandbox Code Playgroud) pattern-recognition classification machine-learning data-mining
我正在"开展"数据挖掘项目,我选择解析Google搜索结果.在我真正开始之前,我想咨询你 - 有经验的人.我对Google如何提供结果进行了一些研究,并分析了结果页面的结构.这一切都没问题,我已经找到了我将使用的正则表达式和数据结构.
在我之间我遇到了他们的CAPTCHA因为我搜索得太快了; 哦,具有讽刺意味.我还发现它们实际上将结果限制为1000.现在,有什么方法可以避免这些限制,可能会减慢网址获取解决第一个或报告遇到CAPTCHA时的速度,以便等待我的输入; 可能会这样做,但另一个呢?Google是否提供某种可用于解决方法的API?我在他们的代码上找不到一个.*页面.
我无法在linux中使用weka的GUI(linux mint 9).它不允许我从接口使用J48 ,而我能够从命令提示符运行它.
任何人都可以告诉我它可能是什么问题
如何建立一个友情推荐系统,通过查看两个共有多少朋友,并使用mapreduce工作推荐他们作为朋友?有点像facebook或linkedin那样,显示推荐人的列表,并根据共同朋友的数量对它们进行排名.
我正在研究一个大数据分析项目,我现在陷入困境,我正在尝试上传包含数据的CSV文件,并希望使用WEKA java API来执行分析.我希望标记文本,删除停止词,识别pos和过滤名词我不知道为什么我看到这个错误.解释和解决方案将是伟大的!但我看到以下错误
Error:
Exception in thread "main" java.io.IOException: wrong number of values. Read 21, expected 20, read Token[EOL], line 3
at weka.core.converters.ConverterUtils.errms(ConverterUtils.java:912)
at weka.core.converters.CSVLoader.getInstance(CSVLoader.java:819)
at weka.core.converters.CSVLoader.getDataSet(CSVLoader.java:642)
Run Code Online (Sandbox Code Playgroud)
代码:
CSVLoader loader = new CSVLoader();
loader.setSource(new File("C:\\fakepath\\CSVfilesample.csv"));
Instances data = loader.getDataSet();
// save ARFF
ArffSaver saver = new ArffSaver();
saver.setInstances(data);
saver.setFile(new File("C:\\fakepath\\CSVfilesample.arff"));
saver.setDestination(new File("C:\\fakepath\\CSVfilesample.arff"));
saver.writeBatch();
BufferedReader br=null;
br=new BufferedReader(new FileReader("C:\\fakepath\\CSVfilesample.arff"));
Instances train=new Instances(br);
train.setClassIndex(train.numAttributes()-1);
br.close();
NaiveBayes nb=new NaiveBayes();
nb.buildClassifier(train);
Evaluation eval=new Evaluation(train);
eval.crossValidateModel(nb, train, 10, new Random(1));
System.out.println(eval.toSummaryString("\nResults\n=====\n",true));
System.out.println(eval.fMeasure(1)+" "+eval.precision(1)+" "+eval.recall(1));
Run Code Online (Sandbox Code Playgroud) 朴素贝叶斯和Logistic回归都可以对这两个数据集进行完美分类吗?我的理解是,朴素贝叶斯(Naive Bayes)可以,带有复杂项的Logistic回归可以对这些数据集进行分类。如果我错了,请帮忙。
数据集的图像在这里:
classification machine-learning dataset data-mining logistic-regression
我正在使用mcl对无向图进行聚类。为此,我选择了一个连接节点的阈值,每个边缘的相似性度量以及膨胀参数以调整图的粒度。我一直在使用这些参数,但是到目前为止,群集似乎太大了(我进行了可视化处理,建议将最大的群集切成2个或更多的群集)。因此,我想知道还有什么其他参数可以用来改善聚类(我目前正在使用mcl的scheme参数来查看提高准确性是否会有所帮助,但是如果还有其他“更具体的”参数可以帮助获得较小的群集,例如,请让我知道)?
我正在研究一个java项目来优化现有代码.目前我正在使用BufferedReader/FileInputStream在Java中将XML文件的内容读取为String.
但我的问题是,有没有更快的方式来读取XML内容.SAX/DOM比BufferedReader/FileInputStream快吗?
需要有关上述问题的帮助.
提前致谢.