标签: data-mining

prediction {
    id: int
    predictor: int    
    predictionDate: date
    predictedProductId: int
    predictedDirection: byte  (0 for decrease, 1 for increase)
    valueAtPrediciton: float
}

Run Code Online (Sandbox Code Playgroud)

以及测量预测结果的配对结果类:

predictionResult {
    id: int
    valueTenDaysAfterPrediction: float
    valueTwentyDaysAfterPrediction: float
    valueThirtyDaysAfterPrediction: float
}

Run Code Online (Sandbox Code Playgroud)

我们可以定义一个成功的测试用例,其中如果任何两个未来的值检查点在预测时考虑方向和值时是有利的.

success(p: prediction, r: predictionResult): bool = 
    count: int 
    count = 0

    // value is predicted to fall
    if p.predictedDirection = 0 then
       if p.valueAtPrediciton > r.valueTenDaysAfterPrediction then count = count + 1
       if p.valueAtPrediciton > r.valueTwentyDaysAfterPrediction then count = count + 1
       if p.valueAtPrediciton …

Run Code Online (Sandbox Code Playgroud)

pattern-recognition classification machine-learning data-mining

aka*_*nom

2010 09-25

1
推荐指数

1
解决办法

1670
查看次数

解析谷歌的搜索结果

我正在"开展"数据挖掘项目,我选择解析Google搜索结果.在我真正开始之前,我想咨询你 - 有经验的人.我对Google如何提供结果进行了一些研究,并分析了结果页面的结构.这一切都没问题,我已经找到了我将使用的正则表达式和数据结构.

在我之间我遇到了他们的CAPTCHA因为我搜索得太快了; 哦,具有讽刺意味.我还发现它们实际上将结果限制为1000.现在,有什么方法可以避免这些限制,可能会减慢网址获取解决第一个或报告遇到CAPTCHA时的速度,以便等待我的输入; 可能会这样做,但另一个呢？Google是否提供某种可用于解决方法的API？我在他们的代码上找不到一个.*页面.

perl data-mining google-search-api

nul*_*ent

lucky-day

1
推荐指数

1
解决办法

1895
查看次数

J48不在weka explorer中工作

我无法在linux中使用weka的GUI(linux mint 9).它不允许我从接口使用J48 ,而我能够从命令提示符运行它.

任何人都可以告诉我它可能是什么问题

java linux data-mining weka

dam*_*ned

2011 10-02

1
推荐指数

1
解决办法

7693
查看次数

Hadoop M/R实施"People You Might Know"友情推荐

如何建立一个友情推荐系统,通过查看两个共有多少朋友,并使用mapreduce工作推荐他们作为朋友？有点像facebook或linkedin那样,显示推荐人的列表,并根据共同朋友的数量对它们进行排名.

java hadoop mapreduce data-mining

DB *_*sai

lucky-day

1
推荐指数

1
解决办法

8224
查看次数

无法上传用于WEKA分析的CSV文件 - java

我正在研究一个大数据分析项目,我现在陷入困境,我正在尝试上传包含数据的CSV文件,并希望使用WEKA java API来执行分析.我希望标记文本,删除停止词,识别pos和过滤名词我不知道为什么我看到这个错误.解释和解决方案将是伟大的!但我看到以下错误

Error: 

   Exception in thread "main" java.io.IOException: wrong number of values. Read 21, expected 20, read Token[EOL], line 3
     at weka.core.converters.ConverterUtils.errms(ConverterUtils.java:912)
     at weka.core.converters.CSVLoader.getInstance(CSVLoader.java:819)
     at weka.core.converters.CSVLoader.getDataSet(CSVLoader.java:642)

Run Code Online (Sandbox Code Playgroud)

代码:

CSVLoader loader = new CSVLoader();
loader.setSource(new File("C:\\fakepath\\CSVfilesample.csv"));
Instances data = loader.getDataSet();

// save ARFF
ArffSaver saver = new ArffSaver();
saver.setInstances(data);
saver.setFile(new File("C:\\fakepath\\CSVfilesample.arff"));
saver.setDestination(new File("C:\\fakepath\\CSVfilesample.arff"));
saver.writeBatch();

BufferedReader br=null;
br=new BufferedReader(new FileReader("C:\\fakepath\\CSVfilesample.arff"));
Instances train=new Instances(br);
train.setClassIndex(train.numAttributes()-1);
br.close();
NaiveBayes nb=new NaiveBayes();
nb.buildClassifier(train);
Evaluation eval=new Evaluation(train);
eval.crossValidateModel(nb, train, 10, new Random(1));
System.out.println(eval.toSummaryString("\nResults\n=====\n",true));
System.out.println(eval.fMeasure(1)+" "+eval.precision(1)+" "+eval.recall(1));

Run Code Online (Sandbox Code Playgroud)

java csv machine-learning data-mining weka

pre*_*ret

2013 09-16

1
推荐指数

1
解决办法

9916
查看次数

此数据集的Logistic回归和朴素贝叶斯

朴素贝叶斯和Logistic回归都可以对这两个数据集进行完美分类吗？我的理解是，朴素贝叶斯（Naive Bayes）可以，带有复杂项的Logistic回归可以对这些数据集进行分类。如果我错了，请帮忙。

数据集的图像在这里：

classification machine-learning dataset data-mining logistic-regression

pa1*_*eek

2016 09-29

1
推荐指数

1
解决办法

2649
查看次数

我正在使用mcl对无向图进行聚类。为此，我选择了一个连接节点的阈值，每个边缘的相似性度量以及膨胀参数以调整图的粒度。我一直在使用这些参数，但是到目前为止，群集似乎太大了（我进行了可视化处理，建议将最大的群集切成2个或更多的群集）。因此，我想知道还有什么其他参数可以用来改善聚类（我目前正在使用mcl的scheme参数来查看提高准确性是否会有所帮助，但是如果还有其他“更具体的”参数可以帮助获得较小的群集，例如，请让我知道）？

cluster-analysis machine-learning data-mining mcl

big*_*ree

2014 03-12

1
推荐指数

1
解决办法

615
查看次数