标签: data-mining

什么是Java Data Mining,JDM?

我在看JDM.这只是一个与其他工具进行实际数据挖掘的API吗?或者这是一组包含实际数据挖掘算法的包吗?

java api data-mining

11
推荐指数
1
解决办法
7994
查看次数

处理来自多个容易出错的源的数据聚合的算法

我正在汇总来自几个不同来源的音乐会列表,其中没有一个都是完整和准确的.某些数据来自用户(例如last.fm),可能不正确.其他数据源非常准确,但可能不包含每个事件.我可以使用事件日期和城市/州等属性来尝试匹配来自不同来源的列表.我想合理地确定这些事件是有效的.这似乎是一个很好的策略,可以使用尽可能多的不同来源来验证容易出错的源列表.

我不确定这个技术术语是什么,因为我想进一步研究它.是数据挖掘吗?有没有现有的算法?我知道解决方案永远不会完全准确.

algorithm data-mining

11
推荐指数
1
解决办法
477
查看次数

Python,Scipy:使用大邻接矩阵构建三元组

我使用邻接矩阵来表示可以在视觉上解释为的朋友网络

Mary     0        1      1      1

Joe      1        0      1      1

Bob      1        1      0      1

Susan    1        1      1      0 

         Mary     Joe    Bob    Susan
Run Code Online (Sandbox Code Playgroud)

使用这个矩阵,我想编译所有可能的友谊三角形的列表,条件是用户1是用户2的朋友,用户2是用户3的朋友.对于我的列表,不要求用户1是朋友用户3.

(joe, mary, bob)
(joe, mary, susan)
(bob, mary, susan)
(bob, joe, susan)
Run Code Online (Sandbox Code Playgroud)

我有一些适用于小三角形的代码,但我需要它来扩展非常大的稀疏矩阵.

from numpy import *
from scipy import *

def buildTriangles(G):
    # G is a sparse adjacency matrix
    start = time.time()
    ctr = 0
    G = G + G.T          # I do this to make sure it is symmetric
    triples = [] …
Run Code Online (Sandbox Code Playgroud)

python numpy data-mining scipy adjacency-matrix

11
推荐指数
1
解决办法
1424
查看次数

如何使用k-means(Flann with python)对文档进行聚类?

我想基于相似性来聚类文档.

我已经尝试过ssdeep(相似性哈希),非常快但我被告知k-means更快,而且flann是所有实现中最快的,而且更准确所以我尝试使用python绑定但是我找不到任何示例如何在文本上做它(它只支持数组).

我对这个领域非常陌生(k-means,自然语言处理).我需要的是速度和准确性.

我的问题是:

  1. 我们可以使用KMeans进行文档相似性分组/聚类(Flann似乎不允许任何文本输入)
  2. Flann是正确的选择吗?如果没有,请建议我支持文本/文档集群的高性能库,它具有python包装器/ API.
  3. k-means是正确的算法吗?

nlp cluster-analysis data-mining text-mining k-means

11
推荐指数
2
解决办法
1万
查看次数

隐藏层数,隐藏层中的单位和历元直到神经网络开始在训练数据上表现为可接受的行为

我正在尝试使用神经网络解决这个Kaggle问题.我正在使用Pybrain Python Library.

这是一个经典的监督学习问题.在下面的代码中:'data'变量是numpy数组(892*8).7个字段是我的功能,1个字段是我的输出值,可以是"0"或"1".

from pybrain.datasets import ClassificationDataSet
from pybrain.supervised.trainers import BackpropTrainer
from pybrain.tools.shortcuts import buildNetwork

dataset = ClassificationDataSet(7,1)
for i in data:
    dataset.appendLinked(i[1:],i[0])
net = buildNetwork(7,9,7,1, bias = True,hiddenclass = SigmoidLayer, outclass = TanhLayer)
trainer = BackpropTrainer(net, learningrate = 0.04, momentum = 0.96, weightdecay = 0.02, verbose = True)
trainer.trainOnDataset(dataset, 8000)
trainer.testOnData(verbose = True)
Run Code Online (Sandbox Code Playgroud)

在训练我的神经网络之后,当我在训练数据上测试它时,它总是为所有输入提供单个输出.喜欢:

Testing on data:
out:     [  0.075]
correct: [  1.000]
error:  0.42767858
out:     [  0.075]
correct: [  0.000]
error:  0.00283875
out:     [  0.075] …
Run Code Online (Sandbox Code Playgroud)

artificial-intelligence machine-learning data-mining neural-network pybrain

11
推荐指数
1
解决办法
4479
查看次数

如何使用weka预测结果

我是weka的新手,我对这个工具感到困惑.我需要做的是我有一个关于水果价格和相关属性的数据集,我试图使用数据集预测特定的水果价格.由于我是weka的新手,我无法弄清楚如何完成这项任务.请帮助我或指导我一个关于如何进行预测的教程,以及执行此任务的最佳方法或算法.

谢谢.

classification dataset data-mining prediction weka

11
推荐指数
1
解决办法
3万
查看次数

在python中通过它们的接近度聚类值(机器学习?)

我有一个在一组对象上运行的算法.该算法产生一个得分值,用于指示集合中元素之间的差异.

排序的输出是这样的:

[1,1,5,6,1,5,10,22,23,23,50,51,51,52,100,112,130,500,512,600,12000,12230]

如果您将这些值放在电子表格中,您会看到它们组成了组

[1,1,5,6,1,5] [10,22,23,23] [50,51,51,52] [100,112,130] [500,512,600] [12000,12230]

有没有办法以编程方式获得这些分组?

也许一些使用机器学习库的聚类算法?还是我在思考这个?

我看过scikit,但他们的例子对我的问题来说太先进了......

python cluster-analysis machine-learning data-mining

11
推荐指数
3
解决办法
2万
查看次数

在R的插入符号包中使用adaboost

我一直在使用adaR包,最近,caret.根据该文件,carettrain()功能应该有一个使用ADA的选项.但是,当我使用与我的ada()通话相同的语法时,插入符号正在嘲笑我.

这是一个使用wine示例数据集的演示.

library(doSNOW)
registerDoSNOW(makeCluster(2, type = "SOCK"))
library(caret)
library(ada)

wine = read.csv("http://www.nd.edu/~mclark19/learn/data/goodwine.csv")


set.seed(1234) #so that the indices will be the same when re-run
trainIndices = createDataPartition(wine$good, p = 0.8, list = F)
wanted = !colnames(wine) %in% c("free.sulfur.dioxide", "density", "quality",
                            "color", "white")

wine_train = wine[trainIndices, wanted]
wine_test = wine[-trainIndices, wanted]
cv_opts = trainControl(method="cv", number=10)


 ###now, the example that works using ada() 

 results_ada <- ada(good ~ ., data=wine_train, control=rpart.control
 (maxdepth=30, …
Run Code Online (Sandbox Code Playgroud)

r classification machine-learning data-mining adaboost

11
推荐指数
1
解决办法
2万
查看次数

在子二次时间中删除"几乎重复"的字符串

我正在尝试在真实的数据集(酒店评论)上进行机器学习.不幸的是,它受到垃圾邮件的困扰,垃圾邮件的形式几乎完全相同,这对我来说非常重要.

我想基于编辑距离或类似的东西从数据集中删除"几乎重复",并且由于数据集大小> 100K,因此算法必须是数据集大小的次级二次.现在我只能想到标记过于频繁重复的单个句子或短语,然后删除所有带有它们的评论,但很容易看出这种策略如何适得其反.有一个更好的常见算法吗?

algorithm data-mining

11
推荐指数
1
解决办法
207
查看次数

创建可比较且灵活的对象指纹

我的情况

说我有成千上万的对象,在这个例子中可能是电影.

我以很多不同的方式解析这些电影,收集有关每个电影的参数,关键字和统计数据.我们称他们为钥匙.我还为每个键分配一个权重,范围从0到1,具体取决于频率,相关性,强度,分数等.

作为一个例子,这里是电影世界末日的几个键和权重:

"Armageddon"
------------------
disaster       0.8
bruce willis   1.0
metascore      0.2
imdb score     0.4
asteroid       1.0
action         0.8
adventure      0.9
...            ...
Run Code Online (Sandbox Code Playgroud)

可能有成千上万的这些键和重量,为清楚起见,这是另一部电影:

"The Fast and the Furious"
------------------
disaster       0.1
bruce willis   0.0
metascore      0.5
imdb score     0.6
asteroid       0.0
action         0.9
adventure      0.6
...            ...
Run Code Online (Sandbox Code Playgroud)

我把它称为电影的指纹,我想用它们在我的数据库中查找类似的电影.

我还想象如果我愿意,可以插入除电影之外的其他内容,如文章或Facebook个人资料,并为其指定指纹.但那不应该影响我的问题.

我的问题

所以我已经走到了这一步,但现在我觉得这部分很棘手.我想把上面的指纹变成容易比较和快速的东西.我尝试创建一个数组,其中index 0= disaster,1= bruce willis,2= metascore,它们的值是权重.

我上面的两部电影就是这样的:

[ 0.8 , 1.0 , 0.2 , ... ] …
Run Code Online (Sandbox Code Playgroud)

c# sql algorithm data-mining bigdata

11
推荐指数
1
解决办法
1204
查看次数