我在看JDM.这只是一个与其他工具进行实际数据挖掘的API吗?或者这是一组包含实际数据挖掘算法的包吗?
我正在汇总来自几个不同来源的音乐会列表,其中没有一个都是完整和准确的.某些数据来自用户(例如last.fm),可能不正确.其他数据源非常准确,但可能不包含每个事件.我可以使用事件日期和城市/州等属性来尝试匹配来自不同来源的列表.我想合理地确定这些事件是有效的.这似乎是一个很好的策略,可以使用尽可能多的不同来源来验证容易出错的源列表.
我不确定这个技术术语是什么,因为我想进一步研究它.是数据挖掘吗?有没有现有的算法?我知道解决方案永远不会完全准确.
我使用邻接矩阵来表示可以在视觉上解释为的朋友网络
Mary 0 1 1 1
Joe 1 0 1 1
Bob 1 1 0 1
Susan 1 1 1 0
Mary Joe Bob Susan
Run Code Online (Sandbox Code Playgroud)
使用这个矩阵,我想编译所有可能的友谊三角形的列表,条件是用户1是用户2的朋友,用户2是用户3的朋友.对于我的列表,不要求用户1是朋友用户3.
(joe, mary, bob)
(joe, mary, susan)
(bob, mary, susan)
(bob, joe, susan)
Run Code Online (Sandbox Code Playgroud)
我有一些适用于小三角形的代码,但我需要它来扩展非常大的稀疏矩阵.
from numpy import *
from scipy import *
def buildTriangles(G):
# G is a sparse adjacency matrix
start = time.time()
ctr = 0
G = G + G.T # I do this to make sure it is symmetric
triples = [] …Run Code Online (Sandbox Code Playgroud) 我想基于相似性来聚类文档.
我已经尝试过ssdeep(相似性哈希),非常快但我被告知k-means更快,而且flann是所有实现中最快的,而且更准确所以我尝试使用python绑定但是我找不到任何示例如何在文本上做它(它只支持数组).
我对这个领域非常陌生(k-means,自然语言处理).我需要的是速度和准确性.
我的问题是:
我正在尝试使用神经网络解决这个Kaggle问题.我正在使用Pybrain Python Library.
这是一个经典的监督学习问题.在下面的代码中:'data'变量是numpy数组(892*8).7个字段是我的功能,1个字段是我的输出值,可以是"0"或"1".
from pybrain.datasets import ClassificationDataSet
from pybrain.supervised.trainers import BackpropTrainer
from pybrain.tools.shortcuts import buildNetwork
dataset = ClassificationDataSet(7,1)
for i in data:
dataset.appendLinked(i[1:],i[0])
net = buildNetwork(7,9,7,1, bias = True,hiddenclass = SigmoidLayer, outclass = TanhLayer)
trainer = BackpropTrainer(net, learningrate = 0.04, momentum = 0.96, weightdecay = 0.02, verbose = True)
trainer.trainOnDataset(dataset, 8000)
trainer.testOnData(verbose = True)
Run Code Online (Sandbox Code Playgroud)
在训练我的神经网络之后,当我在训练数据上测试它时,它总是为所有输入提供单个输出.喜欢:
Testing on data:
out: [ 0.075]
correct: [ 1.000]
error: 0.42767858
out: [ 0.075]
correct: [ 0.000]
error: 0.00283875
out: [ 0.075] …Run Code Online (Sandbox Code Playgroud) artificial-intelligence machine-learning data-mining neural-network pybrain
我是weka的新手,我对这个工具感到困惑.我需要做的是我有一个关于水果价格和相关属性的数据集,我试图使用数据集预测特定的水果价格.由于我是weka的新手,我无法弄清楚如何完成这项任务.请帮助我或指导我一个关于如何进行预测的教程,以及执行此任务的最佳方法或算法.
谢谢.
我有一个在一组对象上运行的算法.该算法产生一个得分值,用于指示集合中元素之间的差异.
排序的输出是这样的:
[1,1,5,6,1,5,10,22,23,23,50,51,51,52,100,112,130,500,512,600,12000,12230]
如果您将这些值放在电子表格中,您会看到它们组成了组
[1,1,5,6,1,5] [10,22,23,23] [50,51,51,52] [100,112,130] [500,512,600] [12000,12230]
有没有办法以编程方式获得这些分组?
也许一些使用机器学习库的聚类算法?还是我在思考这个?
我看过scikit,但他们的例子对我的问题来说太先进了......
我一直在使用adaR包,最近,caret.根据该文件,caret的train()功能应该有一个使用ADA的选项.但是,当我使用与我的ada()通话相同的语法时,插入符号正在嘲笑我.
这是一个使用wine示例数据集的演示.
library(doSNOW)
registerDoSNOW(makeCluster(2, type = "SOCK"))
library(caret)
library(ada)
wine = read.csv("http://www.nd.edu/~mclark19/learn/data/goodwine.csv")
set.seed(1234) #so that the indices will be the same when re-run
trainIndices = createDataPartition(wine$good, p = 0.8, list = F)
wanted = !colnames(wine) %in% c("free.sulfur.dioxide", "density", "quality",
"color", "white")
wine_train = wine[trainIndices, wanted]
wine_test = wine[-trainIndices, wanted]
cv_opts = trainControl(method="cv", number=10)
###now, the example that works using ada()
results_ada <- ada(good ~ ., data=wine_train, control=rpart.control
(maxdepth=30, …Run Code Online (Sandbox Code Playgroud) 我正在尝试在真实的数据集(酒店评论)上进行机器学习.不幸的是,它受到垃圾邮件的困扰,垃圾邮件的形式几乎完全相同,这对我来说非常重要.
我想基于编辑距离或类似的东西从数据集中删除"几乎重复",并且由于数据集大小> 100K,因此算法必须是数据集大小的次级二次.现在我只能想到标记过于频繁重复的单个句子或短语,然后删除所有带有它们的评论,但很容易看出这种策略如何适得其反.有一个更好的常见算法吗?
我的情况
说我有成千上万的对象,在这个例子中可能是电影.
我以很多不同的方式解析这些电影,收集有关每个电影的参数,关键字和统计数据.我们称他们为钥匙.我还为每个键分配一个权重,范围从0到1,具体取决于频率,相关性,强度,分数等.
作为一个例子,这里是电影世界末日的几个键和权重:
"Armageddon"
------------------
disaster 0.8
bruce willis 1.0
metascore 0.2
imdb score 0.4
asteroid 1.0
action 0.8
adventure 0.9
... ...
Run Code Online (Sandbox Code Playgroud)
可能有成千上万的这些键和重量,为清楚起见,这是另一部电影:
"The Fast and the Furious"
------------------
disaster 0.1
bruce willis 0.0
metascore 0.5
imdb score 0.6
asteroid 0.0
action 0.9
adventure 0.6
... ...
Run Code Online (Sandbox Code Playgroud)
我把它称为电影的指纹,我想用它们在我的数据库中查找类似的电影.
我还想象如果我愿意,可以插入除电影之外的其他内容,如文章或Facebook个人资料,并为其指定指纹.但那不应该影响我的问题.
我的问题
所以我已经走到了这一步,但现在我觉得这部分很棘手.我想把上面的指纹变成容易比较和快速的东西.我尝试创建一个数组,其中index 0= disaster,1= bruce willis,2= metascore,它们的值是权重.
我上面的两部电影就是这样的:
[ 0.8 , 1.0 , 0.2 , ... ] …Run Code Online (Sandbox Code Playgroud)