Apriori算法的最小置信度和最小支持值的适当值是什么?你怎么能调整它们?它们是固定值,还是在运行算法期间会发生变化?如果您之前使用过此算法,您使用了什么值?
我想知道我们是否可以在C#中编译数据挖掘的资源列表?
具体我正在寻找
如果有人知道http://en.wikipedia.org/wiki/C4.5_algorithm的C#实现,我会非常感兴趣.
我将尝试总结已发布的结果以便重新使用
我正在使用k-means聚类来分组一组新闻.我使用词袋模型来表示文档,更具体地说,每个文档都表示为术语频率向量.
我的问题:如何在不重新计算所有术语频率向量的情况下添加新文档(看到包含所有文档的所有术语的词汇表都会发生变化)?
我正在使用大型数据集,因此希望删除多余的变量并调整每个分支的最佳m个变量.在R中,有两种方法,rfcv和tuneRF,它们有助于完成这两项任务.我正在尝试将它们组合起来以优化参数.
rfcv大致如下:
create random forest and extract each variable's importance;
while (nvar > 1) {
remove the k (or k%) least important variables;
run random forest with remaining variables, reporting cverror and predictions
}
Run Code Online (Sandbox Code Playgroud)
目前,我已经重新编写rfcv工作如下:
create random forest and extract each variable's importance;
while (nvar > 1) {
remove the k (or k%) least important variables;
tune for the best m for reduced variable set;
run random forest with remaining variables, reporting cverror and predictions;
}
Run Code Online (Sandbox Code Playgroud)
当然,这将运行时间增加了一个数量级.我的问题是这是多么必要(使用玩具数据集很难得到一个想法),以及是否可以在更短的时间内以任何其他方式大致工作.
我想从文本中获取最相关的单词以准备标签云.
我使用scikit-learn包中的CountVectoriser:
cv = CountVectorizer(min_df=1, charset_error="ignore",
stop_words="english", max_features=200)
Run Code Online (Sandbox Code Playgroud)
这很好,因为它给了我的话和频率:
counts = cv.fit_transform([text]).toarray().ravel()
words = np.array(cv.get_feature_names())
Run Code Online (Sandbox Code Playgroud)
我可以过滤非频繁的单词:
words = words[counts > 1]
counts = counts[counts > 1]
Run Code Online (Sandbox Code Playgroud)
以及单词,即数字:
words = words[np.array(map(lambda x: x.isalpha(), words))]
counts = counts[np.array(map(lambda x: x.isalpha(), words))]
Run Code Online (Sandbox Code Playgroud)
但它仍然不完美......
我的问题是:
还请注意:
我的数字数据缺少值.我想在Weka中使用朴素贝叶斯分类器对数据进行分类,但选项显示为灰色.请帮忙.
我正在寻找一种在Common Lisp中完成数据挖掘任务的方法; 有什么可以使这成为可能吗?我找到了Incanter for Clojure,但是我必须坚持使用Common Lisp来完成手头的任务.
我问自己一个问题,大多数人是否通常自己编写机器学习算法,或者他们是否可能使用现有的解决方案,如Weka或R包.
当然这取决于问题 - 但是我想说我想使用像神经网络这样的通用解决方案.还有理由自己编码吗?更好地理解机制并适应它?或者标准化解决方案的思想更重要?
我有对象和距离函数,并希望使用DBSCAN方法聚类这些scikit-learn.我的物体在欧几里德空间中没有表示.我知道,可以使用precomputed公制,但在我的情况下,由于距离矩阵的大小,这是非常不切实际的.有没有办法克服这个问题scikit-learn?也许,有没有其他可以实现的DBSCAN python实现?
用户-用户相似度矩阵,其中某些行具有重复的值,并且 NaN
userId 316 320 359 370 910
userId
316 1.0 0.500000 0.500000 0.500000 NaN
320 0.5 1.000000 0.242837 0.019035 0.031737
359 0.5 0.242837 1.000000 0.357620 0.175914
370 0.5 0.019035 0.357620 1.000000 0.317371
910 NaN 0.031737 0.175914 0.317371 1.000000
Run Code Online (Sandbox Code Playgroud)
我想对每行的相似性分别进行排名。像这样:
userId 316 320 359 370 910
userId
316 1 2 3 4 NaN
320 2 1 3 5 1
359 2 4 1 3 5
370 2 5 3 1 4
910 NaN 4 3 2 1
Run Code Online (Sandbox Code Playgroud)
相同值之间的等级并不重要。但这必须是一个独特的价值。并且 …
data-mining ×10
python ×3
scikit-learn ×2
weka ×2
.net ×1
algorithm ×1
apriori ×1
c# ×1
common-lisp ×1
dbscan ×1
lisp ×1
nlp ×1
nltk ×1
pandas ×1
parameters ×1
r ×1
statistics ×1
text-mining ×1