标签: data-mining

对Apriori的最小信心和最低支持

Apriori算法的最小置信度和最小支持值的适当值是什么?你怎么能调整它们?它们是固定值,还是在运行算法期间会发生变化?如果您之前使用过此算法,您使用了什么值?

algorithm parameters data-mining apriori

3
推荐指数
1
解决办法
1万
查看次数

C#的数据挖掘资源

我想知道我们是否可以在C#中编译数据挖掘的资源列表?

具体我正在寻找

  • 数据挖掘算法的实现
  • 开源数据挖掘库
  • 使用C#/ .net代码进行数据挖掘的教程

如果有人知道http://en.wikipedia.org/wiki/C4.5_algorithm的C#实现,我会非常感兴趣.

我将尝试总结已发布的结果以便重新使用

.net c# data-mining

3
推荐指数
1
解决办法
1万
查看次数

将新术语添加到词袋模型中

我正在使用k-means聚类来分组一组新闻.我使用词袋模型来表示文档,更具体地说,每个文档都表示为术语频率向量.

我的问题:如何在不重新计算所有术语频率向量的情况下添加新文档(看到包含所有文档的所有术语的词汇表都会发生变化)?

nlp cluster-analysis machine-learning data-mining

3
推荐指数
1
解决办法
402
查看次数

随机森林优化与调整和交叉验证

我正在使用大型数据集,因此希望删除多余的变量并调整每个分支的最佳m个变量.在R中,有两种方法,rfcv和tuneRF,它们有助于完成这两项任务.我正在尝试将它们组合起来以优化参数.

rfcv大致如下:

create random forest and extract each variable's importance;
while (nvar > 1) {
    remove the k (or k%) least important variables;
    run random forest with remaining variables, reporting cverror and predictions
}
Run Code Online (Sandbox Code Playgroud)

目前,我已经重新编写rfcv工作如下:

create random forest and extract each variable's importance;
while (nvar > 1) {
    remove the k (or k%) least important variables;
    tune for the best m for reduced variable set;
    run random forest with remaining variables, reporting cverror and predictions;
}
Run Code Online (Sandbox Code Playgroud)

当然,这将运行时间增加了一个数量级.我的问题是这是多么必要(使用玩具数据集很难得到一个想法),以及是否可以在更短的时间内以任何其他方式大致工作.

r machine-learning data-mining random-forest

3
推荐指数
1
解决办法
4840
查看次数

使用nltk和scikit-learn从文本中为标签云挑选最相关的单词

我想从文本中获取最相关的单词以准备标签云.

我使用scikit-learn包中的CountVectoriser:

cv = CountVectorizer(min_df=1, charset_error="ignore",
    stop_words="english", max_features=200)
Run Code Online (Sandbox Code Playgroud)

这很好,因为它给了我的话和频率:

counts = cv.fit_transform([text]).toarray().ravel()
words = np.array(cv.get_feature_names())
Run Code Online (Sandbox Code Playgroud)

我可以过滤非频繁的单词:

words = words[counts > 1]
counts = counts[counts > 1]
Run Code Online (Sandbox Code Playgroud)

以及单词,即数字:

words = words[np.array(map(lambda x: x.isalpha(), words))]
counts = counts[np.array(map(lambda x: x.isalpha(), words))]
Run Code Online (Sandbox Code Playgroud)

但它仍然不完美......

我的问题是:

  1. 如何过滤掉动词?
  2. 如何完全去除词干以摆脱不同形式的同一个词?
  3. 如何调用CountVectoriser来过滤掉两个字母的单词?

还请注意:

  1. 我很好NLTK但回答诸如"你应该尝试NLTK"不是一个答案,给我一个代码,请.
  2. 我不想使用贝叶斯分类器和其他需要训练模型的技术.我没有时间,我没有训练分类器的例子.
  3. 语言是英语

python data-mining text-mining nltk scikit-learn

3
推荐指数
1
解决办法
2655
查看次数

Weka中的分类器选项显示为灰色

我的数字数据缺少值.我想在Weka中使用朴素贝叶斯分类器对数据进行分类,但选项显示为灰色.请帮忙.

classification machine-learning data-mining weka

3
推荐指数
1
解决办法
9551
查看次数

Lisp中的数据挖掘

我正在寻找一种在Common Lisp中完成数据挖掘任务的方法; 有什么可以使这成为可能吗?我找到了Incanter for Clojure,但是我必须坚持使用Common Lisp来完成手头的任务.

lisp statistics common-lisp data-mining

3
推荐指数
1
解决办法
1095
查看次数

机器学习在实践中:自己编写算法还是使用Weka?

我问自己一个问题,大多数人是否通常自己编写机器学习算法,或者他们是否可能使用现有的解决方案,如Weka或R包.

当然这取决于问题 - 但是我想说我想使用像神经网络这样的通用解决方案.还有理由自己编码吗?更好地理解机制并适应它?或者标准化解决方案的思想更重要?

machine-learning data-mining data-analysis weka

3
推荐指数
1
解决办法
1050
查看次数

scikit-learn中的DBSCAN(仅限度量)

我有对象和距离函数,并希望使用DBSCAN方法聚类这些scikit-learn.我的物体在欧几里德空间中没有表示.我知道,可以使用precomputed公制,但在我的情况下,由于距离矩阵的大小,这是非常不切实际的.有没有办法克服这个问题scikit-learn?也许,有没有其他可以实现的DBSCAN python实现?

python cluster-analysis data-mining dbscan scikit-learn

3
推荐指数
1
解决办法
3874
查看次数

如何对pandas.DataFrame中的每一行分别进行排名

是)我有的

用户-用户相似度矩阵,其中某些行具有重复的值,并且 NaN

userId  316       320       359       370       910
userId                                             
316     1.0  0.500000  0.500000  0.500000       NaN
320     0.5  1.000000  0.242837  0.019035  0.031737
359     0.5  0.242837  1.000000  0.357620  0.175914
370     0.5  0.019035  0.357620  1.000000  0.317371
910     NaN  0.031737  0.175914  0.317371  1.000000
Run Code Online (Sandbox Code Playgroud)

我想要的是

我想对每行的相似性分别进行排名。像这样:

userId  316  320  359  370  910
userId                         
316       1    2    3    4   NaN
320       2    1    3    5    1
359       2    4    1    3    5
370       2    5    3    1    4
910      NaN   4    3    2    1
Run Code Online (Sandbox Code Playgroud)

相同值之间的等级并不重要。但这必须是一个独特的价值。并且 …

python data-mining pandas

3
推荐指数
1
解决办法
1366
查看次数