标签: data-mining

create random forest and extract each variable's importance;
while (nvar > 1) {
    remove the k (or k%) least important variables;
    run random forest with remaining variables, reporting cverror and predictions
}

Run Code Online (Sandbox Code Playgroud)

目前,我已经重新编写rfcv工作如下:

create random forest and extract each variable's importance;
while (nvar > 1) {
    remove the k (or k%) least important variables;
    tune for the best m for reduced variable set;
    run random forest with remaining variables, reporting cverror and predictions;
}

Run Code Online (Sandbox Code Playgroud)

当然,这将运行时间增加了一个数量级.我的问题是这是多么必要(使用玩具数据集很难得到一个想法),以及是否可以在更短的时间内以任何其他方式大致工作.

r machine-learning data-mining random-forest

tre*_*bot

lucky-day

3
推荐指数

1
解决办法

4840
查看次数

使用nltk和scikit-learn从文本中为标签云挑选最相关的单词

我想从文本中获取最相关的单词以准备标签云.

我使用scikit-learn包中的CountVectoriser:

cv = CountVectorizer(min_df=1, charset_error="ignore",
    stop_words="english", max_features=200)

Run Code Online (Sandbox Code Playgroud)

这很好,因为它给了我的话和频率:

counts = cv.fit_transform([text]).toarray().ravel()
words = np.array(cv.get_feature_names())

Run Code Online (Sandbox Code Playgroud)

我可以过滤非频繁的单词:

words = words[counts > 1]
counts = counts[counts > 1]

Run Code Online (Sandbox Code Playgroud)

以及单词,即数字:

words = words[np.array(map(lambda x: x.isalpha(), words))]
counts = counts[np.array(map(lambda x: x.isalpha(), words))]

Run Code Online (Sandbox Code Playgroud)

但它仍然不完美......

我的问题是:

如何过滤掉动词？
如何完全去除词干以摆脱不同形式的同一个词？
如何调用CountVectoriser来过滤掉两个字母的单词？

还请注意:

我很好NLTK但回答诸如"你应该尝试NLTK"不是一个答案,给我一个代码,请.
我不想使用贝叶斯分类器和其他需要训练模型的技术.我没有时间,我没有训练分类器的例子.
语言是英语

python data-mining text-mining nltk scikit-learn

mno*_*tka

2013 02-07

3
推荐指数

1
解决办法

2655
查看次数

Weka中的分类器选项显示为灰色

我的数字数据缺少值.我想在Weka中使用朴素贝叶斯分类器对数据进行分类,但选项显示为灰色.请帮忙.

classification machine-learning data-mining weka

use*_*953

2013 03-22

3
推荐指数

1
解决办法

9551
查看次数

Lisp中的数据挖掘

我正在寻找一种在Common Lisp中完成数据挖掘任务的方法; 有什么可以使这成为可能吗？我找到了Incanter for Clojure,但是我必须坚持使用Common Lisp来完成手头的任务.

lisp statistics common-lisp data-mining

use*_*257

2013 06-15

3
推荐指数

1
解决办法

1095
查看次数

机器学习在实践中:自己编写算法还是使用Weka？

我问自己一个问题,大多数人是否通常自己编写机器学习算法,或者他们是否可能使用现有的解决方案,如Weka或R包.

当然这取决于问题 - 但是我想说我想使用像神经网络这样的通用解决方案.还有理由自己编码吗？更好地理解机制并适应它？或者标准化解决方案的思想更重要？

machine-learning data-mining data-analysis weka

Mar*_*tin

2013 08-12

3
推荐指数

1
解决办法

1050
查看次数

scikit-learn中的DBSCAN(仅限度量)

我有对象和距离函数,并希望使用DBSCAN方法聚类这些scikit-learn.我的物体在欧几里德空间中没有表示.我知道,可以使用precomputed公制,但在我的情况下,由于距离矩阵的大小,这是非常不切实际的.有没有办法克服这个问题scikit-learn？也许,有没有其他可以实现的DBSCAN python实现？

python cluster-analysis data-mining dbscan scikit-learn

Ser*_*nin

2016 03-09

3
推荐指数

1
解决办法

3874
查看次数

如何对pandas.DataFrame中的每一行分别进行排名

是）我有的

用户-用户相似度矩阵，其中某些行具有重复的值，并且 NaN

userId  316       320       359       370       910
userId                                             
316     1.0  0.500000  0.500000  0.500000       NaN
320     0.5  1.000000  0.242837  0.019035  0.031737
359     0.5  0.242837  1.000000  0.357620  0.175914
370     0.5  0.019035  0.357620  1.000000  0.317371
910     NaN  0.031737  0.175914  0.317371  1.000000

Run Code Online (Sandbox Code Playgroud)

我想要的是

我想对每行的相似性分别进行排名。像这样：

userId  316  320  359  370  910
userId                         
316       1    2    3    4   NaN
320       2    1    3    5    1
359       2    4    1    3    5
370       2    5    3    1    4
910      NaN   4    3    2    1

Run Code Online (Sandbox Code Playgroud)

相同值之间的等级并不重要。但这必须是一个独特的价值。并且 …

python data-mining pandas

Daw*_*wei

lucky-day

3
推荐指数

1
解决办法

1366
查看次数