相关疑难解决方法(0)

多处理scikit-learn

我让linearsvc使用load_file方法对抗训练集和测试集我试图让它在Multiprocessor环境中工作.

如何进行多处理工作LinearSVC().fit() LinearSVC().predict()?我还不熟悉scikit-learn的数据类型.

我也在考虑将样本分成多个数组,但我不熟悉numpy数组和scikit-learn数据结构.

这样做会更容易进入multiprocessing.pool(),然后将样本拆分成块,训练它们并稍后将训练后的集合组合起来,它会起作用吗?

编辑:这是我的方案:

比方说,我们在训练样本集中有100万个文件,当我们想要在几个处理器上分发Tfidfvectorizer的处理时,我们必须分割这些样本(对于我的情况,它只有两个类别,所以假设每个样本需要500000个训练) .我的服务器有24个内核,48 GB,所以我想将每个主题分成块数1000000/24并处理它们的Tfidfvectorizer.就像我将测试样本集,以及SVC.fit()和决定().是否有意义?

谢谢.

PS:请不要关闭它.

python multithreading numpy machine-learning scikit-learn

10
推荐指数
2
解决办法
9475
查看次数