我让linearsvc使用load_file方法对抗训练集和测试集我试图让它在Multiprocessor环境中工作.
如何进行多处理工作LinearSVC().fit() LinearSVC().predict()?我还不熟悉scikit-learn的数据类型.
我也在考虑将样本分成多个数组,但我不熟悉numpy数组和scikit-learn数据结构.
这样做会更容易进入multiprocessing.pool(),然后将样本拆分成块,训练它们并稍后将训练后的集合组合起来,它会起作用吗?
编辑:这是我的方案:
比方说,我们在训练样本集中有100万个文件,当我们想要在几个处理器上分发Tfidfvectorizer的处理时,我们必须分割这些样本(对于我的情况,它只有两个类别,所以假设每个样本需要500000个训练) .我的服务器有24个内核,48 GB,所以我想将每个主题分成块数1000000/24并处理它们的Tfidfvectorizer.就像我将测试样本集,以及SVC.fit()和决定().是否有意义?
谢谢.
PS:请不要关闭它.