小编Paw*_*inP的帖子

在多核机器上对 sklearn.naive_bayes.MultinomialNB 执行网格搜索不会使用所有可用的 CPU 资源

我目前正在尝试使用 Python 和 Scikit-learn 构建一些文本分类工具。

我的文本不是英文的，因此不受词干分解或其他基于英文的降维的通常处理。

结果，TfIdf矩阵变得非常大（150,000x150,000）它可以使用普通PC进行处理，但是对它们运行网格搜索太多了，所以我求助于亚马逊网络服务来运行网格搜索. （我的参数集也很大）

这是我的代码：

 # coding: utf-8  
    import os, json, codecs, nltk  
    import numpy as np  
    from sklearn.feature_extraction.text import TfidfVectorizer,  CountVectorizer,TfidfTransformer  
    from sklearn.grid_search import GridSearchCV  
    from time import time  
    from sklearn.pipeline import Pipeline  
    from sklearn.naive_bayes import MultinomialNB  
    print("Importing dataset...")  
    with open('y_data.json','r') as fp:  
        y = json.load(fp)  
    with open('dataset.json','r') as fp:  
        dataset = json.load(fp)  
    print("Importing stop words...")  
    with codecs.open('stopword.txt','r','utf-8') as fp:  
    stopword = []  
    for w in fp:  
        stopword.append(w.strip())  
    light_st = set(stopword)  
    with codecs.open('st_data.txt','r','cp874') as fp: …

Run Code Online (Sandbox Code Playgroud)

python linux scikit-learn

Paw*_*inP

2014 11-01

5
推荐指数

1
解决办法

1万
查看次数

标签统计

linux ×1

python ×1

scikit-learn ×1

在多核机器上对 sklearn.naive_bayes.MultinomialNB 执行网格搜索不会使用所有可用的 CPU 资源

标签 统计

小编Paw_inP的帖子

标签统计