标签: classification

from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import classification_report
from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer(sparse=False)
rf = RandomForestClassifier(n_estimators = 100)
trainFeatures1 = vec.fit_transform(trainFeatures)

# Fit the training data to the training output and create the decision trees
rf = rf.fit(trainFeatures1.toarray(), LabelEncoder().fit_transform(trainLabels))

testFeatures1 = vec.fit_transform(testFeatures)
# Take the same decision trees and run on the test data
Output = rf.score(testFeatures1.toarray(), LabelEncoder().fit_transform(testLabels))

print "accuracy: " + str(Output)

Run Code Online (Sandbox Code Playgroud)

我的问题是该fit_transform方法正在处理火车数据集,其中包含大约8000个实例,但是当我尝试将我的测试集转换为数字特征时,也就是大约80000个实例,我得到一个内存错误,说:

testFeatures1 = vec.fit_transform(testFeatures)
File …

Run Code Online (Sandbox Code Playgroud)

classification machine-learning random-forest scikit-learn text-classification

Cri*_*a23

2014 07-21

13
推荐指数

1
解决办法

9204
查看次数

朴素贝叶斯:不平衡的测试数据集

我使用scikit-learn Multinomial Naive Bayes分类器进行二进制文本分类(分类器告诉我文档是否属于X类).我使用平衡数据集训练我的模型和平衡测试集来测试它,结果很有希望.

该分类器需要实时运行并不断分析随机抛出的文档.

但是,当我在生产中运行我的分类器时,误报的数量非常高,因此我的精度非常低.原因很简单:在实时场景中(大约90%的时间),分类器会遇到更多负面样本,这与我用于测试和培训的理想平衡数据集不对应.

有没有办法可以在训练期间模拟这个实时案例,或者我可以使用任何技巧(包括对文档进行预处理以查看它们是否适合于分类器)？

我计划使用不平衡的数据集来训练我的分类器,其比例与我在实时案例中的比例相同,但我担心这可能会使朴素贝叶斯偏向负面阶级而失去对正面课程的回忆.

任何建议表示赞赏.

python classification machine-learning scikit-learn text-classification

Ero*_*rol

lucky-day

13
推荐指数

1
解决办法

5533
查看次数

在sklearn中的TfidfVectorizer中向stop_words列表添加单词

我想在TfidfVectorizer中为stop_words添加一些单词.我按照添加单词的解决方案来scikit-learn的CountVectorizer的停止列表.我的停用词列表现在包含"英语"停用词和我指定的停用词.但是仍然TfidfVectorizer不接受我的停用词列表,我仍然可以在我的功能列表中看到这些词.以下是我的代码

from sklearn.feature_extraction import text
my_stop_words = text.ENGLISH_STOP_WORDS.union(my_words)

vectorizer = TfidfVectorizer(analyzer=u'word',max_df=0.95,lowercase=True,stop_words=set(my_stop_words),max_features=15000)
X= vectorizer.fit_transform(text)

Run Code Online (Sandbox Code Playgroud)

我还尝试在TfidfVectorizer中将stop_words设置为stop_words = my_stop_words.但它仍然无效.请帮忙.

python classification stop-words scikit-learn text-classification

ac1*_*c11

2017 05-23

13
推荐指数

2
解决办法

2万
查看次数

在scikit中结合随机森林模型学习

我有两个RandomForestClassifier模型,我想将它们组合成一个元模型.他们都使用类似但不同的数据进行培训.我怎样才能做到这一点？

rf1 #this is my first fitted RandomForestClassifier object, with 250 trees
rf2 #this is my second fitted RandomForestClassifier object, also with 250 trees

Run Code Online (Sandbox Code Playgroud)

我想创建big_rf所有树木组合成一个500树模型

python classification python-2.7 random-forest scikit-learn

mgo*_*ser

2015 02-22

13
推荐指数

2
解决办法

6504
查看次数

sklearn LogisticRegression并更改分类的默认阈值

我正在使用sklearn包中的LogisticRegression,并且有一个关于分类的快速问题.我为我的分类器建立了一条ROC曲线,结果证明我的训练数据的最佳阈值大约为0.25.我假设创建预测时的默认阈值是0.5.如何进行10倍交叉验证时,如何更改此默认设置以了解模型的准确度？基本上,我希望我的模型能够为大于0.25但不是0.5的任何人预测"1".我一直在查看所有文档,我似乎无法到达任何地方.

在此先感谢您的帮助.

python regression classification scikit-learn

Che*_*bhu

2018 03-28

13
推荐指数

2
解决办法

1万
查看次数

使用Keras进行物体检测:更快的R-CNN或YOLO的简单方法

这个问题可能已得到解答,但我没有找到一个简单的答案.我使用Keras创建了一个convnet来对"辛普森一家"字符进行分类(这里是数据集).
我有20个类并给出一个图像作为输入,我返回字符名称.这很简单.我的数据集包含图片中主要字符的图片,并且只有字符的名称作为标签.

现在我想添加一个对象检测问题,即在图片中的字符周围绘制一个边界框并预测它是哪个字符.我不想使用滑动窗口,因为它真的很慢.所以我考虑使用更快的RCNN(github repo)或YOLO(github repo).我是否应该为训练集的每张图片添加边界框的坐标？有没有办法在没有给出训练集的坐标的情况下进行物体检测(并在我的测试中得到边界框)？

总之,我想创建一个简单的对象检测模型,我不知道是否有可能创建一个更简单的YOLO或更快的RCNN.

非常感谢您的帮助.

classification object-detection deep-learning keras

A. *_*tia

2017 06-22

13
推荐指数

1
解决办法

1万
查看次数