OpenCV迭代随机森林训练

我正在使用随机森林算法作为我论文项目的分类器.训练集由数千个图像组成,并且对于每个图像,约2000个像素被采样.对于每个像素,我有成千上万的功能.由于我目前的硬件限制(8G的ram,可能可扩展到16G),我能够在内存中只为一个图像拟合样本(即每像素的特征).我的问题是:是否可以多次调用火车方法,每次使用不同的图像样本,并在每次调用时自动更新统计模型？我对变量重要性特别感兴趣,因为在我使用整个功能集训练完整的训练集之后,我的想法是将功能的数量从几十万减少到大约2000,只保留最重要的功能.

感谢Daniele的任何建议

opencv machine-learning training-data random-forest

mUo*_*oro

lucky-day

6
推荐指数

1
解决办法

1665
查看次数

互联网文章和社交媒体的分层分类+主题模型训练数据

我想按主题对大量(100K到1M +)的小型互联网文章(推文,博客文章,新闻等)进行分类.为了实现这一目标,我一直在寻找标记的培训数据文档,我可以用它来构建分类器模型.为了使这篇文章最有用,以下是我发现的一些可能的来源:

a)www.freebase.com/internet/website/category?instances=

b)wikipedia-miner.cms.waikato.ac.nz(用于访问维基百科数据的工具包)

c)en.wikipedia.org/wiki/Wikipedia:Database_download

d)wiki.dbpedia.org/About(属于类别的SKOS格式主题关键字)

e)互联网搜索大型文章集,然后进行聚类和手动策划

问题1:是否有其他可提供标签培训文件的互联网资源？给定主题上的关键字集,尤其是加权集也很有用

理想情况下,我想构建一个分类器,该分类器将返回分层类别,并且随着更多兴趣/数据变得可用,可以在以后添加子主题细节.

问题2:是否存在分层结构(也可能是可扩展的)主题建模/分类框架？一个代码示例将特别受欢迎

非常感谢

更新:

路透社语料库第1卷(在RCV1-v2上搜索)它是从1990年代后期开始的大约80万路透社文章被人类分类为主题,行业和地区类别

一个学术联盟(LDC)分发各种语料库,包括由纽约时报编制的约1.5M标签文件:http: //catalog.ldc.upenn.edu/LDC2008T19

hierarchical-clustering nltk training-data topic-modeling scikit-learn

Zig*_*ien

2014 01-16

6
推荐指数

1
解决办法

1422
查看次数

Keras ImageDataGenerator很慢

我正在寻找在Keras上训练大于内存数据的最佳方法,并且目前注意到vanilla ImageDataGenerator往往比我希望的要慢.

我有两个网络训练Kaggle cat's vs dogs数据集(25000张图片):

1)这种方法正是以下代码:http://www.pyimagesearch.com/2016/09/26/a-simple-neural-network-with-python-and-keras/

2)与(1)相同,但使用ImageDataGenerator而不是将数据加载到内存中

注意:对于下面的内容,"预处理"意味着调整大小,缩放,展平

我在gtx970上找到以下内容:

对于网络1,每个时期需要约0秒.

对于网络2,如果在数据生成器中完成预处理,则每个时期需要大约36秒.

对于网络2,如果在数据生成器外部的第一遍中完成预处理,则每个时期需要约13秒.

这可能是ImageDataGenerator的速度限制(13s似乎是磁盘和RAM之间通常的10-100x差异......)？在使用Keras时,是否有更适合培训大于内存数据的方法/机制？例如,也许有办法让Keras中的ImageDataGenerator在第一个纪元后保存其处理过的图像？

谢谢!

generator training-data neural-network keras

Joh*_*ast

2016 12-12

6
推荐指数

1
解决办法

1925
查看次数

使用python sklearn增量训练随机森林模型

我使用以下代码来保存随机森林模型.我正在使用cPickle来保存训练有素的模型.当我看到新数据时,我可以逐步训练模型吗？目前,列车组有大约2年的数据.有没有办法在另外两年训练,并且(有点)将它附加到现有的已保存模型.

rf =  RandomForestRegressor(n_estimators=100)
print ("Trying to fit the Random Forest model --> ")
if os.path.exists('rf.pkl'):
    print ("Trained model already pickled -- >")
    with open('rf.pkl', 'rb') as f:
        rf = cPickle.load(f)
else:
    df_x_train = x_train[col_feature]
    rf.fit(df_x_train,y_train)
    print ("Training for the model done ")
    with open('rf.pkl', 'wb') as f:
        cPickle.dump(rf, f)
df_x_test = x_test[col_feature]
pred = rf.predict(df_x_test)

标签: training-data

更新:

标签 统计

标签统计