随机森林分类器分割故障

Car*_*ana 9 python random-forest scikit-learn

我一直试图在大约50,000个条目的数据集上运行RF分类器,其中有20个左右的标签,我认为应该没问题,但是当我试图适应时我仍然会遇到以下问题...

Exception MemoryError: MemoryError() in 'sklearn.tree._tree.Tree._resize' ignored
Segmentation fault (core dumped)
Run Code Online (Sandbox Code Playgroud)

数据集已通过TfidfVectorizer,然后通过TruncatedSVD,n = 100,以减少维数.RandomForestClassifier以n_jobs = 1和n_estimators = 10运行,试图找到它将工作的最小点.该系统运行时带有4GB的RAM,RF过去曾在类似的数据集上运行,估计数量更多.Scikit-learn运行在当前版本0.14.1.

有小费吗?

谢谢

Ian*_*nSR 2

段错误始终是错误。如果malloc内部失败RandomForest,那么它应该被捕获,我最好的猜测这就是发生在你身上的事情。正如评论者已经说过的那样,您应该将此报告给 RandomForest 错误跟踪器。但由于内存不足,可能会失败,因此请减少维度、减少训练数据集大小、获取更多内存,或者在具有更多内存的系统上malloc运行