我一直试图在大约50,000个条目的数据集上运行RF分类器,其中有20个左右的标签,我认为应该没问题,但是当我试图适应时我仍然会遇到以下问题...
Exception MemoryError: MemoryError() in 'sklearn.tree._tree.Tree._resize' ignored
Segmentation fault (core dumped)
Run Code Online (Sandbox Code Playgroud)
数据集已通过TfidfVectorizer,然后通过TruncatedSVD,n = 100,以减少维数.RandomForestClassifier以n_jobs = 1和n_estimators = 10运行,试图找到它将工作的最小点.该系统运行时带有4GB的RAM,RF过去曾在类似的数据集上运行,估计数量更多.Scikit-learn运行在当前版本0.14.1.
有小费吗?
谢谢
是否有可能将一个numpy数组列表发送到Python中的for循环,然后让它遍历每一个?一个假的例子:
apples = [red, green]
for type in apples:
print type
Run Code Online (Sandbox Code Playgroud)
红色和绿色是哪个阵列包含不同品种的红色和绿色苹果?目前它只会打印'红色'和'绿色',但我希望循环能够访问数组.对Python来说很新,所以请原谅这是一个简单的问题!谢谢你的帮助.