主要问题:如何在python和scikit-learn中组合不同的randomForests?
我目前正在使用R中的randomForest包来使用弹性贴图reduce生成randomforest对象.这是为了解决分类问题.
由于我的输入数据太大而无法放入一台机器的内存中,因此我将数据采样为较小的数据集并生成包含较小树集的随机林对象.然后,我使用修改的组合函数将不同的树组合在一起,以创建新的随机森林对象.此随机林对象包含特征重要性和最终树集.这不包括oob错误或树的投票.
虽然这在R中运行良好,但我想在Python中使用scikit-learn做同样的事情.我可以创建不同的随机森林对象,但我没有办法将它们组合在一起形成一个新对象.任何人都可以指出一个可以结合森林的功能吗?这可能是使用scikit-learn吗?
以下是关于如何在R中进行此过程的问题的链接:在R中组合使用不同训练集构建的随机森林.
编辑:生成的随机森林对象应包含可用于预测的树以及特征重要性.
任何帮助,将不胜感激.
我目前正在文件中搜索多个模式.该文件大小为90GB,我在特定字段(每行6-17位)搜索.我试图获得包含任何特定数字列表的所有行.我使用的当前语法是:
grep '^.\{6\}0000000012345\|^.\{6\}0000000012543' somelargeFile.txt > outputFile.txt
Run Code Online (Sandbox Code Playgroud)
对于少量的模式,这是有效的.对于大量模式,我得到"参数列表太长"错误.
我尝试过的另一种方法是分别搜索每个模式(在模式上使用for循环),但这需要多次传递大数据文件(57102722行),这是无效的.
根据我对"参数列表太长"错误的理解,它通常与bash cmds有关,而不是特定于grep.有没有可用于解决此错误的设置?或者,有关如何使用awk或sed或其他工具执行此操作的任何想法?
谢谢!