当我们使用R中的Caret Package运行Gradient Boosting Machine模型时,我们有一些变量说(x1,x2,x3)具有更高的变量重要性,但是当我们尝试在h2o中运行相同的GBM时(http:// h2o2016) .wpengine.com/wp-content/themes/h2o2016/images/resources/GBMBooklet.pdf)我们得到一组完全不同的变量同样重要.Caret Package和h2o有什么不同的具体原因吗?
当单个记录大小超过3GB时,我会遇到异常
java.lang.IllegalArgumentException
App > at java.nio.CharBuffer.allocate(CharBuffer.java:330)
App > at java.nio.charset.CharsetDecoder.decode(CharsetDecoder.java:792)
App > at org.apache.hadoop.io.Text.decode(Text.java:412)
App > at org.apache.hadoop.io.Text.decode(Text.java:389)
App > at org.apache.hadoop.io.Text.toString(Text.java:280)
App > at org.apache.spark.sql.execution.datasources.json.JsonFileFormat$$anonfun$createBaseRdd$1.apply(JsonFileFormat.scala:135)
App > at org.apache.spark.sql.execution.datasources.json.JsonFileFormat$$anonfun$createBaseRdd$1.apply(JsonFileFormat.scala:135)
Run Code Online (Sandbox Code Playgroud)
如何增加单个记录的缓冲区大小?