小编DIN*_*GAN的帖子

h2o中的GBM模型产生的变量重要性不同于R？

当我们使用R中的Caret Package运行Gradient Boosting Machine模型时,我们有一些变量说(x1,x2,x3)具有更高的变量重要性,但是当我们尝试在h2o中运行相同的GBM时(http:// h2o2016) .wpengine.com/wp-content/themes/h2o2016/images/resources/GBMBooklet.pdf)我们得到一组完全不同的变量同样重要.Caret Package和h2o有什么不同的具体原因吗？

r machine-learning apache-spark h2o sparkling-water

DIN*_*GAN

2017 03-17

6
推荐指数

0
解决办法

219
查看次数

处理记录大小超过3GB的火花

当单个记录大小超过3GB时,我会遇到异常

java.lang.IllegalArgumentException
App > at java.nio.CharBuffer.allocate(CharBuffer.java:330)
App > at java.nio.charset.CharsetDecoder.decode(CharsetDecoder.java:792)
App > at org.apache.hadoop.io.Text.decode(Text.java:412)
App > at org.apache.hadoop.io.Text.decode(Text.java:389)
App > at org.apache.hadoop.io.Text.toString(Text.java:280)
App > at org.apache.spark.sql.execution.datasources.json.JsonFileFormat$$anonfun$createBaseRdd$1.apply(JsonFileFormat.scala:135)
App > at org.apache.spark.sql.execution.datasources.json.JsonFileFormat$$anonfun$createBaseRdd$1.apply(JsonFileFormat.scala:135)

Run Code Online (Sandbox Code Playgroud)

如何增加单个记录的缓冲区大小？

hadoop memory-management scala apache-spark spark-dataframe

DIN*_*GAN

2017 11-09

5
推荐指数

1
解决办法

224
查看次数