小编dsl*_*990的帖子

以下xgboost模型树图中'leaf'的值是什么意思?

在此输入图像描述

考虑到上述(树枝)条件存在,我猜测它是条件概率.但是,我不清楚.

如果您想了解有关所用数据的更多信息或我们如何获得此图表,请访问:http://machinelearningmastery.com/visualize-gradient-boosting-decision-trees-xgboost-python/

python machine-learning decision-tree random-forest xgboost

10
推荐指数
3
解决办法
5452
查看次数

在时间戳上查询 mongo

我想根据时间戳查询 Mongo。Follwing 是 mongo 中的字段。

"timestamp" : "2016-03-07 11:33:48"
Run Code Online (Sandbox Code Playgroud)

Books 是集合名称,下面是我对 1 分钟时间段的查询:

db.Books.find({"timestamp":{$gte: ISODate("2016-03-07T11:33:48.000Z"), $lt: ISODate("2016-03-07T11:34:48.000Z")}})
Run Code Online (Sandbox Code Playgroud)

还有没有其他选择,比如我不必对时间戳给出更大和更低的限制。但是提到了基于查询的时间间隔。类似的,如果当前时间戳是 TS = "2016-03-07T11:33:48.000Z" 那么查询应该在 TS 和 TS + 1 分钟之间,而不是明确提及时间戳。类似于添加 1 分钟以显示时间戳

database timestamp mongodb nosql

7
推荐指数
1
解决办法
1万
查看次数

如何在xgboost.plot_importance中更改绘图的大小?

xgboost.plot_importance(model, importance_type='gain')
Run Code Online (Sandbox Code Playgroud)

我无法改变这个情节的大小.我想以适当的大小保存这个数字,以便我可以在pdf中使用它.我想要类似的figize

python machine-learning matplotlib python-3.x xgboost

7
推荐指数
1
解决办法
8436
查看次数

如何通过'信息获取'在xgboost中获得功能重要性?

我们可以通过'权重'获得特征重要性:

model.feature_importances_
Run Code Online (Sandbox Code Playgroud)

但这不是我想要的.我希望通过信息获得重要性.

我们可以通过'获得'图来获得特征重要性:

xgboost.plot_importance(model, importance_type='gain')
Run Code Online (Sandbox Code Playgroud)

但是,我不知道如何从上面的图中获取特征重要性数据.要么

如果有功能,model.feature_importances_以获得增益功能的重要性?这两种方式中的任何一种都可行.如果问题不明确,请在评论中告诉我

python machine-learning matplotlib python-3.x xgboost

4
推荐指数
1
解决办法
4453
查看次数

如何使用“] | [”分隔符读取pyspark中的文件

数据如下所示:

pageId]|[page]|[Position]|[sysId]|[carId 0005]|[bmw]|[south]|[AD6]|[OP4

至少有50列和数百万行。

我确实尝试使用下面的代码来阅读:

dff = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").option("delimiter", "]|[").load(trainingdata+"part-00000")

它给了我以下错误:

IllegalArgumentException: u'Delimiter cannot be more than one character: ]|['

python apache-spark pyspark spark-dataframe pyspark-sql

4
推荐指数
1
解决办法
1万
查看次数