考虑到上述(树枝)条件存在,我猜测它是条件概率.但是,我不清楚.
如果您想了解有关所用数据的更多信息或我们如何获得此图表,请访问:http://machinelearningmastery.com/visualize-gradient-boosting-decision-trees-xgboost-python/
我想根据时间戳查询 Mongo。Follwing 是 mongo 中的字段。
"timestamp" : "2016-03-07 11:33:48"
Run Code Online (Sandbox Code Playgroud)
Books 是集合名称,下面是我对 1 分钟时间段的查询:
db.Books.find({"timestamp":{$gte: ISODate("2016-03-07T11:33:48.000Z"), $lt: ISODate("2016-03-07T11:34:48.000Z")}})
Run Code Online (Sandbox Code Playgroud)
还有没有其他选择,比如我不必对时间戳给出更大和更低的限制。但是提到了基于查询的时间间隔。类似的,如果当前时间戳是 TS = "2016-03-07T11:33:48.000Z" 那么查询应该在 TS 和 TS + 1 分钟之间,而不是明确提及时间戳。类似于添加 1 分钟以显示时间戳
xgboost.plot_importance(model, importance_type='gain')
Run Code Online (Sandbox Code Playgroud)
我无法改变这个情节的大小.我想以适当的大小保存这个数字,以便我可以在pdf中使用它.我想要类似的figize
我们可以通过'权重'获得特征重要性:
model.feature_importances_
Run Code Online (Sandbox Code Playgroud)
但这不是我想要的.我希望通过信息获得重要性.
我们可以通过'获得'图来获得特征重要性:
xgboost.plot_importance(model, importance_type='gain')
Run Code Online (Sandbox Code Playgroud)
但是,我不知道如何从上面的图中获取特征重要性数据.要么
如果有功能,model.feature_importances_
以获得增益功能的重要性?这两种方式中的任何一种都可行.如果问题不明确,请在评论中告诉我
数据如下所示:
pageId]|[page]|[Position]|[sysId]|[carId
0005]|[bmw]|[south]|[AD6]|[OP4
至少有50列和数百万行。
我确实尝试使用下面的代码来阅读:
dff = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").option("inferSchema", "true").option("delimiter", "]|[").load(trainingdata+"part-00000")
它给了我以下错误:
IllegalArgumentException: u'Delimiter cannot be more than one character: ]|['
python ×4
xgboost ×3
matplotlib ×2
python-3.x ×2
apache-spark ×1
database ×1
mongodb ×1
nosql ×1
pyspark ×1
pyspark-sql ×1
timestamp ×1