如何在Apache Spark(PySpark 1.4.1)中可视化/绘制决策树?

PyR*_*red 7 plot decision-tree apache-spark

我正在使用Apache Spark Mllib 1.4.1(PySpark,Spark的python实现)来生成基于我所拥有的LabeledPoint数据的决策树.树生成正确,我可以将它打印到终端(提取规则,因为该用户称之为如何从决策树spark MLlib中提取规则):

model = DecisionTree.trainClassifier( ... )
print(model.toDebugString()
Run Code Online (Sandbox Code Playgroud)

但我想要做的是将决策树可视化或绘制,而不是将其打印到终端.有什么方法可以在PySpark中绘制决策树,或者我可以保存决策树数据并使用R来绘制它吗?谢谢!

Vis*_*667 7

有这个项目Decision-Tree-Visualization-Spark用于可视化决策树模型

它有两个步骤

  • 将 Spark 决策树输出解析为JSON格式。
  • 使用 JSON 文件作为D3.js可视化的输入。

对于解析器检查Dt.py

该函数的输入def tree_json(tree)是您的模型toDebugString()

问题中回答