我正在使用具有混合数据类型(数字和字符)的数据框,并且还具有字符键作为主要标识符.我想缩放和居中数字变量.我尝试过使用scale()函数,但它要求所有字段都是数字.当我只取数字字段并缩放它们时,我必须删除字符标识符以便能够缩放它们.
我理想的最终状态是我有一个包含字符字段和缩放数字字段的数据框.
我意识到这是一个新手问题,所以请温柔;-)
谢谢!
吉姆
我在Apache Spark中遇到的一个问题是可视化决策树.
我可以使用生产树DecisionTree.trainClassifier.我可以使用以下方法获得一些基本输出:
print(model.toDebugString())
Run Code Online (Sandbox Code Playgroud)
但理想情况下,目前的输出:
If (feature 0 <= -35.0)
If (feature 24 <= 176.0)
Predict: 2.1
If (feature 24 = 176.0)
Predict: 4.2
Else (feature 24 > 176.0)
Predict: 6.3
Else (feature 0 > -35.0)
If (feature 24 <= 11.0)
Predict: 4.5
Else (feature 24 > 11.0)
Predict: 10.2
Run Code Online (Sandbox Code Playgroud)
可以输出为JSON或可解析的东西,以便我们可以在D3 Visualization库中进行分层.使用上面的例子......
{
"node": [
{
"name":"node1",
"rule":"feature 0 <= -35.0",
"children":[
{
"name":"node2",
"rule":"feature 24 <= 176.0",
"children":[
{
"name":"node4",
"rule":"feature 20 < 116.0",
"predict": 2.1
}, …Run Code Online (Sandbox Code Playgroud)