小编ham*_*miq的帖子

保存火花模型摘要

我正在使用 spark 版本在 pyspark 中运行逻辑回归:2.1.2

我知道可以按如下方式保存回归模型:

# Initialise the logistic regression
model = LogisticRegression(featuresCol='features', labelCol='is_clickout',regParam=0, fitIntercept=False, family="binomial")

model = pipeline.fit(data)

# save model for future use
save_path = "model_0"
model.save(save_path)
Run Code Online (Sandbox Code Playgroud)

问题是保存的模型没有保存摘要:

from pyspark.ml.classification import LogisticRegressionModel
model2 = LogisticRegressionModel.load(save_path)
model2.hasSummary ##### Returns FALSE
Run Code Online (Sandbox Code Playgroud)

我可以按如下方式提取摘要,但它没有附加保存方法: # Get the model summary summary = model.stages[-1].summary

有没有一种快速的方法来保存摘要对象?对于多元回归?

目前我读取了对象的所有属性并将其保存为pandas df。

python logistic-regression apache-spark pyspark

8
推荐指数
1
解决办法
629
查看次数

statsmodels.formula.api importError:无法导入名称'TimeSeries'

这里是python的新手.

使用以下内容:Anaconda - v1.3.1 Spyder - v3.1.4 Python - v3.5

我正在尝试导入以下库:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import statsmodels.formula.api as sm
Run Code Online (Sandbox Code Playgroud)

它一直给我以下错误:

import statsmodels.formula.api as sm
Traceback (most recent call last):

  File "<ipython-input-2-2515cefb61aa>", line 1, in <module>
    import statsmodels.formula.api as sm

  File "//anaconda/lib/python3.5/site-packages/statsmodels/formula/api.py", line 1, in <module>
    from statsmodels.regression.linear_model import GLS

  File "//anaconda/lib/python3.5/site-packages/statsmodels/regression/__init__.py", line 1, in <module>
    from .linear_model import yule_walker

  File "//anaconda/lib/python3.5/site-packages/statsmodels/regression/linear_model.py", line 52, in <module>
    import statsmodels.base.model as base

  File "//anaconda/lib/python3.5/site-packages/statsmodels/base/model.py", line …
Run Code Online (Sandbox Code Playgroud)

python-3.x statsmodels

6
推荐指数
2
解决办法
1万
查看次数

EMR jupyter 笔记本选项卡完成/自动完成?

有没有办法在连接到 EMR 集群的 Jupyter 笔记本或 Jupyterlabs 上启用选项卡完成?

目前,当我启动笔记本时,没有自动完成或选项卡完成。甚至不显示文档字符串。

我使用:emr-5.29.0 Spark 2.4.4 Hive 2.3.6 Hadoop 2.8.5 Hue 4.4.0

amazon-emr jupyter jupyter-notebook jupyter-lab

5
推荐指数
0
解决办法
451
查看次数

将一个dplyr"do"函数的结果传递给另一个函数

我试图按组运行回归,然后将回归模型对象传递给另一个函数.

library("lmtest")
library("broom")
library("tidyr")
library("dplyr")
library("purrr")

  fitted_models <-  mtcars %>% 
    group_by(gear) %>% 
    do(fit = lm(mpg ~ ., data = .),
       test = coeftest(fit)) # from lmtest library
Run Code Online (Sandbox Code Playgroud)

我收到错误:

Error in coeftest(fit) : object 'fit' not found
Run Code Online (Sandbox Code Playgroud)

有没有办法传递变量,以便我可以为每个do文件运行多个函数,以便我的数据框具有齿轮,适合和测试作为其列?

r do.call dplyr

3
推荐指数
1
解决办法
131
查看次数