小编ham*_*miq的帖子

保存火花模型摘要

我正在使用 spark 版本在 pyspark 中运行逻辑回归：2.1.2

我知道可以按如下方式保存回归模型：

# Initialise the logistic regression
model = LogisticRegression(featuresCol='features', labelCol='is_clickout',regParam=0, fitIntercept=False, family="binomial")

model = pipeline.fit(data)

# save model for future use
save_path = "model_0"
model.save(save_path)

Run Code Online (Sandbox Code Playgroud)

问题是保存的模型没有保存摘要：

from pyspark.ml.classification import LogisticRegressionModel
model2 = LogisticRegressionModel.load(save_path)
model2.hasSummary ##### Returns FALSE

Run Code Online (Sandbox Code Playgroud)

我可以按如下方式提取摘要，但它没有附加保存方法： # Get the model summary summary = model.stages[-1].summary

有没有一种快速的方法来保存摘要对象？对于多元回归？

目前我读取了对象的所有属性并将其保存为pandas df。

python logistic-regression apache-spark pyspark

ham*_*miq

2018 12-11

8
推荐指数

1
解决办法

629
查看次数

statsmodels.formula.api importError:无法导入名称'TimeSeries'

这里是python的新手.

使用以下内容:Anaconda - v1.3.1 Spyder - v3.1.4 Python - v3.5

我正在尝试导入以下库:

import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import statsmodels.formula.api as sm

Run Code Online (Sandbox Code Playgroud)

它一直给我以下错误:

import statsmodels.formula.api as sm
Traceback (most recent call last):

  File "<ipython-input-2-2515cefb61aa>", line 1, in <module>
    import statsmodels.formula.api as sm

  File "//anaconda/lib/python3.5/site-packages/statsmodels/formula/api.py", line 1, in <module>
    from statsmodels.regression.linear_model import GLS

  File "//anaconda/lib/python3.5/site-packages/statsmodels/regression/__init__.py", line 1, in <module>
    from .linear_model import yule_walker

  File "//anaconda/lib/python3.5/site-packages/statsmodels/regression/linear_model.py", line 52, in <module>
    import statsmodels.base.model as base

  File "//anaconda/lib/python3.5/site-packages/statsmodels/base/model.py", line …

Run Code Online (Sandbox Code Playgroud)

python-3.x statsmodels

ham*_*miq

lucky-day

6
推荐指数

2
解决办法

1万
查看次数

EMR jupyter 笔记本选项卡完成/自动完成？

有没有办法在连接到 EMR 集群的 Jupyter 笔记本或 Jupyterlabs 上启用选项卡完成？

目前，当我启动笔记本时，没有自动完成或选项卡完成。甚至不显示文档字符串。

我使用：emr-5.29.0 Spark 2.4.4 Hive 2.3.6 Hadoop 2.8.5 Hue 4.4.0

amazon-emr jupyter jupyter-notebook jupyter-lab

ham*_*miq

lucky-day

5
推荐指数

0
解决办法

451
查看次数

将一个dplyr"do"函数的结果传递给另一个函数

我试图按组运行回归,然后将回归模型对象传递给另一个函数.

library("lmtest")
library("broom")
library("tidyr")
library("dplyr")
library("purrr")

  fitted_models <-  mtcars %>% 
    group_by(gear) %>% 
    do(fit = lm(mpg ~ ., data = .),
       test = coeftest(fit)) # from lmtest library

Run Code Online (Sandbox Code Playgroud)

我收到错误:

Error in coeftest(fit) : object 'fit' not found

Run Code Online (Sandbox Code Playgroud)

有没有办法传递变量,以便我可以为每个do文件运行多个函数,以便我的数据框具有齿轮,适合和测试作为其列？

r do.call dplyr

ham*_*miq

lucky-day

3
推荐指数

1
解决办法

131
查看次数

标签统计

amazon-emr ×1

apache-spark ×1

do.call ×1

dplyr ×1

jupyter ×1

jupyter-lab ×1

jupyter-notebook ×1

logistic-regression ×1

pyspark ×1

python ×1

python-3.x ×1

r ×1

statsmodels ×1

保存火花模型摘要

statsmodels.formula.api importError:无法导入名称'TimeSeries'

EMR jupyter 笔记本选项卡完成/自动完成？

将一个dplyr"do"函数的结果传递给另一个函数

标签 统计

小编ham_miq的帖子

标签统计