我正在使用 spark 版本在 pyspark 中运行逻辑回归:2.1.2
我知道可以按如下方式保存回归模型:
# Initialise the logistic regression
model = LogisticRegression(featuresCol='features', labelCol='is_clickout',regParam=0, fitIntercept=False, family="binomial")
model = pipeline.fit(data)
# save model for future use
save_path = "model_0"
model.save(save_path)
Run Code Online (Sandbox Code Playgroud)
问题是保存的模型没有保存摘要:
from pyspark.ml.classification import LogisticRegressionModel
model2 = LogisticRegressionModel.load(save_path)
model2.hasSummary ##### Returns FALSE
Run Code Online (Sandbox Code Playgroud)
我可以按如下方式提取摘要,但它没有附加保存方法: # Get the model summary summary = model.stages[-1].summary
有没有一种快速的方法来保存摘要对象?对于多元回归?
目前我读取了对象的所有属性并将其保存为pandas df。
这里是python的新手.
使用以下内容:Anaconda - v1.3.1 Spyder - v3.1.4 Python - v3.5
我正在尝试导入以下库:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import statsmodels.formula.api as sm
Run Code Online (Sandbox Code Playgroud)
它一直给我以下错误:
import statsmodels.formula.api as sm
Traceback (most recent call last):
File "<ipython-input-2-2515cefb61aa>", line 1, in <module>
import statsmodels.formula.api as sm
File "//anaconda/lib/python3.5/site-packages/statsmodels/formula/api.py", line 1, in <module>
from statsmodels.regression.linear_model import GLS
File "//anaconda/lib/python3.5/site-packages/statsmodels/regression/__init__.py", line 1, in <module>
from .linear_model import yule_walker
File "//anaconda/lib/python3.5/site-packages/statsmodels/regression/linear_model.py", line 52, in <module>
import statsmodels.base.model as base
File "//anaconda/lib/python3.5/site-packages/statsmodels/base/model.py", line …Run Code Online (Sandbox Code Playgroud) 有没有办法在连接到 EMR 集群的 Jupyter 笔记本或 Jupyterlabs 上启用选项卡完成?
目前,当我启动笔记本时,没有自动完成或选项卡完成。甚至不显示文档字符串。
我使用:emr-5.29.0 Spark 2.4.4 Hive 2.3.6 Hadoop 2.8.5 Hue 4.4.0
我试图按组运行回归,然后将回归模型对象传递给另一个函数.
library("lmtest")
library("broom")
library("tidyr")
library("dplyr")
library("purrr")
fitted_models <- mtcars %>%
group_by(gear) %>%
do(fit = lm(mpg ~ ., data = .),
test = coeftest(fit)) # from lmtest library
Run Code Online (Sandbox Code Playgroud)
我收到错误:
Error in coeftest(fit) : object 'fit' not found
Run Code Online (Sandbox Code Playgroud)
有没有办法传递变量,以便我可以为每个do文件运行多个函数,以便我的数据框具有齿轮,适合和测试作为其列?
amazon-emr ×1
apache-spark ×1
do.call ×1
dplyr ×1
jupyter ×1
jupyter-lab ×1
pyspark ×1
python ×1
python-3.x ×1
r ×1
statsmodels ×1