小编kev*_*s_1的帖子

Jupyter:安装后没有名为'imblearn'的模块

我在ANACONDA Navigator上安装了"imbalanced-learn"(版本0.3.1).当我使用Jupyter(Python 3)从imbalanced-learn网站运行一个例子时,我得到了一条关于"ModuleNotFoundError"的消息.没有名为'imblearn'的模块.

from imblearn.datasets import make_imbalance
from imblearn.under_sampling import NearMiss
from imblearn.pipeline import make_pipeline
from imblearn.metrics import classification_report_imbalanced

Run Code Online (Sandbox Code Playgroud)

我怎么能解决这个问题？

python-3.x scikit-learn anaconda jupyter-notebook imblearn

TTZ*_*TTZ

2019 08-28

6
推荐指数

2
解决办法

2万
查看次数

我会完全承认我可能在这里设置了错误的条件空间，但是由于某种原因，我根本无法使它发挥作用。我正在尝试使用hyperopt来调整逻辑回归模型，并且取决于求解器，还需要探索其他一些参数。如果选择liblinear解算器，则可以选择惩罚，根据惩罚，您还可以选择对偶。但是，当我尝试在此搜索空间上运行hyperopt时，它一直给我一个错误，因为它通过了整个字典，如下所示。有任何想法吗？我得到的错误是'ValueError：Logistic回归仅支持liblinear，newton-cg，lbfgs和sag求解器，得到了{'solver'：'sag'}'这种格式在设置随机森林搜索空间时有效，所以我米茫然。

import numpy as np
import scipy as sp
import pandas as pd
pd.options.display.max_columns = None
pd.options.display.max_rows = None
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set(style="white")
import pyodbc
import statsmodels as sm
from pandasql import sqldf
import math
from tqdm import tqdm
import pickle


from sklearn.preprocessing import RobustScaler, OneHotEncoder, MinMaxScaler
from sklearn.utils import shuffle
from sklearn.cross_validation import KFold, StratifiedKFold, cross_val_score, cross_val_predict, train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold as StratifiedKFoldIt
from sklearn.feature_selection import RFECV, …

Run Code Online (Sandbox Code Playgroud)

python scikit-learn logistic-regression hyperparameters hyperopt

Swi*_*527

2019 08-27

5
推荐指数

1
解决办法

715
查看次数

气流插件没有被正确拾取

我们使用的是 Apache 1.9.0。我写了一个雪花钩插件。我已将钩子放在 $AIRFLOW_HOME/plugins 目录中。

$AIRFLOW_HOME
  +--plugins
    +--snowflake_hook2.py

Run Code Online (Sandbox Code Playgroud)

雪花_hook2.py

# This is the base class for a plugin
from airflow.plugins_manager import AirflowPlugin

# This is necessary to expose the plugin in the Web interface
from flask import Blueprint
from flask_admin import BaseView, expose
from flask_admin.base import MenuLink

# This is the base hook for connecting to a database
from airflow.hooks.dbapi_hook import DbApiHook

# This is the snowflake provided Connector
import snowflake.connector

# This is the default python logging package
import …

Run Code Online (Sandbox Code Playgroud)

airflow snowflake-cloud-data-platform

JMo*_*ney

2019 08-20

5
推荐指数

1
解决办法

6494
查看次数

如何使用 SimpleImputer 类来估算具有不同常量值的不同列中的缺失值？

我曾经用sklearn.impute.SimpleImputer(strategy='constant',fill_value= 0)一个常数值（这里的 0 是那个常数值）来估算所有缺失值的列。

但是，有时在不同的列中插补不同的常量值是有意义的。例如，我可能想NaN用该列的最大值替换某个列的所有值，或者NaN用最小值替换某个其他列的值，或者假设该特定列值的中值/平均值。

我怎样才能做到这一点？

另外，我实际上是这个领域的新手，所以我不确定这样做是否可以改善我的模型结果。欢迎您提出意见。

python pandas scikit-learn

len*_*ngh

2019 07-17

5
推荐指数

1
解决办法

6909
查看次数

保存保存为 csv 的 pandas 数据框的数据类型

我希望能够为我的 df 保存 dtypes，当我下次读取 csv 时，我想证明一个 dtypes 数组。

我尝试了以下方法：

types_dic = df.dtypes.to_dict()
np.save("dtypes.npy", types_dic, allow_pickle=True)
dtyp = np.load("dtypes.npy", allow_pickle=True)
df2 = pd.read_csv(join(folder_no_extension, file), dtype=dtyp)

Run Code Online (Sandbox Code Playgroud)

但它不起作用——日期时间时间没有恢复......

如果我显式创建字典它也不起作用

types_dic = {}
for t in df.dtypes:
   types_dic[t] = str(df.dtypes[t])



df.dtypes

BN                            object
School_Year           datetime64[ns]
Start_Date            datetime64[ns]
Overall_Rating                object
Indicator_1.1                 object
Indicator_1.2                 object
Indicator_1.3                 object
Indicator_1.4                 object

Run Code Online (Sandbox Code Playgroud)

和

df2.dtypes

BN                    object
School_Year           object
Start_Date            object
Overall_Rating        object
Indicator_1.1         object
Indicator_1.2         object
Indicator_1.3         object
Indicator_1.4         object

Run Code Online (Sandbox Code Playgroud)

python csv datetime pandas

Yoh*_*oth

2019 09-07

4
推荐指数

1
解决办法

9606
查看次数

通过散点拟合样条曲线

我有两组数据，我想找到其中的相关性。尽管数据相当分散，但存在明显的关系。我目前使用 numpy polyfit （第 8 阶），但该行有一些“摆动”（特别是在开头和结尾），这是不合适的。其次，我认为线条开始处的拟合效果不是很好（曲线应该稍微陡一些。

如何通过这些数据点获得最适合的“样条线”？

我当前的代码：

# fit regression line
regressionLineOrder = 8
regressionLine = np.polyfit(data['x'], data['y'], regressionLineOrder)
p = np.poly1d(regressionLine)

Run Code Online (Sandbox Code Playgroud)

python numpy scipy non-linear-regression

Yor*_*ian

2019 07-26

3
推荐指数

1
解决办法

1万
查看次数

用 NaN 连接 Pandas 中的两列

我有一个这样的数据框

df = (pd.DataFrame({'ID': ['ID1', 'ID2', 'ID3'], 
                        'colA': ['A', 'B', 'C'], 
                        'colB': ['D', np.nan, 'E']}))

df

    ID  colA   colB
0   ID1 A      D
1   ID2 B      NaN
2   ID3 C      E

Run Code Online (Sandbox Code Playgroud)

我想合并这两列，但是如果 B 列是 NaN，则只保留 A 列。因此预期输出是

    ID  colA    colB    colC
0   ID1 A       D       A_D
1   ID2 B       NaN     B
2   ID3 C       E       C_E

Run Code Online (Sandbox Code Playgroud)

python nan dataframe python-3.x pandas

Har*_*pta

2019 07-20

3
推荐指数

2
解决办法

4282
查看次数

Snowflake SQL 编辑器中 SQL 查询的格式（缩进）

有人知道格式化在 Snowflake 编辑器中编写的任何长 SQL 查询的方法或快捷键吗？我浏览了整个 Snowflake 文档，但找不到任何内容。

snowflake-cloud-data-platform

Vai*_*rma

2019 09-18

2
推荐指数

1
解决办法

1万
查看次数

我可以对sklearn进行对数回归吗？

我不知道“对数回归”是否正确，我需要在数据上拟合一条曲线，例如多项式曲线，但最终会趋于平缓。

这是一张图像，蓝色曲线是我所需要的（二阶多项式回归），品红色曲线是我所需要的。

我进行了很多搜索，找不到，只有线性回归，多项式回归，而对sklearn没有对数回归。我需要绘制曲线，然后通过回归进行预测。

编辑

这是我发布的绘图图像的数据：

Run Code Online (Sandbox Code Playgroud)

python regression scikit-learn

Alv*_*ena

2019 07-15

1
推荐指数

2
解决办法

4733
查看次数