我在ANACONDA Navigator上安装了"imbalanced-learn"(版本0.3.1).当我使用Jupyter(Python 3)从imbalanced-learn网站运行一个例子时,我得到了一条关于"ModuleNotFoundError"的消息.没有名为'imblearn'的模块.
from imblearn.datasets import make_imbalance
from imblearn.under_sampling import NearMiss
from imblearn.pipeline import make_pipeline
from imblearn.metrics import classification_report_imbalanced
Run Code Online (Sandbox Code Playgroud)
我怎么能解决这个问题?
我会完全承认我可能在这里设置了错误的条件空间,但是由于某种原因,我根本无法使它发挥作用。我正在尝试使用hyperopt来调整逻辑回归模型,并且取决于求解器,还需要探索其他一些参数。如果选择liblinear解算器,则可以选择惩罚,根据惩罚,您还可以选择对偶。但是,当我尝试在此搜索空间上运行hyperopt时,它一直给我一个错误,因为它通过了整个字典,如下所示。有任何想法吗?我得到的错误是'ValueError:Logistic回归仅支持liblinear,newton-cg,lbfgs和sag求解器,得到了{'solver':'sag'}'这种格式在设置随机森林搜索空间时有效,所以我米茫然。
import numpy as np
import scipy as sp
import pandas as pd
pd.options.display.max_columns = None
pd.options.display.max_rows = None
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns
sns.set(style="white")
import pyodbc
import statsmodels as sm
from pandasql import sqldf
import math
from tqdm import tqdm
import pickle
from sklearn.preprocessing import RobustScaler, OneHotEncoder, MinMaxScaler
from sklearn.utils import shuffle
from sklearn.cross_validation import KFold, StratifiedKFold, cross_val_score, cross_val_predict, train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold as StratifiedKFoldIt
from sklearn.feature_selection import RFECV, …Run Code Online (Sandbox Code Playgroud) python scikit-learn logistic-regression hyperparameters hyperopt
我们使用的是 Apache 1.9.0。我写了一个雪花钩插件。我已将钩子放在 $AIRFLOW_HOME/plugins 目录中。
$AIRFLOW_HOME
+--plugins
+--snowflake_hook2.py
Run Code Online (Sandbox Code Playgroud)
雪花_hook2.py
# This is the base class for a plugin
from airflow.plugins_manager import AirflowPlugin
# This is necessary to expose the plugin in the Web interface
from flask import Blueprint
from flask_admin import BaseView, expose
from flask_admin.base import MenuLink
# This is the base hook for connecting to a database
from airflow.hooks.dbapi_hook import DbApiHook
# This is the snowflake provided Connector
import snowflake.connector
# This is the default python logging package
import …Run Code Online (Sandbox Code Playgroud) 我曾经用sklearn.impute.SimpleImputer(strategy='constant',fill_value= 0)一个常数值(这里的 0 是那个常数值)来估算所有缺失值的列。
但是,有时在不同的列中插补不同的常量值是有意义的。例如,我可能想NaN用该列的最大值替换某个列的所有值,或者NaN用最小值替换某个其他列的值,或者假设该特定列值的中值/平均值。
我怎样才能做到这一点?
另外,我实际上是这个领域的新手,所以我不确定这样做是否可以改善我的模型结果。欢迎您提出意见。
我希望能够为我的 df 保存 dtypes,当我下次读取 csv 时,我想证明一个 dtypes 数组。
我尝试了以下方法:
types_dic = df.dtypes.to_dict()
np.save("dtypes.npy", types_dic, allow_pickle=True)
dtyp = np.load("dtypes.npy", allow_pickle=True)
df2 = pd.read_csv(join(folder_no_extension, file), dtype=dtyp)
Run Code Online (Sandbox Code Playgroud)
但它不起作用——日期时间时间没有恢复......
如果我显式创建字典它也不起作用
types_dic = {}
for t in df.dtypes:
types_dic[t] = str(df.dtypes[t])
df.dtypes
BN object
School_Year datetime64[ns]
Start_Date datetime64[ns]
Overall_Rating object
Indicator_1.1 object
Indicator_1.2 object
Indicator_1.3 object
Indicator_1.4 object
Run Code Online (Sandbox Code Playgroud)
和
df2.dtypes
BN object
School_Year object
Start_Date object
Overall_Rating object
Indicator_1.1 object
Indicator_1.2 object
Indicator_1.3 object
Indicator_1.4 object
Run Code Online (Sandbox Code Playgroud) 我有两组数据,我想找到其中的相关性。尽管数据相当分散,但存在明显的关系。我目前使用 numpy polyfit (第 8 阶),但该行有一些“摆动”(特别是在开头和结尾),这是不合适的。其次,我认为线条开始处的拟合效果不是很好(曲线应该稍微陡一些。
如何通过这些数据点获得最适合的“样条线”?
我当前的代码:
# fit regression line
regressionLineOrder = 8
regressionLine = np.polyfit(data['x'], data['y'], regressionLineOrder)
p = np.poly1d(regressionLine)
Run Code Online (Sandbox Code Playgroud) 我有一个这样的数据框
df = (pd.DataFrame({'ID': ['ID1', 'ID2', 'ID3'],
'colA': ['A', 'B', 'C'],
'colB': ['D', np.nan, 'E']}))
df
ID colA colB
0 ID1 A D
1 ID2 B NaN
2 ID3 C E
Run Code Online (Sandbox Code Playgroud)
我想合并这两列,但是如果 B 列是 NaN,则只保留 A 列。因此预期输出是
ID colA colB colC
0 ID1 A D A_D
1 ID2 B NaN B
2 ID3 C E C_E
Run Code Online (Sandbox Code Playgroud) 有人知道格式化在 Snowflake 编辑器中编写的任何长 SQL 查询的方法或快捷键吗?我浏览了整个 Snowflake 文档,但找不到任何内容。
我不知道“对数回归”是否正确,我需要在数据上拟合一条曲线,例如多项式曲线,但最终会趋于平缓。
这是一张图像,蓝色曲线是我所需要的(二阶多项式回归),品红色曲线是我所需要的。
我进行了很多搜索,找不到,只有线性回归,多项式回归,而对sklearn没有对数回归。我需要绘制曲线,然后通过回归进行预测。
编辑
这是我发布的绘图图像的数据:
x,y
670,75
707,46
565,47
342,77
433,73
472,46
569,52
611,60
616,63
493,67
572,11
745,12
483,75
637,75
218,251
444,72
305,75
746,64
444,98
342,117
272,85
128,275
500,75
654,65
241,150
217,150
426,131
155,153
841,66
737,70
722,70
754,60
664,60
688,60
796,55
799,62
229,150
232,95
116,480
340,49
501,65
Run Code Online (Sandbox Code Playgroud) python ×6
scikit-learn ×4
pandas ×3
python-3.x ×2
snowflake-cloud-data-platform ×2
airflow ×1
anaconda ×1
csv ×1
dataframe ×1
datetime ×1
hyperopt ×1
imblearn ×1
nan ×1
numpy ×1
regression ×1
scipy ×1