Tod*_*non 8 python pandas statsmodels
我想使用statsmodelsOLS 类来创建多元回归模型。考虑以下数据集:
import statsmodels.api as sm
import pandas as pd
import numpy as np
dict = {'industry': ['mining', 'transportation', 'hospitality', 'finance', 'entertainment'],
'debt_ratio':np.random.randn(5), 'cash_flow':np.random.randn(5) + 90}
df = pd.DataFrame.from_dict(dict)
x = data[['debt_ratio', 'industry']]
y = data['cash_flow']
def reg_sm(x, y):
x = np.array(x).T
x = sm.add_constant(x)
results = sm.OLS(endog = y, exog = x).fit()
return results
Run Code Online (Sandbox Code Playgroud)
当我运行以下代码时:
reg_sm(x, y)
Run Code Online (Sandbox Code Playgroud)
我收到以下错误:
TypeError: '>=' not supported between instances of 'float' and 'str'
Run Code Online (Sandbox Code Playgroud)
我已经尝试将industry变量转换为分类变量,但仍然出现错误。我别无选择。
Bra*_*mon 10
您在转换为 Categorical dtype 的正确道路上。但是,一旦将 DataFrame 转换为 NumPy 数组,就会得到一个objectdtype(NumPy 数组作为一个整体是一种统一类型)。这意味着单个值仍然str是回归肯定不会喜欢的基础。
您可能想要做的是将此功能虚拟化。而不是分解它,这将有效地将变量视为连续变量,您希望保持一些分类的外观:
>>> import statsmodels.api as sm
>>> import pandas as pd
>>> import numpy as np
>>> np.random.seed(444)
>>> data = {
... 'industry': ['mining', 'transportation', 'hospitality', 'finance', 'entertainment'],
... 'debt_ratio':np.random.randn(5),
... 'cash_flow':np.random.randn(5) + 90
... }
>>> data = pd.DataFrame.from_dict(data)
>>> data = pd.concat((
... data,
... pd.get_dummies(data['industry'], drop_first=True)), axis=1)
>>> # You could also use data.drop('industry', axis=1)
>>> # in the call to pd.concat()
>>> data
industry debt_ratio cash_flow finance hospitality mining transportation
0 mining 0.357440 88.856850 0 0 1 0
1 transportation 0.377538 89.457560 0 0 0 1
2 hospitality 1.382338 89.451292 0 1 0 0
3 finance 1.175549 90.208520 1 0 0 0
4 entertainment -0.939276 90.212690 0 0 0 0
Run Code Online (Sandbox Code Playgroud)
现在您有了 statsmodels 可以更好地使用的 dtype。的目的drop_first是避免虚拟陷阱:
>>> y = data['cash_flow']
>>> x = data.drop(['cash_flow', 'industry'], axis=1)
>>> sm.OLS(y, x).fit()
<statsmodels.regression.linear_model.RegressionResultsWrapper object at 0x115b87cf8>
Run Code Online (Sandbox Code Playgroud)
最后,只是一个小指针:它有助于避免使用隐藏内置对象类型的名称命名引用,例如dict.
我也有这个问题,并且有很多列需要被视为分类列,这使得处理dummify. 转换为string对我不起作用。
对于那些在没有对数据进行单热编码的情况下寻找解决方案的人,R 接口提供了一种很好的方法来做到这一点:
import statsmodels.formula.api as smf
import pandas as pd
import numpy as np
dict = {'industry': ['mining', 'transportation', 'hospitality', 'finance', 'entertainment'],
'debt_ratio':np.random.randn(5), 'cash_flow':np.random.randn(5) + 90}
df = pd.DataFrame.from_dict(dict)
x = df[['debt_ratio', 'industry']]
y = df['cash_flow']
# NB. unlike sm.OLS, there is "intercept" term is included here
smf.ols(formula="cash_flow ~ debt_ratio + C(industry)", data=df).fit()
Run Code Online (Sandbox Code Playgroud)
参考:https : //www.statsmodels.org/stable/example_formulas.html#categorical-variables
| 归档时间: |
|
| 查看次数: |
14491 次 |
| 最近记录: |