JMH*_*JMH 6 python-3.x pandas statsmodels
完成逻辑回归示例并在接近 statsmodels 部分时遇到一些困难。过去我在 Python 3 和 Pandas 数据帧中遇到困难,其中 df 返回迭代器而不是列表。我已经尝试使用“logit”进行相同的调整,但仍然收到 ValueError
import numpy as np
import pandas as pd
import os
import statsmodels.api as sm
import pylab as pl
df = pd.read_csv('admissions.csv')
df.head(n=5)
df.columns = ['admit', 'gre', 'gpa', 'prestige']
dummy_ranks = pd.get_dummies(df['prestige'], prefix='prestige')
cols_to_keep = ['admit', 'gre', 'gpa']
data = df[cols_to_keep].join(dummy_ranks.ix[:, 'prestige_2':])
data['intercept'] = 1.0
train_cols = data.columns[1:]
logit = sm.Logit(data['admit'], data[train_cols])
result = logit.fit()
Run Code Online (Sandbox Code Playgroud)
ValueError: 在进入 DLASCL 参数 5 时有一个非法值
您的“admissions.csv”中有一个空白值。
根据博客http://blog.yhat.com/posts/logistic-regression-python-rodeo.html使用来自http://www.ats.ucla.edu/stat/data/binary.csv的数据。尝试删除数据中的值,您将收到非法值错误。
正确的:
admit gre gpa rank
0 380 3.61 3
1 520 2.93 4
Run Code Online (Sandbox Code Playgroud)
不正确:
admit gre gpa rank
0 3.61 3
1 520 2.93 4
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
9416 次 |
| 最近记录: |