在Python中建模时检测多线性或具有线性组合的列:LinAlgError

Question

在Python中建模时检测多线性或具有线性组合的列:LinAlgError

ekt*_*kta 8 numpy singular python-2.7 statsmodels logistic-regression

我正在为具有34个因变量的logit模型建模数据,并且它继续抛出奇异矩阵误差,如下所示:

Traceback (most recent call last):
  File "<pyshell#1116>", line 1, in <module>
    test_scores  = smf.Logit(m['event'], train_cols,missing='drop').fit()
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/discrete/discrete_model.py", line 1186, in fit
    disp=disp, callback=callback, **kwargs)
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/discrete/discrete_model.py", line 164, in fit
    disp=disp, callback=callback, **kwargs)
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/base/model.py", line 357, in fit
    hess=hess)
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/base/model.py", line 405, in _fit_mle_newton
    newparams = oldparams - np.dot(np.linalg.inv(H),
  File "/usr/local/lib/python2.7/site-packages/numpy/linalg/linalg.py", line 445, in inv
    return wrap(solve(a, identity(a.shape[0], dtype=a.dtype)))
  File "/usr/local/lib/python2.7/site-packages/numpy/linalg/linalg.py", line 328, in solve
    raise LinAlgError, 'Singular matrix'
LinAlgError: Singular matrix

Run Code Online (Sandbox Code Playgroud)

当我对这种方法进行简化以将矩阵减少到其独立列时就是这样

def independent_columns(A, tol = 0):#1e-05):
    """
    Return an array composed of independent columns of A.

    Note the answer may not be unique; this function returns one of many
    possible answers.

    https://stackoverflow.com/q/13312498/190597 (user1812712)
    http://math.stackexchange.com/a/199132/1140 (Gerry Myerson)
    http://mail.scipy.org/pipermail/numpy-discussion/2008-November/038705.html
        (Anne Archibald)

    >>> A = np.array([(2,4,1,3),(-1,-2,1,0),(0,0,2,2),(3,6,2,5)])
    2 4 1 3
    -1 -2 1 0
    0 0 2 2
    3 6 2 5
    # try with checking the rank of matrixs 
    >>> independent_columns(A)
    np.array([[1, 4],
              [2, 5],
              [3, 6]])
    """
    Q, R = linalg.qr(A)
    independent = np.where(np.abs(R.diagonal()) > tol)[0]
    #print independent
    return A[:, independent], independent


A,independent_col_indexes=independent_columns(train_cols.as_matrix(columns=None)) 
#train_cols will not be converted back from a df to a  matrix object,so doing this explicitly
A2=pd.DataFrame(A, columns=train_cols.columns[independent_col_indexes])

test_scores = smf.Logit(m['event'],A2,missing='drop').fit()

Run Code Online (Sandbox Code Playgroud)

我仍然得到LinAlgError,虽然我希望我现在可以减少矩阵等级.

另外,我看到np.linalg.matrix_rank(train_cols)返回33(即在调用independent_columns函数之前,总"x"列是34(即len(train_cols.ix[0])=34),意味着我没有完整的秩矩阵),而np.linalg.matrix_rank(A2)返回33(意味着我删除了一列,然而我仍然看到LinAlgError,当我跑步时test_scores = smf.Logit(m['event'],A2,missing='drop').fit(),我错过了什么？

参考上面的代码 - 如何在协方差矩阵中找到退化的行/列

我试图通过一次引入每个变量来开始构建模型,这不会给我一个奇异的矩阵错误,但我宁愿有一个确定性的方法,让我知道,我做错了什么&如何消除这些列.

编辑(更新后发布@ user333700的建议)

1.你是对的,"A2"没有的33降低等级.即.len(A2.ix[0]) =34 - >意味着可能的共线列没有被删除 - 我应该增加"tol",容忍度得到A2的等级(及其列数),如果是33.如果我将tol改为"1e-05",然后我知道了len(A2.ix[0]) =33,这对我来说,tol> 0(严格地说)是一个指标.在此之后我只是做了同样的事情test_scores = smf.Logit(m['event'],A2,missing='drop').fit(),没有nm来获得收敛.

2.尝试'nm'方法后的错误.奇怪的是,如果我只拍摄20,000行,我会得到结果.因为它没有显示内存错误,但" Inverting hessian failed, no bse or cov_params available" - 我假设,有多个几乎相似的记录 - 你会说什么？

m  = smf.Logit(data['event_custom'].ix[0:1000000] , train_cols.ix[0:1000000],missing='drop')
test_scores=m.fit(start_params=None,method='nm',maxiter=200,full_output=1)
Warning: Maximum number of iterations has been exceeded

Warning (from warnings module):
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/base/model.py", line 374
    warn(warndoc, Warning)
Warning: Inverting hessian failed, no bse or cov_params available


test_scores.summary()

Traceback (most recent call last):
  File "<pyshell#17>", line 1, in <module>
    test_scores.summary()
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/discrete/discrete_model.py", line 2396, in summary
    yname_list)
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/discrete/discrete_model.py", line 2253, in summary
    use_t=False)
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/iolib/summary.py", line 826, in add_table_params
    use_t=use_t)
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/iolib/summary.py", line 447, in summary_params
    std_err = results.bse
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/tools/decorators.py", line 95, in __get__
    _cachedval = self.fget(obj)
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/base/model.py", line 1037, in bse
    return np.sqrt(np.diag(self.cov_params()))
  File "/usr/local/lib/python2.7/site-packages/statsmodels-0.5.0-py2.7-linux-i686.egg/statsmodels/base/model.py", line 1102, in cov_params
    raise ValueError('need covariance of parameters for computing '
ValueError: need covariance of parameters for computing (unnormalized) covariances

Run Code Online (Sandbox Code Playgroud)

编辑2 :(更新后发布@ user333700的建议)

重申我想要建模的东西 - 不到约1%的总用户"转换"(成功结果) - 所以我采取了35(+ ve)/ 65(-ve)的平衡样本

我怀疑这个模型并不健壮,尽管它收敛了.因此,将使用"start_params"作为来自早期迭代的参数,来自不同的数据集.此编辑是关于确认"start_params"可以输入结果如下 - :

A,independent_col_indexes=independent_columns(train_cols.as_matrix(columns=None))
A2=pd.DataFrame(A, columns=train_cols.columns[independent_col_indexes])
m  = smf.Logit(data['event_custom'], A2,missing='drop')
#m  = smf.Logit(data['event_custom'], train_cols,missing='drop')#,method='nm').fit()#This doesnt work, so tried 'nm' which work, but used lasso, as nm did not converge.
test_scores=m.fit_regularized(start_params=None, method='l1', maxiter='defined_by_method', full_output=1, disp=1, callback=None, alpha=0, \
trim_mode='auto', auto_trim_tol=0.01, size_trim_tol=0.0001, qc_tol=0.03)

a_good_looking_previous_result.params=test_scores.params #storing the parameters of pass1 to feed into pass2

test_scores.params
bidfloor_Quartile_modified_binned_0               0.305765
connectiontype_binned_0                          -0.436798
day_custom_binned_Fri                            -0.040269
day_custom_binned_Mon                             0.138599
day_custom_binned_Sat                            -0.319997
day_custom_binned_Sun                            -0.236507
day_custom_binned_Thu                            -0.058922
user_agent_device_family_binned_iPad            -10.793270
user_agent_device_family_binned_iPhone           -8.483099
user_agent_masterclass_binned_apple               9.038889
user_agent_masterclass_binned_generic            -0.760297
user_agent_masterclass_binned_samsung            -0.063522
log_height_width                                  0.593199
log_height_width_ScreenResolution                -0.520836
productivity                                     -1.495373
games                                             0.706340
entertainment                                    -1.806886
IAB24                                             2.531467
IAB17                                             0.650327
IAB14                                             0.414031
utilities                                         9.968253
IAB1                                              1.850786
social_networking                                -2.814148
IAB3                                             -9.230780
music                                             0.019584
IAB9                                             -0.415559
C(time_day_modified)[(6, 12]]:C(country)[AUS]    -0.103003
C(time_day_modified)[(0, 6]]:C(country)[HKG]      0.769272
C(time_day_modified)[(6, 12]]:C(country)[HKG]     0.406882
C(time_day_modified)[(0, 6]]:C(country)[IDN]      0.073306
C(time_day_modified)[(6, 12]]:C(country)[IDN]    -0.207568
C(time_day_modified)[(0, 6]]:C(country)[IND]      0.033370
... more params here

Run Code Online (Sandbox Code Playgroud)

现在在不同的数据集(pass2,用于索引),我的模型如下 - :ie.我读了一个新的数据帧,做了所有变量转换,然后像之前一样通过Logit进行建模.

m_pass2  = smf.Logit(data['event_custom'], A2_pass2,missing='drop')
test_scores_pass2=m_pass2.fit_regularized(start_params=a_good_looking_previous_result.params, method='l1', maxiter='defined_by_method', full_output=1, disp=1, callback=None, alpha=0, \
trim_mode='auto', auto_trim_tol=0.01, size_trim_tol=0.0001, qc_tol=0.03)

Run Code Online (Sandbox Code Playgroud)

并且,可能通过从早期传递中获取"start_params"来继续迭代.

Answer 1

Jos*_*sef 6

有几点要点:

你需要tol> 0来检测接近完美的共线性,这也可能在以后的计算中引起数值问题.检查列数A2以查看是否确实删除了列.

Logit需要使用exog进行一些非线性计算,因此即使设计矩阵不是非常接近完美的共线性,对数似然,导数或Hessian计算的变换变量可能仍然会出现数值问题,如奇异的黑森州.

(当我们在浮点精度1e-15,1e-16附近工作时,所有这些都是浮点问题.matrix_rank和类似linalg函数的默认阈值有时会有差异,这可能意味着在某些边缘情况下,一个函数将其识别为单数和另一个不.)

包含Logit的离散模型的默认优化方法是一种简单的牛顿方法,在相当不错的情况下速度很快,但在条件恶劣的情况下可能会失败.你可以尝试其他的优化,这将是那些在scipy.optimize的一个之一,method='nm'通常是非常强大的,但是进展缓慢,method='bfgs'效果很好在许多情况下也可以运行到收敛问题.

然而,即使其他优化方法之一成功,仍然需要检查结果.通常情况下,使用一种方法失败意味着可能无法很好地定义模型或估计问题.

检查的一个好办法是否仅仅是一个坏的初始值或规范问题问题是跑method='nm'第一,然后运行的更精确的方法,如一个newton或bfgs使用nm估计为初始值,看看它是否来自良好的起始值成功.

归档时间：	11 年，3 月前
查看次数：	4324 次
最近记录：	11 年，3 月前