小编Sre*_* TP的帖子

LightGBM中不平衡数据集的情感分析

我试图对2个类的数据集(二进制分类)进行情感分析.数据集严重失衡70% - 30%.我正在使用LightGBMPython 3.6制作模型并预测输出.

我认为我的模型的数据集效果性能不平衡.我得到了90%准确性,但即使我已经对参数进行了微调,它也没有进一步增加.我不认为这是最大可能的准确性,因为有其他人得分比这更好.

我用Textacy和清理了数据集nltk.我CountVectorizer用来编码文本.

我已经尝试up-sampling过数据集,但导致模型不佳(我没有调整过该模型)

我试过使用is_unbalance参数LightGBM,但它没有给我一个更好的模型.

是否有任何方法可以处理这种不平衡的数据集.我怎样才能进一步改进我的模型.我应该尝试下采样吗?或者它是最大可能的准确度.我怎么能确定它.

nlp machine-learning python-3.x sentiment-analysis lightgbm

2
推荐指数
1
解决办法
1408
查看次数

如何恢复损坏的dnf数据库?

我只是杀死了一个dnf进程,因为它没有响应^ Z

现在我的Berkley数据库已损坏,不知道如何重建它-让我愚蠢。

任何帮助将不胜感激。

现在,任何dnf搜索的输出为:

错误:rpmdb:BDB0113线程/进程21154/140457937990976失败:BDB1507线程在Berkeley DB库中死亡错误:dbenv-> failchk中的db5错误(-30973):BDB0087 DB_RUNRECOVERY:致命错误,运行数据库恢复错误:无法使用以下方法打开包索引db5-(-30973)错误:无法在/ var / lib / rpm中打开Packages数据库错误:错误:rpmdb打开失败

非常感谢您的帮助。

database linux dnf

1
推荐指数
1
解决办法
760
查看次数

在python上反转奇异矩阵

我必须从csv文件中读取多个数据,当我想从csv数据反转矩阵时,我得到了这个:

numpy.linalg.linalg.LinAlgError: singular matrix
Run Code Online (Sandbox Code Playgroud)

并且该过程卡在此部分:

J = np.mat([dtdx,dtdy,dtdz]).transpose()
dd = np.mat(ttcal-tt)
dm = (scipy.linalg.inv(J.transpose()*J))*((J.transpose())*(dd.transpose()))
Run Code Online (Sandbox Code Playgroud)

来自“J”的数据如下:

[[-6.81477651e-03 -7.90320450e-03  6.50533437e-05]
 [-6.71080644e-03 -6.00135428e-03  6.50533437e-05]]
Run Code Online (Sandbox Code Playgroud)

来自“dd”的数据如下:

[[0.00621772 0.00537531]]
Run Code Online (Sandbox Code Playgroud)

我已经检查了这些数据,我发现了这一点:

tes = J.transpose()*J
Run Code Online (Sandbox Code Playgroud)

结果如下:

[[ 9.14761019e-05  9.41324993e-05 -8.79884397e-07]
 [ 9.41324993e-05  9.84768945e-05 -9.04538042e-07]
 [-8.79884397e-07 -9.04538042e-07  8.46387506e-09]]
Run Code Online (Sandbox Code Playgroud)

我需要反转这个矩阵,但这个数据是奇异矩阵。我必须尝试在 matlab r2017b 上运行并且运行良好。

我需要在python上解决这个问题。

python scipy

0
推荐指数
1
解决办法
4485
查看次数

删除列python中逗号后面的任何字符

我在 df 中有一个列,如下所示:

city

Rockford, IL    
St. Petersburg  
Oklahoma City   
Memphis 
Indianapolis
Naples, FL
Run Code Online (Sandbox Code Playgroud)

我想知道如何从包含逗号的列中的元素中删除逗号和后续字符。像这样的新的:

  city
Rockford    
St. Petersburg  
Oklahoma City   
Memphis 
Indianapolis
Naples
Run Code Online (Sandbox Code Playgroud)

我知道我可以单独重命名每个元素。但我想要一种方法可以同时对整个专栏执行此操作。谢谢!

python series dataframe pandas

-1
推荐指数
1
解决办法
946
查看次数