小编Sre*_* TP的帖子

LightGBM中不平衡数据集的情感分析

我试图对2个类的数据集(二进制分类)进行情感分析.数据集严重失衡70% - 30%.我正在使用LightGBM和Python 3.6制作模型并预测输出.

我认为我的模型的数据集效果性能不平衡.我得到了90%准确性,但即使我已经对参数进行了微调,它也没有进一步增加.我不认为这是最大可能的准确性,因为有其他人得分比这更好.

我用Textacy和清理了数据集nltk.我CountVectorizer用来编码文本.

我已经尝试up-sampling过数据集,但导致模型不佳(我没有调整过该模型)

我试过使用is_unbalance参数LightGBM,但它没有给我一个更好的模型.

是否有任何方法可以处理这种不平衡的数据集.我怎样才能进一步改进我的模型.我应该尝试下采样吗？或者它是最大可能的准确度.我怎么能确定它.

nlp machine-learning python-3.x sentiment-analysis lightgbm

Sre*_* TP

2017 11-19

2
推荐指数

1
解决办法

1408
查看次数

如何恢复损坏的dnf数据库？

我只是杀死了一个dnf进程，因为它没有响应^ Z

现在我的Berkley数据库已损坏，不知道如何重建它-让我愚蠢。

任何帮助将不胜感激。

现在，任何dnf搜索的输出为：

错误：rpmdb：BDB0113线程/进程21154/140457937990976失败：BDB1507线程在Berkeley DB库中死亡错误：dbenv-> failchk中的db5错误（-30973）：BDB0087 DB_RUNRECOVERY：致命错误，运行数据库恢复错误：无法使用以下方法打开包索引db5-（-30973）错误：无法在/ var / lib / rpm中打开Packages数据库错误：错误：rpmdb打开失败

非常感谢您的帮助。

database linux dnf

Dou*_*oug

2018 11-02

1
推荐指数

1
解决办法

760
查看次数

在python上反转奇异矩阵

我必须从csv文件中读取多个数据，当我想从csv数据反转矩阵时，我得到了这个：

numpy.linalg.linalg.LinAlgError: singular matrix

Run Code Online (Sandbox Code Playgroud)

并且该过程卡在此部分：

J = np.mat([dtdx,dtdy,dtdz]).transpose()
dd = np.mat(ttcal-tt)
dm = (scipy.linalg.inv(J.transpose()*J))*((J.transpose())*(dd.transpose()))

Run Code Online (Sandbox Code Playgroud)

来自“J”的数据如下：

[[-6.81477651e-03 -7.90320450e-03  6.50533437e-05]
 [-6.71080644e-03 -6.00135428e-03  6.50533437e-05]]

Run Code Online (Sandbox Code Playgroud)

来自“dd”的数据如下：

[[0.00621772 0.00537531]]

Run Code Online (Sandbox Code Playgroud)

我已经检查了这些数据，我发现了这一点：

tes = J.transpose()*J

Run Code Online (Sandbox Code Playgroud)

结果如下：

[[ 9.14761019e-05  9.41324993e-05 -8.79884397e-07]
 [ 9.41324993e-05  9.84768945e-05 -9.04538042e-07]
 [-8.79884397e-07 -9.04538042e-07  8.46387506e-09]]

Run Code Online (Sandbox Code Playgroud)

我需要反转这个矩阵，但这个数据是奇异矩阵。我必须尝试在 matlab r2017b 上运行并且运行良好。

我需要在python上解决这个问题。

python scipy

Wah*_*oto

2018 09-12

0
推荐指数

1
解决办法

4485
查看次数

删除列python中逗号后面的任何字符

我在 df 中有一个列，如下所示：

city

Rockford, IL    
St. Petersburg  
Oklahoma City   
Memphis 
Indianapolis
Naples, FL

Run Code Online (Sandbox Code Playgroud)

我想知道如何从包含逗号的列中的元素中删除逗号和后续字符。像这样的新的：

  city
Rockford    
St. Petersburg  
Oklahoma City   
Memphis 
Indianapolis
Naples

Run Code Online (Sandbox Code Playgroud)

我知道我可以单独重命名每个元素。但我想要一种方法可以同时对整个专栏执行此操作。谢谢！

python series dataframe pandas

作者

2021 12-17

-1
推荐指数

1
解决办法

946
查看次数

标签统计

python ×2

database ×1

dataframe ×1

dnf ×1

lightgbm ×1

linux ×1

machine-learning ×1

nlp ×1

pandas ×1

python-3.x ×1

scipy ×1

sentiment-analysis ×1

series ×1

LightGBM中不平衡数据集的情感分析

如何恢复损坏的dnf数据库？

在python上反转奇异矩阵

删除列python中逗号后面的任何字符

标签 统计

小编Sre_ TP的帖子

标签统计