我试图对2个类的数据集(二进制分类)进行情感分析.数据集严重失衡70% - 30%.我正在使用LightGBM和Python 3.6制作模型并预测输出.
我认为我的模型的数据集效果性能不平衡.我得到了90%准确性,但即使我已经对参数进行了微调,它也没有进一步增加.我不认为这是最大可能的准确性,因为有其他人得分比这更好.
我用Textacy和清理了数据集nltk.我CountVectorizer用来编码文本.
我已经尝试up-sampling过数据集,但导致模型不佳(我没有调整过该模型)
我试过使用is_unbalance参数LightGBM,但它没有给我一个更好的模型.
是否有任何方法可以处理这种不平衡的数据集.我怎样才能进一步改进我的模型.我应该尝试下采样吗?或者它是最大可能的准确度.我怎么能确定它.
我只是杀死了一个dnf进程,因为它没有响应^ Z
现在我的Berkley数据库已损坏,不知道如何重建它-让我愚蠢。
任何帮助将不胜感激。
现在,任何dnf搜索的输出为:
错误:rpmdb:BDB0113线程/进程21154/140457937990976失败:BDB1507线程在Berkeley DB库中死亡错误:dbenv-> failchk中的db5错误(-30973):BDB0087 DB_RUNRECOVERY:致命错误,运行数据库恢复错误:无法使用以下方法打开包索引db5-(-30973)错误:无法在/ var / lib / rpm中打开Packages数据库错误:错误:rpmdb打开失败
非常感谢您的帮助。
我必须从csv文件中读取多个数据,当我想从csv数据反转矩阵时,我得到了这个:
numpy.linalg.linalg.LinAlgError: singular matrix
Run Code Online (Sandbox Code Playgroud)
并且该过程卡在此部分:
J = np.mat([dtdx,dtdy,dtdz]).transpose()
dd = np.mat(ttcal-tt)
dm = (scipy.linalg.inv(J.transpose()*J))*((J.transpose())*(dd.transpose()))
Run Code Online (Sandbox Code Playgroud)
来自“J”的数据如下:
[[-6.81477651e-03 -7.90320450e-03 6.50533437e-05]
[-6.71080644e-03 -6.00135428e-03 6.50533437e-05]]
Run Code Online (Sandbox Code Playgroud)
来自“dd”的数据如下:
[[0.00621772 0.00537531]]
Run Code Online (Sandbox Code Playgroud)
我已经检查了这些数据,我发现了这一点:
tes = J.transpose()*J
Run Code Online (Sandbox Code Playgroud)
结果如下:
[[ 9.14761019e-05 9.41324993e-05 -8.79884397e-07]
[ 9.41324993e-05 9.84768945e-05 -9.04538042e-07]
[-8.79884397e-07 -9.04538042e-07 8.46387506e-09]]
Run Code Online (Sandbox Code Playgroud)
我需要反转这个矩阵,但这个数据是奇异矩阵。我必须尝试在 matlab r2017b 上运行并且运行良好。
我需要在python上解决这个问题。
我在 df 中有一个列,如下所示:
city
Rockford, IL
St. Petersburg
Oklahoma City
Memphis
Indianapolis
Naples, FL
Run Code Online (Sandbox Code Playgroud)
我想知道如何从包含逗号的列中的元素中删除逗号和后续字符。像这样的新的:
city
Rockford
St. Petersburg
Oklahoma City
Memphis
Indianapolis
Naples
Run Code Online (Sandbox Code Playgroud)
我知道我可以单独重命名每个元素。但我想要一种方法可以同时对整个专栏执行此操作。谢谢!