小编cla*_*ius的帖子

文本分类的特征选择与缩减

我目前正在开发一个项目,一个简单的情绪分析器,这样在不同的情况下会有2个和3个类.我正在使用一个非常丰富独特单词(大约200.000)的语料库.我用袋的词方法用于特征选择和以减少的数量独特特征,进行消除由于一个进行阈值出现频率.在最后一组的功能包括围绕20.000的功能,这实际上是一个90%的下降,但还不够用于测试预测的预期准确性.我正在使用LibSVMSVM-light进行训练和预测(线性RBF内核)以及PythonBash.

到目前为止观察到的最高精度约为75%,我至少需要90%.这是二进制分类的情况.对于多级培训,准确率降至约60%.在这两种情况下我都需要至少90%,并且无法计算如何增加它:通过优化训练参数通过优化特征选择

我读过有关文本分类中特征选择的文章,我发现使用了三种不同的方法,它们之间实际上有明显的相关性.这些方法如下:

  • 词袋的频率逼近(BOW)
  • 信息增益(IG)
  • X ^ 2统计(CHI)

第一种方法已经是我使用的方法,但我非常简单地使用它,需要指导以更好地使用它以获得足够高的准确度.我也缺乏IGCHI实际实施的知识,并寻求任何帮助以这种方式指导我.

非常感谢,如果您需要任何其他信息以获得帮助,请告诉我们.


  • @larsmans:频率阈值 …

nlp svm feature-extraction sentiment-analysis

49
推荐指数
2
解决办法
2万
查看次数

撤消快速合并

我合并失败,直到将其推送到GitHub之前,我才知道这是合并失败,现在我不知道如何撤消/还原它。

故事是这样的:

我打开了两个不同的分支,并对这些分支进行了一些更改。过了一会儿,我决定将那些分支合并回master分支,并$ git merge branch_name用于此目的。我合并了第一个分支,然后检查了master分支的日志:该分支上的所有提交都在master上。然后,我用同一命令进行第二个分支的合并。然后,我再次检查了master的日志,在这里我看到了合并分支上的提交,包括带有以下注释的提交:“合并分支branch_name”。当我合并另一个分支时,不包括这样的注释。

长话短说,问题在于git将第一个分支的提交合并到master了,就像它们已经是master的提交一样。当您检查来自“ GitHub”的网络图或来自“ gitg”的图时,没有留下第一个分支的痕迹,但是其提交显示为master分支的提交。第二个分支没有问题:单独显示该分支,并按预期进行合并。还要注意,在运行merge命令之后$ git branch -d branch_name,不幸的是,我继续通过删除分支,就像这是最紧迫的事情。

现在,我想回到两次连续合并之前的位置。任何帮助表示赞赏。如果您评论发生这种情况的原因,那也将是令人愉快的。

git github git-merge

5
推荐指数
1
解决办法
2146
查看次数