小编cla*_*ius的帖子

文本分类的特征选择与缩减

我目前正在开发一个项目,一个简单的情绪分析器,这样在不同的情况下会有2个和3个类.我正在使用一个非常丰富的独特单词(大约200.000)的语料库.我用袋的词方法用于特征选择和以减少的数量独特特征,进行消除由于一个进行阈值的出现频率.在最后一组的功能包括围绕20.000的功能,这实际上是一个90%的下降,但还不够用于测试预测的预期准确性.我正在使用LibSVM和SVM-light进行训练和预测(线性和RBF内核)以及Python和Bash.

到目前为止观察到的最高精度约为75%,我至少需要90%.这是二进制分类的情况.对于多级培训,准确率降至约60%.在这两种情况下我都需要至少90%,并且无法计算如何增加它:通过优化训练参数或通过优化特征选择？

我读过有关文本分类中特征选择的文章,我发现使用了三种不同的方法,它们之间实际上有明显的相关性.这些方法如下:

词袋的频率逼近(BOW)
信息增益(IG)
X ^ 2统计(CHI)

第一种方法已经是我使用的方法,但我非常简单地使用它,需要指导以更好地使用它以获得足够高的准确度.我也缺乏IG和CHI实际实施的知识,并寻求任何帮助以这种方式指导我.

非常感谢,如果您需要任何其他信息以获得帮助,请告诉我们.

@larsmans:频率阈值 …

nlp svm feature-extraction sentiment-analysis

cla*_*ius

2014 03-09

49
推荐指数

2
解决办法

2万
查看次数

撤消快速合并

我合并失败，直到将其推送到GitHub之前，我才知道这是合并失败，现在我不知道如何撤消/还原它。

故事是这样的：

我打开了两个不同的分支，并对这些分支进行了一些更改。过了一会儿，我决定将那些分支合并回master分支，并$ git merge branch_name用于此目的。我合并了第一个分支，然后检查了master分支的日志：该分支上的所有提交都在master上。然后，我用同一命令进行第二个分支的合并。然后，我再次检查了master的日志，在这里我看到了合并分支上的提交，包括带有以下注释的提交：“合并分支branch_name”。当我合并另一个分支时，不包括这样的注释。

长话短说，问题在于git将第一个分支的提交合并到master了，就像它们已经是master的提交一样。当您检查来自“ GitHub”的网络图或来自“ gitg”的图时，没有留下第一个分支的痕迹，但是其提交显示为master分支的提交。第二个分支没有问题：单独显示该分支，并按预期进行合并。还要注意，在运行merge命令之后$ git branch -d branch_name，不幸的是，我继续通过删除分支，就像这是最紧迫的事情。

现在，我想回到两次连续合并之前的位置。任何帮助表示赞赏。如果您评论发生这种情况的原因，那也将是令人愉快的。

git github git-merge

cla*_*ius

2018 08-05

5
推荐指数

1
解决办法

2146
查看次数