良好的情绪分析算法

Nei*_*ir0 7 algorithm sentiment-analysis

我尝试了天真的贝叶斯分类器,它的工作非常糟糕.SVM工作得更好但仍然很糟糕.大多数关于SVM和朴素贝叶斯的文章都有一些变化(n-gram,POS等),但所有这些都给出了接近50%的结果(文章的作者谈论80%和高,但我不能得到同样的准确在真实数据上).

除了lexixal分析之外,还有更强大的方法吗?SVM和贝叶斯认为单词是独立的.这些方法称为"词袋".如果我们假设单词是相关的怎么办?

例如:使用apriory算法来检测如果句子包含"糟糕和可怕",那么70%的概率就是句子是否定的.我们也可以使用单词之间的距离等.

这是好主意还是我发明自行车?

Fre*_*Foo 6

您在这里混淆了两个概念。朴素贝叶斯(Naive Bayes)或SVM都与词袋方法无关。SVM和BOW方法都没有术语之间的独立性假设。

您可以尝试以下操作:

  • 在您的单词袋中添加标点符号;尤其是 !和?有助于情感分析,而许多面向文档分类的特征提取器则将其丢弃
  • 停用词也一样:“ I”和“ my”之类的词可能表示主观文字
  • 建立两阶段的分类器;首先确定是否表达了任何意见,然后是正面还是负面的看法
  • 尝试使用二次核SVM而不是线性核SVM来捕获要素之间的交互。


Ara*_*sok 5

像SVM,Naive Bayes和最大熵算法这样的算法是受监督的机器学习算法,程序的输出取决于您提供的训练集.对于大规模情感分析,我更喜欢使用无监督学习方法,其中人们可以通过将文档聚类成面向相同的部分来确定形容词的情绪,并将聚类标记为正面或负面.可以从本文中找到更多信息. http://icwsm.org/papers/3--Godbole-Srinivasaiah-Skiena.pdf

希望这可以帮助你的工作:)