情感分析的最佳算法方法

use*_*049 26 nlp sentiment-analysis

我的要求是接受新闻文章并确定它们对某个主题是积极的还是消极的.我正在采取下面概述的方法,但我继续阅读NLP可能在这里使用.我所读过的所有内容都指出NLP从事实中发现了一些意见,我认为这并不重要.我想知道两件事:

1)为什么我的算法不能工作和/或我如何改进它?(我知道讽刺可能是一个陷阱,但我再也看不到在我们将要获得的新闻类型中发生的很多)

2)NLP如何帮助,我为什么要使用它?

我的算法方法(我有正面,负面和否定词的字典):

1)计算文章中正面和负面词的数量

2)如果发现一个带有2或3个单词的否定词的否定词,(即:不是最好的)否定分数.

3)将分数乘以已手动分配给每个单词的权重.(1.0开始)

4)将正数和负数的总和相加以获得情绪分数.

Sto*_*ken 33

我认为你的算法没有什么特别的错误,这是一种相当简单实用的方法,但是在很多情况下它会犯错误.

  1. 暧昧的情绪词 - "这个产品非常有效"与"这个产品非常好"

  2. 错过了否定 - "我绝不会在数百万年后说这款产品值得购买"

  3. 引用/间接文本 - "我父亲说这个产品很糟糕,但我不同意"

  4. 比较 - "这个产品和头上的洞一样有用"

  5. 任何微妙的 - "这个产品是丑陋的,缓慢的,没有吸引力,但它是市场上唯一能做到这一点的东西"

我正在使用产品评论来举例,而不是新闻故事,但你明白了.事实上,新闻文章可能更难,因为他们经常试图展示争论的两个方面,并倾向于使用某种风格来传达一个观点.例如,最后的例子在意见中很常见.

至于NLP帮助你解决这些问题,词义消歧(甚至只是词性标注)可能有助于(1),语法分析可能有助于(2)中的远程依赖,某种分块可能有助于(3).这是所有研究水平的工作,但我不知道你可以直接使用.问题(4)和(5)要困难得多,我放弃了手,放弃了这一点.

我坚持你的方法,仔细看看输出,看看它是否正在做你想要的.当然那会引发你想要了解"情绪"定义的问题......

  • 我的背后估计(基于我正在研究的注释文本中的20个文献)大约3%的正面/负面意见是比较的,所以#4可能不是一个大问题.远程依赖是一个大问题,因此语法分析是一个好主意,尽管将产品功能与其意见联系起来的不同模式的数量是巨大的*. (3认同)

Sci*_*ion 5

我最喜欢的例子是"只读这本书".它不包含明确的情感词,它高度依赖于上下文.如果它出现在电影评论中,那就意味着电影很糟糕 - 这是浪费你的时间而不是书本是好的.但是,如果是在书评中,它会带来积极的情绪.

那么 - "这是市场上最小的[手机]手机".回到90年代,这是一个很好的赞誉.今天它可能表明它太小了.

我认为这是开始以获得情绪分析的复杂性的地方:http://www.cs.cornell.edu/home/llee/opinion-mining-sentiment-analysis-survey.html(由Lillian Lee撰写)康奈尔大学).