pro*_*ias 5 java twitter nlp stanford-nlp sentiment-analysis
我使用斯坦福大学的CoreNLP库,一拉从Twitter获得情绪试验https://www.openshift.com/blogs/day-20-stanford-corenlp-performing-sentiment-analysis-of-twitter-using-java -所以请看这里我正在实现的代码.
我得到了结果,但我注意到,在我的目标数据集和我使用的另一个数据集中,似乎存在对"负面"结果的偏见 - Sanders Analytics Twitter Sentiment Corpus http://www.sananalytics .com/lab/twitter-sentiment / - 即使地面实况数据没有这种偏见.
我发布这个问题是因为其他人经历过这个问题并且/或者可能知道这是我做过的事情的结果还是CoreNLP代码中的一些错误.
(编辑 - 对不起,我花了这么长时间才回复)我发布的链接显示了我的意思.我没有足够的声誉来发布图片,并且在这篇文章中只能包含两个链接,因此我将在评论中添加链接.
小智 5
我想建议这只是一个域名不匹配.斯坦福RNTN受过电影评论片段的培训,您正在测试Twitter数据.除了主题不匹配之外,推文也往往是不合语法的,并使用缩写("创意")语言.如果我不得不提出一个更具体的理由,我会从一个词汇不匹配开始.也许负面情绪以与领域无关的方式表达,例如使用普通形容词,而积极情绪则更依赖于领域或更微妙.
你得到负面偏见仍然很有趣.Polyanna假设提出了一个积极的偏见,恕我直言.
超越原始问题,有几种方法可以专门针对微博数据进行情绪分析.参见例如"好,坏,和OMG!" 由Kouloumpis等人.
| 归档时间: |
|
| 查看次数: |
1198 次 |
| 最近记录: |