Twitter情绪分析技术

Question

我正在做一个关于推特情绪分析的项目,但有一些我在思考的事情.

由于推文非常短(少于140个字符),因此文本分析技术最适用.例如.干预是否与长篇文章一样有效？

n-gram怎么样？这些推文的短促是否会使它们成为最佳或最差？

k-nearest是否比词性标注更准确？

随着时间的推移,我的自定义Twitter数据集会变得无关紧要/腐败吗？由于Twitter及其上的信息变化如此之快,这也是我的一个主要问题.

非常感谢你的时间.

PS:你有没有任何好的Twitter情绪数据集？如果定期更新会很棒.

Answer 1

我做了一些课堂作业,分析名人推文并比较他们的相似之处.

你认为最重要的是推文的长度.在140个字符处,很多单词被缩短,或者不寻常的"txt-speech".因此,即使像Porter这样知名的干预者也会给出一些奇怪的结果.最好保留几乎所有内容,只有在单词计数,向量等之后才能正常化.

从词汇推断,n-gram和以下链接是质量推断的一个重要因素.我只能忍受4克的空间和时间要求,但即使创造简单的2克也能带来很大的改进.

如果你注意到我之前说的"几乎所有东西".在我追踪流行的知名推文的情况下,我遇到了一个问题,即他们的推文很多都是他们的活动或赞助商等的链接或喊叫.所以很大一部分是删除大量的垃圾邮件.

对于提取准确情绪的方法或您正在寻找的任何措施,我首先尝试基于朴素贝叶斯的方法.它对于基线来说简单且相对准确.K-means会做得相当不错,但要记住它没有考虑差异和协方差,但仍然是另一个尝试的基准.

希望能提供一些见解.