我正在做一个关于推特情绪分析的项目,但有一些我在思考的事情.
由于推文非常短(少于140个字符),因此文本分析技术最适用.例如.干预是否与长篇文章一样有效?
n-gram怎么样?这些推文的短促是否会使它们成为最佳或最差?
k-nearest是否比词性标注更准确?
随着时间的推移,我的自定义Twitter数据集会变得无关紧要/腐败吗?由于Twitter及其上的信息变化如此之快,这也是我的一个主要问题.
非常感谢你的时间.
PS:你有没有任何好的Twitter情绪数据集?如果定期更新会很棒.
我做了一些课堂作业,分析名人推文并比较他们的相似之处.
你认为最重要的是推文的长度.在140个字符处,很多单词被缩短,或者不寻常的"txt-speech".因此,即使像Porter这样知名的干预者也会给出一些奇怪的结果.最好保留几乎所有内容,只有在单词计数,向量等之后才能正常化.
从词汇推断,n-gram和以下链接是质量推断的一个重要因素.我只能忍受4克的空间和时间要求,但即使创造简单的2克也能带来很大的改进.
如果你注意到我之前说的"几乎所有东西".在我追踪流行的知名推文的情况下,我遇到了一个问题,即他们的推文很多都是他们的活动或赞助商等的链接或喊叫.所以很大一部分是删除大量的垃圾邮件.
对于提取准确情绪的方法或您正在寻找的任何措施,我首先尝试基于朴素贝叶斯的方法.它对于基线来说简单且相对准确.K-means会做得相当不错,但要记住它没有考虑差异和协方差,但仍然是另一个尝试的基准.
希望能提供一些见解.