情绪分析的良好数据集?

use*_*562 16 dataset web-mining sentiment-analysis

我正在进行情绪分析,我正在使用此链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html我将数据集分成50:50比例.50%用作测试样品,50%用作火车样品,从火车样品中提取特征并使用Weka分级器进行分类,但我的预测准确度约为70-75%.

任何人都可以建议一些其他数据集可以帮助我增加结果 - 我使用unigram,bigram和POStags作为我的功能.

dox*_*xav 26

获取情绪分析数据集有很多来源:

无论如何,这并不意味着它可以帮助您更好地准确当前数据集,因为语料库可能与您的数据集非常不同.除了减少测试百分比与训练之外,您还可以:测试其他分类器或使用半自动包装器(如CVParameterSelection或GridSearch)调整所有超参数,如果适合,甚至可以使用auto-weka.

使用50/50是非常罕见的,80/20是一个非常普遍的比例.更好的做法是使用:60%用于培训,20%用于交叉验证,20%用于测试.

  • 以下包含超过1,578,627个分类数据集http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip或http://ai.stanford.edu/~amaas/data/sentiment / (2认同)