情绪分析的良好数据集？

Question

情绪分析的良好数据集？

use*_*562 16 dataset web-mining sentiment-analysis

我正在进行情绪分析,我正在使用此链接中给出的数据集:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.html我将数据集分成50:50比例.50%用作测试样品,50%用作火车样品,从火车样品中提取特征并使用Weka分级器进行分类,但我的预测准确度约为70-75%.

任何人都可以建议一些其他数据集可以帮助我增加结果 - 我使用unigram,bigram和POStags作为我的功能.

Answer 1

dox*_*xav 26

获取情绪分析数据集有很多来源:

来自google storage.googleapis.com/books/ngrams/books/datasetsv2.html的巨大数据集
http://www.sananalytics.com/lab/twitter-sentiment/
http://inclass.kaggle.com/c/si650winter11/data
http://nlp.stanford.edu/sentiment/treebank.html
或者你可以查看这个全球ML数据集存储库:https://archive.ics.uci.edu/ml

无论如何,这并不意味着它可以帮助您更好地准确当前数据集,因为语料库可能与您的数据集非常不同.除了减少测试百分比与训练之外,您还可以:测试其他分类器或使用半自动包装器(如CVParameterSelection或GridSearch)调整所有超参数,如果适合,甚至可以使用auto-weka.

使用50/50是非常罕见的,80/20是一个非常普遍的比例.更好的做法是使用:60%用于培训,20%用于交叉验证,20%用于测试.

以下包含超过1,578,627个分类数据集http://thinknook.com/wp-content/uploads/2012/09/Sentiment-Analysis-Dataset.zip或http://ai.stanford.edu/~amaas/data/sentiment / (2认同)

归档时间：	11 年，3 月前
查看次数：	43585 次
最近记录：	7 年，5 月前