Lon*_*guy 56 nlp machine-learning text-analysis training-data sentiment-analysis
我在哪里可以获得已被归类为公司域中情绪的正面/负面的文档集?我想要一大堆文件,为公司提供评论,例如分析师和媒体提供的公司评论.
我发现有产品和电影评论的语料库.是否有业务领域的语料库,包括符合业务语言的公司评论?
小智 37
http://www.cs.cornell.edu/home/llee/data/
http://mpqa.cs.pitt.edu/corpora/mpqa_corpus
您可以使用twitter及其表情符号,如下所示:http://web.archive.org/web/20111119181304/http: //deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-语料库换情感分析和-观点- Mining.pdf
希望能让你开始.如果您对特定的子任务感兴趣,例如否定,情感范围等,那么文献中还有更多内容.
为了关注公司,您可以将方法与主题检测结合起来,或者只是对一家公司的大量提及.或者您可以通过Mechanical Turkers对您的数据进行注释.
Kur*_*aki 23
这是几周前我在博客上写的一个列表.其中一些数据集最近已包含在NLTK Python平台中.
刘冰的意见词典
MPQA主观性词典
SentiWordNet
哈佛大将军询问者
语言查询和单词计数(LIWC)
维达词典
MPQA数据集
注意:GNU公共许可证.
Sentiment140(推文)
STS-Gold(推文)
客户评论数据集(产品评论)
包含在NLTK Python平台中
利弊数据集(利弊)
<pros>
或标记的句子列表<cons>
包含在NLTK Python平台中
比较句(评论)
包含在NLTK Python平台中
桑德斯分析Twitter情绪语料库(推文)
5513手分类推文有4个不同的主题.由于Twitter的ToS,包含一个小的Python脚本来下载所有的推文.情绪分类本身是免费提供的,没有任何限制.它们可用于商业产品.它们可能会被重新分配.它们可能会被修改.
西班牙语推文(推文)
SemEval 2014(推文)
您不得重新分发推文,注释或获得的语料库(来自自述文件)
各种数据集(评论)
各种数据集#2(评论)
参考文献:
归档时间: |
|
查看次数: |
40193 次 |
最近记录: |