标签: sentiment-analysis

Python中Twitter的情感分析

我正在寻找文本情感分析(http://en.wikipedia.org/wiki/Sentiment_analysis)的开源实现,最好是在python中.是否有人熟悉我可以使用的这种开源实现?

我正在编写一个应用程序,在Twitter上搜索一些搜索词,比如"youtube",并计算"快乐"的推文与"悲伤"的推文.我正在使用Google的appengine,所以它在python中.我希望能够从twitter中对返回的搜索结果进行分类,我想在python中进行分类.到目前为止,我还没有找到这样的情绪分析器,特别是在python中.您熟悉我可以使用的这种开源实现吗?最好这已经是python,但如果没有,希望我可以将它翻译成python.

请注意,我正在分析的文本非常简短,它们是推文.理想情况下,此分类器针对此类短文本进行了优化.

顺便说一下,twitter确实支持搜索中的":)"和":("运算符,其目的就是为了做到这一点,但不幸的是,他们提供的分类并不是那么好,所以我想我可能会试一试.

谢谢!

BTW,早期的演示就在这里,我到目前为止的代码就在这里,我很乐意与任何感兴趣的开发人员一起开源.

python open-source nlp machine-learning sentiment-analysis

86
推荐指数
5
解决办法
5万
查看次数

培训情绪分析数据

我在哪里可以获得已被归类为公司域中情绪的正面/负面的文档集?我想要一大堆文件,为公司提供评论,例如分析师和媒体提供的公司评论.

我发现有产品和电影评论的语料库.是否有业务领域的语料库,包括符合业务语言的公司评论?

nlp machine-learning text-analysis training-data sentiment-analysis

56
推荐指数
3
解决办法
4万
查看次数

NLTK和停用词失败#lookuperror

我正在尝试启动一个情绪分析项目,我将使用停用词方法.我做了一些研究,我发现nltk有停用词,但是当我执行命令时出现错误.

我所做的是以下内容,以便了解nltk使用的单词(就像你在http://www.nltk.org/book/ch02.html第 4.1节中找到的那样):

from nltk.corpus import stopwords
stopwords.words('english')
Run Code Online (Sandbox Code Playgroud)

但当我按下回车时,我获得了

---------------------------------------------------------------------------
LookupError                               Traceback (most recent call last)
<ipython-input-6-ff9cd17f22b2> in <module>()
----> 1 stopwords.words('english')

C:\Users\Usuario\Anaconda\lib\site-packages\nltk\corpus\util.pyc in __getattr__(self, attr)
 66
 67     def __getattr__(self, attr):
---> 68         self.__load()
 69         # This looks circular, but its not, since __load() changes our
 70         # __class__ to something new:

C:\Users\Usuario\Anaconda\lib\site-packages\nltk\corpus\util.pyc in __load(self)
 54             except LookupError, e:
 55                 try: root = nltk.data.find('corpora/%s' % zip_name)
---> 56                 except LookupError: raise e
 57
 58         # Load the corpus.

LookupError: …
Run Code Online (Sandbox Code Playgroud)

python nltk stop-words sentiment-analysis

56
推荐指数
3
解决办法
8万
查看次数

文本分类的特征选择与缩减

我目前正在开发一个项目,一个简单的情绪分析器,这样在不同的情况下会有2个和3个类.我正在使用一个非常丰富独特单词(大约200.000)的语料库.我用袋的词方法用于特征选择和以减少的数量独特特征,进行消除由于一个进行阈值出现频率.在最后一组的功能包括围绕20.000的功能,这实际上是一个90%的下降,但还不够用于测试预测的预期准确性.我正在使用LibSVMSVM-light进行训练和预测(线性RBF内核)以及PythonBash.

到目前为止观察到的最高精度约为75%,我至少需要90%.这是二进制分类的情况.对于多级培训,准确率降至约60%.在这两种情况下我都需要至少90%,并且无法计算如何增加它:通过优化训练参数通过优化特征选择

我读过有关文本分类中特征选择的文章,我发现使用了三种不同的方法,它们之间实际上有明显的相关性.这些方法如下:

  • 词袋的频率逼近(BOW)
  • 信息增益(IG)
  • X ^ 2统计(CHI)

第一种方法已经是我使用的方法,但我非常简单地使用它,需要指导以更好地使用它以获得足够高的准确度.我也缺乏IGCHI实际实施的知识,并寻求任何帮助以这种方式指导我.

非常感谢,如果您需要任何其他信息以获得帮助,请告诉我们.


  • @larsmans:频率阈值 …

nlp svm feature-extraction sentiment-analysis

49
推荐指数
2
解决办法
2万
查看次数

无监督的情绪分析

我一直在阅读很多文章,这些文章解释了在情感分析系统真正起作用之前需要一组初始文本,这些文本被归类为"正面"或"负面".

我的问题是:是否有人试图对"正面"形容词与"否定"形容词进行初步检查,同时考虑到任何简单的否定词以避免将"不快乐"归类为正面?如果是这样,是否有任何文章讨论为什么这种策略不现实?

nlp machine-learning sentiment-analysis

45
推荐指数
3
解决办法
3万
查看次数

情感分析词典

我想知道是否有人知道我在哪里可以获得正面和负面词汇的字典.我正在研究情绪分析,这是它的一个关键部分.

dictionary nlp sentiment-analysis

45
推荐指数
5
解决办法
6万
查看次数

使用R的情感分析

是否有任何R套餐专注于情绪分析?我有一个小调查,用户可以写一个关于他们使用网络工具的经验的评论.我要求数字排名,并且可以选择包含评论.

我想知道评估评论的积极性或消极性的最佳方法是什么.我希望能够将它与用户提供的数字排名进行比较,使用R.

r sentiment-analysis

28
推荐指数
3
解决办法
4万
查看次数

情感分析的最佳算法方法

我的要求是接受新闻文章并确定它们对某个主题是积极的还是消极的.我正在采取下面概述的方法,但我继续阅读NLP可能在这里使用.我所读过的所有内容都指出NLP从事实中发现了一些意见,我认为这并不重要.我想知道两件事:

1)为什么我的算法不能工作和/或我如何改进它?(我知道讽刺可能是一个陷阱,但我再也看不到在我们将要获得的新闻类型中发生的很多)

2)NLP如何帮助,我为什么要使用它?

我的算法方法(我有正面,负面和否定词的字典):

1)计算文章中正面和负面词的数量

2)如果发现一个带有2或3个单词的否定词的否定词,(即:不是最好的)否定分数.

3)将分数乘以已手动分配给每个单词的权重.(1.0开始)

4)将正数和负数的总和相加以获得情绪分数.

nlp sentiment-analysis

26
推荐指数
2
解决办法
2万
查看次数

什么是n Gram?

我在SO上发现了上一个问题:N-gram:解释+ 2个应用程序.OP给出了这个例子并询问它是否正确:

Sentence: "I live in NY."

word level bigrams (2 for n): "# I', "I live", "live in", "in NY", 'NY #'
character level bigrams (2 for n): "#I", "I#", "#l", "li", "iv", "ve", "e#", "#i", "in", "n#", "#N", "NY", "Y#"

When you have this array of n-gram-parts, you drop the duplicate ones and add a counter for each part giving the frequency:

word level bigrams: [1, 1, 1, 1, 1]
character level bigrams: [2, 1, 1, …
Run Code Online (Sandbox Code Playgroud)

sentiment-analysis

24
推荐指数
2
解决办法
3万
查看次数

nltk NaiveBayesClassifier培训情绪分析

我正在NaiveBayesClassifier使用句子训练Python,它给出了下面的错误.我不明白错误是什么,任何帮助都会很好.

我尝试了很多其他输入格式,但错误仍然存​​在.代码如下:

from text.classifiers import NaiveBayesClassifier
from text.blob import TextBlob
train = [('I love this sandwich.', 'pos'),
         ('This is an amazing place!', 'pos'),
         ('I feel very good about these beers.', 'pos'),
         ('This is my best work.', 'pos'),
         ("What an awesome view", 'pos'),
         ('I do not like this restaurant', 'neg'),
         ('I am tired of this stuff.', 'neg'),
         ("I can't deal with this", 'neg'),
         ('He is my sworn enemy!', 'neg'),
         ('My boss is horrible.', 'neg') ]

test = [('The beer …
Run Code Online (Sandbox Code Playgroud)

python nlp nltk sentiment-analysis textblob

22
推荐指数
3
解决办法
3万
查看次数