Tri*_*daz 45 nlp machine-learning sentiment-analysis
我一直在阅读很多文章,这些文章解释了在情感分析系统真正起作用之前需要一组初始文本,这些文本被归类为"正面"或"负面".
我的问题是:是否有人试图对"正面"形容词与"否定"形容词进行初步检查,同时考虑到任何简单的否定词以避免将"不快乐"归类为正面?如果是这样,是否有任何文章讨论为什么这种策略不现实?
Fre*_*Foo 64
一个由彼得·特尼经典论文(2002年)解释仅使用的话做监督的情感分析(正极/负极分类)的方法优秀和较差的种子集.Turney使用这两个形容词的其他词的互信息来达到74%的准确率.
waf*_*dox 18
我没有尝试过像你所描述的那样进行未经训练的情绪分析,但在我的头脑中,我会说你过分简化了这个问题.简单地分析形容词并不足以很好地掌握文本的情感; 例如,考虑"愚蠢"这个词.单独,你会把它归类为负面,但如果产品评论是"...... [x]产品让他们的竞争对手看起来很愚蠢,因为没有先考虑这个特征......"那么那里的情绪肯定是积极的.单词出现的更大背景在这样的事情中肯定很重要.这就是为什么单独使用未经训练的词袋(更不用说更有限的形容词包)并不足以解决这个问题.
预先分类的数据("训练数据")有助于问题从试图确定文本是否从头开始具有正面或负面情绪,到试图确定文本是否与正面文本或负面文本更相似,并以这种方式对其进行分类.另一个重点是情感分析等文本分析往往受到依赖于领域的文本特征差异的极大影响.这就是为什么要训练一组好的数据(也就是说,你工作的领域内的准确数据,并希望代表你将要分类的文本)与建立一个好的一样重要.系统分类.
不完全是一篇文章,但希望有所帮助.
小智 7
larsmans提到的Turney(2002)的论文是一个很好的基础论文.在一项较新的研究中,Li和He [2009]引入了一种使用Latent Dirichlet Allocation(LDA)来训练模型的方法,该模型可以完全无人监督的方式同时对文章的整体情绪和主题进行分类.他们达到的准确率为84.6%.
| 归档时间: |
|
| 查看次数: |
25612 次 |
| 最近记录: |