Kan*_*wal 0 nlp mining sentiment-analysis
使用情绪评级词典来计算情绪的实际公式是什么.我使用的词典包含-5到5之间的等级.我想计算单个句子的情绪.要么我必须计算句子中所有情绪排名单词的平均值,要么只计算它们.
有几种方法可以根据句子的评分情绪成分计算索引.每个都是基于比较正面和负面的词,每个词都有优点和缺点.
对于你的量表,衡量单词的集中趋势将是一个公平的衡量标准,其中分母是得分单词的数量.这是下面采用的"相对比例差异"度量的一种形式.你可能不希望用所有单词来划分总情绪词的得分,因为这会使每个句子的度量受到非情绪词的强烈影响.
如果您不相信您描述的11分评分是准确的,您可以根据其符号将其分类为正面或负面.然后你可以应用以下方法,你已经转换了每个P和N指的是正和负编码情感词的计数,而O是所有其他词的计数(这样总的词数= P + N + O).
绝对比例差异.界限:[0,1]
情绪=(P - N)/(P + N + O)
缺点:句子的分数受非情绪相关内容的影响.
相对比例差异.界限:[-1,1]
情绪=(P - N)/(P + N)
缺点:句子的分数可能倾向于在比例终点附近非常强烈地聚类(因为它们可能包含主要或完全包含正面或负面的内容).
Logit量表.界限:[-infinity,+ infinity]
情绪= log(P + 0.5) - log(N + 0.5)
这往往具有最平滑的特性,并且在零附近对称.0.5是更平滑的以防止log(0).
有关详细信息,请参阅William Lowe,Kenneth Benoit,Slava Mikhaylov和Michael Laver.(2011)"从编码政治文本中扩展政策偏好".立法研究季刊26(1,2月):123-155.我们比较他们测量左右意识形态的属性,但我们讨论的所有内容也适用于正面负面情绪.
| 归档时间: |
|
| 查看次数: |
6906 次 |
| 最近记录: |