用于情感分析的 Python VADER 词典结构

Question

用于情感分析的 Python VADER 词典结构

我正在使用 Python nltk 库中的 VADER 情感词典来分析文本情感。这个词典不太适合我的领域，所以我想将我自己的情感分数添加到各种单词中。因此，我使用了词典文本文件 (vader_lexicon.txt) 来做到这一点。但是，我不太了解这个文件的架构。例如，像obliterate这样的单词将在文本文件中包含以下数据：obliterate -2.9 0.83066 [-3, -4, -3, -3, -3, -3, -2, -1, -4, - 3]

显然 -2.9 是列表中情绪分数的平均值。但 0.83066 代表什么？

谢谢！

Answer 1

DYZ*_*DYZ 5

根据VADER 源代码，仅使用每行的第一个数字。该行的其余部分将被忽略：

for line in self.lexicon_full_filepath.split('\n'):
    (word, measure) = line.strip().split('\t')[0:2] # Here!
    lex_dict[word] = float(measure)

Run Code Online (Sandbox Code Playgroud)

归档时间：	7 年，6 月前
查看次数：	1761 次
最近记录：	7 年前