小编Dam*_*mio的帖子

相干性分数 (u_mass) -18 是好是坏?

我读了这个问题(相干分数 0.4 是好还是坏?),发现相干分数(u_mass)是从 -14 到 14。但是当我做实验时,我得到的 u_mass 分数为 -18,c_v 分数为 0.67 。我想知道我的 u_mass 分数如何超出范围 (-14, 14)?

更新:我使用gensim库并扫描了从2到50的主题数量。对于u_mass,它从0开始到最低的负点并返回一点,就像c_v的颠倒版本。

nlp lsa lda topic-modeling topicmodels

4
推荐指数
1
解决办法
1万
查看次数

在 Spacy 中向标记器添加一些自定义单词

我有一个句子,希望看到如下预期的标记。

Sentence: "[x] works for [y] in [z]."
Tokens: ["[", "x", "]", "works", "for", "[", "y", "]", "in", "[", "z", "]", "."]
Expected: ["[x]", "works", "for", "[y]", "in", "[z]", "."]
Run Code Online (Sandbox Code Playgroud)

如何通过自定义分词器函数来做到这一点?

python tokenize spacy

2
推荐指数
1
解决办法
2063
查看次数

标签 统计

lda ×1

lsa ×1

nlp ×1

python ×1

spacy ×1

tokenize ×1

topic-modeling ×1

topicmodels ×1