小编Kev*_*Lee的帖子

python中的单词聚类列表

我是文本挖掘的新手，这是我的情况。假设我有一个单词列表 ['car', 'dog', 'puppy', 'vehicle']，我想将单词分为 k 组，我希望输出为 [['car', 'vehicle'] ]、['狗'、'小狗']]。我首先计算每个成对单词的相似度得分，以获得 4x4 矩阵（在本例中）M，其中 Mij 是单词 i 和 j 的相似度得分。将单词转换为数字数据后，我利用不同的聚类库（例如sklearn）或自己实现它来获取单词簇。

我想知道这种方法有意义吗？另外，k的值如何确定呢？更重要的是，我知道存在不同的聚类技术，我在想我是否应该使用 k-means 或 k-medoids 进行词聚类？

python nlp cluster-analysis text-mining

Kev*_*Lee

lucky-day

8
推荐指数

2
解决办法

2万
查看次数