小编Kev*_*Lee的帖子

python中的单词聚类列表

我是文本挖掘的新手,这是我的情况。假设我有一个单词列表 ['car', 'dog', 'puppy', 'vehicle'],我想将单词分为 k 组,我希望输出为 [['car', 'vehicle'] ]、['狗'、'小狗']]。我首先计算每个成对单词的相似度得分,以获得 4x4 矩阵(在本例中)M,其中 Mij 是单词 i 和 j 的相似度得分。将单词转换为数字数据后,我利用不同的聚类库(例如sklearn)或自己实现它来获取单词簇。

我想知道这种方法有意义吗?另外,k的值如何确定呢?更重要的是,我知道存在不同的聚类技术,我在想我是否应该使用 k-means 或 k-medoids 进行词聚类?

python nlp cluster-analysis text-mining

8
推荐指数
2
解决办法
2万
查看次数

标签 统计

cluster-analysis ×1

nlp ×1

python ×1

text-mining ×1