我是文本挖掘的新手,这是我的情况。假设我有一个单词列表 ['car', 'dog', 'puppy', 'vehicle'],我想将单词分为 k 组,我希望输出为 [['car', 'vehicle'] ]、['狗'、'小狗']]。我首先计算每个成对单词的相似度得分,以获得 4x4 矩阵(在本例中)M,其中 Mij 是单词 i 和 j 的相似度得分。将单词转换为数字数据后,我利用不同的聚类库(例如sklearn)或自己实现它来获取单词簇。
我想知道这种方法有意义吗?另外,k的值如何确定呢?更重要的是,我知道存在不同的聚类技术,我在想我是否应该使用 k-means 或 k-medoids 进行词聚类?