我是集群的新手,需要一些关于如何处理这个问题的建议......
假设我有数千个句子,但样本中的一些可能是:
为了将这些最佳方式聚类,我可以采取什么方法?
我已经研究了带有单词矢量的k -means,但是当我有成千上万的句子可能都包含不同的单词时,建立一个这样大小的矢量是否有效,然后通过每个试图查看哪个句子有这些单词?
我还没有找到其他什么方法?
到目前为止我做了什么:
python cluster-analysis machine-learning k-means
cluster-analysis ×1
k-means ×1
machine-learning ×1
python ×1