小编And*_*y P的帖子

使用文档在Python中进行聚类

我是集群的新手,需要一些关于如何处理这个问题的建议......

假设我有数千个句子,但样本中的一些可能是:

  • 网络经验
  • 强大的销售经验
  • 强大的网络技能首选
  • 需要销售专家
  • 巧克力苹果
  • 工作对于网络专业是至关重要的

为了将这些最佳方式聚类,我可以采取什么方法?

我已经研究了带有单词矢量的k -means,但是当我有成千上万的句子可能都包含不同的单词时,建立一个这样大小的矢量是否有效,然后通过每个试图查看哪个句子有这些单词?

我还没有找到其他什么方法?

到目前为止我做了什么:

  • 将句子从CSV导入DICT,ID:Sentence
  • 我正在删除每个句子中的停用词
  • 然后,我将单独计算所有单词以构建主矢量并保持单词出现次数的计数.

python cluster-analysis machine-learning k-means

3
推荐指数
1
解决办法
1489
查看次数