Ale*_*lex 5 cluster-analysis scikit-learn
我使用 scikit-learnTfidfVectorizer以及高度定制的停用词和 nlp 词干提取将 100,000 个句子处理成 TF-IDF 向量。我的目标是使用 dbscan 或其他基于密度的集群对句子进行聚类,以发现相似的句子。
在 scikit-learn 的 dbscan 实现中,当我对超过 40,000 个句子进行聚类时,我会耗尽内存。我看到过使用 ELKI 的 Java 集群 GUI 的建议。我想尝试在 Java 中进行聚类,但我找不到将 TF-IDF 向量从 Python 移动到 ELKI 的方法。ELKI 的文档指出它可以处理特定格式或 .arff 中的稀疏向量。
| 归档时间: |
|
| 查看次数: |
630 次 |
| 最近记录: |