将数据从 Scikit-Learn 移动到 Elki 进行聚类

Ale*_*lex 5 cluster-analysis scikit-learn

我使用 scikit-learnTfidfVectorizer以及高度定制的停用词和 nlp 词干提取将 100,000 个句子处理成 TF-IDF 向量。我的目标是使用 dbscan 或其他基于密度的集群对句子进行聚类,以发现相似的句子。

在 scikit-learn 的 dbscan 实现中,当我对超过 40,000 个句子进行聚类时,我会耗尽内存。我看到过使用 ELKI 的 Java 集群 GUI 的建议。我想尝试在 Java 中进行聚类,但我找不到将 TF-IDF 向量从 Python 移动到 ELKI 的方法。ELKI 的文档指出它可以处理特定格式或 .arff 中的稀疏向量。

  1. 最具体的问题。任何人都可以建议如何将 scikit-learn 中的 TFIDF 向量转换为可以加载到 ELKI 中的格式。
  2. ELKI 会比 scikit-learn 更好地管理内存吗?或者这是毫无意义的工作?