我有一个通过运行创建的向量列表:
import hcluster
import numpy as np
from ete2 import Tree
vecs = [np.array(i) for i in document_list]
Run Code Online (Sandbox Code Playgroud)
其中document_list是我正在分析的Web文档的集合.然后我执行分层聚类:
Z = hcluster.linkage(vecs, metric='cosine')
Run Code Online (Sandbox Code Playgroud)
这会生成一个ndarray,例如:
[[ 12. 19. 0. 1. ]
[ 15. 21. 0. 3. ]
[ 18. 22. 0. 4. ]
[ 3. 16. 0. 7. ]
[ 8. 23. 0. 6. ]
[ 5. 27. 0. 6. ]
[ 1. 28. 0. 7. ]
[ 0. 21. 0. 2. ]
[ 5. 29. 0.18350472 2. ]
[ 2. …Run Code Online (Sandbox Code Playgroud)