小编409*_*ict的帖子

理解scikit-learn KMeans返回的"得分"

我在一组文本文档(大约100)上应用了聚类.我将它们转换为Tfidf矢量使用TfIdfVectorizer并提供矢量作为输入scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10).现在当我

model.fit()
print model.score()

Run Code Online (Sandbox Code Playgroud)

在我的向量上,如果所有文本文档非常相似,我会得到一个非常小的值,如果文档非常不同,我得到一个非常大的负值.

它的基本目的是找到哪一组文件是相似的,但是有人可以帮我理解这个model.score()值究竟是什么意味着合适吗？如何使用此值来证明我的发现？

python k-means scikit-learn

Pra*_*wan

2015 09-03

18
推荐指数

3
解决办法

2万
查看次数

不可共享的类型:Vertex()<Vertex()

我正在研究dijkstra,我得到这个错误:TypeError:unorderable类型:Vertex()<Vertex()

整个错误日志是:

Traceback (most recent call last):
  File "C:/Users/Dimitar/PycharmProjects/Dijkstra/Dijkstra.py", line 165, in <module>
    dijkstra(g, g.get_vertex('a'))
  File "C:/Users/Dimitar/PycharmProjects/Dijkstra/Dijkstra.py", line 101, in dijkstra
    heapq.heapify(unvisited_queue)
TypeError: unorderable types: Vertex() < Vertex()

Run Code Online (Sandbox Code Playgroud)

这是我的代码:

import sys


class Vertex:
    def __init__(self, node):
        self.id = node
        self.adjacent = {}
        # Set distance to infinity for all nodes
        self.distance = sys.maxsize
        # Mark all nodes unvisited        
        self.visited = False
        # Predecessor
        self.previous = None

    def add_neighbor(self, neighbor, weight=0):
        self.adjacent[neighbor] = weight

    def get_connections(self):
        return self.adjacent.keys()

    def get_id(self):
        return …

Run Code Online (Sandbox Code Playgroud)

python dijkstra priority-queue

Mit*_*tev

2015 11-13

4
推荐指数

1
解决办法

1811
查看次数