我在一组文本文档(大约100)上应用了聚类.我将它们转换为Tfidf矢量使用TfIdfVectorizer并提供矢量作为输入scikitlearn.cluster.KMeans(n_clusters=2, init='k-means++', max_iter=100, n_init=10).现在当我
model.fit()
print model.score()
Run Code Online (Sandbox Code Playgroud)
在我的向量上,如果所有文本文档非常相似,我会得到一个非常小的值,如果文档非常不同,我得到一个非常大的负值.
它的基本目的是找到哪一组文件是相似的,但是有人可以帮我理解这个model.score()值究竟是什么意味着合适吗?如何使用此值来证明我的发现?
我正在研究dijkstra,我得到这个错误:TypeError:unorderable类型:Vertex()<Vertex()
整个错误日志是:
Traceback (most recent call last):
File "C:/Users/Dimitar/PycharmProjects/Dijkstra/Dijkstra.py", line 165, in <module>
dijkstra(g, g.get_vertex('a'))
File "C:/Users/Dimitar/PycharmProjects/Dijkstra/Dijkstra.py", line 101, in dijkstra
heapq.heapify(unvisited_queue)
TypeError: unorderable types: Vertex() < Vertex()
Run Code Online (Sandbox Code Playgroud)
这是我的代码:
import sys
class Vertex:
def __init__(self, node):
self.id = node
self.adjacent = {}
# Set distance to infinity for all nodes
self.distance = sys.maxsize
# Mark all nodes unvisited
self.visited = False
# Predecessor
self.previous = None
def add_neighbor(self, neighbor, weight=0):
self.adjacent[neighbor] = weight
def get_connections(self):
return self.adjacent.keys()
def get_id(self):
return …Run Code Online (Sandbox Code Playgroud)