任务
我有一个pandas数据框,其中:
我需要计算一个新的doc1-doc相似矩阵,其中:
余弦距离由script.spatial.distance.cosine方便地提供.
我现在正在这样做:
问题
但这需要很长时间.下面显示了MacBook Pro 13的当前速度,16GB内存和2.9GHz i5cpu运行最新的anaconda python 3.5 ...绘制了对文档组合的时间.
您可以看到100,000个组合需要1200秒.将其外推到我的7944个文档的语料库中,创建3个1,549,596个组合,需要5天才能计算出这个相似性矩阵!
有任何想法吗?
这是代码(github)
docs_combinations = itertools.combinations(docs_sample, 2)
for doc1, doc2 in docs_combinations:
# scipy cosine similarity function includes normalising the vectors but is a distance .. so we need to take it from 1.0
doc_similarity_dict[doc2].update({doc1: 1.0 …Run Code Online (Sandbox Code Playgroud)