Ash*_*Ash 7 java algorithm information-retrieval
看过这个网站是否有类似的问题,我发现了这个:http://math.nist.gov/javanumerics/jama/和这个:http://sujitpal.blogspot.com/2008/09/ir-math-with- java的相似性measures.html
但是,它们似乎在O(n ^ 2)中运行.我一直在做一些文档聚类,并注意到处理甚至小文档集时这种复杂程度是不可行的.给定点积,我们只需要两个向量中包含的向量项,就可以将向量放在树中,从而计算出具有n log n复杂度的点积,其中n是唯一项中最低的唯一项数. 2个文件中的1个.
我错过了什么吗?有没有一个java库可以做到这一点?
谢谢