kit*_*sin 5 python matrix cosine-similarity find-occurrences
我有一个项目-项目矩阵 (1877 x 1877)。矩阵中的值表示两个项目同时出现的次数。如何确定两个项目之间的相似性?通过阅读,我发现很少有选择。但是我不确定这些方法。任何有关入门的意见都将受到赞赏。
您可以将其分为 1877 个项目,每个项目有 1877 个功能。如果两个项目相似,那么它们的共现也会相似。鉴于您可能会使用它NearestNeighbors来找到最接近的一个。可能有可用的指标。
此外,重新处理数据可能会对您有所帮助。我不知道它的分布,但你可能想将值标准化到范围 [0;1] 或做类似的事情。