如何根据共现矩阵计算相似度?

kit*_*sin 5 python matrix cosine-similarity find-occurrences

我有一个项目-项目矩阵 (1877 x 1877)。矩阵中的值表示两个项目同时出现的次数。如何确定两个项目之间的相似性?通过阅读,我发现很少有选择。但是我不确定这些方法。任何有关入门的意见都将受到赞赏。

  1. 使用余弦计算两个向量之间的 sim
  2. 将其转换为图表,使用 simrank 等度量来计算相似性 - 可以使用出现次数作为两个节点之间的权重。

mbe*_*ski 1

您可以将其分为 1877 个项目,每个项目有 1877 个功能。如果两个项目相似,那么它们的共现也会相似。鉴于您可能会使用它NearestNeighbors来找到最接近的一个。可能有可用的指标。

此外,重新处理数据可能会对您有所帮助。我不知道它的分布,但你可能想将值标准化到范围 [0;1] 或做类似的事情。