匹配两个社交媒体配置文件

Lon*_*guy 3 algorithm math social-media graph-theory graph

如何检查来自两个不同社交媒体网站的两个配置文件是否相同?有哪些算法可以实现这一目标,从而为匹配分配权重度量?

假设我有来自LinkedIn的个人资料和来自Facebook的另一个个人资料.我知道这两个配置文件的属性.我可以实现什么算法来查找这两个配置文件之间的匹配距离.

谢谢Abhishek S.

ami*_*mit 6

您可以尝试机器学习算法,特别是分类

为简单起见,我们假设你想要一个二进制答案:是或否(这可以在以后改进).

你要做什么:

  1. 从两个配置文件中提取您拥有的功能,并为两个组合配置文件创建一个实例.这将是需要分类的实例
  2. 创建一个训练集.训练集是一组"实例",您知道它们的分类(通常通过手动标记它们).
  3. 在给定训练集的情况下运行分类算法 - 将"猜测"稍后将获得的未分类实例的分类.

您可能想要使用的一些算法是:

  1. SVM - 被许多人认为是当今最好的分类算法.
  2. 决策树 - 特别是C4.5 - 非常直观的分类器(人类可读!),使用简单,分类时间非常短.
  3. K最近邻 - 直观且易于使用,但在功能数量很大时表现不佳.

    • 您还可以使用交叉验证来评估结果的好坏程度.
    • 对于java - 有一个名为Weka的开源项目,它实现了这些分类算法等等.