如何正确组织人的搜索?

LA_*_*LA_ 5 algorithm google-cloud-datastore

假设我的数据存储区中有人员列表.每个人可能有以下字段:

  • 姓 (*)
  • 名字
  • 中间名字
  • ID (*)
  • 驾驶执照ID(*)
  • 另一个id(*)
  • 出生日期
  • 区域
  • 出生地

至少有一个标有(*)的字段必须存在.

现在,用户为我提供了相同的字段列表(并且必须再次提供至少一个标有(*)的字段).我应该搜索用户提供的人.但并非所有字段都应匹配.我应该以某种方式向用户显示我在搜索结果中的确定性.就像是:

  • 如果人匹配idlast name(并且用户只提供了这两个字段用于搜索),那么我确信结果是正确的(100%);
  • 如果人匹配idlast name(并且用户提供了在数据库中找到但未匹配的其他字段),那么我确信结果几乎是正确的60%;
  • 等等

(数字仅作为示例提供)

我该如何组织这样的搜索?有没有标准的算法?我还想尽量减少对数据库的请求数量.

PS我无法向用户提供数据库中的实际字段值.

nar*_*133 1

听起来您确定匹配质量的逻辑太复杂,无法在数据库层处理。我认为通过检索与至少一个强制键匹配的所有记录、计算内存中每个记录的匹配分数并返回最佳分数,您将获得最佳性能。例如,如果用户向您提供 ID、姓氏和出生地,您的查询将类似于:

SELECT * FROM users WHERE id = `the_id` OR last_name = `the_last_name`;
Run Code Online (Sandbox Code Playgroud)

如果您有一个非常大的数据集,其中包含许多常见的姓氏,这可能会成为一个性能问题,但否则我希望不会看到太多冲突。您可以在 GAE 之外的您自己的数据集上检查这一点。如果所有必填字段必须通过将 更改ORAND.