为可靠的基于人口统计的患者匹配推荐的最低匹配标准是什么?

30 identity

当根据人口统计数据匹配患者时,是否有关于哪些字段应该匹配才能使患者成为“同一患者”的建议?

我知道算法对于不同的实现会有所不同,我只是很好奇是否有关于此过程的最佳实践或建议。

First Name
Last Name
Date of Birth
SSN
Address
City
State
Zip
Run Code Online (Sandbox Code Playgroud)

等等?

小智 20

这个伟大的文章(在西班牙,抱歉)写的巴勃罗·帕索斯,从乌拉圭CS工程师谁一直在医疗保健IT自2006年以来,并取得到外地,他描述的算法做一些这方面的巨大贡献。

您可以通过翻译来运行这篇文章,但其要点是确定一个人身份的基本信息是他们的姓名和姓氏(来自父亲和母亲)、性别和出生日期。有趣的是,他特别从身份匹配算法中排除了诸如 SSN 之类的 id 号码,因为“任何类型的标识符都不是他身份的一部分”(不过,我想这一点可能存在争议)。此外,他排除了街道地址、电话号码等属性,因为它们与某人的身份并没有真正相关,也与“某人究竟是谁”无关。

此外,他为前面的每个属性分配了不同的“权重”,如下所示:

  • 名字:17.5%
  • 中间名:17.5%
  • 姓氏(父亲):17.5%
  • 姓氏(母亲):17.5%
  • 性别:10%
  • 出生时间:20%

通过在这些属性中的每一个上找到匹配,他描述了一种获得复合“一致性匹配索引”的方法,通过该索引可以在记录之间进行比较。此外,通过使用Levenshtein's distance等算法,可以对名称属性进行“部分”匹配。

读得好,海事组织。对不起,它是西班牙语,但我希望我能够传达它的主要思想。

  • 这太好了,谢谢。+1 还因为提到距离作为错别字很常见,尤其是在文化背景高度多样化的社区中,这在北美经常发生。也就是说,我必须执行匹配可能值域的大多数实例都非常受限。因此,在这些情况下,在数据库中返回单个命中的任何可靠标准(例如健康保险号码)就足够了,如果返回多个条目,我倾向于询问用户(如果可用)或使用其他标准进行过滤。 (2认同)

小智 13

没有用于患者匹配的单一魔法算法,我怀疑永远不会有。

首先,存在地区差异。正如 MMattoli 指出的那样,在美国城市医院运作良好的方法可能不适用于治疗原住民的澳大利亚农村诊所。

此外,各个站点对容错性有不同的看法。如果你只在你绝对确定的时候匹配,你会得到很多错过的匹配。这会导致重复的患者记录,从而产生一系列其他问题。大多数网站都愿意接受非常确定,但有多确定就足够了?问 10 个人,你会得到 12 个答案。

因此,“最佳”算法将是可配置的,因此您的客户可以对其进行调整以满足他们的需求。

在考虑匹配时,不同的字段提供不同程度的置信度。

特定于医疗保健的标识符提供了最大的信心,因为它们的全部目的是唯一地识别医疗系统中的人员。医院通常会竭尽全力确保这些不会重复。

例子:

  • 国民健康 ID(例如英国 NHS 号码)
  • 医院指定的病历编号。

取决于系统,其他患者标识符也可以提供高可信度。例如,军人 ID 可能与军队医院非常相关。

例子:

  • 军人身份证
  • 保险编号
  • 社会安全号码(在美国,由于保险欺诈猖獗,社会安全号码通常被认为是高度可信的匹配。)

在没有唯一标识符的情况下,人们必须求助于人口统计信息。在任何一个领域进行匹配都是不明智的,但人口统计领域匹配越多,匹配就越有信心。

一个人不经常改变的事情有利于匹配:

  • 姓名
  • 性别
  • 出生日期

但是在比赛中可以考虑更多可塑性的信息来增强信心:

  • 地址
  • 电话号码
  • 电子邮件地址

  • SSN 也有一些非常严格的限制,例如在加拿大,除非您是雇主或银行,否则要求它是违法的(也许还有一些,我不是律师)。其他地方,比如中国,他们几乎用它做任何事情,甚至在交通繁忙的假期购买火车票。 (3认同)

小智 7

也值得检查以前的姓氏,因为这些经常变化。