RECAPTCHA 从哪里得到这些词?

Tim*_*mwi 3 captcha

我只是出于好奇而问。

今天我在被 RECAPTCHA 捕获时遇到了几个非常奇怪的词:

  • 内德尔姆斯
  • 总和
  • 政治
  • 格雷沃尔法

如果这些在任何语言中都是合理的词,那么谷歌搜索应该会产生一些在句子中使用这些词的合理页面。但是,上述单词的 Google 搜索结果数量为 3、0、27 和 0。对于其他合理的单词,这些命中显然是不可能的错别字。

那么 RECAPTCHA 从哪里得到这些词呢?(注意:“书籍”不是一个足够的答案:) 我正在寻找对看似不存在的词的高发生率的解释......)

Wil*_*sum 8

嗯,答案是书。

它们可能是从其他语言扫描错误的,甚至可能是作者写错了。

我建议你阅读 Recaptcha 的关于页面

精益求精

为了存档人类知识并使世界更容易获取信息,多个项目目前正在将计算机时代之前编写的实体书籍数字化。书页被照相扫描,然后使用“光学字符识别”(OCR)转换成文本。转换为文本很有用,因为扫描书籍会产生图像,这些图像难以在小型设备上存储、下载成本高且无法搜索。问题是 OCR 并不完美。

替代文字

reCAPTCHA 通过将计算机无法读取的单词以 CAPTCHA 的形式发送到 Web 以供人类破译,从而改进了图书数字化过程。更具体地说,将 OCR 无法正确读取的每个单词放置在图像上并用作 CAPTCHA。这是可能的,因为大多数 OCR 程序会在无法正确读取单词时提醒您。

编辑

正如我所说,OCR 中的错​​误 -

我相信 Indelms 应该是印度人 -来自美国法规第 40 部分第 2 部分

polietry - 很可能是从 Popliteal 扫描错误的 - 一个医学术语。

  • @Wil:这没有任何意义。您似乎在暗示我看到的词是 OCR 的*结果*。显然情况并非如此。它们是一本书的扫描件。它们是*那些 OCR 失败的单词的扫描。* (3认同)
  • @Timwi - 再次更新我的答案,我确定这只是 OCR 错误,如果您曾经扫描过文档,您总是会遇到这样的问题。它也可能是来自不同语言的 OCR 中的错​​误,我从来没有说它只是其中之一......为什么 Recaptcha 会谎报他们的来源!? (2认同)
  • @Timwi - 为什么是这种态度?这个人只是想帮忙(并且尽其所能)。是的,它们是 OCR 的结果……没有人说 OCR 是完美的,而且结果是正确的。扫描书籍,OCR,验证结果,如果有任何疑问,将原始扫描作为验证码。是的,他们也使用其他语言——就在前几天,我偶然发现了一些来自我自己的语言(非常小的欧洲语言)的单词。 (2认同)
  • @Timwi - 不,不一定。Google 仅显示过去 30 年中大多数语言的部分内容。语言变化。我的书架上现在有一些书,里面的词在今天不再用于写作或演讲,并且在谷歌/互联网上几乎不会出现。如果英语不是今天的通用语,那肯定会是类似的情况(尝试比较莎士比亚的英语和美国英语......) (2认同)