RECAPTCHA 从哪里得到这些词？

Question

我只是出于好奇而问。

今天我在被 RECAPTCHA 捕获时遇到了几个非常奇怪的词：

如果这些在任何语言中都是合理的词，那么谷歌搜索应该会产生一些在句子中使用这些词的合理页面。但是，上述单词的 Google 搜索结果数量为 3、0、27 和 0。对于其他合理的单词，这些命中显然是不可能的错别字。

那么 RECAPTCHA 从哪里得到这些词呢？（注意：“书籍”不是一个足够的答案:) 我正在寻找对看似不存在的词的高发生率的解释......）

Answer 1

嗯，答案是书。

它们可能是从其他语言扫描错误的，甚至可能是作者写错了。

我建议你阅读 Recaptcha 的关于页面。

精益求精

为了存档人类知识并使世界更容易获取信息，多个项目目前正在将计算机时代之前编写的实体书籍数字化。书页被照相扫描，然后使用“光学字符识别”（OCR）转换成文本。转换为文本很有用，因为扫描书籍会产生图像，这些图像难以在小型设备上存储、下载成本高且无法搜索。问题是 OCR 并不完美。

替代文字

reCAPTCHA 通过将计算机无法读取的单词以 CAPTCHA 的形式发送到 Web 以供人类破译，从而改进了图书数字化过程。更具体地说，将 OCR 无法正确读取的每个单词放置在图像上并用作 CAPTCHA。这是可能的，因为大多数 OCR 程序会在无法正确读取单词时提醒您。

正如我所说，OCR 中的错误 -

polietry - 很可能是从 Popliteal 扫描错误的 - 一个医学术语。

@Wil：这没有任何意义。您似乎在暗示我看到的词是 OCR 的*结果*。显然情况并非如此。它们是一本书的扫描件。它们是*那些 OCR 失败的单词的扫描。* (3认同)
@Timwi - 再次更新我的答案，我确定这只是 OCR 错误，如果您曾经扫描过文档，您总是会遇到这样的问题。它也可能是来自不同语言的 OCR 中的错误，我从来没有说它只是其中之一......为什么 Recaptcha 会谎报他们的来源！？ (2认同)
@Timwi - 为什么是这种态度？这个人只是想帮忙（并且尽其所能）。是的，它们是 OCR 的结果……没有人说 OCR 是完美的，而且结果是正确的。扫描书籍，OCR，验证结果，如果有任何疑问，将原始扫描作为验证码。是的，他们也使用其他语言——就在前几天，我偶然发现了一些来自我自己的语言（非常小的欧洲语言）的单词。 (2认同)
@Timwi - 不，不一定。Google 仅显示过去 30 年中大多数语言的部分内容。语言变化。我的书架上现在有一些书，里面的词在今天不再用于写作或演讲，并且在谷歌/互联网上几乎不会出现。如果英语不是今天的通用语，那肯定会是类似的情况（尝试比较莎士比亚的英语和美国英语......） (2认同)